論文の概要: Logics-Parsing-Omni Technical Report
- arxiv url: http://arxiv.org/abs/2603.09677v2
- Date: Thu, 12 Mar 2026 12:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.456681
- Title: Logics-Parsing-Omni Technical Report
- Title(参考訳): ロジック・パーシング・オムニ技術報告
- Authors: Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Yan Gao, Yuan Gao, Baoyu Hou, Guangzheng Hu, Shuzhao Li, Weixu Qiao, Weidong Ren, Yanan Wang, Boyu Yang, Fan Yang, Jiangtao Zhang, Lixin Zhang, Lin Qu, Hu Wei, Xiaoxiao Xu, Bing Zhao,
- Abstract要約: 本稿では,断片化タスク定義の課題とマルチモーダル解析における非構造化データの均一性に対処するOmni Parsingフレームワークを提案する。
このフレームワークの重要な利点は、そのエビデンスアンカー機構であり、ハイレベルなセマンティック記述と低レベルな事実の厳密な一致を強制する。
これにより、エビデンスに基づく'論理的帰納化が可能となり、構造化されていない信号を、位置可能で、エナメル性があり、トレース可能な標準化された知識に変換する。
- 参考スコア(独自算出の注目度): 18.897248420641386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the challenges of fragmented task definitions and the heterogeneity of unstructured data in multimodal parsing, this paper proposes the Omni Parsing framework. This framework establishes a Unified Taxonomy covering documents, images, and audio-visual streams, introducing a progressive parsing paradigm that bridges perception and cognition. Specifically, the framework integrates three hierarchical levels: 1) Holistic Detection, which achieves precise spatial-temporal grounding of objects or events to establish a geometric baseline for perception; 2) Fine-grained Recognition, which performs symbolization (e.g., OCR/ASR) and attribute extraction on localized objects to complete structured entity parsing; and 3) Multi-level Interpreting, which constructs a reasoning chain from local semantics to global logic. A pivotal advantage of this framework is its evidence anchoring mechanism, which enforces a strict alignment between high-level semantic descriptions and low-level facts. This enables ``evidence-based'' logical induction, transforming unstructured signals into standardized knowledge that is locatable, enumerable, and traceable. Building on this foundation, we constructed a standardized dataset and released the Logics-Parsing-Omni model, which successfully converts complex audio-visual signals into machine-readable structured knowledge. Experiments demonstrate that fine-grained perception and high-level cognition are synergistic, effectively enhancing model reliability. Furthermore, to quantitatively evaluate these capabilities, we introduce OmniParsingBench. Code, models and the benchmark are released at https://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omni.
- Abstract(参考訳): 断片化タスク定義の課題とマルチモーダル解析における非構造化データの不均一性に対処するため,本稿ではOmni Parsingフレームワークを提案する。
このフレームワークは、文書、画像、オーディオ視覚ストリームをカバーする統一分類法を確立し、認識と認知を橋渡しするプログレッシブ解析パラダイムを導入する。
具体的には、このフレームワークは3つの階層レベルを統合している。
1) 物体又は事象の正確な時空間的接地を達成し,知覚の幾何学的ベースラインを確立するホロスティック検出
2 記号化(例えば、OCR/ASR)を行い、局所オブジェクトから属性抽出を行い、完全な構造化された実体解析を行う微粒化認識
3) ローカルセマンティクスからグローバル論理への推論チェーンを構成するマルチレベル解釈。
このフレームワークの重要な利点は、そのエビデンスアンカー機構であり、ハイレベルなセマンティック記述と低レベルな事実の厳密な一致を強制する。
これにより、'evidence-based'の論理的帰納化が可能となり、構造化されていない信号を、位置可能、エヌメタブル、トレーサブルな標準化された知識に変換する。
この基盤の上に、我々は標準化されたデータセットを構築し、複雑なオーディオ視覚信号を機械可読な構造化知識に変換するLogics-Parsing-Omniモデルをリリースした。
実験により、きめ細かい知覚と高レベルの認知は相乗的であり、モデルの信頼性を効果的に向上することが示された。
さらに、これらの機能を定量的に評価するために、OmniParsingBenchを紹介します。
コード、モデル、ベンチマークはhttps://github.com/alibaba/Logics-Parsing/tree/master/Logics-Parsing-Omniで公開されている。
関連論文リスト
- LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks [4.6880826836662814]
検証可能なトレーニングデータを合成するロジック駆動フレームワークである textbfLOGIGEN を紹介する。
2$-Benchでは、LOGIGEN-32B(RL)がtextbf79.5%の成功率を獲得し、ベースモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-28T08:35:30Z) - Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models [13.707653566827704]
トランスフォーマーモデルは、ドメインやタスク間で最先端のパフォーマンスを達成するが、その深い階層化表現により、予測の解釈が困難になる。
既存の説明可能性法は最終層属性に依存し、局所的なトークンレベルの属性か、統一せずにグローバルな注意パターンをキャプチャする。
本稿では,各トランスフォーマーブロック内の階層的に統合されたグラディエントを計算し,これらのトークンレベルの属性をクラス固有の注意勾配と融合する階層型属性フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:03:10Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - An Architecture-Led Hybrid Report on Body Language Detection Project [0.0]
本報告では、2つの近代視覚言語モデル(VLM)のアーキテクチャによる分析について述べる。
アーキテクチャプロパティがBodyLanguageDetectionで実装された実用的なビデオからアーティファクトパイプラインにどのようにマップされているかを説明する。
論文 参考訳(メタデータ) (2025-12-28T18:03:00Z) - FeClustRE: Hierarchical Clustering and Semantic Tagging of App Features from User Reviews [0.0]
FeClustREは、ハイブリッド機能抽出、階層クラスタリング、自動チューニング、セマンティックラベリングを統合したフレームワークである。
FeClustREを,クラスタリングの品質,セマンティックコヒーレンス,解釈可能性に関するAIアシスタントアプリレビューのサンプル調査と,その正しさの抽出のための公開ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-10-21T16:54:21Z) - Talk in Pieces, See in Whole: Disentangling and Hierarchical Aggregating Representations for Language-based Object Detection [39.748035737067745]
本稿では,言語に基づく物体検出のための文内階層関係に基づく言語表現の再構成を提案する。
重要な洞察は、テキストトークンを中核となる構成要素、属性、関係("talk in pieces")に切り離し、その後階層的に構造化された文レベルの表現に集約する必要性である。
OmniLabelベンチマークによる実験結果は24%のパフォーマンス向上を示し、言語構成の重要性を示している。
論文 参考訳(メタデータ) (2025-09-29T02:14:26Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。