Fugu-MT 論文翻訳(概要): OmniGAIA: Towards Native Omni-Modal AI Agents

論文の概要: OmniGAIA: Towards Native Omni-Modal AI Agents

arxiv url: http://arxiv.org/abs/2602.22897v1
Date: Thu, 26 Feb 2026 11:35:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.665425
Title: OmniGAIA: Towards Native Omni-Modal AI Agents
Title（参考訳）: OmniGAIA: ネイティブなOmni-Modal AIエージェントを目指して
Authors: Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, Shijian Wang, Guanting Dong, Jiajie Jin, Hao Wang, Yinuo Wang, Ji-Rong Wen, Yuan Lu, Zhicheng Dou,
Abstract要約: 我々は、深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計されたベンチマークを導入する。我々は,Omni-modal foundation agentであるOmniAtlasを提案する。
参考スコア（独自算出の注目度）: 103.79729735478924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human intelligence naturally intertwines omni-modal perception -- spanning vision, audio, and language -- with complex reasoning and tool usage to interact with the world. However, current multi-modal LLMs are primarily confined to bi-modal interactions (e.g., vision-language), lacking the unified cognitive capabilities required for general AI assistants. To bridge this gap, we introduce OmniGAIA, a comprehensive benchmark designed to evaluate omni-modal agents on tasks necessitating deep reasoning and multi-turn tool execution across video, audio, and image modalities. Constructed via a novel omni-modal event graph approach, OmniGAIA synthesizes complex, multi-hop queries derived from real-world data that require cross-modal reasoning and external tool integration. Furthermore, we propose OmniAtlas, a native omni-modal foundation agent under tool-integrated reasoning paradigm with active omni-modal perception. Trained on trajectories synthesized via a hindsight-guided tree exploration strategy and OmniDPO for fine-grained error correction, OmniAtlas effectively enhances the tool-use capabilities of existing open-source models. This work marks a step towards next-generation native omni-modal AI assistants for real-world scenarios.
Abstract（参考訳）: ヒューマンインテリジェンス(Human Intelligence)は、世界と対話するための複雑な推論とツールの使用によって、視覚、音声、言語にまたがる雑多な知覚に自然に干渉する。しかし、現在のマルチモーダルLLMは主にバイモーダル相互作用(例えば視覚言語)に限られており、一般的なAIアシスタントに必要な統合認知能力が欠如している。このギャップを埋めるために、ビデオ、オーディオ、画像モダリティ間での深い推論とマルチターンツールの実行を必要とするタスクにおいて、オムニモーダルエージェントを評価するために設計された包括的なベンチマークであるOmniGAIAを紹介する。 OmniGAIAは、新しいOmni-modalイベントグラフアプローチによって構築され、クロスモーダル推論と外部ツールの統合を必要とする実世界のデータから派生した複雑なマルチホップクエリを合成する。さらに,Omni-modal foundation agentであるOmniAtlasを提案する。後見誘導木探索戦略と細粒度誤差補正のためのOmniDPOによって合成された軌道上での訓練により、OmniAtlasは既存のオープンソースモデルのツール使用能力を効果的に強化する。この研究は、現実世界のシナリオのための次世代のOmni-modal AIアシスタントへの一歩となる。

関連論文リスト

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding [23.176694412214157]
オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
論文参考訳（メタデータ） (2025-12-29T17:59:05Z)
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [146.029449832893]
我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
論文参考訳（メタデータ） (2025-10-17T17:59:59Z)
OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation [49.66156306240961]
視覚に基づくナビゲーションのためのオムニモーダル目標条件付けを可能にするロボット基礎モデルのトレーニングフレームワークを提案する。提案手法は,高容量な視覚-言語-アクションバックボーンと,3つの主要目標モードを持つトレーニングを利用する。我々は、OmniVLAが、モダリティにまたがるスペシャリストのベースラインを上回り、新しいモダリティやタスクに微調整するための柔軟な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-09-23T18:40:29Z)
Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。 Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文参考訳（メタデータ） (2025-02-06T18:59:55Z)
OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。 OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文参考訳（メタデータ） (2024-10-16T04:29:46Z)
OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文参考訳（メタデータ） (2024-09-23T17:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。