論文の概要: Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception
- arxiv url: http://arxiv.org/abs/2510.12720v1
- Date: Tue, 14 Oct 2025 17:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.404871
- Title: Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception
- Title(参考訳): Omni-Captioner: Omniの詳細な認識のためのデータパイプライン、モデル、ベンチマーク
- Authors: Ziyang Ma, Ruiyang Xu, Zhenghao Xing, Yunfei Chu, Yuxuan Wang, Jinzheng He, Jin Xu, Pheng-Ann Heng, Kai Yu, Junyang Lin, Eng Siong Chng, Xie Chen,
- Abstract要約: 我々は、データパイプライン、モデル、ベンチマークの観点から、Omniの詳細な認識を体系的で包括的に調査する。
ツールコールを統合したエージェントデータ生成パイプラインであるOmni-Detectiveを提案する。
Omni-Detectiveで生成されたデータに基づいて、2つのキャプションモデル:音声のみの詳細な知覚のためのオーディオ・キャプション・キャプション・モデルと、音声視覚による詳細な知覚のためのOmni-Captionerを訓練する。
- 参考スコア(独自算出の注目度): 97.32606786622728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained perception of multimodal information is critical for advancing human-AI interaction. With recent progress in audio-visual technologies, Omni Language Models (OLMs), capable of processing audio and video signals in parallel, have emerged as a promising paradigm for achieving richer understanding and reasoning. However, their capacity to capture and describe fine-grained details remains limited explored. In this work, we present a systematic and comprehensive investigation of omni detailed perception from the perspectives of the data pipeline, models, and benchmark. We first identify an inherent "co-growth" between detail and hallucination in current OLMs. To address this, we propose Omni-Detective, an agentic data generation pipeline integrating tool-calling, to autonomously produce highly detailed yet minimally hallucinatory multimodal data. Based on the data generated with Omni-Detective, we train two captioning models: Audio-Captioner for audio-only detailed perception, and Omni-Captioner for audio-visual detailed perception. Under the cascade evaluation protocol, Audio-Captioner achieves the best performance on MMAU and MMAR among all open-source models, surpassing Gemini 2.5 Flash and delivering performance comparable to Gemini 2.5 Pro. On existing detailed captioning benchmarks, Omni-Captioner sets a new state-of-the-art on VDC and achieves the best trade-off between detail and hallucination on the video-SALMONN 2 testset. Given the absence of a dedicated benchmark for omni detailed perception, we design Omni-Cloze, a novel cloze-style evaluation for detailed audio, visual, and audio-visual captioning that ensures stable, efficient, and reliable assessment. Experimental results and analysis demonstrate the effectiveness of Omni-Detective in generating high-quality detailed captions, as well as the superiority of Omni-Cloze in evaluating such detailed captions.
- Abstract(参考訳): マルチモーダル情報のきめ細かい認識は、人間とAIの相互作用を促進するために重要である。
近年の音声・視覚技術の発展に伴い、音声・ビデオ信号の並列処理が可能なOmni Language Models (OLMs) が、より豊かな理解と推論を実現するための有望なパラダイムとして登場した。
しかし、細かな細部を捉え、記述する能力は依然として限定的である。
本研究では,データパイプライン,モデル,ベンチマークの観点からのオムニの詳細な認識を体系的かつ包括的に調査する。
我々はまず,現在のOLMにおけるディテールと幻覚の間に固有の「コグロース」を同定する。
そこで本稿では,ツールコールを統合したエージェントデータ生成パイプラインであるOmni-Detectiveを提案する。
Omni-Detectiveで生成されたデータに基づいて、2つのキャプションモデル:音声のみの詳細な知覚のためのオーディオ・キャプション・キャプション・モデルと、音声視覚による詳細な知覚のためのOmni-Captionerを訓練する。
カスケード評価プロトコルの下で、Audio-Captionerは、すべてのオープンソースモデルの中でMMAUとMMARで最高のパフォーマンスを達成し、Gemini 2.5 Flashを超え、Gemini 2.5 Proに匹敵するパフォーマンスを提供する。
既存の詳細なキャプションベンチマークでは、Omni-CaptionerはVDCに新しい最先端技術を設定し、ビデオSALMONN 2テストセットのディテールと幻覚の最良のトレードオフを達成する。
Omni-Cloze は,Omni-Cloze という,音声,視覚,視覚の詳細なキャプションのための新しいクローゼスタイルの評価手法であり,安定した,効率的な,信頼性の高い評価を可能にする。
その結果,Omni-Detectiveが高品質な詳細なキャプション生成に有効であること,また,このようなキャプション評価にOmni-Clozeが優れていることが確認された。
関連論文リスト
- OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination [32.43796002503023]
Omni-modal large language model (OLLM) における幻覚を軽減するために設計された好み調整フレームワークであるOmniDPOを提案する。
両課題に対処することにより、OmniDPOはマルチモーダルグラウンドを効果的に改善し、幻覚を減少させる。
論文 参考訳(メタデータ) (2025-08-31T07:19:32Z) - OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。
OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。
我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文 参考訳(メタデータ) (2025-05-24T16:29:34Z) - OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs [6.365802395342737]
ゼロショット感情認識タスクにおける4つのオムニ-LLMの最初の体系的評価であるOmniVoxを提案する。
我々は、IEMOCAPとMELDの2つの広く使われているマルチモーダル感情ベンチマークを評価し、ゼロショットのOmni-LLMが優れているか、微調整されたオーディオモデルと競合するかを見出した。
本稿では、音響特徴分析、会話コンテキスト分析、ステップバイステップ推論に焦点を当てた、オムニ-LLMの音声特異的プロンプト戦略である音響プロンプトについて述べる。
論文 参考訳(メタデータ) (2025-03-27T13:12:49Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。