論文の概要: Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation
- arxiv url: http://arxiv.org/abs/2605.12034v2
- Date: Wed, 13 May 2026 20:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.896222
- Title: Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation
- Title(参考訳): Omni-Modal Language Modelの強化: 視覚障害者評価による段階的なポストトレーニング
- Authors: Che Liu, Lichao Ma, Xiangyu Tony Zhang, Yuxin Zhang, Haoyang Zhang, Xuerui Yang, Fei Tian,
- Abstract要約: 本研究は,現在行われているOmni-modalベンチマークにおいて,真の音声-視覚-言語証拠統合と視覚的ショートカットを区別するか否かを考察する。
視覚のみの探索で9つのOmni-modalベンチマークを監査し、視覚的に解決可能なクエリを削除し、完全なサブセットを保持する。
視覚的漏洩を制御する場合,オムニモーダルな進行が容易に解釈できることが示唆された。
- 参考スコア(独自算出の注目度): 20.125825685200432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/
- Abstract(参考訳): オムニモーダル言語モデルは、音声、視覚的入力、言語を共同で理解することを目的としているが、視覚的証拠だけではクエリに答えるに足らない場合、ベンチマークゲインは膨らむことができる。
本研究は,現在行われているOmni-modalベンチマークにおいて,真の音声・視覚的証拠統合から視覚的ショートカットを分離するか否か,また,視覚的に偏った評価条件下でのポストトレーニングの動作について検討する。
視覚のみの探索で9つのオムニモーダルベンチマークを監査し、視覚的に解決可能なクエリを取り除き、フィルタリングが未定義である場合や、比較が不安定な場合、完全なサブセットを保持する。
これにより、16,968の監査クエリから8,551のクエリを保持するクリーンな評価ビューであるOmniCleanが得られる。
OmniCleanでは、Qwen2.5-Omni-3Bに基づく3段階のポストトレーニングレシピであるOmniBoostの評価を行った。
バランスのとれたバイモーダルSFTは制限付きかつ不均一なゲインを与え、RLVRは最初の広範な改善を提供し、自己蒸留はベンチマークプロファイルを再評価する。
自己蒸留データに対するSFT後、3Bモデルはより強力なオムニモードの教師を使わずに、Qwen3-Omni-30B-A3B-Instructに匹敵する性能に達する。
これらの結果から,視覚的漏洩を制御する場合,オムニモーダルの進行は容易に解釈でき,小オムニモーダルモデルは自己蒸留オムニクリー監督による後訓練の恩恵を受けることが示唆された。
プロジェクトページ: https://cheliu-computation.github.io/omni/
関連論文リスト
- Omni-Persona: Systematic Benchmarking and Improving Omnimodal Personalization [47.84878018101177]
オムニ・ペルソナ(Omni-Persona)は、オムニモーダルパーソナライゼーションのための最初の総合的なベンチマークである。
タスクを EmphPersona Modality Graph 上のクロスモーダルルーティングとして形式化し,4つのタスクグループと$sim750$項目にわたる18のきめ細かいタスクを包含する。
論文 参考訳(メタデータ) (2026-05-11T05:11:22Z) - MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models [70.34265674686516]
マルチモーダル埋め込みモデルは、テキスト、画像、ビデオ、オーディオなどの異種入力を共有意味空間にマッピングすることを目的としている。
本稿では,テキスト,画像,ビデオ,オーディオ,エージェント中心のシナリオにまたがる埋め込みを評価するベンチマークであるMMEB-V3を紹介する。
本研究は, 完全モダリティ埋め込みの系統的解析を行い, 3つの重要な知見を同定する。
論文 参考訳(メタデータ) (2026-04-25T14:15:05Z) - OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models [17.817469065260124]
オムニACBench(OmniACBench)は、Omni-Modalモデルにおいて、コンテキストグラウンド音響制御を評価するためのベンチマークである。
音声命令、テキストスクリプト、画像が与えられた場合、モデルは適切なトーンとやり方で読み取らなければならない。
8つのモデルでの実験では、テキスト出力評価に強い性能があるにもかかわらず、提案された設定において制限が示される。
論文 参考訳(メタデータ) (2026-03-25T05:00:51Z) - Omni-RRM: Advancing Omni Reward Modeling via Automatic Rubric-Grounded Preference Synthesis [22.55861092515539]
重要なボトルネックは、効果的な報酬モデル(RM)の欠如である。
我々は,最初のオープンソースルーリックグラウンド報酬モデルである textbf Omni-RRM を紹介する。
テキスト、画像、ビデオ、オーディオにまたがって、次元的に正当化された構造化された多次元の選好判断を生成する。
論文 参考訳(メタデータ) (2026-01-31T18:20:45Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。