論文の概要: Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off
- arxiv url: http://arxiv.org/abs/2602.23730v1
- Date: Fri, 27 Feb 2026 06:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.28747
- Title: Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off
- Title(参考訳): 認知能力のアンロックと知覚論理的トレードオフの分析
- Authors: Longyin Zhang, Shuo Sun, Yingxu He, Won Cheng Yi Lewis, Muhammad Huzaifah Bin Md Shahrin, Hardik Bhupendra Sailor, Heng Meng Jeremy Wong, Tarun Kumar Vangani, Yi Ma, Qiongqiong Wang, Minh Duc Pham, Ridong Jiang, Jingtao Li, Jingyi Liao, Zhuohan Liu, Yanfeng Lu, Manas Gupta, Ai Ti Aw,
- Abstract要約: パーセプションとReasoning機能を統合したプログレッシブトレーニングパイプラインを提案する。
長文音声におけるテンポラルドリフトを同定し、拡張推論により音響タイムスタンプからモデルを非同期化する。
本報告では、アーキテクチャ、データ効率のトレーニングレシピ、頑健な認識と構造化推論のトレードオフの診断分析について詳述する。
- 参考スコア(独自算出の注目度): 29.48293757752123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) pursue omni-perception capabilities, yet integrating robust sensory grounding with complex reasoning remains a challenge, particularly for underrepresented regions. In this report, we introduce the research preview of MERaLiON2-Omni (Alpha), a 10B-parameter multilingual omni-perception tailored for Southeast Asia (SEA). We present a progressive training pipeline that explicitly decouples and then integrates "System 1" (Perception) and "System 2" (Reasoning) capabilities. First, we establish a robust Perception Backbone by aligning region-specific audio-visual cues (e.g., Singlish code-switching, local cultural landmarks) with a multilingual LLM through orthogonal modality adaptation. Second, to inject cognitive capabilities without large-scale supervision, we propose a cost-effective Generate-Judge-Refine pipeline. By utilizing a Super-LLM to filter hallucinations and resolve conflicts via a consensus mechanism, we synthesize high-quality silver data that transfers textual Chain-of-Thought reasoning to multimodal scenarios. Comprehensive evaluation on our newly introduced SEA-Omni Benchmark Suite reveals an Efficiency-Stability Paradox: while reasoning acts as a non-linear amplifier for abstract tasks (boosting mathematical and instruction-following performance significantly), it introduces instability in low-level sensory processing. Specifically, we identify Temporal Drift in long-context audio, where extended reasoning desynchronizes the model from acoustic timestamps, and Visual Over-interpretation, where logic overrides pixel-level reality. This report details the architecture, the data-efficient training recipe, and a diagnostic analysis of the trade-offs between robust perception and structured reasoning.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の進歩は、Omni知覚能力を追求しているが、複雑な推論に頑健な感覚基盤を組み込むことは、特に未表現領域において課題である。
本報告では,東南アジア(SEA)向けに開発された10Bパラメトリック・マルチリンガル・オムニ・パーセプションであるMERaLiON2-Omni (Alpha)の研究プレビューを紹介する。
私たちは、明示的に分離し、"System 1"(知覚)と"System 2"(推論)機能を統合した、プログレッシブなトレーニングパイプラインを提示します。
まず,地域固有の音声-視覚的手がかり(例えば,Singlishのコードスイッチング,地域文化のランドマーク)を,直交モーダル適応による多言語LLMに整列させることにより,堅牢な知覚バックボーンを確立する。
第2に,大規模監視なしに認知能力を注入するために,コスト効率の高いジェネレート・ジャッジ・リファインパイプラインを提案する。
スーパーLLMを用いて幻覚をフィルタリングし、コンセンサス機構を介して紛争を解決することにより、テキストの連鎖推論をマルチモーダルシナリオに転送する高品質な銀データを合成する。
提案するSEA-Omni Benchmark Suiteの総合評価では,非線形アンプとして機能し(数学的および命令追従性能を著しく向上させる)ながら,低レベル感覚処理における不安定性を導入している。
具体的には、拡張推論が音響タイムスタンプからモデルを非同期化するロングコンテキストオーディオと、論理がピクセルレベルの現実をオーバーライドするVisual Over-prepretationにおいて、テンポラルドリフトを識別する。
本報告では、アーキテクチャ、データ効率のトレーニングレシピ、頑健な認識と構造化推論のトレードオフの診断分析について詳述する。
関連論文リスト
- Harmonizing the Arabic Audio Space with Data Scheduling [15.84874997729878]
本稿では、アラビア語中心のLLMのためのマルチタスク・インストラクション・チューニングに関する最初の体系的研究について述べる。
我々はQwen2.5-Omni (7B) を微調整し、Aligner-Based Diverse Smpling (ADS) とともにタスクプログレッシブカリキュラム (TPC) を提案する。
ADSは初期収束を加速するが、その固有の勾配のボラティリティは、長期の訓練で生成的復号を不安定にすることができる。
論文 参考訳(メタデータ) (2026-01-18T17:08:31Z) - Bridging Temporal and Textual Modalities: A Multimodal Framework for Automated Cloud Failure Root Cause Analysis [0.0]
本稿では,事前学習した言語モデル埋め込み空間と時系列表現を調和させる診断フレームワークを提案する。
本フレームワークは,複合障害モードを含むシナリオにおいて,48.75%の精度で診断精度を向上する。
論文 参考訳(メタデータ) (2026-01-08T08:20:44Z) - Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。