論文の概要: CogGuide: Human-Like Guidance for Zero-Shot Omni-Modal Reasoning
- arxiv url: http://arxiv.org/abs/2509.06641v1
- Date: Mon, 08 Sep 2025 12:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.139381
- Title: CogGuide: Human-Like Guidance for Zero-Shot Omni-Modal Reasoning
- Title(参考訳): CogGuide:ゼロショットオムニモード推論のための人間ライクなガイダンス
- Authors: Zhou-Peng Shou, Zhi-Qiang You, Fang Wang, Hai-Bo Liu,
- Abstract要約: 本稿では,「意図的スケッチ」を中心とした人間的な認知戦略によって導かれるゼロショットマルチモーダル推論コンポーネントを提案する。
最終的な推論を導くために"入念なスケッチ"戦略の生成とフィルタリングを行うことで、パラメータの微調整や、コンテキスト内エンジニアリングのみでのクロスモデル転送を達成できない。
- 参考スコア(独自算出の注目度): 7.2767489365335125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeting the issues of "shortcuts" and insufficient contextual understanding in complex cross-modal reasoning of multimodal large models, this paper proposes a zero-shot multimodal reasoning component guided by human-like cognitive strategies centered on an "intent sketch". The component comprises a plug-and-play three-module pipeline-Intent Perceiver, Strategy Generator, and Strategy Selector-that explicitly constructs a "understand-plan-select" cognitive process. By generating and filtering "intent sketch" strategies to guide the final reasoning, it requires no parameter fine-tuning and achieves cross-model transfer solely through in-context engineering. Information-theoretic analysis shows that this process can reduce conditional entropy and improve information utilization efficiency, thereby suppressing unintended shortcut reasoning. Experiments on IntentBench, WorldSense, and Daily-Omni validate the method's generality and robust gains; compared with their respective baselines, the complete "three-module" scheme yields consistent improvements across different reasoning engines and pipeline combinations, with gains up to approximately 9.51 percentage points, demonstrating the practical value and portability of the "intent sketch" reasoning component in zero-shot scenarios.
- Abstract(参考訳): マルチモーダル大規模モデルの複雑な相互モーダル推論における「ショートカット」の問題と文脈的理解の不足を対象とし,「インテントスケッチ」を中心にした人間的な認知戦略によって導かれるゼロショット型マルチモーダル推論コンポーネントを提案する。
このコンポーネントは、プラグアンドプレイの3モジュールパイプライン-Intent Perceiver、Strategy Generator、Strategy Selector-からなる。
最終的な推論を導くために"インテントスケッチ"戦略の生成とフィルタリングを行うことで、パラメータの微調整を必要とせず、コンテキスト内エンジニアリングのみでクロスモデル転送を実現する。
情報理論解析により、このプロセスは条件付きエントロピーを低減し、情報利用効率を向上させることを示し、意図しないショートカット推論を抑制する。
IntentBench、WorldSense、Daily-Omniの実験は、それぞれのベースラインと比較して、完全な「3つのモジュール」スキームは、様々な推論エンジンとパイプラインの組み合わせで一貫した改善をもたらし、最大9.51ポイントのゲインを得て、ゼロショットシナリオにおける「インテントスケッチ」推論コンポーネントの実用的価値とポータビリティを実証した。
関連論文リスト
- PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。
自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。