論文の概要: Cognitive Chain-of-Thought: Structured Multimodal Reasoning about Social Situations
- arxiv url: http://arxiv.org/abs/2507.20409v1
- Date: Sun, 27 Jul 2025 20:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.575442
- Title: Cognitive Chain-of-Thought: Structured Multimodal Reasoning about Social Situations
- Title(参考訳): 思考の認知的連鎖:社会状況に関する構造的マルチモーダル推論
- Authors: Eunkyu Park, Wesley Hanwen Deng, Gunhee Kim, Motahhare Eslami, Maarten Sap,
- Abstract要約: CoT(Chain-of-Thought)は、モデルを段階的に考えるのに役立つ。しかし、彼らが見、理解し、一度に判断しなければならないと、どうなるのか?
認知的連鎖(CoCoT)は,認知にインスパイアされた3つの段階(知覚,状況,規範)を通じて,VLM推論を足場とする促進戦略である。
- 参考スコア(独自算出の注目度): 49.16462809584473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting helps models think step by step. But what happens when they must see, understand, and judge-all at once? In visual tasks grounded in social context, where bridging perception with norm-grounded judgments is essential, flat CoT often breaks down. We introduce Cognitive Chain-of-Thought (CoCoT), a prompting strategy that scaffolds VLM reasoning through three cognitively inspired stages: perception, situation, and norm. Our experiments show that, across multiple multimodal benchmarks (including intent disambiguation, commonsense reasoning, and safety), CoCoT consistently outperforms CoT and direct prompting (+8\% on average). Our findings demonstrate that cognitively grounded reasoning stages enhance interpretability and social awareness in VLMs, paving the way for safer and more reliable multimodal systems.
- Abstract(参考訳): CoT(Chain-of-Thought)は、モデルをステップバイステップで考えるのに役立つ。
しかし、彼らがただちに見、理解し、判断しなければならないとき、どうなるのか?
社会的文脈に根ざした視覚的タスクでは、標準的判断によるブリッジング認識が不可欠であり、フラットなCoTはしばしば壊れる。
認知的連鎖(CoCoT)は,認知にインスパイアされた3つの段階(知覚,状況,規範)を通じて,VLM推論を足場とする促進戦略である。
実験の結果、複数のマルチモーダルベンチマーク(意図の曖昧さ、常識的推論、安全性を含む)において、CoCoTはCoTと直接的プロンプト(平均で+8\%)を一貫して上回っていることがわかった。
以上の結果から,認知的基盤的推論段階はVLMの解釈可能性や社会的意識を高め,より安全で信頼性の高いマルチモーダルシステムへの道を開くことが示唆された。
関連論文リスト
- A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - IRONIC: Coherence-Aware Reasoning Chains for Multi-Modal Sarcasm Detection [5.246809683975664]
IRONICはマルチモーダル・コヒーレンス・リレーション(Multi-modal Coherence Relations)を利用したインコンテキスト学習フレームワークで,参照,類似,実用的な画像テキスト・リンクの解析を行う。
実験の結果,IRONICはゼロショットマルチモーダルサーカスム検出において最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-22T05:49:01Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Layered Chain-of-Thought Prompting for Multi-Agent LLM Systems: A Comprehensive Approach to Explainable Large Language Models [0.0]
提案するLayered Chain-of-Thought (Layered-CoT) Promptingは,推論プロセスを複数の層に体系的に分割する新しいフレームワークである。
医療トリアージ、財務リスク評価、アジャイルエンジニアリングの3つのシナリオを紹介し、透明性、正確性、ユーザエンゲージメントの観点から、Layered-CoTがバニラCoTをどのように上回っているかを示します。
論文 参考訳(メタデータ) (2025-01-29T13:21:09Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models [60.08485416687596]
Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-12-17T14:10:16Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [18.326858925174605]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。
さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。
広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-10T12:42:36Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。