論文の概要: Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2503.06232v2
- Date: Sat, 15 Mar 2025 09:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:53.032978
- Title: Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning
- Title(参考訳): マルチモーダルアライメントのためのチェーン・オブ・ワットの統合:3次元視覚言語学習に関する研究
- Authors: Yanjun Chen, Yirong Sun, Xinghao Chen, Jian Wang, Xiaoyu Shen, Wenjie Li, Wei Zhang,
- Abstract要約: CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。
本研究では,構造的推論をアライメントトレーニングに組み込むことで,3次元視覚支援学習への統合について検討する。
- 参考スコア(独自算出の注目度): 20.562109430526007
- License:
- Abstract: Chain-of-Thought (CoT) reasoning has proven effective in natural language tasks but remains underexplored in multimodal alignment. This study investigates its integration into 3D vision-language learning by embedding structured reasoning into alignment training. We introduce the 3D-CoT Benchmark, a dataset with hierarchical CoT annotations covering shape recognition, functional inference, and causal reasoning. Through controlled experiments, we compare CoT-structured and standard textual annotations across large reasoning models (LRMs) and large language models (LLMs). Our evaluation employs a dual-layer framework assessing both intermediate reasoning and final inference quality. Extensive experiments demonstrate that CoT significantly improves 3D semantic grounding, with LRMs leveraging CoT more effectively than LLMs. Furthermore, we highlight that annotation structure influences performance-explicit reasoning markers aid LLMs, while unmarked CoT better aligns with LRM inference patterns. Our analyses suggest that CoT is crucial for enhancing multimodal reasoning, with implications beyond 3D tasks. The dataset will be publicly available at https://huggingface.co/datasets/Battam/3D-CoT
- Abstract(参考訳): CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。
本研究では,構造化推論をアライメントトレーニングに組み込むことにより,その3次元視覚言語学習への統合について検討する。
本稿では,形状認識,機能推論,因果推論を含む階層CoTアノテーションを用いたデータセットである3D-CoTベンチマークを紹介する。
制御実験により,大推論モデル (LRM) と大言語モデル (LLM) のCoT構造と標準テキストアノテーションを比較した。
評価には中間推論と最終推論品質の両方を評価する2層フレームワークを用いる。
大規模な実験により、CoTは3次元セマンティックグラウンドリングを著しく改善し、LLMよりも効率的にCoTを活用することが示されている。
さらに,アノテーション構造が LLM に有効であるのに対して,CoT は LRM の推論パターンとよく一致している点を強調した。
分析の結果,CoTは3次元タスク以上の意味を持つマルチモーダル推論の強化に不可欠であることが示唆された。
データセットはhttps://huggingface.co/datasets/Battam/3D-CoTで公開される。
関連論文リスト
- Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference [24.565253576049024]
本研究では,3つの最新言語モデル(LLM)をクラッシュ重大度推定に利用することを検討した。
ドメイン知識を取り入れた事前構築テンプレートを用いて,元のトラフィッククラッシュデータからテキストナラティブを生成する。
事故原因を解析し,その重症度を推定する上で, LLM を導くためにChain-of-Thought (CoT) 推論を取り入れた。
論文 参考訳(メタデータ) (2024-08-04T17:14:10Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis [20.24915029448926]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。
これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。
本稿では,エンティティ間の関係を捉えることで,LLMのコンテキスト理解を支援する新しいアプローチであるERA-CoTを提案する。
論文 参考訳(メタデータ) (2024-03-11T17:18:53Z) - CoT-Driven Framework for Short Text Classification: Enhancing and Transferring Capabilities from Large to Smaller Model [5.331916925505735]
短いテキスト分類(STC)は、現代デジタルプラットフォームで普及している短いが実質的な内容の処理と理解に不可欠である。
本稿では, STCタスクを4つのステップに分割するSSE-CoT法を提案する。
次に、CDMT(CoT-Driven Multi-Task Learning)フレームワークを導入し、これらの機能をより小さなモデルに拡張します。
論文 参考訳(メタデータ) (2024-01-06T08:28:20Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。