論文の概要: Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2503.06232v2
- Date: Sat, 15 Mar 2025 09:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:43:42.412274
- Title: Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning
- Title(参考訳): マルチモーダルアライメントのためのチェーン・オブ・ワットの統合:3次元視覚言語学習に関する研究
- Authors: Yanjun Chen, Yirong Sun, Xinghao Chen, Jian Wang, Xiaoyu Shen, Wenjie Li, Wei Zhang,
- Abstract要約: CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。
本研究では,構造的推論をアライメントトレーニングに組み込むことで,3次元視覚支援学習への統合について検討する。
- 参考スコア(独自算出の注目度): 20.562109430526007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning has proven effective in natural language tasks but remains underexplored in multimodal alignment. This study investigates its integration into 3D vision-language learning by embedding structured reasoning into alignment training. We introduce the 3D-CoT Benchmark, a dataset with hierarchical CoT annotations covering shape recognition, functional inference, and causal reasoning. Through controlled experiments, we compare CoT-structured and standard textual annotations across large reasoning models (LRMs) and large language models (LLMs). Our evaluation employs a dual-layer framework assessing both intermediate reasoning and final inference quality. Extensive experiments demonstrate that CoT significantly improves 3D semantic grounding, with LRMs leveraging CoT more effectively than LLMs. Furthermore, we highlight that annotation structure influences performance-explicit reasoning markers aid LLMs, while unmarked CoT better aligns with LRM inference patterns. Our analyses suggest that CoT is crucial for enhancing multimodal reasoning, with implications beyond 3D tasks. The dataset will be publicly available at https://huggingface.co/datasets/Battam/3D-CoT
- Abstract(参考訳): CoT(Chain-of-Thought)推論は自然言語処理において有効であることが証明されているが、マルチモーダルアライメントでは未探索である。
本研究では,構造化推論をアライメントトレーニングに組み込むことにより,その3次元視覚言語学習への統合について検討する。
本稿では,形状認識,機能推論,因果推論を含む階層CoTアノテーションを用いたデータセットである3D-CoTベンチマークを紹介する。
制御実験により,大推論モデル (LRM) と大言語モデル (LLM) のCoT構造と標準テキストアノテーションを比較した。
評価には中間推論と最終推論品質の両方を評価する2層フレームワークを用いる。
大規模な実験により、CoTは3次元セマンティックグラウンドリングを著しく改善し、LLMよりも効率的にCoTを活用することが示されている。
さらに,アノテーション構造が LLM に有効であるのに対して,CoT は LRM の推論パターンとよく一致している点を強調した。
分析の結果,CoTは3次元タスク以上の意味を持つマルチモーダル推論の強化に不可欠であることが示唆された。
データセットはhttps://huggingface.co/datasets/Battam/3D-CoTで公開される。
関連論文リスト
- CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。
最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - CoT-ST: Enhancing LLM-based Speech Translation with Multimodal Chain-of-Thought [33.32415197728357]
音声言語モデル(SLM)は,音声翻訳タスクにおいて印象的な性能を示した。
本研究では,SLMのチェーン・オブ・シークレット機能を活性化する3段階のトレーニングフレームワークを提案する。
本稿では,マルチモーダルCoTを用いた音声翻訳モデルであるCoT-STを提案する。
論文 参考訳(メタデータ) (2024-09-29T01:48:09Z) - Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference [24.565253576049024]
本研究では,3つの最新言語モデル(LLM)をクラッシュ重大度推定に利用することを検討した。
ドメイン知識を取り入れた事前構築テンプレートを用いて,元のトラフィッククラッシュデータからテキストナラティブを生成する。
事故原因を解析し,その重症度を推定する上で, LLM を導くためにChain-of-Thought (CoT) 推論を取り入れた。
論文 参考訳(メタデータ) (2024-08-04T17:14:10Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - ERA-CoT: Improving Chain-of-Thought through Entity Relationship Analysis [20.24915029448926]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、賞賛できる成果を達成している。
これらの課題は、多段階の推論を必要とする暗黙の関係の存在から生じる。
本稿では,エンティティ間の関係を捉えることで,LLMのコンテキスト理解を支援する新しいアプローチであるERA-CoTを提案する。
論文 参考訳(メタデータ) (2024-03-11T17:18:53Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。