論文の概要: Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning
to boost Foundation Modals
- arxiv url: http://arxiv.org/abs/2308.06207v1
- Date: Fri, 11 Aug 2023 16:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:37:37.280131
- Title: Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning
to boost Foundation Modals
- Title(参考訳): 専門家のように考える:マルチモーダルな考えのハイパーグラフ(ホット)推論による基礎的モダルの強化
- Authors: Fanglong Yao, Changyuan Tian, Jintao Liu, Zequn Zhang, Qing Liu, Li
Jin, Shuchao Li, Xiaoyu Li, Xian Sun
- Abstract要約: CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を高めるための有効な手法の1つである。
本稿では,高次マルチホップ推論のエキスパートレベル能力を有する基礎モデルを実現するために,マルチモーダルなハイパーグラフ・オブ・ソート推論パラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.372421458422489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning ability is one of the most crucial capabilities of a foundation
model, signifying its capacity to address complex reasoning tasks.
Chain-of-Thought (CoT) technique is widely regarded as one of the effective
methods for enhancing the reasoning ability of foundation models and has
garnered significant attention. However, the reasoning process of CoT is
linear, step-by-step, similar to personal logical reasoning, suitable for
solving general and slightly complicated problems. On the contrary, the
thinking pattern of an expert owns two prominent characteristics that cannot be
handled appropriately in CoT, i.e., high-order multi-hop reasoning and
multimodal comparative judgement. Therefore, the core motivation of this paper
is transcending CoT to construct a reasoning paradigm that can think like an
expert. The hyperedge of a hypergraph could connect various vertices, making it
naturally suitable for modelling high-order relationships. Inspired by this,
this paper innovatively proposes a multimodal Hypergraph-of-Thought (HoT)
reasoning paradigm, which enables the foundation models to possess the
expert-level ability of high-order multi-hop reasoning and multimodal
comparative judgement. Specifically, a textual hypergraph-of-thought is
constructed utilizing triple as the primary thought to model higher-order
relationships, and a hyperedge-of-thought is generated through multi-hop
walking paths to achieve multi-hop inference. Furthermore, we devise a visual
hypergraph-of-thought to interact with the textual hypergraph-of-thought via
Cross-modal Co-Attention Graph Learning for multimodal comparative
verification. Experimentations on the ScienceQA benchmark demonstrate the
proposed HoT-based T5 outperforms CoT-based GPT3.5 and chatGPT, which is on par
with CoT-based GPT4 with a lower model size.
- Abstract(参考訳): 推論能力は基礎モデルの最も重要な能力の1つであり、複雑な推論タスクに対処する能力を示す。
CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を向上する有効な手法の1つであると考えられ,注目されている。
しかし、CoTの推論過程は線形でステップバイステップであり、一般問題ややや複雑な問題を解くのに適している。
それとは対照的に、専門家の思考パターンは、cotで適切に処理できない2つの顕著な特徴、すなわち高階マルチホップ推論とマルチモーダル比較判断を持つ。
したがって,本論文の中核となる動機は,専門家のように考えることができる推論パラダイムを構築するためにCoTを超越することである。
ハイパーグラフのハイパーエッジは様々な頂点を接続することができ、自然に高次関係のモデリングに適している。
本論文は,高次マルチホップ推論とマルチモーダル比較判定のエキスパートレベル能力を有する基礎モデルを実現する,マルチモーダル・ハイパーグラフ・オブ・ソート(HoT)推論パラダイムを革新的に提案する。
具体的には、三重項を用いて高次関係をモデル化する第一考えとしてテクスト的ハイパーグラフを構築し、マルチホップ歩行経路を介してハイパーエッジ・オブ・思考を生成してマルチホップ推論を実現する。
さらに,マルチモーダル比較検証のためのクロスモーダルコアテンショングラフ学習を通じて,テキストハイパーグラフと対話するための視覚的ハイパーグラフを考案する。
ScienceQAベンチマークの実験では、提案されたHoTベースのT5は、CoTベースのGPT3.5とチャットGPTよりも優れており、モデルサイズが小さいCoTベースのGPT4と同等である。
関連論文リスト
- AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning [70.95645743670062]
AtomThinkは、長い思考の連鎖(CoT)をステップバイステップで構築するフレームワークであり、複雑な推論を行うためのMLLMを導く。
AtomMATHは、長いCoTの大規模マルチモーダルデータセットであり、数学的タスクの原子能力評価指標である。
AtomThinkはベースラインMLLMの性能を大幅に改善し、MathVistaでは50%、MathVerseでは120%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-11-18T11:54:58Z) - Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。
我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
論文 参考訳(メタデータ) (2024-10-23T07:53:29Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Multimodal Analogical Reasoning over Knowledge Graphs [43.76819868795101]
本稿では,知識グラフに対するマルチモーダルな類似推論という新たな課題を紹介する。
具体的には、マルチモーダルなアナロジカル推論データセット(MARS)とマルチモーダルな知識グラフMarKGを構築する。
本稿では,構造写像理論を動機としたTransformer (MarT) を用いたモデル非依存型マルチモーダル類似推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-01T16:24:15Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。