論文の概要: Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning
to boost Foundation Modals
- arxiv url: http://arxiv.org/abs/2308.06207v1
- Date: Fri, 11 Aug 2023 16:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:37:37.280131
- Title: Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning
to boost Foundation Modals
- Title(参考訳): 専門家のように考える:マルチモーダルな考えのハイパーグラフ(ホット)推論による基礎的モダルの強化
- Authors: Fanglong Yao, Changyuan Tian, Jintao Liu, Zequn Zhang, Qing Liu, Li
Jin, Shuchao Li, Xiaoyu Li, Xian Sun
- Abstract要約: CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を高めるための有効な手法の1つである。
本稿では,高次マルチホップ推論のエキスパートレベル能力を有する基礎モデルを実現するために,マルチモーダルなハイパーグラフ・オブ・ソート推論パラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.372421458422489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning ability is one of the most crucial capabilities of a foundation
model, signifying its capacity to address complex reasoning tasks.
Chain-of-Thought (CoT) technique is widely regarded as one of the effective
methods for enhancing the reasoning ability of foundation models and has
garnered significant attention. However, the reasoning process of CoT is
linear, step-by-step, similar to personal logical reasoning, suitable for
solving general and slightly complicated problems. On the contrary, the
thinking pattern of an expert owns two prominent characteristics that cannot be
handled appropriately in CoT, i.e., high-order multi-hop reasoning and
multimodal comparative judgement. Therefore, the core motivation of this paper
is transcending CoT to construct a reasoning paradigm that can think like an
expert. The hyperedge of a hypergraph could connect various vertices, making it
naturally suitable for modelling high-order relationships. Inspired by this,
this paper innovatively proposes a multimodal Hypergraph-of-Thought (HoT)
reasoning paradigm, which enables the foundation models to possess the
expert-level ability of high-order multi-hop reasoning and multimodal
comparative judgement. Specifically, a textual hypergraph-of-thought is
constructed utilizing triple as the primary thought to model higher-order
relationships, and a hyperedge-of-thought is generated through multi-hop
walking paths to achieve multi-hop inference. Furthermore, we devise a visual
hypergraph-of-thought to interact with the textual hypergraph-of-thought via
Cross-modal Co-Attention Graph Learning for multimodal comparative
verification. Experimentations on the ScienceQA benchmark demonstrate the
proposed HoT-based T5 outperforms CoT-based GPT3.5 and chatGPT, which is on par
with CoT-based GPT4 with a lower model size.
- Abstract(参考訳): 推論能力は基礎モデルの最も重要な能力の1つであり、複雑な推論タスクに対処する能力を示す。
CoT(Chain-of-Thought)技術は,基礎モデルの推論能力を向上する有効な手法の1つであると考えられ,注目されている。
しかし、CoTの推論過程は線形でステップバイステップであり、一般問題ややや複雑な問題を解くのに適している。
それとは対照的に、専門家の思考パターンは、cotで適切に処理できない2つの顕著な特徴、すなわち高階マルチホップ推論とマルチモーダル比較判断を持つ。
したがって,本論文の中核となる動機は,専門家のように考えることができる推論パラダイムを構築するためにCoTを超越することである。
ハイパーグラフのハイパーエッジは様々な頂点を接続することができ、自然に高次関係のモデリングに適している。
本論文は,高次マルチホップ推論とマルチモーダル比較判定のエキスパートレベル能力を有する基礎モデルを実現する,マルチモーダル・ハイパーグラフ・オブ・ソート(HoT)推論パラダイムを革新的に提案する。
具体的には、三重項を用いて高次関係をモデル化する第一考えとしてテクスト的ハイパーグラフを構築し、マルチホップ歩行経路を介してハイパーエッジ・オブ・思考を生成してマルチホップ推論を実現する。
さらに,マルチモーダル比較検証のためのクロスモーダルコアテンショングラフ学習を通じて,テキストハイパーグラフと対話するための視覚的ハイパーグラフを考案する。
ScienceQAベンチマークの実験では、提案されたHoTベースのT5は、CoTベースのGPT3.5とチャットGPTよりも優れており、モデルサイズが小さいCoTベースのGPT4と同等である。
関連論文リスト
- PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger
Models with Self-Consistency Training [55.07940036854454]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z) - Concise and Organized Perception Facilitates Large Language Models for
Deductive Reasoning [36.590274024394326]
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を排除しつつ、最も関連する情報を効率的に識別する。
その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large
Language Models [87.94820501979792]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
我々のアプローチは、人間の思考の連続的でない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
GoTは、2億5000万以上のバックボーンモデルパラメータを持つにもかかわらず、700万以上のパラメータを持つMultimodal-CoT(large)に匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Chaining Simultaneous Thoughts for Numerical Reasoning [92.2007997126144]
テキストによる数値推論は、AIシステムにとって不可欠なスキルであるべきです。
これまでの研究は方程式の構造をモデル化することに集中し、様々な構造化デコーダを提案してきた。
我々は、有向非巡回グラフを用いてステップを推論する数値推論器CANTORを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:52:06Z) - Multimodal Analogical Reasoning over Knowledge Graphs [43.76819868795101]
本稿では,知識グラフに対するマルチモーダルな類似推論という新たな課題を紹介する。
具体的には、マルチモーダルなアナロジカル推論データセット(MARS)とマルチモーダルな知識グラフMarKGを構築する。
本稿では,構造写像理論を動機としたTransformer (MarT) を用いたモデル非依存型マルチモーダル類似推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-01T16:24:15Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。