論文の概要: Chain of Images for Intuitively Reasoning
- arxiv url: http://arxiv.org/abs/2311.09241v1
- Date: Thu, 9 Nov 2023 11:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:58:46.818291
- Title: Chain of Images for Intuitively Reasoning
- Title(参考訳): 直感的推論のための画像連鎖
- Authors: Fanxu Meng, Haotong Yang, Yiding Wang, Muhan Zhang
- Abstract要約: 本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。
我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
- 参考スコア(独自算出の注目度): 23.692458865558486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human brain is naturally equipped to comprehend and interpret visual
information rapidly. When confronted with complex problems or concepts, we use
flowcharts, sketches, and diagrams to aid our thought process. Leveraging this
inherent ability can significantly enhance logical reasoning. However, current
Large Language Models (LLMs) do not utilize such visual intuition to help their
thinking. Even the most advanced version language models (e.g., GPT-4V and
LLaVA) merely align images into textual space, which means their reasoning
processes remain purely verbal. To mitigate such limitations, we present a
Chain of Images (CoI) approach, which can convert complex language reasoning
problems to simple pattern recognition by generating a series of images as
intermediate representations. Furthermore, we have developed a CoI evaluation
dataset encompassing 15 distinct domains where images can intuitively aid
problem-solving. Based on this dataset, we aim to construct a benchmark to
assess the capability of future multimodal large-scale models to leverage
images for reasoning. In supporting our CoI reasoning, we introduce a symbolic
multimodal large language model (SyMLLM) that generates images strictly based
on language instructions and accepts both text and image as input. Experiments
on Geometry, Chess and Common Sense tasks sourced from the CoI evaluation
dataset show that CoI improves performance significantly over the pure-language
Chain of Thoughts (CoT) baselines. The code is available at
https://github.com/GraphPKU/CoI.
- Abstract(参考訳): 人間の脳は、視覚情報を迅速に理解し、解釈することができる。
複雑な問題や概念に直面すると、フローチャート、スケッチ、ダイアグラムを使って思考プロセスを支援します。
この固有の能力を活用すれば、論理的推論を大幅に強化できる。
しかし、現在のLarge Language Models (LLM) は、そのような視覚的直観を彼らの思考に役立てていない。
最も先進的なバージョン言語モデル(gpt-4vやllavaなど)でさえも、単に画像をテキスト空間にアライメントするだけである。
このような制約を緩和するために,複雑な言語推論問題を,画像列を中間表現として生成することにより,単純なパターン認識に変換するcoi(chain of images)アプローチを提案する。
さらに,画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
このデータセットに基づいて、将来のマルチモーダル大規模モデルの有効性を評価するためのベンチマークを構築することを目的としている。
CoI推論をサポートするために,言語命令に基づいて厳密に画像を生成し,テキストと画像の両方を入力として受け入れるシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
CoI評価データセットから得られたGeometry, Chess, Common Senseタスクの実験は、CoIが純粋言語であるChain of Thoughts(CoT)ベースラインよりも性能を大幅に向上することを示している。
コードはhttps://github.com/graphpku/coiで入手できる。
関連論文リスト
- Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities [30.96613796974929]
マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。
ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。
この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:45Z) - Light Up the Shadows: Enhance Long-Tailed Entity Grounding with Concept-Guided Vision-Language Models [61.203151615743366]
我々は,Concept-Guided視覚言語モデルを用いた2段階フレームワークであるCOGを紹介する。
このフレームワークは、長い尾を持つエンティティのイメージテキスト対を効果的に識別するConcept Integrationモジュールと、説明可能性を提供し、人間の検証を可能にするEvidence Fusionモジュールとを備える。
包括的実験により,COGはベースラインよりも長い尾を持つ画像とテキストのペアを認識する精度が向上するだけでなく,柔軟性や説明性も向上することが示された。
論文 参考訳(メタデータ) (2024-06-16T11:49:00Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Chain of Thought Prompt Tuning in Vision Language Models [29.85907584680661]
本稿では,視覚言語モデリングのための思考プロンプトチューニング手法を提案する。
私たちは、視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。
論文 参考訳(メタデータ) (2023-04-16T23:59:25Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。