論文の概要: Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
- arxiv url: http://arxiv.org/abs/2406.14562v1
- Date: Thu, 20 Jun 2024 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:23:23.991803
- Title: Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
- Title(参考訳): ホワイトボード「Whiteboard-of-Thought」
- Authors: Sachit Menon, Richard Zemel, Carl Vondrick,
- Abstract要約: マルチモーダルな大言語モデルの視覚的推論能力を解き放つための簡単な手法を提案する。
ホワイトボード・オブ・シークレットはモデルに比喩的なホワイトボードを提供し、画像として推論ステップを引き出す。
この単純なアプローチは、4つの難しい自然言語タスクに関する最先端の結果を示す。
- 参考スコア(独自算出の注目度): 30.96613796974929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When presented with questions involving visual thinking, humans naturally switch reasoning modalities, often forming mental images or drawing visual aids. Large language models have shown promising results in arithmetic and symbolic reasoning by expressing intermediate reasoning in text as a chain of thought, yet struggle to extend this capability to answer text queries that are easily solved by visual reasoning, even with extensive multimodal pretraining. We introduce a simple method, whiteboard-of-thought prompting, to unlock the visual reasoning capabilities of multimodal large language models across modalities. Whiteboard-of-thought prompting provides multimodal large language models with a metaphorical `whiteboard' to draw out reasoning steps as images, then returns these images back to the model for further processing. We find this can be accomplished with no demonstrations or specialized modules, instead leveraging models' existing ability to write code with libraries such as Matplotlib and Turtle. This simple approach shows state-of-the-art results on four difficult natural language tasks that involve visual and spatial reasoning. We identify multiple settings where GPT-4o using chain-of-thought fails dramatically, including more than one where it achieves $0\%$ accuracy, while whiteboard-of-thought enables up to $92\%$ accuracy in these same settings. We present a detailed exploration of where the technique succeeds as well as its sources of error.
- Abstract(参考訳): 視覚的思考に関する質問を提示すると、人間は自然に推論のモダリティを切り替え、しばしば精神的なイメージを形成したり、視覚的援助を描く。
大規模言語モデルは、テキストの中間的推論を思考の連鎖として表現することで、算術的および記号的推論において有望な結果を示してきたが、広範にマルチモーダル事前学習を行っても、視覚的推論によって容易に解けるテキストクエリに答える能力の拡張に苦慮している。
マルチモーダルな大言語モデルの視覚的推論能力をモダリティを越えて解き放つための単純な方法であるホワイトボード・オブ・シークレット(Whiteboard-of-Thought prompting)を導入する。
Whiteboard-of-Thoughtプロンプトは、イメージとして推論ステップを引き出すために、メタファ的な"ホワイトボード"を備えたマルチモーダルな大規模言語モデルを提供し、さらに処理するためにこれらのイメージをモデルに返却する。
MatplotlibやTurtleといったライブラリを使って、モデルが既存のコード記述機能を活用する代わりに、デモや特別なモジュールを使わずに、これを実現することができます。
この単純なアプローチは、視覚的および空間的推論を含む4つの難しい自然言語タスクに対する最先端の結果を示す。
チェーン・オブ・ソートを使用したGPT-4oが劇的に失敗する複数の設定を識別し、0\%の精度を達成する1つ以上の設定を含む、同じ設定でホワイトボード・オブ・ソートが最大920\%の精度を実現する。
本稿では,この手法がどの点で成功したか,またエラーの原因について詳細に検討する。
関連論文リスト
- JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Dual-Layer Training and Decoding of Large Language Model with Simultaneously Thinking and Speaking [8.02728252625147]
大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。
本稿では,自然界における認知メカニズムに動機付けられ,TaSと呼ばれる新しいモデルアーキテクチャを設計する。
思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。
論文 参考訳(メタデータ) (2024-09-18T15:32:48Z) - Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。
視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。
この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-06-19T15:17:10Z) - PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns [69.17409440805498]
基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行った。
単純な抽象パターンをうまく一般化できないことが分かりました。
系統解析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。
論文 参考訳(メタデータ) (2024-03-20T05:37:24Z) - Chain of Images for Intuitively Reasoning [23.692458865558486]
本稿では,複雑な言語推論問題を単純なパターン認識に変換するために,画像の連鎖(CoI)アプローチを提案する。
我々は、画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。
CoI推論を支援するために,言語命令に基づいて厳密に画像を生成するシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。
論文 参考訳(メタデータ) (2023-11-09T11:14:51Z) - Chain of Thought Prompt Tuning in Vision Language Models [29.85907584680661]
本稿では,視覚言語モデリングのための思考プロンプトチューニング手法を提案する。
私たちは、視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。
論文 参考訳(メタデータ) (2023-04-16T23:59:25Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。