論文の概要: The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task
- arxiv url: http://arxiv.org/abs/2311.09193v1
- Date: Wed, 15 Nov 2023 18:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:42:16.061607
- Title: The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task
- Title(参考訳): 複雑な視覚言語推論タスクにおける思考連鎖の役割
- Authors: Yifan Wu, Pengchuan Zhang, Wenhan Xiong, Barlas Oguz, James C. Gee,
Yixin Nie
- Abstract要約: 本研究は,視覚言語タスク改善におけるChain-of-Thoughtアプローチの有効性について検討した。
我々は、人間の信号処理の仕方に触発された「記述から決定へ」戦略を提示する。
- 参考スコア(独自算出の注目度): 51.47803406138838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study explores the effectiveness of the Chain-of-Thought approach, known
for its proficiency in language tasks by breaking them down into sub-tasks and
intermediate steps, in improving vision-language tasks that demand
sophisticated perception and reasoning. We present the "Description then
Decision" strategy, which is inspired by how humans process signals. This
strategy significantly improves probing task performance by 50%, establishing
the groundwork for future research on reasoning paradigms in complex
vision-language tasks.
- Abstract(参考訳): この研究は、高度な知覚と推論を必要とする視覚言語タスクを改善するために、サブタスクと中間ステップに分割することで、言語タスクの習熟度で知られるChain-of-Thoughtアプローチの有効性を探求する。
我々は,人間の信号処理方法に触発された「記述と決定」戦略を提案する。
この戦略はタスクの探索性能を50%向上させ、複雑な視覚言語タスクにおける推論パラダイムの研究の基盤を確立する。
関連論文リスト
- Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Using Left and Right Brains Together: Towards Vision and Language
Planning [95.47128850991815]
本稿では,任意の形態の入力を伴うタスクに対して,視覚と言語を同時に計画する新しい視覚言語計画フレームワークを提案する。
我々は,視覚言語タスク,視覚のみタスク,言語のみタスクにまたがるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-16T09:46:20Z) - Improving Agent Interactions in Virtual Environments with Language
Models [0.9790236766474201]
本研究は、Minecraftデータセットにおける集合的なビルディング割り当てに焦点を当てる。
我々は,最先端手法によるタスク理解を強化するために,言語モデリングを採用している。
論文 参考訳(メタデータ) (2024-02-08T06:34:11Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Solving Dialogue Grounding Embodied Task in a Simulated Environment
using Further Masked Language Modeling [0.0]
提案手法は,言語モデルを用いたSOTA(State-of-the-art)手法によるタスク理解を強化するために,言語モデリングを用いる。
実験の結果,提案手法が優れていることを示す証拠が得られた。
論文 参考訳(メタデータ) (2023-06-21T17:17:09Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。