論文の概要: Measuring and Improving Chain-of-Thought Reasoning in Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2309.04461v1
- Date: Fri, 8 Sep 2023 17:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 12:45:14.150674
- Title: Measuring and Improving Chain-of-Thought Reasoning in Vision-Language
Models
- Title(参考訳): 視覚言語モデルにおける思考連鎖推論の測定と改善
- Authors: Yangyi Chen, Karan Sikka, Michael Cogswell, Heng Ji, Ajay Divakaran
- Abstract要約: 視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 65.748973163151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have recently demonstrated strong efficacy as
visual assistants that can parse natural queries about the visual content and
generate human-like outputs. In this work, we explore the ability of these
models to demonstrate human-like reasoning based on the perceived information.
To address a crucial concern regarding the extent to which their reasoning
capabilities are fully consistent and grounded, we also measure the reasoning
consistency of these models. We achieve this by proposing a chain-of-thought
(CoT) based consistency measure. However, such an evaluation requires a
benchmark that encompasses both high-level inference and detailed reasoning
chains, which is costly. We tackle this challenge by proposing a
LLM-Human-in-the-Loop pipeline, which notably reduces cost while simultaneously
ensuring the generation of a high-quality dataset. Based on this pipeline and
the existing coarse-grained annotated dataset, we build the CURE benchmark to
measure both the zero-shot reasoning performance and consistency of VLMs. We
evaluate existing state-of-the-art VLMs, and find that even the best-performing
model is unable to demonstrate strong visual reasoning capabilities and
consistency, indicating that substantial efforts are required to enable VLMs to
perform visual reasoning as systematically and consistently as humans. As an
early step, we propose a two-stage training framework aimed at improving both
the reasoning performance and consistency of VLMs. The first stage involves
employing supervised fine-tuning of VLMs using step-by-step reasoning samples
automatically generated by LLMs. In the second stage, we further augment the
training process by incorporating feedback provided by LLMs to produce
reasoning chains that are highly consistent and grounded. We empirically
highlight the effectiveness of our framework in both reasoning performance and
consistency.
- Abstract(参考訳): 視覚言語モデル(vlms)は最近、視覚コンテンツに関する自然なクエリを解析し、人間のような出力を生成するビジュアルアシスタントとして強い効果を示している。
本研究では,これらのモデルが知覚情報に基づく人間的推論を実証する能力について検討する。
推論能力の完全一貫性と基礎化の程度に関する重要な懸念に対処するため、これらのモデルの推論一貫性も測定する。
これを実現するために,チェーン・オブ・シント(CoT)に基づく一貫性尺度を提案する。
しかし、そのような評価には高レベルの推論と詳細な推論チェーンの両方を含むベンチマークが必要である。
LLM-Human-in-the-Loopパイプラインを提案することで、この課題に対処する。
このパイプラインと既存の粗粒化アノテートデータセットに基づいて、VLMのゼロショット推論性能と一貫性の両方を測定するためにCUREベンチマークを構築します。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強い視覚的推論能力と一貫性を示すことができず、VLMが体系的かつ一貫して人間のように視覚的推論を実行できるようにするためには、かなりの努力が必要であることを示す。
初期段階として,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
第1段階では、LLMが自動的に生成するステップバイステップ推論サンプルを使用して、VLMの教師付き微調整を行う。
第2段階では,LLMによるフィードバックを取り入れて,高度に一貫性のある推論連鎖を生成することにより,トレーニングプロセスをさらに強化する。
我々は、推論性能と一貫性の両方において、フレームワークの有効性を実証的に強調する。
関連論文リスト
- Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive
Thinking from Large Language Models [21.052917741772042]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題を示す。
LLMに固有の自己評価能力を小型言語モデル(SLM)に蒸留する方法を提案する。
本手法は, 蒸留したSLMの性能を著しく向上させ, 人間の認知と密に整合したより小さなモデル開発への道に光を当てる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。