論文の概要: IdealGPT: Iteratively Decomposing Vision and Language Reasoning via
Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14985v1
- Date: Wed, 24 May 2023 10:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:16:11.572600
- Title: IdealGPT: Iteratively Decomposing Vision and Language Reasoning via
Large Language Models
- Title(参考訳): idealgpt: 大きな言語モデルによるビジョンと言語推論を反復的に分解する
- Authors: Haoxuan You, Rui Sun, Zhecan Wang, Long Chen, Gengyu Wang, Hammad A.
Ayyubi, Kai-Wei Chang, Shih-Fu Chang
- Abstract要約: 大規模言語モデル(LLM)を用いた視覚・言語推論(VL)を分解するフレームワークを開発する。
特に、IdealGPTは、VCRでは10%、SNLI-VEでは15%、既存のGPT-4のようなモデルよりも優れています。
- 参考スコア(独自算出の注目度): 77.0577928874177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of vision-and-language (VL) understanding has made unprecedented
progress with end-to-end large pre-trained VL models (VLMs). However, they
still fall short in zero-shot reasoning tasks that require multi-step
inferencing. To achieve this goal, previous works resort to a
divide-and-conquer pipeline. In this paper, we argue that previous efforts have
several inherent shortcomings: 1) They rely on domain-specific sub-question
decomposing models. 2) They force models to predict the final answer even if
the sub-questions or sub-answers provide insufficient information. We address
these limitations via IdealGPT, a framework that iteratively decomposes VL
reasoning using large language models (LLMs). Specifically, IdealGPT utilizes
an LLM to generate sub-questions, a VLM to provide corresponding sub-answers,
and another LLM to reason to achieve the final answer. These three modules
perform the divide-and-conquer procedure iteratively until the model is
confident about the final answer to the main question. We evaluate IdealGPT on
multiple challenging VL reasoning tasks under a zero-shot setting. In
particular, our IdealGPT outperforms the best existing GPT-4-like models by an
absolute 10% on VCR and 15% on SNLI-VE. Code is available at
https://github.com/Hxyou/IdealGPT
- Abstract(参考訳): 視覚と言語(VL)理解の分野は、エンドツーエンドの大規模訓練済みVLモデル(VLM)によって前例のない進歩を遂げた。
しかし、マルチステップ推論を必要とするゼロショット推論タスクには不足している。
この目標を達成するために、以前の作業は分割・分散パイプラインに頼っている。
本稿では、これまでの取り組みにはいくつかの固有の欠点があることを論じる。
1) ドメイン固有のサブクエスチョン分解モデルに依存する。
2)サブクエストやサブアンサーが不十分な情報を提供しても,モデルに最終回答の予測を強制する。
本稿では,大規模言語モデル(LLM)を用いたVL推論を反復的に分解するフレームワークであるIdealGPTを用いて,これらの制限に対処する。
具体的には、idealgpt は llm を使って sub-questions を生成し、vlm は対応する sub-answer を提供し、他の llm は最終回答を達成する。
これら3つのモジュールは、モデルが主質問に対する最終回答を確信するまで、反復的に分割・分割手順を実行する。
ゼロショット設定下で複数の挑戦的VL推論タスクにおけるIdealGPTの評価を行った。
特に、IdealGPTは、VCRでは10%、SNLI-VEでは15%、既存のGPT-4のようなモデルよりも優れています。
コードはhttps://github.com/Hxyou/IdealGPTで入手できる。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with
Large Language Model [33.546564412022754]
MoqaGPTはマルチモーダルなオープンドメイン質問応答のためのフレームワークである。
それぞれのモダリティから回答を別々に抽出し、LLMを用いてこのマルチモーダル情報を融合して最終回答を生成する。
MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。
論文 参考訳(メタデータ) (2023-10-20T04:09:36Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Proper Value Equivalence [37.565244088924906]
我々は、MuZero や Muesli のような一般的なアルゴリズムは、この損失の上限を最小化するものとして理解することができると論じる。
我々は,MuZeroの修正を提案するため,MuZeroの修正を提案し,実際の性能向上につながることを示す。
論文 参考訳(メタデータ) (2021-06-18T19:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。