論文の概要: Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?
- arxiv url: http://arxiv.org/abs/2404.06510v1
- Date: Tue, 9 Apr 2024 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:42:02.996042
- Title: Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?
- Title(参考訳): 大規模視覚言語モデルにおけるセマンティックグラウンドのフィードバックは可能か?
- Authors: Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler, David Acuna,
- Abstract要約: 本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。
適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。
検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 61.899791071654654
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Enhancing semantic grounding abilities in Vision-Language Models (VLMs) often involves collecting domain-specific training data, refining the network architectures, or modifying the training recipes. In this work, we venture into an orthogonal direction and explore whether VLMs can improve their semantic grounding by "receiving" feedback, without requiring in-domain data, fine-tuning, or modifications to the network architectures. We systematically analyze this hypothesis using a feedback mechanism composed of a binary signal. We find that if prompted appropriately, VLMs can utilize feedback both in a single step and iteratively, showcasing the potential of feedback as an alternative technique to improve grounding in internet-scale VLMs. Furthermore, VLMs, like LLMs, struggle to self-correct errors out-of-the-box. However, we find that this issue can be mitigated via a binary verification mechanism. Finally, we explore the potential and limitations of amalgamating these findings and applying them iteratively to automatically enhance VLMs' grounding performance, showing grounding accuracy consistently improves using automated feedback across all models in all settings investigated. Overall, our iterative framework improves semantic grounding in VLMs by more than 15 accuracy points under noise-free feedback and up to 5 accuracy points under a simple automated binary verification mechanism. The project website is hosted at https://andrewliao11.github.io/vlms_feedback
- Abstract(参考訳): VLM(Vision-Language Models)におけるセマンティックグラウンドディング能力の強化には、ドメイン固有のトレーニングデータ収集、ネットワークアーキテクチャの修正、トレーニングレシピの変更などが含まれる。
本研究では,VLMがドメイン内データや微調整,ネットワークアーキテクチャの変更を必要とせず,フィードバックを"受信"することで,そのセマンティックグラウンド化を改善することができるかどうかを探究する。
我々はこの仮説をバイナリ信号からなるフィードバック機構を用いて体系的に解析する。
インターネット規模のVLMの基盤化を改善するための代替手法として,フィードバックの可能性を示すため,ひとつのステップと反復の両方でフィードバックを適切に活用できることが判明した。
さらに、LLMのようなVLMは、最初からエラーを自己修正するのに苦労する。
しかし、この問題はバイナリ検証機構によって緩和できることがわかった。
最後に,これらの知見を集約し,VLMの接地性能を向上するために反復的に適用する可能性や限界について検討し,すべての設定において,全モデルにまたがる自動フィードバックを用いることで,接地精度が一貫的に向上することを示した。
我々の反復的フレームワークは、ノイズのないフィードバックの下では15以上の精度でVLMのセマンティックグラウンドを改善し、単純な自動二項検証機構の下では最大5つの精度で精度を向上する。
プロジェクトのWebサイトはhttps://andrewliao11.github.io/vlms_feedbackにホストされている。
関連論文リスト
- Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。
VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。
本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文 参考訳(メタデータ) (2024-04-29T22:06:17Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Self-Supervised Visual Place Recognition by Mining Temporal and Feature
Neighborhoods [17.852415436033436]
時空間近傍と学習可能な特徴近傍を用いて未知空間近傍を探索するtextitTF-VPR という新しいフレームワークを提案する。
提案手法は,(1)データ拡張による表現学習,(2)現在の特徴空間を含む正の集合拡大,(3)幾何的検証による正の集合収縮を交互に行う。
論文 参考訳(メタデータ) (2022-08-19T12:59:46Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - ConViT: Improving Vision Transformers with Soft Convolutional Inductive
Biases [16.308432111311195]
ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。
本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。
その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
論文 参考訳(メタデータ) (2021-03-19T09:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。