Fugu-MT 論文翻訳(概要): Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

論文の概要: Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

arxiv url: http://arxiv.org/abs/2404.06510v1
Date: Tue, 9 Apr 2024 17:59:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 13:42:02.996042
Title: Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?
Title（参考訳）: 大規模視覚言語モデルにおけるセマンティックグラウンドのフィードバックは可能か?
Authors: Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler, David Acuna,
Abstract要約: 本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
参考スコア（独自算出の注目度）: 61.899791071654654
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Enhancing semantic grounding abilities in Vision-Language Models (VLMs) often involves collecting domain-specific training data, refining the network architectures, or modifying the training recipes. In this work, we venture into an orthogonal direction and explore whether VLMs can improve their semantic grounding by "receiving" feedback, without requiring in-domain data, fine-tuning, or modifications to the network architectures. We systematically analyze this hypothesis using a feedback mechanism composed of a binary signal. We find that if prompted appropriately, VLMs can utilize feedback both in a single step and iteratively, showcasing the potential of feedback as an alternative technique to improve grounding in internet-scale VLMs. Furthermore, VLMs, like LLMs, struggle to self-correct errors out-of-the-box. However, we find that this issue can be mitigated via a binary verification mechanism. Finally, we explore the potential and limitations of amalgamating these findings and applying them iteratively to automatically enhance VLMs' grounding performance, showing grounding accuracy consistently improves using automated feedback across all models in all settings investigated. Overall, our iterative framework improves semantic grounding in VLMs by more than 15 accuracy points under noise-free feedback and up to 5 accuracy points under a simple automated binary verification mechanism. The project website is hosted at https://andrewliao11.github.io/vlms_feedback
Abstract（参考訳）: VLM(Vision-Language Models)におけるセマンティックグラウンドディング能力の強化には、ドメイン固有のトレーニングデータ収集、ネットワークアーキテクチャの修正、トレーニングレシピの変更などが含まれる。本研究では,VLMがドメイン内データや微調整,ネットワークアーキテクチャの変更を必要とせず,フィードバックを"受信"することで,そのセマンティックグラウンド化を改善することができるかどうかを探究する。我々はこの仮説をバイナリ信号からなるフィードバック機構を用いて体系的に解析する。インターネット規模のVLMの基盤化を改善するための代替手法として,フィードバックの可能性を示すため,ひとつのステップと反復の両方でフィードバックを適切に活用できることが判明した。さらに、LLMのようなVLMは、最初からエラーを自己修正するのに苦労する。しかし、この問題はバイナリ検証機構によって緩和できることがわかった。最後に,これらの知見を集約し,VLMの接地性能を向上するために反復的に適用する可能性や限界について検討し,すべての設定において,全モデルにまたがる自動フィードバックを用いることで,接地精度が一貫的に向上することを示した。我々の反復的フレームワークは、ノイズのないフィードバックの下では15以上の精度でVLMのセマンティックグラウンドを改善し、単純な自動二項検証機構の下では最大5つの精度で精度を向上する。プロジェクトのWebサイトはhttps://andrewliao11.github.io/vlms_feedbackにホストされている。

関連論文リスト

Customizing Speech Recognition Model with Large Language Model Feedback [5.290365603660415]
教師なしドメイン適応のための強化学習に基づくアプローチを提案する。我々は、未ラベルデータを利用して転写品質、特にドメインミスマッチの影響を受ける名前付きエンティティを向上させる。提案手法は,従来の自己学習手法に比べて,エンティティ単語の誤り率を21%向上させる。
論文参考訳（メタデータ） (2025-06-05T18:42:57Z)
Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文参考訳（メタデータ） (2025-03-11T12:24:54Z)
SFO: Piloting VLM Feedback for Offline RL [1.3597551064547502]
VLM(Vision-Language Models)は、アクション条件のトレーニングデータがないため、制御タスクを解く能力に制限がある。 AIフィードバックからの強化学習における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することだ。本稿では,人間のフィードバックに基づく手法から,より複雑な強化学習を達成し,よりシンプルで効果的なアプローチであるフィルタリングと重み付き行動クローニングを提案する。
論文参考訳（メタデータ） (2025-03-02T23:52:46Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-31T04:30:42Z)
Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-10-14T21:01:01Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models [48.42142115255159]
命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
論文参考訳（メタデータ） (2024-09-21T21:06:25Z)
MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2024-07-31T09:23:57Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文参考訳（メタデータ） (2024-03-02T20:25:50Z)
Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。 11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-09-06T23:49:11Z)
Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。 NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文参考訳（メタデータ） (2023-09-04T03:06:04Z)
Self-Supervised Place Recognition by Refining Temporal and Featural Pseudo Labels from Panoramic Data [16.540900776820084]
本稿では,時間的近傍と学習可能な特徴近傍を用いて未知の空間近傍を探索するTF-VPRという新しいフレームワークを提案する。本手法は,リコール率,ロバスト性,方向多様性において,自己監督ベースラインよりも優れる。
論文参考訳（メタデータ） (2022-08-19T12:59:46Z)
ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases [16.308432111311195]
ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
論文参考訳（メタデータ） (2021-03-19T09:11:20Z)
Understanding Self-Training for Gradual Domain Adaptation [107.37869221297687]
段階的なドメイン適応は、対象領域へ徐々にシフトするラベルのないデータのみを与えられたソースドメインで訓練された初期分類器を適応させることが目的である。目標領域への直接適応が非有界誤差をもたらすような設定下において、段階的なシフトを伴う自己学習の誤差に対する最初の非無空上界を証明した。この理論解析はアルゴリズムの洞察を導き、無限のデータを持つ場合でも正規化とラベルのシャープ化が不可欠であることを強調し、より小さなワッサーシュタイン無限距離のシフトに対して自己学習が特にうまく働くことを示唆している。
論文参考訳（メタデータ） (2020-02-26T08:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。