論文の概要: OAD-Promoter: Enhancing Zero-shot VQA using Large Language Models with Object Attribute Description
- arxiv url: http://arxiv.org/abs/2511.12131v1
- Date: Sat, 15 Nov 2025 09:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.627424
- Title: OAD-Promoter: Enhancing Zero-shot VQA using Large Language Models with Object Attribute Description
- Title(参考訳): OAD-Promoter: オブジェクト属性記述付き大規模言語モデルを用いたゼロショットVQAの実現
- Authors: Quanxing Xu, Ling Zhou, Feifei Zhang, Jinyu Tian, Rubing Huang,
- Abstract要約: 大規模言語モデル(LLM)は、視覚質問応答(VQA)において重要なツールとなっている。
大規模なトレーニングデータセットへの依存はしばしば、知識獲得時に言語バイアスを継承する。
OAD-Promoterは,言語バイアスを緩和し,ドメインシフトの堅牢性を改善することで,LLMベースのVQAを向上するための新しいアプローチである。
- 参考スコア(独自算出の注目度): 17.70441632887398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have become a crucial tool in Visual Question Answering (VQA) for handling knowledge-intensive questions in few-shot or zero-shot scenarios. However, their reliance on massive training datasets often causes them to inherit language biases during the acquisition of knowledge. This limitation imposes two key constraints on existing methods: (1) LLM predictions become less reliable due to bias exploitation, and (2) despite strong knowledge reasoning capabilities, LLMs still struggle with out-of-distribution (OOD) generalization. To address these issues, we propose Object Attribute Description Promoter (OAD-Promoter), a novel approach for enhancing LLM-based VQA by mitigating language bias and improving domain-shift robustness. OAD-Promoter comprises three components: the Object-concentrated Example Generation (OEG) module, the Memory Knowledge Assistance (MKA) module, and the OAD Prompt. The OEG module generates global captions and object-concentrated samples, jointly enhancing visual information input to the LLM and mitigating bias through complementary global and regional visual cues. The MKA module assists the LLM in handling OOD samples by retrieving relevant knowledge from stored examples to support questions from unseen domains. Finally, the OAD Prompt integrates the outputs of the preceding modules to optimize LLM inference. Experiments demonstrate that OAD-Promoter significantly improves the performance of LLM-based VQA methods in few-shot or zero-shot settings, achieving new state-of-the-art results.
- Abstract(参考訳): 大きな言語モデル(LLM)は、数ショットまたはゼロショットのシナリオで知識集約的な質問を処理するためのVisual Question Answering(VQA)において重要なツールとなっている。
しかし、大規模なトレーニングデータセットに依存しているため、知識の獲得時に言語バイアスを継承することがしばしばある。
この制限は既存の手法に2つの重要な制約を課している: 1) LLM予測はバイアスの搾取により信頼性が低下し、(2) 強い知識推論能力にもかかわらず、LLMは相変わらずアウト・オブ・ディストリビューション(OOD)の一般化に苦慮している。
これらの問題に対処するために、言語バイアスを緩和し、ドメインシフトの堅牢性を改善することでLLMベースのVQAを強化する新しいアプローチであるObject Attribute Description promoteder (OAD-Promoter)を提案する。
OAD-Promoterは、Object-Concentated Example Generation (OEG)モジュール、Memory Knowledge Assistance (MKA)モジュール、OAD Promptの3つのコンポーネントから構成されている。
OEGモジュールは、グローバルキャプションとオブジェクト濃縮サンプルを生成し、LLMに入力された視覚情報を共同で強化し、補完的なグローバルおよび地域視覚的手がかりを通してバイアスを軽減する。
MKAモジュールは、格納されたサンプルから関連する知識を取得し、未知のドメインからの質問をサポートすることで、OODサンプルの処理においてLLMを支援する。
最後に、OAD Promptは、LCM推論を最適化するために、前のモジュールの出力を統合する。
実験により,OAD-PromoterはLLMベースのVQA法の性能を大幅に向上し,新しい最先端結果が得られた。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。