論文の概要: MACAROON: Training Vision-Language Models To Be Your Engaged Partners
- arxiv url: http://arxiv.org/abs/2406.14137v2
- Date: Thu, 17 Oct 2024 22:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 18:13:56.669634
- Title: MACAROON: Training Vision-Language Models To Be Your Engaged Partners
- Title(参考訳): MACAROON: ビジョンランゲージモデルのトレーニングをパートナーに
- Authors: Shujin Wu, Yi R. Fung, Sha Li, Yixin Wan, Kai-Wei Chang, Heng Ji,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
- 参考スコア(独自算出の注目度): 95.32771929749514
- License:
- Abstract: Large vision-language models (LVLMs), while proficient in following instructions and responding to diverse questions, invariably generate detailed responses even when questions are ambiguous or unanswerable, leading to hallucinations and bias issues. Thus, it is essential for LVLMs to proactively engage with humans to ask for clarifications or additional information for better responses. In this study, we aim to shift LVLMs from passive answer providers to proactive engaged partners. We begin by establishing a three-tiered hierarchy for questions of invalid, ambiguous, and personalizable nature to measure the proactive engagement capabilities of LVLMs. Utilizing this hierarchy, we create PIE, (ProactIve Engagement Evaluation) through GPT-4o and human annotators, consisting of 853 questions across six distinct, fine-grained question types that are verified by human annotators and accompanied with well-defined metrics. Our evaluations on \benchmark indicate poor performance of existing LVLMs, with the best-performing open-weights model only achieving an Aggregate Align Rate (AAR) of 0.28. In response, we introduce MACAROON, self-iMaginAtion for ContrAstive pReference OptimizatiON, which instructs LVLMs to autonomously generate contrastive response pairs for unlabeled questions given the task description and human-crafted criteria. Then, the self-imagined data is formatted for conditional reinforcement learning. Experimental results show MACAROON effectively improves LVLMs' capabilities to be proactively engaged (0.84 AAR) while maintaining comparable performance on general tasks.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、指示に従うのに熟練し、多様な質問に応答するが、質問があいまいである場合や解決不可能である場合でも、常に詳細な応答を生成し、幻覚や偏見の問題を引き起こす。
したがって、LVLMが人間と積極的に関わるためには、より優れた応答のために、明確化や追加情報を求めることが不可欠である。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
まず,LVLMの積極的エンゲージメント能力を測定するために,無効性,曖昧性,パーソナライズ可能な3階層階層階層を構築した。
この階層を生かして、GPT-4oとヒトのアノテータによるPIE(ProactIve Engagement Evaluation)を作成する。
評価の結果,既存のLVLMの性能は低く,AAR(Aggregate Align Rate)は0.28であることがわかった。
そこで本研究では,LVLMに対して,タスク記述と人為的基準に基づいて,ラベルのない質問に対するコントラスト応答対を自律的に生成するように指示する,自己iMaginAtion for ContrAstive pReference Optimizationを紹介する。
そして、条件付き強化学習のために自己イメージデータをフォーマットする。
実験の結果,MACAROON は LVLM の能率(0.84 AAR)を効果的に向上し,一般タスクでは同等の性能を維持した。
関連論文リスト
- LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Empowering Language Models with Active Inquiry for Deeper Understanding [31.11672018840381]
対話型エンゲージメントを備えた大規模言語モデルを実現するために設計されたLaMAI(Language Model with Active Inquiry)を紹介する。
LaMAIは、アクティブな学習技術を使用して、最も有意義な質問を提起し、動的双方向対話を育む。
様々な複雑なデータセットにわたる実証研究は、LaMAIの有効性を実証している。
論文 参考訳(メタデータ) (2024-02-06T05:24:16Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback [61.28463542324576]
本稿では,大規模言語モデルから自然言語フィードバック(NLF)を革新的に活用する大規模視覚言語モデル(LVLM)であるDRESSを紹介する。
我々は,NLFの新たな分類法を2つの重要なタイプに分類する。
実験の結果、DRESSはより有用な(9.76%)、正直な(11.52%)、無害な(21.03%)を生成できることが示された。
論文 参考訳(メタデータ) (2023-11-16T18:37:29Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。