論文の概要: VIVA: A Benchmark for Vision-Grounded Decision-Making with Human Values
- arxiv url: http://arxiv.org/abs/2407.03000v2
- Date: Thu, 10 Oct 2024 06:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:30.641371
- Title: VIVA: A Benchmark for Vision-Grounded Decision-Making with Human Values
- Title(参考訳): VIVA: 人的価値を持つ視覚的な意思決定のためのベンチマーク
- Authors: Zhe Hu, Yixiao Ren, Jing Li, Yu Yin,
- Abstract要約: 大規模視覚言語モデル(VLM)は、日常生活への統合に大きな可能性を示している。
本稿では,人間のVAluによって駆動されるVsion-grounded decision-makingのベンチマークであるVIVAを紹介する。
- 参考スコア(独自算出の注目度): 14.094823787048592
- License:
- Abstract: Large vision language models (VLMs) have demonstrated significant potential for integration into daily life, making it crucial for them to incorporate human values when making decisions in real-world situations. This paper introduces VIVA, a benchmark for VIsion-grounded decision-making driven by human VAlues. While most large VLMs focus on physical-level skills, our work is the first to examine their multimodal capabilities in leveraging human values to make decisions under a vision-depicted situation. VIVA contains 1,240 images depicting diverse real-world situations and the manually annotated decisions grounded in them. Given an image there, the model should select the most appropriate action to address the situation and provide the relevant human values and reason underlying the decision. Extensive experiments based on VIVA show the limitation of VLMs in using human values to make multimodal decisions. Further analyses indicate the potential benefits of exploiting action consequences and predicted human values.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、現実の状況において意思決定を行う際に、人間の価値を組み込むことが重要である。
本稿では,人間のVAluによって駆動されるVsion-grounded decision-makingのベンチマークであるVIVAを紹介する。
ほとんどの大規模VLMは物理レベルのスキルに重点を置いていますが、私たちの研究は、人間の価値を活用して意思決定を行うためのマルチモーダル能力を調べる最初のものです。
VIVAには、様々な現実世界の状況と手動で注釈付けされた決定を描いている1,240枚の画像が含まれている。
イメージが与えられたら、モデルは状況に対処するための最も適切なアクションを選択し、関連する人間の価値と決定の根底にある理由を提供するべきである。
VIVAに基づく大規模な実験は、人間の値を用いてマルチモーダル決定を行う際のVLMの制限を示す。
さらなる分析は、行動結果と予測された人間の価値を利用する潜在的な利点を示している。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - HumanVLM: Foundation for Human-Scene Vision-Language Model [3.583459930633303]
ヒューマンシーンの視覚言語タスクは、多様な社会アプリケーションでますます普及している。
本研究では,HumanVLM(HumanVLM)というドメイン固有な大規模視覚言語モデルを提案する。
実験では, 様々な下流タスクにまたがってヒューマンVLMを評価し, 総合的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-05T12:14:57Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions [69.9980759344628]
Vision-and-Language Navigation (VLN)は、人間の指示に基づいてナビゲートするエンボディエージェントを開発することを目的としている。
本稿では,人間の動的活動を取り入れ,従来のVLNを拡張したHuman-Aware Vision-and-Language Navigation (HA-VLN)を紹介する。
本稿では, クロスモーダル融合と多種多様なトレーニング戦略を利用して, エキスパート・スーパーモーダル・クロスモーダル (VLN-CM) と非エキスパート・スーパーモーダル・ディシジョン・トランスフォーマー (VLN-DT) のエージェントを提示する。
論文 参考訳(メタデータ) (2024-06-27T15:01:42Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - Decision Theoretic Foundations for Experiments Evaluating Human Decisions [18.27590643693167]
我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。
論文 参考訳(メタデータ) (2024-01-25T16:21:37Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z) - From Values to Opinions: Predicting Human Behaviors and Stances Using
Value-Injected Large Language Models [10.520548925719565]
本稿では,価値注入型大言語モデル(LLM)を用いて意見や行動を予測することを提案する。
VIMの有効性を検証するために,4つのタスクについて一連の実験を行った。
以上の結果から,基本的アプローチよりも価値注入型LCMの方が,意見や行動の予測が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T02:18:10Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。