論文の概要: Can Vision-Language Models Think from a First-Person Perspective?
- arxiv url: http://arxiv.org/abs/2311.15596v1
- Date: Mon, 27 Nov 2023 07:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:38:02.534314
- Title: Can Vision-Language Models Think from a First-Person Perspective?
- Title(参考訳): 視覚言語モデルは一人称視点から考えることができるか?
- Authors: Sijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li, Huaping
Liu, Yang Liu
- Abstract要約: 視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
- 参考スコア(独自算出の注目度): 22.483688194790695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently shown promising results in
traditional downstream tasks. Evaluation studies have emerged to assess their
abilities, with the majority focusing on the third-person perspective, and only
a few addressing specific tasks from the first-person perspective. However, the
capability of VLMs to "think" from a first-person perspective, a crucial
attribute for advancing autonomous agents and robotics, remains largely
unexplored. To bridge this research gap, we introduce EgoThink, a novel visual
question-answering benchmark that encompasses six core capabilities with twelve
detailed dimensions. The benchmark is constructed using selected clips from
egocentric videos, with manually annotated question-answer pairs containing
first-person information. To comprehensively assess VLMs, we evaluate eighteen
popular VLMs on EgoThink. Moreover, given the open-ended format of the answers,
we use GPT-4 as the automatic judge to compute single-answer grading.
Experimental results indicate that although GPT-4V leads in numerous
dimensions, all evaluated VLMs still possess considerable potential for
improvement in first-person perspective tasks. Meanwhile, enlarging the number
of trainable parameters has the most significant impact on model performance on
EgoThink. In conclusion, EgoThink serves as a valuable addition to existing
evaluation benchmarks for VLMs, providing an indispensable resource for future
research in the realm of embodied artificial intelligence and robotics.
- Abstract(参考訳): 視覚言語モデル(VLM)は近年、従来の下流タスクにおいて有望な結果を示している。
評価研究は能力を評価するために現れており、大多数は第三者の視点から焦点を当てており、一人称視点で特定のタスクに取り組むのはごくわずかである。
しかし、自律エージェントとロボティクスの進歩にとって重要な属性である一人称視点から「考える」vlmsの能力は、ほとんど解明されていない。
この研究ギャップを埋めるために、12の詳細な次元を持つ6つのコア機能を含む新しい視覚的質問答えベンチマークであるEgoThinkを紹介します。
ベンチマークは、エゴセントリックビデオから選択されたクリップを使って構築され、手動でファーストパーソン情報を含む質問と回答のペアがある。
VLMを総合的に評価するために、EgoThink上で18の人気のあるVLMを評価した。
さらに, 解答のオープンエンド形式を考えると, gpt-4を自動判定器として用いる。
実験結果から, GPT-4Vは多数の次元をリードするが, 評価されたVLMはすべて, 一人称視点タスクの改善に有意な可能性を秘めていることがわかった。
一方、トレーニング可能なパラメータの数を増やすことは、EgoThinkのモデルパフォーマンスに最も大きな影響を与える。
結論として、EgoThinkはVLMの既存の評価ベンチマークの貴重な追加として機能し、組み込み人工知能とロボティクスの領域における将来の研究に必要なリソースを提供する。
関連論文リスト
- Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge [4.981275578987307]
大規模言語モデル(LLM)は、幅広いコンピューティングコンテキストにおけるフィードバックの自動生成に大きな可能性を示している。
しかし、学生の仕事をプロプライエタリなモデルに送ることのプライバシーと倫理的意味について懸念の声が上がっている。
このことは、教育におけるオープンソースのLLMの使用に大きな関心を呼んだが、そのようなオープンモデルが生み出すフィードバックの品質は、まだ検討されていない。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z) - Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T10:06:04Z) - Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision:
Insights from Group and Individual Assessments [2.539875353011627]
本研究は,画像の美的評価課題に対するビジョン付きGPT-4の性能について検討する。
我々は,グループの平均評価値と個人の評価値の予測という2つのタスクを採用する。
GPT-4は美的評価の予測に優れた性能を示し,美容と美容に対する異なる反応の性質を示した。
論文 参考訳(メタデータ) (2024-03-06T10:27:09Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。