Fugu-MT 論文翻訳(概要): Can Vision-Language Models Think from a First-Person Perspective?

論文の概要: Can Vision-Language Models Think from a First-Person Perspective?

arxiv url: http://arxiv.org/abs/2311.15596v1
Date: Mon, 27 Nov 2023 07:44:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 16:38:02.534314
Title: Can Vision-Language Models Think from a First-Person Perspective?
Title（参考訳）: 視覚言語モデルは一人称視点から考えることができるか?
Authors: Sijie Cheng, Zhicheng Guo, Jingwen Wu, Kechen Fang, Peng Li, Huaping Liu, Yang Liu
Abstract要約: 視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。 EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
参考スコア（独自算出の注目度）: 22.483688194790695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have recently shown promising results in traditional downstream tasks. Evaluation studies have emerged to assess their abilities, with the majority focusing on the third-person perspective, and only a few addressing specific tasks from the first-person perspective. However, the capability of VLMs to "think" from a first-person perspective, a crucial attribute for advancing autonomous agents and robotics, remains largely unexplored. To bridge this research gap, we introduce EgoThink, a novel visual question-answering benchmark that encompasses six core capabilities with twelve detailed dimensions. The benchmark is constructed using selected clips from egocentric videos, with manually annotated question-answer pairs containing first-person information. To comprehensively assess VLMs, we evaluate eighteen popular VLMs on EgoThink. Moreover, given the open-ended format of the answers, we use GPT-4 as the automatic judge to compute single-answer grading. Experimental results indicate that although GPT-4V leads in numerous dimensions, all evaluated VLMs still possess considerable potential for improvement in first-person perspective tasks. Meanwhile, enlarging the number of trainable parameters has the most significant impact on model performance on EgoThink. In conclusion, EgoThink serves as a valuable addition to existing evaluation benchmarks for VLMs, providing an indispensable resource for future research in the realm of embodied artificial intelligence and robotics.
Abstract（参考訳）: 視覚言語モデル(VLM)は近年、従来の下流タスクにおいて有望な結果を示している。評価研究は能力を評価するために現れており、大多数は第三者の視点から焦点を当てており、一人称視点で特定のタスクに取り組むのはごくわずかである。しかし、自律エージェントとロボティクスの進歩にとって重要な属性である一人称視点から「考える」vlmsの能力は、ほとんど解明されていない。この研究ギャップを埋めるために、12の詳細な次元を持つ6つのコア機能を含む新しい視覚的質問答えベンチマークであるEgoThinkを紹介します。ベンチマークは、エゴセントリックビデオから選択されたクリップを使って構築され、手動でファーストパーソン情報を含む質問と回答のペアがある。 VLMを総合的に評価するために、EgoThink上で18の人気のあるVLMを評価した。さらに, 解答のオープンエンド形式を考えると, gpt-4を自動判定器として用いる。実験結果から, GPT-4Vは多数の次元をリードするが, 評価されたVLMはすべて, 一人称視点タスクの改善に有意な可能性を秘めていることがわかった。一方、トレーニング可能なパラメータの数を増やすことは、EgoThinkのモデルパフォーマンスに最も大きな影響を与える。結論として、EgoThinkはVLMの既存の評価ベンチマークの貴重な追加として機能し、組み込み人工知能とロボティクスの領域における将来の研究に必要なリソースを提供する。

関連論文リスト

GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning [112.51671310005604]
GLM-4.1V-9B-Thinkingは、汎用マルチモーダル理解と推論を促進するために設計された視覚言語モデル(VLM)である。モデルの潜在能力を最大限に活用するために,カリキュラムサンプリングを用いた強化学習を提案する。オープンソースのGLM-4.1V-9B-Thinkingは、同等の大きさのモデル間で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-01T17:55:04Z)
Comparing Learning Paradigms for Egocentric Video Summarization [0.0]
本研究では,自我中心のビデオデータの理解と解釈能力を評価することによって,コンピュータビジョンのパラダイムを考察する。我々はShotluck Holmes(最先端教師あり学習)、TAC-SUM(最先端教師なし学習)、GPT-4o(素早い微調整事前学習モデル)について検討し、映像要約の有効性を評価した。
論文参考訳（メタデータ） (2025-06-26T21:46:48Z)
EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving [76.73222429266964]
EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。 9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
論文参考訳（メタデータ） (2025-06-03T09:18:33Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
How Well Can Vison-Language Models Understand Humans' Intention? An Open-ended Theory of Mind Question Evaluation Benchmark [0.8820880683910832]
視覚言語モデル(VLM)は、視覚質問応答(VQA)タスクにおいて強力な推論能力を示している。しかし、人間の意図、信念、精神状態などを推測するなど、心の理論(ToM)を遂行する能力は未熟である。 ToMタスクの様々なカテゴリにまたがってVLMの性能を評価するためのオープンな質問フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-28T02:26:32Z)
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? [20.199060287444162]
本稿では,AI生成ビデオ(AIGV)の統一評価手段として,マルチモーダル大言語モデル(MLLM)の有用性について検討する。 UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面でペアワイズな人間の好みアノテーションを提供する。以上の結果から,高度なMLLMは人間の評価よりも遅れているものの,AIGV評価を統一する上で有望な能力を示すことが示唆された。
論文参考訳（メタデータ） (2025-03-13T01:52:27Z)
EgoBlind: Towards Egocentric Visual Assistance for the Blind People [69.6161191190939]
EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットである。実際の盲目のユーザーの日常生活を1対1の視点で記録する1,210の動画で構成されている。視覚支援の必要性を反映するために、視覚障害者が直接提示または生成した4,927の質問も入っている。
論文参考訳（メタデータ） (2025-03-11T09:40:31Z)
Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts [39.72461455275383]
我々は、Schwartzの値次元に基づいて視覚言語モデル(VLM)を評価するためのベンチマークであるValue-Spectrumを紹介する。我々は、TikTok、YouTube Shorts、Instagram Reelsからソースされた5万本以上の短いビデオをベクター化したデータベースを構築しました。また,ビデオ閲覧と解析を自動化するVLMエージェントパイプラインを開発した。
論文参考訳（メタデータ） (2024-11-18T11:31:10Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。 APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文参考訳（メタデータ） (2024-10-15T14:08:53Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。 LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文参考訳（メタデータ） (2024-10-07T05:07:01Z)
Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-06-20T17:54:03Z)
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文参考訳（メタデータ） (2024-06-19T20:14:14Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Large Language Models as Automated Aligners for benchmarking Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文参考訳（メタデータ） (2023-11-24T16:12:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。