論文の概要: Can Vision-Language Models Answer Face to Face Questions in the Real-World?
- arxiv url: http://arxiv.org/abs/2503.19356v1
- Date: Tue, 25 Mar 2025 05:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:32.161994
- Title: Can Vision-Language Models Answer Face to Face Questions in the Real-World?
- Title(参考訳): ビジョンランゲージモデルでは, 現実の質問に答えられるのか?
- Authors: Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya, Sunny Panchal, Guillaume Berger, Roland Memisevic,
- Abstract要約: Qualcomm Interactive Video dataset (IVD) という新しいデータセットとベンチマークを導入する。
このデータセットは単純な質問回答設定に基づいており、ユーザーはカメラとオーディオ入力に基づいて、システムがリアルタイムで答えなければならない質問を行う。
既存のモデルがこのタスクにおいて人間のパフォーマンスよりもはるかに遅れていることを示し、パフォーマンスギャップの主な原因を特定する。
- 参考スコア(独自算出の注目度): 8.006029714081997
- License:
- Abstract: AI models have made significant strides in recent years in their ability to describe and answer questions about real-world images. They have also made progress in the ability to converse with users in real-time using audio input. This raises the question: have we reached the point where AI models, connected to a camera and microphone, can converse with users in real-time about scenes and events that are unfolding live in front of the camera? This has been a long-standing goal in AI and is a prerequisite for real-world AI assistants and humanoid robots to interact with humans in everyday situations. In this work, we introduce a new dataset and benchmark, the Qualcomm Interactive Video Dataset (IVD), which allows us to assess the extent to which existing models can support these abilities, and to what degree these capabilities can be instilled through fine-tuning. The dataset is based on a simple question-answering setup, where users ask questions that the system has to answer, in real-time, based on the camera and audio input. We show that existing models fall far behind human performance on this task, and we identify the main sources for the performance gap. However, we also show that for many of the required perceptual skills, fine-tuning on this form of data can significantly reduce this gap.
- Abstract(参考訳): AIモデルは、現実世界の画像に関する質問を記述し、答える能力において、近年大きな進歩を遂げている。
また、音声入力を使ってリアルタイムでユーザーと会話する能力も進歩している。
カメラとマイクに接続されたAIモデルは、カメラの前で展開されているシーンやイベントについてリアルタイムでユーザーと会話できるのか?
これはAIの長年の目標であり、現実のAIアシスタントやヒューマノイドロボットが日々の状況で人間と対話するための前提条件である。
本研究では,既存のモデルがこれらの能力をサポート可能な範囲と,これらの機能を微調整によってどの程度の程度に活用できるかを評価することができる,新しいデータセットとベンチマークであるQualcomm Interactive Video Dataset (IVD)を導入する。
このデータセットは単純な質問回答設定に基づいており、ユーザーはカメラとオーディオ入力に基づいて、システムがリアルタイムで答えなければならない質問を行う。
既存のモデルがこのタスクにおいて人間のパフォーマンスよりもはるかに遅れていることを示し、パフォーマンスギャップの主な原因を特定する。
しかし、必要な知覚スキルの多くにおいて、この形式のデータの微調整は、このギャップを著しく減少させる可能性があることも示している。
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations [26.4215586218117]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
論文 参考訳(メタデータ) (2023-06-13T21:10:45Z) - Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文 参考訳(メタデータ) (2023-06-06T11:36:14Z) - Understanding 3D Object Interaction from a Single Image [18.681222155879656]
人間は単一のイメージを、対話を許す複数の潜在的なオブジェクトとして容易に理解することができる。
私たちは、知的エージェントが3Dシーンをよりよく探索したり、オブジェクトを操作できるように、同様の能力をマシンに提供したいと考えています。
論文 参考訳(メタデータ) (2023-05-16T17:59:26Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。