論文の概要: Location-Aware Visual Question Generation with Lightweight Models
- arxiv url: http://arxiv.org/abs/2310.15129v1
- Date: Mon, 23 Oct 2023 17:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:16:31.190871
- Title: Location-Aware Visual Question Generation with Lightweight Models
- Title(参考訳): 軽量モデルを用いた位置認識型視覚質問生成
- Authors: Nicholas Collin Suwono, Justin Chih-Yao Chen, Tun Min Hung, Ting-Hao
Kenneth Huang, I-Bin Liao, Yung-Hui Li, Lun-Wei Ku, Shao-Hua Sun
- Abstract要約: この研究は、位置認識型視覚質問生成(LocaVQG)という新しいタスクを導入している。
我々は、周囲の画像とGPS座標を用いて、そのような位置認識情報を表現している。
我々はLocaVQGタスクに対処し、携帯電話などのエッジデバイスに適合する軽量モデルを学ぶ。
- 参考スコア(独自算出の注目度): 21.278164764804536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces a novel task, location-aware visual question generation
(LocaVQG), which aims to generate engaging questions from data relevant to a
particular geographical location. Specifically, we represent such
location-aware information with surrounding images and a GPS coordinate. To
tackle this task, we present a dataset generation pipeline that leverages GPT-4
to produce diverse and sophisticated questions. Then, we aim to learn a
lightweight model that can address the LocaVQG task and fit on an edge device,
such as a mobile phone. To this end, we propose a method which can reliably
generate engaging questions from location-aware information. Our proposed
method outperforms baselines regarding human evaluation (e.g., engagement,
grounding, coherence) and automatic evaluation metrics (e.g., BERTScore,
ROUGE-2). Moreover, we conduct extensive ablation studies to justify our
proposed techniques for both generating the dataset and solving the task.
- Abstract(参考訳): 本研究は,特定の地理的位置情報に関連するデータから係わる質問を生成することを目的とした,位置対応視覚質問生成(LocaVQG)という新しいタスクを導入する。
具体的には、周囲の画像とGPS座標を用いて位置情報を識別する。
この課題に対処するために,GPT-4を利用したデータセット生成パイプラインを提案する。
そこで我々は,LocaVQGタスクに対処し,携帯電話などのエッジデバイスに適合する軽量モデルを学習することを目指している。
そこで本研究では,位置情報から係わる質問を確実に生成する手法を提案する。
提案手法は,人間の評価(エンゲージメント,グラウンド,コヒーレンスなど)と自動評価指標(BERTScore,ROUGE-2など)のベースラインよりも優れている。
さらに,提案手法を正当化するために,広範なアブレーション研究を行い,データセットの生成と課題の解決について検討した。
関連論文リスト
- Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z) - VBR: A Vision Benchmark in Rome [1.71787484850503]
本稿では,RGBデータ,3次元点雲,IMU,GPSデータを含む,ローマで収集された視覚・知覚研究データセットについて述べる。
我々は、自律ロボット工学とコンピュータビジョンの研究を進めるために、視覚計測とSLAMをターゲットにした新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-17T12:34:49Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。