論文の概要: Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2409.17313v1
- Date: Wed, 25 Sep 2024 19:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 12:41:44.030661
- Title: Navigating the Nuances: A Fine-grained Evaluation of Vision-Language Navigation
- Title(参考訳): ニュアンスをナビゲートする:視覚言語ナビゲーションのきめ細かい評価
- Authors: Zehao Wang, Minye Wu, Yixin Cao, Yubo Ma, Meiqi Chen, Tinne Tuytelaars,
- Abstract要約: 本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
- 参考スコア(独自算出の注目度): 45.40828381049737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a novel evaluation framework for the Vision-Language Navigation (VLN) task. It aims to diagnose current models for various instruction categories at a finer-grained level. The framework is structured around the context-free grammar (CFG) of the task. The CFG serves as the basis for the problem decomposition and the core premise of the instruction categories design. We propose a semi-automatic method for CFG construction with the help of Large-Language Models (LLMs). Then, we induct and generate data spanning five principal instruction categories (i.e. direction change, landmark recognition, region recognition, vertical movement, and numerical comprehension). Our analysis of different models reveals notable performance discrepancies and recurrent issues. The stagnation of numerical comprehension, heavy selective biases over directional concepts, and other interesting findings contribute to the development of future language-guided navigation systems.
- Abstract(参考訳): 本研究では,視覚言語ナビゲーション(VLN)タスクのための新しい評価フレームワークを提案する。
様々な命令カテゴリの現在のモデルをよりきめ細かいレベルで診断することを目的としている。
フレームワークはタスクの文脈自由文法(CFG)を中心に構成されている。
CFGは、問題分解と命令カテゴリ設計のコア前提の基礎となる。
本稿では,Large-Language Models (LLMs) を用いたCFG構築のための半自動手法を提案する。
次に, 方向変化, ランドマーク認識, 地域認識, 垂直移動, 数値理解の5分野にまたがるデータを生成する。
異なるモデルの解析により、顕著な性能の相違と繰り返しの問題が明らかになった。
数値的理解の停滞、方向的概念に対する重度選択バイアス、その他の興味深い発見は、将来の言語誘導ナビゲーションシステムの開発に寄与する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - Lightweight Model Pre-training via Language Guided Knowledge Distillation [28.693835349747598]
本稿では,多くのモバイルデバイスにおいて不可欠な小型モデルの事前学習の問題について検討する。
本稿では,教師と学生の間で伝達される知識の洗練を支援するために,目標下流タスクのカテゴリ名を用いた言語ガイド蒸留(LGD)システムを提案する。
実験結果から,LGD法を用いた蒸留軽量モデルは最先端性能を示し,分類,検出,セグメンテーションなど,様々な下流タスクで検証された。
論文 参考訳(メタデータ) (2024-06-17T16:07:19Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Interpretable Attention Guided Network for Fine-grained Visual
Classification [36.657203916383594]
細かい粒度の視覚分類(FGVC)は困難ですが、従来の分類タスクよりも重要です。
細粒度視覚分類のための解釈型注意誘導ネットワーク(IAGN)を提案する。
論文 参考訳(メタデータ) (2021-03-08T12:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。