論文の概要: GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object
Affordances of Language and Vision Models
- arxiv url: http://arxiv.org/abs/2402.12881v1
- Date: Tue, 20 Feb 2024 10:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:57:20.284895
- Title: GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object
Affordances of Language and Vision Models
- Title(参考訳): GRAFFORD: 言語と視覚モデルのオブジェクト指向の知識をテストするためのベンチマークデータセット
- Authors: Sayantan Adak, Daivik Agrawal, Animesh Mukherjee and Somak Aditya
- Abstract要約: 事前学習言語モデル(LM)と事前学習型ビジョンランゲージモデル(VLM)における対象値の知識について検討する。
トランスフォーマーベースの大規模事前学習言語モデル(PTLM)は、大量の未ラベルテキストから文脈表現を学習する。
本研究は,言語基盤タスクのための新しいデータセットを提供し,LM能力に関する知見を提示する。
- 参考スコア(独自算出の注目度): 7.242042826906371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the knowledge of object affordances in pre-trained language
models (LMs) and pre-trained Vision-Language models (VLMs). Transformers-based
large pre-trained language models (PTLM) learn contextual representation from
massive amounts of unlabeled text and are shown to perform impressively in
downstream NLU tasks. In parallel, a growing body of literature shows that
PTLMs fail inconsistently and non-intuitively, showing a lack of reasoning and
grounding. To take a first step toward quantifying the effect of grounding (or
lack thereof), we curate a novel and comprehensive dataset of object
affordances -- GrAFFORD, characterized by 15 affordance classes. Unlike
affordance datasets collected in vision and language domains, we annotate
in-the-wild sentences with objects and affordances. Experimental results reveal
that PTLMs exhibit limited reasoning abilities when it comes to uncommon object
affordances. We also observe that pre-trained VLMs do not necessarily capture
object affordances effectively. Through few-shot fine-tuning, we demonstrate
improvement in affordance knowledge in PTLMs and VLMs. Our research contributes
a novel dataset for language grounding tasks, and presents insights into LM
capabilities, advancing the understanding of object affordances. Codes and data
are available at https://github.com/sayantan11995/Affordance
- Abstract(参考訳): 本研究では,事前学習言語モデル (LM) と事前学習型視覚言語モデル (VLM) における対象物価の知識について検討する。
トランスフォーマーベースの大規模事前学習言語モデル(PTLM)は、大量のラベルのないテキストから文脈表現を学習し、下流のNLUタスクにおいて顕著に機能することを示す。
平行して、成長する文献では、PTLMは矛盾なく非意図的に失敗し、推論と根拠の欠如を示している。
接地効果(またはその欠如)の定量化に向けて第一歩を踏み出した上で,15の空きクラスを特徴とする,新しい総合的な対象空き率データセットGrAFFORDをキュレートする。
視覚領域と言語領域で収集されたアフォーダンスデータセットとは異なり、対象とアフォーダンスで内文に注釈を付ける。
実験結果から, PTLMは, 稀な物価に関して限られた推論能力を示すことが明らかとなった。
また、事前訓練されたVLMは、必ずしもオブジェクトの余裕を効果的に捉えていないことも観察する。
数発の微調整により,PTLMおよびVLMにおけるアベイランス知識の向上を示す。
本研究は、言語基盤タスクのための新しいデータセットを提供し、LM能力に関する洞察を提示し、物価の理解を深める。
コードとデータはhttps://github.com/sayantan11995/affordanceで入手できる。
関連論文リスト
- Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM [3.2688425993442696]
多くの調査研究により、最も優れた視覚と言語モデル(VLM)でさえ、構成シーン理解の側面を捉えるのに苦労していることが明らかになった。
VLMの最近の進歩には、モデルサイズとデータセットサイズの両方のスケールアップ、追加のトレーニング目標と監視レベルが含まれる。
本稿では,GradCAMアクティベーションを利用して,事前学習したVLMのグラウンドディング能力を厳格に評価する,新しい定量的メトリクススイートを提案する。
論文 参考訳(メタデータ) (2024-04-29T22:06:17Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects [73.50105018389958]
ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - Can Text-based Knowledge Graph Completion Benefit From Zero-Shot Large
Language Models? [10.56565195524981]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著に改善されている。
本研究では,より効率的なテキスト記述がモデル性能を増幅できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Evaluating Document Coherence Modelling [37.287725949616934]
英語文侵入検出タスクにおけるプリトレーニング済みLMの広い範囲の性能を検討する。
実験の結果,事前学習したLMはドメイン内評価において顕著に機能するが,クロスドメイン設定の大幅な低下を経験することがわかった。
論文 参考訳(メタデータ) (2021-03-18T10:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。