論文の概要: Grounding Language Models for Visual Entity Recognition
- arxiv url: http://arxiv.org/abs/2402.18695v2
- Date: Fri, 26 Jul 2024 06:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:11:46.468377
- Title: Grounding Language Models for Visual Entity Recognition
- Title(参考訳): ビジュアルエンティティ認識のための接地言語モデル
- Authors: Zilin Xiao, Ming Gong, Paola Cascante-Bonilla, Xingyao Zhang, Jie Wu, Vicente Ordonez,
- Abstract要約: AutoVERは、Visual Entity Recognitionのための自動回帰モデルである。
ドメイン外エンティティの低パフォーマンスを軽減し、視覚的な推論を必要とするクエリに優れています。
これは、最近提案されたOven-Wikiベンチマークで、異なるデータセット分割間で大幅に改善されている。
- 参考スコア(独自算出の注目度): 27.783314622717448
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce AutoVER, an Autoregressive model for Visual Entity Recognition. Our model extends an autoregressive Multi-modal Large Language Model by employing retrieval augmented constrained generation. It mitigates low performance on out-of-domain entities while excelling in queries that require visually-situated reasoning. Our method learns to distinguish similar entities within a vast label space by contrastively training on hard negative pairs in parallel with a sequence-to-sequence objective without an external retriever. During inference, a list of retrieved candidate answers explicitly guides language generation by removing invalid decoding paths. The proposed method achieves significant improvements across different dataset splits in the recently proposed Oven-Wiki benchmark. Accuracy on the Entity seen split rises from 32.7% to 61.5%. It also demonstrates superior performance on the unseen and query splits by a substantial double-digit margin.
- Abstract(参考訳): 私たちは、ビジュアルエンティティ認識のためのAutoregressiveモデルであるAutoVERを紹介します。
自動回帰型マルチモーダル大言語モデルを拡張し,検索制約付き生成手法を適用した。
ドメイン外エンティティの低パフォーマンスを軽減し、視覚的な推論を必要とするクエリに優れています。
提案手法は,外部レトリビュータを使わずに,厳密な負対を並列に学習することにより,ラベル空間内の類似したエンティティを識別する。
推論中、検索された候補回答のリストは、無効なデコードパスを削除することによって、言語生成を明示的にガイドする。
提案手法は,最近提案されたOven-Wikiベンチマークにおいて,データセット分割における大幅な改善を実現する。
エンティティの精度は32.7%から61.5%に上昇した。
また、目に見えないクエリとクエリの分割に対して、実質的な2桁のマージンで優れたパフォーマンスを示す。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Diffusion Guided Language Modeling [28.819061884362792]
多くのアプリケーションでは、感情など、生成された言語の属性を制御することが望ましい。
自動回帰言語モデルでは、既存のガイダンス手法は、生成時にカスケードしたエラーをデコードし、性能を低下させる。
本稿では,自己回帰型言語モデルを用いて所望の特性を持つテキストを生成するための遅延提案を誘導拡散モデルを用いて生成する。
論文 参考訳(メタデータ) (2024-08-08T05:06:22Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。