論文の概要: Enhancing Frame Detection with Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2502.12210v1
- Date: Mon, 17 Feb 2025 02:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:28.847588
- Title: Enhancing Frame Detection with Retrieval Augmented Generation
- Title(参考訳): 検索拡張生成によるフレーム検出の強化
- Authors: Papa Abdou Karim Karou Diallo, Amal Zouaq,
- Abstract要約: RCIF(Retrieve Candidates and Identify Frames)と呼ばれるフレーム検出のためのRAGに基づく最初のアプローチを提案する。
その結果,検索空間を狭めることで,検索要素がタスクの複雑さを著しく低減できることが示唆された。
提案手法はFrameNet 1.5 と 1.7 の最先端性能を実現し,原文のみを提供するシナリオにおいて,その堅牢性を実証する。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License:
- Abstract: Recent advancements in Natural Language Processing have significantly improved the extraction of structured semantic representations from unstructured text, especially through Frame Semantic Role Labeling (FSRL). Despite this progress, the potential of Retrieval-Augmented Generation (RAG) models for frame detection remains under-explored. In this paper, we present the first RAG-based approach for frame detection called RCIF (Retrieve Candidates and Identify Frames). RCIF is also the first approach to operate without the need for explicit target span and comprises three main stages: (1) generation of frame embeddings from various representations ; (2) retrieval of candidate frames given an input text; and (3) identification of the most suitable frames. We conducted extensive experiments across multiple configurations, including zero-shot, few-shot, and fine-tuning settings. Our results show that our retrieval component significantly reduces the complexity of the task by narrowing the search space thus allowing the frame identifier to refine and complete the set of candidates. Our approach achieves state-of-the-art performance on FrameNet 1.5 and 1.7, demonstrating its robustness in scenarios where only raw text is provided. Furthermore, we leverage the structured representation obtained through this method as a proxy to enhance generalization across lexical variations in the task of translating natural language questions into SPARQL queries.
- Abstract(参考訳): 自然言語処理の最近の進歩は、構造化されていないテキスト、特にフレームセマンティックロールラベル(FSRL)による構造化意味表現の抽出を大幅に改善した。
この進歩にもかかわらず、フレーム検出のためのRAG(Retrieval-Augmented Generation)モデルの可能性はまだ未検討のままである。
本稿では,RCIF (Retrieve Candidates and Identify Frames) と呼ばれるRAGベースのフレーム検出手法を提案する。
RCIFは、明示的なターゲットスパンを必要とせずに運用する最初のアプローチであり、(1)様々な表現からのフレーム埋め込みの生成、(2)入力テキストが与えられた候補フレームの検索、(3)最も適切なフレームの識別の3つの主要なステージから構成される。
我々は、ゼロショット、少数ショット、微調整設定など、複数の設定で広範な実験を行った。
この結果から,探索空間を狭めることにより,検索コンポーネントがタスクの複雑さを著しく低減し,フレーム識別子を洗練し,候補の集合を完遂できることが示唆された。
提案手法はFrameNet 1.5 と 1.7 の最先端性能を実現し,原文のみを提供するシナリオにおいて,その堅牢性を示すものである。
さらに、この手法を用いて得られた構造化表現をプロキシとして利用し、自然言語質問をSPARQLクエリに変換するタスクにおいて、語彙的バリエーションをまたいだ一般化を強化する。
関連論文リスト
- PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval [37.95145173167645]
Prompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは,(1) 文字プロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み,(3) 合成テキストと画像埋め込みの重み付き融合,という3つの重要な改善を実現している。
論文 参考訳(メタデータ) (2025-02-11T03:20:21Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - An Empirical Study of Frame Selection for Text-to-Video Retrieval [62.28080029331507]
テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。
既存の方法は通常、TVRのビデオコンテンツを表すためにビデオ内のフレームのサブセットを選択する。
本稿では,TVRにおけるフレーム選択の実証的研究を行う。
論文 参考訳(メタデータ) (2023-11-01T05:03:48Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Form2Seq : A Framework for Higher-Order Form Structure Extraction [14.134131448981295]
テキストを用いた構造抽出のための新しいシーケンス・ツー・シーケンス(Seq2Seq)を提案する。
1)フィールドキャプション,リスト項目などの下位要素を10種類に分類すること,2)テキストフィールド,チョイスフィールド,チョイスグループなどの下位要素を情報収集機構として使用する高次構成要素に分類すること,の2つの課題について論じる。
実験結果から, 分類作業の精度90%, F1が75.82, 86.01, 61.63のテキストベースアプローチの有効性が示された。
論文 参考訳(メタデータ) (2021-07-09T13:10:51Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。