論文の概要: ATEB: Evaluating and Improving Advanced NLP Tasks for Text Embedding Models
- arxiv url: http://arxiv.org/abs/2502.16766v1
- Date: Mon, 24 Feb 2025 01:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:22.314635
- Title: ATEB: Evaluating and Improving Advanced NLP Tasks for Text Embedding Models
- Title(参考訳): ATEB:テキスト埋め込みモデルのための高度なNLPタスクの評価と改善
- Authors: Simeng Han, Frank Palma Gomez, Tu Vu, Zefei Li, Daniel Cer, Hansi Zeng, Chris Tar, Arman Cohan, Gustavo Hernandez Abrego,
- Abstract要約: より高度なNLPタスクは、安全性や事実性などのテキストをより深く理解する必要がある。
既存の情報検索データから学習した埋め込みモデルの限界を評価・強調する新しいベンチマークを導入する。
本稿では,これらのタスクを検索タスクとして再構成する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 27.18321648849259
- License:
- Abstract: Traditional text embedding benchmarks primarily evaluate embedding models' capabilities to capture semantic similarity. However, more advanced NLP tasks require a deeper understanding of text, such as safety and factuality. These tasks demand an ability to comprehend and process complex information, often involving the handling of sensitive content, or the verification of factual statements against reliable sources. We introduce a new benchmark designed to assess and highlight the limitations of embedding models trained on existing information retrieval data mixtures on advanced capabilities, which include factuality, safety, instruction following, reasoning and document-level understanding. This benchmark includes a diverse set of tasks that simulate real-world scenarios where these capabilities are critical and leads to identification of the gaps of the currently advanced embedding models. Furthermore, we propose a novel method that reformulates these various tasks as retrieval tasks. By framing tasks like safety or factuality classification as retrieval problems, we leverage the strengths of retrieval models in capturing semantic relationships while also pushing them to develop a deeper understanding of context and content. Using this approach with single-task fine-tuning, we achieved performance gains of 8\% on factuality classification and 13\% on safety classification. Our code and data will be publicly available.
- Abstract(参考訳): 従来のテキスト埋め込みベンチマークは主に、セマンティックな類似性をキャプチャする埋め込みモデルの能力を評価する。
しかし、より高度なNLPタスクは、安全性や事実性などのテキストをより深く理解する必要がある。
これらのタスクは複雑な情報を理解し、処理する能力を必要としており、しばしば機密コンテンツの扱いや、信頼できる情報源に対する事実の確認を含む。
本稿では,既存の情報検索データから学習した埋め込みモデルに,事実性,安全性,指示の追従,推論,文書レベルの理解など,高度な能力で混合した埋め込みモデルの限界を評価・強調するために設計された新しいベンチマークを提案する。
このベンチマークには、これらの能力が重要であり、現在の高度な埋め込みモデルのギャップを識別する、現実世界のシナリオをシミュレートするさまざまなタスクが含まれている。
さらに,これらのタスクを検索タスクとして再構成する新しい手法を提案する。
検索問題として安全性や事実性分類などのタスクをフレーミングすることで,意味的関係を捉える上で,検索モデルの強みを活用しつつ,文脈や内容のより深い理解を促す。
単一タスクの微調整によるこのアプローチを用いることで,事実性分類では8\%,安全性分類では13\%のパフォーマンス向上を実現した。
コードとデータは公開されます。
関連論文リスト
- Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.000144830397911]
連続学習(CL)は、ディープニューラルネットワークの現代的応用において重要なトピックである。
本稿では,H-embedding(H-embedding)という名前の伝達可能性を考慮したタスク埋め込みを提案し,その指導の下でハイパーネットをトレーニングし,CLタスクのタスク条件付きモデル重みを学習する。
論文 参考訳(メタデータ) (2025-02-17T09:52:19Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Movie2Story: A framework for understanding videos and telling stories in the form of novel text [0.0]
補助情報に富んだシナリオにおけるテキスト生成能力を評価するための新しいベンチマークを提案する。
本研究は,高精度な補助情報の提供を確実にするための,革新的な自動データセット生成手法を提案する。
本実験により, 提案した評価指標に基づいて, 現在のMLLM(Multi-modal Large Language Models)が準最適に動作していることが判明した。
論文 参考訳(メタデータ) (2024-12-19T15:44:04Z) - Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [17.202017214385826]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
以上の結果から,再ランク付けモデルが後続命令の検索モデルを上回っているのに対して,特定の属性を扱う上では依然として課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。