Fugu-MT 論文翻訳(概要): ATEB: Evaluating and Improving Advanced NLP Tasks for Text Embedding Models

論文の概要: ATEB: Evaluating and Improving Advanced NLP Tasks for Text Embedding Models

arxiv url: http://arxiv.org/abs/2502.16766v1
Date: Mon, 24 Feb 2025 01:08:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.354328
Title: ATEB: Evaluating and Improving Advanced NLP Tasks for Text Embedding Models
Title（参考訳）: ATEB:テキスト埋め込みモデルのための高度なNLPタスクの評価と改善
Authors: Simeng Han, Frank Palma Gomez, Tu Vu, Zefei Li, Daniel Cer, Hansi Zeng, Chris Tar, Arman Cohan, Gustavo Hernandez Abrego,
Abstract要約: より高度なNLPタスクは、安全性や事実性などのテキストをより深く理解する必要がある。既存の情報検索データから学習した埋め込みモデルの限界を評価・強調する新しいベンチマークを導入する。本稿では,これらのタスクを検索タスクとして再構成する新しい手法を提案する。
参考スコア（独自算出の注目度）: 27.18321648849259
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional text embedding benchmarks primarily evaluate embedding models' capabilities to capture semantic similarity. However, more advanced NLP tasks require a deeper understanding of text, such as safety and factuality. These tasks demand an ability to comprehend and process complex information, often involving the handling of sensitive content, or the verification of factual statements against reliable sources. We introduce a new benchmark designed to assess and highlight the limitations of embedding models trained on existing information retrieval data mixtures on advanced capabilities, which include factuality, safety, instruction following, reasoning and document-level understanding. This benchmark includes a diverse set of tasks that simulate real-world scenarios where these capabilities are critical and leads to identification of the gaps of the currently advanced embedding models. Furthermore, we propose a novel method that reformulates these various tasks as retrieval tasks. By framing tasks like safety or factuality classification as retrieval problems, we leverage the strengths of retrieval models in capturing semantic relationships while also pushing them to develop a deeper understanding of context and content. Using this approach with single-task fine-tuning, we achieved performance gains of 8\% on factuality classification and 13\% on safety classification. Our code and data will be publicly available.
Abstract（参考訳）: 従来のテキスト埋め込みベンチマークは主に、セマンティックな類似性をキャプチャする埋め込みモデルの能力を評価する。しかし、より高度なNLPタスクは、安全性や事実性などのテキストをより深く理解する必要がある。これらのタスクは複雑な情報を理解し、処理する能力を必要としており、しばしば機密コンテンツの扱いや、信頼できる情報源に対する事実の確認を含む。本稿では,既存の情報検索データから学習した埋め込みモデルに,事実性,安全性,指示の追従,推論,文書レベルの理解など,高度な能力で混合した埋め込みモデルの限界を評価・強調するために設計された新しいベンチマークを提案する。このベンチマークには、これらの能力が重要であり、現在の高度な埋め込みモデルのギャップを識別する、現実世界のシナリオをシミュレートするさまざまなタスクが含まれている。さらに,これらのタスクを検索タスクとして再構成する新しい手法を提案する。検索問題として安全性や事実性分類などのタスクをフレーミングすることで,意味的関係を捉える上で,検索モデルの強みを活用しつつ,文脈や内容のより深い理解を促す。単一タスクの微調整によるこのアプローチを用いることで,事実性分類では8\%,安全性分類では13\%のパフォーマンス向上を実現した。コードとデータは公開されます。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
LLM Performance for Code Generation on Noisy Tasks [0.41942958779358674]
大規模言語モデル(LLM)は、テキストが人間の読み手には理解できないレベルまで難解なタスクを解くことができることを示す。汚染されたデータセットと目に見えないデータセットの異なる性能劣化パターンの実証的証拠を報告する。そこで本研究では, 難燃化下での性能低下を, データセット汚染検出の可能な戦略として提案する。
論文参考訳（メタデータ） (2025-05-29T16:11:18Z)
CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文参考訳（メタデータ） (2025-04-26T03:26:30Z)
Contextualizing Search Queries In-Context Learning for Conversational Rewriting with LLMs [0.0]
本稿では,数発の対話型クエリ書き換えのための新しいアプローチであるPrompt-Guided In-Context Learningを紹介する。提案手法では,タスク記述,入出力形式仕様,図示的な例を取り入れ,慎重に設計したプロンプトを用いている。ベンチマークデータセットであるTRECとTaskmaster-1の実験は、我々のアプローチが強いベースラインを大幅に上回ることを示した。
論文参考訳（メタデータ） (2025-02-20T20:02:42Z)
Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.000144830397911]
連続学習(CL)は、ディープニューラルネットワークの現代的応用において重要なトピックである。本稿では,H-embedding(H-embedding)という名前の伝達可能性を考慮したタスク埋め込みを提案し,その指導の下でハイパーネットをトレーニングし,CLタスクのタスク条件付きモデル重みを学習する。
論文参考訳（メタデータ） (2025-02-17T09:52:19Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [17.202017214385826]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。 6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。以上の結果から,再ランク付けモデルが後続命令の検索モデルを上回っているのに対して,特定の属性を扱う上では依然として課題に直面していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-31T11:47:21Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文参考訳（メタデータ） (2024-08-19T18:54:20Z)
Do as I do (Safely): Mitigating Task-Specific Fine-tuning Risks in Large Language Models [93.08860674071636]
悪質なアクターが、ほぼすべてのタスク固有のデータセットの構造を微妙に操作して、危険なモデル行動を促進する方法を示す。本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文参考訳（メタデータ） (2024-06-12T18:33:11Z)
CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。 CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文参考訳（メタデータ） (2024-05-17T07:43:25Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
Predicting Themes within Complex Unstructured Texts: A Case Study on Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文参考訳（メタデータ） (2020-10-27T19:48:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。