論文の概要: LG-ANNA-Embedding technical report
- arxiv url: http://arxiv.org/abs/2506.07438v1
- Date: Mon, 09 Jun 2025 05:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.81316
- Title: LG-ANNA-Embedding technical report
- Title(参考訳): LG-ANNA埋め込み技術報告
- Authors: Jooyoung Choi, Hyun Kim, Hansol Jang, Changwook Jun, Kyunghoon Bae, Hyewon Choi, Stanley Jungkyu Choi, Honglak Lee, Chulmin Yun,
- Abstract要約: 本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,コンテキスト認識の埋め込みを生成するために,コンテキスト内学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせる。
その結果,本手法はボルダスコアによる最高性能モデルのうち,強い一般化とランクを達成できることが示唆された。
- 参考スコア(独自算出の注目度): 41.68404082385825
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This report presents a unified instruction-based framework for learning generalized text embeddings optimized for both information retrieval (IR) and non-IR tasks. Built upon a decoder-only large language model (Mistral-7B), our approach combines in-context learning, soft supervision, and adaptive hard-negative mining to generate context-aware embeddings without task-specific fine-tuning. Structured instructions and few-shot examples are used to guide the model across diverse tasks, enabling strong performance on classification, semantic similarity, clustering, and reranking benchmarks. To improve semantic discrimination, we employ a soft labeling framework where continuous relevance scores, distilled from a high-performance dense retriever and reranker, serve as fine-grained supervision signals. In addition, we introduce adaptive margin-based hard-negative mining, which filters out semantically ambiguous negatives based on their similarity to positive examples, thereby enhancing training stability and retrieval robustness. Our model is evaluated on the newly introduced MTEB (English, v2) benchmark, covering 41 tasks across seven categories. Results show that our method achieves strong generalization and ranks among the top-performing models by Borda score, outperforming several larger or fully fine-tuned baselines. These findings highlight the effectiveness of combining in-context prompting, soft supervision, and adaptive sampling for scalable, high-quality embedding generation.
- Abstract(参考訳): 本稿では、情報検索(IR)と非IRタスクの両方に最適化された一般化テキスト埋め込みを学習するための統一的な命令ベースフレームワークを提案する。
提案手法は,デコーダのみの大規模言語モデル(Mistral-7B)に基づいて,コンテキスト学習,ソフトインスペクション,適応型ハードネガティブマイニングを組み合わせることで,タスク固有の微調整を伴わないコンテキスト認識の埋め込みを生成する。
構造化命令と少数ショットの例は、モデルをさまざまなタスクにまたがってガイドするために使用され、分類、セマンティックな類似性、クラスタリング、ベンチマークの再ベンチマークで強力なパフォーマンスを実現している。
セマンティックな識別を改善するために,高性能高密度検索器とリランカから抽出した連続的関連度スコアが,きめ細かな監視信号として機能するソフトラベリング・フレームワークを用いる。
さらに, 適応的マージンベースハードネガティブマイニングを導入し, 正の例と類似性に基づいて意味的不明瞭な否定を抽出し, トレーニング安定性と回復堅牢性を向上させる。
提案手法を新たに導入したMTEB (英: v2) ベンチマークで評価し、7つのカテゴリで41のタスクをカバーした。
以上の結果から,本手法はボルダスコア(Borda score)による最高性能モデルの中で高い一般化とランクを達成し,より大規模あるいは完全微調整されたベースラインよりも優れていた。
これらの知見は、スケーラブルで高品質な埋め込み生成のためのインコンテキストプロンプト、ソフトインスペクション、アダプティブサンプリングを組み合わせることの有効性を浮き彫りにした。
関連論文リスト
- Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning [4.24565587746027]
低信頼金(Low-Confidence Gold、LCG)は、セントロイドベースのクラスタリングと信頼誘導選択を利用する新しいフィルタリングフレームワークである。
LCGはデータの多様性を維持しながら高品質なサブセットをキュレートする。
6KサンプルのLCGフィルタサブセットを微調整したモデルでは,既存手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2025-02-26T09:37:21Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Multitask Fine-Tuning and Generative Adversarial Learning for Improved Auxiliary Classification [0.0]
3つの下流タスクをマルチタスクで微調整するための新しいBERTアーキテクチャを実装した。
我々のモデルであるMultitask BERTは、レイヤ共有とトリプルトアーキテクチャ、カスタム文ペアトークン化、損失ペアリング、勾配手術を取り入れています。
また、BERTに生成逆学習を適用し、潜在空間から写像して偽の埋め込みを生成する条件付きジェネレータモデルを構築した。
論文 参考訳(メタデータ) (2024-08-11T20:05:54Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。