論文の概要: Beyond Similarity: Task-Aligned Retrieval for Language Models
- arxiv url: http://arxiv.org/abs/2605.27951v1
- Date: Wed, 27 May 2026 04:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.748544
- Title: Beyond Similarity: Task-Aligned Retrieval for Language Models
- Title(参考訳): 類似性を超えて: 言語モデルのためのタスク指向検索
- Authors: Zhixing Sun, Shenghe Xu, Tao Li,
- Abstract要約: Retrieval-augmented Generation (RAG) は、セマンティックな類似性によってパスをランク付けし、セマンティックな類似性は下流のタスクに適用可能性の信頼性を示すものであると暗に仮定する。
本稿では,類似性に基づく検索を適用性に基づくルール選択に置き換える検索フレームワークであるタスクアラインド検索(TAG)を提案する。
- 参考スコア(独自算出の注目度): 3.141210160384506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) ranks passages by semantic similarity to the input, implicitly assuming that semantic similarity is a reliable indication of applicability in downstream tasks. This assumption breaks down when task success depends not on topical relevance but on applying the correct rules, constraints, or procedural guidance. In such settings, the most useful context may be the rule triggered by the input rather than the most semantically similar passage. We propose Task-Aligned Retrieval (TAG), a retrieval framework that replaces similarity-based retrieval with applicability-based rule selection. TAG transforms source documents into traceable condition-action rules, identifies which rules apply to a given input through pairwise LLM judgments, and generates the output conditioned only on the selected actions. We empirically observe that across Wikipedia NPOV rewriting, HumanEval with PEP~8 compliance, and NBA transaction reasoning on RuleArena, TAG consistently outperforms standard RAG, with the largest gains in high-mismatch settings (up to 12.2\%) while reducing retrieved context by up to 93\%. These results suggest that, in rule- and instruction-governed tasks, retrieval should optimize for applicability rather than for semantic similarity alone.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、セマンティックな類似性によってパスをランク付けし、セマンティックな類似性は下流のタスクに適用可能性の信頼性を示すものであると暗に仮定する。
この仮定は、タスクの成功がトピックの関連性ではなく、正しいルール、制約、手続き的なガイダンスを適用することに依存している場合に破られる。
このような設定では、最も有用なコンテキストは、最も意味論的に類似したパスではなく、入力によって引き起こされるルールである。
本稿では,類似性に基づく検索を適用性に基づくルール選択に置き換える検索フレームワークであるタスクアラインド検索(TAG)を提案する。
TAGは、ソースドキュメントをトレース可能な条件-アクションルールに変換し、ペアワイズLSM判定によって与えられた入力にどのルールを適用するかを特定し、選択されたアクションにのみ適用された出力条件を生成する。
我々は、ウィキペディアのNPOV書き換え、PEP~8準拠のHumanEval、およびルールアリーナでのNBAトランザクション推論において、TAGは標準RAGを一貫して上回り、高いミスマッチ設定(最大12.2\%)で最大の利益を上げ、検索されたコンテキストを最大93\%削減したことを実証的に観察した。
これらの結果は、ルールと命令が支配されるタスクでは、検索はセマンティックな類似性のみではなく、適用性のために最適化されるべきであることを示している。
関連論文リスト
- Beyond BLEU: A Semantic Evaluation Method for Code Translation [2.3802148866231057]
本研究では,コード翻訳タスクに対する新しい評価手法を提案し,表面レベルの文字列類似性に対する意味的等価性を強調した。
正しい実行結果を生成する翻訳の割合として定義される意味的正当性スコアを導入する。
BLEUスコアは意味的正当性と無視できる相関を示した。
論文 参考訳(メタデータ) (2026-05-06T17:14:33Z) - Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - Transforming External Knowledge into Triplets for Enhanced Retrieval in RAG of LLMs [55.78708003681562]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を、生成時に外部知識を取り入れることで緩和する。
既存のRAGアプローチは通常、コンテキストとしてテキストフラグメントを検索し、非構造化する。
本稿では,三重項に基づく検索フレームワークTri-RAGを提案する。
論文 参考訳(メタデータ) (2026-04-14T11:36:29Z) - Semantic-KG: Using Knowledge Graphs to Construct Benchmarks for Measuring Semantic Similarity [42.873412319680035]
本稿では,大規模言語モデルの出力に対する意味的類似性を評価するために,ベンチマークを生成する新しい手法を提案する。
我々は4つの異なる領域(一般知識、バイオメディシン、ファイナンス、生物学)でベンチマークデータセットを生成する。
セマンティックな変化のサブタイプとベンチマークの領域がセマンティックな類似性手法の性能に与える影響を観察する。
論文 参考訳(メタデータ) (2025-11-25T05:07:08Z) - Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。