論文の概要: From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines
- arxiv url: http://arxiv.org/abs/2604.13468v1
- Date: Wed, 15 Apr 2026 04:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.383021
- Title: From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines
- Title(参考訳): 関係から権限へ: Web 検索エンジンにおけるオーソリティを意識した生成検索
- Authors: Sunkyung Lee, Jihye Back, Donghyeon Jeon, Soonhwan Kwon, Moonkwon Kim, Inho Kang, Jongwuk Lee,
- Abstract要約: オーソリティを考慮した生成レトリバー(AuthGR)を提案する。
AuthGRは、(i) テキストとビジュアルのキューから権威を定量化するビジョン言語モデルを使用するマルチモーダルオーソリティスコアリング、(ii) 権威をレトリバーに徐々に浸透させる3段階トレーニングパイプライン、(iii) ロバストなデプロイメントのためのハイブリッドエンサンブルパイプラインの3つの重要なコンポーネントで構成されています。
オフライン評価は、AuthGRが14Bベースラインにマッチする3Bモデルによって、権威と正確性の両方を向上することを示す。重要な点として、商業Web検索プラットフォーム上で実施される大規模オンラインA/Bテストと人的評価は、大幅な改善を確認している。
- 参考スコア(独自算出の注目度): 16.259920276944708
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative information retrieval (GenIR) formulates the retrieval process as a text-to-text generation task, leveraging the vast knowledge of large language models. However, existing works primarily optimize for relevance while often overlooking document trustworthiness. This is critical in high-stakes domains like healthcare and finance, where relying solely on semantic relevance risks retrieving unreliable information. To address this, we propose an Authority-aware Generative Retriever (AuthGR), the first framework that incorporates authority into GenIR. AuthGR consists of three key components: (i) Multimodal Authority Scoring, which employs a vision-language model to quantify authority from textual and visual cues; (ii) a Three-stage Training Pipeline to progressively instill authority awareness into the retriever; and (iii) a Hybrid Ensemble Pipeline for robust deployment. Offline evaluations demonstrate that AuthGR successfully enhances both authority and accuracy, with our 3B model matching a 14B baseline. Crucially, large-scale online A/B tests and human evaluations conducted on the commercial web search platform confirm significant improvements in real-world user engagement and reliability.
- Abstract(参考訳): 生成情報検索(GenIR)は、大規模な言語モデルの膨大な知識を活用し、テキストからテキストへの生成タスクとして検索プロセスを定式化する。
しかし、既存の作業は主に関連性のために最適化され、ドキュメントの信頼性を見落としていることが多い。
これは医療や金融といった高度な分野において重要であり、セマンティックな関連性にのみ依存し、信頼できない情報を取得するリスクがある。
そこで我々は、GenIRに権限を組み込んだ最初のフレームワークであるAuthGR(AuthGR)を提案する。
AuthGRは3つの重要なコンポーネントから構成される。
一 テキスト及び視覚的手がかりから権威を定量化するために視覚言語モデルを用いるマルチモーダルオーソリティ・スコーリング
二 検索者に対して権限意識を段階的に浸透させる三段階訓練パイプライン
(iii)ロバストなデプロイメントのためのハイブリッドEnsemble Pipeline。
オフライン評価は、AuthGRが14Bベースラインにマッチする3Bモデルを用いて、オーソリティと精度の両方を向上することを示す。
重要なことは、商用Web検索プラットフォーム上で行われた大規模なオンラインA/Bテストと人的評価によって、現実世界のユーザエンゲージメントと信頼性が大幅に向上したことである。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - All for law and law for all: Adaptive RAG Pipeline for Legal Research [0.8819595592190884]
Retrieval-Augmented Generation (RAG)は、テキスト生成タスクのアプローチ方法を変えました。
この作業では、以前のベースラインを改善した、新しいエンドツーエンドのRAGパイプラインを導入している。
論文 参考訳(メタデータ) (2025-08-18T17:14:03Z) - RAGulating Compliance: A Multi-Agent Knowledge Graph for Regulatory QA [0.0]
規制コンプライアンス質問応答(QA)は、正確で検証可能な情報を必要とする。
我々は、レギュレーション三重項の知識グラフ(KG)とレトリーバル拡張生成(RAG)を統合する新しいマルチエージェントフレームワークを提案する。
我々のハイブリッドシステムは、複雑な規制クエリにおいて従来の手法よりも優れており、組込み三重項による事実の正しさが保証されている。
論文 参考訳(メタデータ) (2025-08-13T15:51:05Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。