論文の概要: UniHGKR: Unified Instruction-aware Heterogeneous Knowledge Retrievers
- arxiv url: http://arxiv.org/abs/2410.20163v1
- Date: Sat, 26 Oct 2024 12:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:00.489162
- Title: UniHGKR: Unified Instruction-aware Heterogeneous Knowledge Retrievers
- Title(参考訳): UniHGKR:Unified Instruction-aware Heterogeneous Knowledge Retrievers
- Authors: Dehai Min, Zhiyang Xu, Guilin Qi, Lifu Huang, Chenyu You,
- Abstract要約: 本稿では,UniHGKRを導入する。
また、最初の異種知識検索ベンチマークであるCompMix-IRも導入した。
- 参考スコア(独自算出の注目度): 36.294476023942586
- License:
- Abstract: Existing information retrieval (IR) models often assume a homogeneous structure for knowledge sources and user queries, limiting their applicability in real-world settings where retrieval is inherently heterogeneous and diverse. In this paper, we introduce UniHGKR, a unified instruction-aware heterogeneous knowledge retriever that (1) builds a unified retrieval space for heterogeneous knowledge and (2) follows diverse user instructions to retrieve knowledge of specified types. UniHGKR consists of three principal stages: heterogeneous self-supervised pretraining, text-anchored embedding alignment, and instruction-aware retriever fine-tuning, enabling it to generalize across varied retrieval contexts. This framework is highly scalable, with a BERT-based version and a UniHGKR-7B version trained on large language models. Also, we introduce CompMix-IR, the first native heterogeneous knowledge retrieval benchmark. It includes two retrieval scenarios with various instructions, over 9,400 question-answer (QA) pairs, and a corpus of 10 million entries, covering four different types of data. Extensive experiments show that UniHGKR consistently outperforms state-of-the-art methods on CompMix-IR, achieving up to 6.36% and 54.23% relative improvements in two scenarios, respectively. Finally, by equipping our retriever for open-domain heterogeneous QA systems, we achieve a new state-of-the-art result on the popular ConvMix task, with an absolute improvement of up to 4.80 points.
- Abstract(参考訳): 既存の情報検索(IR)モデルは、知識ソースとユーザクエリの均質な構造を前提としており、検索が本質的に異質で多様である実世界の環境での適用性を制限している。
本稿では,UniHGKRを紹介する。UniHGKRは,(1)異種知識のための統一された検索空間を構築し,(2)特定タイプの知識を検索するための多様なユーザ命令に従う,統一的な命令対応ヘテロジニアス知識検索システムである。
UniHGKRは、ヘテロジニアスな自己教師付き事前訓練、テキストアンコレッドな埋め込みアライメント、インストラクション・アウェア・レトリバーの微調整という3つの主要な段階から構成されており、様々な検索コンテキストをまたいで一般化することができる。
このフレームワークは非常にスケーラブルで、BERTベースのバージョンと、大きな言語モデルでトレーニングされたUniHGKR-7Bバージョンがある。
また,最初の異種知識検索ベンチマークであるCompMix-IRを導入する。
さまざまな命令による2つの検索シナリオ、9,400以上の質問回答(QA)ペア、そして4種類のデータをカバーする1000万のエントリからなるコーパスを含む。
大規模な実験により、UniHGKRはCompMix-IRの最先端の手法より一貫して優れており、2つのシナリオでそれぞれ6.36%と54.23%の相対的な改善が達成されている。
最後に、オープンドメインの異種QAシステムにレトリバーを装備することにより、人気の高いConvMixタスクにおいて、最大4.80ポイントの絶対的な改善を達成できる。
関連論文リスト
- Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - FedL2G: Learning to Guide Local Training in Heterogeneous Federated Learning [23.92461217732838]
不均一フェデレートラーニング(HtFL)のシナリオでは、モデルパラメータの集約は、アグリゲーションとガイダンスのためのプロトタイプの使用につながる。
本研究では,ローカル設定のガイドを適応的に学習し,クライアントの本来の設定に付加的なガイダンスが有用であることを保証できるFedL2G(Training-to-Guide)手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T02:31:49Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Chain-of-Knowledge: Grounding Large Language Models via Dynamic
Knowledge Adapting over Heterogeneous Sources [87.26486246513063]
Chain-of-knowledge (CoK)は、大規模な言語モデルを拡張するフレームワークである。
CoKは推論準備、動的知識適応、解答統合の3段階からなる。
論文 参考訳(メタデータ) (2023-05-22T17:34:23Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。