論文の概要: OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
- arxiv url: http://arxiv.org/abs/2605.29250v1
- Date: Thu, 28 May 2026 02:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.591049
- Title: OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources
- Title(参考訳): OmniRetrieval:不均一な知識ソースをまたいだ統一検索
- Authors: Jinheon Baek, Soyeong Jeong, Sangwoo Park, Woongyeong Yeo, Minki Kang, Patara Trirat, Heejun Lee, Sung Ju Hwang,
- Abstract要約: 既存のレトリバーは、固定クエリ言語の下で一度に1つのソース上で動作します。
OmniRetrievalは、自然言語クエリを取り込み、適切な知識ソースを識別するフレームワークである。
- 参考スコア(独自算出の注目度): 67.62754856088591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world information needs require access to structurally diverse knowledge sources, from unstructured text and relational tables to knowledge graphs and property graphs. Existing retrievers, however, operate over one source at a time under a fixed query language, leaving the broader landscape of available knowledge fragmented behind incompatible interfaces. A natural attempt at unification would collapse these sources into a shared space, but this erases the structural affordances (such as schemas, ontologies, compositional operators) that give each source its expressive power. Effective retrieval over diverse knowledge, therefore, requires not homogenization but an overarching layer that meets each source on its own terms. To achieve this, we present OmniRetrieval, a framework that takes any natural-language query, identifies appropriate knowledge sources, and dispatches source-native queries to their native execution engines. Across an extensive benchmark spanning 13 datasets and 309 distinct knowledge bases over text, relational, and graph-structured sources, OmniRetrieval exceeds single-source baselines, demonstrating that it can serve as a general-purpose interface to the heterogeneous sources while preserving the structural distinctions that make each source valuable.
- Abstract(参考訳): 現実世界の情報は、構造化されていないテキストやリレーショナルテーブルから知識グラフやプロパティグラフまで、構造的に多様な知識ソースにアクセスする必要がある。
しかし、既存のレトリバーは、固定されたクエリ言語の下で一度に1つ以上のソースを運用しており、利用可能な知識の広い視野は、互換性のないインターフェースの後に断片化されている。
自然に統一しようとする試みは、これらのソースを共有空間に分解するが、これは各ソースに表現力を与える構造的余裕(スキーマ、オントロジー、作曲演算子など)を消去する。
したがって、多様な知識に対する効果的な検索は、均質化ではなく、それぞれのソースをそれぞれの用語で満たす包括的な層を必要とする。
これを実現するために、自然言語クエリを取り込み、適切な知識ソースを特定し、ソースネイティブクエリをネイティブ実行エンジンにディスパッチするフレームワークであるOmniRetrievalを提案する。
OmniRetrievalは、13のデータセットと309の異なる知識ベースをテキスト、リレーショナル、グラフ構造化ソースにまたがる広範囲なベンチマークで、単一ソースベースラインを超え、各ソースの価値を保ちながら、異種ソースへの汎用インターフェースとして機能することを実証している。
関連論文リスト
- On the Power of Source Screening for Learning Shared Feature Extractors [33.10812756558517]
関連性や品質の低いデータソースが表現学習を妨げることはよく理解されている。
我々は、伝統的に「善」と見なされる情報源の収集に焦点をあてることで、どのデータソースを共同で学習すべきかという問題に焦点をあてる。
統計的に最適な部分空間推定において,ソーススクリーニングが中心的な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2026-02-18T01:32:10Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Large Language Models as Source Planner for Personalized
Knowledge-grounded Dialogue [72.26474540602517]
SAFARIは、教師なしと教師なしの両方の設定で計画し、理解し、導入するための新しいフレームワークである。
我々は、パーソナライズされた知識ベース対話データセットtextittextbfKnowledge textbfBehind textbfPersona(textbfKBP)を構築する。
KBPデータセットによる実験結果から,SAFARIフレームワークはペルソナ一貫性と知識強化の応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2023-10-13T03:38:38Z) - Chain-of-Knowledge: Grounding Large Language Models via Dynamic
Knowledge Adapting over Heterogeneous Sources [87.26486246513063]
Chain-of-knowledge (CoK)は、大規模な言語モデルを拡張するフレームワークである。
CoKは推論準備、動的知識適応、解答統合の3段階からなる。
論文 参考訳(メタデータ) (2023-05-22T17:34:23Z) - Learning To Rank Resources with GNN [7.337247167823921]
本稿では,資源クエリと資源リソースの関係をモデル化可能なグラフニューラルネットワーク(GNN)に基づく学習からランクへのアプローチを提案する。
提案手法は,様々なパフォーマンス指標において,最先端の6.4%から42%を上回っている。
論文 参考訳(メタデータ) (2023-04-17T02:01:45Z) - Dimensions of Commonsense Knowledge [60.49243784752026]
我々は,その関係に特に焦点をあてて,広く普及しているコモンセンスソースを調査した。
我々はこれらの関係を13の知識次元に集約し、それぞれがソースにあるより具体的な関係を抽象化する。
論文 参考訳(メタデータ) (2021-01-12T17:52:39Z) - Unified Open-Domain Question Answering with Structured and Unstructured
Knowledge [7.7429684536437104]
我々は,構造化,非構造化,半構造化の知識ソースを用いて,オープンドメイン質問応答(odqa)を研究する。
我々のアプローチは、テキストに縮小することですべてのソースを均質化し、最近の強力なレトリバーリーダーモデルを適用する。
その結果,3つのODQAベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T05:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。