論文の概要: DocReLM: Mastering Document Retrieval with Language Model
- arxiv url: http://arxiv.org/abs/2405.11461v1
- Date: Sun, 19 May 2024 06:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:28:11.698236
- Title: DocReLM: Mastering Document Retrieval with Language Model
- Title(参考訳): DocReLM: 言語モデルによるドキュメント検索のマスタリング
- Authors: Gengchen Wei, Xinle Pang, Tianning Zhang, Yu Sun, Xun Qian, Chen Lin, Han-Sen Zhong, Wanli Ouyang,
- Abstract要約: 本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現することを実証する。
我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。
我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
- 参考スコア(独自算出の注目度): 49.847369507694154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With over 200 million published academic documents and millions of new documents being written each year, academic researchers face the challenge of searching for information within this vast corpus. However, existing retrieval systems struggle to understand the semantics and domain knowledge present in academic papers. In this work, we demonstrate that by utilizing large language models, a document retrieval system can achieve advanced semantic understanding capabilities, significantly outperforming existing systems. Our approach involves training the retriever and reranker using domain-specific data generated by large language models. Additionally, we utilize large language models to identify candidates from the references of retrieved papers to further enhance the performance. We use a test set annotated by academic researchers in the fields of quantum physics and computer vision to evaluate our system's performance. The results show that DocReLM achieves a Top 10 accuracy of 44.12% in computer vision, compared to Google Scholar's 15.69%, and an increase to 36.21% in quantum physics, while that of Google Scholar is 12.96%.
- Abstract(参考訳): 毎年2億件以上の学術文書と何百万もの新しい文書が作成されており、学術研究者はこの膨大なコーパス内で情報を探すという課題に直面している。
しかし,既存の検索システムは,学術論文における意味や知識の理解に苦慮している。
本研究では,大規模言語モデルを利用することで,文書検索システムが高度な意味理解能力を実現し,既存システムよりも大幅に優れることを示す。
我々のアプローチは、大規模言語モデルによって生成されたドメイン固有データを用いて、検索者と再ランカを訓練することである。
さらに,大規模言語モデルを用いて,検索した論文の参照から候補を同定し,さらなる性能向上を図る。
我々は、量子物理学とコンピュータビジョンの分野の研究者によって注釈付けされたテストセットを使用して、システムの性能を評価する。
その結果、DocReLMはコンピュータビジョンで44.12%、Google Scholarの15.69%、量子物理学で36.21%、Google Scholarの12.96%の精度を達成した。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for
Interdisciplinary Science [0.0]
大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。
Retrieval augmentationは、外部の知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。
本稿では,検索強化時に文書構造に対応する構造対応検索言語モデルを提案する。
論文 参考訳(メタデータ) (2023-11-21T02:02:46Z) - OpenMSD: Towards Multilingual Scientific Documents Similarity
Measurement [11.602151258188862]
本研究は,多言語科学的文書類似度測定モデルの開発と評価である。
我々は,103言語で74万の論文と778の引用ペアを持つ,最初の多言語科学文書データセットOpen- Access Multilingual Scientific Documents (OpenMSD)を提案する。
論文 参考訳(メタデータ) (2023-09-19T11:38:39Z) - MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文 参考訳(メタデータ) (2023-05-07T03:29:55Z) - Algorithmic Ghost in the Research Shell: Large Language Models and
Academic Knowledge Creation in Management Research [0.0]
本稿では,学術知識創造における大規模言語モデルの役割について考察する。
これには、書き込み、編集、レビュー、データセットの作成、キュレーションが含まれる。
論文 参考訳(メタデータ) (2023-03-10T14:25:29Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains [67.99403521976058]
新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T19:27:32Z) - Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。
本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-07T13:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。