論文の概要: REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs
- arxiv url: http://arxiv.org/abs/2405.02228v2
- Date: Thu, 9 May 2024 00:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-10 15:21:52.181214
- Title: REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs
- Title(参考訳): REASONS: パブリックおよびプロプライエタリLLMを用いた重要文の検索と自動引用のためのベンチマーク
- Authors: Deepa Tilwani, Yash Saxena, Ali Mohammadi, Edward Raff, Amit Sheth, Srinivasan Parthasarathy, Manas Gaur,
- Abstract要約: 本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
約20万件の研究論文から, 公立及びプロプライエタリなLCMについて, 以下を引用する。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
- 参考スコア(独自算出の注目度): 41.64918533152914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic citation generation for sentences in a document or report is paramount for intelligence analysts, cybersecurity, news agencies, and education personnel. In this research, we investigate whether large language models (LLMs) are capable of generating references based on two forms of sentence queries: (a) Direct Queries, LLMs are asked to provide author names of the given research article, and (b) Indirect Queries, LLMs are asked to provide the title of a mentioned article when given a sentence from a different article. To demonstrate where LLM stands in this task, we introduce a large dataset called REASONS comprising abstracts of the 12 most popular domains of scientific research on arXiv. From around 20K research articles, we make the following deductions on public and proprietary LLMs: (a) State-of-the-art, often called anthropomorphic GPT-4 and GPT-3.5, suffers from high pass percentage (PP) to minimize the hallucination rate (HR). When tested with Perplexity.ai (7B), they unexpectedly made more errors; (b) Augmenting relevant metadata lowered the PP and gave the lowest HR; (c) Advance retrieval-augmented generation (RAG) using Mistral demonstrates consistent and robust citation support on indirect queries and matched performance to GPT-3.5 and GPT-4. The HR across all domains and models decreased by an average of 41.93%, and the PP was reduced to 0% in most cases. In terms of generation quality, the average F1 Score and BLEU were 68.09% and 57.51%, respectively; (d) Testing with adversarial samples showed that LLMs, including the Advance RAG Mistral, struggle to understand context, but the extent of this issue was small in Mistral and GPT-4-Preview. Our study contributes valuable insights into the reliability of RAG for automated citation generation tasks.
- Abstract(参考訳): 文書や報告書中の文の自動引用生成は、情報アナリスト、サイバーセキュリティ、報道機関、教育関係者にとって最重要である。
本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
(a)直接問い合わせ、LLMは、所定の研究項目の著者名の提供を依頼され、
b) 間接的な問い合わせにおいて、LCMは、異なる記事から文を与えられたときに、言及した記事のタイトルを提供するよう求められます。
この課題でLLMがどこにあるかを示すために、arXivに関する科学研究の最も人気のある12分野の要約を含むREASONSと呼ばれる大規模なデータセットを紹介した。
約20万件の研究論文から, 公立及び専有のLCMについて, 以下を引用する。
(a)人為的GPT-4およびGPT-3.5と呼ばれる最先端技術は、幻覚率(HR)を最小化するために高い通過率(PP)に苦しむ。
Perplexity.ai (7B)でテストすると、予想外のエラーが発生します。
ロ 関連メタデータの増強により、PPが低下し、最低のHRが与えられること。
c) Mistralを用いたRAG(Advanced Search-augmented Generation)では,間接クエリとGPT-3.5およびGPT-4に適合するパフォーマンスの一貫性と堅牢性を示す。
すべてのドメインとモデルのHRは平均41.93%減少し、ほとんどの場合PPは0%に低下した。
世代別では、平均F1スコアとBLEUはそれぞれ68.09%と57.51%であった。
(d) 敵検体を用いた試験では, 進行RAGミストラルを含むLCMは文脈理解に苦慮するが, ミストラルとGPT-4-Previewでは, この問題の程度は小さかった。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
関連論文リスト
- ArxivBench: Can LLMs Assist Researchers in Conducting Research? [6.586119023242877]
大規模言語モデル(LLM)は、推論、翻訳、質問応答といった様々なタスクを完了させる際、顕著な効果を示した。
本研究では,オープンソース LLM とプロプライエタリ LLM を,関連する研究論文に回答する能力と,arXiv プラットフォーム上でホストされている記事への正確なリンクについて評価する。
対象者によっては, LLM生成反応の関連性は認められず, 被験者によっては, 他者よりも有意に低い結果が得られた。
論文 参考訳(メタデータ) (2025-04-06T05:00:10Z) - Factuality or Fiction? Benchmarking Modern LLMs on Ambiguous QA with Citations [0.0]
質問回答(QA)タスクにおける最先端大言語モデル(LLM)の事実精度と引用性能を評価する。
以上の結果から,より大規模で最近のモデルでは,不明瞭な文脈において,少なくとも1つの正解を常に予測するが,複数の有効な解のケースを処理できないことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T23:55:19Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - CiteME: Can Language Models Accurately Cite Scientific Claims? [15.055733335365847]
論文を参照する文章を引用すると、LMは研究助手として、参照された論文を正しく識別できるだろうか?
我々のベンチマークであるCiteMEは、最近の機械学習論文からのテキスト抜粋で構成されており、それぞれが1つの論文を参照している。
CiteMEの使用は、フロンティアのLMと人間のパフォーマンスの間に大きなギャップがあることを明らかにし、LMは4.2-18.5%の精度しか達成せず、人間は69.7%である。
我々は、GPT-4o LM上に構築された自律システムであるCiteAgentを導入することにより、このギャップを埋める。
論文 参考訳(メタデータ) (2024-07-10T11:31:20Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学的知識の構造を形成するのに不可欠であるが、それらは現代の規範や偏見の影響を受けていることが多い。
LLM(Large Language Models)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,これらの特徴を,AAAI,NeurIPS,ICML,ICLRのデータセットを用いて解析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。