論文の概要: REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs
- arxiv url: http://arxiv.org/abs/2405.02228v2
- Date: Thu, 9 May 2024 00:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 15:21:52.181214
- Title: REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs
- Title(参考訳): REASONS: パブリックおよびプロプライエタリLLMを用いた重要文の検索と自動引用のためのベンチマーク
- Authors: Deepa Tilwani, Yash Saxena, Ali Mohammadi, Edward Raff, Amit Sheth, Srinivasan Parthasarathy, Manas Gaur,
- Abstract要約: 本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
約20万件の研究論文から, 公立及びプロプライエタリなLCMについて, 以下を引用する。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
- 参考スコア(独自算出の注目度): 41.64918533152914
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic citation generation for sentences in a document or report is paramount for intelligence analysts, cybersecurity, news agencies, and education personnel. In this research, we investigate whether large language models (LLMs) are capable of generating references based on two forms of sentence queries: (a) Direct Queries, LLMs are asked to provide author names of the given research article, and (b) Indirect Queries, LLMs are asked to provide the title of a mentioned article when given a sentence from a different article. To demonstrate where LLM stands in this task, we introduce a large dataset called REASONS comprising abstracts of the 12 most popular domains of scientific research on arXiv. From around 20K research articles, we make the following deductions on public and proprietary LLMs: (a) State-of-the-art, often called anthropomorphic GPT-4 and GPT-3.5, suffers from high pass percentage (PP) to minimize the hallucination rate (HR). When tested with Perplexity.ai (7B), they unexpectedly made more errors; (b) Augmenting relevant metadata lowered the PP and gave the lowest HR; (c) Advance retrieval-augmented generation (RAG) using Mistral demonstrates consistent and robust citation support on indirect queries and matched performance to GPT-3.5 and GPT-4. The HR across all domains and models decreased by an average of 41.93%, and the PP was reduced to 0% in most cases. In terms of generation quality, the average F1 Score and BLEU were 68.09% and 57.51%, respectively; (d) Testing with adversarial samples showed that LLMs, including the Advance RAG Mistral, struggle to understand context, but the extent of this issue was small in Mistral and GPT-4-Preview. Our study contributes valuable insights into the reliability of RAG for automated citation generation tasks.
- Abstract(参考訳): 文書や報告書中の文の自動引用生成は、情報アナリスト、サイバーセキュリティ、報道機関、教育関係者にとって最重要である。
本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
(a)直接問い合わせ、LLMは、所定の研究項目の著者名の提供を依頼され、
b) 間接的な問い合わせにおいて、LCMは、異なる記事から文を与えられたときに、言及した記事のタイトルを提供するよう求められます。
この課題でLLMがどこにあるかを示すために、arXivに関する科学研究の最も人気のある12分野の要約を含むREASONSと呼ばれる大規模なデータセットを紹介した。
約20万件の研究論文から, 公立及び専有のLCMについて, 以下を引用する。
(a)人為的GPT-4およびGPT-3.5と呼ばれる最先端技術は、幻覚率(HR)を最小化するために高い通過率(PP)に苦しむ。
Perplexity.ai (7B)でテストすると、予想外のエラーが発生します。
ロ 関連メタデータの増強により、PPが低下し、最低のHRが与えられること。
c) Mistralを用いたRAG(Advanced Search-augmented Generation)では,間接クエリとGPT-3.5およびGPT-4に適合するパフォーマンスの一貫性と堅牢性を示す。
すべてのドメインとモデルのHRは平均41.93%減少し、ほとんどの場合PPは0%に低下した。
世代別では、平均F1スコアとBLEUはそれぞれ68.09%と57.51%であった。
(d) 敵検体を用いた試験では, 進行RAGミストラルを含むLCMは文脈理解に苦慮するが, ミストラルとGPT-4-Previewでは, この問題の程度は小さかった。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
関連論文リスト
- CiteME: Can Language Models Accurately Cite Scientific Claims? [15.055733335365847]
論文を参照する文章を引用すると、LMは研究助手として、参照された論文を正しく識別できるだろうか?
我々のベンチマークであるCiteMEは、最近の機械学習論文からのテキスト抜粋で構成されており、それぞれが1つの論文を参照している。
CiteMEの使用は、フロンティアのLMと人間のパフォーマンスの間に大きなギャップがあることを明らかにし、LMは4.2-18.5%の精度しか達成せず、人間は69.7%である。
我々は、GPT-4o LM上に構築された自律システムであるCiteAgentを導入することにより、このギャップを埋める。
論文 参考訳(メタデータ) (2024-07-10T11:31:20Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Large Language Models Reflect Human Citation Patterns with a Heightened Citation Bias [1.7812428873698407]
サイテーションの実践は科学知識の構造を形成するのに不可欠である。
GPT-4のような大規模言語モデル(LLM)の出現は、これらのプラクティスに新たなダイナミクスをもたらす。
本稿では,GPT-4で推奨される参照の特性と潜在的なバイアスについて分析する。
論文 参考訳(メタデータ) (2024-05-24T17:34:32Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Enhancing Robustness of LLM-Synthetic Text Detectors for Academic
Writing: A Comprehensive Analysis [35.351782110161025]
大規模言語モデル(LLM)は、仕事と研究の方法に革命をもたらす多くの利点を提供する。
彼らはまた、潜在的なネガティブな結果のために、かなりの注意を払っている。
1つの例は、人的貢献の少ない学術報告書や論文を作成することである。
論文 参考訳(メタデータ) (2024-01-16T01:58:36Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。