論文の概要: Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science
- arxiv url: http://arxiv.org/abs/2503.16515v1
- Date: Sun, 16 Mar 2025 05:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 07:31:56.537642
- Title: Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science
- Title(参考訳): 学際システム科学のLLM文献におけるハイライト事例研究
- Authors: Lachlan McGinness, Peter Baumgartner,
- Abstract要約: 大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。
系統的な文献レビューのためのLLMの性能評価を行った。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License:
- Abstract: Large Language Models (LLMs) were used to assist four Commonwealth Scientific and Industrial Research Organisation (CSIRO) researchers to perform systematic literature reviews (SLR). We evaluate the performance of LLMs for SLR tasks in these case studies. In each, we explore the impact of changing parameters on the accuracy of LLM responses. The LLM was tasked with extracting evidence from chosen academic papers to answer specific research questions. We evaluate the models' performance in faithfully reproducing quotes from the literature and subject experts were asked to assess the model performance in answering the research questions. We developed a semantic text highlighting tool to facilitate expert review of LLM responses. We found that state of the art LLMs were able to reproduce quotes from texts with greater than 95% accuracy and answer research questions with an accuracy of approximately 83%. We use two methods to determine the correctness of LLM responses; expert review and the cosine similarity of transformer embeddings of LLM and expert answers. The correlation between these methods ranged from 0.48 to 0.77, providing evidence that the latter is a valid metric for measuring semantic similarity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者が体系的文献レビュー(SLR)を行うのを支援するために使用された。
本研究では,SLRタスクにおけるLLMの性能評価を行った。
それぞれのパラメータの変化がLLM応答の精度に与える影響について検討する。
LLMは、特定の研究課題に答えるために、選ばれた学術論文から証拠を抽出する任務を負っていた。
論文の引用文を忠実に再現する上で,モデルの性能を評価するとともに,研究課題に答えてモデル性能を評価するように依頼した。
LLM応答のエキスパートレビューを容易にするセマンティックテキストハイライトツールを開発した。
現状のLLMでは95%以上の精度でテキストからの引用を再現し,約83%の精度で回答できることがわかった。
我々は,LSM応答の正当性を決定するために,LSMの変圧器埋め込みと専門家回答のコサイン類似性という2つの方法を用いた。
これらの手法の相関は0.48から0.77の範囲で、後者が意味的類似性を測定する有効な計量であることを示す証拠となる。
関連論文リスト
- LitLLMs, LLMs for Literature Review: Are we there yet? [15.785989492351684]
本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。
まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。
生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-15T01:12:26Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions [20.44227547555244]
大規模言語モデル (LLMs) は、多くの研究者が科学的な研究に利用することを検討している。
筆者らによる816件の研究論文の大規模調査を行った。
81%の研究者がすでにLLMを研究ワークフローのさまざまな側面に組み込んでいることがわかった。
論文 参考訳(メタデータ) (2024-10-30T04:25:23Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions [2.5179515260542544]
大規模言語モデル (LLM) は、テキスト生成、質問応答、テキスト要約における汎用的な応用のために、学界や業界全体で大きな注目を集めている。
パフォーマンスを定量化するためには、既存のメトリクスを包括的に把握することが重要です。
本稿では,メトリクスの観点からLLM評価を包括的に調査し,現在使用されているメトリクスの選択と解釈について考察する。
論文 参考訳(メタデータ) (2024-04-14T03:54:00Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。