Fugu-MT 論文翻訳(概要): Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment

論文の概要: Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment

arxiv url: http://arxiv.org/abs/2411.03417v1
Date: Tue, 05 Nov 2024 18:58:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.764717
Title: Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment
Title（参考訳）: 学術論文の著者チェックリストアシスタントとしてのLLMの有用性:NeurIPS'24実験
Authors: Alexander Goldberg, Ihsan Ullah, Thanh Gia Hieu Khuong, Benedictus Kent Rachmat, Zhen Xu, Isabelle Guyon, Nihar B. Shah,
Abstract要約: 大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
参考スコア（独自算出の注目度）: 59.09144776166979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) represent a promising, but controversial, tool in aiding scientific peer review. This study evaluates the usefulness of LLMs in a conference setting as a tool for vetting paper submissions against submission standards. We conduct an experiment at the 2024 Neural Information Processing Systems (NeurIPS) conference, where 234 papers were voluntarily submitted to an "LLM-based Checklist Assistant." This assistant validates whether papers adhere to the author checklist used by NeurIPS, which includes questions to ensure compliance with research and manuscript preparation standards. Evaluation of the assistant by NeurIPS paper authors suggests that the LLM-based assistant was generally helpful in verifying checklist completion. In post-usage surveys, over 70% of authors found the assistant useful, and 70% indicate that they would revise their papers or checklist responses based on its feedback. While causal attribution to the assistant is not definitive, qualitative evidence suggests that the LLM contributed to improving some submissions. Survey responses and analysis of re-submissions indicate that authors made substantive revisions to their submissions in response to specific feedback from the LLM. The experiment also highlights common issues with LLMs: inaccuracy (20/52) and excessive strictness (14/52) were the most frequent issues flagged by authors. We also conduct experiments to understand potential gaming of the system, which reveal that the assistant could be manipulated to enhance scores through fabricated justifications, highlighting potential vulnerabilities of automated review tools.
Abstract（参考訳）: 大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。我々は2024年のNeurIPSカンファレンスで実験を行い、234の論文が「LLMベースのチェックリストアシスタント」に自発的に提出された。このアシスタントは、論文がNeurIPSが使用する著者チェックリストに準拠しているかどうかを検証する。 NeurIPS論文の著者によるアシスタントの評価は、LLMベースのアシスタントがチェックリストの完全性を検証するのに一般的に有用であったことを示唆している。使用後の調査では、70%以上の著者がアシスタントが有用であることに気付き、70%はフィードバックに基づいて論文の改訂やチェックリストの回答を示す。アシスタントへの因果的帰属は決定的ではないが、質的な証拠は、LSMがいくつかの提案の改善に寄与したことを示唆している。再提出に対する調査回答と分析は、著者がLSMからの具体的なフィードバックに応じて、提出を実質的に修正したことを示している。不正確 (20/52) と過度に厳密 (14/52) は、著者によって最も頻繁に指摘される問題である。我々はまた、システムの潜在的なゲームを理解するために実験を行い、自動化されたレビューツールの潜在的な脆弱性を強調しながら、製造された正当化を通じてスコアを強化するためにアシスタントを操作できることを明らかにした。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Can Large Language Models Be Trusted Paper Reviewers? A Feasibility Study [24.387202495452886]
本研究は,学術論文レビューにLarge Language Models (LLMs) を用いることの可能性を検討する。このシステムは、Retrieval Augmented Generation (RAG)、AutoGen Multi-agent System、Chain-of-Thoughtを統合し、フォーマットチェック、標準化された評価、コメント生成、スコアリングなどのタスクをサポートする。 GPT-4o を用いた WASA 2024 会議からの 290 件の提出実験の結果,LCM に基づくレビューはレビュー時間 (平均 2.48 時間) とコスト (平均 104.28 米ドル) を著しく削減することが示された。
論文参考訳（メタデータ） (2025-06-18T10:19:18Z)
Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.18416014644193066]
大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。系統的な文献レビューのためのLLMの性能評価を行った。
論文参考訳（メタデータ） (2025-03-16T05:52:18Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
From Test-Taking to Test-Making: Examining LLM Authoring of Commonsense Assessment Items [0.18416014644193068]
LLMをコモンセンス評価項目の著者とみなす。我々はLLMに対して、コモンセンス推論のための顕著なベンチマークのスタイルでアイテムを生成するよう促す。元のCOPAベンチマークの回答に成功するLCMも、自分自身の項目のオーサリングに成功していることがわかった。
論文参考訳（メタデータ） (2024-10-18T22:42:23Z)
Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文参考訳（メタデータ） (2024-08-24T01:51:23Z)
AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文参考訳（メタデータ） (2024-08-19T19:10:38Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs [29.295135832861522]
自己補正(Self-correction)は、LLMを用いて推論中に応答を精製することで、大きな言語モデル(LLM)からの応答を改善するアプローチである。これまでの作業では,自己評価や外部からのフィードバックなど,さまざまなフィードバック源を用いたさまざまな自己補正フレームワークが提案されていた。我々は幅広い論文を批判的に調査し、自己補正を成功させるために必要な条件について議論する。
論文参考訳（メタデータ） (2024-06-03T13:05:46Z)
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文参考訳（メタデータ） (2024-03-11T21:51:39Z)
KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文参考訳（メタデータ） (2024-03-06T17:16:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。