論文の概要: On the Use of Large Language Models for Qualitative Synthesis
- arxiv url: http://arxiv.org/abs/2510.16502v1
- Date: Sat, 18 Oct 2025 13:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.016903
- Title: On the Use of Large Language Models for Qualitative Synthesis
- Title(参考訳): 定性合成における大規模言語モデルの利用について
- Authors: Sebastián Pizard, Ramiro Moreira, Federico Galiano, Ignacio Sastre, Lorena Etcheverry,
- Abstract要約: 大規模言語モデル(LLM)は、体系的レビュー(SR)、質的合成(QS)のような複雑なタスクをサポートすることを約束している。
不正使用は、既存の弱点を増幅し、SRの発見に対する自信を損なう可能性がある。
本研究は,LLMをQSに使用する際の課題を検討するために,2つの試行を含む共同オートエスノグラフィーを行った。
方法論的厳密さと実用性について各試験を検証し,LLMの製作方法と現状の限界から得られた技術レンズを用いてその結果を解釈した。
- 参考スコア(独自算出の注目度): 0.45671221781968335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise for supporting systematic reviews (SR), even complex tasks such as qualitative synthesis (QS). However, applying them to a stage that is unevenly reported and variably conducted carries important risks: misuse can amplify existing weaknesses and erode confidence in the SR findings. To examine the challenges of using LLMs for QS, we conducted a collaborative autoethnography involving two trials. We evaluated each trial for methodological rigor and practical usefulness, and interpreted the results through a technical lens informed by how LLMs are built and their current limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、体系的レビュー(SR)、質的合成(QS)のような複雑なタスクをサポートすることを約束している。
しかし、不均一に報告され、可変的に実行されるステージにそれらを適用することは、既存の弱点を増幅し、SRの発見に対する自信を損なうという、重大なリスクをもたらす。
本研究は,LLMをQSに使用する際の課題を検討するために,2つの試行を含む共同オートエスノグラフィーを行った。
方法論的厳密さと実用性について各試験を検証し,LLMの製作方法と現状の限界から得られた技術レンズを用いてその結果を解釈した。
関連論文リスト
- Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark [0.0]
フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
論文 参考訳(メタデータ) (2025-06-09T16:12:47Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。