Fugu-MT 論文翻訳(概要): Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study

論文の概要: Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study

arxiv url: http://arxiv.org/abs/2409.09186v1
Date: Fri, 13 Sep 2024 20:45:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 21:59:04.702265
Title: Quantitative Insights into Language Model Usage and Trust in Academia: An Empirical Study
Title（参考訳）: 学業における言語モデル利用と信頼に関する定量的考察--実証的研究
Authors: Minseok Jung, Aurora Zhang, Junho Lee, Paul Pu Liang,
Abstract要約: LMの使用範囲、アウトプットに対するユーザの信頼度、および現実世界の開発に優先すべき課題について、量的証拠に顕著なギャップがある。本研究は,私立学校で125名を対象に調査を行い,前処理後の88点のデータを得た。定量的分析と質的証拠により,信頼度は有意な変動がみられた。
参考スコア（独自算出の注目度）: 29.750000639372203
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Language models (LMs) are revolutionizing knowledge retrieval and processing in academia. However, concerns regarding their misuse and erroneous outputs, such as hallucinations and fabrications, are reasons for distrust in LMs within academic communities. Consequently, there is a pressing need to deepen the understanding of how actual practitioners use and trust these models. There is a notable gap in quantitative evidence regarding the extent of LM usage, user trust in their outputs, and issues to prioritize for real-world development. This study addresses these gaps by providing data and analysis of LM usage and trust. Specifically, our study surveyed 125 individuals at a private school and secured 88 data points after pre-processing. Through both quantitative analysis and qualitative evidence, we found a significant variation in trust levels, which are strongly related to usage time and frequency. Additionally, we discover through a polling process that fact-checking is the most critical issue limiting usage. These findings inform several actionable insights: distrust can be overcome by providing exposure to the models, policies should be developed that prioritize fact-checking, and user trust can be enhanced by increasing engagement. By addressing these critical gaps, this research not only adds to the understanding of user experiences and trust in LMs but also informs the development of more effective LMs.
Abstract（参考訳）: 言語モデル(LM)は、学術における知識の検索と処理に革命をもたらしている。しかし、その誤用や幻覚や製造などの誤ったアウトプットに対する懸念は、学術コミュニティ内でのLMの不信の理由である。結果として、実際の実践者がどのようにしてこれらのモデルを使用し、信頼するかについての理解を深める必要がある。 LMの使用範囲、アウトプットに対するユーザの信頼度、および現実世界の開発に優先すべき課題について、量的証拠に顕著なギャップがある。本研究では,LMの利用状況と信頼度に関するデータと分析を提供することにより,これらのギャップに対処する。具体的には,私立学校で125名を対象に調査を行い,前処理後の88点のデータを得た。定量的分析と質的証拠により,信頼度は有意な変動がみられた。さらに、ファクトチェックが使用を制限する最も重要な問題であることをポーリングプロセスを通じて発見する。これらの結果は、モデルに露出することで不信を克服でき、ファクトチェックを優先するポリシーを開発し、エンゲージメントを高めることでユーザ信頼を高めることができる。これらの重要なギャップに対処することにより、この研究はユーザー体験の理解とLMへの信頼を高めるだけでなく、より効果的なLMの開発にも寄与する。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Campus AI vs Commercial AI: A Late-Breaking Study on How LLM As-A-Service Customizations Shape Trust and Usage Patterns [0.7466235023455281]
大規模言語モデル(LLM)は、特定の(ビジネス)ニーズに合わせてカスタマイズ可能な、事前訓練されたモデルを提供する。本研究は, 学生や従業員が, 施設のカスタマイズ LLM をどう認識し, 活用するかを, 大規模フィールドスタディにおける機能的前兆として捉えたものである。
論文参考訳（メタデータ） (2025-05-15T16:45:33Z)
Understanding Knowledge Drift in LLMs through Misinformation [11.605377799885238]
大規模言語モデル(LLM)は多くのアプリケーションに革命をもたらしました。我々は,QnAシナリオで誤情報に遭遇した場合に,現状のLCMの事実的不正確性に対する感受性を解析する。実験の結果,LLMの不確実性が56.6%まで増加することが判明した。
論文参考訳（メタデータ） (2024-09-11T08:11:16Z)
To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文参考訳（メタデータ） (2024-07-24T09:48:48Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文参考訳（メタデータ） (2024-07-18T15:20:18Z)
Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI [0.3495246564946556]
BUMPER(Building Understandable Messaging for Policy and Evidence Review)において,大規模言語モデル(LLM)を使用するためのフレームワークを導入する。 LLMは多様なメディアの大規模なデータベースを理解し合成するためのインタフェースを提供することができる。この枠組みは、政策立案者に対する科学的証拠のアクセシビリティと信頼性を促進することができると我々は主張する。
論文参考訳（メタデータ） (2024-06-27T05:03:03Z)
I don't trust you (anymore)! -- The effect of students' LLM use on Lecturer-Student-Trust in Higher Education [0.0]
Open AIのChatGPTのようなプラットフォームにおける大規模言語モデル(LLM)は、大学生の間で急速に採用されている。学生によるLLMの使用は、情報と手続きの正義にどのように影響し、チーム信頼と期待されるチームパフォーマンスに影響を与えるか? 本研究は,LLM使用の公平さよりも,学生利用の透明性に重点を置いていることを示唆する。
論文参考訳（メタデータ） (2024-06-21T05:35:57Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-06T11:32:41Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。 LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。 COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文参考訳（メタデータ） (2024-02-06T12:18:54Z)
Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文参考訳（メタデータ） (2024-02-05T15:43:50Z)
The Calibration Gap between Model and Human Confidence in Large Language Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文参考訳（メタデータ） (2024-01-24T22:21:04Z)
Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文参考訳（メタデータ） (2024-01-12T18:03:30Z)
TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文参考訳（メタデータ） (2024-01-10T22:07:21Z)
Empirical evaluation of Uncertainty Quantification in Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文参考訳（メタデータ） (2023-11-15T20:42:11Z)
The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。本研究は, 文脈情報を用いたLLMの高度化を示すものである。 LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文参考訳（メタデータ） (2023-10-20T14:49:47Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文参考訳（メタデータ） (2023-10-01T17:37:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。