Fugu-MT 論文翻訳(概要): A Critical Review of Large Language Models: Sensitivity, Bias, and the Path Toward Specialized AI

論文の概要: A Critical Review of Large Language Models: Sensitivity, Bias, and the Path Toward Specialized AI

arxiv url: http://arxiv.org/abs/2307.15425v1
Date: Fri, 28 Jul 2023 09:20:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 13:13:18.757063
Title: A Critical Review of Large Language Models: Sensitivity, Bias, and the Path Toward Specialized AI
Title（参考訳）: 大規模言語モデルの批判的レビュー:感性、バイアス、特殊化AIへの道のり
Authors: Arash Hajikhani, Carolyn Cole
Abstract要約: 本稿では,テキストデータ中のSDGの検出における,特殊なコンパイル言語モデルとOpenAIのGPT-3.5のような汎用モデルの比較の有効性について検討する。この研究は、LLMの能力とドメイン固有の専門知識と解釈可能性の必要性のバランスを見つけるために、さらなる研究を奨励することで締めくくっている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper examines the comparative effectiveness of a specialized compiled language model and a general-purpose model like OpenAI's GPT-3.5 in detecting SDGs within text data. It presents a critical review of Large Language Models (LLMs), addressing challenges related to bias and sensitivity. The necessity of specialized training for precise, unbiased analysis is underlined. A case study using a company descriptions dataset offers insight into the differences between the GPT-3.5 and the specialized SDG detection model. While GPT-3.5 boasts broader coverage, it may identify SDGs with limited relevance to the companies' activities. In contrast, the specialized model zeroes in on highly pertinent SDGs. The importance of thoughtful model selection is emphasized, taking into account task requirements, cost, complexity, and transparency. Despite the versatility of LLMs, the use of specialized models is suggested for tasks demanding precision and accuracy. The study concludes by encouraging further research to find a balance between the capabilities of LLMs and the need for domain-specific expertise and interpretability.
Abstract（参考訳）: 本稿では,テキストデータ中のsdgの検出における,特殊コンパイル言語モデルとopenaiのgpt-3.5のような汎用モデルの比較検討を行う。大規模な言語モデル(LLM)について批判的なレビューを行い、バイアスと感度に関する課題に対処する。正確で偏りのない分析のための専門訓練の必要性は下線にある。企業説明データセットを用いたケーススタディは、gpt-3.5と特殊sdg検出モデルの違いについて洞察を与える。 GPT-3.5は広く報道されているが、SDGを企業活動に限定して特定することができる。対照的に、特殊モデルは非常に関連するSDG上でゼロとなる。タスク要件、コスト、複雑さ、透明性を考慮して、熟慮したモデル選択の重要性が強調される。 LLMの汎用性にもかかわらず、精度と精度を要求されるタスクには特殊モデルの使用が推奨されている。この研究は、LLMの能力とドメイン固有の専門知識と解釈可能性の必要性のバランスを見つけるためにさらなる研究を奨励することで締めくくられる。

関連論文リスト

Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models [2.1797343876622097]
本研究では,Deep Learning(DL)モデルの精度と,クラッシュ物語の分類における専門家合意との関係について検討する。我々は、専門家ラベル付きデータや物語テキストに対して、BERTの変種やUSE(Universal Sentence)を含む5つのDLモデルを評価する。専門家対応モデルは、位置特化キーワードよりも、文脈的および時間的言語的手がかりに依存する傾向にある。
論文参考訳（メタデータ） (2025-04-17T16:29:08Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。解析の結果,ChatGPT-4の精度は良好であった。
論文参考訳（メタデータ） (2024-05-06T04:06:45Z)
Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出するための強力なツールとして登場した。本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-04-27T18:28:10Z)
Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning [0.9787137564521711]
本稿では, 意味探索, プロンプトエンジニアリング, 微調整を組み合わせることで, LLMのタスクを正確に実行する能力を大幅に向上させることができることを示す。 GPT-4のようなプロプライエタリなモデルと、Llama-2-70bのようなオープンソースのモデル、および様々な埋め込み方法を比較します。
論文参考訳（メタデータ） (2024-04-16T03:39:16Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文参考訳（メタデータ） (2023-09-11T14:43:54Z)
Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文参考訳（メタデータ） (2023-04-18T17:21:48Z)
Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文参考訳（メタデータ） (2023-03-13T14:09:53Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。