論文の概要: A Critical Review of Large Language Models: Sensitivity, Bias, and the
Path Toward Specialized AI
- arxiv url: http://arxiv.org/abs/2307.15425v1
- Date: Fri, 28 Jul 2023 09:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:13:18.757063
- Title: A Critical Review of Large Language Models: Sensitivity, Bias, and the
Path Toward Specialized AI
- Title(参考訳): 大規模言語モデルの批判的レビュー:感性、バイアス、特殊化AIへの道のり
- Authors: Arash Hajikhani, Carolyn Cole
- Abstract要約: 本稿では,テキストデータ中のSDGの検出における,特殊なコンパイル言語モデルとOpenAIのGPT-3.5のような汎用モデルの比較の有効性について検討する。
この研究は、LLMの能力とドメイン固有の専門知識と解釈可能性の必要性のバランスを見つけるために、さらなる研究を奨励することで締めくくっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the comparative effectiveness of a specialized compiled
language model and a general-purpose model like OpenAI's GPT-3.5 in detecting
SDGs within text data. It presents a critical review of Large Language Models
(LLMs), addressing challenges related to bias and sensitivity. The necessity of
specialized training for precise, unbiased analysis is underlined. A case study
using a company descriptions dataset offers insight into the differences
between the GPT-3.5 and the specialized SDG detection model. While GPT-3.5
boasts broader coverage, it may identify SDGs with limited relevance to the
companies' activities. In contrast, the specialized model zeroes in on highly
pertinent SDGs. The importance of thoughtful model selection is emphasized,
taking into account task requirements, cost, complexity, and transparency.
Despite the versatility of LLMs, the use of specialized models is suggested for
tasks demanding precision and accuracy. The study concludes by encouraging
further research to find a balance between the capabilities of LLMs and the
need for domain-specific expertise and interpretability.
- Abstract(参考訳): 本稿では,テキストデータ中のsdgの検出における,特殊コンパイル言語モデルとopenaiのgpt-3.5のような汎用モデルの比較検討を行う。
大規模な言語モデル(LLM)について批判的なレビューを行い、バイアスと感度に関する課題に対処する。
正確で偏りのない分析のための専門訓練の必要性は下線にある。
企業説明データセットを用いたケーススタディは、gpt-3.5と特殊sdg検出モデルの違いについて洞察を与える。
GPT-3.5は広く報道されているが、SDGを企業活動に限定して特定することができる。
対照的に、特殊モデルは非常に関連するSDG上でゼロとなる。
タスク要件、コスト、複雑さ、透明性を考慮して、熟慮したモデル選択の重要性が強調される。
LLMの汎用性にもかかわらず、精度と精度を要求されるタスクには特殊モデルの使用が推奨されている。
この研究は、LLMの能力とドメイン固有の専門知識と解釈可能性の必要性のバランスを見つけるためにさらなる研究を奨励することで締めくくられる。
関連論文リスト
- Decoding News Narratives: A Critical Analysis of Large Language Models
in Framing Bias Detection [11.578398987157925]
GPT-3.5 Turbo、GPT-4、Flan-T5モデルは、ゼロショット、少数ショット、説明可能なプロンプト手法によってニュース見出しのフレーミングバイアスを検出する。
特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上することを示した。
FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスを識別するために追加のタスク固有の微調整が必要になることを示している。
論文 参考訳(メタデータ) (2024-02-18T15:27:48Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Balancing Specialized and General Skills in LLMs: The Impact of Modern
Tuning and Data Strategy [27.365319494865165]
論文では、提案するフレームワークの設計、データ収集、分析技術、および結果について詳述する。
LLMを専門的な文脈に効果的に適応するための実践的な洞察を企業や研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2023-10-07T23:29:00Z) - Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。
予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2023-09-11T14:43:54Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z) - Attention is Not Always What You Need: Towards Efficient Classification
of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。
ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。
PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文 参考訳(メタデータ) (2023-03-31T03:17:23Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。