論文の概要: Comparing GPT-4 and Open-Source Language Models in Misinformation
Mitigation
- arxiv url: http://arxiv.org/abs/2401.06920v1
- Date: Fri, 12 Jan 2024 22:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:43:13.844150
- Title: Comparing GPT-4 and Open-Source Language Models in Misinformation
Mitigation
- Title(参考訳): 誤情報除去におけるGPT-4とオープンソース言語モデルの比較
- Authors: Tyler Vergho, Jean-Francois Godbout, Reihaneh Rabbany, Kellin Pelrine
- Abstract要約: GPT-4は、この領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。
我々は、Zephyr-7bが、一般的なアプローチの重要な制限を克服し、一貫した代替手段を提供することを示す。
そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。
- 参考スコア(独自算出の注目度): 6.929834518749884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) have been shown to be effective for
misinformation detection. However, the choice of LLMs for experiments varies
widely, leading to uncertain conclusions. In particular, GPT-4 is known to be
strong in this domain, but it is closed source, potentially expensive, and can
show instability between different versions. Meanwhile, alternative LLMs have
given mixed results. In this work, we show that Zephyr-7b presents a
consistently viable alternative, overcoming key limitations of commonly used
approaches like Llama-2 and GPT-3.5. This provides the research community with
a solid open-source option and shows open-source models are gradually catching
up on this task. We then highlight how GPT-3.5 exhibits unstable performance,
such that this very widely used model could provide misleading results in
misinformation detection. Finally, we validate new tools including approaches
to structured output and the latest version of GPT-4 (Turbo), showing they do
not compromise performance, thus unlocking them for future research and
potentially enabling more complex pipelines for misinformation mitigation.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)は誤情報検出に有効であることが示されている。
しかし、実験におけるLSMの選択は広く異なり、不確実な結論に至る。
特に、GPT-4はこの領域では強いことが知られているが、クローズドソースであり、潜在的に高価であり、異なるバージョン間で不安定を示すことができる。
一方、代替LLMは様々な結果を出している。
本研究では,Zephyr-7bがLlama-2やGPT-3.5といった一般的なアプローチの限界を克服し,一貫した代替手段を提供することを示す。
これによって研究コミュニティは、堅固なオープンソースオプションを提供し、オープンソースモデルが徐々にこのタスクに追いついてきていることを示している。
そして、GPT-3.5が不安定な性能を示し、この非常に広く使われているモデルが誤情報検出の誤った結果をもたらす可能性があることを強調した。
最後に、構造化アウトプットや最新バージョンのgpt-4(turbo)を含む新しいツールを検証することで、パフォーマンスを損なわないことを示し、将来の研究のためにそれらをアンロックし、誤った情報緩和のためのより複雑なパイプラインを可能にする。
関連論文リスト
- Evaluating the Performance of Large Language Models for SDG Mapping (Technical Report) [6.789534723913505]
大規模言語モデル(LLM)は、サードパーティにデータを提供する必要をなくすことで、データのプライバシ保護を可能にする。
持続可能な開発目標マッピングタスクにおいて,様々な言語モデルの性能を比較した。
この研究の結果によると、LLaMA 2とGemmaは依然として改善の余地がある。
論文 参考訳(メタデータ) (2024-08-05T03:05:02Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Large Language Model for Vulnerability Detection: Emerging Results and
Future Directions [15.981132063061661]
従来の学習ベースの脆弱性検出方法は、中規模の事前訓練モデルか、スクラッチから小さなニューラルネットワークに頼っていた。
近年のLarge Pre-Trained Language Models (LLMs) の進歩は,様々なタスクにおいて顕著な数発の学習能力を示した。
論文 参考訳(メタデータ) (2024-01-27T17:39:36Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Towards Reliable Misinformation Mitigation: Generalization, Uncertainty,
and GPT-4 [5.313670352036673]
GPT-4は,複数の設定や言語で先行手法より優れていることを示す。
本研究では,不可能な事例を検出し,その結果を強く改善する不確実性に対処する手法を提案する。
この研究は、偽情報と戦うために現実世界の進歩を促す将来のツールの基盤となる。
論文 参考訳(メタデータ) (2023-05-24T09:10:20Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。