Fugu-MT 論文翻訳(概要): OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination Detection with Weakly Supervised Data

論文の概要: OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination Detection with Weakly Supervised Data

arxiv url: http://arxiv.org/abs/2402.12913v1
Date: Tue, 20 Feb 2024 11:01:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 15:41:47.728211
Title: OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination Detection with Weakly Supervised Data
Title（参考訳）: SemEval-2024 Task 6: 小さなLLMは弱監視データによる幻覚検出を加速できる
Authors: Chengcheng Wei, Ze Chen, Songtan Fang, Jiarong He, Max Gao
Abstract要約: 本稿では,LLMの幻覚検出システムについて述べる。 SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
参考スコア（独自算出の注目度）: 1.3981625092173873
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper mainly describes a unified system for hallucination detection of LLMs, which wins the second prize in the model-agnostic track of the SemEval-2024 Task 6, and also achieves considerable results in the model-aware track. This task aims to detect hallucination with LLMs for three different text-generation tasks without labeled training data. We utilize prompt engineering and few-shot learning to verify the performance of different LLMs on the validation data. Then we select the LLMs with better performance to generate high-quality weakly supervised training data, which not only satisfies the consistency of different LLMs, but also satisfies the consistency of the optimal LLM with different sampling parameters. Furthermore, we finetune different LLMs by using the constructed training data, and finding that a relatively small LLM can achieve a competitive level of performance in hallucination detection, when compared to the large LLMs and the prompt-based approaches using GPT-4.
Abstract（参考訳）: 本稿では主に,SemEval-2024 Task 6のモデル非依存トラックにおいて第2位を獲得し,モデル認識トラックにおいてかなりの結果を得るLLMの幻覚検出システムについて述べる。本課題は,3種類のテキスト生成タスクに対して,ラベル付きトレーニングデータなしでLLMによる幻覚を検出することである。検証データ上で異なるllmの性能を検証するために,プロンプトエンジニアリングとマイトショット学習を利用する。次に,LLMの整合性を満足するだけでなく,異なるサンプリングパラメータで最適LLMの整合性を満足する,高品質な教師付きトレーニングデータを生成するために,優れた性能でLLMを選択する。さらに、構築したトレーニングデータを用いて異なるLLMを微調整し、GPT-4を用いた大規模LLMやプロンプトベースアプローチと比較して、比較的小さなLLMが幻覚検出における競争性能のレベルを達成できることを見出した。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
LLM-ML Teaming: Integrated Symbolic Decoding and Gradient Search for Valid and Stable Generative Feature Transformation [20.899800063233]
本稿では,LLMのシンボル生成とMLの勾配ステアリング検索を組み合わせたチーム編成フレームワークを提案する。実験の結果、チーム分けポリシは、ダウンストリームのパフォーマンスを5%改善し、エラーケースのほぼ半分を削減できることがわかった。
論文参考訳（メタデータ） (2025-06-10T08:10:16Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文参考訳（メタデータ） (2024-10-03T23:40:21Z)
Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
LLM-Oriented Retrieval Tuner [25.563739811422874]
Dense Retrieval(DR)は現在、LLM(Large Language Models)の記憶能力を高めるための有望なツールと考えられている。本稿では,LLM から DR 容量を分離する効率的な LLM-Oriented Retrieval Tuner,すなわち LMORT を提案する。提案手法は,強力なDRモデルと比較して,競争力のあるゼロショット検索性能を実現することができる。
論文参考訳（メタデータ） (2024-03-04T12:50:25Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。 4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文参考訳（メタデータ） (2023-05-22T22:07:50Z)
Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。 LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文参考訳（メタデータ） (2023-03-15T12:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。