論文の概要: AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis
- arxiv url: http://arxiv.org/abs/2404.01210v2
- Date: Fri, 12 Apr 2024 12:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 17:03:53.313340
- Title: AILS-NTUA at SemEval-2024 Task 6: Efficient model tuning for hallucination detection and analysis
- Title(参考訳): SemEval-2024 Task 6 におけるAILS-NTUA:幻覚検出と解析のための効率的なモデルチューニング
- Authors: Natalia Grigoriadou, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou,
- Abstract要約: SemEval-2024 Task-6 - SHROOM - 幻覚と関連する過剰発生に関する共有タスク。
実験では,幻覚検出の訓練済みモデルと自然言語推論(NLI)モデルを微調整した。
最も成功した戦略はこれらのモデルのアンサンブルの作成であり、それぞれモデルに依存しないデータセットで77.8%と79.9%の精度が得られた。
- 参考スコア(独自算出の注目度): 1.9939549451457024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our team's submissions for SemEval-2024 Task-6 - SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes. The participants were asked to perform binary classification to identify cases of fluent overgeneration hallucinations. Our experimentation included fine-tuning a pre-trained model on hallucination detection and a Natural Language Inference (NLI) model. The most successful strategy involved creating an ensemble of these models, resulting in accuracy rates of 77.8% and 79.9% on model-agnostic and model-aware datasets respectively, outperforming the organizers' baseline and achieving notable results when contrasted with the top-performing results in the competition, which reported accuracies of 84.7% and 81.3% correspondingly.
- Abstract(参考訳): 本稿では,SemEval-2024 Task-6 - SHROOM, 幻覚と関連する過剰発生ミスの共有タスクについて紹介する。
参加者は、流動性増悪幻覚の症例を特定するために、二分分類の実行を依頼された。
実験では,幻覚検出の訓練済みモデルと自然言語推論(NLI)モデルを微調整した。
最も成功した戦略は、これらのモデルのアンサンブルの作成であり、それぞれモデルに依存しないデータセットで77.8%と79.9%の精度で、主催者のベースラインを上回り、競争における上位成績と対比した場合に顕著な結果が得られ、84.7%と81.3%の精度が報告された。
関連論文リスト
- SASWISE-UE: Segmentation and Synthesis with Interpretable Scalable Ensembles for Uncertainty Estimation [6.082812294410541]
本稿では,医療深層学習モデルの解釈性向上を目的とした,効率的なサブモデルアンサンブルフレームワークを提案する。
不確実性マップを生成することにより、エンドユーザーがモデル出力の信頼性を評価することができる。
論文 参考訳(メタデータ) (2024-11-08T04:37:55Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs [19.7240633020344]
AgEvalは12種類の植物ストレス表現タスクからなるベンチマークである。
本研究は、最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
論文 参考訳(メタデータ) (2024-07-29T00:39:51Z) - A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification [1.9499122087408571]
病理組織学の基礎モデルは、多くのタスクにまたがる大きな約束を示している。
これまでで最も厳格な単一タスクによる病理組織学的基盤モデルの検証を報告した。
病理組織学的基盤モデルは卵巣がんの亜型化に明確な利益をもたらす。
論文 参考訳(メタデータ) (2024-05-16T11:21:02Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Stochastic Contrastive Learning [3.1594831736896025]
潜在変数(LV)モデルは不確実性への帰属を可能にし、タスク固有の圧縮を誘導し、一般により解釈可能な表現を可能にする。
本研究では,大規模コントラストSSLモデルにLV近似を導入する。
論文 参考訳(メタデータ) (2021-10-01T17:30:08Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。