論文の概要: Overview of Dialog System Evaluation Track: Dimensionality, Language, Culture and Safety at DSTC 12
- arxiv url: http://arxiv.org/abs/2509.13569v1
- Date: Tue, 16 Sep 2025 22:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.662765
- Title: Overview of Dialog System Evaluation Track: Dimensionality, Language, Culture and Safety at DSTC 12
- Title(参考訳): ダイアログシステム評価トラックの概要:DSTC 12における次元,言語,文化,安全性
- Authors: John Mendonça, Lining Zhang, Rahul Mallidi, Alon Lavie, Isabel Trancoso, Luis Fernando D'Haro, João Sedoc,
- Abstract要約: ダイアログシステム評価:次元,言語,文化,安全」は,これらの重要なギャップに対処する取り組みの一環として進行中である。
本稿では、参加者に提供されるデータセットとベースラインと、提案した2つのサブタスクのそれぞれに対する提案評価結果について述べる。
- 参考スコア(独自算出の注目度): 16.70626307889781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has intensified the need for robust dialogue system evaluation, yet comprehensive assessment remains challenging. Traditional metrics often prove insufficient, and safety considerations are frequently narrowly defined or culturally biased. The DSTC12 Track 1, "Dialog System Evaluation: Dimensionality, Language, Culture and Safety," is part of the ongoing effort to address these critical gaps. The track comprised two subtasks: (1) Dialogue-level, Multi-dimensional Automatic Evaluation Metrics, and (2) Multilingual and Multicultural Safety Detection. For Task 1, focused on 10 dialogue dimensions, a Llama-3-8B baseline achieved the highest average Spearman's correlation (0.1681), indicating substantial room for improvement. In Task 2, while participating teams significantly outperformed a Llama-Guard-3-1B baseline on the multilingual safety subset (top ROC-AUC 0.9648), the baseline proved superior on the cultural subset (0.5126 ROC-AUC), highlighting critical needs in culturally-aware safety. This paper describes the datasets and baselines provided to participants, as well as submission evaluation results for each of the two proposed subtasks.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、堅牢な対話システム評価の必要性が高まっているが、総合的な評価は依然として困難である。
伝統的なメトリクスは、しばしば不十分であることが証明され、安全に関する考慮はしばしば狭義に定義され、文化的に偏っている。
DSTC12トラック1"Dialog System Evaluation: dimensionity, Language, Culture and Safety"は、これらの重要なギャップに対処するための継続的な取り組みの一部である。
トラックは,(1)対話レベル,多次元自動評価尺度,(2)多言語・多文化安全検出の2つのサブタスクから構成された。
タスク1では10の対話次元に焦点を当てたLlama-3-8Bベースラインが平均的なスピアマン相関(0.1681)を達成した。
タスク2では、参加チームがマルチリンガルセーフティサブセット(ROC-AUC 0.9648の上位)でLlama-Guard-3-1Bベースラインを著しく上回ったが、そのベースラインは文化的サブセット(0.5126 ROC-AUC)よりも優れており、文化的に意識された安全における重要なニーズを強調した。
本稿では、参加者に提供されるデータセットとベースラインと、提案した2つのサブタスクのそれぞれに対する提案評価結果について述べる。
関連論文リスト
- LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [46.25325034315104]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。
内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。
提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-23T15:55:07Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - Overview of Robust and Multilingual Automatic Evaluation Metrics for
Open-Domain Dialogue Systems at DSTC 11 Track 4 [51.142614461563184]
第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進するために進行中の取り組みの一部である。
本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。
論文 参考訳(メタデータ) (2023-06-22T10:50:23Z) - BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue
Modeling [52.99188200886738]
BiToDは、エンドツーエンドのタスク指向対話モデリングのための最初のバイリンガルなマルチドメインデータセットである。
BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発声)が含まれている。
論文 参考訳(メタデータ) (2021-06-05T03:38:42Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。