論文の概要: Multilingual Datasets for Custom Input Extraction and Explanation Requests Parsing in Conversational XAI Systems
- arxiv url: http://arxiv.org/abs/2508.14982v1
- Date: Wed, 20 Aug 2025 18:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.058833
- Title: Multilingual Datasets for Custom Input Extraction and Explanation Requests Parsing in Conversational XAI Systems
- Title(参考訳): 対話型XAIシステムにおけるカスタム入力抽出と説明要求のための多言語データセット
- Authors: Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Fedor Splitt, Jiaao Li, Yoana Tsoneva, Sebastian Möller, Vera Schmitt,
- Abstract要約: 我々は5つのタイプ型的に多様な言語にまたがるCoXQLデータセットの多言語拡張であるMultiCoXQLを紹介した。
本稿では,多言語構文解析の性能向上を目的とした構文解析手法を提案する。
我々は、ConvXAIシステムにおけるカスタム入力抽出のために設計された新しい多言語データセットであるCompassを提案する。
- 参考スコア(独自算出の注目度): 12.790385645941804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational explainable artificial intelligence (ConvXAI) systems based on large language models (LLMs) have garnered considerable attention for their ability to enhance user comprehension through dialogue-based explanations. Current ConvXAI systems often are based on intent recognition to accurately identify the user's desired intention and map it to an explainability method. While such methods offer great precision and reliability in discerning users' underlying intentions for English, a significant challenge in the scarcity of training data persists, which impedes multilingual generalization. Besides, the support for free-form custom inputs, which are user-defined data distinct from pre-configured dataset instances, remains largely limited. To bridge these gaps, we first introduce MultiCoXQL, a multilingual extension of the CoXQL dataset spanning five typologically diverse languages, including one low-resource language. Subsequently, we propose a new parsing approach aimed at enhancing multilingual parsing performance, and evaluate three LLMs on MultiCoXQL using various parsing strategies. Furthermore, we present Compass, a new multilingual dataset designed for custom input extraction in ConvXAI systems, encompassing 11 intents across the same five languages as MultiCoXQL. We conduct monolingual, cross-lingual, and multilingual evaluations on Compass, employing three LLMs of varying sizes alongside BERT-type models.
- Abstract(参考訳): 大言語モデル(LLM)に基づく会話説明可能な人工知能(ConvXAI)システムは,対話に基づく説明を通じてユーザ理解を高める能力に注目が集まっている。
現在のConvXAIシステムは、ユーザの意図を正確に識別し、説明可能性の方法にマッピングする意図認識に基づいていることが多い。
このような手法は、利用者の英語に対する意図を明らかにする上で非常に正確で信頼性が高いが、訓練データの不足が持続し、多言語一般化を妨げている。
さらに、設定済みのデータセットインスタンスとは異なるユーザ定義データである、フリーフォームのカスタムインプットのサポートは、依然として大きく制限されている。
これらのギャップを埋めるために、まず最初にMultiCoXQLを紹介した。これは、CoXQLデータセットの多言語拡張で、5つのタイプ型的に多様な言語にまたがる。
その後、多言語構文解析性能の向上を目的とした新しい解析手法を提案し、様々な解析戦略を用いて、MultiCoXQL上の3つのLLMを評価する。
さらに、ConvXAIシステムでカスタム入力抽出用に設計された新しい多言語データセットであるCompassを紹介し、MultiCoXQLと同じ5言語で11のインテントを含む。
単言語,言語横断,多言語によるコンパスの評価を行い,BERT型モデルとともに,異なる大きさのLLMを3つ使用した。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。
本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T15:37:51Z) - CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems [15.403790602937587]
大規模言語モデル(LLM)に基づく会話説明型人工知能(ConvXAI)システムは,研究コミュニティから大きな関心を集めている。
我々は、ConvXAIでユーザ意図認識のための最初のデータセットであるCoXQLを紹介し、31のインテントをカバーし、そのうち7つは複数のスロットを埋める必要がある。
我々は,改良された解析手法 (MP+) が従来の手法よりも優れていると結論付けた。
論文 参考訳(メタデータ) (2024-06-12T11:27:10Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。