Fugu-MT 論文翻訳(概要): Detecting Response Generation Not Requiring Factual Judgment

論文の概要: Detecting Response Generation Not Requiring Factual Judgment

arxiv url: http://arxiv.org/abs/2406.09702v1
Date: Fri, 14 Jun 2024 04:03:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 15:13:35.100460
Title: Detecting Response Generation Not Requiring Factual Judgment
Title（参考訳）: 実測を必要としない応答生成の検出
Authors: Ryohei Kamei, Daiki Shiono, Reina Akama, Jun Suzuki,
Abstract要約: 本研究は, 事実正当性判定を必要としない文を予測するタスクが設定された対話応答において, 魅力と事実性を両立することを目的とした。クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。
参考スコア（独自算出の注目度）: 14.921007421043198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the remarkable development of large language models (LLMs), ensuring the factuality of output has become a challenge. However, having all the contents of the response with given knowledge or facts is not necessarily a good thing in dialogues. This study aimed to achieve both attractiveness and factuality in a dialogue response for which a task was set to predict sentences that do not require factual correctness judgment such as agreeing, or personal opinions/feelings. We created a dataset, dialogue dataset annotated with fact-check-needed label (DDFC), for this task via crowdsourcing, and classification tasks were performed on several models using this dataset. The model with the highest classification accuracy could yield about 88% accurate classification results.
Abstract（参考訳）: 大規模言語モデル(LLM)の顕著な発展に伴い、出力の事実性の確保が課題となっている。しかし、与えられた知識や事実に反応する全ての内容を持つことは、対話において必ずしも良いことではない。本研究の目的は,同意などの事実的正当性判断を必要としない文を予測するためのタスクが設定された対話応答において,魅力と事実性を両立することであった。クラウドソーシングにより,ファクトチェック関連ラベル(DDFC)を付加したデータセットと対話データセットを作成し,このデータセットを用いて複数のモデルで分類タスクを行った。分類精度が最も高いモデルでは、およそ88%の正確な分類結果が得られる。

関連論文リスト

A Knowledge Graph and a Tripartite Evaluation Framework Make Retrieval-Augmented Generation Scalable and Transparent [0.0]
本研究では,知識グラフとベクトル探索を用いて,文脈に富んだ応答を提供する検索型拡張生成(RAG)を提案する。この研究の中心的な革新はRAG評価(RAG-Eval)の導入である。 RAG-Evalは、事実のギャップとクエリミスマッチを確実に検出し、高要求でデータ中心の環境への信頼を高める。
論文参考訳（メタデータ） (2025-09-23T16:29:22Z)
FineDialFact: A benchmark for Fine-grained Dialogue Fact Verification [45.2458418225596]
大型言語モデル (LLM) は幻覚を生み出すことが知られている。対話システムにおける幻覚検出への現在のアプローチは、主に生成された応答の事実整合性を検証することに焦点を当てている。詳細な対話事実検証のためのベンチマークであるFinDialFactを導入する。
論文参考訳（メタデータ） (2025-08-07T18:51:03Z)
Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。 LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-13T09:32:12Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Revisiting text decomposition methods for NLI-based factuality scoring of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文参考訳（メタデータ） (2022-11-30T09:54:37Z)
Questioning the Validity of Summarization Datasets and Improving Their Factual Consistency [14.974996886744083]
SummFCは,事実整合性を改善したフィルタされた要約データセットである。我々は,データセットが要約システムの開発と評価のための有効なベンチマークとなるべきだと論じている。
論文参考訳（メタデータ） (2022-10-31T15:04:20Z)
Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2022-10-25T17:01:30Z)
Robustness of end-to-end Automatic Speech Recognition Models -- A Case Study using Mozilla DeepSpeech [2.715884199292287]
多くの性能数値が予想されるエラー率を過小評価していると我々は主張する。我々は、選択バイアス、性別、およびコンテンツ、音声、記録条件の重複(トレーニングとテストデータ間の重複)を制御する実験を行う。
論文参考訳（メタデータ） (2021-05-08T16:46:44Z)
Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2020-04-13T05:23:25Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。