論文の概要: I Wish I Would Have Loved This One, But I Didn't -- A Multilingual
Dataset for Counterfactual Detection in Product Reviews
- arxiv url: http://arxiv.org/abs/2104.06893v1
- Date: Wed, 14 Apr 2021 14:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:37:33.249365
- Title: I Wish I Would Have Loved This One, But I Didn't -- A Multilingual
Dataset for Counterfactual Detection in Product Reviews
- Title(参考訳): 私はこの製品が大好きだったかもしれないが、製品レビューで偽物検出のための多言語データセットは好きではなかった
- Authors: James O'Neill and Polina Rozenshtein and Ryuichi Kiryo and Motoko
Kubota and Danushka Bollegala
- Abstract要約: 製品レビューにおいて, 反事実検出(cfd)の問題を考える。
この目的のために、Amazon製品レビューから多言語CFDデータセットをアノテートします。
データセットは、複数の言語で偽造物を含むため、ユニークである。
- 参考スコア(独自算出の注目度): 19.533526638034047
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Counterfactual statements describe events that did not or cannot take place.
We consider the problem of counterfactual detection (CFD) in product reviews.
For this purpose, we annotate a multilingual CFD dataset from Amazon product
reviews covering counterfactual statements written in English, German, and
Japanese languages. The dataset is unique as it contains counterfactuals in
multiple languages, covers a new application area of e-commerce reviews, and
provides high quality professional annotations. We train CFD models using
different text representation methods and classifiers. We find that these
models are robust against the selectional biases introduced due to cue
phrase-based sentence selection. Moreover, our CFD dataset is compatible with
prior datasets and can be merged to learn accurate CFD models. Applying machine
translation on English counterfactual examples to create multilingual data
performs poorly, demonstrating the language-specificity of this problem, which
has been ignored so far.
- Abstract(参考訳): 事実上のステートメントは、起こらなかったり、起こらなかったりするイベントを記述します。
製品レビューにおいて, 反事実検出(cfd)の問題を考える。
この目的のために、Amazon製品レビューから、英語、ドイツ語、日本語で書かれた偽造語に関する多言語CFDデータセットを注釈付けする。
データセットは、複数の言語で偽造物を含み、Eコマースレビューの新しいアプリケーション領域をカバーし、高品質のプロフェッショナルアノテーションを提供するため、ユニークなものだ。
異なるテキスト表現法と分類器を用いてcfdモデルを訓練する。
これらのモデルは,cue句に基づく文選択による選択バイアスに対して頑健であることがわかった。
さらに、我々のCFDデータセットは、以前のデータセットと互換性があり、正確なCFDモデルを学ぶためにマージすることができる。
機械翻訳を英語の反実例に適用して多言語データを作成することは、これまで無視されてきたこの問題の言語特異性を示すために、不十分に機能する。
関連論文リスト
- Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models? [17.011882550422452]
命令データの性質がモデル出力に影響を及ぼすかどうかは不明である。
翻訳されたテストセットがそのようなニュアンスをキャプチャできるかどうかは疑わしい。
ネイティブまたはジェネレーションベンチマークでは、ネイティブとトランスポートされたインストラクションデータの間に顕著な違いがあることが示されている。
論文 参考訳(メタデータ) (2024-06-18T17:43:47Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - XFEVER: Exploring Fact Verification across Languages [40.1637899493061]
本稿では,異なる言語間で事実検証モデルをベンチマークするために設計された言語間ファクト抽出と検証データセットを提案する。
我々は、Fact extract and VERificationデータセットのクレームとエビデンステキストを6言語に翻訳して構築した。
トレーニングセットと開発セットは機械翻訳を使用して翻訳され、テストセットはプロの翻訳者によって翻訳されたテキストと機械翻訳されたテキストを含む。
論文 参考訳(メタデータ) (2023-10-25T01:20:17Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Linguistic Cues of Deception in a Multilingual April Fools' Day Context [0.8487852486413651]
ダイアクロニックAFDとギリシャの新聞やニュースサイトからの通常の記事を含むコーパスを紹介する。
我々は、豊富な言語機能セットを構築し、その偽りの手がかりを分析し、現在利用可能な唯一のAFDコレクションと比較する。
論文 参考訳(メタデータ) (2021-11-06T16:28:12Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。