論文の概要: SubjECTive-QA: Measuring Subjectivity in Earnings Call Transcripts' QA Through Six-Dimensional Feature Analysis
- arxiv url: http://arxiv.org/abs/2410.20651v1
- Date: Mon, 28 Oct 2024 01:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:17.260525
- Title: SubjECTive-QA: Measuring Subjectivity in Earnings Call Transcripts' QA Through Six-Dimensional Feature Analysis
- Title(参考訳): サブジェクティブQA:6次元特徴分析による音節QA呼出音声の主観性の測定
- Authors: Huzaifa Pardawala, Siddhant Sukhani, Agam Shah, Veer Kejriwal, Abhishek Pillai, Rohan Bhasin, Andrew DiBiasio, Tarun Mandapati, Dhruv Adha, Sudheer Chava,
- Abstract要約: SubjECTive-QAはEarnings Call Transcripts' (ECTs)上の人間の注釈付きデータセットである
データセットには、Assertive, Cautious, Optimistic, Specific, Clear, Relevantという6つの機能からなる、長期QAペア用の49,446のアノテーションが含まれている。
以上の結果から,Llama-3-70b-Chatと同様の重み付きF1スコアが得られた。
- 参考スコア(独自算出の注目度): 4.368712652579087
- License:
- Abstract: Fact-checking is extensively studied in the context of misinformation and disinformation, addressing objective inaccuracies. However, a softer form of misinformation involves responses that are factually correct but lack certain features such as clarity and relevance. This challenge is prevalent in formal Question-Answer (QA) settings such as press conferences in finance, politics, sports, and other domains, where subjective answers can obscure transparency. Despite this, there is a lack of manually annotated datasets for subjective features across multiple dimensions. To address this gap, we introduce SubjECTive-QA, a human annotated dataset on Earnings Call Transcripts' (ECTs) QA sessions as the answers given by company representatives are often open to subjective interpretations and scrutiny. The dataset includes 49,446 annotations for long-form QA pairs across six features: Assertive, Cautious, Optimistic, Specific, Clear, and Relevant. These features are carefully selected to encompass the key attributes that reflect the tone of the answers provided during QA sessions across different domain. Our findings are that the best-performing Pre-trained Language Model (PLM), RoBERTa-base, has similar weighted F1 scores to Llama-3-70b-Chat on features with lower subjectivity, such as Relevant and Clear, with a mean difference of 2.17% in their weighted F1 scores. The models perform significantly better on features with higher subjectivity, such as Specific and Assertive, with a mean difference of 10.01% in their weighted F1 scores. Furthermore, testing SubjECTive-QA's generalizability using QAs from White House Press Briefings and Gaggles yields an average weighted F1 score of 65.97% using our best models for each feature, demonstrating broader applicability beyond the financial domain. SubjECTive-QA is publicly available under the CC BY 4.0 license
- Abstract(参考訳): ファクトチェックは誤情報や偽情報の文脈で広く研究され、客観的な不正確性に対処する。
しかし、よりソフトな形の誤情報には、実際には正しいが、明瞭さや関連性のような特定の特徴が欠けている応答が含まれる。
この課題は、財務、政治、スポーツ、その他のドメインでの記者会見など、正式なQA(QA)設定で、主観的な回答は透明性を曖昧にする可能性がある。
それにもかかわらず、複数の次元にまたがる主観的特徴のための手動のアノテートデータセットがない。
このギャップに対処するため,企業代表者による回答が主観的解釈や精査に開放されることがしばしばあるため,Earnings Call Transcripts (ECT) QAセッションに人間の注釈付きデータセットであるSubjECTive-QAを紹介した。
データセットには、Assertive, Cautious, Optimistic, Specific, Clear, Relevantという6つの機能からなる、長期QAペア用の49,446のアノテーションが含まれている。
これらの機能は、異なるドメインにわたるQAセッションで提供される回答のトーンを反映する重要な属性を含むように慎重に選択されます。
以上の結果から,Llama-3-70b-Chatと類似の重み付きF1スコアは,Llama-3-70b-Chatよりも低主観性(RelevantやClearなど),平均差は2.17%であった。
これらのモデルでは, 主観性が高く, F1得点の平均差は10.01%であった。
さらに、ホワイトハウス・プレス・ブリーフィングズ・アンド・ギャグルズのQAを用いてSubjECTive-QAの一般化性をテストすると、F1スコアの平均は65.97%となり、金融分野を超えて幅広い適用性を示している。
SubjECTive-QAはCC BY 4.0ライセンスの下で公開されている
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for
Unbiased Question-Answering [10.00386025149584]
各質問タイプを元のデータセットからレビューし,回答バイアスが顕著であるものを選択する。
相補的なビデオや質問を収集し、解答に見事な歪曲分布がないことを保証します。
本稿では,音声-視覚-テキスト相互関係を深く掘り下げる新しいベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-10-10T01:22:41Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Attention-Based Methods For Audio Question Answering [16.82832919748399]
本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
論文 参考訳(メタデータ) (2023-05-31T12:00:51Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset [26.782937852417454]
複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:17:09Z) - Towards Deconfounding the Influence of Subject's Demographic
Characteristics in Question Answering [4.540236408836132]
質問回答タスクは、汎用マシンインテリジェンスのベンチマークとして使用される。
主要なQAデータセットは、性別、職業、国籍に関する分布を歪めている。
性別や国籍によっては正確さが低いという証拠はほとんどない。
論文 参考訳(メタデータ) (2021-04-15T16:26:54Z) - What Gives the Answer Away? Question Answering Bias Analysis on Video QA
Datasets [40.64071905569975]
ビデオQAデータセットの回答バイアスは、QAアーティファクトに過度に適合するように、マルチモーダルモデルを誤解させる可能性がある。
私たちの研究では、アノテータや質問の種類からバイアスが生まれます。
また,ビデオQAデータセットのQAバイアスを低減できることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:00:11Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - SubjQA: A Dataset for Subjectivity and Review Comprehension [52.13338191442912]
主観性と質問応答(QA)の関係について検討する。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。
論文 参考訳(メタデータ) (2020-04-29T15:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。