論文の概要: Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2508.17258v1
- Date: Sun, 24 Aug 2025 08:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.430176
- Title: Are You Sure You're Positive? Consolidating Chain-of-Thought Agents with Uncertainty Quantification for Aspect-Category Sentiment Analysis
- Title(参考訳): 正当性は確かか? アスペクト・カテゴリ・センシティメント分析のための不確かさ定量化剤の統合
- Authors: Filippos Ventirozos, Peter Appleby, Matthew Shardlow,
- Abstract要約: データセットのアノテーションに必要な時間とリソースが限られている場合、ゼロショット設定で大きな言語モデルを活用することは有益である、と我々は主張する。
本稿では,大規模言語モデルのトークンレベルの不確実性スコアを活用することで,複数のチェーンオブ思考エージェントを組み合わせる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.14197005718384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aspect-category sentiment analysis provides granular insights by identifying specific themes within product reviews that are associated with particular opinions. Supervised learning approaches dominate the field. However, data is scarce and expensive to annotate for new domains. We argue that leveraging large language models in a zero-shot setting is beneficial where the time and resources required for dataset annotation are limited. Furthermore, annotation bias may lead to strong results using supervised methods but transfer poorly to new domains in contexts that lack annotations and demand reproducibility. In our work, we propose novel techniques that combine multiple chain-of-thought agents by leveraging large language models' token-level uncertainty scores. We experiment with the 3B and 70B+ parameter size variants of Llama and Qwen models, demonstrating how these approaches can fulfil practical needs and opening a discussion on how to gauge accuracy in label-scarce conditions.
- Abstract(参考訳): アスペクトカテゴリの感情分析は、特定の意見に関連する製品レビュー内の特定のテーマを特定することで、詳細な洞察を提供する。
教師付き学習アプローチがこの分野を支配している。
しかし、新しいドメインにアノテートするデータは少なく、高価である。
データセットのアノテーションに必要な時間とリソースが限られている場合、ゼロショット設定で大きな言語モデルを活用することは有益である、と我々は主張する。
さらに、アノテーションバイアスは、教師付きメソッドを使用して強い結果をもたらすかもしれないが、アノテーションや要求再現性に欠けるコンテキストにおいて、新しいドメインに貧弱に転送する。
本研究では,大規模言語モデルのトークンレベルの不確実性スコアを活用することで,複数のチェーンオブ思考エージェントを組み合わせる新しい手法を提案する。
Llama と Qwen モデルの 3B および 70B+ のパラメータサイズ変種を実験し、これらの手法が実際的なニーズを満たす方法を示し、ラベルスカース条件の精度を評価する方法について議論する。
関連論文リスト
- Normalisation of SWIFT Message Counterparties with Feature Extraction and Clustering [0.0]
本稿では,取引相手のクラスタリングを容易にするために,ハイブリッド文字列類似性,トピックモデリング,階層クラスタリング,ルールベースのパイプラインを提案する。
このアプローチは、ルールベースのシステムで見られるほとんどの解釈可能性を保持しており、前者は後者に追加のレベルのクラスタリファインメントを追加する。
制裁調査など、人口のごく一部だけを調査する必要がある場合、この手法は、欠落した個体変動のリスクをよりよく制御することができる。
論文 参考訳(メタデータ) (2025-08-24T12:41:44Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models [63.15355173909631]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Domain Adaptive Segmentation of Electron Microscopy with Sparse Point
Annotations [2.5137859989323537]
競争性能に優れたアノテーション効率のアプローチを開発する。
弱教師付きドメイン適応(WDA)に極端にスパースで弱いアノテーションのタイプで焦点を当てる。
15%のポイントアノテーションしか持たないモデルでは、教師付きモデルと同等のパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:50:37Z) - Mention Annotations Alone Enable Efficient Domain Adaptation for
Coreference Resolution [8.08448832546021]
注釈付けだけでは、注釈付けが完全なコア参照チェーンの約2倍の速さであることを示す。
提案手法はアノテーション効率を向上し,アノテータ時間の増加を伴わずにF1の平均値が7~14%向上する。
論文 参考訳(メタデータ) (2022-10-14T07:57:27Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Adaptive Active Learning for Coreference Resolution [37.261220564076964]
最近のインクリメンタルコア推論解決の進展により、この設定におけるアクティブラーニングに対する新しいアプローチが可能になる。
コアファレンスのためのデータバリアを下げることで、コアファレンスリゾルバは、以前に考慮されていない一連のドメインに迅速に適応できます。
論文 参考訳(メタデータ) (2021-04-15T17:21:51Z) - Analysis and Evaluation of Language Models for Word Sense Disambiguation [18.001457030065712]
トランスフォーマーベースの言語モデルは、嵐によってNLPの多くの分野を取り込んでいる。
BERTは、ワードセンス毎に限られた数のサンプルが利用できる場合でも、高いレベルの感覚の区別を正確に捉えることができる。
BERTとその派生種は既存の評価ベンチマークの大部分を支配している。
論文 参考訳(メタデータ) (2020-08-26T15:07:07Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。