論文の概要: Enhancing SDG-Text Classification with Combinatorial Fusion Analysis and Generative AI
- arxiv url: http://arxiv.org/abs/2602.11168v1
- Date: Mon, 19 Jan 2026 02:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.718953
- Title: Enhancing SDG-Text Classification with Combinatorial Fusion Analysis and Generative AI
- Title(参考訳): 組合せ融合解析と生成AIによるSDGテキスト分類の強化
- Authors: Jingyan Xu, Marcelo L. LaFleur, Christina Schweikert, D. Frank Hsu,
- Abstract要約: 人間の文脈による社会的分析は、テキストデータに大きく依存するため、テキスト分類の恩恵を受けることができる分野である。
生成AIモデルを用いて、モデルトレーニングのための合成データを生成し、その分類タスクにCFAを適用する。
CFAを用いた複数のML/AIモデルからのインテリジェンスと人間の専門家からのインプットを組み合わせることで、補完だけでなく、相互に強化できることが実証された。
- 参考スコア(独自算出の注目度): 3.0862493469454275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: (Natural Language Processing) NLP techniques such as text classification and topic discovery are very useful in many application areas including information retrieval, knowledge discovery, policy formulation, and decision-making. However, it remains a challenging problem in cases where the categories are unavailable, difficult to differentiate, or are interrelated. Social analysis with human context is an area that can benefit from text classification, as it relies substantially on text data. The focus of this paper is to enhance the classification of text according to the UN's Sustainable Development Goals (SDGs) by collecting and combining intelligence from multiple models. Combinatorial Fusion Analysis (CFA), a system fusion paradigm using a rank-score characteristic (RSC) function and cognitive diversity (CD), has been used to enhance classifier methods by combining a set of relatively good and mutually diverse classification models. We use a generative AI model to generate synthetic data for model training and then apply CFA to this classification task. The CFA technique achieves 96.73% performance, outperforming the best individual model. We compare the outcomes with those obtained from human domain experts. It is demonstrated that combining intelligence from multiple ML/AI models using CFA and getting input from human experts can, not only complement, but also enhance each other.
- Abstract(参考訳): (自然言語処理)
テキスト分類やトピック発見などのNLP技術は、情報検索、知識発見、ポリシー定式化、意思決定など、多くの応用分野において非常に有用である。
しかし、カテゴリが利用できない、区別が難しい、あるいは相互に関連がある場合、これは依然として困難な問題である。
人間の文脈による社会的分析は、テキストデータに大きく依存するため、テキスト分類の恩恵を受けることができる分野である。
本研究の目的は、複数のモデルからインテリジェンスを収集し、組み合わせることで、国連の持続可能な開発目標(SDG)に従ってテキストの分類を強化することである。
ランクスコア特性 (RSC) 関数と認知多様性 (CD) を用いたシステム融合パラダイムであるコンビネーションフュージョン分析 (CFA) は, 比較的良質かつ相互に多様な分類モデルを組み合わせることで, 分類法の向上に利用されてきた。
生成AIモデルを用いて、モデルトレーニングのための合成データを生成し、その分類タスクにCFAを適用する。
CFA技術は96.73%のパフォーマンスを達成し、最高の個人モデルを上回っている。
結果と人間ドメインの専門家による結果を比較した。
CFAを用いた複数のML/AIモデルからのインテリジェンスと人間の専門家からのインプットを組み合わせることで、補完だけでなく、相互に強化できることが実証された。
関連論文リスト
- FAID: Fine-Grained AI-Generated Text Detection Using Multi-Task Auxiliary and Multi-Level Contrastive Learning [45.28976933063373]
本稿では,テキストを人間書き,LLM生成,人間-LLM協調テキストの3つのカテゴリに分類する,きめ細かい検出フレームワークFAIDを提案する。
提案手法は,多段階のコントラスト学習とマルチタスクの補助的分類を組み合わせることで,微妙なスタイリスティックな学習法を学習する。
実験の結果,FAIDはいくつかのベースラインより優れており,特に未確認領域や新しいLSMの一般化精度が向上していることがわかった。
論文 参考訳(メタデータ) (2025-05-20T12:23:31Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - Combining Autoregressive and Autoencoder Language Models for Text Classification [1.0878040851638]
CAALM-TCは、自動回帰言語モデルと自動エンコーダ言語モデルを統合することで、テキスト分類を強化する新しい手法である。
4つのベンチマークデータセットの実験結果は、CAALMが既存の手法より一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-11-20T12:49:42Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - An Ensemble Approach to Question Classification: Integrating Electra
Transformer, GloVe, and LSTM [0.0]
本研究では,Electra,GloVe,LSTMモデルの強みを組み合わせた質問分類のための革新的なアンサンブル手法を提案する。
このモデルは、よく認識されたTRECデータセットで厳密にテストされ、これらの異なる技術の統合がより優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T18:14:10Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。