論文の概要: BERT-based model for Vietnamese Fact Verification Dataset
- arxiv url: http://arxiv.org/abs/2503.00356v1
- Date: Sat, 01 Mar 2025 05:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:23.282232
- Title: BERT-based model for Vietnamese Fact Verification Dataset
- Title(参考訳): ベトナムのFact VerificationデータセットのためのBERTモデル
- Authors: Bao Tran, T. N. Khanh, Khang Nguyen Tuong, Thien Dang, Quang Nguyen, Nguyen T. Thinh, Vo T. Hung,
- Abstract要約: 本稿では,ベトナムのデータセットを用いたFact Verificationの課題に対処するアプローチを提案する。
提案手法は,事前学習したPhoBERTとXLM-RoBERTaをネットワークのバックボーンとして利用することにより,大規模言語モデルのパワーを活用する。
特に、Strictの精度は75.11%に達し、ベースラインモデルよりも28.83%改善した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid advancement of information and communication technology has facilitated easier access to information. However, this progress has also necessitated more stringent verification measures to ensure the accuracy of information, particularly within the context of Vietnam. This paper introduces an approach to address the challenges of Fact Verification using the Vietnamese dataset by integrating both sentence selection and classification modules into a unified network architecture. The proposed approach leverages the power of large language models by utilizing pre-trained PhoBERT and XLM-RoBERTa as the backbone of the network. The proposed model was trained on a Vietnamese dataset, named ISE-DSC01, and demonstrated superior performance compared to the baseline model across all three metrics. Notably, we achieved a Strict Accuracy level of 75.11\%, indicating a remarkable 28.83\% improvement over the baseline model.
- Abstract(参考訳): 情報通信技術の急速な進歩により、情報へのアクセスが容易になった。
しかし、この進歩は、特にベトナムの状況において、情報の正確性を確保するために、より厳密な検証措置を必要としている。
本稿では,文選択と分類モジュールを統合ネットワークアーキテクチャに統合することにより,ベトナムのデータセットを用いたFact Verificationの課題に対処するアプローチを提案する。
提案手法は,事前学習したPhoBERTとXLM-RoBERTaをネットワークのバックボーンとして利用することにより,大規模言語モデルのパワーを活用する。
提案したモデルは、ISE-DSC01と呼ばれるベトナムのデータセットでトレーニングされ、3つの指標のベースラインモデルと比較して優れた性能を示した。
特に,Strict Accuracyの75.11\%を達成し,ベースラインモデルよりも28.83\%向上した。
関連論文リスト
- Expanding Vietnamese SentiWordNet to Improve Performance of Vietnamese Sentiment Analysis Models [0.0]
本稿ではベトナム語レビューの感性分析のためのPhoBERT-V2とSentiWordnetを組み合わせた新しいアプローチを提案する。
提案モデルではベトナム語に対してPhoBERT-V2を用いて,ベトナム語の文脈における顕著なBERTモデルのロバストな最適化を行う。
論文 参考訳(メタデータ) (2025-01-15T12:22:37Z) - ViFactCheck: A New Benchmark Dataset and Methods for Multi-domain News Fact-Checking in Vietnamese [1.0395448371001137]
ViFactCheckはベトナムのファクトチェック用に設計された最初のベンチマークデータセットである。
このデータセットには、信頼できるベトナムのオンラインニュースから得られた7,232組の請求-証拠の組み合わせが含まれている。
Gemmaモデルは優れた効果を示し、マクロF1スコアは89.90%であった。
論文 参考訳(メタデータ) (2024-12-19T13:41:59Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - ViCGCN: Graph Convolutional Network with Contextualized Language Models
for Social Media Mining in Vietnamese [0.964547614383472]
不均衡でノイズの多いデータは、ベトナムのソーシャルメディアのテキストで対処する必要がある2つの重要な問題である。
本研究では,文脈型言語モデル(PhoBERT)とグラフベースの手法(グラフ畳み込みネットワーク)に基づく新しいアプローチを提案する。
我々の提案したViCGCNアプローチは、最高の文脈化言語モデルよりも6.21%、4.61%、および2.63%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-09-06T10:51:34Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Vietnamese Hate and Offensive Detection using PhoBERT-CNN and Social
Media Streaming Data [2.5934729511903445]
ベトナムのソーシャルメディアから収集したコメントをクリーンにするための,効率的な事前処理手法を提案する。
PhoBERTモデルとText-CNNモデルを組み合わせた新しいヘイトスピーチ検出(HSD)モデルがベトナムの課題を解決するために提案された。
EDA技術は、不均衡なデータを扱うために応用され、分類モデルの性能を改善する。
論文 参考訳(メタデータ) (2022-06-01T14:33:25Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese [2.7528170226206443]
本研究の目的は、ベトナムの3つのベンチマークデータセットから、ソーシャルメディア上のベトナム語のテキストを分類することである。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
私たちのアンサンブルモデルは、3つのデータセットで最高のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-09-28T04:28:48Z) - SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving
Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。
本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。
3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2020-09-21T22:02:33Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。