論文の概要: SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations
- arxiv url: http://arxiv.org/abs/2511.07405v1
- Date: Mon, 10 Nov 2025 18:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.427122
- Title: SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations
- Title(参考訳): SPOT: オンライン会話における重要な介入を検出するための注釈付きフランス語コーパスとベンチマーク
- Authors: Manon Berriche, Célia Nouri, Chloé Clavel, Jean-Philippe Cointet,
- Abstract要約: SPOTは、停止点という社会学的概念を再現可能なNLPタスクに翻訳する最初の注釈付きコーパスである。
このコーパスには、フランスのFacebookコメントを手動で注釈付けした43,305件が含まれている。
我々は、様々なプロンプト戦略の下で、細調整エンコーダモデル(CamemBERT)と命令調整LLMをベンチマークする。
- 参考スコア(独自算出の注目度): 10.409447852574907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SPOT (Stopping Points in Online Threads), the first annotated corpus translating the sociological concept of stopping point into a reproducible NLP task. Stopping points are ordinary critical interventions that pause or redirect online discussions through a range of forms (irony, subtle doubt or fragmentary arguments) that frameworks like counterspeech or social correction often overlook. We operationalize this concept as a binary classification task and provide reliable annotation guidelines. The corpus contains 43,305 manually annotated French Facebook comments linked to URLs flagged as false information by social media users, enriched with contextual metadata (article, post, parent comment, page or group, and source). We benchmark fine-tuned encoder models (CamemBERT) and instruction-tuned LLMs under various prompting strategies. Results show that fine-tuned encoders outperform prompted LLMs in F1 score by more than 10 percentage points, confirming the importance of supervised learning for emerging non-English social media tasks. Incorporating contextual metadata further improves encoder models F1 scores from 0.75 to 0.78. We release the anonymized dataset, along with the annotation guidelines and code in our code repository, to foster transparency and reproducible research.
- Abstract(参考訳): SPOT (Stopping Points in Online Threads) は,Stop Point という社会学的概念を再現可能な NLP タスクに翻訳する最初の注釈付きコーパスである。
停止ポイント(英語: Stopping Point)とは、反音声や社会的修正のようなフレームワークがしばしば見落としている、様々な形態(匿名、微妙な疑念、断片的な議論)を通じてオンラインの議論を一時停止またはリダイレクトする、通常のクリティカルな介入である。
我々はこの概念をバイナリ分類タスクとして運用し、信頼性の高いガイドラインを提供する。
コーパスには、ソーシャルメディアユーザーによる偽情報としてマークされたURLにリンクされたフランスのFacebookコメント43,305件が含まれており、コンテキストメタデータ(アーティクル、ポスト、親コメント、ページまたはグループ、ソース)が充実している。
我々は、様々なプロンプト戦略の下で、細調整エンコーダモデル(CamemBERT)と命令調整LLMをベンチマークする。
その結果、微調整エンコーダはF1スコアのLLMを10ポイント以上向上させ、新たな非英語ソーシャルメディアタスクにおける教師あり学習の重要性を確認した。
文脈メタデータを組み込むことにより、エンコーダモデルF1のスコアが0.75から0.78に向上する。
匿名化されたデータセットとコードリポジトリのガイドラインとコードをリリースし、透明性と再現可能な研究を促進する。
関連論文リスト
- SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。
そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。
テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文 参考訳(メタデータ) (2025-10-28T14:09:05Z) - Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization [6.057968525653529]
本稿では,ルーリック誘導型,擬似ラベル付き,即時駆動型ゼロショットビデオ要約フレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換される。
推論中、境界シーンはそれぞれの記述に基づいて独立してスコアされる。
論文 参考訳(メタデータ) (2025-10-20T12:54:32Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Adapting Pretrained Language Models for Citation Classification via Self-Supervised Contrastive Learning [13.725832389453911]
サイテーション分類は学術的な分析に欠かせない。
先行研究は、引用分類に基づく微調整事前学習言語モデル(PLM)を示唆している。
我々はこれらの課題を克服するためにPLMに適応する新しいフレームワーク、Citssを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:05:27Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。