論文の概要: When Surface Form Changes Moderation Decisions: A Paired Study of Code-Mixed Workflow Instability
- arxiv url: http://arxiv.org/abs/2606.05654v2
- Date: Fri, 05 Jun 2026 15:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.316419
- Title: When Surface Form Changes Moderation Decisions: A Paired Study of Code-Mixed Workflow Instability
- Title(参考訳): 表面形状変化によるモデレーション決定:コードミキシングによるワークフロー不安定性の検討
- Authors: Suraj Babu Thimma Krishnaram, Yibo Hu, Karthikeyan Saravanan,
- Abstract要約: ヘイトモデレーションは、清潔な英語入力の分類として評価されることが多いが、デプロイされたシステムは、ALLOW、FLAG、REVIEWなどのアクションにコンテンツをルーティングする必要がある。
我々は、このワークフローが、同じ内容がクリーンイングリッシュとタミル・イングリッシュのコードミックスとして表現されるペア評価設定を用いて、コードミックス入力の下でどのように変化するかを検討する。
- 参考スコア(独自算出の注目度): 4.009293501300832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate moderation is often evaluated as classification on clean English inputs, but deployed systems must route content to actions such as ALLOW, FLAG, or REVIEW. We study how this workflow changes under code-mixed inputs using a paired evaluation setting where the same underlying content is expressed as clean English and Tamil-English code-mix. Under thresholds tuned on clean English development data, code-mixed inputs produce substantial action instability, with a paired clean- to-code-mix decision flip rate of 0.265. The main workflow effects are increased review burden and increased false-flagging of non-hateful content: review rate rises from 0.138 to 0.297 and non-hate false-flag rate rises from 0.069 to 0.104. Tamil-only inputs show stronger degradation overall, suggesting a broader language-coverage limitation rather than the same code-mixed instability pattern. A simple disagreement-based deferral rule reduces automatic errors on stressed inputs, but only by increasing review load. These results show that workflow-level evaluation reveals moderation failures that standard classification summaries can miss.
- Abstract(参考訳): ヘイトモデレーションは、清潔な英語入力の分類として評価されることが多いが、デプロイされたシステムは、ALLOW、FLAG、REVIEWなどのアクションにコンテンツをルーティングする必要がある。
我々は、このワークフローが、同じ内容がクリーンイングリッシュとタミル・イングリッシュのコードミックスとして表現されるペア評価設定を用いて、コードミックス入力の下でどのように変化するかを検討する。
クリーンな英語開発データに基づいて調整されたしきい値の下では、コード混合入力は、ペアのクリーン・トゥ・コード・ミックス決定フリップレート0.265で、相当な動作不安定をもたらす。
主なワークフロー効果は、レビューの負担の増加と、非有害なコンテンツの偽フレーガーの増加である:レビュー率は0.138から0.297に、非ハッシュの偽フレーガーレートは0.069から0.0104に上昇する。
タミル語のみの入力は全体的な劣化が強く、コード混在の不安定性パターンよりも言語被覆の制限がより広いことを示唆している。
単純な不一致に基づくdeferralルールは、ストレスのある入力に対する自動エラーを低減しますが、レビュー負荷の増加によってのみです。
これらの結果は、ワークフローレベルの評価によって、標準分類の要約が見逃しかねないモデレーションの失敗が明らかになることを示している。
関連論文リスト
- When Benchmarks Leak: Inference-Time Decontamination for LLMs [4.071875179293035]
DeconIEPは入力埋め込み空間に小さな有界摂動を適用することにより、評価中に完全に動作する。
入力埋め込み空間に小さな有界摂動を適用することで、評価中に完全に動作する除染フレームワークであるDeconIEPを提案する。
論文 参考訳(メタデータ) (2026-01-27T08:19:40Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - From Flows to Words: Can Zero-/Few-Shot LLMs Detect Network Intrusions? A Grammar-Constrained, Calibrated Evaluation on UNSW-NB15 [0.41998444721319217]
大規模言語モデル(LLM)は自然言語入力を推論できるが、微調整なしでの侵入検出におけるそれらの役割は未だ不明である。
本研究では、各ネットワークフローをコンパクトなテキストレコードに変換し、軽量でドメインにインスパイアされたフラグで拡張することで、プロンプトオンリーなアプローチを評価する。
ゼロショット,命令誘導,スプリットショットを比較して,同一のスプリット下での強い神経ベースライン,精度,精度,リコール,F1,マクロスコアを比較した。
論文 参考訳(メタデータ) (2025-10-18T02:11:50Z) - Improving code-mixed hate detection by native sample mixing: A case study for Hindi-English code-mixed scenario [2.7582789611575897]
本稿では,厳密な実証実験を通じてギャップを埋めようとしている。
我々は、ヒンディー語と英語のコード混合設定をケーススタディとみなす。
コード混合トレーニングセットにネイティブなヘイトサンプルを追加することで、少量であっても、コード混合ヘイト検出のための文学のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2024-05-31T11:43:31Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。