論文の概要: Into the Void: Understanding Online Health Information in Low-Web Data Languages
- arxiv url: http://arxiv.org/abs/2509.20245v1
- Date: Wed, 24 Sep 2025 15:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.884907
- Title: Into the Void: Understanding Online Health Information in Low-Web Data Languages
- Title(参考訳): Into the Void: 低Webデータ言語におけるオンラインヘルス情報理解
- Authors: Hellina Hailu Nigatu, Nuredin Ali Abdelkadir, Fiker Tewelde, Stevie Chancellor, Daricia Wilkinson,
- Abstract要約: 研究言語としてのチグリニャ語とアムハラ語における健康質問に対する検索結果の特徴について検討した。
我々は、低ウェブデータ言語におけるヘルスクエリーの検索結果が必ずしも検索の言語であるとは限らないことを発見した。
低リソース言語でのクエリから分岐する検索結果は、アルゴリズムの失敗、意図的操作(意図的操作)、あるいはコンテンツ作成者によるアクティブな操作によるものである。
- 参考スコア(独自算出の注目度): 8.999413477506554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data voids--areas of the internet where reliable information is scarce or absent--pose significant challenges to online health information seeking, particularly for users operating in low-web data languages. These voids are increasingly encountered not on traditional search engines alone, but on social media platforms, which have gradually morphed into informal search engines for millions of people. In this paper, we introduce the phenomenon of data horizons: a critical boundary where algorithmic structures begin to degrade the relevance and reliability of search results. Unlike the core of a data void, which is often exploited by bad actors to spread misinformation, the data horizon marks the critical space where systemic factors, such as linguistic underrepresentation, algorithmic amplification, and socio-cultural mismatch, create conditions of informational instability. Focusing on Tigrinya and Amharic as languages of study, we evaluate (1) the common characteristics of search results for health queries, (2) the quality and credibility of health information, and (3) characteristics of search results that diverge from their queries. We find that search results for health queries in low-web data languages may not always be in the language of search and may be dominated by nutritional and religious advice. We show that search results that diverge from their queries in low-resourced languages are due to algorithmic failures, (un)intentional manipulation, or active manipulation by content creators. We use our findings to illustrate how a data horizon manifests under several interacting constraints on information availability.
- Abstract(参考訳): データ無効 - 信頼できる情報が乏しい、あるいは欠落しているインターネットの領域で、特に低ウェブデータ言語で運用しているユーザにとって、オンラインの健康情報を求める上で重要な課題となる。
これらの空白は、従来の検索エンジンだけでなく、ソーシャルメディアプラットフォーム上でもますます遭遇してきている。
本稿では、アルゴリズム構造が検索結果の妥当性と信頼性を低下させ始める重要な境界線であるデータ水平線現象を紹介する。
悪いアクターが誤情報を広めるためにしばしば利用するデータヴォイドのコアとは異なり、データ水平線は言語的不表現、アルゴリズム的増幅、社会文化的ミスマッチといったシステム的要因が情報不安定性の条件を作り出す重要な空間を示す。
研究言語としてのTigrinyaとAmharicに着目し,(1)健康検索における検索結果の共通特性,(2)健康情報の品質と信頼性,(3)質問から分岐した検索結果の特徴について検討した。
低ウェブデータ言語におけるヘルスクエリの検索結果は、必ずしも検索言語に留まらず、栄養学的・宗教的アドバイスによって支配される可能性がある。
低リソース言語でのクエリから分岐する検索結果は、アルゴリズムの失敗、意図的操作(意図的操作)、あるいはコンテンツ作成者によるアクティブな操作によるものである。
情報提供に関するいくつかの制約の下で、データ水平線がどのように現れるかを示すために、我々の研究結果を利用する。
関連論文リスト
- Misspellings in Natural Language Processing: A survey [52.419589623702336]
デジタル通信では ミススペルがユビキタスになりました
我々は科学的な問題としてミススペルの歴史を再構築する。
NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
論文 参考訳(メタデータ) (2025-01-28T10:26:04Z) - Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。
LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。
COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services [5.03606775899383]
KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
論文 参考訳(メタデータ) (2023-10-06T15:19:39Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Integrity and Junkiness Failure Handling for Embedding-based Retrieval:
A Case Study in Social Network Search [26.705196461992845]
埋め込みベースの検索は、eコマースやソーシャルネットワーク検索など、さまざまな検索アプリケーションで使われている。
本稿では,2021年初頭に開始された埋め込み型検索をソーシャルネットワーク検索エンジン上で解析する。
私たちは、それによってもたらされた失敗の2つの主要なカテゴリ、完全性とジャンク性を定義します。
論文 参考訳(メタデータ) (2023-04-18T20:53:47Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Natural language technology and query expansion: issues,
state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。
汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。
それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文 参考訳(メタデータ) (2020-04-23T11:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。