論文の概要: TakeLab Retriever: AI-Driven Search Engine for Articles from Croatian News Outlets
- arxiv url: http://arxiv.org/abs/2411.19718v1
- Date: Fri, 29 Nov 2024 14:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:33.142143
- Title: TakeLab Retriever: AI-Driven Search Engine for Articles from Croatian News Outlets
- Title(参考訳): クロアチアのニュース投稿記事のためのAI駆動検索エンジンTakeLab Retriever
- Authors: David Dukić, Marin Petričević, Sven Ćurković, Jan Šnajder,
- Abstract要約: TakeLab Retrieverは、クロアチアのニュースメディアからニュース記事を発見し、収集し、分析するために設計されたAI駆動の検索エンジンである。
クロアチアのオンラインニュースメディアの歴史と現在の状況について、ユニークな視点を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: TakeLab Retriever is an AI-driven search engine designed to discover, collect, and semantically analyze news articles from Croatian news outlets. It offers a unique perspective on the history and current landscape of Croatian online news media, making it an essential tool for researchers seeking to uncover trends, patterns, and correlations that general-purpose search engines cannot provide. TakeLab retriever utilizes cutting-edge natural language processing (NLP) methods, enabling users to sift through articles using named entities, phrases, and topics through the web application. This technical report is divided into two parts: the first explains how TakeLab Retriever is utilized, while the second provides a detailed account of its design. In the second part, we also address the software engineering challenges involved and propose solutions for developing a microservice-based semantic search engine capable of handling over ten million news articles published over the past two decades.
- Abstract(参考訳): TakeLab Retrieverは、クロアチアのニュースメディアからニュース記事を発見し、収集し、分析するために設計されたAI駆動の検索エンジンである。
これはクロアチアのオンラインニュースメディアの歴史と現在の状況に関するユニークな視点を提供しており、汎用検索エンジンが提供できないトレンド、パターン、相関関係を明らかにするために、研究者にとって不可欠なツールとなっている。
TakeLab retrieverは、最先端の自然言語処理(NLP)手法を使用して、ユーザがWebアプリケーションを通じて名前付きエンティティ、フレーズ、トピックを使用して記事を共有できるようにする。
ひとつはTakeLab Retrieverの利用方法、もうひとつは設計に関する詳細な説明である。
第2部では、関連するソフトウェアエンジニアリングの課題にも対処し、過去20年間に発行された1000万以上のニュース記事を扱うことができるマイクロサービスベースのセマンティックサーチエンジンを開発するためのソリューションを提案しています。
関連論文リスト
- Online Digital Investigative Journalism using SociaLens [0.0]
オンラインソースからクエリ特定データを特定し,抽出するための,多目的かつ自律的な調査ジャーナリズムツールである em SociaLens を導入している。
我々は、調査ジャーナリズム、法執行、社会政策計画におけるその利用を構想する。
発展途上国におけるレイプ事件を事例として,SociaLensの機能について考察した。
論文 参考訳(メタデータ) (2024-10-13T07:20:47Z) - Developing Story: Case Studies of Generative AI's Use in Journalism [18.67676679963561]
本研究では、WildChatデータセットを閲覧することで、2つの報道機関によるジャーナリストとAIのインタラクションの研究を行う。
本稿では,ジャーナリストが他の機関からの資料や記事との機密通信などの機密資料をLCMに送付し,記事作成を促す事例を明らかにする。
本稿では,AIの活用に責任を負うものに関するさらなる研究と,ジャーナリストの文脈でLLMを使用するための明確なガイドラインとベストプラクティスの確立を求めている。
論文 参考訳(メタデータ) (2024-06-19T16:58:32Z) - The Use of Generative Search Engines for Knowledge Work and Complex Tasks [26.583783763090732]
Bing Copilotを使うタスクのタイプと複雑さをBing Searchと比較して分析する。
発見は、従来の検索エンジンよりも認知の複雑さが高い知識作業タスクのために、人々が生成検索エンジンを使用していることを示している。
論文 参考訳(メタデータ) (2024-03-19T18:17:46Z) - Crafting Knowledge: Exploring the Creative Mechanisms of Chat-Based
Search Engines [3.5845457075304368]
本研究の目的は,LLMを利用した検索エンジン,特にBing Chatが応答情報ソースを選択するメカニズムを解明することである。
Bing Chatは読みやすく、形式的に構造化されたコンテンツを好むだけでなく、より低いパープレキシティレベルを示す。
本調査では,RAG技術が引用するWebサイトと従来の検索エンジンの上位のWebサイトとの類似性を比較検討した。
論文 参考訳(メタデータ) (2024-02-29T18:20:37Z) - Analysing State-Backed Propaganda Websites: a New Dataset and Linguistic
Study [6.011001795749255]
本稿では,国家支援型偽情報共有サイトであるReliable recent News (rn.world) と WarOnFakes (waronfakes.com) について分析する。
コンテンツ取得手法を記述し、結果の多言語データセット上で、クロスサイト非教師なしトピッククラスタリングを行う。
14,053項目の新たなデータセットを公開し、各言語バージョンに注釈を付け、リンクや画像などのメタデータを追加します。
論文 参考訳(メタデータ) (2023-10-21T15:00:27Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - Collecting Interactive Multi-modal Datasets for Grounded Language
Understanding [66.30648042100123]
自然言語タスクを用いた協調型エンボディエージェントの定式化を行った。
広範かつスケーラブルなデータ収集ツールを開発しました。
対話型基底言語理解のための最初のデータセットを収集した。
論文 参考訳(メタデータ) (2022-11-12T02:36:32Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - A New Neural Search and Insights Platform for Navigating and Organizing
AI Research [56.65232007953311]
我々は、古典的なキーワード検索とニューラル検索を組み合わせた新しいプラットフォームであるAI Research Navigatorを導入し、関連する文献を発見し整理する。
本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。
論文 参考訳(メタデータ) (2020-10-30T19:12:25Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。