論文の概要: AI Blob! LLM-Driven Recontextualization of Italian Television Archives
- arxiv url: http://arxiv.org/abs/2508.09535v1
- Date: Wed, 13 Aug 2025 06:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.785876
- Title: AI Blob! LLM-Driven Recontextualization of Italian Television Archives
- Title(参考訳): AI Blob! LLMによるイタリアのテレビアーカイブの再コンテキスト化
- Authors: Roberto Balestri,
- Abstract要約: AI Blob!は、1,547のイタリアのテレビビデオのキュレートされたデータセットを、音声を変換し、それを文単位に分割し、これらのセグメントをセマンティッククエリーのためのベクトルデータベースに埋め込むことで処理する。
このプロジェクトは、メディア歴史学とAI駆動の考古学研究において進行中の議論に寄与し、概念的なフレームワークと、さらなる学際的な実験をサポートするために公開されているデータセットの両方を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces AI Blob!, an experimental system designed to explore the potential of semantic cataloging and Large Language Models (LLMs) for the retrieval and recontextualization of archival television footage. Drawing methodological inspiration from Italian television programs such as Blob (RAI Tre, 1989-), AI Blob! integrates automatic speech recognition (ASR), semantic embeddings, and retrieval-augmented generation (RAG) to organize and reinterpret archival content. The system processes a curated dataset of 1,547 Italian television videos by transcribing audio, segmenting it into sentence-level units, and embedding these segments into a vector database for semantic querying. Upon user input of a thematic prompt, the LLM generates a range of linguistically and conceptually related queries, guiding the retrieval and recombination of audiovisual fragments. These fragments are algorithmically selected and structured into narrative sequences producing montages that emulate editorial practices of ironic juxtaposition and thematic coherence. By foregrounding dynamic, content-aware retrieval over static metadata schemas, AI Blob! demonstrates how semantic technologies can facilitate new approaches to archival engagement, enabling novel forms of automated narrative construction and cultural analysis. The project contributes to ongoing debates in media historiography and AI-driven archival research, offering both a conceptual framework and a publicly available dataset to support further interdisciplinary experimentation.
- Abstract(参考訳): 本稿では,AI Blob!について紹介する。これは,アーカイブテレビ映像の検索と再テクスチャ化のための意味的カタログ化とLarge Language Models (LLMs) の可能性を探るための実験システムである。
Blob (RAI Tre, 1989-)、AI Blob!は自動音声認識(ASR)、セマンティック埋め込み、検索拡張生成(RAG)を統合し、アーカイブコンテンツを整理し再解釈する。
このシステムは、1,547のイタリアのテレビビデオのキュレートされたデータセットを、音声を翻訳し、それを文単位に分割し、これらのセグメントをセマンティッククエリーのためのベクトルデータベースに埋め込むことで処理する。
ユーザがテーマのプロンプトを入力すると、LLMは言語的にも概念的にも、さまざまなクエリを生成し、オーディオ視覚的断片の検索と再結合を導く。
これらの断片はアルゴリズムで選択され、皮肉な並置と主題的一貫性の編集をエミュレートするモンタージュを生成する物語列に構成される。
静的メタデータスキーマによる動的でコンテンツ対応の検索をフォアグラウンド化することで、AI Blob!は、セマンティックテクノロジーがアーティファクトエンゲージメントに対する新しいアプローチをどのように促進し、新しい形式の自動物語構築と文化分析を可能にするかを実証する。
このプロジェクトは、メディア歴史学とAI駆動の考古学研究において進行中の議論に寄与し、概念的なフレームワークと、さらなる学際的な実験をサポートするために公開されているデータセットの両方を提供する。
関連論文リスト
- Navigating Speech Recording Collections with AI-Generated Illustrations [0.0]
本稿では,言語およびマルチモーダル生成モデルにおける最近の進歩を生かした,音声アーカイブの新しいナビゲーション手法を提案する。
我々は、インタラクティブなマインドマップと画像生成ツールを用いて、データを構造化形式に整理するWebアプリケーションを用いて、我々のアプローチを実証する。
このシステムはTED-Lium3データセットを用いて実装されており、TED Talksの2000以上の音声書き起こしと音声ファイルで構成されている。
論文 参考訳(メタデータ) (2025-07-05T22:38:10Z) - DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - A Cascaded Architecture for Extractive Summarization of Multimedia Content via Audio-to-Text Alignment [0.0]
本研究は,音声-テキストアライメントによるマルチメディアコンテンツの抽出要約のためのカスケードアーキテクチャを提案する。
Microsoft Azure Speechを使った音声からテキストへの変換と、Whisper、Pegasus、Facebook BART XSumといった高度な抽出要約モデルを統合する。
ROUGEとF1スコアを用いた評価は,従来の要約手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-03-06T13:59:14Z) - A Proposed Large Language Model-Based Smart Search for Archive System [0.0]
本研究では,デジタルアーカイブシステムにおけるスマート検索のための新しいフレームワークを提案する。
Retrieval-Augmented Generation (RAG) アプローチを用いることで、自然言語クエリの処理を可能にする。
本稿では,システムのアーキテクチャと実装について述べるとともに,その性能を4つの実験で評価する。
論文 参考訳(メタデータ) (2025-01-13T02:53:07Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - A New Neural Search and Insights Platform for Navigating and Organizing
AI Research [56.65232007953311]
我々は、古典的なキーワード検索とニューラル検索を組み合わせた新しいプラットフォームであるAI Research Navigatorを導入し、関連する文献を発見し整理する。
本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。
論文 参考訳(メタデータ) (2020-10-30T19:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。