Fugu-MT 論文翻訳(概要): CAG: Chunked Augmented Generation for Google Chrome's Built-in Gemini Nano

論文の概要: CAG: Chunked Augmented Generation for Google Chrome's Built-in Gemini Nano

arxiv url: http://arxiv.org/abs/2412.18708v1
Date: Tue, 24 Dec 2024 23:49:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.90081
Title: CAG: Chunked Augmented Generation for Google Chrome's Built-in Gemini Nano
Title（参考訳）: Google Chromeに内蔵されたGemini Nanoが登場!(動画あり)
Authors: Vivek Vellaiyappan Surulimuthu, Aditya Karnam Gururaj Rao,
Abstract要約: Chunked Augmented Generation (CAG)は、Google Chromeに組み込まれたGemini Nanoモデルのコンテキストウィンドウ制限を克服するために設計されたアーキテクチャである。この実装は,大規模なドキュメントやデータセットを直接Chrome内で処理する上で,特に有効であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Chunked Augmented Generation (CAG), an architecture specifically designed to overcome the context window limitations of Google Chrome's built-in Gemini Nano model. While Chrome's integration of Gemini Nano represents a significant advancement in bringing AI capabilities directly to the browser, its restricted context window poses challenges for processing large inputs. CAG addresses this limitation through intelligent input chunking and processing strategies, enabling efficient handling of extensive content while maintaining the model's performance within browser constraints. Our implementation demonstrates particular efficacy in processing large documents and datasets directly within Chrome, making sophisticated AI capabilities accessible through the browser without external API dependencies. Get started now at https://github.com/vivekVells/cag-js.
Abstract（参考訳）: 我々は、Google Chromeに組み込まれたGemini Nanoモデルのコンテキストウィンドウ制限を克服するために設計されたアーキテクチャであるChunked Augmented Generation (CAG)を紹介する。 ChromeのGemini Nanoの統合は、AI機能をブラウザに直接導入する上で大きな進歩を示しているが、その制限されたコンテキストウィンドウは、大きな入力を処理する上での課題を提起している。 CAGはインテリジェントな入力チャンキングと処理戦略を通じてこの制限に対処し、ブラウザの制約内でモデルのパフォーマンスを維持しながら、広範なコンテンツの効率的な処理を可能にする。当社の実装では,大規模なドキュメントやデータセットを直接Chrome内で処理する上で,特に有効性を示している。 https://github.com/vivekVells/cag-js.comから始めよう。

関連論文リスト

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents [35.10813247827737]
本稿では,3つの解釈可能な段階でユーザインタフェースからコード生成を行うモジュール型マルチエージェントフレームワークを提案する。このフレームワークは、エンドツーエンドのブラックボックスメソッドよりも堅牢性、解釈可能性、忠実性を改善する。提案手法は, レイアウト精度, 構造コヒーレンス, コード正確性において, 最先端の性能を実現する。
論文参考訳（メタデータ） (2025-07-30T16:41:21Z)
MobileIE: An Extremely Lightweight and Effective ConvNet for Real-Time Image Enhancement on Mobile Devices [30.034447271429034]
約4Kパラメータを持つ非常に軽量な畳み込みニューラルネットワーク(CNN)フレームワークを導入する。私たちは、最大1,100フレーム毎秒(FPS)のリアルタイムIE推論を初めて達成しました。
論文参考訳（メタデータ） (2025-07-02T15:53:44Z)
OmniGen2: Exploration to Advanced Multimodal Generation [62.58494500322778]
我々はOmniGen2を紹介した。OmniGen2は多種多様な生成タスクに統一されたソリューションを提供するために設計された汎用的でオープンソースな生成モデルである。 OmniGen v1とは異なり、OmniGen2はテキストと画像のモダリティのための2つの異なるデコードパスを備えており、未共有のパラメータと分離された画像トークンを使用する。
論文参考訳（メタデータ） (2025-06-23T17:38:54Z)
GL-Fusion: Rethinking the Combination of Graph Neural Network and Large Language model [63.774726052837266]
グラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を深く統合した新しいアーキテクチャを導入する。本稿では,(1)GNNのメッセージパッシング機能を直接LLMのトランスフォーマー層に組み込む構造対応トランスフォーマー,(2)グラフノードとエッジから圧縮されていない全テキストを処理するグラフテキストクロスアテンション,(3)GNN-LLMツインプレクタ,(3)GNN-LLMツインプレクタ,3)GNNのスケーラブルなワンパス予測とともに,LLMの柔軟な自己回帰生成を実現する。
論文参考訳（メタデータ） (2024-12-08T05:49:58Z)
Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文参考訳（メタデータ） (2024-09-23T18:06:32Z)
SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。 ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents [11.928422245125985]
Open Omniはオープンソースのエンドツーエンドパイプラインベンチマークツールである。音声テキスト、感情検出、検索拡張生成、大規模言語モデルなどの高度な技術を統合している。ローカルとクラウドのデプロイメントをサポートし、データのプライバシを確保し、レイテンシと精度のベンチマークをサポートする。
論文参考訳（メタデータ） (2024-08-06T09:02:53Z)
NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFは、非常に大きなニューラルネットワークの科学的研究を可能にするために、タンデムで機能する技術である。 NNsightは、遅延リモート実行を導入するためにPyTorchを拡張したオープンソースのシステムである。 NDIFは、NNsightリクエストを実行するスケーラブルな推論サービスで、GPUリソースと事前トレーニングされたモデルを共有することができる。
論文参考訳（メタデータ） (2024-07-18T17:59:01Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。 nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文参考訳（メタデータ） (2023-09-16T12:29:25Z)
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。 MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10～20%精度が高いことがわかった。
論文参考訳（メタデータ） (2022-10-06T13:58:03Z)
CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework [40.53707613126131]
クラウド上のデータセンタからエッジあるいはエンドデバイスへと、AI能力のデリバリをシフトする需要が高まっている。しかし、このシフトは、DNNコンピューティング要求とエッジまたはエンドデバイスにおけるコンピューティングパワーの間の大きなギャップによって妨げられている。本稿では、このギャップを埋めるために設計されたDNNの最適化フレームワークであるXGenの設計について述べる。
論文参考訳（メタデータ） (2022-06-21T14:10:22Z)
SOL: Reducing the Maintenance Overhead for Integrating Hardware Support into AI Frameworks [0.7614628596146599]
Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。 NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
論文参考訳（メタデータ） (2022-05-19T08:40:46Z)
Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文参考訳（メタデータ） (2022-03-22T12:26:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。