論文の概要: Artificial intelligence optical hardware empowers high-resolution
hyperspectral video understanding at 1.2 Tb/s
- arxiv url: http://arxiv.org/abs/2312.10639v1
- Date: Sun, 17 Dec 2023 07:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 15:19:48.905006
- Title: Artificial intelligence optical hardware empowers high-resolution
hyperspectral video understanding at 1.2 Tb/s
- Title(参考訳): 1.2tb/sの高分解能ハイパースペクトルビデオ理解を可能にする人工知能光ハードウェア
- Authors: Maksim Makarenko, Qizhou Wang, Arturo Burguete-Lopez, Silvio Giancola,
Bernard Ghanem, Luca Passone, Andrea Fratalocchi
- Abstract要約: 本研究は,多次元映像理解のためのハードウェアアクセラレーション型集積光電子プラットフォームをリアルタイムに導入する。
この技術プラットフォームは、人工知能ハードウェアと光学的に情報を処理し、最先端のマシンビジョンネットワークを組み合わせる。
このような性能は、類似のスペクトル分解能を持つ最も近い技術の速度を3~4等級で上回る。
- 参考スコア(独自算出の注目度): 53.91923493664551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models, exemplified by GPT technology, are discovering new
horizons in artificial intelligence by executing tasks beyond their designers'
expectations. While the present generation provides fundamental advances in
understanding language and images, the next frontier is video comprehension.
Progress in this area must overcome the 1 Tb/s data rate demanded to grasp
real-time multidimensional video information. This speed limit lies well beyond
the capabilities of the existing generation of hardware, imposing a roadblock
to further advances. This work introduces a hardware-accelerated integrated
optoelectronic platform for multidimensional video understanding in real-time.
The technology platform combines artificial intelligence hardware, processing
information optically, with state-of-the-art machine vision networks, resulting
in a data processing speed of 1.2 Tb/s with hundreds of frequency bands and
megapixel spatial resolution at video rates. Such performance, validated in the
AI tasks of video semantic segmentation and object understanding in indoor and
aerial applications, surpasses the speed of the closest technologies with
similar spectral resolution by three to four orders of magnitude. This platform
opens up new avenues for research in real-time AI video understanding of
multidimensional visual information, helping the empowerment of future
human-machine interactions and cognitive processing developments.
- Abstract(参考訳): GPT技術で実証されたファンデーションモデルは、デザイナの期待を超えるタスクを実行することによって、人工知能の新たな地平線を発見している。
現在の世代は言語と画像の理解において根本的な進歩をもたらすが、次のフロンティアはビデオの理解である。
この領域の進歩は、リアルタイム多次元映像情報を把握するために要求される1Tb/sのデータレートを克服しなければならない。
このスピード制限は、既存の世代のハードウェアの能力を大きく超えるもので、さらなる進歩を妨げている。
本研究は,多次元映像理解のためのハードウェアアクセラレーション型集積光電子プラットフォームをリアルタイムに導入する。
このテクノロジープラットフォームは、人工知能ハードウェア、光学処理情報を最先端のマシンビジョンネットワークと組み合わせることで、数百の周波数帯域とメガピクセルの空間解像度を持つ1.2tb/sのデータ処理速度をビデオレートで実現する。
ビデオセマンティックセグメンテーションとオブジェクト理解のAIタスクにおいて屋内および空中アプリケーションで検証されたこのような性能は、類似のスペクトル分解能を持つ最も近い技術の3~4桁の速度を超える。
このプラットフォームは、多次元視覚情報のリアルタイムaiビデオ理解の研究の新たな道を開き、将来の人間と機械の相互作用と認知的処理の発展のエンパワーメントを支援する。
関連論文リスト
- Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming [26.082980156232086]
生成人工知能(Generative AI)と大規模言語モデル(LLM)は、ビデオ技術の分野を変えつつある。
この論文は、高度にリアルなビデオ制作におけるこれらの技術の革新的利用を強調している。
ビデオストリーミングの分野では、LLMがより効率的でユーザ中心のストリーミング体験にどのように貢献するかを論じる。
論文 参考訳(メタデータ) (2024-01-30T14:37:10Z) - Accelerating Neural Networks for Large Language Models and Graph
Processing with Silicon Photonics [4.471962177124311]
大規模言語モデル(LLM)とグラフ処理は、自然言語処理(NLP)、コンピュータビジョン、グラフ構造化データアプリケーションのための変換技術として登場した。
しかし、これらのモデルの複雑な構造は、従来の電子プラットフォーム上での加速に挑戦する。
本稿では,LLMやグラフニューラルネットワークでグラフデータ処理に使用されるトランスフォーマーニューラルネットワークを高速化する,シリコンフォトニクスに基づくハードウェアアクセラレータについて述べる。
論文 参考訳(メタデータ) (2024-01-12T20:32:38Z) - Neural Rendering and Its Hardware Acceleration: A Review [39.6466512858213]
ニューラルレンダリングはディープラーニングに基づく新しい画像およびビデオ生成手法である。
本稿では,ニューラルレンダリングの技術的意味,主な課題,研究の進歩について概説する。
論文 参考訳(メタデータ) (2024-01-06T07:57:11Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Cross-Layer Design for AI Acceleration with Non-Coherent Optical
Computing [5.188712126001397]
非コヒーレントな光コンピューティングプラットフォームにおいて、層間設計がいかに課題を克服できるかを示す。
非コヒーレント光学コンピューティングは、AIワークロードの光速加速のための有望なアプローチである。
論文 参考訳(メタデータ) (2023-03-22T21:03:40Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Scalable Optical Learning Operator [0.2399911126932526]
提案するフレームワークは,速度を分類することなく既存のシステムのエネルギースケーリング問題を克服する。
数値的および実験的に、デジタル実装に匹敵する精度で複数の異なるタスクを実行する方法の能力を示した。
その結果、マルチモードファイバベースのコンピュータの性能を複製するには、強力なスーパーコンピュータが必要であることが示された。
論文 参考訳(メタデータ) (2020-12-22T23:06:59Z) - Photonics for artificial intelligence and neuromorphic computing [52.77024349608834]
フォトニック集積回路は超高速な人工ニューラルネットワークを可能にした。
フォトニックニューロモルフィックシステムはナノ秒以下のレイテンシを提供する。
これらのシステムは、機械学習と人工知能の需要の増加に対応する可能性がある。
論文 参考訳(メタデータ) (2020-10-30T21:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。