このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230912となっている論文です。

PDF登録状況(公開日: 20230912)

TitleAuthorsAbstract論文公表日・翻訳日
# 高速超大容量定数乗算のマルチプライアレス設計

Multiplierless Design of High-Speed Very Large Constant Multiplications ( http://arxiv.org/abs/2309.05550v2 )

ライセンス: Link先を確認
Levent Aksoy, Debapriya Basu Roy, Malik Imran, Samuel Pagliarini, (参考訳) 暗号アルゴリズムでは、変数に乗じるべき定数は、セキュリティ要件のために非常に大きい。 したがって、そのようなアルゴリズムのハードウェアの複雑さは、大きな定数を扱う設計アーキテクチャに大きく依存する。 本稿では,低複雑かつ高速なアプリケーションに対して,非常に大きな定数乗算を自動生成する,LEIGERという電子設計自動化ツールを提案する。 LEIGERはシフト加算アーキテクチャを利用して3入力演算、すなわちキャリーセーブ加算器(CSA)を使用することができる。 また、2と3のインプット演算を異なる段階で使用するハイブリッド設計アーキテクチャの下で、一定の乗算を生成することもできる。 さらに、圧縮機木を用いて設計アーキテクチャの下での定数乗法を記述することもできる。 ケーススタディとして、暗号アルゴリズムの基本演算である高速モンゴメリー乗算は、提案アーキテクチャで実現された定数乗算ブロックを用いて設計されている。 実験の結果, LEIGERにより設計者は, 非常に大きな定数とモンゴメリー乗算の遅延の領域間のトレードオフを探索することができ, エリア遅延積, 遅延, エネルギー消費値を持つ設計を最近提案したアルゴリズムよりも大幅に向上させることができることがわかった。

In cryptographic algorithms, the constants to be multiplied by a variable can be very large due to security requirements. Thus, the hardware complexity of such algorithms heavily depends on the design architecture handling large constants. In this paper, we introduce an electronic design automation tool, called LEIGER, which can automatically generate the realizations of very large constant multiplications for low-complexity and high-speed applications, targeting the ASIC design platform. LEIGER can utilize the shift-adds architecture and use 3-input operations, i.e., carry-save adders (CSAs), where the number of CSAs is reduced using a prominent optimization algorithm. It can also generate constant multiplications under a hybrid design architecture, where 2-and 3-input operations are used at different stages. Moreover, it can describe constant multiplications under a design architecture using compressor trees. As a case study, high-speed Montgomery multiplication, which is a fundamental operation in cryptographic algorithms, is designed with its constant multiplication block realized under the proposed architectures. Experimental results indicate that LEIGER enables a designer to explore the trade-off between area and delay of the very large constant and Montgomery multiplications and leads to designs with area-delay product, latency, and energy consumption values significantly better than those obtained by a recently proposed algorithm.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# 知識の体系化(SoK)-サイバーセキュリティにおける伝達学習のクロスインパクト--攻撃的、防御的、脅威的知性の観点から

Systemization of Knowledge (SoK)- Cross Impact of Transfer Learning in Cybersecurity: Offensive, Defensive and Threat Intelligence Perspectives ( http://arxiv.org/abs/2309.05889v1 )

ライセンス: Link先を確認
Sofiya Makar, Ali Dehghantanha, Fattane Zarrinkalam, Gautam Srivastava, Abbas Yazdinejad, (参考訳) 近年の文献では、トランスファーラーニングとサイバーセキュリティの間に大きな影響を与えている。 トランスファーラーニングを用いてセキュリティを高めるために多くの研究が行われ、様々なサイバーセキュリティタスクに様々な応用がもたらされた。 しかし、これまでの研究はサイバーセキュリティの特定の分野に焦点を当てていた。 本稿では,幅広い領域を網羅し,現状を把握し,未探索領域に光を当てることにより,サイバーセキュリティにおけるトランスファーラーニング応用の包括的調査を行う。 この調査は、検出精度の向上、トレーニング時間の短縮、データの不均衡の処理、プライバシー保護の強化など、サイバーセキュリティにおける重要な問題に対処する上で、トランスファーラーニングの重要性を強調している。 ラベル付きデータの欠如、異なるデータ分散、プライバシの懸念など、トランスファーラーニングを使用して解決された一般的な問題に関するさらなる洞察が提供される。 本稿では、プライバシー保護モデルの必要性、知識伝達のための自動ツール、ドメイン関連度測定のためのメトリクス、プライバシー保護機構の強化など、コミュニティの注意を要する今後の研究の方向性と課題を明らかにする。 この論文で示された洞察とロードマップは、サイバーセキュリティにおけるトランスファー学習をさらに推進し、新たな脅威に対処し、機密情報を保護するための堅牢で効率的なサイバーセキュリティシステムの開発を促進する。 我々の知る限り、この論文は、トランスファーラーニングの恩恵を受けたサイバーセキュリティのあらゆる分野の包括的分類を提示し、この領域における研究の方向性を形作るための詳細な今後のロードマップを提案する最初のものである。

Recent literature highlights a significant cross-impact between transfer learning and cybersecurity. Many studies have been conducted on using transfer learning to enhance security, leading to various applications in different cybersecurity tasks. However, previous research is focused on specific areas of cybersecurity. This paper presents a comprehensive survey of transfer learning applications in cybersecurity by covering a wide range of domains, identifying current trends, and shedding light on under-explored areas. The survey highlights the significance of transfer learning in addressing critical issues in cybersecurity, such as improving detection accuracy, reducing training time, handling data imbalance, and enhancing privacy preservation. Additional insights are provided on the common problems solved using transfer learning, such as the lack of labeled data, different data distributions, and privacy concerns. The paper identifies future research directions and challenges that require community attention, including the need for privacy-preserving models, automatic tools for knowledge transfer, metrics for measuring domain relatedness, and enhanced privacy preservation mechanisms. The insights and roadmap presented in this paper will guide researchers in further advancing transfer learning in cybersecurity, fostering the development of robust and efficient cybersecurity systems to counter emerging threats and protect sensitive information. To the best of our knowledge, this paper is the first of its kind to present a comprehensive taxonomy of all areas of cybersecurity that benefited from transfer learning and propose a detailed future roadmap to shape the possible research direction in this area.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# 適応型プライバシー損失パラメータを用いた対話型微分プライバシーのコンカレント構成

Concurrent Composition for Interactive Differential Privacy with Adaptive Privacy-Loss Parameters ( http://arxiv.org/abs/2309.05901v1 )

ライセンス: Link先を確認
Samuel Haney, Michael Shoemate, Grace Tian, Salil Vadhan, Andrew Vyrros, Vicki Xu, Wanrong Zhang, (参考訳) 本稿では,適応的に選択されたプライバシ-ロスパラメータを用いた対話機構の同時構成について検討する。 この設定では、相手はクエリを既存の対話メカニズムにインターリーブし、新しいものを作成することができる。 プライバシー損失を$(\epsilon, \delta)$-DP, $f$-DP, R\'enyi DPを一定の順序で測定した場合、非インタラクティブなメカニズムに対する有効なプライバシフィルタとオドメータは、対話機構の同時構成にまで拡張することを示す。 この結果から, 並列性はプライバシ保証に影響を与えないことを示すため, 差分的にプライベートな対話機構を構成する上で, 完全な適応性を実現するための強力な理論的基盤を提供する。 実際にデプロイするための実装も提供しています。

In this paper, we study the concurrent composition of interactive mechanisms with adaptively chosen privacy-loss parameters. In this setting, the adversary can interleave queries to existing interactive mechanisms, as well as create new ones. We prove that every valid privacy filter and odometer for noninteractive mechanisms extends to the concurrent composition of interactive mechanisms if privacy loss is measured using $(\epsilon, \delta)$-DP, $f$-DP, or R\'enyi DP of fixed order. Our results offer strong theoretical foundations for enabling full adaptivity in composing differentially private interactive mechanisms, showing that concurrency does not affect the privacy guarantees. We also provide an implementation for users to deploy in practice.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# DJI拡張Wi-Fiプロトコルにおけるリバースエンジニアリングとドローンハイジャックの事例

Behind The Wings: The Case of Reverse Engineering and Drone Hijacking in DJI Enhanced Wi-Fi Protocol ( http://arxiv.org/abs/2309.05913v1 )

ライセンス: Link先を確認
Derry Pratama, Jaegeun Moon, Agus Mahardika Ari Laksmono, Dongwook Yun, Iqbal Muhammad, Byeonguk Jeong, Janghyun Ji, Howon Kim, (参考訳) 本研究は,制御指令のリバースエンジニアリング解析とその後のハイジャック攻撃の実証に着目し,拡張Wi-Fiプロトコルの検証を行う。 調査では、強化Wi-Fiコントロールコマンドの脆弱性が発見され、ハイジャック攻撃の危険性が指摘されました。 この研究は、手軽で費用対効果の高い市販のWi-Fiルーターでも、そのような攻撃を実行する効果的なツールとして活用できることを証明した。 この脆弱性を説明するために、DJI Mini SEドローンで概念実証リモートハイジャック攻撃が行われ、制御コマンドをインターセプトしてドローンの飛行軌跡を操作した。 本研究の成果は、無人航空機をハイジャックの脅威から守るために、堅牢なセキュリティ対策を実装することの重要性を強調した。 民間ドローンが現在軍用兵器として使われていることを考えると、この研究は民間ドローンのセキュリティ分野におけるさらなる調査と進歩の必要性を浮き彫りにしている。

This research paper entails an examination of the Enhanced Wi-Fi protocol, focusing on its control command reverse-engineering analysis and subsequent demonstration of a hijacking attack. Our investigation discovered vulnerabilities in the Enhanced Wi-Fi control commands, rendering them susceptible to hijacking attacks. Notably, the study established that even readily available and cost-effective commercial off-the-shelf Wi-Fi routers could be leveraged as effective tools for executing such attacks. To illustrate this vulnerability, a proof-of-concept remote hijacking attack was carried out on a DJI Mini SE drone, whereby we intercepted the control commands to manipulate the drone's flight trajectory. The findings of this research emphasize the critical necessity of implementing robust security measures to safeguard unmanned aerial vehicles against potential hijacking threats. Considering that civilian drones are now used as war weapons, the study underscores the urgent need for further exploration and advancement in the domain of civilian drone security.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# 反復関数システムに基づく公開鍵暗号システム

Public key cryptosystems based on Iterated Functions Systems ( http://arxiv.org/abs/2309.05917v1 )

ライセンス: Link先を確認
Jacques Peyriere, Fengxia Liu, Zhiyong Zheng, Zixian Gong, (参考訳) f=(f_0,f_1,\dots,f_{\nu-1})$ を、ある空間~$X$ からそれ自身への 1 対 1 個の関数の集合とし、集合 $f_j(X)$ が非随伴であるとする。 w=w_1w_2\cdots w_k$ がアルファベット $\{0,1,\dots,\nu-1\}$ であるなら、$\Phi_{f,w} = f_{w_1}\circ f_{w_2}\circ \cdots\circ f_{w_k}$ とする。 関数~$F$が与えられたとき、$\Phi_{f,w}$と書くことができれば、~$w$は簡単に回収できる。 ある秘密鍵を使って新しいシステム($g=(g_1,g_2,\dots,g_{\nu-1})$を別のセット~$Y$で取得し、$g_j$のイメージがもはや分離されないようにする。 公開鍵が~$$である暗号システムを定義する。 暗号化されるメッセージはワード~w$で、関連する暗号文は$\Phi_{g,w}$です。 秘密鍵は$\Phi_{f,w}$を$\Phi_{g,w}$から回収することができる。

Let $f=(f_0,f_1,\dots, f_{\nu-1})$ be a collection of one-to-one functions from some space~$X$ into itself such that the sets $f_j(X)$ are disjoint. If $w=w_1w_2\cdots w_k$ is a word on the alphabet $\{0,1,\dots,\nu-1\}$, let $\Phi_{f,w} = f_{w_1}\circ f_{w_2}\circ\cdots\circ f_{w_k}$. Given a function~$F$ of which we know that it can be written as $\Phi_{f,w}$, it is easy to recover~$w$. We give some examples of this situation where everything can be scrambled up by using some private key to get a new system $g=(g_1,g_2,\dots,g_{\nu-1})$ on another set~$Y$ in such a way that the images of the $g_j$ are no longer disjoint. We define a cryptosystem whose public key is~$g$. The message to be encrypted is a word~$w$ and the associated cryptogram is $\Phi_{g,w}$. The private key allows to recover $\Phi_{f,w}$ from $\Phi_{g,w}$.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# あらゆるものをキャッチする:コンセプト・ウォーターマーキングでテキストのインバージョンを守る

Catch You Everything Everywhere: Guarding Textual Inversion via Concept Watermarking ( http://arxiv.org/abs/2309.05940v1 )

ライセンス: Link先を確認
Weitao Feng, Jiyan He, Jie Zhang, Tianwei Zhang, Wenbo Zhou, Weiming Zhang, Nenghai Yu, (参考訳) AIGC(AI-Generated Content)は、テキスト・ツー・イメージタスクのような多くのアプリケーションにおいて、さまざまなプロンプト、すなわち自然言語の異なる記述で高品質な画像を生成することができる。 さらに驚くべきことに、新しいパーソナライゼーション技術は、いくつかの個人イメージを参照として、目に見えない概念を記述することに成功し、価値あるパーソナライズされたコンセプトを共有するための商用プラットフォームもいくつか存在する。 しかし、このような高度な手法は、悪意のあるユーザーがターゲット概念を誤用して、高度に現実的な違法な画像を生成するという深刻な脅威をもたらす。 そのため、悪意のあるユーザーを追跡して責任を負う必要がある。 本稿では、最も人気のある軽量パーソナライズモデルであるテキスト・インバージョン(TI)の保護に焦点を当てる。 そこで本研究では,透かし情報を対象概念に埋め込んで,その概念に基づいて生成された画像から抽出する新しい概念透かしを提案する。 具体的には、ループ内のサンプルと透かしエンコーダと透かしデコーダを共同でトレーニングする。 悪意のあるユーザによって選択される可能性のある,さまざまな拡散サンプリングプロセスに対する大きなレジリエンスを示します。 実際には、コンセプトオーナは、自身のコンセプトを異なる透かし(e, serial number)をプラットフォームにアップロードすることができ、プラットフォームは異なるシリアル番号を、その後の追跡と法医学のために割り当てる。

AIGC (AI-Generated Content) has achieved tremendous success in many applications such as text-to-image tasks, where the model can generate high-quality images with diverse prompts, namely, different descriptions in natural languages. More surprisingly, the emerging personalization techniques even succeed in describing unseen concepts with only a few personal images as references, and there have been some commercial platforms for sharing the valuable personalized concept. However, such an advanced technique also introduces a severe threat, where malicious users can misuse the target concept to generate highly-realistic illegal images. Therefore, it becomes necessary for the platform to trace malicious users and hold them accountable. In this paper, we focus on guarding the most popular lightweight personalization model, ie, Textual Inversion (TI). To achieve it, we propose the novel concept watermarking, where watermark information is embedded into the target concept and then extracted from generated images based on the watermarked concept. Specifically, we jointly train a watermark encoder and a watermark decoder with the sampler in the loop. It shows great resilience to different diffusion sampling processes possibly chosen by malicious users, meanwhile preserving utility for normal use. In practice, the concept owner can upload his concept with different watermarks (ie, serial numbers) to the platform, and the platform allocates different users with different serial numbers for subsequent tracing and forensics.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# ランダムセグメンテーション: パケットサイズベースのサイドチャネル攻撃に対する新しいトラフィック難読化

Random Segmentation: New Traffic Obfuscation against Packet-Size-Based Side-Channel Attacks ( http://arxiv.org/abs/2309.05941v1 )

ライセンス: Link先を確認
Mnassar Alyami, Abdulmajeed Alghamdi, Mohammed Alkhowaiter, Cliff Zou, Yan Solihin, (参考訳) 暗号化されているにもかかわらず、パケットサイズはまだ見えており、オブザーバはIoT(Internet of Things)環境でプライベート情報を推測することができる(IoTデバイス識別など)。 パケットパディングは、データにノイズを加えることに依存するため、パケット長特性を高いデータオーバーヘッドで難なくする。 本稿では,ノイズを伴わずにパケットサイズをランダム化する,よりデータ効率のよい手法を提案する。 大規模なTCPセグメントをランダムな大きさのチャンクに分割することで,ノイズデータを追加せずにパケット長分布を難読化することができる。 TCPソケットを使用したクライアントサーバの実装は、アプリケーションレベルでのアプローチの実現可能性を示します。 ローカルソケットプログラミングパラメータを2つ調整することで,パケットサイズ制御を実現する。 まず、TCP_NODELAYオプションを使って、指定された長さのパケットを送信します。 第二に、送信バッファを小さくして、送信側が受信可能なより多くのデータを出力しないようにし、パケットサイズの制御を無効にします。 我々は4つのIoTデバイスのネットワークトレースに対する防御をシミュレートし、デバイス分類の精度を98%から63%に引き下げた。 一方、実世界のデータ伝送実験では、追加のレイテンシは21%未満で、追加のパケットヘッダーのオーバーヘッドは約5%である。

Despite encryption, the packet size is still visible, enabling observers to infer private information in the Internet of Things (IoT) environment (e.g., IoT device identification). Packet padding obfuscates packet-length characteristics with a high data overhead because it relies on adding noise to the data. This paper proposes a more data-efficient approach that randomizes packet sizes without adding noise. We achieve this by splitting large TCP segments into random-sized chunks; hence, the packet length distribution is obfuscated without adding noise data. Our client-server implementation using TCP sockets demonstrates the feasibility of our approach at the application level. We realize our packet size control by adjusting two local socket-programming parameters. First, we enable the TCP_NODELAY option to send out each packet with our specified length. Second, we downsize the sending buffer to prevent the sender from pushing out more data than can be received, which could disable our control of the packet sizes. We simulate our defense on a network trace of four IoT devices and show a reduction in device classification accuracy from 98% to 63%, close to random guessing. Meanwhile, the real-world data transmission experiments show that the added latency is reasonable, less than 21%, while the added packet header overhead is only about 5%.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# CToMP: 無人システムのためのサイクルタスク指向メモリ保護スキーム

CToMP: A Cycle-task-oriented Memory Protection Scheme for Unmanned Systems ( http://arxiv.org/abs/2309.05978v1 )

ライセンス: Link先を確認
Chengyan Ma, Ning Xi, Di Lu, Yebo Feng, Jianfeng Ma, (参考訳) メモリ破損攻撃(英: Memory corruption attack、MCA)とは、コンピュータシステムの正常な動作を妨害するためにメモリ位置の内容を変更するシステム侵入者の悪意ある行動を指す。 汎用システムとは異なり、無人システムは、サイズ、コスト、性能に制限があるため、完全なセキュリティ保護スキームを展開できない。 無人システムのMCAは特に防御が難しい。 さらに、MCAは無人システムにおいて多様で予測不可能な攻撃インタフェースを持ち、デジタルおよび物理的セクターに深刻な影響を与えている。 本稿では,現在無人システムにあるMCAを一般化し,モデル化し,分類し,ポータブルで汎用的な防衛手法を設計するための基礎を築いた。 異なる攻撃機構により, MCAは主にreturn2libcとreturn2shellcodeの2種類に分類されることがわかった。 return2libcアタックに対処するために、サイクル付き無人システムの不安定な動作をモデル化し、制御フローの改ざんを防ぐためのサイクルタスク指向メモリ保護(CToMP)アプローチを提案する。 return2shellcode攻撃に対する防御として,Shellcodeの実行を防止するためにメモリプールを活用することにより,ランダムなメモリアドレスを持つセキュアなプロセススタックを導入する。 また,リターン2libc 攻撃の新たな変種である ROP 攻撃に対して CTOMP が抵抗する機構についても論じる。 最後に,CUAV V5+ 上で Ardupilot と Crazyflie を用いて CTOMP を実装した。 評価とセキュリティ解析の結果から,提案手法は,フットプリントが低く,システムオーバーヘッドの少ない無人システムにおいて,様々なMCAに耐性があることが示されている。

Memory corruption attacks (MCAs) refer to malicious behaviors of system intruders that modify the contents of a memory location to disrupt the normal operation of computing systems, causing leakage of sensitive data or perturbations to ongoing processes. Unlike general-purpose systems, unmanned systems cannot deploy complete security protection schemes, due to their limitations in size, cost and performance. MCAs in unmanned systems are particularly difficult to defend against. Furthermore, MCAs have diverse and unpredictable attack interfaces in unmanned systems, severely impacting digital and physical sectors. In this paper, we first generalize, model and taxonomize MCAs found in unmanned systems currently, laying the foundation for designing a portable and general defense approach. According to different attack mechanisms, we found that MCAs are mainly categorized into two types--return2libc and return2shellcode. To tackle return2libc attacks, we model the erratic operation of unmanned systems with cycles and then propose a cycle-task-oriented memory protection (CToMP) approach to protect control flows from tampering. To defend against return2shellcode attacks, we introduce a secure process stack with a randomized memory address by leveraging the memory pool to prevent Shellcode from being executed. Moreover, we discuss the mechanism by which CToMP resists the ROP attack, a novel variant of return2libc attacks. Finally, we implement CToMP on CUAV V5+ with Ardupilot and Crazyflie. The evaluation and security analysis results demonstrate that the proposed approach CToMP is resilient to various MCAs in unmanned systems with low footprints and system overhead.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# HoneyEVSE:電気自動車のサプライ機器をエミュレートするHoneypot

HoneyEVSE: An Honeypot to emulate Electric Vehicle Supply Equipments ( http://arxiv.org/abs/2309.06077v1 )

ライセンス: Link先を確認
Massimiliano Baldo, Tommaso Bianchi, Mauro Conti, Alessio Trevisan, Federico Turrin, (参考訳) 気候変動と戦うために、新しい「グリーン」技術が登場し、そのほとんどが電力として電気を使用している。 ソリューションのうち、電気自動車(EV)は将来の輸送システムの中心的な資産である。 EVは、スマートグリッドとEVの間の充電プロセスを管理するために、いわゆるV2Gパラダイムを実現するための複雑なインフラを必要としている。 このパラダイムでは、電気自動車供給装置(EVSE)または充電ステーションは、車両を認証し、充電する電力を供給する最終装置である。 しかしながら、EVSEが公開されインターネットに接続されているため、最近の研究は、物理的な改ざんとリモートアクセスを持つ攻撃者がEVSEをターゲットとして、インフラストラクチャ全体と最終ユーザのセキュリティを公開する方法を示している。 そのため、このようなインフラを確保するための新たな戦略を開発することが重要である。 本稿では,EVSEを模擬した最初のハニーポットであるHoneyEVSEを紹介する。 HoneyEVSEは、EV充電プロセスの忠実度の高さをシミュレートすると同時に、ユーザがダッシュボードを通じてそれを操作できるようにする。 さらに、インターネット上に公開された他の充電カラムに基づいて、ログインおよびデバイス情報ページをエミュレートし、ユーザエンゲージメントを高める。 我々はHoneyEVSEを30日間インターネットに公開し、その能力を評価し、Shodan Honeyscoreで受信したインタラクションを測定した。 結果から,HoneyEVSEは露呈したサービス上で多数のインタラクションを惹きつけながら,Shodan honeyscoreメトリックを回避できることが示唆された。

To fight climate change, new "green" technology are emerging, most of them using electricity as a power source. Among the solutions, Electric Vehicles (EVs) represent a central asset in the future transport system. EVs require a complex infrastructure to enable the so-called Vehicle-to-Grid (V2G) paradigm to manage the charging process between the smart grid and the EV. In this paradigm, the Electric Vehicle Supply Equipment (EVSE), or charging station, is the end device that authenticates the vehicle and delivers the power to charge it. However, since an EVSE is publicly exposed and connected to the Internet, recent works show how an attacker with physical tampering and remote access can target an EVSE, exposing the security of the entire infrastructure and the final user. For this reason, it is important to develop novel strategies to secure such infrastructures. In this paper we present HoneyEVSE, the first honeypot conceived to simulate an EVSE. HoneyEVSE can simulate with high fidelity the EV charging process and, at the same time, enables a user to interact with it through a dashboard. Furthermore, based on other charging columns exposed on the Internet, we emulate the login and device information pages to increase user engagement. We exposed HoneyEVSE for 30 days to the Internet to assess its capability and measured the interaction received with its Shodan Honeyscore. Results show that HoneyEVSE can successfully evade the Shodan honeyscore metric while attracting a high number of interactions on the exposed services.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# 位置情報のプライバシメカニズムの体系的評価

Systematic Evaluation of Geolocation Privacy Mechanisms ( http://arxiv.org/abs/2309.06263v1 )

ライセンス: Link先を確認
Alban Héon, Ryan Sheatsley, Quinn Burke, Blaine Hoak, Eric Pauley, Yohan Beugin, Patrick McDaniel, (参考訳) 位置情報データプライバシは、位置情報ベースサービス(LBS)が生活の重要な部分となっているため、ユーザにとって深刻な関心事となっている。 悪意ある当事者が位置情報データにアクセスして、宗教や政治的見解などのユーザに関する機密情報を学習することは可能である。 位置情報プライバシ保護メカニズム(LPPM)は、ユーザがLBSを使用できるようにしながら、共有データのプライバシを確保するために、以前の作業によって提案されている。 しかし、ユーザがLBSを使用するシナリオに応じて、どのメカニズムを使うべきかを明確には見当たらない。 シナリオは、ユーザがLBS(レポートの頻度、レポートの数)を使用する方法です。 本稿では,LPPMが使用するシナリオに対する感度について検討する。 本稿では,LPPM,アタック,メトリクスの徹底的な組み合わせを考慮し,LPPMを体系的に評価する枠組みを提案する。 本フレームワークを用いて,導入したLPPMを改良した機構を含む選択したLPPMと比較する。 様々なシナリオを評価することで、研究されたメカニズムの有効性(プライバシ、ユーティリティ、ロバスト性)がシナリオに依存していることが分かる。 このシナリオは、特定のアプリケーションに対して難読化メカニズムを選択する際には不可欠であることを示す。

Location data privacy has become a serious concern for users as Location Based Services (LBSs) have become an important part of their life. It is possible for malicious parties having access to geolocation data to learn sensitive information about the user such as religion or political views. Location Privacy Preserving Mechanisms (LPPMs) have been proposed by previous works to ensure the privacy of the shared data while allowing the users to use LBSs. But there is no clear view of which mechanism to use according to the scenario in which the user makes use of a LBS. The scenario is the way the user is using a LBS (frequency of reports, number of reports). In this paper, we study the sensitivity of LPPMs on the scenario on which they are used. We propose a framework to systematically evaluate LPPMs by considering an exhaustive combination of LPPMs, attacks and metrics. Using our framework we compare a selection of LPPMs including an improved mechanism that we introduce. By evaluating over a variety of scenarios, we find that the efficacy (privacy, utility, and robustness) of the studied mechanisms is dependent on the scenario: for example the privacy of Planar Laplace geo-indistinguishability is greatly reduced in a continuous scenario. We show that the scenario is essential to consider when choosing an obfuscation mechanism for a given application.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# レベルアップ: レベルアップ同型暗号を用いたプライベート非インタラクティブ決定木の評価

Level Up: Private Non-Interactive Decision Tree Evaluation using Levelled Homomorphic Encryption ( http://arxiv.org/abs/2309.06496v1 )

ライセンス: Link先を確認
Rasoul Akhavan Mahdavi, Haoyan Ni, Dimitry Linkov, Florian Kerschbaum, (参考訳) マシンラーニング・アズ・ア・サービスの人気が高まるにつれ、プライバシや知的財産権に対する懸念が高まっている。 サービスはプロプライエタリなモデルを保護することを目的としているのに対して、ユーザはサービスを取得するためにプライベート情報を開示することをためらうことが多い。 機械学習モデルとして広く使用されている決定木は、その単純さ、解釈可能性、トレーニングの容易さに好まれる。 このコンテキストにおいて、プライベート決定木評価(PDTE)は、クライアントのプライベート属性に基づいて、プライベート決定木を保持するサーバが予測を提供することを可能にする。 プロトコルは、サーバがクライアントのプライベート属性について何も学ばないようなものです。 同様に、クライアントは予測とハイパーパラメータ以外に、サーバのモデルについて何も学ばない。 本稿では,新しい非対話型PDTEプロトコルであるXXCMP-PDTEとRCC-PDTEの2つの新しい非対話型PDTEプロトコルであるXXCMPとRCCをベースとして提案する。 これらの比較演算子の評価は,提案手法が高精度な数値を効率的に評価できることを実証するものである。 具体的には、RCCは32ビットの数を10ミリ秒未満で比較できる。 提案したPDTEプロトコルを、UCIデータセット上でトレーニングされた決定木上で評価し、その分野における既存の研究結果と比較する。 さらに,RCC-PDTEは1000以上のノードと16ビットの精度を持つ決定木を2秒以内で評価できることを示す。 対照的に、現在の最先端技術は、たった11ビットの精度で、そのような木を評価するのに10秒以上かかります。

As machine learning as a service continues gaining popularity, concerns about privacy and intellectual property arise. Users often hesitate to disclose their private information to obtain a service, while service providers aim to protect their proprietary models. Decision trees, a widely used machine learning model, are favoured for their simplicity, interpretability, and ease of training. In this context, Private Decision Tree Evaluation (PDTE) enables a server holding a private decision tree to provide predictions based on a client's private attributes. The protocol is such that the server learns nothing about the client's private attributes. Similarly, the client learns nothing about the server's model besides the prediction and some hyperparameters. In this paper, we propose two novel non-interactive PDTE protocols, XXCMP-PDTE and RCC-PDTE, based on two new non-interactive comparison protocols, XXCMP and RCC. Our evaluation of these comparison operators demonstrates that our proposed constructions can efficiently evaluate high-precision numbers. Specifically, RCC can compare 32-bit numbers in under 10 milliseconds. We assess our proposed PDTE protocols on decision trees trained over UCI datasets and compare our results with existing work in the field. Moreover, we evaluate synthetic decision trees to showcase scalability, revealing that RCC-PDTE can evaluate a decision tree with over 1000 nodes and 16 bits of precision in under 2 seconds. In contrast, the current state-of-the-art requires over 10 seconds to evaluate such a tree with only 11 bits of precision.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# ポンプ、ダンプ、それから何?暗号通貨のポンプ・ダンプ・スキームの長期的影響

Pump, Dump, and then What? The Long-Term Impact of Cryptocurrency Pump-and-Dump Schemes ( http://arxiv.org/abs/2309.06608v1 )

ライセンス: Link先を確認
Joshua Clough, Matthew Edwards, (参考訳) ポンプ・ダンプ・スキーム(英: pump and dump scheme)は、調整されたアクターがより高い価格で販売するために資産の価格を上昇させる市場操作攻撃の一種である。 強制力の欠如により、これらのスキームは暗号通貨市場に広く浸透しているが、これらのイベントがターゲットとするコインに負の影響が及ぼされることは、まだ完全には理解されていない。 論文では,Telegramチャネルから抽出されたポンプイベントの新たなデータセットに基づいて,ポンプチャネルの異なる戦術と,765枚のコインにまたがるポンプ・ダンプスキームの長期的影響について検討する。 また, 短期的な影響にもかかわらず, ポンプやダンプの長期的影響が対象資産に与える影響は否定的であり, ポンプ発生後1年で平均30%の相対的な価格下落がみられた。

The pump and dump scheme is a form of market manipulation attack in which coordinated actors drive up the price of an asset in order to sell at a higher price. Due in part to a lack of enforcement, these schemes are widespread within the cryptocurrency marketplace, but the negative impact of these events on the coins they target is not yet fully understood. Drawing upon a novel dataset of pump events extracted from Telegram channels, an order of magnitude larger than the nearest comparable dataset in the literature, we explore the differing tactics of pumping channels and the long-term impact of pump and dump schemes across 765 coins. We find that, despite a short-term positive impact in some cases, the long-term impact of pump and dump schemes on the targeted assets is negative, amounting to an average 30% relative drop in price a year after the pump event.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# 複数の変数を持つオンラインアルゴリズムの微分プライバシーの決定

Deciding Differential Privacy of Online Algorithms with Multiple Variables ( http://arxiv.org/abs/2309.06615v1 )

ライセンス: Link先を確認
Rohit Chadha, A. Prasad Sistla, Mahesh Viswanathan, Bishnu Bhusal, (参考訳) 本稿では、入力ストリームを処理し、各入力に対応する出力を生成するオンラインランダム化アルゴリズムの差分プライバシーチェックの問題について考察する。 本稿では,複数の実数値ストレージ変数を許容することにより,Dip Automatica (See arXiv:2104.14519) と呼ばれるオートマトンモデルを一般化する。 DiPオートマトンは、プライバシー予算$\epsilon$に依存するパラメトリックオートマトンである。 オートマトン$A$は、ある$\mathfrak{D}$の場合、$\mathfrak{D}\epsilon$-differentially private for all values of $\epsilon>0$である。 微分プライベートなDiPオートマチックのクラスを正確に同定する。 与えられたDiPオートマトンがこのクラスに属するかどうかを決定する問題はPSPACE完全であることを示す。 我々のPSPACEアルゴリズムは、与えられたオートマトンが微分プライベートであるときに、$\mathfrak{D}$の値も計算する。 アルゴリズムが実装され,その有効性を示す実験結果が提示された。

We consider the problem of checking the differential privacy of online randomized algorithms that process a stream of inputs and produce outputs corresponding to each input. This paper generalizes an automaton model called DiP automata (See arXiv:2104.14519) to describe such algorithms by allowing multiple real-valued storage variables. A DiP automaton is a parametric automaton whose behavior depends on the privacy budget $\epsilon$. An automaton $A$ will be said to be differentially private if, for some $\mathfrak{D}$, the automaton is $\mathfrak{D}\epsilon$-differentially private for all values of $\epsilon>0$. We identify a precise characterization of the class of all differentially private DiP automata. We show that the problem of determining if a given DiP automaton belongs to this class is PSPACE-complete. Our PSPACE algorithm also computes a value for $\mathfrak{D}$ when the given automaton is differentially private. The algorithm has been implemented, and experiments demonstrating its effectiveness are presented.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# 自動モデル選択による階層的非負行列分解による極端クラス不均衡下のマルウェア群の半教師付き分類

Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection ( http://arxiv.org/abs/2309.06643v1 )

ライセンス: Link先を確認
Maksim E. Eren, Manish Bhattarai, Robert J. Joyce, Edward Raff, Charles Nicholas, Boian S. Alexandrov, (参考訳) マルウェア標本が属する家族の同定は、マルウェアの挙動を理解し、緩和戦略を開発する上で不可欠である。 しかし、先行研究によって提案された解決策は、現実的な評価因子が欠如しているため、しばしば実践不可能である。 これらの要因には、クラス不均衡下での学習、新しいマルウェアを識別する能力、生産品質のラベル付きデータのコストが含まれる。 実際には、デプロイされたモデルは、顕著で稀で新しいマルウェアファミリーに直面しています。 同時に、モデルを訓練するための最新のラベル付きマルウェアの大量取得もコストがかかる。 本稿では,これらの問題に対処し,HNMFk分類器(HNMFk Classifier)と呼ばれる新しい階層的半教師付きアルゴリズムを提案する。 本手法は,自動モデル選択による非負行列分解,すなわちクラスタ数の推定に基づく。 HNMFk分類器を用いて、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェア群を分類する。 我々のソリューションは、新しいマルウェアファミリーの識別において有望な結果を生み出し、低量のラベル付きデータを使用する場合のモデルの性能維持を支援する、持続的な予測または拒絶オプションを実行することができる。 EMBER-2018コーパスの388,000点のサンプルを静的解析により,2900点近いマルウェアの集団分類を行った。 実験では、F1スコアが0.80の教師付きベースラインモデルと半教師付きベースラインモデルの両方を上回った。

Identification of the family to which a malware specimen belongs is essential in understanding the behavior of the malware and developing mitigation strategies. Solutions proposed by prior work, however, are often not practicable due to the lack of realistic evaluation factors. These factors include learning under class imbalance, the ability to identify new malware, and the cost of production-quality labeled data. In practice, deployed models face prominent, rare, and new malware families. At the same time, obtaining a large quantity of up-to-date labeled malware for training a model can be expensive. In this paper, we address these problems and propose a novel hierarchical semi-supervised algorithm, which we call the HNMFk Classifier, that can be used in the early stages of the malware family labeling process. Our method is based on non-negative matrix factorization with automatic model selection, that is, with an estimation of the number of clusters. With HNMFk Classifier, we exploit the hierarchical structure of the malware data together with a semi-supervised setup, which enables us to classify malware families under conditions of extreme class imbalance. Our solution can perform abstaining predictions, or rejection option, which yields promising results in the identification of novel malware families and helps with maintaining the performance of the model when a low quantity of labeled data is used. We perform bulk classification of nearly 2,900 both rare and prominent malware families, through static analysis, using nearly 388,000 samples from the EMBER-2018 corpus. In our experiments, we surpass both supervised and semi-supervised baseline models with an F1 score of 0.80.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# ブリッジレスのブロックチェインチェームを渡るアキューダクトアルゴリズム

Arguably Adequate Aqueduct Algorithm: Crossing A Bridge-Less Block-Chain Chasm ( http://arxiv.org/abs/2311.10717v1 )

ライセンス: Link先を確認
Ravi Kashyap, (参考訳) 我々は、複数のネットワークにまたがる預金、償還、投資資産を備えた、クロスチェーンの富管理プラットフォームであることの問題を考察する。 プラットフォーム間の資金フローを促進するためのブロックチェーンブリッジの必要性について論じる。 我々は既存の橋についていくつかの問題を指摘した。 我々は、現在の制約を克服するために最適化されたアルゴリズムを開発し、橋梁の容量を動的に変化させ、それによってネットワーク間で転送される量を削減した。 数値シミュレーションを用いていくつかのシナリオを解説する。

We consider the problem of being a cross-chain wealth management platform with deposits, redemptions and investment assets across multiple networks. We discuss the need for blockchain bridges to facilitates fund flows across platforms. We point out several issues with existing bridges. We develop an algorithm - tailored to overcome current constraints - that dynamically changes the utilization of bridge capacities and hence the amounts to be transferred across networks. We illustrate several scenarios using numerical simulations.
翻訳日:2024-03-18 23:02:51 公開日:2023-09-12
# スパイクニューラルネットワークにおける共学習シナプス遅延、重み付け、適応

Co-learning synaptic delays, weights and adaptation in spiking neural networks ( http://arxiv.org/abs/2311.16112v1 )

ライセンス: Link先を確認
Lucas Deckers, Laurens Van Damme, Ing Jyh Tsang, Werner Van Leekwijck and Steven Latr\'e(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的処理とスパイクベースの計算によって、ニューラルネットワーク(ANN)と区別される。 本稿では、スパイキングニューロンを用いたデータ処理が、他の2つの生物学的にインスパイアされたニューロンの特徴と接続重みを協調学習することによって向上できることを実証する。 1)ニューロン適応過程を記述するパラメータの組と、 2)シナプス伝播遅延。 前者では、スパイクニューロンが過去に基づいてスパイクに特異的に反応する方法を学ぶことができる。 訓練された適応パラメータは、脳内で見られる神経細胞の不均一性をもたらし、また利用可能なスパイクパターンの多様性も向上する。 後者は、時間的に離れたパターンを明示的に関連付けることができる。 シナプス遅延は、活動電位があるニューロンから別のニューロンへ移動するのに必要な時間を反映している。 共同学習した各特徴は、ベースラインSNNよりも改善され、両者の組み合わせは、単純な2階層フィードフォワードネットワークを用いて調査された全ての音声認識データセットに対して、最先端のSNN結果をもたらすことを示す。 我々のSNNは、トレーニング可能なパラメータが少なくても、ニューロモピックデータセット(Spiking Heidelberg DigitsとSpike Speech Commands)でANNより優れています。 35クラスのGoogle Speech Commandsデータセットでは、SNNも同様のサイズのGRUを上回っています。 我々の研究は、脳にインスパイアされたSNNの改善を示し、時間的ダイナミクスの豊富なタスクにおいて、同等の大きさのANNをエクササイズすることができる。

Spiking neural networks (SNN) distinguish themselves from artificial neural networks (ANN) because of their inherent temporal processing and spike-based computations, enabling a power-efficient implementation in neuromorphic hardware. In this paper, we demonstrate that data processing with spiking neurons can be enhanced by co-learning the connection weights with two other biologically inspired neuronal features: 1) a set of parameters describing neuronal adaptation processes and 2) synaptic propagation delays. The former allows the spiking neuron to learn how to specifically react to incoming spikes based on its past. The trained adaptation parameters result in neuronal heterogeneity, which is found in the brain and also leads to a greater variety in available spike patterns. The latter enables to learn to explicitly correlate patterns that are temporally distanced. Synaptic delays reflect the time an action potential requires to travel from one neuron to another. We show that each of the co-learned features separately leads to an improvement over the baseline SNN and that the combination of both leads to state-of-the-art SNN results on all speech recognition datasets investigated with a simple 2-hidden layer feed-forward network. Our SNN outperforms the ANN on the neuromorpic datasets (Spiking Heidelberg Digits and Spiking Speech Commands), even with fewer trainable parameters. On the 35-class Google Speech Commands dataset, our SNN also outperforms a GRU of similar size. Our work presents brain-inspired improvements to SNN that enable them to excel over an equivalent ANN of similar size on tasks with rich temporal dynamics.
翻訳日:2024-01-15 15:23:38 公開日:2023-09-12
# K-ST:PLCのための構造化テキスト言語の形式的実行可能な意味論

K-ST: A Formal Executable Semantics of the Structured Text Language for PLCs ( http://arxiv.org/abs/2202.04076v2 )

ライセンス: Link先を確認
Kun Wang, Jingyi Wang, Christopher M. Poskitt, Xiangxiang Chen, Jun Sun, and Peng Cheng(参考訳) PLC(Programmable Logic Controllers)は、多くの産業システム(製造業や公共インフラなど)におけるプロセス制御の自動化に責任を持つ。 PLCの大部分はStructured Text (ST) などの言語でプログラムされている。 しかし、形式的な意味論の欠如は、ベンダーからベンダーまで異なる翻訳者やコンパイラーの正確性を確認するのを難しくしている。 本研究では,K フレームワークにおける ST の形式的実行的意味論である K-ST を開発する。 IEC 61131-3標準とPLCベンダーマニュアルに関して定義されたK-STは、異なるST実装の正確性と一貫性を評価するために使用できる高レベルの参照セマンティクスである。 我々は、Githubから抽出した509のSTプログラムを実行し、既存の商用コンパイラ(CODESYS、CX-Programmer、GX Works2)と比較することで、K-STを検証する。 次に、オープンソースのOpenPLCプラットフォームの実装を検証するためにK-STを適用し、いくつかのテストプログラムの実行を比較して、コンパイラの5つのバグと9つの機能欠陥を明らかにする。

Programmable Logic Controllers (PLCs) are responsible for automating process control in many industrial systems (e.g. in manufacturing and public infrastructure), and thus it is critical to ensure that they operate correctly and safely. The majority of PLCs are programmed in languages such as Structured Text (ST). However, a lack of formal semantics makes it difficult to ascertain the correctness of their translators and compilers, which vary from vendor-to-vendor. In this work, we develop K-ST, a formal executable semantics for ST in the K framework. Defined with respect to the IEC 61131-3 standard and PLC vendor manuals, K-ST is a high-level reference semantics that can be used to evaluate the correctness and consistency of different ST implementations. We validate K-ST by executing 509 ST programs extracted from Github and comparing the results against existing commercial compilers (i.e., CODESYS, CX-Programmer, and GX Works2). We then apply K-ST to validate the implementation of the open source OpenPLC platform, comparing the executions of several test programs to uncover five bugs and nine functional defects in the compiler.
翻訳日:2023-10-24 15:38:14 公開日:2023-09-12
# LibAM: バイナリ内のサードパーティライブラリを検出するためのエリアマッチングフレームワーク

LibAM: An Area Matching Framework for Detecting Third-party Libraries in Binaries ( http://arxiv.org/abs/2305.04026v3 )

ライセンス: Link先を確認
Siyuan Li, Yongpan Wang, Chaopeng Dong, Shouguo Yang, Hong Li, Hao Sun, Zhe Lang, Zuxin Chen, Weijie Wang, Hongsong Zhu, Limin Sun(参考訳) サードパーティライブラリ(TPL)は、ソフトウェア開発プロセスの迅速化と外部機能を組み込むために、開発者に広く利用されている。 しかし、安全でないTPLの再利用は重大なセキュリティリスクをもたらす可能性がある。 既存の方法では、ターゲットバイナリにTPLコードが存在するかを決定する。 既存の文字列の抽出や関数マッチングを含む手法を用いて、ターゲットバイナリ内のTPLコードの存在を判定する。 しかし、これらの手法は弦の繰り返しや多くの類似した非ホモロジー関数の存在により不満足な結果をもたらすことが多い。 さらに、ターゲットバイナリ内の特定の再利用コードの特定に苦労し、複雑な再利用関係の検出を複雑にし、ダウンストリームタスクを妨げている。 本稿では,TPL の再利用は一般に孤立関数だけでなく,Function Call Graph (FCG) 上のいくつかの隣接関数を含む領域も含むことを観察する。 LibAMは分離された関数をFCG上の関数領域に接続し、これらの関数領域の類似性を比較することでTPLを検出する。 さらに、LibAMはFCGの正確な再利用領域を検出し、下流タスクに実質的な利点を提供する最初のアプローチである。 実験の結果, LibAMは既存のTPL検出方法よりも優れており, 正確な再利用領域を同定してTPL検出結果の解釈可能な証拠を提供することがわかった。 また,iotファームウェアにおける大規模実世界のバイナリにおけるlibamの精度を評価し,これらのデバイスに対する潜在的な脆弱性のリストを生成する。 最後に、IoTファームウェアの検出結果を分析することで、異なるターゲットバイナリが常にTPLと同じコード領域を再利用する傾向があるなど、興味深い結果がいくつか得られます。

Third-party libraries (TPLs) are extensively utilized by developers to expedite the software development process and incorporate external functionalities. Nevertheless, insecure TPL reuse can lead to significant security risks. Existing methods are employed to determine the presence of TPL code in the target binary. Existing methods, which involve extracting strings or conducting function matching, are employed to determine the presence of TPL code in the target binary. However, these methods often yield unsatisfactory results due to the recurrence of strings and the presence of numerous similar non-homologous functions. Additionally, they struggle to identify specific pieces of reused code in the target binary, complicating the detection of complex reuse relationships and impeding downstream tasks. In this paper, we observe that TPL reuse typically involves not just isolated functions but also areas encompassing several adjacent functions on the Function Call Graph (FCG). We introduce LibAM, a novel Area Matching framework that connects isolated functions into function areas on FCG and detects TPLs by comparing the similarity of these function areas. Furthermore, LibAM is the first approach capable of detecting the exact reuse areas on FCG and offering substantial benefits for downstream tasks. Experimental results demonstrate that LibAM outperforms all existing TPL detection methods and provides interpretable evidence for TPL detection results by identifying exact reuse areas. We also evaluate LibAM's accuracy on large-scale, real-world binaries in IoT firmware and generate a list of potential vulnerabilities for these devices. Last but not least, by analyzing the detection results of IoT firmware, we make several interesting findings, such as different target binaries always tend to reuse the same code area of TPL.
翻訳日:2023-10-24 12:03:57 公開日:2023-09-12
# 量子プログラムデバッグにおけるバギーセグメントの配置

Locating Buggy Segments in Quantum Program Debugging ( http://arxiv.org/abs/2309.04266v2 )

ライセンス: Link先を確認
Naoto Sato and Ryota Katsube(参考訳) 量子コンピュータ上で量子プログラムをテストすることでバグが検出されると、その修正のためにその詳細位置を判断したい。 バグを見つけるため、量子プログラムは複数のセグメントに分割され、各セグメントがテストされる。 しかし、セグメントに入力される量子状態を作成するには、そのセグメントに先立って量子コンピュータで全てのセグメントを実行する必要がある。 つまり、各セグメントのテストコストは、その場所に依存する。 また、バギーセグメントの前にすべてのセグメントにバグがないことが確認された場合にのみバギーセグメントを見つけることも可能です。 量子プログラムは、測定結果に基づいて統計的にテストされるため、テスト精度とコストの間にはトレードオフがある。 これらの特徴は量子プログラムに特有のものであり、バグの特定が複雑であるが、研究されていない。 我々は,これらの特徴を効率的にバグを見つけるために考慮すべきことを初めて提案する。 また,これらの特性を考慮したバグ検出手法を最初に提案する。 実験の結果,提案手法を用いることで,実行された量子ゲート数として表されるバグ発見コストを削減できることが示唆された。

When a bug is detected by testing a quantum program on a quantum computer, we want to determine its detailed location to fix it. To locate the bug, the quantum program is divided into several segments and each segment is tested. However, to prepare a quantum state that is input to a segment, it is necessary to execute all the segments ahead of that segment in a quantum computer. This means that the cost of testing each segment depends on its location. We can also locate a buggy segment only if it is confirmed that there are no bugs in all segments ahead of that buggy segment. Since a quantum program is tested statistically on the basis of measurement results, there is a tradeoff between testing accuracy and cost. Although these characteristics are unique to quantum programs and complicate locating bugs, they have not been investigated. We suggest for the first time that these characteristics should be considered to efficiently locate bugs. We are also the first to propose a bug-locating method that takes these characteristics into account. The results from experiments indicate that the bug-locating cost that is represented as the number of executed quantum gates can be reduced with the proposed method compared with naive methods.
翻訳日:2023-10-23 08:23:39 公開日:2023-09-12
# マイクロサービスアーキテクチャにおける変更のリスク評価

Evaluating the Risk of Changes in a Microservices Architecture ( http://arxiv.org/abs/2309.06238v1 )

ライセンス: Link先を確認
Matteo Collina (1), Luca Maraschi (1), Tommaso Pirini 1. Platformatic Inc(参考訳) マイクロサービスベースのシステムでは、信頼性と可用性が、コンシューマにとって最高のクラスエクスペリエンスを保証する重要なコンポーネントです。 マイクロサービスアーキテクチャの重要なメリットのひとつは、サービスを独立してデプロイし、変更の柔軟性を最大化できることです。 しかしながら、これは、すべての変更に関連するリスクを管理するための余分な複雑さをもたらす。 本研究では,システム内の任意のマイクロサービスに対する各変更に関連するリスクを開発チームが決定可能にするアルゴリズムを提案する。

In a microservices-based system, reliability and availability are key components to guarantee the best-in-class experience for the consumers. One of the key advantages of microservices architecture is the ability to independently deploy services, providing maximum change flexibility. However, this introduces an extra complexity in managing the risk associated with every change: any mutation of a service might cause the whole system to fail. In this research, we would propose an algorithm to enable development teams to determine the risk associated with each change to any of the microservices in the system.
翻訳日:2023-10-23 08:12:39 公開日:2023-09-12
# REVIS: Rustのエラー可視化ツール

REVIS: An Error Visualization Tool for Rust ( http://arxiv.org/abs/2309.06640v1 )

ライセンス: Link先を確認
Ruochen Wang and Molly Maclaren and Michael Coblenz(参考訳) Rustは、所有権の概念を使用して、ガベージコレクタを使わずにメモリ安全性を保証するプログラミング言語である。 しかしながら、オーナシップに関連するエラーメッセージの中には、特にバリューライフタイムに依存するような、理解と修正が難しいものもあります。 ディベロッパがライフタイム関連のエラーを修正するのを助けるために、VSCodeエクステンションであるREVISを開発した。 我々は、VSCode拡張の設計と実装、およびRustの学生学習者に対するその効果の予備的な評価について述べる。 また,REVISの有効性を評価するには参加者数が少なかったが,参加者が遭遇したコンパイラエラーの頻度と時間に関するデータを収集した。

Rust is a programming language that uses a concept of ownership to guarantee memory safety without the use of a garbage collector. However, some error messages related to ownership can be difficult to understand and fix, particularly those that depend on value lifetimes. To help developers fix lifetime-related errors, we developed REVIS, a VSCode extension that visualizes lifetime-related Rust compiler errors. We describe the design and implementation of the VSCode extension, along with a preliminary evaluation of its efficacy for student learners of Rust. Although the number of participants was too low to enable evaluation of the efficacy of REVIS, we gathered data regarding the prevalence and time to fix the compiler errors that the participants encountered.
翻訳日:2023-10-23 08:02:49 公開日:2023-09-12
# ゲームエンジンサブシステムの可視化

Visualising Game Engine Subsystem Coupling ( http://arxiv.org/abs/2309.06329v1 )

ライセンス: Link先を確認
Gabriel C. Ullmann, Yann-Ga\"el Gu\'eh\'eneuc, Fabio Petrillo, Nicolas Anquetil, Cristiano Politowski(参考訳) ゲームエンジンはグラフィックレンダリングや入出力デバイス管理などの機能を提供することでビデオゲーム開発をサポートする。 しかし、それらのアーキテクチャはしばしば見過ごされ、統合と拡張を妨げる。 本稿では,10種類のオープンソースゲームエンジンのアーキテクチャモデルを作成するためのアーキテクチャ復元手法を提案する。 私たちはこれらのモデルを使って、以下の質問に答えています。 ゲームエンジンはサブシステム結合パターンを共有しているか? 我々は,低レベルレンダラー,プラットフォーム独立層,リソースマネージャがゲームエンジンCoreに頻繁に結合されていることを観察する。 最も頻繁な結合パターンを特定することで、創発的なゲームエンジンアーキテクチャを説明し、システム理解と保守性を改善するために実践者がどのように使用できるかについて議論する。

Game engines support video game development by providing functionalities such as graphics rendering or input/output device management. However, their architectures are often overlooked, which hinders their integration and extension. In this paper, we use an approach for architecture recovery to create architectural models for 10 open-source game engines. We use these models to answer the following questions: Which subsystems more often couple with one another? Do game engines share subsystem coupling patterns? We observe that the Low-Level Renderer, Platform Independence Layer and Resource Manager are frequently coupled to the game engine Core. By identifying the most frequent coupling patterns, we describe an emergent game engine architecture and discuss how it can be used by practitioners to improve system understanding and maintainability.
翻訳日:2023-10-23 08:02:38 公開日:2023-09-12
# ソフトウェア開発における透明性に対する開発者の認識の理解に向けて--予備的研究

Towards an Understanding of Developers' Perceptions of Transparency in Software Development: A Preliminary Study ( http://arxiv.org/abs/2309.06161v1 )

ライセンス: Link先を確認
Humphrey O. Obie, Juliet Ukwella, Kashumi Madampe, John Grundy, Mojtaba Shahin(参考訳) ソフトウェアアプリケーションは、コミュニケーションやエンターテイメントからビジネスや医療に至るまで、私たちの生活の様々な面でますます重要な役割を担っています。 これらのアプリケーションが普及するにつれて、ソフトウェア開発における人的価値を考えることの重要性が注目されている。 本研究では,人間の価値に対する開発者の認識と経験を,透明性の人的価値に焦点をあてて調査する。 私たちは5人の経験豊富な開発者に対してインタビューを行い、開発者が透明性をどのように認識しているか、透明性違反、報告された透明性違反を修正するプロセスについて、テーマ分析を行った。 開発者は、信頼の構築、説明責任の促進、倫理的プラクティスの育成において透明性が重要であることを認識しています。 開発者は透明性の人間的価値の侵害による否定的な結果を認識し、報告された違反を修正するための体系的なプロセスに従う。 これには調査、根本原因分析、修正行動計画、共同問題解決、テストと検証が含まれる。 これらの予備的な発見は、ソフトウェア開発における透明性の理解に寄与し、倫理的実践を促進するための洞察を提供する。

Software applications play an increasingly critical role in various aspects of our lives, from communication and entertainment to business and healthcare. As these applications become more pervasive, the importance of considering human values in software development has gained significant attention. In this preliminary study, we investigate developers's perceptions and experiences related to human values, with a focus on the human value of transparency. We interviewed five experienced developers and conducted thematic analysis to explore how developers perceive transparency, violations of transparency, and the process of fixing reported violations of transparency. Our findings reveal the significance of transparency as a fundamental value in software development, with developers recognising its importance for building trust, promoting accountability, and fostering ethical practices. Developers recognise the negative consequences of the violation of the human value of transparency and follow a systematic process to fix reported violations. This includes investigation, root cause analysis, corrective action planning, collaborative problem-solving, and testing and verification. These preliminary findings contribute to the understanding of transparency in software development and provide insights for promoting ethical practices.
翻訳日:2023-10-23 08:01:58 公開日:2023-09-12
# ソフトウェアメタ言語のためのオンラインネームベースナビゲーション

Online Name-Based Navigation for Software Meta-languages ( http://arxiv.org/abs/2309.06121v1 )

ライセンス: Link先を確認
Peter D. Mosses(参考訳) ソフトウェア言語の設計と実装は、しばしば様々な難解なメタ言語で書かれた仕様を含んでいる。 言語ワークベンチは一般的に、言語仕様をローカルで閲覧するときに正確な名前ベースのナビゲーションをサポートするが、コードリポジトリで同じ仕様をオンラインで閲覧する場合、そのようなサポートは欠落している。 本稿では,通常のWebブラウザを用いたオンラインリポジトリにおける言語仕様の正確な名前に基づくナビゲーションを支援する手法を提案する。 仕様テキストの冗長なコピーが、名前参照と宣言の間のハイパーリンクによって拡張されるWebサイトである。 言語ワークベンチ内で使用される名前バインディング分析から直接ハイパーリンクを生成することで、ハイパーリンク双子のオンラインナビゲーションは、ローカルナビゲーションと自動的に一致します。 このテクニックは、spoofax言語ワークベンチ向けに実装され、spoofaxメタ言語における様々な言語仕様からハイパーリンクされたツインwebサイトを生成するために使用される。 しかし、この技術の適用性はspoofaxに限らず、他の言語ワークベンチの開発者はおそらく同様のツールを実装して、ワークベンチをインストールしていない人に言語仕様をよりアクセスしやすくすることができるだろう。

Software language design and implementation often involve specifications written in various esoteric meta-languages. Language workbenches generally include support for precise name-based navigation when browsing language specifications locally, but such support is lacking when browsing the same specifications online in code repositories. This paper presents a technique to support precise name-based navigation of language specifications in online repositories using ordinary web browsers. The idea is to generate hyperlinked twins: websites where verbatim copies of specification text are enhanced with hyperlinks between name references and declarations. By generating hyperlinks directly from the name binding analysis used internally in a language workbench, online navigation in hyperlinked twins is automatically consistent with local navigation. The presented technique has been implemented for the Spoofax language workbench, and used to generate hyperlinked twin websites from various language specifications in Spoofax meta-languages. However, the applicability of the technique is not limited to Spoofax, and developers of other language workbenches could presumably implement similar tooling, to make their language specifications more accessible to those who do not have the workbench installed.
翻訳日:2023-10-23 08:01:41 公開日:2023-09-12
# マシンアンラーニングによるバックドア攻撃

Backdoor Attack through Machine Unlearning ( http://arxiv.org/abs/2310.10659v1 )

ライセンス: Link先を確認
Peixin Zhang, Jun Sun, Mingtian Tan, Xinyu Wang(参考訳) 近年、ディープラーニングの研究や応用の急速な発展により、人工知能のセキュリティ問題がますます顕著になっている。 バックドアアタック(backdoor attack)は、攻撃者が埋め込んだトリガによって隠れたバックドアが起動されるディープラーニングモデルの脆弱性を標的とする攻撃である。 本研究では,機械学習に基づく新しいブラックボックスバックドア攻撃を提案する。 攻撃者はまず、毒物や緩和データを含む注意深く設計されたサンプルで訓練セットを補強して「良性」モデルを訓練する。 そして、攻撃者は緩和サンプルの未学習の要求をポストし、モデルの関連データの影響を取り除き、徐々に隠れたバックドアを活性化する。 バックドアは反復的アンラーニングプロセス中に埋め込まれるため、バックドア検出や緩和のための既存の防御手法の計算オーバーヘッドを大幅に増大させる。 この新たなセキュリティ脅威に対処するために、このような悪意ある未学習要求を検知または緩和する2つの方法を提案する。 初歩的なアンラーニングとSISA設定の両方で実験を行う。 実験の結果は 1)我々の攻撃はバックドアをモデルにうまく埋め込むことができ、シャーディングは攻撃の困難を増す。 2) 検出アルゴリズムは緩和サンプルの同定に有効であるが, シャーディングは検出アルゴリズムの有効性を低下させる。

In recent years, the security issues of artificial intelligence have become increasingly prominent due to the rapid development of deep learning research and applications. Backdoor attack is an attack targeting the vulnerability of deep learning models, where hidden backdoors are activated by triggers embedded by the attacker, thereby outputting malicious predictions that may not align with the intended output for a given input. In this work, we propose a novel black-box backdoor attack based on machine unlearning. The attacker first augments the training set with carefully designed samples, including poison and mitigation data, to train a 'benign' model. Then, the attacker posts unlearning requests for the mitigation samples to remove the impact of relevant data on the model, gradually activating the hidden backdoor. Since backdoors are implanted during the iterative unlearning process, it significantly increases the computational overhead of existing defense methods for backdoor detection or mitigation. To address this new security threat, we propose two methods for detecting or mitigating such malicious unlearning requests. We conduct the experiment in both naive unlearning and SISA settings. Experimental results show that: 1) our attack can successfully implant backdoor into the model, and sharding increases the difficulty of attack; 2) our detection algorithms are effective in identifying the mitigation samples, while sharding reduces the effectiveness of our detection algorithms.
翻訳日:2023-10-23 02:33:20 公開日:2023-09-12
# 指紋攻撃: フェデレーション学習におけるクライアントの匿名化

Fingerprint Attack: Client De-Anonymization in Federated Learning ( http://arxiv.org/abs/2310.05960v1 )

ライセンス: Link先を確認
Qiongkai Xu and Trevor Cohn and Olga Ohrimenko(参考訳) 連合学習(federated learning)は、参加者が中央サーバを信頼していない設定で、データ共有を伴わない共同トレーニングを可能にする。 参加者とサーバ間のコミュニケーションがシャッフルによって匿名化され、参加者のアイデンティティをデータから分離することで、プライバシをさらに改善することができる。 本論文は,サーバに送信される勾配に対して,新たな指紋認証攻撃を提案することにより,匿名性を保証するのに適切かどうかを検討することを目的とする。 2つの言語コーパスにおける連合言語モデルの学習実験において,勾配のクラスタリングにより匿名化が容易に破られることを示した。 次に、差分プライバシーによるトレーニングが、指紋攻撃に対する実用的な防御に役立つことを示す。

Federated Learning allows collaborative training without data sharing in settings where participants do not trust the central server and one another. Privacy can be further improved by ensuring that communication between the participants and the server is anonymized through a shuffle; decoupling the participant identity from their data. This paper seeks to examine whether such a defense is adequate to guarantee anonymity, by proposing a novel fingerprinting attack over gradients sent by the participants to the server. We show that clustering of gradients can easily break the anonymization in an empirical study of learning federated language models on two language corpora. We then show that training with differential privacy can provide a practical defense against our fingerprint attack.
翻訳日:2023-10-15 14:26:26 公開日:2023-09-12
# 不均一アンサンブル深層学習による地すべりの自動検出

Automating global landslide detection with heterogeneous ensemble deep-learning classification ( http://arxiv.org/abs/2310.05959v1 )

ライセンス: Link先を確認
Alexandra Jarna Ganer{\o}d, Gabriele Franch, Erin Lindsay, Martina Calovi(参考訳) 気候の変化に伴い、極度の気象現象と地すべりを含む二次的な結果が既に増加しています。 地すべりは道路、鉄道、建物、人間の生活などのインフラを脅かす。 危険に基づく空間計画と早期警戒システムは、地すべりから社会へのリスクを減らすための費用対効果の戦略である。 しかし、どちらも過去の地すべり事件のデータに依存しており、しばしば少ない。 近年,中~高解像度の衛星画像を入力として陸地マッピングに多くの深層学習(DL)モデルが適用されている。 しかし、感度の問題や過剰フィッティング、マッピング精度の低さに苦しむことが多い。 本研究では,Unet,Linknet,PSP-Net,PAN,DeepLabなど,さまざまなセグメンテーションモデルを使用し,それらのパフォーマンスに基づいてアンサンブルモデルを構築することにより,これらの制限に対処する。 アンサンブルモデルはsentinel-1とsentinel-2のバンドを組み合わせることで最も高いf1-score (0.69) を達成し、アンサンブルサイズが20の場合平均で6.87%向上した。 一方、センチネル-2バンドは非常によく演奏され、アンサンブルサイズが20でf1スコアが0.61、アンサンブルサイズが20で14.59%向上した。 この結果から,植生指標dNDVIのみの変化に基づく,堅牢で信頼性の高いモニタリングシステムの構築の可能性が示唆された。

With changing climatic conditions, we are already seeing an increase in extreme weather events and their secondary consequences, including landslides. Landslides threaten infrastructure, including roads, railways, buildings, and human life. Hazard-based spatial planning and early warning systems are cost-effective strategies to reduce the risk to society from landslides. However, these both rely on data from previous landslide events, which is often scarce. Many deep learning (DL) models have recently been applied for landside mapping using medium- to high-resolution satellite images as input. However, they often suffer from sensitivity problems, overfitting, and low mapping accuracy. This study addresses some of these limitations by using a diverse global landslide dataset, using different segmentation models, such as Unet, Linknet, PSP-Net, PAN, and DeepLab and based on their performances, building an ensemble model. The ensemble model achieved the highest F1-score (0.69) when combining both Sentinel-1 and Sentinel-2 bands, with the highest average improvement of 6.87 % when the ensemble size was 20. On the other hand, Sentinel-2 bands only performed very well, with an F1 score of 0.61 when the ensemble size is 20 with an improvement of 14.59 % when the ensemble size is 20. This result shows considerable potential in building a robust and reliable monitoring system based on changes in vegetation index dNDVI only.
翻訳日:2023-10-15 14:26:14 公開日:2023-09-12
# Tカウントの最適化はNPハードである

Optimising T-count is NP-hard ( http://arxiv.org/abs/2310.05958v1 )

ライセンス: Link先を確認
John van de Wetering, Matt Amy(参考訳) 本稿では,ブール整合性は量子回路のTゲートの最適個数が減少し,Tカウントの最適化がNPハードであることを示す。

In this short note we show that Boolean satisfiability reduces to finding the optimal number of T gates of a quantum circuit, and hence that optimising T-count is NP-hard.
翻訳日:2023-10-15 14:25:51 公開日:2023-09-12
# SAF: 医薬品発見における原子の重要度と予測率向上のためのスマートアグリゲーションフレームワーク

SAF: Smart Aggregation Framework for Revealing Atoms Importance Rank and Improving Prediction Rates in Drug Discovery ( http://arxiv.org/abs/2310.03028v1 )

ライセンス: Link先を確認
Ronen Taub, Yonatan Savir(参考訳) 機械学習、特に表現学習は、シリコの大きな化学空間をスクリーニングすることで、創薬を促進する可能性を秘めている。 分子を表現するための成功したアプローチは、それらをグラフとして扱い、グラフニューラルネットワークを利用することである。 このような方法の重要な制限の1つは、原子の数が異なる化合物を表現する必要があることである。 平均化のような一般的な集約演算子は、原子レベルでの情報を失う。 本研究では,温度に類似したハイパーパラメータを持つボルツマン分布を用いて,各原子を非線形に重み付けする新しい凝集法を提案する。 この重み付けアグリゲーションを用いることで、抗生物質活性を予測するためのゴールド標準メッセージパスニューラルネットワークの能力が向上することを示す。 さらに, 温度ハイパーパラメータを変化させることで, 活動予測に重要な原子を滑らかかつ一貫した方法で明らかにし, グラフニューラルネットワークのための新しい制御された注意機構を提供する。 さらに,β-ラクタム系抗生物質の機能群を再結合させることにより,本手法を検証した。 所望の関数に対する原子の重要性をランク付けするアプローチの能力は、ノードレベルでの結果と予測の解釈可能性を提供するため、任意のグラフニューラルネットワーク内で利用することができる。

Machine learning, and representation learning in particular, has the potential to facilitate drug discovery by screening a large chemical space in silico. A successful approach for representing molecules is to treat them as a graph and utilize graph neural networks. One of the key limitations of such methods is the necessity to represent compounds with different numbers of atoms, which requires aggregating the atom's information. Common aggregation operators, such as averaging, result in loss of information at the atom level. In this work, we propose a novel aggregating approach where each atom is weighted non-linearly using the Boltzmann distribution with a hyperparameter analogous to temperature. We show that using this weighted aggregation improves the ability of the gold standard message-passing neural network to predict antibiotic activity. Moreover, by changing the temperature hyperparameter, our approach can reveal the atoms that are important for activity prediction in a smooth and consistent way, thus providing a novel, regulated attention mechanism for graph neural networks. We further validate our method by showing that it recapitulates the functional group in beta-Lactam antibiotics. The ability of our approach to rank the atoms' importance for a desired function can be used within any graph neural network to provide interpretability of the results and predictions at the node level.
翻訳日:2023-10-08 10:59:07 公開日:2023-09-12
# Harmがデータアノテーションにどのように影響するか - アノテーションが有害で有害なコメントを区別する方法を説明する

How We Define Harm Impacts Data Annotations: Explaining How Annotators Distinguish Hateful, Offensive, and Toxic Comments ( http://arxiv.org/abs/2309.15827v1 )

ライセンス: Link先を確認
Angela Sch\"opke-Gonzalez, Siqi Wu, Sagar Kumar, Paul J. Resnick, Libby Hemphill(参考訳) 計算社会科学の研究は、有害なコンテンツを検出するコンテンツモデレーターをサポートする機械学習と自然言語処理の進歩を遂げた。 これらの進歩は、しばしば、有害なコンテンツに対してクラウドワーカーが注釈付けしたトレーニングデータセットに依存している。 これらのアルゴリズムのトレーニングデータを生成するためのアノテーションタスクの指示を設計する際、研究者はしばしば、アルゴリズムが検出するように訓練する有害な概念("hateful"、"offensive"、"toxic"、"racist"、"sexist"など)を扱う。 -交換可能。 本研究では,研究者が「ハーム」を定義する方法が注釈結果に影響を及ぼすかどうかを検討した。 vennダイアグラム、情報ゲイン比較、コンテンツ分析を用いて、アノテーションは「ハテフル」、「攻撃的」、および「有害」の概念を相互に使用しないことを明らかにした。 我々は、調和の定義の特徴と注釈者の個人的特徴が、アノテーションがこれらの用語をどう使うかを説明する。 本研究は,コンテンツモデレーション研究において,有害概念を相互に利用するという一般的な実践を損なう経験的証拠を提供する。 その代わり、研究者は研究目標に基づいて、どの概念に害を与えるかという特定の選択をする必要がある。 研究者は、しばしばリソースに制約があることを認識し、興味のある概念が、既成の有害なコンテンツ検出アルゴリズムが識別する概念と異なる場合に、発見を束縛する情報を提供することも推奨します。 最後に、アルゴリズムプロバイダに対して、その機器がコンテキスト固有のコンテンツ検出目標(例えば、インスツルメンツユーザのフィードバックを暗唱する)に適応できることを推奨する。

Computational social science research has made advances in machine learning and natural language processing that support content moderators in detecting harmful content. These advances often rely on training datasets annotated by crowdworkers for harmful content. In designing instructions for annotation tasks to generate training data for these algorithms, researchers often treat the harm concepts that we train algorithms to detect - 'hateful', 'offensive', 'toxic', 'racist', 'sexist', etc. - as interchangeable. In this work, we studied whether the way that researchers define 'harm' affects annotation outcomes. Using Venn diagrams, information gain comparisons, and content analyses, we reveal that annotators do not use the concepts 'hateful', 'offensive', and 'toxic' interchangeably. We identify that features of harm definitions and annotators' individual characteristics explain much of how annotators use these terms differently. Our results offer empirical evidence discouraging the common practice of using harm concepts interchangeably in content moderation research. Instead, researchers should make specific choices about which harm concepts to analyze based on their research goals. Recognizing that researchers are often resource constrained, we also encourage researchers to provide information to bound their findings when their concepts of interest differ from concepts that off-the-shelf harmful content detection algorithms identify. Finally, we encourage algorithm providers to ensure their instruments can adapt to contextually-specific content detection goals (e.g., soliciting instrument users' feedback).
翻訳日:2023-10-01 12:05:13 公開日:2023-09-12
# 微分インダクションを用いた効率的なグラフィクス表現

Efficient Graphics Representation with Differentiable Indirection ( http://arxiv.org/abs/2309.08387v1 )

ライセンス: Link先を確認
Sayantan Datta, Carl Marshall, Zhao Dong, Zhengqin Li, Derek Nowrouzezahrai(参考訳) これは、グラフィクスパイプライン全体にわたる従来の計算およびデータ操作の効果的な代用として、差別化可能なマルチスケールルックアップテーブルを使用する、新しい学習プリミティブです。 我々は,幾何および画像表現,テクスチャマッピング,シェーディング,放射場表現など,多くのグラフィックタスクにおいて柔軟性を示す。 あらゆる場合において、微分可能な間接は既存のアーキテクチャにシームレスに統合され、迅速に訓練され、多目的かつ効率的な結果をもたらす。

We introduce differentiable indirection -- a novel learned primitive that employs differentiable multi-scale lookup tables as an effective substitute for traditional compute and data operations across the graphics pipeline. We demonstrate its flexibility on a number of graphics tasks, i.e., geometric and image representation, texture mapping, shading, and radiance field representation. In all cases, differentiable indirection seamlessly integrates into existing architectures, trains rapidly, and yields both versatile and efficient results.
翻訳日:2023-09-24 04:23:56 公開日:2023-09-12
# pcn:新しいグラフ構築法とchebyshevグラフ畳み込みを用いたジェットタグ付けへのディープラーニングアプローチ

PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions ( http://arxiv.org/abs/2309.08630v1 )

ライセンス: Link先を確認
Yash Semlani, Mihir Relan, Krithik Ramesh(参考訳) ジェットタグング(Jet tagging)は、高エネルギー物理実験における分類問題であり、粒子衝突からサブ原子粒子、ジェットの衝突した噴霧を識別し、エミッタ粒子にタグ付けすることを目的としている。 ジェットタグングの進歩は、標準模型を超えて新しい物理学を探索する機会を与える。 現在のアプローチでは、複雑な衝突データの隠れたパターンを明らかにするためにディープラーニングを使用している。 しかし、深層学習モデルへの入力としてのジェットの表現は様々であり、しばしば、情報的特徴はモデルから得られない。 本研究では,できるだけ多くの情報をエンコードするジェットのグラフベース表現を提案する。 この表現を最大限に活用するために、ChebConv(ChebConv)を用いたグラフニューラルネットワーク(GNN)であるParticle Chebyshev Network(PCN)を設計する。 ChebConvは、GNNにおける古典グラフ畳み込みの効果的な代替手段として実証され、ジェットタグの分野ではまだ研究されていない。 PCNは既存のタグよりも精度が大幅に向上し、高エネルギー物理実験においてジェットとChebConv層のグラフベース表現の研究への扉を開く。 コードはhttps://github.com/YVSemlani/PCN-Jet-Tagging.comで入手できる。

Jet tagging is a classification problem in high-energy physics experiments that aims to identify the collimated sprays of subatomic particles, jets, from particle collisions and tag them to their emitter particle. Advances in jet tagging present opportunities for searches of new physics beyond the Standard Model. Current approaches use deep learning to uncover hidden patterns in complex collision data. However, the representation of jets as inputs to a deep learning model have been varied, and often, informative features are withheld from models. In this study, we propose a graph-based representation of a jet that encodes the most information possible. To learn best from this representation, we design Particle Chebyshev Network (PCN), a graph neural network (GNN) using Chebyshev graph convolutions (ChebConv). ChebConv has been demonstrated as an effective alternative to classical graph convolutions in GNNs and has yet to be explored in jet tagging. PCN achieves a substantial improvement in accuracy over existing taggers and opens the door to future studies into graph-based representations of jets and ChebConv layers in high-energy physics experiments. Code is available at https://github.com/YVSemlani/PCN-Jet-Tagging.
翻訳日:2023-09-24 04:05:49 公開日:2023-09-12
# エクイティの問題は、誰が米国の量子情報教育プログラムにアクセスできますか?

The question of equity: Who has access to US quantum information education programs? ( http://arxiv.org/abs/2309.08629v1 )

ライセンス: Link先を確認
Josephine C. Meyer, Gina Passante, Bethany R. Wilcox(参考訳) 2018年の国家量子イニシアティブ法(National Quantum Initiative Act of 2018)により、量子情報科学(QIS)のコースワークと学位プログラムが米国の機関に急速に普及している。 しかし、先行研究は、量子労働力教育へのアクセスが不平等に分散しており、学生団体が米国の高等教育全体を示さない大規模研究機関の学生に不釣り合いに利益をもたらすことを示唆している。 2022年秋時点で456の高等教育機関にまたがるQISコースの分布を回帰分析を用いて分析し,特に制度分類,資金提供,地理的分布の軸に沿って,機関間の統計的に重要な格差を同定した。 また,新たに出現するqis学位プログラムの分布を簡潔に分析する。 我々は、教育者、政策立案者、量子労働開発イニシアチブに影響を及ぼすものについて論じる。

Driven in large part by the National Quantum Initiative Act of 2018, quantum information science (QIS) coursework and degree programs are rapidly spreading across US institutions. Yet prior work suggests that access to quantum workforce education is inequitably distributed, disproportionately benefiting students at large research-focused institutions whose student bodies are unrepresentative of US higher education as a whole. We use regression analysis to analyze the distribution of QIS coursework across 456 institutions of higher learning as of fall 2022, identifying statistically significant disparities across institutions in particular along the axes of institution classification, funding, and geographic distribution. We also conduct a brief analysis of the distribution of emerging dedicated QIS degree programs. We conclude with a discussion of implications for educators, policymakers, and quantum workforce development initiatives.
翻訳日:2023-09-24 04:05:24 公開日:2023-09-12
# 大規模言語モデルによるプライバシー保護マスクからの回復

Recovering from Privacy-Preserving Masking with Large Language Models ( http://arxiv.org/abs/2309.08628v1 )

ライセンス: Link先を確認
Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli(参考訳) モデル適応は、プロキシトレーニングデータと受信した実際のユーザデータとの相違を扱うために不可欠である。 効果的に適応するために、ユーザのテキストデータは、通常サーバーまたはローカルデバイスに格納され、下流自然言語処理(NLP)モデルは、そのようなドメイン内のデータを使って直接訓練することができる。 しかし、これは、相手にユーザー情報を暴露するリスクが余分にあるため、プライバシーとセキュリティの懸念を引き起こす可能性がある。 テキストデータ内の識別情報を汎用マーカーに置き換える手法が近年検討されている。 本研究では,大規模言語モデル(llm)を用いてマスキングトークンの代替案を提案し,その効果を下流言語モデリングタスクで評価する。 具体的には,複数の事前学習および微調整 LLM に基づくアプローチを提案し,これらの手法の比較のために様々なデータセットに関する実証的研究を行う。 実験結果から,難読化コーパスでトレーニングしたモデルは,プライバシ保護トークンマスキングを使わずに,元のデータでトレーニングしたモデルと同等のパフォーマンスを達成できることがわかった。

Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.
翻訳日:2023-09-24 04:05:09 公開日:2023-09-12
# 動的トピックモデルの評価

Evaluating Dynamic Topic Models ( http://arxiv.org/abs/2309.08627v1 )

ライセンス: Link先を確認
Charu James, Mayank Nagda, Nooshin Haji Ghassemi, Marius Kloft, Sophie Fellenz(参考訳) 動的トピックモデル(DTM)では,時間経過に伴うトピックの進行を評価する定量的尺度が欠如している。 このギャップを埋めて,各トピックの質の変化を経時的に分析するDTMの新たな評価尺度を提案する。 さらに,トピック品質とモデルの時間的整合性を組み合わせた拡張を提案する。 既存のDTMの合成データやデータに適用することで,提案手法の有用性を実証する。 また,人的評価を行い,提案手法が人的判断とよく相関していることを示す。 本研究の成果は,トピックの変化の特定,DTMの評価,今後の研究の指針となる可能性がある。

There is a lack of quantitative measures to evaluate the progression of topics through time in dynamic topic models (DTMs). Filling this gap, we propose a novel evaluation measure for DTMs that analyzes the changes in the quality of each topic over time. Additionally, we propose an extension combining topic quality with the model's temporal consistency. We demonstrate the utility of the proposed measure by applying it to synthetic data and data from existing DTMs. We also conducted a human evaluation, which indicates that the proposed measure correlates well with human judgment. Our findings may help in identifying changing topics, evaluating different DTMs, and guiding future research in this area.
翻訳日:2023-09-24 04:04:51 公開日:2023-09-12
# データ拡張、半教師付き学習、およびポストアラインニングによるニューラルネットワーク逆テキスト正規化のロバスト性の改善

Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method ( http://arxiv.org/abs/2309.08626v1 )

ライセンス: Link先を確認
Juntae Kim, Minkyu Lim, and Seokjin Hong(参考訳) 逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である。 ASRのダウンストリームタスクの多くは書式に依存しているが、ASRシステムはしばしば音声形式で出力し、製品レベルのASRベースのアプリケーションで堅牢なITNの必要性を強調している。 ニューラルITN法は将来性を示しているが、特にASR生成音声テキストを扱う場合、パフォーマンス上の課題に直面している。 これらの課題は、トレーニングデータとASR生成テキストの間のドメイン外問題から生じる。 そこで本研究では,asr言語文脈エミュレーションによるペアの強化と,言語モデルによる半教師付き学習手法を併用した,asr生成文または音声テキストを用いた直接学習手法を提案する。 さらに,予測不能なエラーを管理するポストアライニング手法を導入し,ITNの信頼性を向上させる。 提案手法は,様々なASRシナリオにおけるITN性能を著しく向上することを示した。

Inverse text normalization (ITN) is crucial for converting spoken-form into written-form, especially in the context of automatic speech recognition (ASR). While most downstream tasks of ASR rely on written-form, ASR systems often output spoken-form, highlighting the necessity for robust ITN in product-level ASR-based applications. Although neural ITN methods have shown promise, they still encounter performance challenges, particularly when dealing with ASR-generated spoken text. These challenges arise from the out-of-domain problem between training data and ASR-generated text. To address this, we propose a direct training approach that utilizes ASR-generated written or spoken text, with pairs augmented through ASR linguistic context emulation and a semi-supervised learning method enhanced by a large language model, respectively. Additionally, we introduce a post-aligning method to manage unpredictable errors, thereby enhancing the reliability of ITN. Our experiments show that our proposed methods remarkably improved ITN performance in various ASR scenarios.
翻訳日:2023-09-24 04:04:41 公開日:2023-09-12
# 米国医学ライセンス試験におけるChatGPT-3.5およびGPT-4の評価

Performance of ChatGPT-3.5 and GPT-4 on the United States Medical Licensing Examination With and Without Distractions ( http://arxiv.org/abs/2309.08625v1 )

ライセンス: Link先を確認
Myriam Safrai and Amos Azaria(参考訳) 大きな言語モデル(llm)は、プロンプトの単語に基づいて応答を構築する予測モデルであるため、小さな会話と無関係な情報は、応答と提案を変更する可能性がある。 そこで本研究では,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討する。 USMLEのステップ3は、関連する医療データのモデルとして使用された。 複数の選択肢とオープンエンドの質問の両方を使っています。 我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。 両方のUSLME質問セットは、元の質問から各文章に小さな会話文が続くパターンで配置された。 チャットGPT 3.5 と 4 は,小言文と無言で両問に回答するよう求められた。 掲示板で確認した医師は、chatgptで回答を分析し、正式な正答と比較した。 分析の結果, 複数質問(72.1\% vs. 68.9\%)とオープン質問(61.5\% vs. 44.3\%; p=0.01)の医療データに小話を追加すると, ChatGPT-3.5の正解能力が損なわれることがわかった。 対照的に、小さな話し言葉は、どちらの質問でもchatgpt-4の能力を損なうことはない(それぞれ83.6\%と66.2\%)。 以上の結果から,ChatGPT-4は以前の3.5版よりも正確で,小話では医用レコメンデーションの提供能力に障害はないと考えられる。 本研究は,カジュアルな会話を含む医師と患者との対話にChatGPTや他のLLMを活用する可能性と限界を理解するための重要な第一歩である。

As Large Language Models (LLMs) are predictive models building their response based on the words in the prompts, there is a risk that small talk and irrelevant information may alter the response and the suggestion given. Therefore, this study aims to investigate the impact of medical data mixed with small talk on the accuracy of medical advice provided by ChatGPT. USMLE step 3 questions were used as a model for relevant medical data. We use both multiple choice and open ended questions. We gathered small talk sentences from human participants using the Mechanical Turk platform. Both sets of USLME questions were arranged in a pattern where each sentence from the original questions was followed by a small talk sentence. ChatGPT 3.5 and 4 were asked to answer both sets of questions with and without the small talk sentences. A board-certified physician analyzed the answers by ChatGPT and compared them to the formal correct answer. The analysis results demonstrate that the ability of ChatGPT-3.5 to answer correctly was impaired when small talk was added to medical data for multiple-choice questions (72.1\% vs. 68.9\%) and open questions (61.5\% vs. 44.3\%; p=0.01), respectively. In contrast, small talk phrases did not impair ChatGPT-4 ability in both types of questions (83.6\% and 66.2\%, respectively). According to these results, ChatGPT-4 seems more accurate than the earlier 3.5 version, and it appears that small talk does not impair its capability to provide medical recommendations. Our results are an important first step in understanding the potential and limitations of utilizing ChatGPT and other LLMs for physician-patient interactions, which include casual conversations.
翻訳日:2023-09-24 04:04:19 公開日:2023-09-12
# 神経可塑性モデリングのためのベイズ縦型テンソル応答回帰

Bayesian longitudinal tensor response regression for modeling neuroplasticity ( http://arxiv.org/abs/2309.10065v1 )

ライセンス: Link先を確認
Suprateek Kundu, Alec Reinhardt, Serena Song, M. Lawson Meadows, Bruce Crosson, Venkatagiri Krishnamurthy(参考訳) 縦型神経画像研究の主な関心は、訪問中の治療やその他の要因によるボクセルレベルの神経可塑性の研究である。 しかし、伝統的なvoxel-wiseメソッドにはいくつかの落とし穴があり、これらのアプローチの精度を損なう可能性がある。 本研究では,空間分布ボクセル間の情報をプールし,共変量調整中に有意な変化を推定する,縦型画像データに対するベイズテンソル応答回帰法を提案する。 提案手法はマルコフ連鎖モンテカルロ(mcmc)サンプリングを用いて実装され,低ランク分解を利用して次元を低減し,係数推定時にボクセルの空間配置を保存する。 また、より正確な推論のために後部分布の形状を尊重する継手信頼領域による特徴選択を可能にする。 グループレベルの推論に加えて、個々のレベルの神経可塑性を推測し、パーソナライズされた疾患や回復軌道の検査を可能にする。 ボクセルの回帰に対する予測と特徴選択という手法の利点は、広範囲なシミュレーション研究を通して強調される。 本研究は, ベースラインでの制御介入または意図的治療を行った被験者群から得られた, タスク機能的MRI画像からなる縦断的失語症データセットに適用し, その後の訪問で追跡した。 分析の結果,脳活動の長期的増加が認められたが,意図的治療は短期的な変化を主に生み出し,どちらも局所的に集中していた。 対照的に、voxel-wiseの回帰は、多重度調整後の有意な神経可塑性の検出に失敗した。

A major interest in longitudinal neuroimaging studies involves investigating voxel-level neuroplasticity due to treatment and other factors across visits. However, traditional voxel-wise methods are beset with several pitfalls, which can compromise the accuracy of these approaches. We propose a novel Bayesian tensor response regression approach for longitudinal imaging data, which pools information across spatially-distributed voxels to infer significant changes while adjusting for covariates. The proposed method, which is implemented using Markov chain Monte Carlo (MCMC) sampling, utilizes low-rank decomposition to reduce dimensionality and preserve spatial configurations of voxels when estimating coefficients. It also enables feature selection via joint credible regions which respect the shape of the posterior distributions for more accurate inference. In addition to group level inferences, the method is able to infer individual-level neuroplasticity, allowing for examination of personalized disease or recovery trajectories. The advantages of the proposed approach in terms of prediction and feature selection over voxel-wise regression are highlighted via extensive simulation studies. Subsequently, we apply the approach to a longitudinal Aphasia dataset consisting of task functional MRI images from a group of subjects who were administered either a control intervention or intention treatment at baseline and were followed up over subsequent visits. Our analysis revealed that while the control therapy showed long-term increases in brain activity, the intention treatment produced predominantly short-term changes, both of which were concentrated in distinct localized regions. In contrast, the voxel-wise regression failed to detect any significant neuroplasticity after multiplicity adjustments, which is biologically implausible and implies lack of power.
翻訳日:2023-09-24 03:53:21 公開日:2023-09-12
# シフトスコアによる分子コンフォメーション生成

Molecular Conformation Generation via Shifting Scores ( http://arxiv.org/abs/2309.09985v1 )

ライセンス: Link先を確認
Zihan Zhou, Ruiying Liu, Chaolong Ying, Ruimao Zhang and Tianshu Yu(参考訳) 分子コンフォメーション生成は、計算化学の重要な側面であり、与えられた分子に対して三次元コンフォメーション幾何学を生成する。 拡散による分子コンフォメーションの生成は、ノージングプロセスを逆転する学習を必要とする。 コンフォーメーションの代わりに原子間距離の拡散はSE(3)等価性を保ち、他の手法よりも優れた性能を示すが、関連する生成モデルは主にヒューリスティックな仮定に基づいている。 これに対応するために,分子の崩壊は,原子間距離の変化の分布がガウス分布からマクスウェル・ボルツマン分布に変化するような,分子の分解が増大する力場をその合成原子にキャストすることと見なすことのできる,新たな分子コンフォメーション生成アプローチを提案する。 対応する生成モデリングは、実現可能な原子間距離幾何学を保証し、時間可逆性を示す。 分子データセットによる実験結果から, 提案したシフト分布の利点を最先端技術と比較した。

Molecular conformation generation, a critical aspect of computational chemistry, involves producing the three-dimensional conformer geometry for a given molecule. Generating molecular conformation via diffusion requires learning to reverse a noising process. Diffusion on inter-atomic distances instead of conformation preserves SE(3)-equivalence and shows superior performance compared to alternative techniques, whereas related generative modelings are predominantly based upon heuristical assumptions. In response to this, we propose a novel molecular conformation generation approach driven by the observation that the disintegration of a molecule can be viewed as casting increasing force fields to its composing atoms, such that the distribution of the change of inter-atomic distance shifts from Gaussian to Maxwell-Boltzmann distribution. The corresponding generative modeling ensures a feasible inter-atomic distance geometry and exhibits time reversibility. Experimental results on molecular datasets demonstrate the advantages of the proposed shifting distribution compared to the state-of-the-art.
翻訳日:2023-09-24 03:52:20 公開日:2023-09-12
# bdec:脳深部組み込みクラスタリングモデル

BDEC:Brain Deep Embedded Clustering model ( http://arxiv.org/abs/2309.09984v1 )

ライセンス: Link先を確認
Xiaoxiao Ma, Chunzhi Yi, Zhicai Zhong, Hui Zhou, Baichun Wei, Haiqi Zhu and Feng Jiang(参考訳) 神経科学の脳ネットワーク解析の重要な前提は、大脳皮質を機能的に均質な領域に分割することに成功したことである。 静止状態の機能的磁気共鳴画像(rs-fMRI)は脳の自発活動を捉え、皮質のパーセレーションの可能性を秘めている。 従来のパーセレーション法は、主に局所勾配、大域的類似性、あるいは両者の組み合わせを利用する3つの群に大別することができる。 K平均」や「スペクトルクラスタリング」のような伝統的なクラスタリングアルゴリズムは、再現性やパーセレーションの生物学的解釈に影響を与える可能性がある;領域成長ベースの手法は、大規模な脳における機能的ホモジニティの表現に影響を与える;確率的グラフモデルに基づくパーセレーション法は、モデル仮定バイアスを必然的に導入する。 本研究では,深層学習の頑健なデータ適合能力を生かした,BDECと呼ばれる仮定自由モデルを開発する。 我々の知る限りでは、rs-fMRIを用いたパーセレーションにディープラーニングアルゴリズムを用いた最初の研究である。 9種類の脳のパーセレーション法と比較することにより,BDECモデルは種々の機能的均一性指標において有意に優れた性能を示す。 さらに, 妥当性, ネットワーク分析, タスクの均一性, 一般化能力の観点から, 良好な結果を示す。 以上の結果から,BDECパーセレーションは脳の機能的特徴を捉え,fMRIデータの次元化における将来的なボクセル脳ネットワーク解析の可能性を示唆している。

An essential premise for neuroscience brain network analysis is the successful segmentation of the cerebral cortex into functionally homogeneous regions. Resting-state functional magnetic resonance imaging (rs-fMRI), capturing the spontaneous activities of the brain, provides the potential for cortical parcellation. Previous parcellation methods can be roughly categorized into three groups, mainly employing either local gradient, global similarity, or a combination of both. The traditional clustering algorithms, such as "K-means" and "Spectral clustering" may affect the reproducibility or the biological interpretation of parcellations; The region growing-based methods influence the expression of functional homogeneity in the brain at a large scale; The parcellation method based on probabilistic graph models inevitably introduce model assumption biases. In this work, we develop an assumption-free model called as BDEC, which leverages the robust data fitting capability of deep learning. To the best of our knowledge, this is the first study that uses deep learning algorithm for rs-fMRI-based parcellation. By comparing with nine commonly used brain parcellation methods, the BDEC model demonstrates significantly superior performance in various functional homogeneity indicators. Furthermore, it exhibits favorable results in terms of validity, network analysis, task homogeneity, and generalization capability. These results suggest that the BDEC parcellation captures the functional characteristics of the brain and holds promise for future voxel-wise brain network analysis in the dimensionality reduction of fMRI data.
翻訳日:2023-09-24 03:52:04 公開日:2023-09-12
# 都市サービスとリーダーシップと意思決定のためのダッシュボードのための重要指標に関するデータ分析

Data analytics on key indicators for the city's urban services and dashboards for leadership and decision-making ( http://arxiv.org/abs/2212.03081v4 )

ライセンス: Link先を確認
Md Aminul Islam (1), Md Abu Sufian (2) ((1) Oxford Brookes University, UK, (2) Data Analysis for Business Intelligence, University of Leicester)(参考訳) 都市は人間の居住地を進化させ続けている。 都市はますます都市化され、計画立案者、意思決定者、そしてコミュニティは適応する準備ができなければならない。 データは行政にとって重要な資源である。 いくつかの技術は、都市データの収集、処理、可視化を支援し、都市システムの動作の解釈と理解を支援する。 データ分析とスマートシティの関係は、両者への関心が高まるにつれて、近年明らかになってきた。 プランナーや住民を含む相互接続システムの高度なネットワークは、スマートシティとして知られている。 データ分析は、スマートシティのコンテキストでデータ駆動意思決定をサポートする可能性がある。 都市管理者も住民も、都市ダッシュボードへの関心が高まっている。 ダッシュボードは地域のパフォーマンスに関する情報を収集し、表示し、分析し、提供することで、スマートシティの開発を支援する。 意思決定プロセスを支援し,都市のパフォーマンスを向上させるために,都市課題に関する正確かつ代表的な情報を取得するためのダッシュボードの活用方法を検討する。 この章は、都市のサービスとリーダーシップと意思決定のためのダッシュボードの重要な指標に関するデータ分析をまとめている。 統合された情報、プランナーや意思決定者に関連するリアルタイムデータストリーム、住民の日々の生活、そしてユーザインタラクションや嗜好を評価する方法としてのサイト分析の1つが、都市ダッシュボードの提案である。 キーワード:ダッシュボード、データ分析、スマートシティ、サステナビリティ、スマートシティ、都市ダッシュボード、都市サービス、意思決定、相互接続システム、リアルタイムデータストリーム、キーインジケータ、都市課題。

Cities are continuously evolving human settlements. Our cities are under strain in an increasingly urbanized world, and planners, decision-makers, and communities must be ready to adapt. Data is an important resource for municipal administration. Some technologies aid in the collection, processing, and visualization of urban data, assisting in the interpretation and comprehension of how urban systems operate. The relationship between data analytics and smart cities has come to light in recent years as interest in both has grown. A sophisticated network of interconnected systems, including planners and inhabitants, is what is known as a smart city. Data analysis has the potential to support data-driven decision-making in the context of smart cities. Both urban managers and residents are becoming more interested in city dashboards. Dashboards may collect, display, analyze, and provide information on regional performance to help smart cities development have sustainability. In order to assist decision-making processes and enhance the performance of cities, we examine how dashboards might be used to acquire accurate and representative information regarding urban challenges. This chapter culminates Data Analytics on key indicators for the city's urban services and dashboards for leadership and decision-making. A single web page with consolidated information, real-time data streams pertinent to planners and decision-makers as well as residents' everyday lives, and site analytics as a method to assess user interactions and preferences are among the proposals for urban dashboards. Keywords: -Dashboard, data analytics, smart city, sustainability, Smart cities, City dashboards, Urban services, Decision-making, Interconnected systems, Real-time data streams, Key indicators, and Urban challenges.
翻訳日:2023-09-15 19:42:24 公開日:2023-09-12
# 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方

Reward is not Necessary: How to Create a Compositional Self-Preserving Agent for Life-Long Learning ( http://arxiv.org/abs/2211.10851v3 )

ライセンス: Link先を確認
Thomas J. Ringstrom(参考訳) 強化学習は、報酬の最大化と罰の回避が、目標指向の行動を説明する中心であると考えている。 しかし、生命体は、世界の状態と状態-ベクトル遷移ダイナミクスという、世界の構造に関する様々な側面を学ぶ必要がある。 エージェントが新しい知識を取り入れるにつれて、状態の組み合わせの数は指数関数的に増大し、与えられた状態の組み合わせに対して定義された既存の報酬やコストの明らかな重み付けは存在せず、そのような重み付けは、エージェントの経験よりも前に善と悪の組み合わせに関する情報をエンコードする必要がある。 したがって、我々は大きな状態空間における行動とモチベーションのより自然主義的な説明を開発する必要がある。 エンパワーメントの本質的動機付け指標のみを使うことは可能であり、これはトランジッション演算子の下で多くの可能な未来を実現するエージェントの能力を測定する。 演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントのスケールを提案する。 これらの方程式は、初期状態とエージェントが最終状態と目標を達成する時間にポリシーを開始する時刻をマッピングする構成的階層的状態時間遷移作用素である。 これらの関数は階層演算子であるため、階層的なエンパワーメント測度を定義することができる。 エージェントは、その階層的なエンパワーメントゲインを最大化するために、遠くの州や時間へのプランを最適化し、その内部構造(生理状態)と外部環境(世界構造と空間状態)とのより好ましい結合をもたらす目標を発見できる。 したがって、生涯のエージェントは、主に構成性とエンパワーメントの原則によってアニメーションされ、報酬の最大化を繰り返すことなく、自身の構造的完全性の成長と維持を自認できる。

Reinforcement Learning views the maximization of rewards and avoidance of punishments as central to explaining goal-directed behavior. However, over a life, organisms will need to learn about many different aspects of the world's structure: the states of the world and state-vector transition dynamics. The number of combinations of states grows exponentially as an agent incorporates new knowledge, and there is no obvious weighted combination of pre-existing rewards or costs defined for a given combination of states, as such a weighting would need to encode information about good and bad combinations prior to an agent's experience in the world. Therefore, we must develop more naturalistic accounts of behavior and motivation in large state-spaces. We show that it is possible to use only the intrinsic motivation metric of empowerment, which measures the agent's capacity to realize many possible futures under a transition operator. We propose to scale empowerment to hierarchical state-spaces by using Operator Bellman Equations. These equations produce state-time feasibility functions, which are compositional hierarchical state-time transition operators that map an initial state and time when an agent begins a policy to the final states and times of completing a goal. Because these functions are hierarchical operators we can define hierarchical empowerment measures on them. An agent can then optimize plans to distant states and times to maximize its hierarchical empowerment-gain, allowing it to discover goals that bring about a more favorable coupling of its internal structure (physiological states) to its external environment (world structure & spatial state). Life-long agents could therefore be primarily animated by principles of compositionality and empowerment, exhibiting self-concern for the growth & maintenance of their own structural integrity without recourse to reward-maximization.
翻訳日:2023-09-15 19:41:57 公開日:2023-09-12
# Bonsaiアルゴリズム:自作のフェルミオン・ツー・キュービットマッピング

The Bonsai algorithm: grow your own fermion-to-qubit mapping ( http://arxiv.org/abs/2212.09731v2 )

ライセンス: Link先を確認
Aaron Miller, Zolt\'an Zimbor\'as, Stefan Knecht, Sabrina Maniscalco, Guillermo Garc\'ia-P\'erez(参考訳) フェルミオン-量子ビットマッピングは、電子構造計算のための多くの量子アルゴリズムにおいて重要な第一歩である量子コンピュータ上のフェルミオンモードを表現するために用いられる。 本稿では,三元木からのフレキシブルなフェルミオンから量子ビットへのマッピングを設計するための形式的手法を提案する。 本研究では,木構造の生成と,パウリ重みやモード占有の非局在化といったマッピングの特定の性質との関係を直感的に議論する。 さらに,fock基底状態が量子ビット空間内の計算基底状態にマッピングされることを保証するレシピを導入する。 この定式化に基づいて、量子デバイスの量子ビット接続の潜在的に制限されたトポロジを入力として、他のパラダイムマッピングに関してSWAPオーバーヘッドを低減するように調整されたフェルミオン-量子ビットマッピングを返すボンサイアルゴリズムを導入する。 我々は,IBM量子コンピュータで広く使われているヘキサゴナルトポロジのマッピングを作成した。 結果として得られる写像は、この接続性についてpauli weight scaling $\mathcal{o}(\sqrt{n})$を持つが、単一の励起操作にはスワップゲートが不要である。

Fermion-to-qubit mappings are used to represent fermionic modes on quantum computers, an essential first step in many quantum algorithms for electronic structure calculations. In this work, we present a formalism to design flexible fermion-to-qubit mappings from ternary trees. We discuss in an intuitive manner the connection between the generating trees' structure and certain properties of the resulting mapping, such as Pauli weight and the delocalisation of mode occupation. Moreover, we introduce a recipe that guarantees Fock basis states are mapped to computational basis states in qubit space, a desirable property for many applications in quantum computing. Based on this formalism, we introduce the Bonsai algorithm, which takes as input the potentially limited topology of the qubit connectivity of a quantum device and returns a tailored fermion-to-qubit mapping that reduces the SWAP overhead with respect to other paradigmatic mappings. We illustrate the algorithm by producing mappings for the heavy-hexagon topology widely used in IBM quantum computers. The resulting mappings have a favourable Pauli weight scaling $\mathcal{O}(\sqrt{N})$ on this connectivity, while ensuring that no SWAP gates are necessary for single excitation operations.
翻訳日:2023-09-15 19:28:33 公開日:2023-09-12
# エンドツーエンドビデオベース異常検出システムを用いたジェットソンエッジデバイスのベンチマーク

Benchmarking Jetson Edge Devices with an End-to-end Video-based Anomaly Detection System ( http://arxiv.org/abs/2307.16834v3 )

ライセンス: Link先を確認
Hoang Viet Pham, Thinh Gia Tran, Chuong Dinh Le, An Dinh Le, Hien Bich Vo(参考訳) 組み込みシステムプラットフォーム、特にハードウェアアクセラレーションの革新的強化は、現実世界のシナリオにおけるディープラーニングの適用に大きな影響を与える。 これらのイノベーションは、人間の労働力を自律運転、ロボット工学、IoT(Internet-of-Things)など、さまざまな分野で使用されている自動化インテリジェントシステムに変換する。 NVIDIAのJetsonプラットフォームは、ディープラーニングアルゴリズムの実行におけるエネルギー効率とスループットに関する最適なパフォーマンスを提供するパイオニアの1つである。 以前は、ほとんどのベンチマーク分析は、比較結果ごとに1つのディープラーニングモデルを持つ2D画像に基づいていた。 本稿では,監視ビデオから入力されるエンドツーエンドのビデオベース犯罪シーン異常検知システムを実装し,複数のJetsonエッジデバイス(Nano, AGX Xavier, Orin Nano)で完全に動作させる。 比較分析では、モデルパフォーマンスの最適化のためにNVIDIAのソフトウェア開発キットとしてTorch-TensorRTを統合している。 このシステムは、facebookのpyslowfastオープンソースプロジェクトに基づいて、コーディングテンプレートとして構築されている。 エンドツーエンドシステムプロセスは、カメラからの映像、データ前処理パイプライン、特徴抽出装置、異常検出を含む。 私たちは,さまざまなJetson Edgeデバイスに,AIベースのシステムデプロイメントをDockerテクノロジで実施した経験を提供します。 異常検出器については,ロバスト時間特徴量学習(rtfm)と呼ばれる弱教師付きビデオベース深層学習モデルを適用した。 アプローチシステムは、Jetsonエッジデバイス上の毎秒47.56フレーム(FPS)の推論速度に到達し、RAM使用量は3.11GBである。 また、aiシステムが前バージョンのjetsonデバイスよりも15%優れた性能を実現し、50%のエネルギーを消費する有望なjetsonデバイスも発見する。

Innovative enhancement in embedded system platforms, specifically hardware accelerations, significantly influence the application of deep learning in real-world scenarios. These innovations translate human labor efforts into automated intelligent systems employed in various areas such as autonomous driving, robotics, Internet-of-Things (IoT), and numerous other impactful applications. NVIDIA's Jetson platform is one of the pioneers in offering optimal performance regarding energy efficiency and throughput in the execution of deep learning algorithms. Previously, most benchmarking analysis was based on 2D images with a single deep learning model for each comparison result. In this paper, we implement an end-to-end video-based crime-scene anomaly detection system inputting from surveillance videos and the system is deployed and completely operates on multiple Jetson edge devices (Nano, AGX Xavier, Orin Nano). The comparison analysis includes the integration of Torch-TensorRT as a software developer kit from NVIDIA for the model performance optimisation. The system is built based on the PySlowfast open-source project from Facebook as the coding template. The end-to-end system process comprises the videos from camera, data preprocessing pipeline, feature extractor and the anomaly detection. We provide the experience of an AI-based system deployment on various Jetson Edge devices with Docker technology. Regarding anomaly detectors, a weakly supervised video-based deep learning model called Robust Temporal Feature Magnitude Learning (RTFM) is applied in the system. The approach system reaches 47.56 frames per second (FPS) inference speed on a Jetson edge device with only 3.11 GB RAM usage total. We also discover the promising Jetson device that the AI system achieves 15% better performance than the previous version of Jetson devices while consuming 50% less energy power.
翻訳日:2023-09-15 18:27:48 公開日:2023-09-12
# オントロジーアライメントのための大規模言語モデル探索

Exploring Large Language Models for Ontology Alignment ( http://arxiv.org/abs/2309.07172v1 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Hang Dong, Ian Horrocks(参考訳) 本稿では,GPT シリーズや Flan-T5 などの最近の生成型大規模言語モデル (LLM) をオントロジーアライメントに適用し,概念同値写像のオントロジーへの応用について検討する。 Flan-T5-XXLとGPT-3.5-turboのゼロショット性能をテストするために,OAEI Bio-MLトラックの2つの等価マッチングデータセットから,概念ラベルと構造コンテキストを考慮した挑戦的なサブセットを利用する。 予備的な発見は、LCMがBERTMapのような既存のオントロジーアライメントシステムより優れている可能性を示唆している。

This work investigates the applicability of recent generative Large Language Models (LLMs), such as the GPT series and Flan-T5, to ontology alignment for identifying concept equivalence mappings across ontologies. To test the zero-shot performance of Flan-T5-XXL and GPT-3.5-turbo, we leverage challenging subsets from two equivalence matching datasets of the OAEI Bio-ML track, taking into account concept labels and structural contexts. Preliminary findings suggest that LLMs have the potential to outperform existing ontology alignment systems like BERTMap, given careful framework and prompt design.
翻訳日:2023-09-15 17:40:29 公開日:2023-09-12
# センサデータを用いた人間行動認識の概要

Overview of Human Activity Recognition Using Sensor Data ( http://arxiv.org/abs/2309.07170v1 )

ライセンス: Link先を確認
Rebeen Ali Hamad, Wai Lok Woo, Bo Wei and Longzhi Yang(参考訳) HAR(Human Activity Recognition)は、家庭や職場の自動化、セキュリティ、監視、医療など、さまざまな用途で使われている重要な研究分野である。 従来の機械学習手法から最近開発されたディープラーニング技術やモノのインターネットに至るまで、過去10年間にHAR領域で重要な貢献が示されてきた。 いくつかのレビューと調査研究が公表されているが、ウェアラブルセンサーとスマートホームセンサーデータの使用状況の要約と、HARおよびディープラーニング技術の応用に焦点を当てた、センサーベースのHAR概要研究は欠落している。 そこで,センサをベースとしたHARを概説し,HARに依存したいくつかの重要な応用について論じ,HARに使われている最も一般的な機械学習手法を強調した。 最後に、HARの堅牢性をさらに向上するために、HARのいくつかの課題について検討する。

Human activity recognition (HAR) is an essential research field that has been used in different applications including home and workplace automation, security and surveillance as well as healthcare. Starting from conventional machine learning methods to the recently developing deep learning techniques and the Internet of things, significant contributions have been shown in the HAR area in the last decade. Even though several review and survey studies have been published, there is a lack of sensor-based HAR overview studies focusing on summarising the usage of wearable sensors and smart home sensors data as well as applications of HAR and deep learning techniques. Hence, we overview sensor-based HAR, discuss several important applications that rely on HAR, and highlight the most common machine learning methods that have been used for HAR. Finally, several challenges of HAR are explored that should be addressed to further improve the robustness of HAR.
翻訳日:2023-09-15 17:40:14 公開日:2023-09-12
# コンプレクトンシフト演算子の周波数収束

Frequency Convergence of Complexon Shift Operators ( http://arxiv.org/abs/2309.07169v1 )

ライセンス: Link先を確認
Purui Zhang, Xingchao Jian, Feng Ji, Wee Peng Tay, Bihan Wen(参考訳) トポロジカル信号処理(TSP)は、単純錯体を用いて、頂点や縁よりも高次構造をモデル化する。 本稿では, 一般化された高次グラフトンを用いたTSPの転送可能性について検討する。 複素数体の概念を単純複素数列 [1] の極限として覚えている。 グラフトンシフト作用素の積分作用素形式に着想を得て、複素数から得られるすべての可能な次元の成分に従って境界複素数および複素数シフト作用素(CSO)を構築する。 我々はCSOの固有値と固有ベクトルを調査し、それらを重み付き隣接行列の新しい族に関連付ける。 simplicial complex sequence が複素数に収束すると、対応する CSO の固有値は極限複素数に収束する。 これらの結果は, グラフ信号処理フレームワークを一般化した, 大規模単純複素数あるいは単純複素数列上での伝達可能性の学習を示唆している。

Topological signal processing (TSP) utilizes simplicial complexes to model structures with higher order than vertices and edges. In this paper, we study the transferability of TSP via a generalized higher-order version of graphon, known as complexon. We recall the notion of a complexon as the limit of a simplicial complex sequence [1]. Inspired by the integral operator form of graphon shift operators, we construct a marginal complexon and complexon shift operator (CSO) according to components of all possible dimensions from the complexon. We investigate the CSO's eigenvalues and eigenvectors, and relate them to a new family of weighted adjacency matrices. We prove that when a simplicial complex sequence converges to a complexon, the eigenvalues of the corresponding CSOs converge to that of the limit complexon. These results hint at learning transferability on large simplicial complexes or simplicial complex sequences, which generalize the graphon signal processing framework.
翻訳日:2023-09-15 17:39:58 公開日:2023-09-12
# 階層型強化学習における目標空間抽象化

Goal Space Abstraction in Hierarchical Reinforcement Learning via Reachability Analysis ( http://arxiv.org/abs/2309.07168v1 )

ライセンス: Link先を確認
Mehdi Zadem (LIX, U2IS), Sergio Mover (LIX), Sao Mai Nguyen (U2IS, Flowers, IMT Atlantique - INFO, Lab-STICC_RAMBO)(参考訳) オープンディビジョン学習は、効率的で転送可能な学習のために知識を構造化する方法を提供するため、目標表現にシンボリックな方法を使用することで大きなメリットがあります。 しかしながら、既存の階層強化学習(HRL)アプローチは、しばしば手動の目標表現を必要とするため、象徴的推論に依存している。 象徴的な目標表現を自律的に発見する上での課題は、環境力学のような重要な情報を保存する必要があることである。 本研究では,タスクに類似する役割を持つ環境状態の集合を抽象化する創発的表現を通じて,サブゴア発見のための発達的メカニズムを提案する。 我々は、この表現をポリシーとともに徐々に学習するHRLアルゴリズムを作成し、それをナビゲーションタスクで評価して、学習した表現が解釈可能であることを示す。

Open-ended learning benefits immensely from the use of symbolic methods for goal representation as they offer ways to structure knowledge for efficient and transferable learning. However, the existing Hierarchical Reinforcement Learning (HRL) approaches relying on symbolic reasoning are often limited as they require a manual goal representation. The challenge in autonomously discovering a symbolic goal representation is that it must preserve critical information, such as the environment dynamics. In this work, we propose a developmental mechanism for subgoal discovery via an emergent representation that abstracts (i.e., groups together) sets of environment states that have similar roles in the task. We create a HRL algorithm that gradually learns this representation along with the policies and evaluate it on navigation tasks to show the learned representation is interpretable and results in data efficiency.
翻訳日:2023-09-15 17:39:41 公開日:2023-09-12
# 分数法則ポテンシャルに対する多くのボソン量子シラードエンジン

Many boson quantum Szilard engine for fractional power law potential ( http://arxiv.org/abs/2309.07167v1 )

ライセンス: Link先を確認
Najirul Islam(参考訳) 本稿では,非相互作用ボソンに対する量子Szilardエンジン(QZE)について述べる。 この目的のためにボース=アインシュタイン統計を採用した。 この目的のために分数的電力法則の可能性を検討し、エネルギーの量子化のアーティファクトを利用した。 分数パワーポテンシャルにおける非相互作用ボソンの作業と効率を計算した。 本研究は, 作業における粒子数と効率の依存性を明らかにした。 また、モースポテンシャルの単一粒子に対するQZEは、ポテンシャルの深さが仕事と効率の両方にどのように影響するかを明らかにする。 さらに, 温度と非調和パラメータが作業に及ぼす影響についても検討した。 最後に,高調波近似条件下での非相互作用ボソンとモースポテンシャルの単一粒子の比較解析を行った。

In this article, we have realized the quantum Szilard engine (QZE) for non-interacting bosons. We have adopted the Bose-Einstein statistics for this purpose. We have considered fractional power law potential for this purpose and have used the artifact of the quantization of energy. We have calculated the work and the efficiency for non-interacting bosons in fractional power potential. We have shown the dependence of the number of particles for the work and the efficiency. We also have realized the QZE for a single-particle in a Morse potential revealing how the depth of the potential impacts both work and efficiency. Furthermore, we have examined the influence of temperature and the anharmonicity parameter on the work. Finally, we have conducted a comparative analysis, considering both non-interacting bosons in a fractional power law potential and a single-particle in a Morse potential under harmonic approximation conditions.
翻訳日:2023-09-15 17:39:26 公開日:2023-09-12
# 高度な信号処理と機械学習を用いた呼吸疾患の音響的分類による診断支援

Audio-Based Classification of Respiratory Diseases using Advanced Signal Processing and Machine Learning for Assistive Diagnosis Support ( http://arxiv.org/abs/2309.07183v1 )

ライセンス: Link先を確認
Constantino \'Alvarez Casado, Manuel Lage Ca\~nellas, Matteo Pedone, Xiaoting Wu, Miguel Bordallo L\'opez(参考訳) 世界的な医療において、呼吸器疾患は死亡の主な原因であり、迅速かつ正確な診断の必要性を強調している。 本研究は,呼吸音の医療データベースとして最大級に広く公開されているものを用いて,異なる健康状態の分類が可能な複数の機械学習モデルを訓練することに焦点を当てた。 本手法は経験的モード分解(EMD)とスペクトル分析を併用し, 心血管および呼吸パターンと密接に結びついている音響データから生理的関連バイオシグナールを抽出し, 従来の音声特徴抽出法から分離したアプローチである。 我々は、パワースペクトル密度解析とフィルタリング技術を用いて、基礎となる生理現象と強く相関する固有モード関数(IMF)を選択する。 これらの生体信号は、予測モデリングのための包括的な特徴抽出プロセスを行う。 最初は、健康な人と病気の人の区別において、87%のバランスのとれた精度を示すバイナリ分類モデルを展開しました。 その後,肺炎や慢性閉塞性肺疾患(COPD)などの特定の呼吸器疾患の診断において,バランスの取れた精度が72%に達する6クラス分類モデルを用いた。 また,音響データのみに基づく年齢・身体質量指数(BMI)を推定する回帰モデルや,性別分類のモデルも導入した。 我々の発見は、このアプローチが補助的および遠隔診断能力を大幅に向上する可能性を強調している。

In global healthcare, respiratory diseases are a leading cause of mortality, underscoring the need for rapid and accurate diagnostics. To advance rapid screening techniques via auscultation, our research focuses on employing one of the largest publicly available medical database of respiratory sounds to train multiple machine learning models able to classify different health conditions. Our method combines Empirical Mode Decomposition (EMD) and spectral analysis to extract physiologically relevant biosignals from acoustic data, closely tied to cardiovascular and respiratory patterns, making our approach apart in its departure from conventional audio feature extraction practices. We use Power Spectral Density analysis and filtering techniques to select Intrinsic Mode Functions (IMFs) strongly correlated with underlying physiological phenomena. These biosignals undergo a comprehensive feature extraction process for predictive modeling. Initially, we deploy a binary classification model that demonstrates a balanced accuracy of 87% in distinguishing between healthy and diseased individuals. Subsequently, we employ a six-class classification model that achieves a balanced accuracy of 72% in diagnosing specific respiratory conditions like pneumonia and chronic obstructive pulmonary disease (COPD). For the first time, we also introduce regression models that estimate age and body mass index (BMI) based solely on acoustic data, as well as a model for gender classification. Our findings underscore the potential of this approach to significantly enhance assistive and remote diagnostic capabilities.
翻訳日:2023-09-15 17:29:55 公開日:2023-09-12
# 事前学習型深層学習モデルを用いた睡眠段階分類

Sleep Stage Classification Using a Pre-trained Deep Learning Model ( http://arxiv.org/abs/2309.07182v1 )

ライセンス: Link先を確認
Hassan Ardeshir, Mohammad Araghi(参考訳) 人間の病気の1つは睡眠障害である。 睡眠ステージの分類は、睡眠障害の診断、治療効果のモニタリング、睡眠ステージと様々な健康状態の関係の理解に基本的な役割を果たす。 これらの段階の正確かつ効率的な分類は、睡眠関連現象の理解を著しく向上させ、最終的に健康状態の改善と疾患治療につながる可能性がある。 他のモデルでは、しばしば時間を消費し、特にn1期では十分な精度を欠いている。 本研究の目的は「EEGMobile」と呼ばれる機械学習モデルを提示することである。 このモデルは、事前訓練されたモデルを使用し、脳波の脳波(EEG)スペクトログラムから学習する。 このモデルは"Sleep-EDF20"と呼ばれる公開データセットで86.97%の精度を達成した。 さらに、ステージN1では56.4%の精度を記録し、他のモデルより優れている。 以上の結果から,本モデルが本疾患の治療に有効である可能性が示唆された。

One of the common human diseases is sleep disorders. The classification of sleep stages plays a fundamental role in diagnosing sleep disorders, monitoring treatment effectiveness, and understanding the relationship between sleep stages and various health conditions. A precise and efficient classification of these stages can significantly enhance our understanding of sleep-related phenomena and ultimately lead to improved health outcomes and disease treatment. Models others propose are often time-consuming and lack sufficient accuracy, especially in stage N1. The main objective of this research is to present a machine-learning model called "EEGMobile". This model utilizes pre-trained models and learns from electroencephalogram (EEG) spectrograms of brain signals. The model achieved an accuracy of 86.97% on a publicly available dataset named "Sleep-EDF20", outperforming other models proposed by different researchers. Moreover, it recorded an accuracy of 56.4% in stage N1, which is better than other models. These findings demonstrate that this model has the potential to achieve better results for the treatment of this disease.
翻訳日:2023-09-15 17:29:30 公開日:2023-09-12
# The Grand Illusion: The Myth of Software Portability and Implications for ML Progress

The Grand Illusion: The Myth of Software Portability and Implications for ML Progress ( http://arxiv.org/abs/2309.07181v1 )

ライセンス: Link先を確認
Fraser Mince, Dzung Dinh, Jonas Kgomo, Neil Thompson, Sara Hooker(参考訳) 機械学習の境界を押し上げるには、しばしば異なるハードウェアとソフトウェアの組み合わせを探索する必要がある。 しかし、さまざまなツールスタックをまたいで実験する自由は、効率向上の原動力と矛盾する可能性がある。 探索的な研究は、ソフトウェアとハードウェアが共進化している場合に制限され、一般的なツールスタックでうまく機能する主流のアイデアから離れることがさらに難しくなる。 この摩擦は機械学習のイノベーションの速度にますます影響しますが、私たちの知る限り、ツールのポータビリティの欠如は定量化されていません。 一般的なMLソフトウェアフレームワークはどの程度ポータブルなのでしょうか? 我々は,様々なハードウェアタイプにわたる主流mlフレームワークの可搬性に関する大規模研究を行っている。 フレームワークは、他のハードウェアに移植されると、主要な機能の40%以上を失う可能性がある。 さらに悪いことに、関数がポータブルであっても、パフォーマンスのスローダウンは極端であり、パフォーマンスを維持できない。 総じて,ハードウェアとソフトウェアの組み合わせの狭い部分から,いかにコストがかかるかを明らかにするとともに,ハードウェアの特殊化が機械学習研究のイノベーションを妨げることを示唆する。

Pushing the boundaries of machine learning often requires exploring different hardware and software combinations. However, the freedom to experiment across different tooling stacks can be at odds with the drive for efficiency, which has produced increasingly specialized AI hardware and incentivized consolidation around a narrow set of ML frameworks. Exploratory research can be restricted if software and hardware are co-evolving, making it even harder to stray away from mainstream ideas that work well with popular tooling stacks. While this friction increasingly impacts the rate of innovation in machine learning, to our knowledge the lack of portability in tooling has not been quantified. In this work, we ask: How portable are popular ML software frameworks? We conduct a large-scale study of the portability of mainstream ML frameworks across different hardware types. Our findings paint an uncomfortable picture -- frameworks can lose more than 40% of their key functions when ported to other hardware. Worse, even when functions are portable, the slowdown in their performance can be extreme and render performance untenable. Collectively, our results reveal how costly straying from a narrow set of hardware-software combinations can be - and suggest that specialization of hardware impedes innovation in machine learning research.
翻訳日:2023-09-15 17:29:14 公開日:2023-09-12
# CloudBrain-NMR:NMR分光処理、再構成、分析のためのインテリジェントなクラウドコンピューティングプラットフォーム

CloudBrain-NMR: An Intelligent Cloud Computing Platform for NMR Spectroscopy Processing, Reconstruction and Analysis ( http://arxiv.org/abs/2309.07178v1 )

ライセンス: Link先を確認
Di Guo, Sijin Li, Jun Liu, Zhangren Tu, Tianyu Qiu, Jingjing Xu, Liubin Feng, Donghai Lin, Qing Hong, Meijin Lin, Yanqin Lin, Xiaobo Qu(参考訳) 核磁気共鳴(nmr)分光法は、化学と生物学の分子構造と動力学を研究する強力な分析ツールである。 しかし、NMR分光計から得られた生データの処理とその後の定量分析は、プログラミングとNMRの包括的な知識を必要とする様々な特殊なツールを含んでいる。 特に、新しいディープラーニングツールは、計算の高度なセットアップのため、NMRで広く使われることは困難である。 したがって、NMR処理は化学者や生物学者にとって簡単な作業ではない。 本研究では、NMRデータ読取、処理、再構成、定量分析のために設計された、インテリジェントなオンラインクラウドコンピューティングプラットフォームであるCloudBrain-NMRを紹介する。 このプラットフォームはWebブラウザを通じて便利にアクセスでき、ユーザー側のプログラムをインストールする必要がなくなる。 cloudbrain-nmrは、グラフィック処理ユニットと中央処理ユニットとの並列コンピューティングを使用し、計算時間を著しく短縮する。 さらに、最先端のディープラーニングベースのアルゴリズムが組み込まれており、ユーザーは追加のソフトウェアに頼ることなく、処理プロセス全体を完了することができる。 このプラットフォームは、高度な人工知能処理を備えたNMRアプリケーションを強化した。 CloudBrain-NMRはhttps://csrc.xmu.edu.cn/CloudBrain.htmlで無料で利用できる。

Nuclear Magnetic Resonance (NMR) spectroscopy has served as a powerful analytical tool for studying molecular structure and dynamics in chemistry and biology. However, the processing of raw data acquired from NMR spectrometers and subsequent quantitative analysis involves various specialized tools, which necessitates comprehensive knowledge in programming and NMR. Particularly, the emerging deep learning tools is hard to be widely used in NMR due to the sophisticated setup of computation. Thus, NMR processing is not an easy task for chemist and biologists. In this work, we present CloudBrain-NMR, an intelligent online cloud computing platform designed for NMR data reading, processing, reconstruction, and quantitative analysis. The platform is conveniently accessed through a web browser, eliminating the need for any program installation on the user side. CloudBrain-NMR uses parallel computing with graphics processing units and central processing units, resulting in significantly shortened computation time. Furthermore, it incorporates state-of-the-art deep learning-based algorithms offering comprehensive functionalities that allow users to complete the entire processing procedure without relying on additional software. This platform has empowered NMR applications with advanced artificial intelligence processing. CloudBrain-NMR is openly accessible for free usage at https://csrc.xmu.edu.cn/CloudBrain.html
翻訳日:2023-09-15 17:28:53 公開日:2023-09-12
# 最適かつ公平な奨励政策の評価と学習

Optimal and Fair Encouragement Policy Evaluation and Learning ( http://arxiv.org/abs/2309.07176v1 )

ライセンス: Link先を確認
Angela Zhou(参考訳) 連続的な領域では、個人に治療を強制することはしばしば不可能であり、最適な政策ルールは、治療勧告に対するヒトの非順守の存在において単に提案である。 これらの同じ領域では、治療を受ける際に反応する人と治療効果の多様性の両方に異質性がある可能性がある。 最適な治療規則は、人口全体の因果関係を最大化することができるが、アクセスパリティ制約やその他の公平性考慮は、奨励の場合に関係がある。 例えば、ソーシャルサービスでは、永続的なパズルは、最も利益を享受できる人々の間で、有益なサービスを取り上げる際のギャップです。 さらに、意思決定者がアクセスと平均結果の両方に対して分布的選好を持つ場合、最適な決定ルールが変化する。 本研究は, 正の潜在的な違反を含む最適処理規則の因果同定, 統計的分散推定, およびロバスト推定について検討した。 本研究は, 治療における人口統計学的パリティなどの公平性制約や, その他の制約について, 制約付き最適化によって検討する。 提案手法は,提案手法における肯定性欠如のロバスト性チェックを用いて,共変量条件排他的制約下でアルゴリズム的推奨を扱うように拡張することができる。 一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。 本研究は,無作為化促進から保険加入までのデータと,電子モニタリングによる事前監督リリースの2つのケーススタディである。

In consequential domains, it is often impossible to compel individuals to take treatment, so that optimal policy rules are merely suggestions in the presence of human non-adherence to treatment recommendations. In these same domains, there may be heterogeneity both in who responds in taking-up treatment, and heterogeneity in treatment efficacy. While optimal treatment rules can maximize causal outcomes across the population, access parity constraints or other fairness considerations can be relevant in the case of encouragement. For example, in social services, a persistent puzzle is the gap in take-up of beneficial services among those who may benefit from them the most. When in addition the decision-maker has distributional preferences over both access and average outcomes, the optimal decision rule changes. We study causal identification, statistical variance-reduced estimation, and robust estimation of optimal treatment rules, including under potential violations of positivity. We consider fairness constraints such as demographic parity in treatment take-up, and other constraints, via constrained optimization. Our framework can be extended to handle algorithmic recommendations under an often-reasonable covariate-conditional exclusion restriction, using our robustness checks for lack of positivity in the recommendation. We develop a two-stage algorithm for solving over parametrized policy classes under general constraints to obtain variance-sensitive regret bounds. We illustrate the methods in two case studies based on data from randomized encouragement to enroll in insurance and from pretrial supervised release with electronic monitoring.
翻訳日:2023-09-15 17:28:33 公開日:2023-09-12
# melage:純粋なpythonベースのニューロイメージングソフトウェア(neonatal)

MELAGE: A purely python based Neuroimaging software (Neonatal) ( http://arxiv.org/abs/2309.07175v1 )

ライセンス: Link先を確認
Bahram Jafrasteh, Sim\'on Pedro Lubi\'an L\'opez, Isabel Benavente Fern\'andez(参考訳) 先駆的なPythonベースのニューロイメージングソフトウェアであるMELAGEは、医療画像の可視化、処理、分析のための汎用ツールとして登場した。 当初、新生児期に3d超音波とmriの脳画像を処理するというユニークな課題に対処するために考案されたmelageは、顕著な適応性を示し、その有用性を成人の脳画像の領域にまで広げる。 MELAGEのコアとなるのは、ディープラーニングモジュールによって強化された半自動脳抽出ツールで、MRIと3D Ultrasoundデータから正確で効率的な脳構造抽出を実現する。 さらに、MELAGEはダイナミックな3Dビジュアライゼーション、正確な測定、インタラクティブなイメージセグメンテーションを含む、包括的な機能スイートを提供している。 このトランスフォーメーションソフトウェアは、研究者や臨床医にとって大きな約束であり、画像分析の合理化、ディープラーニングアルゴリズムとのシームレスな統合、医療画像の領域における幅広い適用性を提供する。

MELAGE, a pioneering Python-based neuroimaging software, emerges as a versatile tool for the visualization, processing, and analysis of medical images. Initially conceived to address the unique challenges of processing 3D ultrasound and MRI brain images during the neonatal period, MELAGE exhibits remarkable adaptability, extending its utility to the domain of adult human brain imaging. At its core, MELAGE features a semi-automatic brain extraction tool empowered by a deep learning module, ensuring precise and efficient brain structure extraction from MRI and 3D Ultrasound data. Moreover, MELAGE offers a comprehensive suite of features, encompassing dynamic 3D visualization, accurate measurements, and interactive image segmentation. This transformative software holds immense promise for researchers and clinicians, offering streamlined image analysis, seamless integration with deep learning algorithms, and broad applicability in the realm of medical imaging.
翻訳日:2023-09-15 17:28:05 公開日:2023-09-12
# hurricast: ハリケーン予報のための機械学習と統計モデルを用いた自動フレームワーク

HurriCast: An Automatic Framework Using Machine Learning and Statistical Modeling for Hurricane Forecasting ( http://arxiv.org/abs/2309.07174v1 )

ライセンス: Link先を確認
Shouwei Gao, Meiyan Gao, Yuepeng Li, Wenqian Dong(参考訳) ハリケーンは、その破壊的な影響により、アメリカにおいて大きな課題を呈している。 これらのリスクを緩和することは重要であり、リスク評価に複雑な統計モデルを用いることで、保険業界がこの取り組みの中心となっている。 しかし、これらのモデルはしばしば重要な時間的および空間的ハリケーンパターンを無視し、データ不足によって制限される。 本研究では,ARIMAモデルとK-MEANSを組み合わせることで,ハリケーンの傾向をより正確に把握する手法を提案する。 実験の結果, このハイブリッド手法は歴史的ハリケーンの挙動を効果的にシミュレートし, 将来的な軌道や強度の詳細な予測を行うことができた。 さらに,包括的かつ選択的にデータセットを活用することで,ハリケーンパターンの現在の理解を深め,リスク管理戦略に有効な洞察を提供する。

Hurricanes present major challenges in the U.S. due to their devastating impacts. Mitigating these risks is important, and the insurance industry is central in this effort, using intricate statistical models for risk assessment. However, these models often neglect key temporal and spatial hurricane patterns and are limited by data scarcity. This study introduces a refined approach combining the ARIMA model and K-MEANS to better capture hurricane trends, and an Autoencoder for enhanced hurricane simulations. Our experiments show that this hybrid methodology effectively simulate historical hurricane behaviors while providing detailed projections of potential future trajectories and intensities. Moreover, by leveraging a comprehensive yet selective dataset, our simulations enrich the current understanding of hurricane patterns and offer actionable insights for risk management strategies.
翻訳日:2023-09-15 17:27:48 公開日:2023-09-12
# 深層対流氷嵐分類における教師なし・教師なし学習とデジタル双生児の利用

Using Unsupervised and Supervised Learning and Digital Twin for Deep Convective Ice Storm Classification ( http://arxiv.org/abs/2309.07173v1 )

ライセンス: Link先を確認
Jason Swope, Steve Chien, Emily Dunkel, Xavier Bosch-Lluis, Qing Yue and William Deal(参考訳) スマートアイスクラウドセンシング(Smart Ice Cloud Sensing、SMICES)は、小型の衛星で、主レーダーが頭頂放射計によって収集された情報に基づいて、知的に氷嵐を標的とするコンセプトである。 インテリジェントターゲティングには、放射計が収集した8バンドの放射能からストーム/クラウドタイプを正確に識別することが重要である。 雲のタイプは、晴れた空、薄いシラス、シラス、雨天のアンビル、対流コアである。 本稿では、このような分類器を導出するために、機械学習と地球の大気のデジタル双生児の多段階利用について述べる。 まず、気象研究予測(WRF)と呼ばれる地球の大気のデジタル双対が、シミュレーションされた頭頂放射計データとより深い「科学」隠れ変数を生成する。 データセットはカリブ海の熱帯地域とアメリカ合衆国の大西洋岸の非熱帯地域をシミュレートする。 科学者がクラスタの隠れた変数の平均/中心値から情報を得たことにより、各物理データポイントをクラウドタイプにマッピングする、データの自動ラベリングを生成するために、k-meansクラスタリングが人間の専門家によって利用された。 次に、シミュレートされた放射計データとその対応するラベルの入力で分類器を訓練した。 ランダム決定フォレスト(rdf)、サポートベクターマシン(svm)、ガウスのna\"ive bayes、フィードフォワードニューラルネットワーク(ann)、畳み込みニューラルネットワーク(cnn)の分類器を訓練した。 熱帯のデータセット上では、最も優れた性能の分類器は、ホールドアウトテストセットの各クラスで80%以上の精度で、非嵐雲と嵐雲を識別することができた。 非トロピカルデータセットにおいて、最もパフォーマンスの高い分類器は、90%以上の精度で非ストーム雲、40%以上の精度でストーム雲を分類することができた。 さらに、両方の分類器は計器ノイズに対して弾力性があることが示されている。

Smart Ice Cloud Sensing (SMICES) is a small-sat concept in which a primary radar intelligently targets ice storms based on information collected by a lookahead radiometer. Critical to the intelligent targeting is accurate identification of storm/cloud types from eight bands of radiance collected by the radiometer. The cloud types of interest are: clear sky, thin cirrus, cirrus, rainy anvil, and convection core. We describe multi-step use of Machine Learning and Digital Twin of the Earth's atmosphere to derive such a classifier. First, a digital twin of Earth's atmosphere called a Weather Research Forecast (WRF) is used generate simulated lookahead radiometer data as well as deeper "science" hidden variables. The datasets simulate a tropical region over the Caribbean and a non-tropical region over the Atlantic coast of the United States. A K-means clustering over the scientific hidden variables was utilized by human experts to generate an automatic labelling of the data - mapping each physical data point to cloud types by scientists informed by mean/centroids of hidden variables of the clusters. Next, classifiers were trained with the inputs of the simulated radiometer data and its corresponding label. The classifiers of a random decision forest (RDF), support vector machine (SVM), Gaussian na\"ive bayes, feed forward artificial neural network (ANN), and a convolutional neural network (CNN) were trained. Over the tropical dataset, the best performing classifier was able to identify non-storm and storm clouds with over 80% accuracy in each class for a held-out test set. Over the non-tropical dataset, the best performing classifier was able to classify non-storm clouds with over 90% accuracy and storm clouds with over 40% accuracy. Additionally both sets of classifiers were shown to be resilient to instrument noise.
翻訳日:2023-09-15 17:27:33 公開日:2023-09-12
# スピン1/2粒子の重力デコヒーレンスに対する開量子系アプローチ

Open quantum system approach to the gravitational decoherence of spin-1/2 particles ( http://arxiv.org/abs/2309.07236v1 )

ライセンス: Link先を確認
Mohammad Sharifian, Moslem Zarei, Mehdi Abdi, Nicola Bartolo, and Sabino Matarrese(参考訳) 本稿では,空間重ね合わせにおける圧縮重力波と質量粒子系との相互作用によるデコヒーレンス効果について検討する。 スピン1/2粒子とスピンレス粒子からなる2つの系を考慮に入れ、量子ボルツマン方程式を用いてデコヒーレンスを研究する。 スピン1/2粒子系では, 分離速度は重力波のスクイーズ強度とスクイーズ角の両方に依存することが明らかとなった。 その結果,r_p\geq1.2$のスクイーズ強度と$\varphi_p=\pi/2$のスクイーズ角を有する圧縮重力波は,スピン1/2粒子の雲の1 s自由落下内で1 %のデコヒーレンスを誘導できることがわかった。 対照的に、スピンレス粒子系では、デコヒーレンス速度は弱く、重力波のスクイーズ強度にのみ依存し、スクイーズ角度に依存しない。 結果として、この場合、スピン-1/2粒子のデコヒーレンスは同じ量のデコヒーレンスに達することができるのは、系が桁違いに大きく、実験が10倍長く、強度$r_p\geq2.1$である。 この研究は、圧縮された重力波と質量粒子とそのスピンの系における空間重ね合わせ状態のコヒーレンスの関係に光を当てている。 デコヒーレンスがスクイーズ強度やスピン-1/2粒子の場合、スクイーズ角に依存することは、量子重力接続のさらなる探索と理解の道を開く。 このような実験的な設定は、インフレーションによって初期の宇宙で生成された重力波のスクイーズ効果(および量子関連特性)のレベルを調べるためにも用いられることを示唆する。

This paper investigates the decoherence effect resulting from the interaction of squeezed gravitational waves with a system of massive particles in spatial superposition. We take into account two systems, one made up of spin-1/2 particles and the other of spinless particles, and use the quantum Boltzmann equation to study their decoherence. For the spin-1/2 particle system, our analysis reveals that the rate of decoherence depends on both the squeezing strength and the squeezing angle of the gravitational waves. Our results demonstrate that squeezed gravitational waves with squeezing strengths of $r_p\geq1.2$ and a squeezing angle of $\varphi_p=\pi/2$ can induce a 1 % decoherence within 1 s free falling of a cloud of spin-1/2 particles. In contrast, for the spinless particle system, the decoherence rate is weaker and depends solely on the squeezing strength of the gravitational waves and does not depend on the squeezing angle. As a consequence, in this case, the same amount of decoherence of the spin-1/2 particles can be reached when the system is two orders of magnitude more massive, the experiment ten times longer, and for squeezing strength $r_p\geq2.1$. This investigation sheds light on the relationship between squeezed gravitational waves and the coherence of spatial superposition states in systems of massive particles and their spin. The dependence of decoherence on squeezing strength and, in the case of spin-1/2 particles, on the squeezing angle paves the way for further exploration and understanding of the quantum-gravity connection. We suggest that such an experimental setup could also be employed to eventually investigate the level of squeezing effect (and hence quantum-related properties) of gravitational waves produced in the Early Universe from inflation.
翻訳日:2023-09-15 17:08:25 公開日:2023-09-12
# 超広角高忠実ホログラフィディスプレイのためのニューラル \'{E}tendue Expander

Neural \'{E}tendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display ( http://arxiv.org/abs/2109.08123v3 )

ライセンス: Link先を確認
Ethan Tseng, Seung-Hwan Baek, Grace Kuo, Nathan Matsuda, Andrew Maimone, Florian Schiffers, Praneeth Chakravarthula, Qiang Fu, Wolfgang Heidrich, Douglas Lanman, and Felix Heide(参考訳) ホログラフィックディスプレイは、空間光変調器を用いて光のコヒーレントビームの波面を動的に変調することで光場を生成することができる。 しかし、既存の動的空間光変調器の空間分解能は、回折角に強い拘束力を与える。 結果として、現代のホログラフィックディスプレイは、表示領域の積であり、回折光の最大固体角である低い \'{e}tendue を有する。 低い \'{e}tendue はフィールドオブビュー (fov) または表示サイズを犠牲にする。 本研究では,neural \'{e}tendue expanderを提示することで,この制限を解消する。 自然画像データセットから学習されたこの新しい光学素子は、コンパクトなフォームファクターと表示されたコンテンツの忠実さを維持しながら、超広帯域のFOVに対して高い回折角を可能にする。 neural \'{e}tendue expanders を用いて,自然画像のフルカラー展開64$\times$ \'{e}tendue を実験的に達成し,fov を水平および垂直に1桁拡張した。

Holographic displays can generate light fields by dynamically modulating the wavefront of a coherent beam of light using a spatial light modulator, promising rich virtual and augmented reality applications. However, the limited spatial resolution of existing dynamic spatial light modulators imposes a tight bound on the diffraction angle. As a result, modern holographic displays possess low \'{e}tendue, which is the product of the display area and the maximum solid angle of diffracted light. The low \'{e}tendue forces a sacrifice of either the field-of-view (FOV) or the display size. In this work, we lift this limitation by presenting neural \'{e}tendue expanders. This new breed of optical elements, which is learned from a natural image dataset, enables higher diffraction angles for ultra-wide FOV while maintaining both a compact form factor and the fidelity of displayed contents to human viewers. With neural \'{e}tendue expanders, we experimentally achieve 64$\times$ \'{e}tendue expansion of natural images in full color, expanding the FOV by an order of magnitude horizontally and vertically, with high-fidelity reconstruction quality (measured in PSNR) over 29 dB on retinal-resolution images.
翻訳日:2023-09-14 19:04:07 公開日:2023-09-12
# データセットシフト診断のための統一フレームワーク

A unified framework for dataset shift diagnostics ( http://arxiv.org/abs/2205.08340v4 )

ライセンス: Link先を確認
Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan Pablo Ibieta-Jimenez, Renato Vicente(参考訳) 教師付き学習技術は、通常、訓練データがターゲット人口に由来すると仮定する。 しかし、実際にはデータセットのシフトが頻繁に発生し、適切に考慮しなければ予測器の性能が低下する可能性がある。 本研究では,複数のデータセットのシフトの定量化とテストを行い,y$,y$,$y$,$x|y$,$y|x$,$y|x$の分布の変化を包含する,新しい柔軟なフレームワークである detectionshift を提案する。 DetectShiftは実践者にデータシフトに関する洞察を与え、ソースデータとターゲットデータの両方を使用して予測者の適応や再トレーニングを容易にする。 これは、ターゲット領域のラベル付きサンプルが制限されている場合に非常に価値がある。 このフレームワークは同じ性質でテスト統計を利用し、様々なシフトの大きさを定量化し、その結果をより解釈可能である。 汎用的で、回帰処理や分類処理に適しており、表やテキスト、イメージなど、さまざまなデータ形式に対応している。 実験結果は,高次元においてもデータセットシフト検出における検出シフトの有効性を示す。

Supervised learning techniques typically assume training data originates from the target population. Yet, in reality, dataset shift frequently arises, which, if not adequately taken into account, may decrease the performance of their predictors. In this work, we propose a novel and flexible framework called DetectShift that quantifies and tests for multiple dataset shifts, encompassing shifts in the distributions of $(X, Y)$, $X$, $Y$, $X|Y$, and $Y|X$. DetectShift equips practitioners with insights into data shifts, facilitating the adaptation or retraining of predictors using both source and target data. This proves extremely valuable when labeled samples in the target domain are limited. The framework utilizes test statistics with the same nature to quantify the magnitude of the various shifts, making results more interpretable. It is versatile, suitable for regression and classification tasks, and accommodates diverse data forms - tabular, text, or image. Experimental results demonstrate the effectiveness of DetectShift in detecting dataset shifts even in higher dimensions.
翻訳日:2023-09-14 18:54:37 公開日:2023-09-12
# CPU/GPUアーキテクチャ上での分散メモリ外NMF

Distributed Out-of-Memory NMF on CPU/GPU Architectures ( http://arxiv.org/abs/2202.09518v4 )

ライセンス: Link先を確認
Ismael Boureima, Manish Bhattarai, Maksim Eren, Erik Skau, Philip Romero, Stephan Eidenbenz, Boian Alexandrov(参考訳) ヘテロジニアスハイパフォーマンス計算(HPC)システムのための非負行列分解(NMF)アルゴリズムのメモリ外分散実装を提案する。 提案手法は,データから潜在変数やパターンを自動的に抽出し,モデル選択を行うnmfkの先行研究に基づいている。 本研究では,マルチノード,マルチGPUシステム上での高密度かつスパースな行列演算のサポートを追加することでNMFkを拡張する。 得られたアルゴリズムは、与えられた行列を分解するために必要なメモリが利用可能なGPUメモリよりも大きいメモリ外問題(OOM)に最適化される。 メモリの複雑さはバッチ/チルティング戦略によって減少し、スパースと密度の高い行列演算はGPUコア(あるいは利用可能なテンソルコア)で大幅に加速される。 ホストとデバイス間のバッチコピーに関連する入出力(I/O)レイテンシをCUDAストリームを使用して隠蔽し、データ転送と非同期処理を行い、最適化されたNVIDIA Collective Communication Library NCCLベースのコミュニケータを使用して、集合通信(ノード内およびノード間の両方)に関連するレイテンシを低減する。 ベンチマークの結果、32Xから76倍のスピードアップ、CPUベースのNMFk上のGPUを使った新しい実装など、大幅な改善が見られた。 密度340テラバイトサイズの行列と密度10e-6の11エクサバイトサイズのスパース行列を分解する場合,4096個のマルチGPUクラスタノードに約25,000個のGPUを配置した。

We propose an efficient distributed out-of-memory implementation of the Non-negative Matrix Factorization (NMF) algorithm for heterogeneous high-performance-computing (HPC) systems. The proposed implementation is based on prior work on NMFk, which can perform automatic model selection and extract latent variables and patterns from data. In this work, we extend NMFk by adding support for dense and sparse matrix operation on multi-node, multi-GPU systems. The resulting algorithm is optimized for out-of-memory (OOM) problems where the memory required to factorize a given matrix is greater than the available GPU memory. Memory complexity is reduced by batching/tiling strategies, and sparse and dense matrix operations are significantly accelerated with GPU cores (or tensor cores when available). Input/Output (I/O) latency associated with batch copies between host and device is hidden using CUDA streams to overlap data transfers and compute asynchronously, and latency associated with collective communications (both intra-node and inter-node) is reduced using optimized NVIDIA Collective Communication Library NCCL based communicators. Benchmark results show significant improvement, from 32X to 76x speedup, with the new implementation using GPUs over the CPU-based NMFk. Good weak scaling was demonstrated on up to 4096 multi-GPU cluster nodes with approximately 25,000 GPUs when decomposing a dense 340 Terabyte-size matrix and an 11 Exabyte-size sparse matrix of density 10e-6.
翻訳日:2023-09-14 18:53:09 公開日:2023-09-12
# Remove, Reduce, Inform: ソーシャルメディアのプラットホームが、コンテンツの誤解を招きかねない、どんなアクションを望んでいるか?

Remove, Reduce, Inform: What Actions do People Want Social Media Platforms to Take on Potentially Misleading Content? ( http://arxiv.org/abs/2202.00799v3 )

ライセンス: Link先を確認
Shubham Atreja, Libby Hemphill, Paul Resnick(参考訳) 誤情報の拡散を減らすために、ソーシャルメディアプラットフォームは、情報警告ラベルの追加、配布の削減、コンテンツの完全削除など、悪質なコンテンツに対する強制措置を取る可能性がある。 しかし、彼らの行動と不行は論争を巻き起こし、党派偏見の主張に悩まされている。 特定のコンテンツアイテムに関しては、一般人がプラットフォームに何をしたいのか、驚くほど不明だ。 368のニュース記事に対する3つの潜在的プラットフォーム行動に対する、政治的にバランスのとれたレートラーの選好に関する実証的な証拠を提供する。 我々の結果は、多くの記事において、どの行動をとるべきかについてのコンセンサスがないことを確認した。 行動の重大さが認識される階層が明確であることに気付き、リサーの大多数が記事に情報ラベルを付け、最少項目を削除したいと願っている。 プラットフォームアクションに値する記事数に関して党派的な違いはなかったが、保守派はリベラルな情報源からのコンテンツに対して幾らかのアクションを好み、その逆も好んだ。 また,「誤解」と「危害」という2つの総合的性質に関する判断が,利率者の多数派がどのような行為を承認するかを判断する効果的な指標となることも見いだした。

To reduce the spread of misinformation, social media platforms may take enforcement actions against offending content, such as adding informational warning labels, reducing distribution, or removing content entirely. However, both their actions and their inactions have been controversial and plagued by allegations of partisan bias. When it comes to specific content items, surprisingly little is known about what ordinary people want the platforms to do. We provide empirical evidence about a politically balanced panel of lay raters' preferences for three potential platform actions on 368 news articles. Our results confirm that on many articles there is a lack of consensus on which actions to take. We find a clear hierarchy of perceived severity of actions with a majority of raters wanting informational labels on the most articles and removal on the fewest. There was no partisan difference in terms of how many articles deserve platform actions but conservatives did prefer somewhat more action on content from liberal sources, and vice versa. We also find that judgments about two holistic properties, misleadingness and harm, could serve as an effective proxy to determine what actions would be approved by a majority of raters.
翻訳日:2023-09-14 18:52:38 公開日:2023-09-12
# サインと関連性学習

Sign and Relevance Learning ( http://arxiv.org/abs/2110.07292v4 )

ライセンス: Link先を確認
Sama Daryanavard and Bernd Porr(参考訳) 生物学的に現実的あるいは生物学的にインスパイアされた強化学習の標準モデルは、浅いネットワークの使用を意味するグローバルエラー信号を使用する。 一方、エラーのバックプロパゲーションにより、複数のレイヤを持つネットワークを使用できる。 しかし, 生物学的に現実的なネットワークでは, 層間を正確に重み付けした誤りバックプロパゲーションが必要となるため, 正確な誤りバックプロパゲーションを正当化することは困難である。 本研究では,ネットワーク全体の可塑性変化の兆候(LTP/LTD)のみを伝播させ,ニューロ変調が学習率を制御することによって,この問題を解決する新しいネットワークを提案する。 ニューロモジュレーションは整流エラーまたは関連信号として解釈できるが、エラー信号の上位ダウンサインは長期増強または長期抑うつが起こるかどうかを判断する。 提案手法の有効性を実証するために,概念実証として実際のロボット作業を行った。 その結果,このパラダイムは生物学的に妥当な学習機構を用いて複雑なタスクを遂行できることがわかった。

Standard models of biologically realistic or biologically inspired reinforcement learning employ a global error signal, which implies the use of shallow networks. On the other hand, error backpropagation allows the use of networks with multiple layers. However, precise error backpropagation is difficult to justify in biologically realistic networks because it requires precise weighted error backpropagation from layer to layer. In this study, we introduce a novel network that solves this problem by propagating only the sign of the plasticity change (i.e., LTP/LTD) throughout the whole network, while neuromodulation controls the learning rate. Neuromodulation can be understood as a rectified error or relevance signal, while the top-down sign of the error signal determines whether long-term potentiation or long-term depression will occur. To demonstrate the effectiveness of this approach, we conducted a real robotic task as proof of concept. Our results show that this paradigm can successfully perform complex tasks using a biologically plausible learning mechanism.
翻訳日:2023-09-14 18:51:33 公開日:2023-09-12
# MIDOG 2022チャレンジのための放射予測領域適応分類器

Radial Prediction Domain Adaption Classifier for the MIDOG 2022 Challenge ( http://arxiv.org/abs/2208.13902v2 )

ライセンス: Link先を確認
Jonas Annuscheit and Christian Krumnow(参考訳) 本稿では,mitotic cell の検出に関する midog 2022 challenge への貢献について述べる。 MIDOG 2022の課題で解決すべき問題のひとつは、病理学の分野における実生活データに現れる自然変動の下での堅牢性である。 この問題に対処するために、新しいドメイン適応分類器(DAC)と共にオブジェクト検出に適合したYOLOv5sモデルを用いて、ドメインシフト下で堅牢性を実現する。 さらに,HED色空間における染色増色によるトレーニングデータの可変性も向上する。 提案手法を用いて,テスト集合 f1-score を 0.6658 とする。

This paper describes our contribution to the MIDOG 2022 challenge for detecting mitotic cells. One of the major problems to be addressed in the MIDOG 2022 challenge is the robustness under the natural variance that appears for real-life data in the histopathology field. To address the problem, we use an adapted YOLOv5s model for object detection in conjunction with a new Domain Adaption Classifier (DAC) variant, the Radial-Prediction-DAC, to achieve robustness under domain shifts. In addition, we increase the variability of the available training data using stain augmentation in HED color space. Using the suggested method, we obtain a test set F1-score of 0.6658.
翻訳日:2023-09-14 18:41:20 公開日:2023-09-12
# CTRL:ラベルエラー検出のためのクラスタリングトレーニング損失

CTRL: Clustering Training Losses for Label Error Detection ( http://arxiv.org/abs/2208.08464v2 )

ライセンス: Link先を確認
Chang Yue and Niraj K. Jha(参考訳) 教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。 残念ながら、ほとんどのデータセットにはラベルが破損している。 このようなデータセットでトレーニングされた機械学習モデルは、うまく一般化しない。 これにより、ラベルエラーの検出は、その有効性を著しく向上させることができる。 本稿では,マルチクラスデータセットにおけるラベルエラーを検出するctrl(clustering training loss for label error detection)と呼ばれる新しいフレームワークを提案する。 モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。 まず,ノイズトレーニングデータセットを用いてニューラルネットワークをトレーニングし,各サンプルの損失曲線を得る。 次に,グループサンプルの学習損失にクラスタリングアルゴリズムを適用し,クリーンラベルとノイズラベルの2つのカテゴリに分類した。 ラベル誤り検出後、ノイズラベル付きサンプルを除去し、モデルを再訓練する。 実験により, 画像(CIFAR-10, CIFAR-100)と表状データセットの両方に対して, シミュレーションノイズ下での誤り検出精度を示す。 また、CTRLがなぜうまく機能するのかを理論的に分析する。

In supervised machine learning, use of correct labels is extremely important to ensure high accuracy. Unfortunately, most datasets contain corrupted labels. Machine learning models trained on such datasets do not generalize well. Thus, detecting their label errors can significantly increase their efficacy. We propose a novel framework, called CTRL (Clustering TRaining Losses for label error detection), to detect label errors in multi-class datasets. It detects label errors in two steps based on the observation that models learn clean and noisy labels in different ways. First, we train a neural network using the noisy training dataset and obtain the loss curve for each sample. Then, we apply clustering algorithms to the training losses to group samples into two categories: cleanly-labeled and noisily-labeled. After label error detection, we remove samples with noisy labels and retrain the model. Our experimental results demonstrate state-of-the-art error detection accuracy on both image (CIFAR-10 and CIFAR-100) and tabular datasets under simulated noise. We also use a theoretical analysis to provide insights into why CTRL performs so well.
翻訳日:2023-09-14 18:41:09 公開日:2023-09-12
# 量子ランダムアクセスメモリと量子ネットワークを備えたデータセンター

Data centers with quantum random access memory and quantum networks ( http://arxiv.org/abs/2207.14336v3 )

ライセンス: Link先を確認
Junyu Liu, Connor T. Hann, Liang Jiang(参考訳) 本稿では,量子ランダムアクセスメモリ(QRAM)と量子ネットワークを組み合わせたアーキテクチャである量子データセンター(QDC)を提案する。 qdcの正確な定義を与え、その実現可能性と拡張について論じる。 本稿では,QDCの量子計算,量子通信,量子センシングへの応用について論じる。QDCは$T$-gateリソース,QDCはマルチパーティのプライベート量子通信,QDCはデータ圧縮による分散センシングに重点を置いている。 我々は、QDCが将来のデータセンターとして効率的でプライベートで高速なサービスを提供することを示す。

In this paper, we propose the Quantum Data Center (QDC), an architecture combining Quantum Random Access Memory (QRAM) and quantum networks. We give a precise definition of QDC, and discuss its possible realizations and extensions. We discuss applications of QDC in quantum computation, quantum communication, and quantum sensing, with a primary focus on QDC for $T$-gate resources, QDC for multi-party private quantum communication, and QDC for distributed sensing through data compression. We show that QDC will provide efficient, private, and fast services as a future version of data centers.
翻訳日:2023-09-14 18:40:51 公開日:2023-09-12
# Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器

Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet ( http://arxiv.org/abs/2207.04320v3 )

ライセンス: Link先を確認
Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo(参考訳) RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。 直感的には、正確な複数人のポーズ推定はロバストなトラッキングを促進し、ロバストなトラッキングは正しい動き予測に重要な履歴を構築する。 既存の作業の多くは1つのタスクに集中するか、複数のタスクを個別に解決するためのマルチステージアプローチを採用するかのどちらかだ。 本稿では,複数の人物によるポーズ推定,トラッキング,動き予測を同時に行うための統合フレームワークであるSnipperを提案する。 ビデオスニペットから時空間情報を集約する,効率的かつ強力に変形可能なアテンション機構を提案する。 この変形可能な注意に基づいて、ビデオトランスフォーマは、マルチフレームスニペットから時空間的特徴をエンコードし、多人数のポーズクエリのための情報的ポーズ特徴を復号するために学習される。 最後に、これらのポーズクエリを回帰して、複数人のポーズトラジェクトリと将来の動きを1ショットで予測する。 実験では,ポーズ推定,追跡,予測のための最先端ベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。

Multi-person pose understanding from RGB videos involves three complex tasks: pose estimation, tracking and motion forecasting. Intuitively, accurate multi-person pose estimation facilitates robust tracking, and robust tracking builds crucial history for correct motion forecasting. Most existing works either focus on a single task or employ multi-stage approaches to solving multiple tasks separately, which tends to make sub-optimal decision at each stage and also fail to exploit correlations among the three tasks. In this paper, we propose Snipper, a unified framework to perform multi-person 3D pose estimation, tracking, and motion forecasting simultaneously in a single stage. We propose an efficient yet powerful deformable attention mechanism to aggregate spatiotemporal information from the video snippet. Building upon this deformable attention, a video transformer is learned to encode the spatiotemporal features from the multi-frame snippet and to decode informative pose features for multi-person pose queries. Finally, these pose queries are regressed to predict multi-person pose trajectories and future motions in a single shot. In the experiments, we show the effectiveness of Snipper on three challenging public datasets where our generic model rivals specialized state-of-art baselines for pose estimation, tracking, and forecasting.
翻訳日:2023-09-14 18:40:23 公開日:2023-09-12
# コンピュータビジョンとLSTMニューラルネットワークを用いた太陽コロナホール解析と予測

Solar Coronal Hole Analysis and Prediction using Computer Vision and LSTM Neural Network ( http://arxiv.org/abs/2301.06732v5 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 人類が宇宙を探索し始めるにつれ、宇宙の天気の重要性が明らかになってきた。 宇宙天気現象の一種であるコロナホールが、航空機や衛星の運用に影響を与えることが確立されている。 コロナホール(英: coronal hole)は、オープン磁場線と比較的低温を特徴とする太陽上の領域であり、太陽風を平均より高い速度で放出する。 本研究では,地球へのコロナホールの影響に備えるために,コンピュータビジョンを用いてコロナホール領域を検出し,太陽動力学観測所(sdo)の画像に基づいてその大きさを計算する。 我々は、太陽の各領域のコロナホールを比較し、相関関係を分析する。 次に, 深層学習, 特にLong Short-Term Memory (LSTM) 手法を実装し, コロナホール領域データの傾向を解析し, 7日間にわたる異なる太陽領域におけるそのサイズを予測する。 本研究は, コロナホール領域の時系列データを解析することにより, コロナホールの挙動のパターンや傾向を同定し, 宇宙気象事象にどのように影響するかを理解することを目的とする。 この研究は、地球と技術システムに影響を与える宇宙天気イベントを予測し、準備する能力を改善するための重要なステップである。

As humanity has begun to explore space, the significance of space weather has become apparent. It has been established that coronal holes, a type of space weather phenomenon, can impact the operation of aircraft and satellites. The coronal hole is an area on the sun characterized by open magnetic field lines and relatively low temperatures, which result in the emission of the solar wind at higher than average rates. In this study, To prepare for the impact of coronal holes on the Earth, we use computer vision to detect the coronal hole region and calculate its size based on images from the Solar Dynamics Observatory (SDO). We compare the coronal holes for each region of the Sun and analyze the correlation. We then implement deep learning techniques, specifically the Long Short-Term Memory (LSTM) method, to analyze trends in the coronal hole area data and predict its size for different sun regions over 7 days. By analyzing time series data on the coronal hole area, this study aims to identify patterns and trends in coronal hole behavior and understand how they may impact space weather events. This research represents an important step towards improving our ability to predict and prepare for space weather events that can affect Earth and technological systems.
翻訳日:2023-09-14 18:33:47 公開日:2023-09-12
# 未知のカテゴリとカメラポーズを用いた少数視点物体再構成

Few-View Object Reconstruction with Unknown Categories and Camera Poses ( http://arxiv.org/abs/2212.04492v2 )

ライセンス: Link先を確認
Hanwen Jiang, Zhenyu Jiang, Kristen Grauman and Yuke Zhu(参考訳) 近年では物体の復元が大きな進歩を遂げているが、現在の手法では一般的に高密度に撮影された画像やカメラのポーズが必要となる。 本研究は,自然界におけるオブジェクトの再構築に向けて,カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から,一般的な現実世界のオブジェクトを再構築する。 私たちの研究の要点は、統一されたアプローチで2つの基本的な3D視覚問題(形状再構成とポーズ推定)を解決することです。 信頼性の高いカメラポーズ推定は正確な形状再構成を生じさせ、正確な再構成は異なる視点間のロバストな対応を誘発し、ポーズ推定を促進する。 提案手法は,各視点から3次元特徴を予測し,入力画像と連動して,相対カメラポーズ推定のためのクロスビュー対応を確立する。 3D特徴は、推定されたポーズによって共有空間に変換され、神経放射場に融合される。 復元結果はボリュームレンダリング技術によってレンダリングされ、3次元形状のグラウンドトルースを使わずにモデルを訓練することができる。 実験の結果,forgeは5つの視点から確実にオブジェクトを再構築できることがわかった。 ポーズ推定法は既存のものよりも大きなマージンで優れている。 予測されたポーズによる再構成結果は,接地姿勢と同等である。 新たなテストカテゴリのパフォーマンスは、トレーニング中に見られるカテゴリの結果にマッチする。 プロジェクトページ: https://ut-austin-rpl.github.io/forge/

While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
翻訳日:2023-09-14 18:32:36 公開日:2023-09-12
# QAOA with $N\cdot p\geq 200$

QAOA with $N\cdot p\geq 200$ ( http://arxiv.org/abs/2303.02064v2 )

ライセンス: Link先を確認
Ruslan Shaydulin and Marco Pistoia(参考訳) ノイズの多い中間スケール量子(onisq)プログラムによるdarpa最適化の中心的な目標の1つは、高い$n\cdot p$を持つハイブリッド量子/古典的最適化アルゴリズムを実装することである。 本稿では,非平面3次元正則グラフの最大カット問題に適用する量子近似最適化アルゴリズム (qaoa) の実行を,量子化h1-1およびh2トラップイオン量子プロセッサ上で最大320ドルのn\cdot p$で実証する。 われわれの知る限りでは、これはこれまでのハードウェアで実証された最高額の$N\cdot p$だ。 量子ハードウェアの急速な進歩を実証する。

One of the central goals of the DARPA Optimization with Noisy Intermediate-Scale Quantum (ONISQ) program is to implement a hybrid quantum/classical optimization algorithm with high $N\cdot p$, where $N$ is the number of qubits and $p$ is the number of alternating applications of parameterized quantum operators in the protocol. In this note, we demonstrate the execution of the Quantum Approximate Optimization Algorithm (QAOA) applied to the MaxCut problem on non-planar 3-regular graphs with $N\cdot p$ of up to $320$ on the Quantinuum H1-1 and H2 trapped-ion quantum processors. To the best of our knowledge, this is the highest $N\cdot p$ demonstrated on hardware to date. Our demonstration highlights the rapid progress of quantum hardware.
翻訳日:2023-09-14 18:21:41 公開日:2023-09-12
# ペナルティに基づく二値勾配法について

On Penalty-based Bilevel Gradient Descent Method ( http://arxiv.org/abs/2302.05185v4 )

ライセンス: Link先を確認
Han Shen, Quan Xiao, Tianyi Chen(参考訳) 双レベル最適化は、ハイパーパラメータ最適化、メタラーニング、強化学習において幅広い応用を享受している。 しかし、二段階最適化問題は解決が難しい。 スケーラブルなbilevelアルゴリズムの最近の進歩は、主に低レベル目標が強い凸か非拘束かの2レベル最適化問題に焦点を当てている。 本研究では, ペナルティ手法のレンズを用いて, バイレベル問題に取り組む。 一定の条件下では、ペナルティ改革は元の二段階問題の解を回復する。 さらに,ペナルティに基づく二レベル勾配降下(pbgd)アルゴリズムを提案し,その有限時間収束を,低レベル強い凸性を持たずに確立する。 実験では提案したPBGDアルゴリズムの有効性を示す。

Bilevel optimization enjoys a wide range of applications in hyper-parameter optimization, meta-learning and reinforcement learning. However, bilevel optimization problems are difficult to solve. Recent progress on scalable bilevel algorithms mainly focuses on bilevel optimization problems where the lower-level objective is either strongly convex or unconstrained. In this work, we tackle the bilevel problem through the lens of the penalty method. We show that under certain conditions, the penalty reformulation recovers the solutions of the original bilevel problem. Further, we propose the penalty-based bilevel gradient descent (PBGD) algorithm and establish its finite-time convergence for the constrained bilevel problem without lower-level strong convexity. Experiments showcase the efficiency of the proposed PBGD algorithm.
翻訳日:2023-09-14 18:19:38 公開日:2023-09-12
# 時間平均制約を考慮した制御系オンライン最適化のためのプライマル・ディダル・コンテクストベイズ最適化

Primal-Dual Contextual Bayesian Optimization for Control System Online Optimization with Time-Average Constraints ( http://arxiv.org/abs/2304.06104v3 )

ライセンス: Link先を確認
Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) 本稿では,制約付き閉ループ制御システムのオンライン性能最適化の問題点について検討する。 一定の規則性条件下での動的最適解に対して,線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。 さらに、アルゴリズムは平均時間制約違反をゼロとし、制約関数の平均値が所望の制約を満たすことを保証する。 本手法はガウシアンプロセスから採取したサンプルインスタンスと, 連続発振型原子炉パラメータチューニング問題の両方に適用し, シミュレーション結果から, ほぼ最適性能を同時に提供し, 平均的な制約実現性を維持することを示す。 これは、提示されたケーススタディに対する大きな累積的後悔または厳しい制約違反に苦しむ現在の最先端の手法とは対照的である。

This paper studies the problem of online performance optimization of constrained closed-loop control systems, where both the objective and the constraints are unknown black-box functions affected by exogenous time-varying contextual disturbances. A primal-dual contextual Bayesian optimization algorithm is proposed that achieves sublinear cumulative regret with respect to the dynamic optimal solution under certain regularity conditions. Furthermore, the algorithm achieves zero time-average constraint violation, ensuring that the average value of the constraint function satisfies the desired constraint. The method is applied to both sampled instances from Gaussian processes and a continuous stirred tank reactor parameter tuning problem; simulation results show that the method simultaneously provides close-to-optimal performance and maintains constraint feasibility on average. This contrasts current state-of-the-art methods, which either suffer from large cumulative regret or severe constraint violations for the case studies presented.
翻訳日:2023-09-14 18:13:44 公開日:2023-09-12
# LaCViT:ビジョントランスフォーマーのためのラベル対応コントラストトレーニングフレームワーク

LaCViT: A Label-aware Contrastive Training Framework for Vision Transformers ( http://arxiv.org/abs/2303.18013v2 )

ライセンス: Link先を確認
Zijun Long, Zaiqiao Meng, Gerardo Aragon Camarasa, Richard McCreadie(参考訳) ビジョントランスフォーマーは、長い機能依存性をモデル化できるため、コンピュータビジョンタスクに取り組む際に非常に効果的です。 大規模なトレーニングデータと様々な自己監視信号(例えばマスクされたランダムパッチ)を使用することで、vision transformerはimagenet-1kやcifar-10といったいくつかのベンチマークデータセットで最先端のパフォーマンスを提供する。 しかし、一般的な大規模画像コーパスで事前訓練されたこれらの視覚トランスフォーマーは、異方性表現空間しか生成できず、その一般化性と目標下流タスクへの転送性を制限した。 本稿では、視覚変換器の事前学習表現空間の等方性を改善し、幅広い画像分類タスクにおいてより効果的な移動学習を可能にする、単純で効果的なラベル対応コントラスト訓練フレームワークLaCViTを提案する。 5つの標準画像分類データセットを実験することにより、LaCViTトレーニングされたモデルは、元のトレーニング済みベースラインを約9%の絶対精度@1で上回り、LaCViTを3つの評価された視覚変換器に適用した場合、一貫した改善が観察できることを示した。

Vision Transformers have been incredibly effective when tackling computer vision tasks due to their ability to model long feature dependencies. By using large-scale training data and various self-supervised signals (e.g., masked random patches), vision transformers provide state-of-the-art performance on several benchmarking datasets, such as ImageNet-1k and CIFAR-10. However, these vision transformers pretrained over general large-scale image corpora could only produce an anisotropic representation space, limiting their generalizability and transferability to the target downstream tasks. In this paper, we propose a simple and effective Label-aware Contrastive Training framework LaCViT, which improves the isotropy of the pretrained representation space for vision transformers, thereby enabling more effective transfer learning amongst a wide range of image classification tasks. Through experimentation over five standard image classification datasets, we demonstrate that LaCViT-trained models outperform the original pretrained baselines by around 9% absolute Accuracy@1, and consistent improvements can be observed when applying LaCViT to our three evaluated vision transformers.
翻訳日:2023-09-14 18:12:26 公開日:2023-09-12
# 不変および等変場予測としての4次元パノプティカルセグメンテーション

4D Panoptic Segmentation as Invariant and Equivariant Field Prediction ( http://arxiv.org/abs/2303.15651v2 )

ライセンス: Link先を確認
Minghan Zhu, Shizhong Han, Hong Cai, Shubhankar Borse, Maani Ghaffari, Fatih Porikli(参考訳) 本稿では,4次元パノプティックセグメンテーションのための回転同変ニューラルネットワークを開発する。 4D Panoptic segmentationは自動運転のためのベンチマークタスクで、LiDARスキャンに基づいて道路上のセマンティッククラスとオブジェクトインスタンスを認識し、時間をかけてインスタンスに時間的に一貫したIDを割り当てる。 運転シナリオは地上面上の回転と対称であることが観察された。 したがって、回転等価性はより良い一般化とより堅牢な特徴学習をもたらす。 具体的には、オブジェクトインスタンスクラスタリング戦略を見直し、中心性に基づくアプローチとオフセットに基づくアプローチを不変スカラー場と等変ベクトル場の予測として再検討する。 他のサブタスクもこの観点からも統一されており、異なる不変および同変層はそれらの予測を容易にするように設計されている。 本研究では,Semantic KITTIの標準4Dパノプティクスセグメンテーションベンチマークを用いて,同変モデルが非等変モデルと比較して計算コストを低くして高い精度を達成することを示す。 さらに,本手法は,新しい最先端性能を設定し,SemanticKITTI 4D Panoptic Segmentation Leaderboardで1位を獲得している。

In this paper, we develop rotation-equivariant neural networks for 4D panoptic segmentation. 4D panoptic segmentation is a benchmark task for autonomous driving that requires recognizing semantic classes and object instances on the road based on LiDAR scans, as well as assigning temporally consistent IDs to instances across time. We observe that the driving scenario is symmetric to rotations on the ground plane. Therefore, rotation-equivariance could provide better generalization and more robust feature learning. Specifically, we review the object instance clustering strategies and restate the centerness-based approach and the offset-based approach as the prediction of invariant scalar fields and equivariant vector fields. Other sub-tasks are also unified from this perspective, and different invariant and equivariant layers are designed to facilitate their predictions. Through evaluation on the standard 4D panoptic segmentation benchmark of SemanticKITTI, we show that our equivariant models achieve higher accuracy with lower computational costs compared to their non-equivariant counterparts. Moreover, our method sets the new state-of-the-art performance and achieves 1st place on the SemanticKITTI 4D Panoptic Segmentation leaderboard.
翻訳日:2023-09-14 18:10:35 公開日:2023-09-12
# 変圧器を用いた単眼視覚オドメトリーモデル : 映像理解によるアプローチ

Transformer-based model for monocular visual odometry: a video understanding approach ( http://arxiv.org/abs/2305.06121v2 )

ライセンス: Link先を確認
Andr\'e O. Fran\c{c}ani and Marcos R. O. A. Maximo(参考訳) 1台のカメラの画像からカメラのポーズを推定することは、移動ロボットや自動運転車の伝統的なタスクである。 この問題は単眼視覚計測と呼ばれ、特定のシナリオに対してかなりのエンジニアリング作業を必要とする幾何学的アプローチに依存することが多い。 深層学習法は、適切な訓練と大量のデータを得た後に一般化できることが示されている。 トランスフォーマーベースのアーキテクチャは、自然言語処理や画像やビデオ理解などのコンピュータビジョンタスクにおいて最先端のアーキテクチャを支配してきた。 本研究では,6-DoFカメラのポーズを推定するために,映像理解タスクとしてモノクロ視覚計測を扱う。 映像から特徴を抽出し, 動きをエンドツーエンドで推定するために, 時空間自己着機構に基づくtsformer-voモデルを提案する。 本手法はkittiビジュアルオドメトリデータセット上の幾何ベースおよび深層学習ベースの手法と比較し,視覚オドメトリコミュニティで広く受け入れられているdeepvo実装を上回っている。

Estimating the camera's pose given images of a single camera is a traditional task in mobile robots and autonomous vehicles. This problem is called monocular visual odometry and it often relies on geometric approaches that require considerable engineering effort for a specific scenario. Deep learning methods have shown to be generalizable after proper training and a large amount of available data. Transformer-based architectures have dominated the state-of-the-art in natural language processing and computer vision tasks, such as image and video understanding. In this work, we deal with the monocular visual odometry as a video understanding task to estimate the 6-DoF camera's pose. We contribute by presenting the TSformer-VO model based on spatio-temporal self-attention mechanisms to extract features from clips and estimate the motions in an end-to-end manner. Our approach achieved competitive state-of-the-art performance compared with geometry-based and deep learning-based methods on the KITTI visual odometry dataset, outperforming the DeepVO implementation highly accepted in the visual odometry community.
翻訳日:2023-09-14 17:59:50 公開日:2023-09-12
# 組み込みデバイスでの自然言語処理:現代のモデルの性能はどの程度か?

Processing Natural Language on Embedded Devices: How Well Do Modern Models Perform? ( http://arxiv.org/abs/2304.11520v3 )

ライセンス: Link先を確認
Souvika Sarkar, Mohammad Fakhruddin Babar, Md Mahadi Hassan, Monowar Hasan, and Shubhra Kanti Karmaker Santu(参考訳) 音声制御システムは、ホーム/インダストリアルオートメーション、自動車インフォテインメント、ヘルスケアなど、多くのIoT固有のアプリケーションで普及している。 クラウドベースの音声サービス(\eg Alexa、Siri)は高性能なコンピューティングサーバーを利用することができるが、いくつかのユースケース(\eg Roboticss、自動車インフォテインメント)では、自然言語処理(NLP)タスクをオフラインで実行する必要がある。 BERTなどの大規模言語モデルは、主に計算量の多いサーバを念頭に開発されている。 様々なNLPタスクにまたがるBERTモデルの優れた性能にもかかわらず、その大きなサイズと多数のパラメータは組み込みシステムにおけるオフライン計算にかなりの障害をもたらす。 このような言語モデルのより軽量な置換 (\eg DistilBERT と TinyBERT) は、特に複雑な NLP タスクの精度を犠牲にすることが多い。 これまでのところ、最先端の言語モデルである \viz bertとその変種が、プロセッサ、メモリ、バッテリパワーに制限のある組み込みシステムにデプロイ可能かどうか、もしそうであれば \cbと、所定のnlpタスクのために選択すべき設定とパラメータの ``right'' セットは何かは、まだ不明である。 本稿では,異なる資源制約と正確性予算の下で,これらの資源/正確性トレードオフに関する経験的観察を導出するために, \textit{exploratory study of modern language models} を提案する。 特に,最もよく使われているBERTベースの4つの言語モデル (\eg BERT, RoBERTa, DistilBERT, TinyBERT) が組込みシステム上でどのように動作するかを検討する。 3つのハードウェア構成と4つのデータセットがさまざまなNLPタスクを実行するRaspberry Piベースのロボットプラットフォームでテストしました。 私たちの発見は、デザイナーが現代の言語モデル、特にbertアーキテクチャに基づくモデルのデプロイ可能性とパフォーマンスを理解するのに役立ちます。

Voice-controlled systems are becoming ubiquitous in many IoT-specific applications such as home/industrial automation, automotive infotainment, and healthcare. While cloud-based voice services (\eg Alexa, Siri) can leverage high-performance computing servers, some use cases (\eg robotics, automotive infotainment) may require to execute the natural language processing (NLP) tasks offline, often on resource-constrained embedded devices. Large language models such as BERT and its variants are primarily developed with compute-heavy servers in mind. Despite the great performance of BERT models across various NLP tasks, their large size and numerous parameters pose substantial obstacles to offline computation on embedded systems. Lighter replacement of such language models (\eg DistilBERT and TinyBERT) often sacrifice accuracy, particularly for complex NLP tasks. Until now, it is still unclear \ca whether the state-of-the-art language models, \viz BERT and its variants are deployable on embedded systems with a limited processor, memory, and battery power and \cb if they do, what are the ``right'' set of configurations and parameters to choose for a given NLP task. This paper presents an \textit{exploratory study of modern language models} under different resource constraints and accuracy budgets to derive empirical observations about these resource/accuracy trade-offs. In particular, we study how the four most commonly used BERT-based language models (\eg BERT, RoBERTa, DistilBERT, and TinyBERT) perform on embedded systems. We tested them on a Raspberry Pi-based robotic platform with three hardware configurations and four datasets running various NLP tasks. Our findings can help designers to understand the deployability and performance of modern language models, especially those based on BERT architectures, thus saving a lot of time wasted in trial-and-error efforts.
翻訳日:2023-09-14 17:59:10 公開日:2023-09-12
# フリードキンの限られた情報を持つ敵-ジョンセンモデル

Adversaries with Limited Information in the Friedkin--Johnsen Model ( http://arxiv.org/abs/2306.10313v2 )

ライセンス: Link先を確認
Sijing Tu, Stefan Neumann, Aristides Gionis(参考訳) 近年、オンライン・ソーシャルネットワークは社会に不和をもたらし、民主主義を弱体化させ、コミュニティを不安定化させようとする敵の標的となっている。 多くの場合、ゴールは紛争の特定の側面を支持するのではなく、不一致と偏極を高めることである。 このような攻撃を数学的に理解するために、研究者はフリードキン=ジョンセンモデルのような社会学の世論形成モデルを使い、少数のユーザーに対して意見を変えることで敵がどれだけ不和を生み出すか正式に研究している。 この一連の研究において、敵はネットワークトポロジーとすべてのユーザの意見に関する完全な知識を持っていると一般的に考えられている。 しかし、後者の仮定はしばしば非現実的であり、ユーザーの意見が得られず、正確に見積もることが難しい。 この懸念に対処するために、我々は以下の疑問を提起する。 攻撃者は、ネットワークトポロジのみを知っていても、ソーシャルネットワークで不和を和らげることができるのか? 私たちはこの質問に答える。 ネットワーク内の不一致や偏光に強い影響を与える少数のユーザ群を検出するための近似アルゴリズムを提案する。 敵がこれらのユーザを過激化させ、ネットワークにおける初期不一致/分極があまり高くない場合、ユーザの意見が分かっている場合、その設定に定数近似を与える。 影響力のあるユーザの集合を見つけるために、正および負のエッジ重みを持つグラフにおいて、MaxCutの変種に対する新しい近似アルゴリズムを提供する。 ネットワークトポロジにのみアクセス可能な手法を実験的に評価し,ネットワークトポロジとすべてのユーザの意見にアクセス可能な手法として同等の性能を有することを見出した。 さらに、Chen と Racz [IEEE Trans. Netw. Sci. Eng., 2021] によるオープンな質問であるNP完全性証明を提示する。

In recent years, online social networks have been the target of adversaries who seek to introduce discord into societies, to undermine democracies and to destabilize communities. Often the goal is not to favor a certain side of a conflict but to increase disagreement and polarization. To get a mathematical understanding of such attacks, researchers use opinion-formation models from sociology, such as the Friedkin--Johnsen model, and formally study how much discord the adversary can produce when altering the opinions for only a small set of users. In this line of work, it is commonly assumed that the adversary has full knowledge about the network topology and the opinions of all users. However, the latter assumption is often unrealistic in practice, where user opinions are not available or simply difficult to estimate accurately. To address this concern, we raise the following question: Can an attacker sow discord in a social network, even when only the network topology is known? We answer this question affirmatively. We present approximation algorithms for detecting a small set of users who are highly influential for the disagreement and polarization in the network. We show that when the adversary radicalizes these users and if the initial disagreement/polarization in the network is not very high, then our method gives a constant-factor approximation on the setting when the user opinions are known. To find the set of influential users, we provide a novel approximation algorithm for a variant of MaxCut in graphs with positive and negative edge weights. We experimentally evaluate our methods, which have access only to the network topology, and we find that they have similar performance as methods that have access to the network topology and all user opinions. We further present an NP-hardness proof, which was an open question by Chen and Racz [IEEE Trans. Netw. Sci. Eng., 2021].
翻訳日:2023-09-14 17:53:08 公開日:2023-09-12
# スケーラブル量子ネットワーク: 誤り訂正による混雑のない階層的絡み合いルーティング

Scalable Quantum Networks: Congestion-Free Hierarchical Entanglement Routing with Error Correction ( http://arxiv.org/abs/2306.09216v2 )

ライセンス: Link先を確認
Hyeongrak Choi, Marc G. Davis, \'Alvaro G. I\~nesta, Dirk R. Englund(参考訳) 本稿では,階層型マルチフロー絡み合いルーティングアーキテクチャであるQuantum Tree Networks (QTN)を紹介する。 ネットワーク設計は$k$-aryツリーであり、エンドノードは内部ノードの葉とルータに配置され、各ノードは子レイヤの$k$ノードに接続されている。 ノード間のチャネル長は$a_k$で増加し、葉から根ノードに上昇するにつれて増加する。 この構成により、ノード当たりのqubit-per-nodeオーバーヘッドを持つ混雑のないエラー修正操作が、ノード数に応じてサブ線形にスケールできる。 k$-ary QTN のオーバーヘッドは $\mathcal{O}(N^{\log_k a_k} \cdot \log_k N)$ とスケールし、最小表面被覆端ノードを持つすべての$k$に対してサブ線形である。 具体的には、クォータナリー(k=4$) QTN のオーバーヘッドは$\sim \mathcal{O}(N^{0.25}\cdot\log_4 N)$である。 あるいは、終端ノードが正方格子上に分散されるとき、四元木ルーティングはオーバーヘッド $\sim \mathcal{o}(\sqrt{n}\cdot\log_4 n)$ を与える。 ネットワークレベルのシミュレーションでは,QTNのサイズに依存しない閾値挙動を示す。 さらに、ツリーネットワークルーティングは、ネットワーク操作を合理化し、複雑なマルチパス探索アルゴリズムの必要性を回避する。 これらの性質により、QTNアーキテクチャはスケーラブルな量子ネットワークの重要な要件を満たす。

We introduce Quantum Tree Networks (QTN), an architecture for hierarchical multi-flow entanglement routing. The network design is a $k$-ary tree where end nodes are situated on the leaves and routers at the internal nodes, with each node connected to $k$ nodes in the child layer. The channel length between nodes grows with a rate $a_k$, increasing as one ascends from the leaf to the root node. This construction allows for congestion-free and error-corrected operation with qubit-per-node overhead to scale sublinearly with the number of end nodes, $N$. The overhead for a $k$-ary QTN scales as $\mathcal{O}(N^{\log_k a_k} \cdot \log_k N)$ and is sublinear for all $k$ with minimal surface-covering end nodes. More specifically, the overhead of quarternary ($k=4$) QTN is $\sim \mathcal{O}(N^{0.25}\cdot\log_4 N)$. Alternatively, when end nodes are distributed over a square lattice, the quaternary tree routing gives the overhead $\sim \mathcal{O}(\sqrt{N}\cdot\log_4 N)$. Our network-level simulations demonstrate a size-independent threshold behavior of QTNs. Moreover, tree network routing avoids the necessity for intricate multi-path finding algorithms, streamlining the network operation. With these properties, the QTN architecture satisfies crucial requirements for scalable quantum networks.
翻訳日:2023-09-14 17:52:12 公開日:2023-09-12
# 1:1マッチング課題における誤り率の信頼区間:臨界統計分析と勧告

Confidence Intervals for Error Rates in 1:1 Matching Tasks: Critical Statistical Analysis and Recommendations ( http://arxiv.org/abs/2306.01198v2 )

ライセンス: Link先を確認
Riccardo Fogliato, Pratik Patil, Pietro Perona(参考訳) マッチングアルゴリズムは、コレクション内のアイテム間のマッチングを予測するために一般的に使用される。 例えば、1:1の顔認証では、マッチングアルゴリズムが2つの顔画像が同一人物を表すかどうかを予測する。 このようなアルゴリズムの誤り率の不確実性を正確に評価することは、データが依存していてエラー率が低い場合には困難であり、文献でしばしば見過ごされている2つの側面がある。 本稿では、1:1マッチングタスクにおける誤差率の信頼区間を構築する手法について検討する。 これらの手法の統計的特性を導出し, サンプルサイズ, 誤差率, およびデータ依存性の程度が, 合成および実世界のデータセットを用いた解析と実験の両方に依存することを示す。 本稿では,1:1のマッチングタスクにおいて,誤り率に対する信頼区間を構築するためのベストプラクティスを提案する。

Matching algorithms are commonly used to predict matches between items in a collection. For example, in 1:1 face verification, a matching algorithm predicts whether two face images depict the same person. Accurately assessing the uncertainty of the error rates of such algorithms can be challenging when data are dependent and error rates are low, two aspects that have been often overlooked in the literature. In this work, we review methods for constructing confidence intervals for error rates in 1:1 matching tasks. We derive and examine the statistical properties of these methods, demonstrating how coverage and interval width vary with sample size, error rates, and degree of data dependence on both analysis and experiments with synthetic and real-world datasets. Based on our findings, we provide recommendations for best practices for constructing confidence intervals for error rates in 1:1 matching tasks.
翻訳日:2023-09-14 17:50:22 公開日:2023-09-12
# 連続時間ガウス過程回帰による時間分解能を有するイベントベースステレオビジュアルオドメトリー

Event-based Stereo Visual Odometry with Native Temporal Resolution via Continuous-time Gaussian Process Regression ( http://arxiv.org/abs/2306.01188v5 )

ライセンス: Link先を確認
Jianeng Wang, Jonathan D. Gammell(参考訳) イベントベースのカメラは、シーン内の個々の視覚変化を非同期に捉えます。 これにより、従来のフレームベースのカメラよりも、非常にダイナミックな動きと照明が弱い。 それはまた、シーン内のすべての測定が、ユニークなタイミングで起こりうることを意味する。 これらの異なる測定時間を扱うことは、イベントベースのカメラを使用する上で大きな課題である。 視覚計測(VO)パイプラインでは、時間的に近い測定を1つの共通の時間で行うように近似することで、しばしば対処される。 このグルーピングは推定問題を単純化するが、追加センサーがないため、イベントベースカメラの時間分解能を犠牲にする。 そこで本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。 連続時間軌道推定を用いて、物理的動機付け前のガウス過程の回帰を通じて、イベントベースのカメラの時間的忠実度と非同期性を維持する。 その性能はMVSECデータセットで評価され、2つの独立したシーケンスで7.9e-3と5.9e-3の相対誤差を達成し、既存の公開イベントベースのステレオVOパイプラインをそれぞれ2回と4回上回る。

Event-based cameras asynchronously capture individual visual changes in a scene. This makes them more robust than traditional frame-based cameras to highly dynamic motions and poor illumination. It also means that every measurement in a scene can occur at a unique time. Handling these different measurement times is a major challenge of using event-based cameras. It is often addressed in visual odometry (VO) pipelines by approximating temporally close measurements as occurring at one common time. This grouping simplifies the estimation problem but, absent additional sensors, sacrifices the inherent temporal resolution of event-based cameras. This paper instead presents a complete stereo VO pipeline that estimates directly with individual event-measurement times without requiring any grouping or approximation in the estimation state. It uses continuous-time trajectory estimation to maintain the temporal fidelity and asynchronous nature of event-based cameras through Gaussian process regression with a physically motivated prior. Its performance is evaluated on the MVSEC dataset, where it achieves 7.9e-3 and 5.9e-3 RMS relative error on two independent sequences, outperforming the existing publicly available event-based stereo VO pipeline by two and four times, respectively.
翻訳日:2023-09-14 17:50:07 公開日:2023-09-12
# 間質性肺疾患分類におけるZero-Shot CLIPの有用性の検討

Exploring the Versatility of Zero-Shot CLIP for Interstitial Lung Disease Classification ( http://arxiv.org/abs/2306.01111v2 )

ライセンス: Link先を確認
Cara Van Uden and Christian Bluethgen and Maayane Attias and Malgorzata Polacin and Haiwei Henry Guo and Neha Simha and Rishi Raj and Curtis Langlotz(参考訳) 間質性肺疾患(ILD:interstitial lung disease, ILD)は, 診断上の課題である。 そこで本研究では,ILD分類のためのマルチモーダル(画像とテキスト)自己教師モデルであるCLIPを用いた機械学習手法を提案する。 ワークフロー全体を通じてゼロショットCLIPを広範囲に統合し、ボリュームCTスキャンから画像パッチを抽出し、"パッチモンタージュ"を用いてILD分類に進む。 さらに,タスク固有画像を用いたdapt(domain adaptive pretraining)クリップ(ct "patch montages" と/またはテキスト(放射線学レポートのlung-specific section of radiology reports)が下流icd分類性能に与える影響について検討した。 CLIP抽出した「パッチモンタージュ」とDAPTを利用して、ラベル付きトレーニングデータを必要としない0.893のAUROCを含む強力なゼロショットLD分類結果を得る。 この研究は、ラベル付きデータが不足している医療画像分類タスクのためのクリップのようなマルチモーダルモデルの汎用性と可能性を強調している。

Interstitial lung diseases (ILD) present diagnostic challenges due to their varied manifestations and overlapping imaging features. To address this, we propose a machine learning approach that utilizes CLIP, a multimodal (image and text) self-supervised model, for ILD classification. We extensively integrate zero-shot CLIP throughout our workflow, starting from the initial extraction of image patches from volumetric CT scans and proceeding to ILD classification using "patch montages". Furthermore, we investigate how domain adaptive pretraining (DAPT) CLIP with task-specific images (CT "patch montages" extracted with ILD-specific prompts for CLIP) and/or text (lung-specific sections of radiology reports) affects downstream ILD classification performance. By leveraging CLIP-extracted "patch montages" and DAPT, we achieve strong zero-shot ILD classification results, including an AUROC of 0.893, without the need for any labeled training data. This work highlights the versatility and potential of multimodal models like CLIP for medical image classification tasks where labeled data is scarce.
翻訳日:2023-09-14 17:49:48 公開日:2023-09-12
# Factify 2の発見:マルチモーダルフェイクニュース検出

Findings of Factify 2: Multimodal Fake News Detection ( http://arxiv.org/abs/2307.10475v2 )

ライセンス: Link先を確認
S Suryavardan, Shreyash Mishra, Megha Chakraborty, Parth Patwa, Anku Rani, Aman Chadha, Aishwarya Reganti, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal, Srijan Kumar(参考訳) ここ数年でソーシャルメディアの利用が急増し、フェイクニュースも急速に広まりつつある。 フェイクニュースの有害な影響は、偽情報の検出を自動化し、その正確性を検証する研究の必要性を強調している。 本稿では,AAAI'23におけるDeFactify 2ワークショップの一環として,マルチモーダルな事実検証と風刺ニュースデータセットを提供するFactify 2共有タスクの結果を示す。 このデータでは,マルチモーダル関係に基づく5つのクラスに分けて,ソーシャルメディアの主張をテキストと画像の両方で支援文書と組み合わせることで,タスクに対する比較に基づくアプローチが求められている。 このタスクの第2イテレーションでは、60人以上の参加者と9つの最終テストセットの提出がありました。 最高のパフォーマンスは、テキストにDeBERTa、画像にSwinv2とCLIPを使うことである。 全5クラスの平均得点は81.82%であった。

With social media usage growing exponentially in the past few years, fake news has also become extremely prevalent. The detrimental impact of fake news emphasizes the need for research focused on automating the detection of false information and verifying its accuracy. In this work, we present the outcome of the Factify 2 shared task, which provides a multi-modal fact verification and satire news dataset, as part of the DeFactify 2 workshop at AAAI'23. The data calls for a comparison based approach to the task by pairing social media claims with supporting documents, with both text and image, divided into 5 classes based on multi-modal relations. In the second iteration of this task we had over 60 participants and 9 final test-set submissions. The best performances came from the use of DeBERTa for text and Swinv2 and CLIP for image. The highest F1 score averaged for all five classes was 81.82%.
翻訳日:2023-09-14 17:42:43 公開日:2023-09-12
# 人間の体デジタル双生児:マスタープラン

Human Body Digital Twin: A Master Plan ( http://arxiv.org/abs/2307.09225v2 )

ライセンス: Link先を確認
Chenyu Tang, Wentian Yi, Edoardo Occhipinti, Yanning Dai, Shuo Gao, and Luigi G. Occhipinti(参考訳) 人体デジタル双生児 (human body digital twin, dt) は、センサーや医療検査装置からのリアルタイムデータを用いて、高度な分析とシミュレーションを通じて健康成果をシミュレーション、予測、最適化することを目的とした、個人の生理状態の仮想表現である。 人体DTは医療とウェルネスに革命をもたらす可能性があるが、その責任と効果的な実装には様々な要因を考慮する必要がある。 本稿では,人体DTの現状と今後の展望を概観し,開発のための5段階のロードマップを提案する。 ロードマップは、ウェアラブルデバイス、データ収集、データ分析、意思決定システムなど、さまざまなコンポーネントの開発をカバーしている。 記事はまた、人体DTの責任と効果的な実装を保証するために対処する必要がある、必要なサポート、セキュリティ、コスト、倫理的考察を強調している。 提案するロードマップは、将来の開発を導くためのフレームワークを提供し、この急速に発展する分野において、新たな学際的な研究と革新的なソリューションを促進する、人体DTの将来に関するユニークな視点を提供する。

A human body digital twin (DT) is a virtual representation of an individual's physiological state, created using real-time data from sensors and medical test devices, with the purpose of simulating, predicting, and optimizing health outcomes through advanced analytics and simulations. The human body DT has the potential to revolutionize healthcare and wellness, but its responsible and effective implementation requires consideration of various factors. This article presents a comprehensive overview of the current status and future prospects of the human body DT and proposes a five-level roadmap for its development. The roadmap covers the development of various components, such as wearable devices, data collection, data analysis, and decision-making systems. The article also highlights the necessary support, security, cost, and ethical considerations that must be addressed in order to ensure responsible and effective implementation of the human body DT. The proposed roadmap provides a framework for guiding future development and offers a unique perspective on the future of the human body DT, facilitating new interdisciplinary research and innovative solutions in this rapidly evolving field.
翻訳日:2023-09-14 17:42:27 公開日:2023-09-12
# unpacking polarization: オンラインインタラクションの署名ネットワークにおける対立性とアライメント

Unpacking polarization: Antagonism and Alignment in Signed Networks of Online Interaction ( http://arxiv.org/abs/2307.06571v2 )

ライセンス: Link先を確認
Emma Fraxanet, Max Pellert, Simon Schweighofer, Vicen\c{c} G\'omez, David Garcia(参考訳) 影響のある分極は単なる対立以上のものであり、主に政治的分裂の間でネガティブな相互作用が起こる。 分極の研究は通常、政治的分裂の定義を前提とするか、分極と不一致を同じ現象とみなす。 正負のオンラインインタラクションの新たなデータソースを活用することで、分割問題を最小限の仮定でオンラインコミュニティの障害線を計算的に発見する手法を提案する。 これにより、オンライン相互作用における敵意の一般的な頻度であるアンタゴニズムと、グループ間でのネガティブな関係(分割性)を捉えるアライメントの2つの要因を解き放つことができる。 当社のアプローチは,米国のtwitterファクトチェックコミュニティであるbirdwatchや,オーストリアのオンライン新聞であるderstandardのディスカッションフォーラムに適用しています。 以上の結果から,両コミュニティは2つの大きなグループに分けられ,その分離は政治的アイデンティティや話題に従っていることが明らかとなった。 反抗とアライメントの様々な組み合わせの問題をderstandardで識別することができ、これらの2つのメトリクスは等価ではないと仮定できる。 本手法は,結束性と分裂性の別々な寄与と,アライメントの力学における議論のある選挙やイベントの役割を示す時間分解図を提供する。

Affective polarization is more than mere antagonism as it appears when negative interactions happen mostly across political divisions. Research in polarization usually assumes a given definition of political divisions or conflates polarization and disagreement as the same phenomenon. Leveraging on novel data sources of positive and negative online interactions, we present a method to computationally discover the fault lines of an online community with minimal assumptions on the dividing issues. This enables us to unpack two factors of polarization: Antagonism, which is the general prevalence of hostility in online interaction, and Alignment, which captures how negative relations exist across groups (divisiveness) while positive interactions are contained within (cohesiveness). We apply our approach to Birdwatch, a US-based Twitter fact-checking community, and to the discussion forums of DerStandard, an Austrian online newspaper. Our results reveal that both communities are divided into two large groups and that their separation follows political identities and topics. We can identify issues across various combinations of antagonism and alignment in DerStandard, evidencing that these two metrics are not equivalent. Our methods provide a time-resolved picture that illustrates the separate contribution of cohesiveness and divisiveness and the role of controversial elections and events in the dynamics of alignment.
翻訳日:2023-09-14 17:41:54 公開日:2023-09-12
# MAMO:モノクロビデオ深度推定のためのメモリと注意の活用

MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation ( http://arxiv.org/abs/2307.14336v2 )

ライセンス: Link先を確認
Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli(参考訳) モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。 MAMOは、任意の単一画像深度推定ネットワークをビデオ深度推定モデルに拡張し、改善し、時間的情報を利用してより正確な深度を予測できる。 また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。 具体的には、前回のインスタンスの視覚的および変位的トークンを記憶する。 これにより、現在のフレームの深さを予測する際に、深度ネットワークが過去から関連する特徴を相互参照することができる。 本稿では,過去と現在の両方の視覚情報に対応するトークンを保持するために,メモリを継続的に更新する新しい手法を提案する。 本稿では,自己認識モジュールを用いた視覚的・変位的メモリトークン間の時空間的関係を初めて学習するプロセスメモリ特徴に対する注意に基づくアプローチを採用する。 さらに、自己注意の出力特徴を、交差注意を通して現在の視覚特徴と集約する。 交差した特徴は最終的にデコーダに与えられ、現在のフレームの深さを予測する。 KITTI,NYU-Depth V2,DDADなどのベンチマーク実験を通じて,MAMOは単分子深度推定ネットワークを一貫して改善し,新しいSOTA(State-of-the-art)の精度を設定することを示した。 特に,当社のMAMoビデオ深度推定は,SOTAコストボリュームに基づくビデオ深度モデルに準じて,低レイテンシで高い精度を実現する。

We propose MAMo, a novel memory and attention frame-work for monocular video depth estimation. MAMo can augment and improve any single-image depth estimation networks into video depth estimation models, enabling them to take advantage of the temporal information to predict more accurate depth. In MAMo, we augment model with memory which aids the depth prediction as the model streams through the video. Specifically, the memory stores learned visual and displacement tokens of the previous time instances. This allows the depth network to cross-reference relevant features from the past when predicting depth on the current frame. We introduce a novel scheme to continuously update the memory, optimizing it to keep tokens that correspond with both the past and the present visual information. We adopt attention-based approach to process memory features where we first learn the spatio-temporal relation among the resultant visual and displacement memory tokens using self-attention module. Further, the output features of self-attention are aggregated with the current visual features through cross-attention. The cross-attended features are finally given to a decoder to predict depth on the current frame. Through extensive experiments on several benchmarks, including KITTI, NYU-Depth V2, and DDAD, we show that MAMo consistently improves monocular depth estimation networks and sets new state-of-the-art (SOTA) accuracy. Notably, our MAMo video depth estimation provides higher accuracy with lower latency, when omparing to SOTA cost-volume-based video depth models.
翻訳日:2023-09-14 17:31:51 公開日:2023-09-12
# バイトコード解釈のためのCHERI性能向上

CHERI Performance Enhancement for a Bytecode Interpreter ( http://arxiv.org/abs/2308.05076v2 )

ライセンス: Link先を確認
Duncan Lowther, Dejice Jacob, Jeremy Singer(参考訳) マイクロPythonバイトコードインタプリタをCHERIベースのArm Morelloプラットフォームに移植した際、多くの重大なパフォーマンス劣化が発生しました。 本稿では、これらのパフォーマンス問題のいくつかを詳細に検討し、それぞれのケースにおいて、問題の原因、修正、および対応するインタプリタのパフォーマンス改善を、標準pythonベンチマークのセットに対して特徴付ける。 モレロがcheriの概念の原型的物理的インスタンス化であることは認識しているが、ネイティブポインタ(一般に64ビット)に比べてcheri能力(128ビット)が大きいため、特定の種類のソフトウェアによって引き起こされるランタイムオーバーヘッドを排除できることが示されている。 今回のケースでは、幾何平均ベンチマークのスローダウンを5倍(最適化前)から1.7倍(最適化後)に削減しています。 最悪のケースのスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善されている。 以前のcheri移植プロジェクトでは、コンパイル時および実行時エラーがポインタサイズ仮定で露呈されているのに対して、代わりに、このような仮定のパフォーマンスへの影響に注目しています。

During our port of the MicroPython bytecode interpreter to the CHERI-based Arm Morello platform, we encountered a number of serious performance degradations. This paper explores several of these performance issues in detail, in each case we characterize the cause of the problem, the fix, and the corresponding interpreter performance improvement over a set of standard Python benchmarks. While we recognize that Morello is a prototypical physical instantiation of the CHERI concept, we show that it is possible to eliminate certain kinds of software-induced runtime overhead that occur due to the larger size of CHERI capabilities (128 bits) relative to native pointers (generally 64 bits). In our case, we reduce a geometric mean benchmark slowdown from 5x (before optimization) to 1.7x (after optimization) relative to AArch64, non-capability, execution. The worst-case slowdowns are greatly improved, from 100x (before optimization) to 2x (after optimization). The key insight is that implicit pointer size presuppositions pervade systems code; whereas previous CHERI porting projects highlighted compile-time and execution-time errors exposed by pointer size assumptions, we instead focus on the performance implications of such assumptions.
翻訳日:2023-09-14 17:20:52 公開日:2023-09-12
# 正則特異点を持つschr\"odinger方程式のスペクトル解

Spectral solutions for the Schr\"odinger equation with a regular singularity ( http://arxiv.org/abs/2309.00026v2 )

ライセンス: Link先を確認
Pushkar Mohile, Ayaz Ahmed, T.R.Vishnu, Pichai Ramadevi(参考訳) 本研究では,水素原子スペクトルと波動関数を再現するためのBethe型アンサッツの改質を提案する。 このような提案は、原点に特異なポテンシャル V (x) に関連する量子周期の正確な量子化条件(EQC)を試みようとする手がかりを与えた。 パラメータの適切な極限において、ポテンシャルは |x| ポテンシャルにマッピングできる。 我々は、Vorosスペクトルを数値計算し、|x|ポテンシャルの真のスペクトルとマッチングすることで、EQC命題を検証する。 したがって、原点に正則特異点を持つポテンシャルを含む一次元シュリンガー方程式のスペクトル解を得るための経路を与えた。

We propose a modification in the Bethe-like ansatz to reproduce the hydrogen atom spectrum and the wave functions. Such a proposal provided a clue to attempt the exact quantization conditions (EQC) for the quantum periods associated with potentials V (x) which are singular at the origin. In a suitable limit of the parameters, the potential can be mapped to |x| potential. We validate our EQC proposition by numerically computing the Voros spectrum and matching it with the true spectrum for |x| potential. Thus we have given a route to obtain the spectral solution for the one dimensional Schr\"odinger equation involving potentials with regular singularity at the origin.
翻訳日:2023-09-14 17:12:59 公開日:2023-09-12
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v3 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul(参考訳) 拡散モデルは印象的な生成能力を示しているが、トレーニングとサンプリングの入力ミスマッチとして説明される「暴露バイアス」問題は、深い探索に欠けている。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露光バイアス問題の根本原因として分類し,拡散モデルにおける露光バイアス問題を体系的に検討する。 さらに,この問題に対する潜在的な解決策を議論し,直観的な指標を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力(Epsilon)をスケールダウンし,トレーニングとサンプリングの間の入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させる。 各種拡散フレームワーク (ADM, DDPM/DDIM, EDM, LDM) , 非条件および条件設定, 決定論的対確率的サンプリング) の実験により, 提案手法の有効性が検証された。 コードはhttps://github.com/forever208/ADM-ES; https://github.com/forever208/EDM-ESで入手できる。

Diffusion models have demonstrated impressive generative capabilities, but their 'exposure bias' problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output (Epsilon), mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDPM/DDIM, EDM, LDM), unconditional and conditional settings, and deterministic vs. stochastic sampling verify the effectiveness of our method. The code is available at https://github.com/forever208/ADM-ES; https://github.com/forever208/EDM-ES
翻訳日:2023-09-14 17:11:53 公開日:2023-09-12
# Project Aria:エゴセントリックなマルチモーダルAI研究のための新しいツール

Project Aria: A New Tool for Egocentric Multi-Modal AI Research ( http://arxiv.org/abs/2308.13561v2 )

ライセンス: Link先を確認
Kiran Somasundaram, Jing Dong, Huixuan Tang, Julian Straub, Mingfei Yan, Michael Goesele, Jakob Julian Engel, Renzo De Nardi, Richard Newcombe(参考訳) 将来の拡張現実(ar)デバイスで利用可能なエゴセントリックでマルチモーダルなデータは、機械知覚に特有の課題と機会を提供する。 これらの将来のデバイスは、常に利用可能なコンテキスト認識およびパーソナライズされたaiアプリケーションをサポートするために、社会的に受け入れられるフォームファクターとして、一日中ウェアラブルである必要がある。 meta reality labs researchの私たちのチームは、この分野の研究の促進と加速を目的として、エゴセントリックでマルチモーダルなデータ記録とストリーミングデバイスであるaria deviceを開発しました。 本稿では、センサ構成を含むAriaデバイスハードウェアと、そのようなデータの記録と処理を可能にする対応するソフトウェアツールについて述べる。

Egocentric, multi-modal data as available on future augmented reality (AR) devices provides unique challenges and opportunities for machine perception. These future devices will need to be all-day wearable in a socially acceptable form-factor to support always available, context-aware and personalized AI applications. Our team at Meta Reality Labs Research built the Aria device, an egocentric, multi-modal data recording and streaming device with the goal to foster and accelerate research in this area. In this paper, we describe the Aria device hardware including its sensor configuration and the corresponding software tools that enable recording and processing of such data.
翻訳日:2023-09-14 17:11:30 公開日:2023-09-12
# ウェーブレットを用いた変圧器の高周波増幅による細粒度アンロック

Unlocking Fine-Grained Details with Wavelet-based High-Frequency Enhancement in Transformers ( http://arxiv.org/abs/2308.13442v2 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Alaa Sulaiman, Afshin Bozorgpour, Ehsan Khodapanah Aghdam, Abin Jose, Dorit Merhof(参考訳) 医療画像分割は診断、治療計画、疾患モニタリングにおいて重要な役割を果たす重要な課題である。 医学画像からの解剖学的構造と異常の正確な区分は、様々な疾患の早期発見と治療に役立つ。 本稿では,トランスフォーマーモデルの局所的特徴不足に対処するため,自己注意マップを慎重に再設計し,医用画像の正確な密度予測を行う。 この目的のために、まずウェーブレット変換を適用し、入力特徴写像を低周波(LF)および高周波(HF)サブバンドに分解する。 LFセグメントは粗粒度の特徴に関連付けられ、HFコンポーネントはテクスチャやエッジ情報などの細粒度の特徴を保存する。 次に、効率的な変換器を用いて自己注意操作を再構成し、周波数表現の上に空間的および文脈的注意を向ける。 さらに,境界情報の重要性を高めるために,HF成分の上にガウスピラミッドを作成することにより,付加的な注意マップを付加する。 さらに,エンコーダモジュールとデコーダモジュールのステージ間のセマンティックギャップを克服するため,スキップ接続内のマルチスケールコンテキスト拡張ブロックを提案し,スケール間の依存関係を適応的にモデル化する。 包括的実験を通じて,多臓器および皮膚病変セグメンテーションベンチマークにおける戦略の有効性を実証した。 実装コードは、受け入れ次第利用可能になる。 https://github.com/mindflow-institue/WaveFormer}{GitHub}

Medical image segmentation is a critical task that plays a vital role in diagnosis, treatment planning, and disease monitoring. Accurate segmentation of anatomical structures and abnormalities from medical images can aid in the early detection and treatment of various diseases. In this paper, we address the local feature deficiency of the Transformer model by carefully re-designing the self-attention map to produce accurate dense prediction in medical images. To this end, we first apply the wavelet transformation to decompose the input feature map into low-frequency (LF) and high-frequency (HF) subbands. The LF segment is associated with coarse-grained features while the HF components preserve fine-grained features such as texture and edge information. Next, we reformulate the self-attention operation using the efficient Transformer to perform both spatial and context attention on top of the frequency representation. Furthermore, to intensify the importance of the boundary information, we impose an additional attention map by creating a Gaussian pyramid on top of the HF components. Moreover, we propose a multi-scale context enhancement block within skip connections to adaptively model inter-scale dependencies to overcome the semantic gap among stages of the encoder and decoder modules. Throughout comprehensive experiments, we demonstrate the effectiveness of our strategy on multi-organ and skin lesion segmentation benchmarks. The implementation code will be available upon acceptance. \href{https://github.com/mindflow-institue/WaveFormer}{GitHub}.
翻訳日:2023-09-14 17:11:19 公開日:2023-09-12
# Noisy Demkov-Kunikeモデル

Noisy Demkov-Kunike model ( http://arxiv.org/abs/2309.06448v1 )

ライセンス: Link先を確認
Lin Chen and Zhaoxin Liang(参考訳) デムコフ・クニケ(dk)モデルは、ラビカップリングとオンサイトデチューニングがそれぞれ$j~\text{sech}(t/t)$と$\delta_0+\delta_1\tanh(t/t)$の時間に依存するもので、正確に解くことができる2状態量子モデルの最も一般的な形式の一つを提供する。 したがって、量子ビットの量子状態のコヒーレント操作を研究するためのパラダイムを提供する。 しかし、ノイズの多いDKモデルの探索はまだ不十分である。 本稿では、電信ノイズとガウスノイズを例として、色付きマルコフノイズ源の存在下で、$J\rightarrow J_{\text{noisy}}(t)$でDKモデルを検討した。 生存確率$q^{noisy}_{dk}$の厳密な解を解析的に求め,初期状態のままであった。 高速な電信ノイズに対しては、驚くべきことに、$q^{noisy}_{dk}$が量子ゼノ効果によって理解されるノイズによって強化されるのではなく、抑制されるパラメータレジームが存在する。 遅いガウス雑音に対しては、ノイズ量子がギャップを越えて吸収されるため、ノイズは常に拡張された$Q^{noisy}_{DK}$につながる。 我々の研究はLandau-Zenerモデルの研究を補完する。 また、2レベル量子システムの制御に対する新しい視点を提供する。

The Demkov-Kunike (DK) model, in which the Rabi coupling and the on-site detuning depend on time as $J~\text{sech}(t/T)$ and $\Delta_0+\Delta_1\tanh(t/T)$ respectively, provides one of the most general forms of an exactly solvable two-state quantum model. Thus it offers a paradigm for studying the coherent manipulations of the quantum state of a qubit. However, the exploration of the noisy DK model is still lacking. Here, we study the DK model with $J\rightarrow J_{\text{noisy}}(t)$ in the presence of colored Markovian noise sources, as exemplified by the telegraph noise and Gaussian noise. We analytically obtain the exact solutions for the survival probability $Q^{noisy}_{DK}$ of finding the system remained in the initial state. For the fast telegraph noise, surprisingly, we find parameter regimes where the $Q^{noisy}_{DK}$ is suppressed rather than being enhanced by noise, which can be understood through the quantum Zeno effect. For the slow Gaussian noise, we find the noise always leads to an enhanced $Q^{noisy}_{DK}$, due to the absorption of the noise quanta across the gap. Our work complements the studies of the noisy Landau-Zener model. It also offers a new perspective for the control of two-level quantum systems.
翻訳日:2023-09-14 17:03:19 公開日:2023-09-12
# mask2anomaly:ユニバーサルオープンセットセグメンテーションのためのマスクトランスフォーマー

Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation ( http://arxiv.org/abs/2309.04573v2 )

ライセンス: Link先を確認
Shyam Nandan Rai, Fabio Cermelli, Barbara Caputo, Carlo Masone(参考訳) 未知または異常なオブジェクトインスタンスのセグメンテーションは、自動運転アプリケーションにおいて重要なタスクであり、伝統的にピクセル単位の分類問題としてアプローチされている。 しかし、文脈意味論を考慮せずに各ピクセルを個別に推論すると、オブジェクトの境界や多数の偽陽性に高い不確実性をもたらす。 本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 マスクベース手法であるMask2Anomalyは,異常セグメンテーション,オープンセットセマンティックセグメンテーション,オープンセットパノプティクスセグメンテーションを併用するマスク分類アーキテクチャの実現可能性を示した。 Mask2Anomalyには、異常/未知のオブジェクトの検出を改善するために設計されたいくつかの技術的ノベルティが含まれている。 一 前景及び背景地域に個別に焦点をあてるグローバルマスク付注意モジュール 二 異常と既知のクラスの間のマージンを最大化するマスクコントラスト学習 三 偽陽性を減少させるマスク改善液、及び iv)マスク構造特性に基づく未知のインスタンスをマイニングするための新しいアプローチ。 包括的質的・質的評価により,mask2anomalyは,異常セグメンテーション,オープンセット意味セグメンテーション,オープンセットパオプティクスセグメンテーションのベンチマークにおいて,新たな最先端結果を達成する。

Segmenting unknown or anomalous object instances is a critical task in autonomous driving applications, and it is approached traditionally as a per-pixel classification problem. However, reasoning individually about each pixel without considering their contextual semantics results in high uncertainty around the objects' boundaries and numerous false positives. We propose a paradigm change by shifting from a per-pixel classification to a mask classification. Our mask-based method, Mask2Anomaly, demonstrates the feasibility of integrating a mask-classification architecture to jointly address anomaly segmentation, open-set semantic segmentation, and open-set panoptic segmentation. Mask2Anomaly includes several technical novelties that are designed to improve the detection of anomalies/unknown objects: i) a global masked attention module to focus individually on the foreground and background regions; ii) a mask contrastive learning that maximizes the margin between an anomaly and known classes; iii) a mask refinement solution to reduce false positives; and iv) a novel approach to mine unknown instances based on the mask-architecture properties. By comprehensive qualitative and qualitative evaluation, we show Mask2Anomaly achieves new state-of-the-art results across the benchmarks of anomaly segmentation, open-set semantic segmentation, and open-set panoptic segmentation.
翻訳日:2023-09-14 17:02:47 公開日:2023-09-12
# MultiWay-Adapater:スケーラブルな画像テキスト検索のための大規模マルチモーダルモデルの適用

MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval ( http://arxiv.org/abs/2309.01516v2 )

ライセンス: Link先を確認
Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa(参考訳) LMM(Large Multi-Modal Models)のサイズが一貫して大きくなるにつれて、これらの事前学習されたモデルの特殊タスクへの適応は、計算的かつメモリ集約的な課題となっている。 従来の微調整手法では、新しいタスクごとに分離された徹底的な修正が必要であり、モデルの汎用性を制限する。 さらに、現在の効率的な適応手法は、新しいタスクの知識抽出にのみ焦点をあてて、しばしばモダリティアライメントを見落としている。 そこで本稿では,モダリティアライメントを深めるために,'alignment enhancer'を組み込んだ革新的なフレームワークであるmultiway-adapterを紹介し,事前学習パラメータをチューニングせずに高い転送性を実現する。 本手法では, BEiT-3 モデルを用いて, LMM に1.25 % 未満の追加パラメータを付加する。 これにより、完全な微調整モデルと比較してゼロショット画像テキスト検索性能が向上し、57\%の微調整時間が短縮される。 提案手法は, LMMの資源効率, 有効適応経路を提供し, 適用範囲を拡大する。 ソースコードは: \url{https://github.com/longkukuhi/MultiWay-Adapter} で公開されている。

As the size of Large Multi-Modal Models (LMMs) increases consistently, the adaptation of these pre-trained models to specialized tasks has become a computationally and memory-intensive challenge. Traditional fine-tuning methods require isolated, exhaustive retuning for each new task, limiting the models' versatility. Moreover, current efficient adaptation techniques often overlook modality alignment, focusing only on the knowledge extraction of new tasks. To tackle these issues, we introduce Multiway-Adapter, an innovative framework incorporating an 'Alignment Enhancer' to deepen modality alignment, enabling high transferability without tuning pre-trained parameters. Our method adds fewer than 1.25\% of additional parameters to LMMs, exemplified by the BEiT-3 model in our study. This leads to superior zero-shot image-text retrieval performance compared to fully fine-tuned models, while achieving up to a 57\% reduction in fine-tuning time. Our approach offers a resource-efficient and effective adaptation pathway for LMMs, broadening their applicability. The source code is publicly available at: \url{https://github.com/longkukuhi/MultiWay-Adapter}.
翻訳日:2023-09-14 16:59:23 公開日:2023-09-12
# 対話自動分析のための大規模言語モデル活用

Leveraging Large Language Models for Automated Dialogue Analysis ( http://arxiv.org/abs/2309.06490v1 )

ライセンス: Link先を確認
Sarah E. Finch, Ellie S. Paek, Jinho D. Choi(参考訳) 高パフォーマンスな対話システムの開発は、システム応答における望ましくない振る舞いの自動識別から恩恵を受ける。 しかし、そのような行動を検出することは、一般的な知識と会話の実践の理解に頼っているため、依然として困難である。 近年の研究では、特定の対話行動を検出するための特殊な分類器の構築に焦点が当てられているが、行動カバレッジはまだ不完全であり、現実世界の人間とボットの相互作用に対するテストの欠如がある。 本稿では,人間-ボット対話における9つのカテゴリの対話行動検出を行うための最先端の大規模言語モデルであるchatgpt-3.5の能力について検討する。 本研究の目的は、ChatGPTが特殊モデルに適合し、人間のパフォーマンスを近似できるかどうかを評価することである。 以上の結果から, 特殊モデルもChatGPTもこの課題に満足できない結果が得られず, 人的性能に乏しいことが判明した。 それでもChatGPTは有望なポテンシャルを示し、しばしば特殊な検出モデルより優れている。 本稿では,ChatGPTの欠点を詳細に検討し,今後のLCM機能向上に向けたガイダンスを提供する。

Developing high-performing dialogue systems benefits from the automatic identification of undesirable behaviors in system responses. However, detecting such behaviors remains challenging, as it draws on a breadth of general knowledge and understanding of conversational practices. Although recent research has focused on building specialized classifiers for detecting specific dialogue behaviors, the behavior coverage is still incomplete and there is a lack of testing on real-world human-bot interactions. This paper investigates the ability of a state-of-the-art large language model (LLM), ChatGPT-3.5, to perform dialogue behavior detection for nine categories in real human-bot dialogues. We aim to assess whether ChatGPT can match specialized models and approximate human performance, thereby reducing the cost of behavior detection tasks. Our findings reveal that neither specialized models nor ChatGPT have yet achieved satisfactory results for this task, falling short of human performance. Nevertheless, ChatGPT shows promising potential and often outperforms specialized detection models. We conclude with an in-depth examination of the prevalent shortcomings of ChatGPT, offering guidance for future research to enhance LLM capabilities.
翻訳日:2023-09-14 16:53:35 公開日:2023-09-12
# 操作独立事象は量子論において互いに影響を及ぼすことができる

Operationally independent events can influence each other in quantum theory ( http://arxiv.org/abs/2309.06488v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 自然の既知の記述では、2つの物理系が互いに独立であると見なされるが、一方の系に対する何らかの作用が他方の系を変えない場合である。 世界に関する我々の古典的な直観から、これらの2つの系はいかなる方法でも影響を受けておらず、したがってこれら2つの系は因果的に切断されているか、互いに影響を与えていないと結論づける。 この考え方に基づいて、量子論において、そのような古典的独立性の概念は満たされない、すなわち、2つの量子系は、一方の系上の操作が他方に可観測効果を与えていない場合でも、互いに影響しあうことができる。 我々は,量子ネットワークの枠組みを考察し,クレーター=ホルン=シモニー=ホルト不等式を利用した線形証人を構築する。 また、量子状態と測定値のデバイス非依存認証に対する古典的独立性の最大違反から生じる興味深い応用の1つについても論じる。

In any known description of nature, two physical systems are considered independent of each other if any action on one of the systems does not change the other system. From our classical intuitions about the world, we further conclude that these two systems are not affecting each other in any possible way, and thus these two systems are causally disconnected or they do not influence each other. Building on this idea, we show that in quantum theory such a notion of classical independence is not satisfied, that is, two quantum systems can still influence each other even if any operation on one of the systems does not create an observable effect on the other. For our purpose, we consider the framework of quantum networks and construct a linear witness utilizing the Clauser-Horne-Shimony-Holt inequality. We also discuss one of the interesting applications resulting from the maximal violation of classical independence towards device-independent certification of quantum states and measurements.
翻訳日:2023-09-14 16:53:13 公開日:2023-09-12
# メッシュの位相操作の学習とポリゴンのブロック分解への応用

Learning topological operations on meshes with application to block decomposition of polygons ( http://arxiv.org/abs/2309.06484v1 )

ライセンス: Link先を確認
Arjun Narayanan, Yulong Pan, Per-Olof Persson(参考訳) 非構造三角形および四辺メッシュ上でのメッシュ品質向上のための学習ベースのフレームワークを提案する。 本モデルは,事前のヒューリスティックを伴わない自己プレイ強化学習を通じて,所定の目的関数に従ってメッシュ品質を改善することを学ぶ。 メッシュ上で実行されるアクションは、標準的なローカルおよびグローバル要素操作である。 その目的は、理想値からのノード次数の偏差を最小化することであり、内部頂点の場合、不規則ノードの最小化につながる。

We present a learning based framework for mesh quality improvement on unstructured triangular and quadrilateral meshes. Our model learns to improve mesh quality according to a prescribed objective function purely via self-play reinforcement learning with no prior heuristics. The actions performed on the mesh are standard local and global element operations. The goal is to minimize the deviation of the node degrees from their ideal values, which in the case of interior vertices leads to a minimization of irregular nodes.
翻訳日:2023-09-14 16:52:56 公開日:2023-09-12
# flow for flow: 最大確率推定でデータセットを別のデータにモーフィングする

Flows for Flows: Morphing one Dataset into another with Maximum Likelihood Estimation ( http://arxiv.org/abs/2309.06472v1 )

ライセンス: Link先を確認
Tobias Golling, Samuel Klein, Radha Mastandrea, Benjamin Nachman, John Andrew Raine(参考訳) 高エネルギー物理学におけるデータ分析の多くのコンポーネントは、あるデータセットを別のデータセットに変形させる必要がある。 これは一般に再重み付けによって解決されるが、重みを保ち、代わりにデータポイントをシフトする多くの利点がある。 正規化フローは、様々な素粒子物理学タスクにおいて印象的な精度を持つ機械学習モデルである。 フローの正規化は、開始データセットの確率密度の知識を必要とするため、モーフィングには使用できない。 粒子物理学のほとんどの場合、より多くの例を生成できるが、明確に密度は分かっていない。 いずれのデータセットの確率密度も明確に分かっていても,フローの正規化をトレーニングするためのflows for flowというプロトコルを提案する。 これにより、最大推定値で訓練されたモーフィング戦略が実現され、関連するタスクに非常に効果的であることが示されている。 我々は,このプロトコルのバリエーションを調査し,データポイントの移動距離を統計的に比較した。 さらに,条件付け機能の各値に対してモーフィング関数を作成するために,特定の特徴について学習フローを条件付けする方法を示す。 例えば、おもちゃの例のフローや、ディジェット現象を含む衝突器物理学の例を示す。

Many components of data analysis in high energy physics and beyond require morphing one dataset into another. This is commonly solved via reweighting, but there are many advantages of preserving weights and shifting the data points instead. Normalizing flows are machine learning models with impressive precision on a variety of particle physics tasks. Naively, normalizing flows cannot be used for morphing because they require knowledge of the probability density of the starting dataset. In most cases in particle physics, we can generate more examples, but we do not know densities explicitly. We propose a protocol called flows for flows for training normalizing flows to morph one dataset into another even if the underlying probability density of neither dataset is known explicitly. This enables a morphing strategy trained with maximum likelihood estimation, a setup that has been shown to be highly effective in related tasks. We study variations on this protocol to explore how far the data points are moved to statistically match the two datasets. Furthermore, we show how to condition the learned flows on particular features in order to create a morphing function for every value of the conditioning feature. For illustration, we demonstrate flows for flows for toy examples as well as a collider physics example involving dijet events
翻訳日:2023-09-14 16:52:50 公開日:2023-09-12
# 固有状態分布の解剖学:真の多相性を求めて

Anatomy of the eigenstates distribution: a quest for a genuine multifractality ( http://arxiv.org/abs/2309.06468v1 )

ライセンス: Link先を確認
Anton Kutlin and Ivan M. Khaymovich(参考訳) 最近の一連の研究によって動機づけられたマルチフラクタル相への関心は、Multi-Body Localized (MBL) フェーズに存在し、量子アニールや機械学習において高い需要があると考えられているため高まっている。 ガウス分布ホッピング要素を持つRosenzweigPorter(RP)モデルの成功に触発されて、太い尾を持つ分散ホッピング項を持つRPライクなアンサンブルがいくつか提案されている。 本研究では, 汎用RPモデルに対するフラクタル次元の自己整合解析計算を可能にする一般(図式)アプローチを開発し, マルチフラクタル相の出現に対するRPハミルトニアンの特徴について検討する。 真のマルチフラクタル性に寄与する唯一の特徴は、オンサイトエネルギーの分布であり、つまり、統計的に均質な対角性障害の分布と非相関な対角性項を持つランダム行列モデルがマルチフラクタル位相をホストできないことを意味する。

Motivated by a series of recent works, an interest in multifractal phases has risen as they are believed to be present in the Many-Body Localized (MBL) phase and are of high demand in quantum annealing and machine learning. Inspired by the success of the RosenzweigPorter (RP) model with Gaussian-distributed hopping elements, several RP-like ensembles with the fat-tailed distributed hopping terms have been proposed, with claims that they host the desired multifractal phase. In the present work, we develop a general (graphical) approach allowing a self-consistent analytical calculation of fractal dimensions for a generic RP model and investigate what features of the RP Hamiltonians can be responsible for the multifractal phase emergence. We conclude that the only feature contributing to a genuine multifractality is the on-site energies' distribution, meaning that no random matrix model with a statistically homogeneous distribution of diagonal disorder and uncorrelated off-diagonal terms can host a multifractal phase.
翻訳日:2023-09-14 16:52:29 公開日:2023-09-12
# 2次元スケルトンヒートマップを用いたアクションセグメンテーション

Action Segmentation Using 2D Skeleton Heatmaps ( http://arxiv.org/abs/2309.06462v1 )

ライセンス: Link先を確認
Syed Waleed Hyder, Muhammad Usama, Anas Zafar, Muhammad Naufil, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,人間の活動認識における2次元スケルトンに基づく行動分割法を提案する。 時空間特徴学習において3次元骨格座標のシーケンスを直接入力として取り込んでグラフ畳み込みネットワーク(GCN)を適用する最先端の手法とは対照的に,我々は2次元骨格熱マップのシーケンスを入力として使用し,時空間畳み込みネットワーク(TCN)を用いて時空間特徴を抽出する。 3d情報の欠如にもかかわらず、従来のアクションセグメンテーションデータセットの手法よりも、同等/上位のパフォーマンスと欠落したキーポイントに対するロバスト性が向上している。 さらに、2DスケルトンヒートマップとRGBビデオの両方を入力として使用することで、パフォーマンスをさらに向上する。 我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン+RGB融合を探索する最初の研究である。

This paper presents a 2D skeleton-based action segmentation method with applications in fine-grained human activity recognition. In contrast with state-of-the-art methods which directly take sequences of 3D skeleton coordinates as inputs and apply Graph Convolutional Networks (GCNs) for spatiotemporal feature learning, our main idea is to use sequences of 2D skeleton heatmaps as inputs and employ Temporal Convolutional Networks (TCNs) to extract spatiotemporal features. Despite lacking 3D information, our approach yields comparable/superior performances and better robustness against missing keypoints than previous methods on action segmentation datasets. Moreover, we improve the performances further by using both 2D skeleton heatmaps and RGB videos as inputs. To our best knowledge, this is the first work to utilize 2D skeleton heatmap inputs and the first work to explore 2D skeleton+RGB fusion for action segmentation.
翻訳日:2023-09-14 16:52:06 公開日:2023-09-12
# 広く解釈可能な意味表現:幅広い適用性のためのフレームレス意味表現

Widely Interpretable Semantic Representation: Frameless Meaning Representation for Broader Applicability ( http://arxiv.org/abs/2309.06460v1 )

ライセンス: Link先を確認
Lydia Feng, Gregor Williamson, Han He, Jinho D. Choi(参考訳) 本稿では,抽象的意味表現 (AMR) の課題を克服する新しい意味表現 WISeR を提案する。 その強みにもかかわらず、AMRは事前に定義されたセマンティックフレームなしでは言語やドメインに簡単に適用できず、番号付き引数を使用すると、直接解釈できないセマンティックロールラベルとなり、パーサーにセマンティックオーバーロードされる。 本稿では,AMRにおける述語数論法を検証し,意味的フレームを参照する必要のない主題的役割に変換する。 wiserとamrの両方に注釈付き1kの英語対話文の新しいコーパスを作成する。 WISeRは初心者と経験者アノテータに対してより強力なアノテータ契約を示し、初心者はWISeRアノテーションに精通するようになる。 最後に、AMR 3.0コーパスと、AMR 3.0から変換されたWISeRコーパスに最先端のパーサをトレーニングする。 これらのコーパスと対話コーパスを用いて解析を行った。 WISeRモデルはボード全体のAMRよりも高い精度を示しており、WISeRはパーサーが学習しやすいことを示している。

This paper presents a novel semantic representation, WISeR, that overcomes challenges for Abstract Meaning Representation (AMR). Despite its strengths, AMR is not easily applied to languages or domains without predefined semantic frames, and its use of numbered arguments results in semantic role labels, which are not directly interpretable and are semantically overloaded for parsers. We examine the numbered arguments of predicates in AMR and convert them to thematic roles that do not require reference to semantic frames. We create a new corpus of 1K English dialogue sentences annotated in both WISeR and AMR. WISeR shows stronger inter-annotator agreement for beginner and experienced annotators, with beginners becoming proficient in WISeR annotation more quickly. Finally, we train a state-of-the-art parser on the AMR 3.0 corpus and a WISeR corpus converted from AMR 3.0. The parser is evaluated on these corpora and our dialogue corpus. The WISeR model exhibits higher accuracy than its AMR counterpart across the board, demonstrating that WISeR is easier for parsers to learn.
翻訳日:2023-09-14 16:51:45 公開日:2023-09-12
# 不正識別を用いた一般$d$レベルの量子秘密共有方式

General $d$-level quantum multi-secret sharing scheme with cheating identification ( http://arxiv.org/abs/2309.06458v1 )

ライセンス: Link先を確認
Deepa Rathi, Sanjeev Kumar(参考訳) 本研究は、不正検出機構を備えた$d$次元量子マルチシークレット共有(QMSS)方式を提案する。 ディーラーは、マルチアクセス構造とモノトーンスパンプログラムを使用して秘密共有を作成する。 参加者の不正を検出するために、ディーラーは、ブラックボックスに格納されたランダムな可逆行列$x$に由来する秘密共有シャドーを参加者に配布する。 ブラックボックスの不正検出機構は、秘密回復フェーズにおける参加者の偽りの振る舞いを特定する。 ブラックボックスによって認証された正直な参加者だけが秘密の株を取得し、複数の秘密を回復する。 ブラックボックスの不正検証の後、参加者はユニタリ演算と量子フーリエ変換を利用して秘密を再構築する。 提案プロトコルは盗聴者や参加者からの攻撃を防ぐ。 提案プロトコルは、より汎用性、セキュリティ、実用性を提供する。

This work proposes a $d$-dimensional quantum multi-secret sharing (QMSS) scheme with a cheat detection mechanism. The dealer creates the secret shares using multi access structures and a monotone span program. To detect the participant's deceit, the dealer distributes secret share shadows derived from a random invertible matrix $X$ to the participants, stored in the Black box. The cheat detection mechanism of the Black box identifies the participant's deceitful behavior during the secret recovery phase. Only honest participants authenticated by the Black box acquire their secret shares to recover the multiple secrets. After the Black box cheating verification, the participants reconstruct the secrets by utilizing the unitary operations and quantum Fourier transform. The proposed protocol is reliable to prevent attacks from eavesdroppers and participants. The proposed protocol provides greater versatility, security, and practicality.
翻訳日:2023-09-14 16:51:25 公開日:2023-09-12
# 大規模言語モデルを用いた教師付き文表現学習と教師なし文表現のギャップを狭める

Narrowing the Gap between Supervised and Unsupervised Sentence Representation Learning with Large Language Model ( http://arxiv.org/abs/2309.06453v1 )

ライセンス: Link先を確認
Mingxin Li, Richong Zhang, Zhijie Nie, Yongyi Mao(参考訳) 文表現学習(srl)は自然言語処理(nlp)における基本課題であり、文章埋め込み(cse)のコントラスト学習はその優れた性能のために主流となる技術である。 CSEにおける興味深い現象は、その文エンコーダと損失関数が同じである場合でも、教師付きメソッドと教師なしメソッドの間の重要なパフォーマンスギャップである。 以前は、このパフォーマンスギャップは2つの表現特性(配向と均一性)の違いによるものであった。 しかし、アライメントと均一性は結果のみを測定するため、"パフォーマンスギャップにつながるトレーニングプロセスの間に何が起こるのか?"、“パフォーマンスギャップを狭めるにはどうすればよいのか? 本稿では,これらの「何」と「どのように」の問いに答える実験を行う。 まず,各学習過程における教師なしCSEの挙動を徹底的に比較し,その「何」に答える。 比較から,適合困難度に有意差がみられた。 そこで,本研究では,評価データセットとホールドアウトトレーニングデータセットの間の適合困難度を計測するfdi(フィッティング困難度インクリメント)と呼ばれる指標を導入し,その指標を用いて「何」の質問に答える。 次に,「何」質問から得られた洞察に基づいて,学習データセットの適合難易度を高めることで「どのように」質問に取り組む。 我々は,Large Language Model (LLM) の In-Context Learning (ICL) 機能を活用し,複雑なパターンをシミュレートするデータを生成する。 LLM生成データにおける階層パターンを利用して、教師なしCSEと教師なしCSEのギャップを効果的に狭める。

Sentence Representation Learning (SRL) is a fundamental task in Natural Language Processing (NLP), with Contrastive learning of Sentence Embeddings (CSE) as the mainstream technique due to its superior performance. An intriguing phenomenon in CSE is the significant performance gap between supervised and unsupervised methods, even when their sentence encoder and loss function are the same. Previous works attribute this performance gap to differences in two representation properties (alignment and uniformity). However, alignment and uniformity only measure the results, which means they cannot answer "What happens during the training process that leads to the performance gap?" and "How can the performance gap be narrowed?". In this paper, we conduct empirical experiments to answer these "What" and "How" questions. We first answer the "What" question by thoroughly comparing the behavior of supervised and unsupervised CSE during their respective training processes. From the comparison, We observe a significant difference in fitting difficulty. Thus, we introduce a metric, called Fitting Difficulty Increment (FDI), to measure the fitting difficulty gap between the evaluation dataset and the held-out training dataset, and use the metric to answer the "What" question. Then, based on the insights gained from the "What" question, we tackle the "How" question by increasing the fitting difficulty of the training dataset. We achieve this by leveraging the In-Context Learning (ICL) capability of the Large Language Model (LLM) to generate data that simulates complex patterns. By utilizing the hierarchical patterns in the LLM-generated data, we effectively narrow the gap between supervised and unsupervised CSE.
翻訳日:2023-09-14 16:51:14 公開日:2023-09-12
# 量子化非揮発性ナノ磁気合成に基づく非教師なしネットワーク異常検出のためのオートエンコーダ

Quantized Non-Volatile Nanomagnetic Synapse based Autoencoder for Efficient Unsupervised Network Anomaly Detection ( http://arxiv.org/abs/2309.06449v1 )

ライセンス: Link先を確認
Muhammad Sabbir Alam, Walid Al Misba, Jayasimha Atulasimha(参考訳) オートエンコーダに基づく異常検出パラダイムでは,ハードウェア,エネルギー,計算資源の制限により,リアルタイムに学習可能なエッジデバイスにオートエンコーダを実装することは極めて困難である。 これらの制限は、低解像度の非揮発性メモリベースのシナプスを持つオートエンコーダを設計し、効果的な量子化ニューラルネットワーク学習アルゴリズムを用いて対処できることが示される。 磁気領域壁(DW)を自己エンコーダのシナプスとして包含するノッチを用いた強磁性競馬場を提案し, スピン軌道トルク(SOT)電流パルスによって有限状態(5状態)シナプス重みを演算する。 NSL-KDDデータセットを用いて,提案したオートエンコーダモデルの異常検出性能を評価する。 浮動小数点精度重みを有するオートエンコーダに匹敵する異常検出性能を有するオートエンコーダの限定分解能及びDWデバイス確率性学習を行う。 ナノスケールデバイスにおけるDWシナプス重みの量子化状態の限られた数と固有確率特性は性能に悪影響を及ぼすことが知られているが,ハードウェア・アウェア・トレーニング・アルゴリズムはこれらの不完全なデバイス特性を活用し,浮動小数点学習重量の精度と比較して異常検出精度(90.98%)の向上を図っている。 さらに,本手法は浮動小数点法に比べて,トレーニング中の重み更新の少なくとも3桁の大幅な削減効果を示し,本手法の省エネルギー効果を示唆する。 この研究は、非教師なしデータでエッジ上でリアルタイムのトレーニングと推論を行うことができる超エネルギー効率の非揮発性マルチステートシナプスベースのプロセッサの開発を促進する可能性がある。

In the autoencoder based anomaly detection paradigm, implementing the autoencoder in edge devices capable of learning in real-time is exceedingly challenging due to limited hardware, energy, and computational resources. We show that these limitations can be addressed by designing an autoencoder with low-resolution non-volatile memory-based synapses and employing an effective quantized neural network learning algorithm. We propose a ferromagnetic racetrack with engineered notches hosting a magnetic domain wall (DW) as the autoencoder synapses, where limited state (5-state) synaptic weights are manipulated by spin orbit torque (SOT) current pulses. The performance of anomaly detection of the proposed autoencoder model is evaluated on the NSL-KDD dataset. Limited resolution and DW device stochasticity aware training of the autoencoder is performed, which yields comparable anomaly detection performance to the autoencoder having floating-point precision weights. While the limited number of quantized states and the inherent stochastic nature of DW synaptic weights in nanoscale devices are known to negatively impact the performance, our hardware-aware training algorithm is shown to leverage these imperfect device characteristics to generate an improvement in anomaly detection accuracy (90.98%) compared to accuracy obtained with floating-point trained weights. Furthermore, our DW-based approach demonstrates a remarkable reduction of at least three orders of magnitude in weight updates during training compared to the floating-point approach, implying substantial energy savings for our method. This work could stimulate the development of extremely energy efficient non-volatile multi-state synapse-based processors that can perform real-time training and inference on the edge with unsupervised data.
翻訳日:2023-09-14 16:50:42 公開日:2023-09-12
# 民族性とバイオメトリック・ユニーク性:西アフリカデータベースにおける虹彩パターンの個性

Ethnicity and Biometric Uniqueness: Iris Pattern Individuality in a West African Database ( http://arxiv.org/abs/2309.06521v1 )

ライセンス: Link先を確認
John Daugman, Cathryn Downing, Oluwatobi Noah Akande, Oluwakemi Christiana Abikoye(参考訳) 我々はナイジェリアの2つの大学で収集された画像から得られた虹彩パターンの13万件以上の比較を行い、新たに利用可能なアフリカ人虹彩(AFHIRIS)データベースを構成した。 本研究の目的は、オールチャイニーズ画像データベースや、わずか1.53%のアフリカ系アメリカ人の遺産であるアメリカのデータベースとは対照的に、アイリスの構造と外観の民族差が、アイリスの識別に重要な違いをもたらしたかどうかを明らかにすることである。 AFHIRISデータベースのエントロピーの低下は, 厚いメラノサイト前層から生じる粗い虹彩の特徴によるものであり, 関連する経験分布を正確にモデル化する確率的パラメーターが発見された。 Quantile-Quantile解析により、アフリカのデータベースの操作決定しきい値の非常に小さな変更がエントロピーの減少を補い、False Matchesに対する抵抗の点で同じ性能を生成することが明らかとなった。 人口差にもかかわらず、個人性は西アフリカの人口の虹彩パターンの比較によって確実に識別できると結論付けている。

We conducted more than 1.3 million comparisons of iris patterns encoded from images collected at two Nigerian universities, which constitute the newly available African Human Iris (AFHIRIS) database. The purpose was to discover whether ethnic differences in iris structure and appearance such as the textural feature size, as contrasted with an all-Chinese image database or an American database in which only 1.53% were of African-American heritage, made a material difference for iris discrimination. We measured a reduction in entropy for the AFHIRIS database due to the coarser iris features created by the thick anterior layer of melanocytes, and we found stochastic parameters that accurately model the relevant empirical distributions. Quantile-Quantile analysis revealed that a very small change in operational decision thresholds for the African database would compensate for the reduced entropy and generate the same performance in terms of resistance to False Matches. We conclude that despite demographic difference, individuality can be robustly discerned by comparison of iris patterns in this West African population.
翻訳日:2023-09-14 16:41:21 公開日:2023-09-12
# 文法誤り訂正システムのシステム結合における最小ベイズのリスクデコード

Minimum Bayes' Risk Decoding for System Combination of Grammatical Error Correction Systems ( http://arxiv.org/abs/2309.06520v1 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) シーケンスからシーケンスまでのタスクでは、個々のシステム出力を組み合わせることが難しい。 さらに、デコード基準と評価に用いる基準との間には、しばしばミスマッチがある。 最小ベイズリスク(mbr)デコーディングは、最終評価基準とより良い一致を促す方法でシステム出力を組み合わせるために使用できる。 本稿では,文法的誤り訂正システム(GEC)のMBRデコーディングについて検討する。 そこで本研究では,この形式に直結した新しいMBR損失関数を提案する。 さらに、候補文の集合を拡張するためのアプローチについても述べる。 これは、現在の最大投票の組み合わせスキームと、個々の編集レベルの選択に基づいて構築される。 3つの一般的なECCデータセットと最先端のECCシステムを用いた実験は、提案したMBRアプローチの有効性を示す。 さらに、MBRデコーディングフレームワーク内の様々な報酬指標が、複合GECシステムにおける精度、リコール、Fスコアの制御にどのように役立つかを強調した。

For sequence-to-sequence tasks it is challenging to combine individual system outputs. Further, there is also often a mismatch between the decoding criterion and the one used for assessment. Minimum Bayes' Risk (MBR) decoding can be used to combine system outputs in a manner that encourages better alignment with the final assessment criterion. This paper examines MBR decoding for Grammatical Error Correction (GEC) systems, where performance is usually evaluated in terms of edits and an associated F-score. Hence, we propose a novel MBR loss function directly linked to this form of criterion. Furthermore, an approach to expand the possible set of candidate sentences is described. This builds on a current max-voting combination scheme, as well as individual edit-level selection. Experiments on three popular GEC datasets and with state-of-the-art GEC systems demonstrate the efficacy of the proposed MBR approach. Additionally, the paper highlights how varying reward metrics within the MBR decoding framework can provide control over precision, recall, and the F-score in combined GEC systems.
翻訳日:2023-09-14 16:41:01 公開日:2023-09-12
# アドバンスアウェア・レコメンデーションのためのq-learningアプローチ

A Q-learning Approach for Adherence-Aware Recommendations ( http://arxiv.org/abs/2309.06519v1 )

ライセンス: Link先を確認
Ioannis Faros and Aditya Dave and Andreas A. Malikopoulos(参考訳) ハイステイクと安全性に関する多くの現実世界のシナリオにおいて、人間の意思決定者(hdm)は、意思決定の究極の責任を負いながら、人工知能から推奨を受ける可能性がある。 本稿では,この問題に対処するために,アドヘレンスアウェアなq-learningアルゴリズムを開発した。 このアルゴリズムは、hdmが推奨アクションに従う頻度をキャプチャする「アドヘレンスレベル」を学習し、最適な推奨ポリシーをリアルタイムで導出する。 提案するq-learningアルゴリズムを最適値に収束させ,その性能を様々なシナリオで評価する。

In many real-world scenarios involving high-stakes and safety implications, a human decision-maker (HDM) may receive recommendations from an artificial intelligence while holding the ultimate responsibility of making decisions. In this letter, we develop an "adherence-aware Q-learning" algorithm to address this problem. The algorithm learns the "adherence level" that captures the frequency with which an HDM follows the recommended actions and derives the best recommendation policy in real time. We prove the convergence of the proposed Q-learning algorithm to the optimal value and evaluate its performance across various scenarios.
翻訳日:2023-09-14 16:40:46 公開日:2023-09-12
# memotion 3の概要 : コード混合hinglishミームの感情分析と感情分析

Overview of Memotion 3: Sentiment and Emotion Analysis of Codemixed Hinglish Memes ( http://arxiv.org/abs/2309.06517v1 )

ライセンス: Link先を確認
Shreyash Mishra, S Suryavardan, Megha Chakraborty, Parth Patwa, Anku Rani, Aman Chadha, Aishwarya Reganti, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal and Srijan Kumar(参考訳) インターネット上でのミームの分析は、このマルチモーダルな形のコンテンツがオンライン談話の形成に影響を及ぼすため、重要な取り組みとして現れてきた。 ミームは感情や感情を表現し、ユーモアや皮肉を通じて憎しみや誤報を広める強力なツールになっている。 本稿では,AAAI-23におけるDeFactify 2ワークショップの一環として,Memotion 3共有タスクの概要を紹介する。 タスクA(Task A)、感情B(Task B)、感情強度(Task C)に基づいて、ヒンディー語と英語のコード混合ミームの注釈付きデータセットをリリースした。 これらはそれぞれ個別のタスクとして定義され、参加者は各タスクごとに別々にランク付けされる。 50以上のチームが共有タスクに登録し、5つがmemotion 3データセットのテストセットに最終提出を行った。 CLIP、BERT修正、ViTなどは学生-教師モデル、Fusion、Ensemblingといったアプローチとともに参加者の間で最も人気のあるモデルであった。 AタスクのF1スコアは34.41、Bタスクは79.77、Cタスクは59.82である。

Analyzing memes on the internet has emerged as a crucial endeavor due to the impact this multi-modal form of content wields in shaping online discourse. Memes have become a powerful tool for expressing emotions and sentiments, possibly even spreading hate and misinformation, through humor and sarcasm. In this paper, we present the overview of the Memotion 3 shared task, as part of the DeFactify 2 workshop at AAAI-23. The task released an annotated dataset of Hindi-English code-mixed memes based on their Sentiment (Task A), Emotion (Task B), and Emotion intensity (Task C). Each of these is defined as an individual task and the participants are ranked separately for each task. Over 50 teams registered for the shared task and 5 made final submissions to the test set of the Memotion 3 dataset. CLIP, BERT modifications, ViT etc. were the most popular models among the participants along with approaches such as Student-Teacher model, Fusion, and Ensembling. The best final F1 score for Task A is 34.41, Task B is 79.77 and Task C is 59.82.
翻訳日:2023-09-14 16:40:36 公開日:2023-09-12
# df-transfusion: 口唇交叉と顔面自己接触によるマルチモーダルディープフェイク検出

DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention ( http://arxiv.org/abs/2309.06511v1 )

ライセンス: Link先を確認
Aaditya Kharel, Manas Paranjape, Aniket Bera(参考訳) 操作メディアの増加に伴い、ディープフェイク検出はデジタルコンテンツの信頼性を維持するための必須課題となっている。 本稿では,ディープフェイク検出タスクにおいて,音声と映像を同時に処理するマルチモーダルオーディオビデオフレームワークを提案する。 本モデルでは,vgg-16ネットワークを用いて視覚手がかりを抽出しながら,クロスアテンション機構による入力音声とのリップ同期を活用している。 その後、変圧器エンコーダネットワークを用いて顔自己着脱を行う。 アプローチのさまざまな強みを強調する複数のアブレーション研究を行っている。 マルチモーダル手法は,f-1とビデオ単位のaucスコアで最先端のマルチモーダルディープフェイク検出技術を上回る。

With the rise in manipulated media, deepfake detection has become an imperative task for preserving the authenticity of digital content. In this paper, we present a novel multi-modal audio-video framework designed to concurrently process audio and video inputs for deepfake detection tasks. Our model capitalizes on lip synchronization with input audio through a cross-attention mechanism while extracting visual cues via a fine-tuned VGG-16 network. Subsequently, a transformer encoder network is employed to perform facial self-attention. We conduct multiple ablation studies highlighting different strengths of our approach. Our multi-modal methodology outperforms state-of-the-art multi-modal deepfake detection techniques in terms of F-1 and per-video AUC scores.
翻訳日:2023-09-14 16:40:16 公開日:2023-09-12
# 機械結合ゲインロス発振器における例外点誘起量子位相同期と絡み合いダイナミクス

Exceptional point induced quantum phase synchronization and entanglement dynamics in mechanically coupled gain-loss oscillators ( http://arxiv.org/abs/2309.06508v1 )

ライセンス: Link先を確認
Joy Ghosh, Souvik Mondal, Shailendra K. Varshney, kapil Debnath(参考訳) オプトメカニカルキャビティ(omc)システムは、過去10年間にわたって連続変数量子情報の出現におけるパラダイムである。 本稿では, 共役ゲイン損失機械発振器における量子位相同期と2成分ガウスの絡み合いの関係について検討し, キャビティを青色および赤色のデチューンレーザーで駆動することにより, ゲインと損失率を制御した。 発振器の2次揺らぎの間にロバストな量子相関を生じさせる自己持続振動を生成する決定論的方法における例外点の役割について検討する。 特に、安定相同期ダイナミクスと絡み合い現象は、臨界駆動力の上の効果的な弱い結合状態において観察される。 これらの現象は、ウィグナー分布の機械的スクイーズと位相空間回転を観察してさらに検証される。 さらに,発振器の周波数ミスマッチと熱フォノンによるデコヒーレンスがシステムのダイナミクスに与える影響について考察する。 これらの発見はフォノンベースの量子通信と情報処理への応用を約束している。

The optomechanical cavity (OMC) system has been a paradigm in the manifestation of continuous variable quantum information over the past decade. This paper investigates how quantum phase synchronization relates to bipartite Gaussian entanglement in coupled gain-loss mechanical oscillators, where the gain and loss rates are engineered by driving the cavity with blue and red detuned lasers, respectively. We examine the role of exceptional point in a deterministic way of producing self-sustained oscillations that induce robust quantum correlations among quadrature fluctuations of the oscillators. Particularly, steady phase synchronization dynamics along with the entanglement phenomena are observed in the effective weak coupling regime above a critical driving power. These phenomena are further verified by observing the mechanical squeezing and phase space rotations of the Wigner distributions. Additionally, we discuss how the oscillators frequency mismatches and decoherence due to thermal phonons impact the system dynamics. These findings hold promise for applications in phonon-based quantum communication and information processing.
翻訳日:2023-09-14 16:40:03 公開日:2023-09-12
# ソーシャルメディアデータアノテーションのための大規模言語モデルと弱スーパービジョンの活用 : COVID-19自己申告型予防接種ツイートを用いた評価

Leveraging Large Language Models and Weak Supervision for Social Media data annotation: an evaluation using COVID-19 self-reported vaccination tweets ( http://arxiv.org/abs/2309.06503v1 )

ライセンス: Link先を確認
Ramya Tekumalla and Juan M. Banda(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、医療業界や社会全体に大きな課題をもたらした。 新型コロナウイルスワクチンの急速な発展に伴い、ソーシャルメディアプラットフォームはワクチン関連の話題に関する議論の場となっている。 ワクチンに関連するツイートを特定し分析することで、公衆衛生研究や政策立案者に貴重な洞察を与えることができる。 しかし、大量のツイートのマニュアルアノテーションは、時間と費用がかかる。 本研究では,GPT-4(3月23日版)を用いて,ヒトアノテータとの性能を比較することを目的とした,COVID-19ワクチン関連ツイートを識別する手法について検討した。 gpt-4を使って、追加の微調整や指示なしで、シングルショットモードで(追加のプロンプトなしで)ラベルを提供しました。

The COVID-19 pandemic has presented significant challenges to the healthcare industry and society as a whole. With the rapid development of COVID-19 vaccines, social media platforms have become a popular medium for discussions on vaccine-related topics. Identifying vaccine-related tweets and analyzing them can provide valuable insights for public health research-ers and policymakers. However, manual annotation of a large number of tweets is time-consuming and expensive. In this study, we evaluate the usage of Large Language Models, in this case GPT-4 (March 23 version), and weak supervision, to identify COVID-19 vaccine-related tweets, with the purpose of comparing performance against human annotators. We leveraged a manu-ally curated gold-standard dataset and used GPT-4 to provide labels without any additional fine-tuning or instructing, in a single-shot mode (no additional prompting).
翻訳日:2023-09-14 16:39:45 公開日:2023-09-12
# フォトニック量子ネットワークにおける非局所性活性化

Nonlocality activation in a photonic quantum network ( http://arxiv.org/abs/2309.06501v1 )

ライセンス: Link先を確認
Luis Villegas-Aguilar, Emanuele Polino, Farzad Ghafari, Marco T\'ulio Quintino, Kiarn Laverick, Ian R. Berkman, Sven Rogge, Lynden K. Shalm, Nora Tischler, Eric G. Cavalcanti, Sergei Slussarenko, Geoff J. Pryde(参考訳) ベル非局所性 (bell nonlocality) は、古典的因果関係の概念に挑戦する2つの遠方の絡み合った粒子の間の相関関係を指す。 基礎的な重要性の他に、非局所性は量子鍵分布やランダムネス生成のようなデバイスに依存しない技術にとって重要である。 非局所性はノイズの存在下で急速に悪化し、非局所相関は追加の資源を必要とする。 これらは多くの場合、入力状態と共同測定の多くの例の形で行われ、重要なリソースオーバーヘッドを引き起こす。 ここでは,標準ベルの不等式に違反することができないベル局所状態の単一コピーが,複数のパーティの量子ネットワークに埋め込まれた後に非局所性を引き起こすことを示す。 状態の一部を2つの独立した受信機に放送する量子チャネルに初期絡み合った状態を入力し、調整されたベル様不等式に違反してネットワーク内の非局所性を証明する。 これらの結果は、準備された状態、量子チャネル、あるいは量子理論の妥当性について仮定することなく得られる。 本研究は,非局所性に基礎的な意味を持ち,ノイズに支配されるシナリオにおいても,実世界のアプリケーションにおいて非局所相関の実践的利用を可能にする。

Bell nonlocality refers to correlations between two distant, entangled particles that challenge classical notions of local causality. Beyond its foundational significance, nonlocality is crucial for device-independent technologies like quantum key distribution and randomness generation. Nonlocality quickly deteriorates in the presence of noise, and restoring nonlocal correlations requires additional resources. These often come in the form of many instances of the input state and joint measurements, incurring a significant resource overhead. Here, we experimentally demonstrate that single copies of Bell-local states, incapable of violating any standard Bell inequality, can give rise to nonlocality after being embedded into a quantum network of multiple parties. We subject the initial entangled state to a quantum channel that broadcasts part of the state to two independent receivers and certify the nonlocality in the resulting network by violating a tailored Bell-like inequality. We obtain these results without making any assumptions about the prepared states, the quantum channel, or the validity of quantum theory. Our findings have fundamental implications for nonlocality and enable the practical use of nonlocal correlations in real-world applications, even in scenarios dominated by noise.
翻訳日:2023-09-14 16:39:30 公開日:2023-09-12
# 双極子ゲージにおける導波路QED

Waveguide QED in the Dipole Gauge ( http://arxiv.org/abs/2309.06500v1 )

ライセンス: Link先を確認
Sergi Terradas-Brians\'o, Luis Mart\'in-Moreno, David Zueco(参考訳) キャビティにおける物質と光の超強結合に関する最近の研究では、広く使われている2レベル近似を用いた場合のゲージ選択の重要性が強調されている。 これらの研究を拡張して、導波路QEDに解析を拡張し、ダイポールゲージでのトラルケーションが正確な結果をもたらすことを示した。 この点を説明するために、空洞アレイに結合した双極子の場合を考える。 システムの低エネルギー力学を研究するために、様々な数値解析技術が用いられている。 これらの理論ツールを活用することで、単一光子散乱はゲージ関連の問題を調べるのに理想的な方法であると論じる。 以上の結果から, クーロンゲージを用いた切断モデルでは再現できない散乱スペクトルの2つの新しい効果が明らかになった。 第一に、一次共鳴はラムシフトの寄与によって変化する。 次に、この共鳴を囲む非対称透過振幅を観測し、このモデルにおけるスペクトル密度の非対称性を反映した。 さらに、ファノ共鳴や非弾性チャネルの出現など、超強結合による散乱スペクトルの他の特徴についても検討する。 最後に、回路QEDの文脈において、我々のアイデアを実験的に検証する。

In recent studies on ultrastrong coupling between matter and light in cavities, the significance of gauge choice when employing the widely-used two-level approximation has been highlighted. Expanding upon these investigations, we extend the analysis to waveguide QED, where we demonstrate that truncations performed in the dipole gauge also yield accurate results. To illustrate this point, we consider the case of a dipole coupled to a cavity array. Various numerical and analytical techniques have been employed to investigate the low-energy dynamics of the system. Leveraging these theoretical tools, we argue that single photon scattering is an ideal method for investigating gauge-related issues. Our findings reveal two novel effects in the scattering spectra, which cannot be reproduced in a truncated model using the Coulomb gauge. Firstly, the primary resonance is modified due to a Lamb shift contribution. Secondly, we observe asymmetric transmission amplitudes surrounding this resonance, reflecting the asymmetry of the spectral density in this model. Additionally, we explore other features in the scattering spectra resulting from ultrastrong couplings, such as the emergence of Fano resonances and inelastic channels. Finally, we propose an experimental test of our ideas in the context of circuit QED.
翻訳日:2023-09-14 16:39:09 公開日:2023-09-12
# 大規模ニューラルネットワーク学習のための分散シャンプー最適化器の分散データ並列PyTorch実装

A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale ( http://arxiv.org/abs/2309.06497v1 )

ライセンス: Link先を確認
Hao-Jun Michael Shi, Tsung-Hsien Lee, Shintaro Iwasaki, Jose Gallego-Posada, Zhijing Li, Kaushik Rangadurai, Dheevatsa Mudigere, and Michael Rabbat(参考訳) Shampooは、ニューラルネットワークをトレーニングするためのAdaGradファミリーに属する、オンラインで確率的な最適化アルゴリズムである。 ブロック対角プレコンディショナー(block-diagonal preconditioner)を構築し、各ブロックはニューラルネットワークの各パラメータのフルマトリックスアダグラードに近似する粗いクロネッカー積からなる。 本研究では,PyTorchのディープ・ネットワークを大規模にトレーニングするために,アルゴリズムの完全な記述と,実装が活用する性能最適化について述べる。 本稿では、pytorchのdtensorデータ構造を介して各パラメータのブロックに関連付けられたメモリと計算を分散し、各イテレーションで計算された検索方向に対してallgatherプリミティブを実行し、高速マルチgpu分散データ並列トレーニングを実現する。 この性能向上により、標準的な対角線スケーリングに基づく適応勾配法と比較して、ステップ毎のウォールタイムの10%以上の性能低下を達成できる。 我々は、ImageNet ResNet50のトレーニングに関するアブレーション研究を行い、最小限のハイパーパラメータチューニングによる標準的なトレーニングレシピよりもシャンプーの方が優れていることを示す。

Shampoo is an online and stochastic optimization algorithm belonging to the AdaGrad family of methods for training neural networks. It constructs a block-diagonal preconditioner where each block consists of a coarse Kronecker product approximation to full-matrix AdaGrad for each parameter of the neural network. In this work, we provide a complete description of the algorithm as well as the performance optimizations that our implementation leverages to train deep networks at-scale in PyTorch. Our implementation enables fast multi-GPU distributed data-parallel training by distributing the memory and computation associated with blocks of each parameter via PyTorch's DTensor data structure and performing an AllGather primitive on the computed search directions at each iteration. This major performance enhancement enables us to achieve at most a 10% performance reduction in per-step wall-clock time compared against standard diagonal-scaling-based adaptive gradient methods. We validate our implementation by performing an ablation study on training ImageNet ResNet50, demonstrating Shampoo's superiority over standard training recipes with minimal hyperparameter tuning.
翻訳日:2023-09-14 16:38:50 公開日:2023-09-12
# AI会話としてのコマンド

Commands as AI Conversations ( http://arxiv.org/abs/2309.06551v1 )

ライセンス: Link先を確認
Diomidis Spinellis(参考訳) 開発者やデータサイエンティストは、ChatGPTのようなグラフィカルなインターフェースやツールが役に立つとしても、コマンドライン入力を書くのに苦労することが多い。 解決策は? これはGitHub Copilotにインスパイアされたオープンソースのシステムで、自然言語プロンプトをさまざまなLinuxコマンドラインツールの実行可能なコマンドに変換する。 JSON HTTPリクエストによるインタラクションを可能にするOpenAIのAPIをタップすることで、"ai-cli"はユーザクエリを実行可能なコマンドライン命令に変換する。 しかし、複数のコマンドラインツール、特にオープンソースの設定にAIアシストを統合するのは、複雑である。 歴史的に、オペレーティングシステムは仲介を行うことができたが、個々のツール機能と統一アプローチの欠如は集中統合を困難にした。 ツールは、動的ローディングと各プログラムのReadlineライブラリAPIとのリンクを通じてこのギャップを埋めることで、コマンドラインインターフェースをより賢く、ユーザフレンドリにし、さらなる拡張とクロスプラットフォーム適用性を実現する。

Developers and data scientists often struggle to write command-line inputs, even though graphical interfaces or tools like ChatGPT can assist. The solution? "ai-cli," an open-source system inspired by GitHub Copilot that converts natural language prompts into executable commands for various Linux command-line tools. By tapping into OpenAI's API, which allows interaction through JSON HTTP requests, "ai-cli" transforms user queries into actionable command-line instructions. However, integrating AI assistance across multiple command-line tools, especially in open source settings, can be complex. Historically, operating systems could mediate, but individual tool functionality and the lack of a unified approach have made centralized integration challenging. The "ai-cli" tool, by bridging this gap through dynamic loading and linking with each program's Readline library API, makes command-line interfaces smarter and more user-friendly, opening avenues for further enhancement and cross-platform applicability.
翻訳日:2023-09-14 16:33:29 公開日:2023-09-12
# AmodalSynthDrive:自動運転のための合成アモーダル知覚データセット

AmodalSynthDrive: A Synthetic Amodal Perception Dataset for Autonomous Driving ( http://arxiv.org/abs/2309.06547v1 )

ライセンス: Link先を確認
Ahmed Rida Sekkat, Rohit Mohan, Oliver Sawade, Elmar Matthes, and Abhinav Valada(参考訳) 部分的に遮蔽された場合でも物体全体を無力に推定できる人間とは異なり、現代のコンピュータビジョンアルゴリズムは、この側面を極めて困難に感じている。 このアモーダルな認識を自動運転に活用することは、適切なデータセットがないため、ほとんど解決されていない。 これらのデータセットのキュレーションは、主に重要なアノテーションコストと、正確なラベル付けにおけるアノテーションの主観性の緩和によって妨げられている。 これらの制約に対処するために、合成マルチタスクマルチモーダルアモーダル認識データセットであるAmodalSynthDriveを導入する。 データセットは、多視点カメライメージ、3dバウンディングボックス、lidarデータ、およびさまざまな交通、天候、照明条件で1m以上のオブジェクトアノテーションを含む150の運転シーケンスに対するオドメトリを提供する。 AmodalSynthDriveは、空間的理解を高めるために導入されたアモーダル深度推定を含む複数のアモーダルシーン理解タスクをサポートする。 これらのタスクのベースラインをいくつか評価し,課題を説明し,公開ベンチマークサーバを設置した。 データセットはhttp://amodalsynthdrive.cs.uni-freiburg.deで利用可能である。

Unlike humans, who can effortlessly estimate the entirety of objects even when partially occluded, modern computer vision algorithms still find this aspect extremely challenging. Leveraging this amodal perception for autonomous driving remains largely untapped due to the lack of suitable datasets. The curation of these datasets is primarily hindered by significant annotation costs and mitigating annotator subjectivity in accurately labeling occluded regions. To address these limitations, we introduce AmodalSynthDrive, a synthetic multi-task multi-modal amodal perception dataset. The dataset provides multi-view camera images, 3D bounding boxes, LiDAR data, and odometry for 150 driving sequences with over 1M object annotations in diverse traffic, weather, and lighting conditions. AmodalSynthDrive supports multiple amodal scene understanding tasks including the introduced amodal depth estimation for enhanced spatial understanding. We evaluate several baselines for each of these tasks to illustrate the challenges and set up public benchmarking servers. The dataset is available at http://amodalsynthdrive.cs.uni-freiburg.de.
翻訳日:2023-09-14 16:32:58 公開日:2023-09-12
# テキストエンコーダの知識不足:ドメイン特有な意味的テクスチャ類似性のための生成LDMの活用

Text Encoders Lack Knowledge: Leveraging Generative LLMs for Domain-Specific Semantic Textual Similarity ( http://arxiv.org/abs/2309.06541v1 )

ライセンス: Link先を確認
Joseph Gatto, Omar Sharif, Parker Seegmiller, Philip Bohlman, Sarah Masud Preum(参考訳) 様々なタスクにおける大規模言語モデル (LLM) の評価の急激な増加の中で, 意味的テキスト類似性 (STS) が過小評価されていることがわかった。 本研究では,複数のSTSベンチマークにおいて高い性能を維持しつつ,テキスト生成問題としてSTSをキャストできることを示す。 さらに,世界知識に依存した複雑な意味関係を持つ2つのテキスト間の意味的類似性を特徴付ける場合,既存のエンコーダベースのSTSモデルよりも優れた生成性を示す。 この主張は,保健・政治・スポーツ分野における世界的知識を必要とする3つのSTSチャレンジセットに対して,ジェネレーティブLSMと既存のエンコーダベースのSTSモデルの両方を評価することによって検証される。 新たに収集されたデータは2023年5月以降に投稿されたソーシャルメディアコンテンツから収集され、chatgptのようなクローズドソースモデルのパフォーマンスは記憶に残ることができない。 以上の結果から, 生成LDMは, 世界の知識を必要とするSTSタスクにおいて, 平均22.3%, 最良エンコーダのみのベースラインを上回っていることがわかった。 この結果から,複雑なドメイン固有のSTSタスクにおいて,STS固有のプロンプト戦略を持つ生成言語モデルが最先端の性能を達成することが示唆された。

Amidst the sharp rise in the evaluation of large language models (LLMs) on various tasks, we find that semantic textual similarity (STS) has been under-explored. In this study, we show that STS can be cast as a text generation problem while maintaining strong performance on multiple STS benchmarks. Additionally, we show generative LLMs significantly outperform existing encoder-based STS models when characterizing the semantic similarity between two texts with complex semantic relationships dependent on world knowledge. We validate this claim by evaluating both generative LLMs and existing encoder-based STS models on three newly collected STS challenge sets which require world knowledge in the domains of Health, Politics, and Sports. All newly collected data is sourced from social media content posted after May 2023 to ensure the performance of closed-source models like ChatGPT cannot be credited to memorization. Our results show that, on average, generative LLMs outperform the best encoder-only baselines by an average of 22.3% on STS tasks requiring world knowledge. Our results suggest generative language models with STS-specific prompting strategies achieve state-of-the-art performance in complex, domain-specific STS tasks.
翻訳日:2023-09-14 16:32:24 公開日:2023-09-12
# 分布的ロバストな転送学習

Distributionally Robust Transfer Learning ( http://arxiv.org/abs/2309.06534v1 )

ライセンス: Link先を確認
Xin Xiong, Zijian Guo, Tianxi Cai(参考訳) 既存のトランスファー学習手法の多くは、ターゲットデータによく似たソースデータからの情報を活用している。 しかし、このアプローチはしばしば、異なるが潜在的に関連する補助サンプルに存在する可能性のある貴重な知識を見落としている。 限られた量のターゲットデータと多種多様なソースモデルを扱う際,本論文は,厳密な類似性制約を伴わない転送学習(transdro)のための分散的ロバスト最適化という新しいアプローチを提案する。 transdroは、不確実性セット内の最も敵対的な損失を最適化するために設計されており、ターゲットデータに対する優れた予測性能を保証するソース分布の凸結合として生成されるターゲット集団の集合として定義される。 TransDROは、転送学習と分散ロバストネス予測モデルの領域を効果的に橋渡しする。 ベースラインモデルに最も近いソースモデルの重み付け平均としてtransdroの識別可能性とその解釈を確立する。 また,TransDROは,対象データに適合するモデルよりも高速に収束することを示す。 TransDROを用いた多施設電子健康記録データの総合的な数値研究と解析により、TransDROの堅牢性と正確性をさらに裏付け、トランスファーラーニングアプリケーションにおける強力なツールとしての可能性を強調した。

Many existing transfer learning methods rely on leveraging information from source data that closely resembles the target data. However, this approach often overlooks valuable knowledge that may be present in different yet potentially related auxiliary samples. When dealing with a limited amount of target data and a diverse range of source models, our paper introduces a novel approach, Distributionally Robust Optimization for Transfer Learning (TransDRO), that breaks free from strict similarity constraints. TransDRO is designed to optimize the most adversarial loss within an uncertainty set, defined as a collection of target populations generated as a convex combination of source distributions that guarantee excellent prediction performances for the target data. TransDRO effectively bridges the realms of transfer learning and distributional robustness prediction models. We establish the identifiability of TransDRO and its interpretation as a weighted average of source models closest to the baseline model. We also show that TransDRO achieves a faster convergence rate than the model fitted with the target data. Our comprehensive numerical studies and analysis of multi-institutional electronic health records data using TransDRO further substantiate the robustness and accuracy of TransDRO, highlighting its potential as a powerful tool in transfer learning applications.
翻訳日:2023-09-14 16:31:29 公開日:2023-09-12
# セッションベースレコメンデーションのための階層型マルチタスク学習フレームワーク

Hierarchical Multi-Task Learning Framework for Session-based Recommendations ( http://arxiv.org/abs/2309.06533v1 )

ライセンス: Link先を確認
Sejoon Oh, Walid Shalaby, Amir Afsharinejad, Xiquan Cui(参考訳) セッションベースレコメンデータシステム(SBRS)はより優れたレコメンデーション性能を示したが、マルチタスク学習(MTL)は、その予測精度と一般化性を高めるためにSBRSによって採用されている。 階層mtl (h-mtl) は予測タスク間の階層構造を設定し、補助タスクからメインタスクへの出力を供給する。 この階層は、既存のMTLフレームワークと比較して、メインタスクの入力機能と予測の解釈可能性の向上につながります。 しかし、H-MTLフレームワークはSBRSではまだ研究されていない。 本稿では,H-MTLアーキテクチャをSBRSに組み込んだHierSRecを提案する。 HierSRecはメタデータ対応のTransformerで所定のセッションをエンコードし、セッションエンコーディングで次のカテゴリ予測(補助タスク)を行う。 次に、hiersrecはカテゴリ予測結果とセッションエンコーディングで次項目の予測(すなわちメインタスク)を行う。 スケーラブルな推論のために、HierSRecはカテゴリ予測を用いてテスト例ごとにコンパクトな候補項目(例:全項目の4%)を作成する。 実験により、HierSRecは2つのセッションベースのレコメンデーションデータセットにおいて、次のイテム予測精度に従って既存のSBRSより優れていることが示された。 注意深く調整された候補項目で測定されたhiersrecの精度は、全ての項目で算出されたhiersrecの精度と一致し、h-mtlによる候補生成方式の有用性を検証する。

While session-based recommender systems (SBRSs) have shown superior recommendation performance, multi-task learning (MTL) has been adopted by SBRSs to enhance their prediction accuracy and generalizability further. Hierarchical MTL (H-MTL) sets a hierarchical structure between prediction tasks and feeds outputs from auxiliary tasks to main tasks. This hierarchy leads to richer input features for main tasks and higher interpretability of predictions, compared to existing MTL frameworks. However, the H-MTL framework has not been investigated in SBRSs yet. In this paper, we propose HierSRec which incorporates the H-MTL architecture into SBRSs. HierSRec encodes a given session with a metadata-aware Transformer and performs next-category prediction (i.e., auxiliary task) with the session encoding. Next, HierSRec conducts next-item prediction (i.e., main task) with the category prediction result and session encoding. For scalable inference, HierSRec creates a compact set of candidate items (e.g., 4% of total items) per test example using the category prediction. Experiments show that HierSRec outperforms existing SBRSs as per next-item prediction accuracy on two session-based recommendation datasets. The accuracy of HierSRec measured with the carefully-curated candidate items aligns with the accuracy of HierSRec calculated with all items, which validates the usefulness of our candidate generation scheme via H-MTL.
翻訳日:2023-09-14 16:31:08 公開日:2023-09-12
# 教師なしとマルチターゲットドメイン適応のための強弱統合セミスーパービジョン

Strong-Weak Integrated Semi-supervision for Unsupervised Single and Multi Target Domain Adaptation ( http://arxiv.org/abs/2309.06528v1 )

ライセンス: Link先を確認
Xiaohu Lu and Hayder Radha(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインで学習された知識をラベルなしターゲットドメインに転送することに焦点を当てている。 近年、画像分類のための単一ターゲット領域適応において大きな進歩があったが、単一ターゲット領域適応から多ターゲット領域適応への拡張はいまだに未解明の領域である。 一般に、教師なしのドメイン適応は、単一のラベルのないターゲットドメインから信頼できる情報を学習しようとする場合、大きな課題に直面します。 ラベルのないターゲットドメインの数が増加すると、この問題はさらに悪化する。 本稿では,単目的シナリオと多目的シナリオの両方でうまく機能する,教師なし領域適応を用いた画像分類のための強弱統合半スーパービジョン(swiss)学習戦略を提案する。 提案したSWISS-UDAフレームワークでは,信頼性が高いが多様性が低い対象ドメインの強い代表セットと信頼性が低いが多様性が低い対象ドメインの弱い代表セットをトレーニングプロセス中に常に更新する。 どちらのセットも融合して、擬似ラベルで強化された強弱トレーニングバッチを生成し、イテレーション毎にネットワークをトレーニングする。 シングルターゲットからマルチターゲットドメインへの適応の延長は、ドメイン間のクラス間距離関係を探索し、ピアスキャフォールディングを通じて、ピアドメインの強い代表集合をより強力なサンプルに置き換えることで達成される。 さらに,新たな対向ロジット損失が提案され,ソースドメインとターゲットドメイン間のクラス内ばらつきを低減し,分類器とネットワークの他の部分の間の勾配逆層と逆方向に逆転する。 Office-31、Office-Home、DomainNetの3つのベンチマークに基づく実験結果は、提案されたSWISSフレームワークの有効性を示している。

Unsupervised domain adaptation (UDA) focuses on transferring knowledge learned in the labeled source domain to the unlabeled target domain. Despite significant progress that has been achieved in single-target domain adaptation for image classification in recent years, the extension from single-target to multi-target domain adaptation is still a largely unexplored problem area. In general, unsupervised domain adaptation faces a major challenge when attempting to learn reliable information from a single unlabeled target domain. Increasing the number of unlabeled target domains further exacerbate the problem rather significantly. In this paper, we propose a novel strong-weak integrated semi-supervision (SWISS) learning strategy for image classification using unsupervised domain adaptation that works well for both single-target and multi-target scenarios. Under the proposed SWISS-UDA framework, a strong representative set with high confidence but low diversity target domain samples and a weak representative set with low confidence but high diversity target domain samples are updated constantly during the training process. Both sets are fused to generate an augmented strong-weak training batch with pseudo-labels to train the network during every iteration. The extension from single-target to multi-target domain adaptation is accomplished by exploring the class-wise distance relationship between domains and replacing the strong representative set with much stronger samples from peer domains via peer scaffolding. Moreover, a novel adversarial logit loss is proposed to reduce the intra-class divergence between source and target domains, which is back-propagated adversarially with a gradient reverse layer between the classifier and the rest of the network. Experimental results based on three benchmarks, Office-31, Office-Home, and DomainNet, show the effectiveness of the proposed SWISS framework.
翻訳日:2023-09-14 16:30:41 公開日:2023-09-12
# テーブルトランスフォーマの微分プライベートプリトレーニングとパラメータ効率の良い微調整の利点を探る

Exploring the Benefits of Differentially Private Pre-training and Parameter-Efficient Fine-tuning for Table Transformers ( http://arxiv.org/abs/2309.06526v1 )

ライセンス: Link先を確認
Xilong Wang, Chia-Mu Yu, and Pin-Yu Chen(参考訳) 表データによる機械学習では、Tab Transformer(Tab Transformer)が最先端のニューラルネットワークモデルであり、差分プライバシー(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。 本稿では,これら2つの側面を併用したトランスファー学習のシナリオ -- 差動プライベートな事前学習と,アダプタやlora,プロンプトチューニングなど,さまざまなパラメータ効率の細かいチューニング(peft)メソッドを備えたタブトランスフォーマの微調整 -- において,これらの利点について検討する。 ACSIncomeデータセットに関する広範な実験により、これらのPEFT手法は、下流タスクの精度とトレーニング可能なパラメータ数において従来の手法よりも優れており、パラメータ効率、プライバシ、精度のトレードオフが改善されていることが示された。 私たちのコードはgithub.com/IBM/DP-TabTransformerで利用可能です。

For machine learning with tabular data, Table Transformer (TabTransformer) is a state-of-the-art neural network model, while Differential Privacy (DP) is an essential component to ensure data privacy. In this paper, we explore the benefits of combining these two aspects together in the scenario of transfer learning -- differentially private pre-training and fine-tuning of TabTransformers with a variety of parameter-efficient fine-tuning (PEFT) methods, including Adapter, LoRA, and Prompt Tuning. Our extensive experiments on the ACSIncome dataset show that these PEFT methods outperform traditional approaches in terms of the accuracy of the downstream task and the number of trainable parameters, thus achieving an improved trade-off among parameter efficiency, privacy, and accuracy. Our code is available at github.com/IBM/DP-TabTransformer.
翻訳日:2023-09-14 16:29:55 公開日:2023-09-12
# 磁場のダイナミックイメージングのための量子ダイヤモンド顕微鏡

Quantum Diamond Microscope for Dynamic Imaging of Magnetic Fields ( http://arxiv.org/abs/2309.06587v1 )

ライセンス: Link先を確認
Jiashen Tang, Zechuan Yin, Connor A. Hart, John W. Blanchard, Jner Tzern Oon, Smriti Bhalerao, Jennifer M. Schloss, Matthew J. Turner and Ronald L. Walsworth(参考訳) ダイヤモンド中の窒素空洞(NV)中心のアンサンブルを用いた磁気信号の広視野イメージングは、ミクロンスケールの解像度、ミリスケールの視野、物理科学と生命科学の様々なサンプルとの互換性が組み合わさって、関心が高まっている。 近年,Ramseyプロトコルに基づく広視野NVイメージングは,従来の測定値と比較して均一かつ高感度化されている。 本稿では,NVスピンデフォーカス時間を拡張し,磁気感度を向上させるために,Ramseyベースのプロトコルとスピンバス駆動を統合した。 また, ダイナミック広視野磁気イメージングを実現するために, 高速カメラも採用している。 量子ダイヤモンド顕微鏡 (qdm) の実用性について, ワイヤファントムを作製した磁場をイメージングして評価する。 270 {\displaystyle 270\times270 \hspace{0.08333em} \mu\mathrm{m}$^2$の視野では、中央値の4.1(1)\hspace{0.08333em}\mathrm{nT}$/\sqrt{\mathrm{Hz}}$は空間分解$$\lesssim\hspace{0.08333em}10\hspace{0.08333em}\mu\mathrm{m}$で実現される。 重要なことに、空間磁気ノイズフロアは、時間と信号の変調によりピクトスラスケールに縮小することができ、ピークからピークまでの振幅差が約300\hspace{0.08333em}\mathrm{pT}$の磁場パターンを撮像することができる。 最後に, この動的QDMのバイオミネラル化および電気活性細胞研究への応用の可能性について検討する。

Wide-field imaging of magnetic signals using ensembles of nitrogen-vacancy (NV) centers in diamond has garnered increasing interest due to its combination of micron-scale resolution, millimeter-scale field of view, and compatibility with diverse samples from across the physical and life sciences. Recently, wide-field NV magnetic imaging based on the Ramsey protocol has achieved uniform and enhanced sensitivity compared to conventional measurements. Here, we integrate the Ramsey-based protocol with spin-bath driving to extend the NV spin dephasing time and improve magnetic sensitivity. We also employ a high-speed camera to enable dynamic wide-field magnetic imaging. We benchmark the utility of this quantum diamond microscope (QDM) by imaging magnetic fields produced from a fabricated wire phantom. Over a $270\times270 \hspace{0.08333em} \mu\mathrm{m}$$^2$ field of view, a median per-pixel magnetic sensitivity of $4.1(1)\hspace{0.08333em}\mathrm{nT}$$/\sqrt{\mathrm{Hz}}$ is realized with a spatial resolution $\lesssim\hspace{0.08333em}10\hspace{0.08333em}\mu\mathrm{m}$ and sub-millisecond temporal resolution. Importantly, the spatial magnetic noise floor can be reduced to the picotesla scale by time-averaging and signal modulation, which enables imaging of a magnetic-field pattern with a peak-to-peak amplitude difference of about $300\hspace{0.08333em}\mathrm{pT}$. Finally, we discuss potential new applications of this dynamic QDM in studying biomineralization and electrically-active cells.
翻訳日:2023-09-14 16:22:45 公開日:2023-09-12
# アルツハイマー病に対する説明可能なグラフニューラルネットワークと認知症リスク予測

Explainable Graph Neural Network for Alzheimer's Disease And Related Dementias Risk Prediction ( http://arxiv.org/abs/2309.06584v1 )

ライセンス: Link先を確認
Xinyue Hu (1), Zenan Sun (1), Yi Nian (1), Yifang Dang (1), Fang Li (1), Jingna Feng (1), Evan Yu (1), Cui Tao (1) ((1) McWilliams School of Biomedical Informatics, The University of Texas Health Science Center at Houston, Houston, TX, USA)(参考訳) アルツハイマー病と関連する認知症(ADRD)は、ADRDの正確なリスク予測の重要性を浮き彫りにして、米国で6番目に大きな死因となっている。 近年のADRDリスク予測の進歩は画像解析に大きく依存しているが,ADRD診断に先立ってすべての患者が画像診断を受けているわけではない。 機械学習とクレームデータの融合は、さまざまな医療コード間の新たなリスク要因や相互関係を明らかにする可能性がある。 我々の目標は、ADRDリスク予測のためのクレームデータとグラフニューラルネットワーク(GNN)を使用することです。 これらの予測の背後にある人間解釈可能な理由の欠如に対処し,関係の重要性とそのadrdリスク予測への影響を評価し,包括的解釈を確実にする革新的な手法を提案する。 我々はADRD確率を推定するために変分正規化エンコーダデコーダグラフニューラルネットワーク(VGNN)を用いた。 モデル効率を評価するために,ランダムフォレストと光勾配ブーストマシンをベースラインとして用いた3つのシナリオを作成した。 我々はさらに,ADRDリスク予測の鍵となる関係を明らかにするために,関係重要度法を適用した。 vgnnは、受信機の動作特性の下で、他のベースラインモデルを10%上回った。 gnnモデルと関係重要度解釈の統合は、adrdの進行に寄与または遅延する要因に対する貴重な洞察を提供する上で重要な役割を果たす可能性がある。 クレームデータによるGNNアプローチの採用はADRDリスク予測を強化し、相互接続された医療コード関係の影響に関する洞察を提供する。 この手法はADRDリスクモデリングを可能にするだけでなく、クレームデータを用いた他の画像解析予測の可能性を示す。

Alzheimer's disease and related dementias (ADRD) ranks as the sixth leading cause of death in the US, underlining the importance of accurate ADRD risk prediction. While recent advancement in ADRD risk prediction have primarily relied on imaging analysis, yet not all patients undergo medical imaging before an ADRD diagnosis. Merging machine learning with claims data can reveal additional risk factors and uncover interconnections among diverse medical codes. Our goal is to utilize Graph Neural Networks (GNNs) with claims data for ADRD risk prediction. Addressing the lack of human-interpretable reasons behind these predictions, we introduce an innovative method to evaluate relationship importance and its influence on ADRD risk prediction, ensuring comprehensive interpretation. We employed Variationally Regularized Encoder-decoder Graph Neural Network (VGNN) for estimating ADRD likelihood. We created three scenarios to assess the model's efficiency, using Random Forest and Light Gradient Boost Machine as baselines. We further used our relation importance method to clarify the key relationships for ADRD risk prediction. VGNN surpassed other baseline models by 10% in the area under the receiver operating characteristic. The integration of the GNN model and relation importance interpretation could potentially play an essential role in providing valuable insight into factors that may contribute to or delay ADRD progression. Employing a GNN approach with claims data enhances ADRD risk prediction and provides insights into the impact of interconnected medical code relationships. This methodology not only enables ADRD risk modeling but also shows potential for other image analysis predictions using claims data.
翻訳日:2023-09-14 16:22:03 公開日:2023-09-12
# cms高粒度熱量計プロトタイプにおける電子エネルギー回帰

Electron Energy Regression in the CMS High-Granularity Calorimeter Prototype ( http://arxiv.org/abs/2309.06582v1 )

ライセンス: Link先を確認
Roger Rusack, Bhargav Joshi, Alpana Alpana, Seema Sharma, Thomas Vadnais(参考訳) CERN大ハドロン衝突型加速器に搭載される新しいカロリー計のシミュレーションデータを含む,新たに公開されたデータセットを提案する。 この検出器は、各チャネルに位置、電離、正確な時間測定ができる6百万以上のチャネルを持つ。 これらのイベントを効率的に再構築することは、最新の機械学習技術で対処されている大きな課題となる。 この開発の一環として、12,000チャンネルの大型プロトタイプが製造され、高エネルギー電子ビームが入射した。 機械学習を用いて、我々は3次元ヒットのエネルギーから入射電子のエネルギーを再構築した。 このデータを公開することで、私たちは機械学習の応用の専門家に、これらの電子の効率的で正確な画像再構成を開発することを奨励したいと考えています。

We present a new publicly available dataset that contains simulated data of a novel calorimeter to be installed at the CERN Large Hadron Collider. This detector will have more than six-million channels with each channel capable of position, ionisation and precision time measurement. Reconstructing these events in an efficient way poses an immense challenge which is being addressed with the latest machine learning techniques. As part of this development a large prototype with 12,000 channels was built and a beam of high-energy electrons incident on it. Using machine learning methods we have reconstructed the energy of incident electrons from the energies of three-dimensional hits, which is known to some precision. By releasing this data publicly we hope to encourage experts in the application of machine learning to develop efficient and accurate image reconstruction of these electrons.
翻訳日:2023-09-14 16:21:38 公開日:2023-09-12
# ガイドクロッピングによるゼロショット視覚分類

Zero-Shot Visual Classification with Guided Cropping ( http://arxiv.org/abs/2309.06581v1 )

ライセンス: Link先を確認
Piyapat Saranrittichai, Mauricio Munoz, Volker Fischer and Chaithanya Kumar Mummadi(参考訳) CLIPのような事前訓練されたビジョン言語モデルでは、さまざまなデータセットでゼロショットのパフォーマンスが期待できる。 しかし、クローズドセットの分類タスクには固有の制限がある: CLIPイメージエンコーダは典型的には、ターゲットタスクの過剰な情報や不明確な情報を要約する一般的な画像レベルの特徴を抽出するために設計されている。 これにより、特に興味の対象が入力画像の小さな領域をカバーする場合、分類性能が低下する。 本研究では,ゼロショット分類器の被写体へのフォーカスを増加させ,外部画像領域の影響を最小限に抑えるために,既成のゼロショット物体検出モデルを用いた映像クリップ(gc-clip)を提案する。 提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。

Pretrained vision-language models, such as CLIP, show promising zero-shot performance across a wide variety of datasets. For closed-set classification tasks, however, there is an inherent limitation: CLIP image encoders are typically designed to extract generic image-level features that summarize superfluous or confounding information for the target tasks. This results in degradation of classification performance, especially when objects of interest cover small areas of input images. In this work, we propose CLIP with Guided Cropping (GC-CLIP), where we use an off-the-shelf zero-shot object detection model in a preprocessing step to increase focus of zero-shot classifier to the object of interest and minimize influence of extraneous image regions. We empirically show that our approach improves zero-shot classification results across architectures and datasets, favorably for small objects.
翻訳日:2023-09-14 16:21:25 公開日:2023-09-12
# 制御合成のための深層カーネル学習の約束

Promises of Deep Kernel Learning for Control Synthesis ( http://arxiv.org/abs/2309.06569v1 )

ライセンス: Link先を確認
Robert Reed, Luca Laurenti, Morteza Lahijanian(参考訳) ディープカーネル学習(dkl)は、ニューラルネットワークの表現力とガウス過程の不確実性定量化を組み合わせる。 したがって、複雑な力学系を学習し制御する有望なツールである可能性がある。 本研究では,複雑な仕様に対する確率力学系の合成制御にdklを用いたスケーラブルな抽象化フレームワークを開発した。 具体的には、時間論理の仕様を考察し、DKLを用いて未知のシステムをデータから学習し、正式にDKLモデルをインターバルマルコフ決定プロセス(IMDP)に抽象化し、正確性を保証する制御合成を行う。 さらに,正確な学習と効率的な抽象化計算を可能にする深層アーキテクチャを特定する。 提案手法の有効性を5次元非線形確率システムを含む様々なベンチマークで示し,DKLによる制御合成が最先端の競合手法を大幅に上回ることを示す。

Deep Kernel Learning (DKL) combines the representational power of neural networks with the uncertainty quantification of Gaussian Processes. Hence, it is potentially a promising tool to learn and control complex dynamical systems. In this work, we develop a scalable abstraction-based framework that enables the use of DKL for control synthesis of stochastic dynamical systems against complex specifications. Specifically, we consider temporal logic specifications and create an end-to-end framework that uses DKL to learn an unknown system from data and formally abstracts the DKL model into an Interval Markov Decision Process (IMDP) to perform control synthesis with correctness guarantees. Furthermore, we identify a deep architecture that enables accurate learning and efficient abstraction computation. The effectiveness of our approach is illustrated on various benchmarks, including a 5-D nonlinear stochastic system, showing how control synthesis with DKL can substantially outperform state-of-the-art competitive methods.
翻訳日:2023-09-14 16:19:38 公開日:2023-09-12
# 半教師型医用画像分割のための多次元融合と整合性

Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2309.06618v1 )

ライセンス: Link先を確認
Yixing Lu, Zhaoxin Fan, Min Xu(参考訳) 本稿では,医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。 我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。 このスキームはvitsとcnnの両方の強みをうまく組み合わせ、両アーキテクチャの独特な利点と視覚言語のモダリティにおける補完的な情報に乗じている。 さらに,ロバストな擬似ラベルを生成するための多軸一貫性フレームワークを提案し,半教師付き学習プロセスを強化する。 広く使われているいくつかのデータセットに関する広範な実験は、我々のアプローチの有効性を明白に実証している。

In this paper, we introduce a novel semi-supervised learning framework tailored for medical image segmentation. Central to our approach is the innovative Multi-scale Text-aware ViT-CNN Fusion scheme. This scheme adeptly combines the strengths of both ViTs and CNNs, capitalizing on the unique advantages of both architectures as well as the complementary information in vision-language modalities. Further enriching our framework, we propose the Multi-Axis Consistency framework for generating robust pseudo labels, thereby enhancing the semi-supervised learning process. Our extensive experiments on several widely-used datasets unequivocally demonstrate the efficacy of our approach.
翻訳日:2023-09-14 16:12:44 公開日:2023-09-12
# ナノインデンテーションデータの教師なし学習による複合材料の微細構造の詳細推定

Unsupervised Learning of Nanoindentation Data to Infer Microstructural Details of Complex Materials ( http://arxiv.org/abs/2309.06613v1 )

ライセンス: Link先を確認
Chen Zhang, Cl\'emence Bos, Stefan Sandfeld, Ruth Schwaiger(参考訳) 本研究では,Cu-Cr複合材料をナノインデンテーションにより研究した。 試料の広い領域に多数のインデントが配置され、結果として数百のヤング率と様々なインデント深さの硬さの測定結果が得られた。 教師なし学習手法であるガウス混合モデルを用いてデータを解析し、「機械的位相」の数とそれぞれの機械的特性を決定するのに役立った。 さらに、データ量が適切かどうかを判断し、信頼できる予測に必要なデータ量を提案するために、クロスバリデーションアプローチが導入された。

In this study, Cu-Cr composites were studied by nanoindentation. Arrays of indents were placed over large areas of the samples resulting in datasets consisting of several hundred measurements of Young's modulus and hardness at varying indentation depths. The unsupervised learning technique, Gaussian mixture model, was employed to analyze the data, which helped to determine the number of "mechanical phases" and the respective mechanical properties. Additionally, a cross-validation approach was introduced to infer whether the data quantity was adequate and to suggest the amount of data required for reliable predictions -- one of the often encountered but difficult to resolve issues in machine learning of materials science problems.
翻訳日:2023-09-14 16:12:33 公開日:2023-09-12
# Harmonic-NAS:資源制約デバイス上でのハードウェア対応マルチモーダルニューラルネットワーク探索

Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices ( http://arxiv.org/abs/2309.06612v1 )

ライセンス: Link先を確認
Mohamed Imed Eddine Ghebriout, Halima Bouzidi, Smail Niar, Hamza Ouarnoughi(参考訳) MM-NN(Multimodal Neural Networks)を取り巻く最近の関心の高まりは、様々なデータソースから情報を効率的に処理し統合する能力に起因している。 MM-NNでは、適切な一方向のバックボーンと特定の融合ネットワークを用いて複数のモードから特徴を抽出し、融合する。 これはマルチモーダル情報表現の強化に役立つが、そのようなネットワークの設計は労働集約的である。 ユニモーダルバックボーンのアーキテクチャパラメータをチューニングし、融合点を選択し、融合のための操作を選択する必要がある。 さらに、IoT(Internet of Things)システムでは、推論レイテンシとエネルギー消費が精度に加えて重要な指標となる最先端オプションとして、マルチモダリティAIが登場している。 本稿では,リソース制約のあるデバイスにハードウェアを意識した,単調バックボーンとマルチモーダル融合ネットワークの協調最適化のためのフレームワークであるHarmonic-NASを提案する。 harmonic-nasは、ユニモーダルバックボーンアーキテクチャと融合戦略と演算子のための2層最適化アプローチを含んでいる。 ハードウェア次元を最適化に組み込むことにより、様々なデバイスやマルチモーダルデータセットの評価結果が、10.9%の精度向上、1.1倍のレイテンシ削減、2.14倍のエネルギー効率向上を達成する最先端アプローチよりも高調波nasが優れていることを実証した。

The recent surge of interest surrounding Multimodal Neural Networks (MM-NN) is attributed to their ability to effectively process and integrate information from diverse data sources. In MM-NN, features are extracted and fused from multiple modalities using adequate unimodal backbones and specific fusion networks. Although this helps strengthen the multimodal information representation, designing such networks is labor-intensive. It requires tuning the architectural parameters of the unimodal backbones, choosing the fusing point, and selecting the operations for fusion. Furthermore, multimodality AI is emerging as a cutting-edge option in Internet of Things (IoT) systems where inference latency and energy consumption are critical metrics in addition to accuracy. In this paper, we propose Harmonic-NAS, a framework for the joint optimization of unimodal backbones and multimodal fusion networks with hardware awareness on resource-constrained devices. Harmonic-NAS involves a two-tier optimization approach for the unimodal backbone architectures and fusion strategy and operators. By incorporating the hardware dimension into the optimization, evaluation results on various devices and multimodal datasets have demonstrated the superiority of Harmonic-NAS over state-of-the-art approaches achieving up to 10.9% accuracy improvement, 1.91x latency reduction, and 2.14x energy efficiency gain.
翻訳日:2023-09-14 16:12:24 公開日:2023-09-12
# カイラル軌道電流状態における電流感受性ホール効果

Current-sensitive Hall effect in a chiral-orbital-current state ( http://arxiv.org/abs/2309.06610v1 )

ライセンス: Link先を確認
Yu Zhang, Yifei Ni, Pedro Schlottmann, Rahul Nandkishore, Lance E. DeLong, and Gang Cao(参考訳) 強磁性Mn3Si2Te6 [1]における新しいコロッサル磁気抵抗(CMR)の基盤となるキラル軌道電流(COC)。 Here we report the Hall effect in the COC state which exhibits the following unprecedented features: (1) A sharp, current-sensitive peak in the magnetic field dependence of the Hall resistivity; (2) An unusually large Hall angle reaching up to 0.15 (comparable to the highest values yet reported); and (3) A current-sensitive scaling relation between the Hall conductivity sigma_xy and the longitudinal conductivity sigma_xx, namely, sigma_xy ~ sigma_xx^alpha with alpha ranging between 3 and 5, which is both sensitive to external current and exceptionally large compared to alpha < 2 typical of most solids. これらの異常はCOC状態に特有の巨大な電流感受性ホール効果を示す。 完全発達したCOCにより誘導される磁場と印加磁場が組み合わさって、新しいホール応答を規定する荷電担体に大きく強化された横力を発揮することを論じる。 COCホール効果は、固有のCOCと応用外部電流の相互作用によって生成・制御されるため、基礎的および技術的重要性の新たな輸送現象を引き起こし、説明のために新しい物理を必要とする。

Chiral orbital currents (COC) underpin a novel colossal magnetoresistance (CMR) in ferrimagnetic Mn3Si2Te6 [1]. Here we report the Hall effect in the COC state which exhibits the following unprecedented features: (1) A sharp, current-sensitive peak in the magnetic field dependence of the Hall resistivity; (2) An unusually large Hall angle reaching up to 0.15 (comparable to the highest values yet reported); and (3) A current-sensitive scaling relation between the Hall conductivity sigma_xy and the longitudinal conductivity sigma_xx, namely, sigma_xy ~ sigma_xx^alpha with alpha ranging between 3 and 5, which is both sensitive to external current and exceptionally large compared to alpha < 2 typical of most solids. These anomalies point to a giant, current-sensitive Hall effect that is unique to the COC state. We argue that a magnetic field induced by the fully developed COC combines with the applied magnetic field to exert the greatly enhanced transverse force on charge carriers, which dictates the novel Hall responses. The COC Hall effect is unique, as it is generated and controlled via the interaction between intrinsic COC and applied external currents, which leads to novel transport phenomena of fundamental and technological significance and requires new physics for explanation.
翻訳日:2023-09-14 16:11:58 公開日:2023-09-12
# アルゴリズム的公正文学における人種カテゴリーの実証分析

An Empirical Analysis of Racial Categories in the Algorithmic Fairness Literature ( http://arxiv.org/abs/2309.06607v1 )

ライセンス: Link先を確認
Amina A. Abdu, Irene V. Pasquetto, Abigail Z. Jacobs(参考訳) アルゴリズムフェアネスにおける最近の研究は、差別防止のために人種分類を定義するという課題を強調している。 これらの課題は新しいものではなく、政府統計、政策、および差別防止法における明白な基準を通じて人種を制定する州に以前に及んだ。 国家の人種形成の歴史を振り返って,アルゴリズム的公平性文学において,人種と差別の性質に関する長年の疑問がいかに現れるかを検討する。 2018年から2020年にかけて、FAccTで発表された60の論文の内容分析を通じて、アルゴリズムフェアネスフレームワークにおける人種の概念化と形式化について分析する。 人種の異なる概念は、単一の分析でさえも一貫性のない形で採用されていることに注意する。 また,これらの選択に伴う制度的影響と価値についても考察する。 アルゴリズムフェアネス作業で使用されるカテゴリは、しばしば法的枠組みと一致するが、学術計算機科学の価値観が人種的カテゴリーの構築において等しく重要な役割を果たすことを示す。 最後に、人種の異なる操作の背景にある理由を調べ、それらの選択を明示的に記述する論文がほとんどなく、正当化も少ないことを突き止めた。 我々は、人種カテゴリーの構築は、アルゴリズム的公正性のプロジェクトにおいて、社会的、政治的に重要な結果をもたらす価値あるプロセスであると主張する。 人種の運営に関する正当化の広範な欠如は、これらの政治的決定が知識生産の舞台裏で曖昧にされ続けることを許す制度上の規範を反映している。

Recent work in algorithmic fairness has highlighted the challenge of defining racial categories for the purposes of anti-discrimination. These challenges are not new but have previously fallen to the state, which enacts race through government statistics, policies, and evidentiary standards in anti-discrimination law. Drawing on the history of state race-making, we examine how longstanding questions about the nature of race and discrimination appear within the algorithmic fairness literature. Through a content analysis of 60 papers published at FAccT between 2018 and 2020, we analyze how race is conceptualized and formalized in algorithmic fairness frameworks. We note that differing notions of race are adopted inconsistently, at times even within a single analysis. We also explore the institutional influences and values associated with these choices. While we find that categories used in algorithmic fairness work often echo legal frameworks, we demonstrate that values from academic computer science play an equally important role in the construction of racial categories. Finally, we examine the reasoning behind different operationalizations of race, finding that few papers explicitly describe their choices and even fewer justify them. We argue that the construction of racial categories is a value-laden process with significant social and political consequences for the project of algorithmic fairness. The widespread lack of justification around the operationalization of race reflects institutional norms that allow these political decisions to remain obscured within the backstage of knowledge production.
翻訳日:2023-09-14 16:11:41 公開日:2023-09-12
# 分散機械学習リソースを用いたハイブリッドアルゴリズム選択とハイパーパラメータチューニング:階層的エージェントに基づくアプローチ

Hybrid Algorithm Selection and Hyperparameter Tuning on Distributed Machine Learning Resources: A Hierarchical Agent-based Approach ( http://arxiv.org/abs/2309.06604v1 )

ライセンス: Link先を確認
Ahmad Esmaeili, Eric T. Matson, Julia T. Rayz(参考訳) アルゴリズムの選択とハイパーパラメータチューニングは、学術および応用機械学習において重要なステップである。 一方で、機械学習リソースの数、多様性、分散性が大幅に向上したことで、これらのステップはますます微妙になってきている。 機械学習プラットフォームの設計に適用されたマルチエージェントシステムは、スケーラビリティ、柔軟性、堅牢性など、いくつかの特徴的な特徴をもたらす。 本稿では,分散された機械学習アルゴリズムを選択し,同時にハイパーパラメータを調整するための,完全自動かつ協調的なエージェントベース機構を提案する。 提案手法は,既存のエージェントベース階層型機械学習プラットフォーム上に構築され,上記の機能をサポートするクエリ構造を,特定の学習,選択,チューニング機構に制限されずに拡張する。 提案手法の正確性,資源利用,計算効率を実証するため,理論的評価,形式的検証,解析的研究を行った。 その結果,提案手法は完全に正解であり,利用可能な資源の大きさに対して線形時間と空間複雑性を示すことがわかった。 提案手法がアルゴリズムの選択肢やデータセットをまたいで効果的に適応・実行できることの具体例を提供するため,24のアルゴリズムと9のデータセットからなるシステムを用いて,一連の実験を行った。

Algorithm selection and hyperparameter tuning are critical steps in both academic and applied machine learning. On the other hand, these steps are becoming ever increasingly delicate due to the extensive rise in the number, diversity, and distributedness of machine learning resources. Multi-agent systems, when applied to the design of machine learning platforms, bring about several distinctive characteristics such as scalability, flexibility, and robustness, just to name a few. This paper proposes a fully automatic and collaborative agent-based mechanism for selecting distributedly organized machine learning algorithms and simultaneously tuning their hyperparameters. Our method builds upon an existing agent-based hierarchical machine-learning platform and augments its query structure to support the aforementioned functionalities without being limited to specific learning, selection, and tuning mechanisms. We have conducted theoretical assessments, formal verification, and analytical study to demonstrate the correctness, resource utilization, and computational efficiency of our technique. According to the results, our solution is totally correct and exhibits linear time and space complexity in relation to the size of available resources. To provide concrete examples of how the proposed methodologies can effectively adapt and perform across a range of algorithmic options and datasets, we have also conducted a series of experiments using a system comprised of 24 algorithms and 9 datasets.
翻訳日:2023-09-14 16:11:17 公開日:2023-09-12
# オフライン強化学習における潜時拡散による推論

Reasoning with Latent Diffusion in Offline Reinforcement Learning ( http://arxiv.org/abs/2309.06599v1 )

ライセンス: Link先を確認
Siddarth Venkatraman, Shivesh Khaitan, Ravi Tej Akella, John Dolan, Jeff Schneider, Glen Berseth(参考訳) オフライン強化学習(RL)は、さらなる環境相互作用を必要とせずに、静的データセットから高解像度ポリシーを学習する手段として、約束を守る。 しかし、オフラインRLにおける重要な課題は、データセットがサポートされていないために生じる外挿エラーを回避しつつ、静的データセットから最適な軌道の部分を効果的に縫合することにある。 既存のアプローチでは、(示すように)マルチモーダルデータにチューニングしたり、苦労したりするのが難しい保守的な手法や、報酬条件付けのためにノイズの多いモンテカルロの返却サンプルに依存しています。 本研究では, 潜伏拡散の表現性を利用して, 圧縮潜伏スキルとして, 支持軌道列をモデル化する新しい手法を提案する。 これにより、バッチ制約による外挿エラーを避けながら、Q関数の学習が容易になる。 潜在空間は表現的かつ優雅にマルチモーダルデータを扱う。 学習した時間的制約付き潜在空間は、オフラインのRLタスクに対して、生の状態よりもリッチなタスク固有情報を符号化する。 これにより、クレジット割り当てが改善され、q-learning中の報酬伝達が高速化される。 提案手法は,D4RLベンチマークにおける最先端性能,特に長距離・スパース・リワードタスクにおいて優れた性能を示す。

Offline reinforcement learning (RL) holds promise as a means to learn high-reward policies from a static dataset, without the need for further environment interactions. However, a key challenge in offline RL lies in effectively stitching portions of suboptimal trajectories from the static dataset while avoiding extrapolation errors arising due to a lack of support in the dataset. Existing approaches use conservative methods that are tricky to tune and struggle with multi-modal data (as we show) or rely on noisy Monte Carlo return-to-go samples for reward conditioning. In this work, we propose a novel approach that leverages the expressiveness of latent diffusion to model in-support trajectory sequences as compressed latent skills. This facilitates learning a Q-function while avoiding extrapolation error via batch-constraining. The latent space is also expressive and gracefully copes with multi-modal data. We show that the learned temporally-abstract latent space encodes richer task-specific information for offline RL tasks as compared to raw state-actions. This improves credit assignment and facilitates faster reward propagation during Q-learning. Our method demonstrates state-of-the-art performance on the D4RL benchmarks, particularly excelling in long-horizon, sparse-reward tasks.
翻訳日:2023-09-14 16:10:57 公開日:2023-09-12
# Rank2Tell: 共同重要度ランキングと推論のためのマルチモーダル運転データセット

Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning ( http://arxiv.org/abs/2309.06597v1 )

ライセンス: Link先を確認
Enna Sachdeva, Nakul Agarwal, Suhas Chundi, Sean Roelofs, Jiachen Li, Behzad Dariush, Chiho Choi, Mykel Kochenderfer(参考訳) 商業用自動運転車(AV)や高度運転支援システム(ADAS)の普及は、乗客に対する信頼感と解釈性が重要であると認識される社会の受容に大きく依存している可能性がある。 一般的に、現代の自律システムソフトウェアはブラックボックス人工知能モデルに大きく依存しているため、この課題は難しい。 この目的に向けて,重要度をランク付けし,その重要性の理由を述べるマルチモーダルなego中心のデータセットであるrank2tellを提案する。 クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。 データセットの濃密なアノテーションとユニークな属性は、視覚的なシーン理解と関連する分野に取り組む研究者にとって貴重なリソースとなる。 さらに,共同重要度ランキングと自然言語キャプション生成のための共同モデルを導入し,データセットをベンチマークし,定量的評価により性能を示す。

The widespread adoption of commercial autonomous vehicles (AVs) and advanced driver assistance systems (ADAS) may largely depend on their acceptance by society, for which their perceived trustworthiness and interpretability to riders are crucial. In general, this task is challenging because modern autonomous systems software relies heavily on black-box artificial intelligence models. Towards this goal, this paper introduces a novel dataset, Rank2Tell, a multi-modal ego-centric dataset for Ranking the importance level and Telling the reason for the importance. Using various close and open-ended visual question answering, the dataset provides dense annotations of various semantic, spatial, temporal, and relational attributes of various important objects in complex traffic scenarios. The dense annotations and unique attributes of the dataset make it a valuable resource for researchers working on visual scene understanding and related fields. Further, we introduce a joint model for joint importance level ranking and natural language captions generation to benchmark our dataset and demonstrate performance with quantitative evaluations.
翻訳日:2023-09-14 16:10:37 公開日:2023-09-12
# 生成型大規模言語モデルは数十億のパラメータを必要とするか?

Do Generative Large Language Models need billions of parameters? ( http://arxiv.org/abs/2309.06589v1 )

ライセンス: Link先を確認
Sia Gholami, Marwan Omar(参考訳) 本稿では,効率的な大規模言語モデル(LLM)の開発のための新しいシステムと方法論を提案する。 これらのAIシステムの効率を最大化することを目的として、モデルサイズ、パフォーマンス、計算リソース間のトレードオフを探究する。 この研究は、モデルの異なる部分でパラメータを共有することを可能にする新しい方法を探求し、必要なユニークなパラメータの総数を減らす。 このアプローチは、複雑な言語構造を学習し表現する能力を犠牲にすることなく、モデルをコンパクトに保つ。 この研究は、より効率的で効果的なLLMを作成するための貴重な洞察とツールを提供し、AI言語モデリングのより持続的でアクセスしやすい未来に寄与する。

This paper presents novel systems and methodologies for the development of efficient large language models (LLMs). It explores the trade-offs between model size, performance, and computational resources, with the aim of maximizing the efficiency of these AI systems. The research explores novel methods that allow different parts of the model to share parameters, reducing the total number of unique parameters required. This approach ensures that the model remains compact without sacrificing its ability to learn and represent complex language structures. This study provides valuable insights and tools for creating more efficient and effective LLMs, contributing to a more sustainable and accessible future for AI language modeling.
翻訳日:2023-09-14 16:10:16 公開日:2023-09-12
# LQRにおける勾配型MAMLの収束性

Convergence of Gradient-based MAML in LQR ( http://arxiv.org/abs/2309.06588v1 )

ライセンス: Link先を確認
Negin Musavi and Geir E. Dullerud(参考訳) 本研究の目的は,線形系2次最適制御(lqr)に適用されるモデル非依存メタラーニング(maml)の局所収束特性を検討することである。 MAMLとそのバリエーションは、回帰、分類、強化学習といった分野における過去の学習知識を活用することで、新しいタスクに迅速に適応するための一般的な技術となっている。 しかし、その理論的保証は非凸性と構造のため未知のままであり、動的システム設定における安定性の確保がさらに困難である。 本研究は, 動的システムの安定性を維持しつつ, 局所収束保証を提供するLQR設定におけるMAMLの探索に焦点を当てた。 また,LQRタスクにおけるMAMLの収束特性を示すため,単純な数値計算結果も提示する。

The main objective of this research paper is to investigate the local convergence characteristics of Model-agnostic Meta-learning (MAML) when applied to linear system quadratic optimal control (LQR). MAML and its variations have become popular techniques for quickly adapting to new tasks by leveraging previous learning knowledge in areas like regression, classification, and reinforcement learning. However, its theoretical guarantees remain unknown due to non-convexity and its structure, making it even more challenging to ensure stability in the dynamic system setting. This study focuses on exploring MAML in the LQR setting, providing its local convergence guarantees while maintaining the stability of the dynamical system. The paper also presents simple numerical results to demonstrate the convergence properties of MAML in LQR tasks.
翻訳日:2023-09-14 16:10:04 公開日:2023-09-12
# adapt and diffuse: 潜在拡散モデルによるサンプル適応型再構成

Adapt and Diffuse: Sample-adaptive Reconstruction via Latent Diffusion Models ( http://arxiv.org/abs/2309.06642v1 )

ライセンス: Link先を確認
Zalan Fabian, Berk Tinaz, Mahdi Soltanolkotabi(参考訳) 逆問題は、ノイズや(非線形でない)観測からクリーンな信号を回復することが目的である複数のアプリケーションで発生する。 再構成問題の難しさは, 基底真理信号の構造, 劣化の深刻度, 復元モデルの暗黙バイアス, 上記の因子間の複雑な相互作用など, 様々な要因に依存する。 その結果, 復元作業の難易度において, サンプル・バイ・サンプルの自然な変動が生じ, 現代の技術では見落とされがちである。 近年,拡散型逆解法が様々な再構成課題において新たな最先端技術を確立している。 しかし、それらは計算的に禁止されるという欠点がある。 本稿では, 既存の解法では, 計算能力が再現作業の難易度に適応する能力が欠如しているため, 長時間の推測時間, 性能の低下, 資源割り当ての無駄が生じる。 自動符号化器の潜時空間における雑音・劣化信号の劣化重大度を推定するために,重大度符号化と呼ばれる新しい手法を提案する。 推定重大度が真の汚損レベルと強く相関していることを示し,サンプル・バイ・サンプルに基づく復元問題の難しさを示唆する有用なヒントを与える。 さらに,予測した劣化性を利用して逆拡散サンプリング軌跡を微調整し,サンプル適応推定時間を実現する潜在拡散モデルに基づく再構成法を提案する。 我々は遅延拡散後サンプリングを用いて観測値との整合性を維持する。 線形と非線形の逆問題の両方について実験を行い, 計算効率を大幅に向上させながら, 最先端の拡散ベース技術に匹敵する性能を実現することを実証する。

Inverse problems arise in a multitude of applications, where the goal is to recover a clean signal from noisy and possibly (non)linear observations. The difficulty of a reconstruction problem depends on multiple factors, such as the structure of the ground truth signal, the severity of the degradation, the implicit bias of the reconstruction model and the complex interactions between the above factors. This results in natural sample-by-sample variation in the difficulty of a reconstruction task, which is often overlooked by contemporary techniques. Recently, diffusion-based inverse problem solvers have established new state-of-the-art in various reconstruction tasks. However, they have the drawback of being computationally prohibitive. Our key observation in this paper is that most existing solvers lack the ability to adapt their compute power to the difficulty of the reconstruction task, resulting in long inference times, subpar performance and wasteful resource allocation. We propose a novel method that we call severity encoding, to estimate the degradation severity of noisy, degraded signals in the latent space of an autoencoder. We show that the estimated severity has strong correlation with the true corruption level and can give useful hints at the difficulty of reconstruction problems on a sample-by-sample basis. Furthermore, we propose a reconstruction method based on latent diffusion models that leverages the predicted degradation severities to fine-tune the reverse diffusion sampling trajectory and thus achieve sample-adaptive inference times. We utilize latent diffusion posterior sampling to maintain data consistency with observations. We perform experiments on both linear and nonlinear inverse problems and demonstrate that our technique achieves performance comparable to state-of-the-art diffusion-based techniques, with significant improvements in computational efficiency.
翻訳日:2023-09-14 16:02:28 公開日:2023-09-12
# 量子データセンター:展望

Quantum Data Center: Perspectives ( http://arxiv.org/abs/2309.06641v1 )

ライセンス: Link先を確認
Junyu Liu, Liang Jiang(参考訳) データセンターの量子バージョンは、量子時代において重要かもしれない。 本稿では、量子ランダムアクセスメモリ(QRAM)と量子ネットワークを組み合わせることに焦点を当てた、既存の古典的データセンターの量子バージョンである量子データセンター(QDC)を紹介する。 我々は、QDCが効率、セキュリティ、精度の点で顧客に大きなメリットをもたらし、量子コンピューティング、通信、センシングに役立ちます。 我々は,ハードウェア実現と応用可能性を通じて,この新たな研究方向に沿って,潜在的な科学的・ビジネス的機会について検討する。 我々は、ビジネスや科学、特に機械学習やビッグデータ産業におけるqdcの影響の可能性を示す。

A quantum version of data centers might be significant in the quantum era. In this paper, we introduce Quantum Data Center (QDC), a quantum version of existing classical data centers, with a specific emphasis on combining Quantum Random Access Memory (QRAM) and quantum networks. We argue that QDC will provide significant benefits to customers in terms of efficiency, security, and precision, and will be helpful for quantum computing, communication, and sensing. We investigate potential scientific and business opportunities along this novel research direction through hardware realization and possible specific applications. We show the possible impacts of QDCs in business and science, especially the machine learning and big data industries.
翻訳日:2023-09-14 16:01:58 公開日:2023-09-12
# g$-mapper:マッパー建設でカバーを学ぶ

$G$-Mapper: Learning a Cover in the Mapper Construction ( http://arxiv.org/abs/2309.06634v1 )

ライセンス: Link先を確認
Enrique Alvarado, Robin Belton, Emily Fischer, Kang-Ju Lee, Sourabh Palande, Sarah Percival, Emilie Purvine(参考訳) Mapperアルゴリズムは、与えられたデータセットの構造を反映したグラフを出力するトポロジカルデータ解析(TDA)の可視化技術である。 マッパーアルゴリズムは、"nice"マッパーグラフを生成するためにいくつかのパラメータをチューニングする必要がある。 本稿はカバーパラメータの選択に焦点をあてる。 本稿では,マッパーグラフの被覆を,統計的正規性テストに従って繰り返し分割することにより最適化するアルゴリズムを提案する。 このアルゴリズムは,anderson-darlingテストを繰り返し実施することにより,k$-meansで最適なクラスタ数を探索する,$g$-meansクラスタリングに基づいている。 分割手順では,与えられたデータの分布に基づいてカバーを慎重に選択するためにガウス混合モデルを用いる。 合成および実世界のデータセットに対する実験により、我々のアルゴリズムがカバーを生成し、Mapperグラフがデータセットの本質を保持することを示す。

The Mapper algorithm is a visualization technique in topological data analysis (TDA) that outputs a graph reflecting the structure of a given dataset. The Mapper algorithm requires tuning several parameters in order to generate a "nice" Mapper graph. The paper focuses on selecting the cover parameter. We present an algorithm that optimizes the cover of a Mapper graph by splitting a cover repeatedly according to a statistical test for normality. Our algorithm is based on $G$-means clustering which searches for the optimal number of clusters in $k$-means by conducting iteratively the Anderson-Darling test. Our splitting procedure employs a Gaussian mixture model in order to choose carefully the cover based on the distribution of a given data. Experiments for synthetic and real-world datasets demonstrate that our algorithm generates covers so that the Mapper graphs retain the essence of the datasets.
翻訳日:2023-09-14 16:01:48 公開日:2023-09-12
# 効率的な抽象化のための誘導バイアスとしてのリレーショナルボトルネック

The Relational Bottleneck as an Inductive Bias for Efficient Abstraction ( http://arxiv.org/abs/2309.06629v1 )

ライセンス: Link先を確認
Taylor W. Webb, Steven M. Frankland, Awni Altabaa, Kamesh Krishnamurthy, Declan Campbell, Jacob Russin, Randall O'Reilly, John Lafferty, Jonathan D. Cohen(参考訳) 認知科学の中心的な課題は、抽象概念が限られた経験からどのように獲得されるかを説明することである。 この取り組みは、経験主義的アプローチとナティビズム的アプローチの2分法という観点でしばしば構成されており、最近ではディープニューラルネットワークとシンボリック認知モデルに関する議論で具現化されている。 ここでは、リレーショナルボトルネックと呼ばれる帰納的バイアスを利用して、これらのアプローチの新たな和解を示唆する最近の研究のラインを強調します。 我々は、この手法を用いて抽象概念をデータ効率で誘導するモデル群をレビューし、人間の心と脳における抽象概念の獲得の候補モデルとしての可能性を強調した。

A central challenge for cognitive science is to explain how abstract concepts are acquired from limited experience. This effort has often been framed in terms of a dichotomy between empiricist and nativist approaches, most recently embodied by debates concerning deep neural networks and symbolic cognitive models. Here, we highlight a recently emerging line of work that suggests a novel reconciliation of these approaches, by exploiting an inductive bias that we term the relational bottleneck. We review a family of models that employ this approach to induce abstractions in a data-efficient manner, emphasizing their potential as candidate models for the acquisition of abstract concepts in the human mind and brain.
翻訳日:2023-09-14 16:01:32 公開日:2023-09-12
# 適応学習のための高速ニューラルネットワークアンサンブルの認識モデル不確かさ

Epistemic Modeling Uncertainty of Rapid Neural Network Ensembles for Adaptive Learning ( http://arxiv.org/abs/2309.06628v1 )

ライセンス: Link先を確認
Atticus Beachy (1), Harok Bae (1), Jose Camberos (2), Ramana Grandhi (2) ((1) Wright State University, Dayton, OH, USA (2) Air Force Institute of Technology, Wright-Patterson AFB, OH, USA)(参考訳) 物理インフォームドニューラルネットワークの一種であるエミュレータ組込みニューラルネットワークは、航空宇宙工学システムの効率的な設計探索にマルチフィデリティデータソースを利用する。 ニューラルネットワークモデルの複数の実現は、異なるランダム初期化で訓練される。 モデル実現のアンサンブルは、トレーニングサンプルの欠如に起因するてんかんのモデリングの不確実性を評価するために用いられる。 この不確実性推定は、航空宇宙システム設計における目標指向適応学習の成功にとって重要な情報である。 しかしながら、アンサンブルモデルの訓練コストはしばしば禁止され、特に適応学習中にモデルが並列に訓練されない場合、計算上の課題となる。 本研究では,高速ニューラルネットワークのパラダイムを用いて,新しいタイプのエミュレータ組み込みニューラルネットワークを提案する。 勾配に基づくバックプロパゲーションを用いてネットワーク層の重みとバイアスを最適化する従来のニューラルネットワークトレーニングとは異なり、ラピッドニューラルネットワークトレーニングは線形回帰手法を適用して最終層接続重みのみを調整する。 提案するエミュレータ組込みニューラルネットワークは,予測精度を損なうことなく,ほぼ瞬時にトレーニングされることが判明した。 提案手法は, 航空宇宙飛行パラメータによる汎用極超音速機の研究と同様に, 複数の解析例で実証された。

Emulator embedded neural networks, which are a type of physics informed neural network, leverage multi-fidelity data sources for efficient design exploration of aerospace engineering systems. Multiple realizations of the neural network models are trained with different random initializations. The ensemble of model realizations is used to assess epistemic modeling uncertainty caused due to lack of training samples. This uncertainty estimation is crucial information for successful goal-oriented adaptive learning in an aerospace system design exploration. However, the costs of training the ensemble models often become prohibitive and pose a computational challenge, especially when the models are not trained in parallel during adaptive learning. In this work, a new type of emulator embedded neural network is presented using the rapid neural network paradigm. Unlike the conventional neural network training that optimizes the weights and biases of all the network layers by using gradient-based backpropagation, rapid neural network training adjusts only the last layer connection weights by applying a linear regression technique. It is found that the proposed emulator embedded neural network trains near-instantaneously, typically without loss of prediction accuracy. The proposed method is demonstrated on multiple analytical examples, as well as an aerospace flight parameter study of a generic hypersonic vehicle.
翻訳日:2023-09-14 16:01:17 公開日:2023-09-12
# 多感性属性の連続的公正なメカニズム

A Sequentially Fair Mechanism for Multiple Sensitive Attributes ( http://arxiv.org/abs/2309.06627v1 )

ライセンス: Link先を確認
Fran\c{c}ois Hu and Philipp Ratz and Arthur Charpentier(参考訳) アルゴリズム的公平性の標準的なユースケースでは、敏感な変数と対応するスコアの関係をなくすことが目標である。 近年、科学コミュニティは、この課題を解決するための多くの定義とツールを開発しており、多くの実用的な応用でうまく機能している。 しかし、これらのツールや定義の適用性や効果性は、複数の敏感な属性の場合、それほど単純ではない。 この問題に取り組むため,我々は,機密性の高い機能セットの公平性を段階的に達成するためのシーケンシャルフレームワークを提案する。 マルチマルジナル・ワッサーシュタイン・バリセンタを利用することにより,複数の感度特性を持つ場合に対して,強デモグラフィック・パリティの標準概念を拡張する。 この方法はまた、最適で逐次的に公正な予測器に対する閉形式解を提供し、感度の高い特徴相関を明確に解釈する。 当社のアプローチは、リスクと不公平の間のトレードオフを緩和するフレームワークを包含することで、公平性をシームレスに拡張します。 この拡張により、機密属性のセット内の特定の属性に対する公平性の改善を目標とする優先順位付けが可能となり、ケース固有の適応が可能になる。 導出溶液のデータ駆動推定法を開発し,合成データと実データの両方について総合的な数値実験を行った。 実験の結果は,公平な意思決定を育むための後処理アプローチの実際的効果を決定的に強調する。

In the standard use case of Algorithmic Fairness, the goal is to eliminate the relationship between a sensitive variable and a corresponding score. Throughout recent years, the scientific community has developed a host of definitions and tools to solve this task, which work well in many practical applications. However, the applicability and effectivity of these tools and definitions becomes less straightfoward in the case of multiple sensitive attributes. To tackle this issue, we propose a sequential framework, which allows to progressively achieve fairness across a set of sensitive features. We accomplish this by leveraging multi-marginal Wasserstein barycenters, which extends the standard notion of Strong Demographic Parity to the case with multiple sensitive characteristics. This method also provides a closed-form solution for the optimal, sequentially fair predictor, permitting a clear interpretation of inter-sensitive feature correlations. Our approach seamlessly extends to approximate fairness, enveloping a framework accommodating the trade-off between risk and unfairness. This extension permits a targeted prioritization of fairness improvements for a specific attribute within a set of sensitive attributes, allowing for a case specific adaptation. A data-driven estimation procedure for the derived solution is developed, and comprehensive numerical experiments are conducted on both synthetic and real datasets. Our empirical findings decisively underscore the practical efficacy of our post-processing approach in fostering fair decision-making.
翻訳日:2023-09-14 16:00:57 公開日:2023-09-12
# 半構造化アクティベーションスパーシティによるディープニューラルネットワークの高速化

Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity ( http://arxiv.org/abs/2309.06626v1 )

ライセンス: Link先を確認
Matteo Grimaldi, Darshan C. Ganji, Ivan Lazarevich, Sudhakar Sah(参考訳) 組み込みデバイス上でのディープニューラルネットワーク(DNN)の効率的な処理の要求は、デプロイメントを制限する重要な課題である。 ネットワークの機能マップにおけるスパーシティの利用は、その推論遅延を減らす方法の1つです。 非構造的なスパーシリティは、構造化されたスパーシリティに対して低い精度の劣化をもたらすことが知られているが、前者はレイテンシの利点を得るために広範な推論エンジンの変更を必要とする。 この課題に取り組むため,我々は,半構造化アクティベーションスパーシティをマイナーなランタイム変更によって悪用する解決策を提案する。 推定時に高いスピードアップレベルを達成するために,一般行列乗算(gemm)を計算しながら,アクティベーションの最終位置を意識したスパーストレーニング手順を設計する。 画像分類や物体検出タスクの様々なモデルにおいて,提案手法を広範囲に評価する。 注目すべきは、ImageNetデータセット上のResNet18モデルに対して、最小精度の1.1\%の1.25 \times$のスピード改善が得られることだ。 さらに、最先端の構造化プルーニング手法と組み合わせることで、得られたモデルは、構造化プルーニング技術のみを用いる優れた遅延精度のトレードオフを提供する。

The demand for efficient processing of deep neural networks (DNNs) on embedded devices is a significant challenge limiting their deployment. Exploiting sparsity in the network's feature maps is one of the ways to reduce its inference latency. It is known that unstructured sparsity results in lower accuracy degradation with respect to structured sparsity but the former needs extensive inference engine changes to get latency benefits. To tackle this challenge, we propose a solution to induce semi-structured activation sparsity exploitable through minor runtime modifications. To attain high speedup levels at inference time, we design a sparse training procedure with awareness of the final position of the activations while computing the General Matrix Multiplication (GEMM). We extensively evaluate the proposed solution across various models for image classification and object detection tasks. Remarkably, our approach yields a speed improvement of $1.25 \times$ with a minimal accuracy drop of $1.1\%$ for the ResNet18 model on the ImageNet dataset. Furthermore, when combined with a state-of-the-art structured pruning method, the resulting models provide a good latency-accuracy trade-off, outperforming models that solely employ structured pruning techniques.
翻訳日:2023-09-14 16:00:35 公開日:2023-09-12
# 確率線形系におけるschr\"odinger橋の収縮係数について

On the Contraction Coefficient of the Schr\"odinger Bridge for Stochastic Linear Systems ( http://arxiv.org/abs/2309.06622v1 )

ライセンス: Link先を確認
Alexis M.H. Teter, Yongxin Chen, Abhishek Halder(参考訳) schr\"{o}dinger bridgeは、与えられた初期状態密度を別の状態密度に制御するための確率的最適制御問題である。 schr\"{o}dinger bridge問題を解く一般的な方法は、古典的および線形システム設定の両方において、収縮的不動点再帰(contractive fixed point recursions)である。 これらの再帰は、よく知られたシンクホーン反復の動的バージョンと見なすことができ、穏やかな仮定の下で、線形収束を保証したいわゆるschr\"{o}dingerシステムを解く。 そこで本研究では,各Schr\"{o}dinger系の収束に伴う収縮係数の事前推定について検討する。 我々は、新しい幾何学的および制御論的解釈を提供する。 これらの新たな解釈に基づいて,エンドポイントサポートセットをプリコンディショニングすることにより,線形sbpの最悪の収縮係数の計算精度が向上する可能性を指摘する。

Schr\"{o}dinger bridge is a stochastic optimal control problem to steer a given initial state density to another, subject to controlled diffusion and deadline constraints. A popular method to numerically solve the Schr\"{o}dinger bridge problems, in both classical and in the linear system settings, is via contractive fixed point recursions. These recursions can be seen as dynamic versions of the well-known Sinkhorn iterations, and under mild assumptions, they solve the so-called Schr\"{o}dinger systems with guaranteed linear convergence. In this work, we study a priori estimates for the contraction coefficients associated with the convergence of respective Schr\"{o}dinger systems. We provide new geometric and control-theoretic interpretations for the same. Building on these newfound interpretations, we point out the possibility of improved computation for the worst-case contraction coefficients of linear SBPs by preconditioning the endpoint support sets.
翻訳日:2023-09-14 16:00:15 公開日:2023-09-12
# 視覚観測によるロボットアンロードの強化学習手法

A Reinforcement Learning Approach for Robotic Unloading from Visual Observations ( http://arxiv.org/abs/2309.06621v1 )

ライセンス: Link先を確認
Vittorio Giammarino, Alberto Giammarino, Matthew Pearce(参考訳) 本研究では,RGB-D画像を主入力源として,ロボットが自動で大量の荷物を降ろすという,視覚的観察からのロボットの降ろし問題に焦点を当てる。 教師付きおよび模倣学習はこの種のタスクで良い結果を得たが、ラベル付きデータに大きく依存しており、現実的なシナリオでは入手が困難である。 本研究の目的は,学習プロセス中にラベル付きデータを必要とせずにタスクのアンロードを学習できる,効率的なコントローラフレームワークの開発である。 そこで本研究では,高レベル意思決定モジュールと古典的動作制御を組み合わせた階層型コントローラ構造を提案する。 高レベルモジュールは、Deep Reinforcement Learning (DRL)を用いてトレーニングされ、安全バイアス機構を組み込んで、このタスクに適した報酬関数を設計する。 本実験は,これらの要素が学習性能の向上に重要な役割を果たしていることを示す。 さらに,再現性を確保し,将来の研究のためのベンチマークを確立するため,コードやシミュレーションへの無償アクセスを提供する。

In this work, we focus on a robotic unloading problem from visual observations, where robots are required to autonomously unload stacks of parcels using RGB-D images as their primary input source. While supervised and imitation learning have accomplished good results in these types of tasks, they heavily rely on labeled data, which are challenging to obtain in realistic scenarios. Our study aims to develop a sample efficient controller framework that can learn unloading tasks without the need for labeled data during the learning process. To tackle this challenge, we propose a hierarchical controller structure that combines a high-level decision-making module with classical motion control. The high-level module is trained using Deep Reinforcement Learning (DRL), wherein we incorporate a safety bias mechanism and design a reward function tailored to this task. Our experiments demonstrate that both these elements play a crucial role in achieving improved learning performance. Furthermore, to ensure reproducibility and establish a benchmark for future research, we provide free access to our code and simulation.
翻訳日:2023-09-14 15:59:57 公開日:2023-09-12
# RT-LM:言語モデルのリアルタイム推論のための不確実性を考慮した資源管理

RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of Language Models ( http://arxiv.org/abs/2309.06619v1 )

ライセンス: Link先を確認
Yufei Li, Zexin Li, Wei Yang, Cong Liu(参考訳) 近年の言語モデル(LM)の進歩は、人間のような応答を生成する能力に大きな注目を集めている。 会話AIのような様々なアプリケーションにとって有望な未来を示す一方で、これらのLMは計算コストの極端さと予測不可能な推論遅延のために、さまざまなデバイスにデプロイする課題に直面している。 このような様々な推論遅延は、言語の性質に固有の不確実性の結果として認識され、特に高トラフィックなワークロードにおいて、計算効率が低下し、lmsの全体的な性能が低下する可能性がある。 残念ながら、これらの不確実性源の帯域幅は広く、遅延の予測とそのような不確実性から生じる影響を複雑にしている。 実時間応答要求システムにおける不確実性の影響を理解し,緩和するために,我々は,これらの不確実性に起因するLMの性能変化を理解し,定量化し,最適化する第一歩を踏み出した。 具体的には,実時間予測のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。 RT-LMは、特定の入力の不確かさが遅延にどのように影響するかを革新的に定量化し、しばしば出力長を増大させる。 これらの知見をエクスプロイトし、実行時に出力長と入力テキストの不確かさを動的に相関させる軽量で効果的な手法を考案する。 この量化をレイテンシーヒューリスティックとして利用し,不確実性情報をシステムレベルのスケジューラに統合し,不確実性を考慮した優先順位付け,動的統合,戦略的cpuオフローディングなど,不確実性が引き起こされる最適化機会を探索する。 2つのハードウェアプラットフォームにおける5つの最先端のlmsにおける定量的実験は、rt-lmが平均応答時間を大幅に削減し、実行時のオーバーヘッドをかなり小さくしながらスループットを向上させることを証明している。

Recent advancements in language models (LMs) have gained substantial attentions on their capability to generate human-like responses. Though exhibiting a promising future for various applications such as conversation AI, these LMs face deployment challenges on various devices due to their extreme computational cost and unpredictable inference latency. Such varied inference latency, identified as a consequence of uncertainty intrinsic to the nature of language, can lead to computational inefficiency and degrade the overall performance of LMs, especially under high-traffic workloads. Unfortunately, the bandwidth of these uncertainty sources is extensive, complicating the prediction of latency and the effects emanating from such uncertainties. To understand and mitigate the impact of uncertainty on real-time response-demanding systems, we take the first step to comprehend, quantify and optimize these uncertainty-induced latency performance variations in LMs. Specifically, we present RT-LM, an uncertainty-aware resource management ecosystem for real-time inference of LMs. RT-LM innovatively quantifies how specific input uncertainties, adversely affect latency, often leading to an increased output length. Exploiting these insights, we devise a lightweight yet effective method to dynamically correlate input text uncertainties with output length at runtime. Utilizing this quantification as a latency heuristic, we integrate the uncertainty information into a system-level scheduler which explores several uncertainty-induced optimization opportunities, including uncertainty-aware prioritization, dynamic consolidation, and strategic CPU offloading. Quantitative experiments across five state-of-the-art LMs on two hardware platforms demonstrates that RT-LM can significantly reduce the average response time and improve throughput while incurring a rather small runtime overhead.
翻訳日:2023-09-14 15:59:39 公開日:2023-09-12
# bregmanグラフニューラルネットワーク

Bregman Graph Neural Network ( http://arxiv.org/abs/2309.06645v1 )

ライセンス: Link先を確認
Jiayu Zhai, Lequan Lin, Dai Shi, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)に関する最近の多くの研究は、滑らかさを仮定した最適化問題として、GNNアーキテクチャの定式化に重点を置いている。 しかし、ノード分類タスクでは、GNNによって誘導される滑らか化効果は、連結ノードの表現と過剰な均質化ラベルを同化する傾向にあり、過度なスムース化や誤分類などの悪影響をもたらす。 本稿では,Bregman 距離の概念に着想を得た GNN のための二段階最適化フレームワークを提案する。 提案したGNN層は,「スキップ接続」を連想させる機構を導入することで,過度にスムースな問題を効果的に軽減できることを示す。 我々は,Bregman-enhanced GNN がホモ親和性グラフとヘテロ親和性グラフの両方において元のグラフよりも優れているという包括的実証研究を通じて理論結果を検証した。 さらに,bregman gnnは層数が高い場合でもより頑健な学習精度が得られることを示し,提案手法の有効性を示唆する。

Numerous recent research on graph neural networks (GNNs) has focused on formulating GNN architectures as an optimization problem with the smoothness assumption. However, in node classification tasks, the smoothing effect induced by GNNs tends to assimilate representations and over-homogenize labels of connected nodes, leading to adverse effects such as over-smoothing and misclassification. In this paper, we propose a novel bilevel optimization framework for GNNs inspired by the notion of Bregman distance. We demonstrate that the GNN layer proposed accordingly can effectively mitigate the over-smoothing issue by introducing a mechanism reminiscent of the "skip connection". We validate our theoretical results through comprehensive empirical studies in which Bregman-enhanced GNNs outperform their original counterparts in both homophilic and heterophilic graphs. Furthermore, our experiments also show that Bregman GNNs can produce more robust learning accuracy even when the number of layers is high, suggesting the effectiveness of the proposed method in alleviating the over-smoothing issue.
翻訳日:2023-09-14 15:50:29 公開日:2023-09-12
# HPCカーネル生成のためのLlama-2とGPT-3 LLMの比較

Comparing Llama-2 and GPT-3 LLMs for HPC kernels generation ( http://arxiv.org/abs/2309.07103v1 )

ライセンス: Link先を確認
Pedro Valero-Lara, Alexis Huante, Mustafa Al Lail, William F. Godoy, Keita Teranishi, Prasanna Balaprakash, Jeffrey S. Vetter(参考訳) C++: OpenMP, OpenMP Offload, OpenACC, CUDA, HIP; Fortran: OpenMP, OpenMP Offload, OpenACC; Python: numpy, Numba, pyCUDA, cuPy; Julia: Threads, CUDA.jl, AMDGPU.jl; Julia: Threads, CUDA.jl, AMDGPU.jl; GPT-3の後継であるOpenAI Codexをベースとして、GitHub Copilot経由で簡単なプロンプトで同様のカーネルを生成するという、これまでの作業に基づいています。 我々の目標は、Llama-2とGPT-3のベースラインの精度を、同様の測定値を用いて比較することである。 Llama-2は、競争力やより優れた精度を示すシンプルなモデルを持っている。 また、生成AIが人間とコンピュータの相互作用を再定義し続けているため、これらの基礎となる大きな言語モデルの違いについても報告する。 全体として、Copilotはより信頼性が高く、より最適化されていないコードを生成する。

We evaluate the use of the open-source Llama-2 model for generating well-known, high-performance computing kernels (e.g., AXPY, GEMV, GEMM) on different parallel programming models and languages (e.g., C++: OpenMP, OpenMP Offload, OpenACC, CUDA, HIP; Fortran: OpenMP, OpenMP Offload, OpenACC; Python: numpy, Numba, pyCUDA, cuPy; and Julia: Threads, CUDA.jl, AMDGPU.jl). We built upon our previous work that is based on the OpenAI Codex, which is a descendant of GPT-3, to generate similar kernels with simple prompts via GitHub Copilot. Our goal is to compare the accuracy of Llama-2 and our original GPT-3 baseline by using a similar metric. Llama-2 has a simplified model that shows competitive or even superior accuracy. We also report on the differences between these foundational large language models as generative AI continues to redefine human-computer interactions. Overall, Copilot generates codes that are more reliable but less optimized, whereas codes generated by Llama-2 are less reliable but more optimized when correct.
翻訳日:2023-09-14 13:20:15 公開日:2023-09-12
# 協調拡散回復様相によるエネルギーモデル学習

Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood ( http://arxiv.org/abs/2309.05153v2 )

ライセンス: Link先を確認
Yaxuan Zhu, Jianwen Xie, Yingnian Wu, Ruiqi Gao(参考訳) 高次元データに対する最大推定値のトレーニングエネルギーベースモデル(EBMs)は、困難かつ時間を要する可能性がある。 その結果、ESMとGANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質の顕著なギャップがある。 拡散回復率(DRL)を最大化してESMを学習する最近の取り組みに触発されたこのギャップを埋めるため,各ESMの初期化モデルと組み合わさったデータセットの騒々しい頂点上で定義された一連のESMから効果的に学習し,サンプルを抽出するための協調拡散回復可能性(CDRL)を提案する。 各ノイズレベルにおいて、初期化子モデルがebmのサンプリング過程を償却することを学習し、2つのモデルを協調訓練枠組み内で共同で推定する。 初期化器からのサンプルは、ebmからいくつかのサンプリングステップで洗練された出発点として機能する。 精製試料では回収可能性の最大化によりEBMを最適化し, 精製試料と初期試料との差から初期化装置を最適化した。 我々は,新しいノイズスケジュールと分散低減手法を開発し,サンプル品質をさらに向上させる。 CIFAR-10 と ImageNet 32x32 の既存 EBM 法と比較して FID のスコアが大幅に向上し,DRL を2倍高速化した。 さらに,本手法を合成生成および画像インペインティングタスクに拡張し,cdrlと条件生成のための分類器フリーガイダンスとの互換性を示し,拡散モデルと同様にサンプル品質とサンプル多様性のトレードオフを実現した。

Training energy-based models (EBMs) with maximum likelihood estimation on high-dimensional data can be both challenging and time-consuming. As a result, there a noticeable gap in sample quality between EBMs and other generative frameworks like GANs and diffusion models. To close this gap, inspired by the recent efforts of learning EBMs by maximimizing diffusion recovery likelihood (DRL), we propose cooperative diffusion recovery likelihood (CDRL), an effective approach to tractably learn and sample from a series of EBMs defined on increasingly noisy versons of a dataset, paired with an initializer model for each EBM. At each noise level, the initializer model learns to amortize the sampling process of the EBM, and the two models are jointly estimated within a cooperative training framework. Samples from the initializer serve as starting points that are refined by a few sampling steps from the EBM. With the refined samples, the EBM is optimized by maximizing recovery likelihood, while the initializer is optimized by learning from the difference between the refined samples and the initial samples. We develop a new noise schedule and a variance reduction technique to further improve the sample quality. Combining these advances, we significantly boost the FID scores compared to existing EBM methods on CIFAR-10 and ImageNet 32x32, with a 2x speedup over DRL. In addition, we extend our method to compositional generation and image inpainting tasks, and showcase the compatibility of CDRL with classifier-free guidance for conditional generation, achieving similar trade-offs between sample quality and sample diversity as in diffusion models.
翻訳日:2023-09-14 11:25:26 公開日:2023-09-12
# 低分解スライスによる超解像表面の再構成

Super-Resolution Surface Reconstruction from Few Low-Resolution Slices ( http://arxiv.org/abs/2309.05071v2 )

ライセンス: Link先を確認
Yiyao Zhang, Ke Chen and Shang-Hua Yang(参考訳) 他の数値シミュレーション(有限要素解析など)でセグメント化された特徴(血管など)がさらに使用される多くのイメージングアプリケーションでは、得られた表面はタスクに適した微細な解像度を持たない。 このような表面の分解能を高めることが重要となる。 本稿では,Euler-Elastica-based regulariserに基づく新しい変分モデルを提案する。 さらに, このモデルの解法として, 投影勾配降下法と乗算器の交互方向法という2つの数値アルゴリズムを提案し, 実装した。 実例(他の変分モデルの出力から2つを含む)を用いた数値実験が有効性を示す。 新しいモデルの利点は、離散幾何学の観点からのガウス曲率と平均曲率の標準偏差による定量的比較によって示される。

In many imaging applications where segmented features (e.g. blood vessels) are further used for other numerical simulations (e.g. finite element analysis), the obtained surfaces do not have fine resolutions suitable for the task. Increasing the resolution of such surfaces becomes crucial. This paper proposes a new variational model for solving this problem, based on an Euler-Elastica-based regulariser. Further, we propose and implement two numerical algorithms for solving the model, a projected gradient descent method and the alternating direction method of multipliers. Numerical experiments using real-life examples (including two from outputs of another variational model) have been illustrated for effectiveness. The advantages of the new model are shown through quantitative comparisons by the standard deviation of Gaussian curvatures and mean curvatures from the viewpoint of discrete geometry.
翻訳日:2023-09-14 11:24:37 公開日:2023-09-12
# 高密度QAOA回路の高速シミュレーション

Fast Simulation of High-Depth QAOA Circuits ( http://arxiv.org/abs/2309.04841v2 )

ライセンス: Link先を確認
Danylo Lykov, Ruslan Shaydulin, Yue Sun, Yuri Alexeev, Marco Pistoia(参考訳) 多くの量子ビットを持つ高忠実度量子コンピュータが広く利用可能になるまで、古典的なシミュレーションはアルゴリズムの設計、チューニング、検証に不可欠である。 本稿では,量子近似最適化アルゴリズム(QAOA)のシミュレータを提案する。 このシミュレータはQAOAパラメータ最適化の計算コストを削減し,CPUとGPUの両方の実行をサポートすることを目標に設計されている。 我々の中心的な観察は、QAOA状態のシミュレーションと最適化すべきQAOA目標の計算の両方の計算コストを、この問題を符号化する対角ハミルトニアンをプリ計算することで削減できるということである。 cuQuantumをベースとした最先端のGPU量子回路シミュレータと比較して,典型的なQAOAパラメータ最適化の時間を,$n = 26$ qubitsで11倍削減する。 私たちのシミュレータはgithubで入手できる。 https://github.com/jpmorganchase/qokit

Until high-fidelity quantum computers with a large number of qubits become widely available, classical simulation remains a vital tool for algorithm design, tuning, and validation. We present a simulator for the Quantum Approximate Optimization Algorithm (QAOA). Our simulator is designed with the goal of reducing the computational cost of QAOA parameter optimization and supports both CPU and GPU execution. Our central observation is that the computational cost of both simulating the QAOA state and computing the QAOA objective to be optimized can be reduced by precomputing the diagonal Hamiltonian encoding the problem. We reduce the time for a typical QAOA parameter optimization by eleven times for $n = 26$ qubits compared to a state-of-the-art GPU quantum circuit simulator based on cuQuantum. Our simulator is available on GitHub: https://github.com/jpmorganchase/QOKit
翻訳日:2023-09-14 11:24:23 公開日:2023-09-12
# メモリインジェクション:トランスフォーマティブ言語モデルにおける推論中のマルチホップ推論障害の修正

Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models ( http://arxiv.org/abs/2309.05605v2 )

ライセンス: Link先を確認
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, Andr\'e Bauer, Kyle Chard, Ian Foster(参考訳) マルチホップ推論に答えるには、様々な情報源からの情報を検索し、合成する必要がある。 大規模言語モデル(LLM)はそのような推論を一貫して行うのに苦労する。 本稿では,LLMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。 まず,シングルホッププロンプトとマルチホッププロンプトに応答して,GPT-2モデルの層間アクティベーションを分析する。 次に,提案するメカニズムにより,ユーザが推論中に重要なLCM箇所で,関連するプロンプト固有情報を「記憶」として注入する機構を提案する。 これにより、LLMは推論中に追加の関連情報を組み込めるようになり、マルチホッププロンプトの完成度が向上する。 キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。

Answering multi-hop reasoning questions requires retrieving and synthesizing information from diverse sources. Large Language Models (LLMs) struggle to perform such reasoning consistently. Here we propose an approach to pinpoint and rectify multi-hop reasoning failures through targeted memory injections on LLM attention heads. First, we analyze the per-layer activations of GPT-2 models in response to single and multi-hop prompts. We then propose a mechanism that allows users to inject pertinent prompt-specific information, which we refer to as "memories," at critical LLM locations during inference. By thus enabling the LLM to incorporate additional relevant information during inference, we enhance the quality of multi-hop prompt completions. We show empirically that a simple, efficient, and targeted memory injection into a key attention layer can often increase the probability of the desired next token in multi-hop tasks, by up to 424%.
翻訳日:2023-09-14 11:15:58 公開日:2023-09-12
# マルコフ連鎖と混合時間の経験的およびインスタンス依存的推定

Empirical and Instance-Dependent Estimation of Markov Chain and Mixing Time ( http://arxiv.org/abs/1912.06845v4 )

ライセンス: Link先を確認
Geoffrey Wolfer(参考訳) 本稿では,マルコフ連鎖の混合時間を1つの観測軌道から推定する問題に対処する。 スペクトルギャップを推定するためにヒルベルト空間法を用いたほとんどの先行研究とは異なり、全変動に関する縮小に基づくアプローチを選択した。 具体的には, ドブルシンから着想を得たWolfer [2020] で導入された収縮係数を推定する。 この量はスペクトルギャップとは異なり、強い普遍定数までの混合時間を制御し、可逆鎖に適用できるままである。 我々は、この収縮係数の周りの既存の完全データ依存の信頼区間を改善し、スペクトルよりも計算が容易で薄い。 さらに,遷移行列に関する追加情報を活用することで,最悪のシナリオを超えた新たな解析手法を提案する。 これにより、誘導された一様ノルムおよびその混合特性に関して行列を推定するためのインスタンス依存率を導出することができる。

We address the problem of estimating the mixing time of a Markov chain from a single trajectory of observations. Unlike most previous works which employed Hilbert space methods to estimate spectral gaps, we opt for an approach based on contraction with respect to total variation. Specifically, we estimate the contraction coefficient introduced in Wolfer [2020], inspired from Dobrushin's. This quantity, unlike the spectral gap, controls the mixing time up to strong universal constants and remains applicable to non-reversible chains. We improve existing fully data-dependent confidence intervals around this contraction coefficient, which are both easier to compute and thinner than spectral counterparts. Furthermore, we introduce a novel analysis beyond the worst-case scenario by leveraging additional information about the transition matrix. This allows us to derive instance-dependent rates for estimating the matrix with respect to the induced uniform norm, and some of its mixing properties.
翻訳日:2023-09-13 18:35:50 公開日:2023-09-12
# マルチプレイヤーバンド学習 : 競争から協力へ

Multiplayer Bandit Learning, from Competition to Cooperation ( http://arxiv.org/abs/1908.01135v3 )

ライセンス: Link先を確認
Simina Br\^anzei and Yuval Peres(参考訳) 確率的多腕バンディットモデルは探索と搾取の間のトレードオフを捉えている。 このトレードオフに対する競争と協力の効果について検討する。 k$の腕とアリスとボブの2人のプレーヤーがいるとしよう。 各ラウンドにおいて、各プレイヤーは腕を引っ張り、その結果得られる報酬を受け取り、他のプレイヤーの選択を観察するが、報酬は与えない。 Aliceのユーティリティは$\Gamma_A + \lambda \Gamma_B$(Bobも同様)であり、$\Gamma_A$はAliceの総報酬であり、$\lambda \in [-1, 1]$は協力パラメータである。 プレイヤーは$\lambda = -1$でゼロサムゲームに出場し、$\lambda = 1$で完全に協力し、$\lambda = 0$では中立である。 このモデルは、通常プレイヤーが互いの報酬を観察する戦略実験に関する経済学文献と関連している。 割引係数 $\beta$ で、Gittins インデックスはリスクのあるアームと予測可能なアーム、成功確率 $p$ の比較に1人のプレイヤー問題を還元する。 プレイヤーが腕の間に無関心な$p$の値は、Gittins index $g = g(\mu,\beta) > m$である。 競技者が単一のプレイヤーより少ない探索を行うことを示す:$p^* \in (m, g)$なので、すべての$p > p^*$に対して、プレイヤーは予測可能なアームに留まる。 しかし、プレイヤーは目立たない:彼らはまだ約$p > m$を求めて探索している。 一方、協力的なプレイヤーは1人以上のプレイヤーを探索する。 また、中立プレイヤーは互いに学習し、単独でプレイするよりも厳密に高い報酬を受け取り、全ての$p\in (p^*, g)$に対して、$p^*$が競合するケースのしきい値であることを示す。 最後に、競争相手と中立相手のプレイヤーは、nash平衡ごとに同じ腕に落ち着くが、これは協力するプレイヤーには失敗する可能性がある。

The stochastic multi-armed bandit model captures the tradeoff between exploration and exploitation. We study the effects of competition and cooperation on this tradeoff. Suppose there are $k$ arms and two players, Alice and Bob. In every round, each player pulls an arm, receives the resulting reward, and observes the choice of the other player but not their reward. Alice's utility is $\Gamma_A + \lambda \Gamma_B$ (and similarly for Bob), where $\Gamma_A$ is Alice's total reward and $\lambda \in [-1, 1]$ is a cooperation parameter. At $\lambda = -1$ the players are competing in a zero-sum game, at $\lambda = 1$, they are fully cooperating, and at $\lambda = 0$, they are neutral: each player's utility is their own reward. The model is related to the economics literature on strategic experimentation, where usually players observe each other's rewards. With discount factor $\beta$, the Gittins index reduces the one-player problem to the comparison between a risky arm, with a prior $\mu$, and a predictable arm, with success probability $p$. The value of $p$ where the player is indifferent between the arms is the Gittins index $g = g(\mu,\beta) > m$, where $m$ is the mean of the risky arm. We show that competing players explore less than a single player: there is $p^* \in (m, g)$ so that for all $p > p^*$, the players stay at the predictable arm. However, the players are not myopic: they still explore for some $p > m$. On the other hand, cooperating players explore more than a single player. We also show that neutral players learn from each other, receiving strictly higher total rewards than they would playing alone, for all $ p\in (p^*, g)$, where $p^*$ is the threshold from the competing case. Finally, we show that competing and neutral players eventually settle on the same arm in every Nash equilibrium, while this can fail for cooperating players.
翻訳日:2023-09-13 18:35:37 公開日:2023-09-12
# マニフォールドフィルタとマニフォールドニューラルネットワークの変形に対する安定性

Stability to Deformations of Manifold Filters and Manifold Neural Networks ( http://arxiv.org/abs/2106.03725v4 )

ライセンス: Link先を確認
Zhiyang Wang, Luana Ruiz, Alejandro Ribeiro(参考訳) 本稿では、多様体(M)畳み込みフィルタとニューラルネットワーク(NN)を定義し、研究する。 ラプラス・ベルトラミ作用素指数(英語版)の項で定義され、多様体がサンプリングされたときの離散近似として \emph{graph} (G) フィルタとニューラルネットワーク(NN) が復元される。 これらのフィルタは、グラフフィルタのスペクトル表現と標準畳み込みフィルタの連続時間における周波数応答の両方の一般化であるスペクトル表現を許容する。 この論文の主な技術的貢献は、多様体の滑らかな変形に対する多様体フィルタとMNNの安定性を分析することである。 この解析はグラフフィルタとgnnの既知の安定性特性を一般化し、標準畳み込みフィルタとニューラルネットワークの既知の安定性特性を連続時間に一般化する。 この分析から得られた最も重要な観察は、グラフフィルタや標準連続時間フィルタと同じ多様体フィルタは、変形の存在下で高周波成分の識別が困難であるということである。 これは、多様体、グラフ、または連続時間ニューラルネットワークの使用によって改善できる課題である。 この分析の最も重要な実践的成果は、大規模グラフにおけるグラフフィルタとGNNの挙動に光を当てることである。

The paper defines and studies manifold (M) convolutional filters and neural networks (NNs). \emph{Manifold} filters and MNNs are defined in terms of the Laplace-Beltrami operator exponential and are such that \emph{graph} (G) filters and neural networks (NNs) are recovered as discrete approximations when the manifold is sampled. These filters admit a spectral representation which is a generalization of both the spectral representation of graph filters and the frequency response of standard convolutional filters in continuous time. The main technical contribution of the paper is to analyze the stability of manifold filters and MNNs to smooth deformations of the manifold. This analysis generalizes known stability properties of graph filters and GNNs and it is also a generalization of known stability properties of standard convolutional filters and neural networks in continuous time. The most important observation that follows from this analysis is that manifold filters, same as graph filters and standard continuous time filters, have difficulty discriminating high frequency components in the presence of deformations. This is a challenge that can be ameliorated with the use of manifold, graph, or continuous time neural networks. The most important practical consequence of this analysis is to shed light on the behavior of graph filters and GNNs in large scale graphs.
翻訳日:2023-09-13 18:32:24 公開日:2023-09-12
# Graph Barlow Twins: グラフのための自己教師型表現学習フレームワーク

Graph Barlow Twins: A self-supervised representation learning framework for graphs ( http://arxiv.org/abs/2106.02466v3 )

ライセンス: Link先を確認
Piotr Bielak, Tomasz Kajdanowicz, Nitesh V. Chawla(参考訳) 自己教師型学習(SSL)パラダイムは,高価なデータラベリングの必要性を排除すべく,重要な調査領域である。 コンピュータビジョンや自然言語処理においてSSLメソッドが大きな成功を収めたにもかかわらず、そのほとんどは負のサンプルを必要とする対照的な学習目標を採用しており、定義は困難である。 これはグラフの場合さらに難しくなり、堅牢な表現を達成するためのボトルネックとなる。 このような制限を克服するために、負のサンプルの代わりに相互相関に基づく損失関数を利用するグラフバーロウツインズ(Graph Barlow Twins)という自己教師付きグラフ表現学習のためのフレームワークを提案する。 さらに、非対称ニューラルネットワークアーキテクチャに依存しておらず、最先端の自己教師付きグラフ表現学習法bgrlとは対照的である。 提案手法は,高パラメータの削減と計算時間の短縮(BGRLの約30倍)を必要としながら,最高の自己監督手法や完全教師付き手法として競合する結果が得られることを示す。

The self-supervised learning (SSL) paradigm is an essential exploration area, which tries to eliminate the need for expensive data labeling. Despite the great success of SSL methods in computer vision and natural language processing, most of them employ contrastive learning objectives that require negative samples, which are hard to define. This becomes even more challenging in the case of graphs and is a bottleneck for achieving robust representations. To overcome such limitations, we propose a framework for self-supervised graph representation learning - Graph Barlow Twins, which utilizes a cross-correlation-based loss function instead of negative samples. Moreover, it does not rely on non-symmetric neural network architectures - in contrast to state-of-the-art self-supervised graph representation learning method BGRL. We show that our method achieves as competitive results as the best self-supervised methods and fully supervised ones while requiring fewer hyperparameters and substantially shorter computation time (ca. 30 times faster than BGRL).
翻訳日:2023-09-13 18:32:02 公開日:2023-09-12
# 医用画像分類のためのプライバシー保護領域一般化

Privacy-Preserving Constrained Domain Generalization for Medical Image Classification ( http://arxiv.org/abs/2105.08511v2 )

ライセンス: Link先を確認
Chris Xing Tian, Haoliang Li, Yufei Wang, Shiqi Wang(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像応用において前例のない成功を収めている。 しかし、データセットの可用性の制限や患者のプライバシ保護の厳格な法的・倫理的要件により、大規模なトレーニングデータを用いたDNNによる医用画像分類の幅広い適用が妨げられている。 例えば、あるドメイン(例えば、ある病院からのデータのみ)からDNNを訓練する場合、他のドメイン(例えば、別の病院からのデータ)への一般化能力はほとんど欠落している。 本稿では,プライバシ保護制約付きドメイン一般化手法を開発し,プライバシ保護条件下での一般化能力の向上を目指す。 特に,集中型サーバ側における情報集約プロセスを改善することを提案し,トレーニングされたモデルが"見えない"が関連する医療画像に対してより一般化できることを期待する。 提案手法の理論的および有効性は,提案手法を分布距離測定として広く採用されている最大平均離散性(MMD)と結合することによって説明できる。 2つの難解な医用画像分類タスクの実験結果は,最先端のフェデレーション学習法と比較して,クロスドメイン一般化能力が向上することを示した。

Deep neural networks (DNN) have demonstrated unprecedented success for medical imaging applications. However, due to the issue of limited dataset availability and the strict legal and ethical requirements for patient privacy protection, the broad applications of medical imaging classification driven by DNN with large-scale training data have been largely hindered. For example, when training the DNN from one domain (e.g., with data only from one hospital), the generalization capability to another domain (e.g., data from another hospital) could be largely lacking. In this paper, we aim to tackle this problem by developing the privacy-preserving constrained domain generalization method, aiming to improve the generalization capability under the privacy-preserving condition. In particular, We propose to improve the information aggregation process on the centralized server-side with a novel gradient alignment loss, expecting that the trained model can be better generalized to the "unseen" but related medical images. The rationale and effectiveness of our proposed method can be explained by connecting our proposed method with the Maximum Mean Discrepancy (MMD) which has been widely adopted as the distribution distance measurement. Experimental results on two challenging medical imaging classification tasks indicate that our method can achieve better cross-domain generalization capability compared to the state-of-the-art federated learning methods.
翻訳日:2023-09-13 18:31:45 公開日:2023-09-12
# 部分観測可能な線形確率システムの構成による到達回避制御

Correct-by-construction reach-avoid control of partially observable linear stochastic systems ( http://arxiv.org/abs/2103.02398v4 )

ライセンス: Link先を確認
Thom Badings, Hasan A. Poonawala, Marielle Stoelinga, Nils Jansen(参考訳) ガウス過程と測定ノイズを有する離散時間線形時間不変(lti)系の到達回避制御のためのフィードバック制御器の合成について検討した。 問題は、少なくともある程度の確率で、システムは安全でない状態を避けながら、有限時間で所望のゴール状態に達するようにコントローラを計算することである。 確率性と非凸性のため、この問題はアルゴリズム的あるいは閉形式な解を一般に認めない。 我々の鍵となる貢献は、カルマンフィルタを用いて得られた非測定状態上のガウス的信念の有限状態抽象に基づく構成的制御合成スキームである。 我々はこの抽象概念をマルコフ決定過程(MDP)として定式化する。 遷移確率を近似する数値的不規則に対して頑健であるためには、遷移確率の間隔を持つmdpを用いる。 構成により、抽象に関する任意のポリシーをltiシステムのための分割線形フィードバックコントローラに洗練することができる。 この制御器の閉ループ LTI システムは,少なくとも必要な確率で到達可能な問題を満たすことを証明した。 数値実験により,本手法は最大6次元状態空間を持つシステムの到達回避問題を解くことができ,高速に探索するランダム信念木 (rrbt) のような手法では処理できない入力制約を制御できることを示した。

We study feedback controller synthesis for reach-avoid control of discrete-time, linear time-invariant (LTI) systems with Gaussian process and measurement noise. The problem is to compute a controller such that, with at least some required probability, the system reaches a desired goal state in finite time while avoiding unsafe states. Due to stochasticity and nonconvexity, this problem does not admit exact algorithmic or closed-form solutions in general. Our key contribution is a correct-by-construction controller synthesis scheme based on a finite-state abstraction of a Gaussian belief over the unmeasured state, obtained using a Kalman filter. We formalize this abstraction as a Markov decision process (MDP). To be robust against numerical imprecision in approximating transition probabilities, we use MDPs with intervals of transition probabilities. By construction, any policy on the abstraction can be refined into a piecewise linear feedback controller for the LTI system. We prove that the closed-loop LTI system under this controller satisfies the reach-avoid problem with at least the required probability. The numerical experiments show that our method is able to solve reach-avoid problems for systems with up to 6D state spaces, and with control input constraints that cannot be handled by methods such as the rapidly-exploring random belief trees (RRBT).
翻訳日:2023-09-13 18:31:24 公開日:2023-09-12
# GTAdam: 分散オンライン最適化のための適応モーメントによるグラディエントトラッキング

GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online Optimization ( http://arxiv.org/abs/2009.01745v3 )

ライセンス: Link先を確認
Guido Carnevale, Francesco Farina, Ivano Notarnicola, Giuseppe Notarstefano(参考訳) 本稿では,オンライン最適化問題,すなわち局所的な計算と通信によって,中央コーディネータを使わずに解くことを目的とした計算エージェントのネットワークについて述べる。 本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。 このアルゴリズムは、リプシッツ連続勾配の強い凸コスト関数のオンライン設定で解析される。 本研究では,初期条件に関連する用語と,目的関数の時間的変動に関連する用語によって与えられる動的後悔の上限を与える。 さらに、静的な設定では線形収束率が保証される。 このアルゴリズムは、時間変化の分類問題、(移動)目標位置決め問題、および画像分類からの確率的最適化設定において試験される。 マルチエージェント学習による数値実験では、gtadamは最先端の分散最適化手法よりも優れている。

This paper deals with a network of computing agents aiming to solve an online optimization problem in a distributed fashion, i.e., by means of local computation and communication, without any central coordinator. We propose the gradient tracking with adaptive momentum estimation (GTAdam) distributed algorithm, which combines a gradient tracking mechanism with first and second order momentum estimates of the gradient. The algorithm is analyzed in the online setting for strongly convex cost functions with Lipschitz continuous gradients. We provide an upper bound for the dynamic regret given by a term related to the initial conditions and another term related to the temporal variations of the objective functions. Moreover, a linear convergence rate is guaranteed in the static setup. The algorithm is tested on a time-varying classification problem, on a (moving) target localization problem, and in a stochastic optimization setup from image classification. In these numerical experiments from multi-agent learning, GTAdam outperforms state-of-the-art distributed optimization methods.
翻訳日:2023-09-13 18:29:25 公開日:2023-09-12
# 識別特徴を用いた下流分類における自己監督表現品質の測定

Measuring Self-Supervised Representation Quality for Downstream Classification using Discriminative Features ( http://arxiv.org/abs/2203.01881v5 )

ライセンス: Link先を確認
Neha Kalibhat, Kanika Narang, Hamed Firooz, Maziar Sanjabi, Soheil Feizi(参考訳) 自己教師付き学習(SSL)は下流の分類タスクにおいて顕著な結果を示している。 しかし、失敗モードを理解し、学習した表現を解釈する作業は限られている。 本稿では,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討する。 クラスラベル情報を使わずに、画像のユニークな物理的属性に対応する識別的特徴を発見し、主に正しく分類された表現に現れる。 これらの特徴を用いて、線形分類性能に大きな影響を及ぼすことなく、表現空間を最大40%圧縮することができる。 次に,画像Net-100で91.45,ImageNet-1Kで78.78のAUPRCを達成し,線形評価中に標本が誤分類される可能性を確実に予測できる教師なしスコアであるセルフ・スーパービジョン表現品質スコア(あるいはQスコア)を提案する。 Q-Scoreは、訓練済みエンコーダの正規化用語としても使用でき、低品質表現を補うことができる。 Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100では5.8%、ImageNet-1Kでは3.7%向上する。 最後に、勾配ヒートマップとsaient imagenetマスクを用いて、各表現の解釈可能性の定量化のためのメトリックを定義する。 識別機能はコア属性と強く関連していることを示し,q-score正規化によってssl表現をより解釈可能にした。

Self-supervised learning (SSL) has shown impressive results in downstream classification tasks. However, there is limited work in understanding their failure modes and interpreting their learned representations. In this paper, we study the representation space of state-of-the-art self-supervised models including SimCLR, SwaV, MoCo, BYOL, DINO, SimSiam, VICReg and Barlow Twins. Without the use of class label information, we discover discriminative features that correspond to unique physical attributes in images, present mostly in correctly-classified representations. Using these features, we can compress the representation space by up to 40% without significantly affecting linear classification performance. We then propose Self-Supervised Representation Quality Score (or Q-Score), an unsupervised score that can reliably predict if a given sample is likely to be mis-classified during linear evaluation, achieving AUPRC of 91.45 on ImageNet-100 and 78.78 on ImageNet-1K. Q-Score can also be used as a regularization term on pre-trained encoders to remedy low-quality representations. Fine-tuning with Q-Score regularization can boost the linear probing accuracy of SSL models by up to 5.8% on ImageNet-100 and 3.7% on ImageNet-1K compared to their baselines. Finally, using gradient heatmaps and Salient ImageNet masks, we define a metric to quantify the interpretability of each representation. We show that discriminative features are strongly correlated to core attributes and, enhancing these features through Q-score regularization makes SSL representations more interpretable.
翻訳日:2023-09-13 18:21:44 公開日:2023-09-12
# 重みのチューニング: 初期マトリックス構成が継承的特徴の学習効果に及ぼす影響

Tuning the Weights: The Impact of Initial Matrix Configurations on Successor Features Learning Efficacy ( http://arxiv.org/abs/2111.02017v2 )

ライセンス: Link先を確認
Hyunsu Lee(参考訳) 本研究の目的は,Reinforcement Learning (RL) エージェントの学習効率と収束性に及ぼす継手特徴量行列(SF)の初期化戦略の違いの影響を検討することである。 グリッドワールドのパラダイムを用いて,sf重み行列を同一行列,ゼロ行列,ランダム生成行列(xavier,he,あるいは一様分布法を用いて)で初期化するrlエージェントの性能を比較する。 分析は,値誤差,ステップ長,後続表現場(sr)のpca,異なるエージェント間のsr行列距離などの指標を評価することを目的としている。 その結果、ランダム行列で初期化されたrlエージェントは最適なsrプレイスフィールドに早く到達し、より効率的な学習を指し示すことで、値の誤差を素早く低減できることが示される。 さらに、これらのランダムエージェントは、より大きなグリッドワールド環境におけるステップ長の高速化を示す。 この研究は、これらの結果の神経生物学的解釈、知性を理解するためのその意味、そして将来の研究方向性に関する洞察を提供する。 これらの発見は人工知能の分野、特に学習アルゴリズムの設計に大きな影響を与える可能性がある。

The focus of this study is to investigate the impact of different initialization strategies for the weight matrix of Successor Features (SF) on learning efficiency and convergence in Reinforcement Learning (RL) agents. Using a grid-world paradigm, we compare the performance of RL agents, whose SF weight matrix is initialized with either an identity matrix, zero matrix, or a randomly generated matrix (using Xavier, He, or uniform distribution method). Our analysis revolves around evaluating metrics such as value error, step length, PCA of Successor Representation (SR) place field, and the distance of SR matrices between different agents. The results demonstrate that RL agents initialized with random matrices reach the optimal SR place field faster and showcase a quicker reduction in value error, pointing to more efficient learning. Furthermore, these random agents also exhibit a faster decrease in step length across larger grid-world environments. The study provides insights into the neurobiological interpretations of these results, their implications for understanding intelligence, and potential future research directions. These findings could have profound implications for the field of artificial intelligence, particularly in the design of learning algorithms.
翻訳日:2023-09-13 18:20:51 公開日:2023-09-12
# 希土類ドープ結晶におけるピエゾ軌道バックアクション力

Piezo-orbital backaction force in a rare-earth doped crystal ( http://arxiv.org/abs/2109.06577v2 )

ライセンス: Link先を確認
Anne Louchet-Chauvet and Pierre Verlot and Jean-Philippe Poizat and Thierry Chaneli\`ere(参考訳) バルク結晶に埋もれた室温希土類イオンのアンサンブルからなり, 内部ひずみに内在的に結合した系について, 周囲の結晶界に対する感度について検討した。 共振原子励起下での機械的応答の発生を実証する。 この動きは、イオンの励起状態への促進に伴う結晶場の変化によって生じる、保守的なピエゾ軌道機構と、原子集団の緩和を通じて発生するフォノンに関する散逸性非放射性光熱過程の2つの基本的な共鳴光学的バックアクションの過程の和である。 我々の研究は、ハイブリッド光力学における新しい研究の道を開き、超コヒーレントな希土類イオンの強調するダイナミクスを理解する上で鍵となる新しい相互作用を強調します。

We investigate a system composed of an ensemble of room temperature rare-earth ions embedded in a bulk crystal, intrinsically coupled to internal strain via their sensitivity to the surrounding crystal field. We evidence the generation of a mechanical response under resonant atomic excitation. We find this motion to be the sum of two fundamental, resonant optomechanical backaction processes: a conservative, piezo-orbital mechanism, resulting from the modification of the crystal field associated with the promotion of the ions to their excited state, and a dissipative, non-radiative photothermal process related to the phonons generated throughout the atomic population relaxation. Our work opens new research avenues in hybrid optomechanics, and highlights new interactions that may be key for understanding the dephasing dynamics of ultra-coherent rare-earth ions.
翻訳日:2023-09-13 18:19:57 公開日:2023-09-12
# マルチデバイス協調エッジ推論のためのタスク指向通信

Task-Oriented Communication for Multi-Device Cooperative Edge Inference ( http://arxiv.org/abs/2109.00172v3 )

ライセンス: Link先を確認
Jiawei Shao, Yuyi Mao, Jun Zhang(参考訳) 本稿では,分散ローエンドエッジデバイス群がローカルサンプルの抽出した特徴を強力なエッジサーバに送信して推論を行うマルチデバイス協調エッジ推論のためのタスク指向通信について検討する。 協調エッジ推論は、単一デバイスの限られた感知能力を克服することができるが、通信オーバーヘッドを大幅に増加させ、過度の遅延を引き起こす可能性がある。 低遅延協調推論を可能にするため,我々は,ローカル特徴抽出と分散特徴エンコーディングをタスク指向で最適化し,エッジサーバでデータサンプルを再構築するのではなく,ダウンストリーム推論タスクに不可欠な情報を伝達する学習ベースの通信方式を提案する。 具体的には、各エッジデバイスにおけるタスク関連機能を抽出するための情報ボトルネック(ib)原則を利用し、分散情報ボトルネック(dib)フレームワークを採用し、分散特徴符号化のための最適なレート関連トレードオフの単一レターキャラクタリゼーションを定式化する。 通信オーバヘッドの柔軟な制御を認めるため、DIBフレームワークを分散決定性情報ボトルネック(DDIB)の対象に拡張し、符号化された特徴の表現コストを明示的に組み込む。 IBに基づく目的は高次元データに対して計算的に禁じられているため、最適化問題を抽出するために変分近似を採用する。 変動近似による潜在的な性能損失を補うため,複数のエッジデバイスの符号化特徴の冗長性を識別し,通信オーバヘッドの低減を図るための選択再送信(SR)機構も開発した。 広範な実験により、提案するタスク指向通信方式がベースライン方式よりも適切なレート関連トレードオフを実現することが証明された。

This paper investigates task-oriented communication for multi-device cooperative edge inference, where a group of distributed low-end edge devices transmit the extracted features of local samples to a powerful edge server for inference. While cooperative edge inference can overcome the limited sensing capability of a single device, it substantially increases the communication overhead and may incur excessive latency. To enable low-latency cooperative inference, we propose a learning-based communication scheme that optimizes local feature extraction and distributed feature encoding in a task-oriented manner, i.e., to remove data redundancy and transmit information that is essential for the downstream inference task rather than reconstructing the data samples at the edge server. Specifically, we leverage an information bottleneck (IB) principle to extract the task-relevant feature at each edge device and adopt a distributed information bottleneck (DIB) framework to formalize a single-letter characterization of the optimal rate-relevance tradeoff for distributed feature encoding. To admit flexible control of the communication overhead, we extend the DIB framework to a distributed deterministic information bottleneck (DDIB) objective that explicitly incorporates the representational costs of the encoded features. As the IB-based objectives are computationally prohibitive for high-dimensional data, we adopt variational approximations to make the optimization problems tractable. To compensate the potential performance loss due to the variational approximations, we also develop a selective retransmission (SR) mechanism to identify the redundancy in the encoded features of multiple edge devices to attain additional communication overhead reduction. Extensive experiments evidence that the proposed task-oriented communication scheme achieves a better rate-relevance tradeoff than baseline methods.
翻訳日:2023-09-13 18:19:23 公開日:2023-09-12
# DASS:スパースニューラルネットワークのための微分可能なアーキテクチャ探索

DASS: Differentiable Architecture Search for Sparse neural networks ( http://arxiv.org/abs/2207.06968v5 )

ライセンス: Link先を確認
Hamid Mousavi, Mohammad Loni, Mina Alibeigi, Masoud Daneshtalab(参考訳) エッジデバイスへのディープニューラルネットワーク(DNN)のデプロイは、パフォーマンス要件と利用可能な処理パワーの間に大きなギャップがあるために妨げられている。 最近の研究は、DNNの計算オーバーヘッドを低減するためのスパースネットワークを構築するためのプルーニング手法の開発に大きく貢献しているが、特に高いプルーニング比において、かなりの精度の損失がある。 構造探索手法は, プランニング機構を適用した場合, 密集したネットワーク向けに設計したアーキテクチャは有効ではないことが判明した。 主な理由は,本手法が検索空間におけるスパースアーキテクチャをサポートせず,高密度ネットワークを対象とし,疎度に注意を払わない探索目的を用いているためである。 本稿では,スパーシティフレンドリなニューラルアーキテクチャを探索する新しい手法を提案する。 検索空間に2つの新しいスパース操作を追加し、検索目的を変更してこれを行う。 本稿では,スパース操作を含む検索空間を拡張するために,2つの新しいパラメトリックSparseConvとSparseLinear演算を提案する。 特に、これらの操作は線形および畳み込み操作のスパースパラメトリックバージョンを使用するため、柔軟な探索空間を作る。 提案する検索目的は,検索空間操作のスパース性に基づいて,アーキテクチャを訓練することである。 CIFAR-10 と ImageNet データセットの検索構造は,最先端のスパースネットワークで使用されているものよりも優れていることを示す。 性能とハードウェア効率の面では、DASSはMobileNet-v2のスパースバージョンの精度を73.44%から81.35%(+7.91%改善)に改善し、推論時間は3.87倍に向上した。

The deployment of Deep Neural Networks (DNNs) on edge devices is hindered by the substantial gap between performance requirements and available processing power. While recent research has made significant strides in developing pruning methods to build a sparse network for reducing the computing overhead of DNNs, there remains considerable accuracy loss, especially at high pruning ratios. We find that the architectures designed for dense networks by differentiable architecture search methods are ineffective when pruning mechanisms are applied to them. The main reason is that the current method does not support sparse architectures in their search space and uses a search objective that is made for dense networks and does not pay any attention to sparsity. In this paper, we propose a new method to search for sparsity-friendly neural architectures. We do this by adding two new sparse operations to the search space and modifying the search objective. We propose two novel parametric SparseConv and SparseLinear operations in order to expand the search space to include sparse operations. In particular, these operations make a flexible search space due to using sparse parametric versions of linear and convolution operations. The proposed search objective lets us train the architecture based on the sparsity of the search space operations. Quantitative analyses demonstrate that our search architectures outperform those used in the stateof-the-art sparse networks on the CIFAR-10 and ImageNet datasets. In terms of performance and hardware effectiveness, DASS increases the accuracy of the sparse version of MobileNet-v2 from 73.44% to 81.35% (+7.91% improvement) with 3.87x faster inference time.
翻訳日:2023-09-13 18:11:39 公開日:2023-09-12
# 創発的猫状態を伴う超ラジアント相転移の観察

Observation of a superradiant phase transition with emergent cat states ( http://arxiv.org/abs/2207.05512v3 )

ライセンス: Link先を確認
Ri-Hua Zheng, Wen Ning, Ye-Hong Chen, Jia-Hao L\"u, Li-Tuo Shen, Kai Xu, Yu-Ran Zhang, Da Xu, Hekang Li, Yan Xia, Fan Wu, Zhen-Biao Yang, Adam Miranowicz, Neill Lambert, Dongning Zheng, Heng Fan, Franco Nori, and Shi-Biao Zheng(参考訳) 超ラジアント相転移(SPT)は、量子レベルでの光-物質相互作用を理解するために重要であり、臨界度を増強する量子センシングにおいて中心的な役割を果たす。 これまでのところ、SPTは駆動散逸系で観測されているが、励起光場は強い散逸の存在のため、非古典的な特徴を示さなかった。 本稿では,超伝導量子ビットに共振器を結合した超古典性フォトニックフィールドの出現を特徴とするspt実験を行い,量子ラビモデルを実装した。 ウィグナーマトリクストモグラフィにより,光マッター状態を完全に特徴付ける。 測定された行列要素は、フォトニックメソスコピックな重ね合わせの量子干渉の本質を示し、光-物質絡みを明らかにする

Superradiant phase transitions (SPTs) are important for understanding light-matter interactions at the quantum level, and play a central role in criticality-enhanced quantum sensing. So far, SPTs have been observed in driven-dissipative systems, but the emergent light fields did not show any nonclassical characteristic due to the presence of strong dissipation. Here we report an experimental demonstration of the SPT featuring the emergence of a highly nonclassical photonic field, realized with a resonator coupled to a superconducting qubit, implementing the quantum Rabi model. We fully characterize the light-matter state by Wigner matrix tomography. The measured matrix elements exhibit quantum interference intrinsic of a photonic mesoscopic superposition, and reveal light-matter entanglement
翻訳日:2023-09-13 18:11:08 公開日:2023-09-12
# グラフ分類のためのマルチスケールワッサースタイン短パスグラフカーネル

Multi-scale Wasserstein Shortest-path Graph Kernels for Graph Classification ( http://arxiv.org/abs/2206.00979v4 )

ライセンス: Link先を確認
Wei Ye, Hao Tian, Qijun Chen(参考訳) グラフカーネルはグラフの類似性を計算する従来の方法である。 しかし、ほとんどのR-畳み込みグラフカーネルは2つの課題に直面している。 1)複数の異なるスケールでグラフを比較することはできない。 2) カーネル行列の計算では, サブ構造分布を考慮しない。 これらの2つの課題はパフォーマンスを制限します。 この2つの課題を緩和するために,我々はマルチスケールワッサースタイン短パスグラフカーネル (MWSP) と呼ばれる新しいグラフカーネルを提案し,その中心はマルチスケールの短パスノード特徴写像であり,各要素はノード周辺で最短パスの発生回数を表す。 最も短いパスは、その中の全てのノードのラベルの結合によって表現される。 最短経路ノード特徴写像は局所スケールでしかグラフを比較できないため、グラフ内の各ノードに根付いた異なる深さの分岐したBFS木によってキャプチャされるグラフ構造の複数の異なるスケールを組み込む。 最短経路の分布を考慮した2つのグラフの複数スケール短パスノード特徴マップ間の類似性を計算するためにワッサースタイン距離を用いる。 我々はMWSPを様々なベンチマークグラフデータセット上で実証的に検証し、ほとんどのデータセットで最先端のパフォーマンスを実現することを実証した。

Graph kernels are conventional methods for computing graph similarities. However, most of the R-convolution graph kernels face two challenges: 1) They cannot compare graphs at multiple different scales, and 2) they do not consider the distributions of substructures when computing the kernel matrix. These two challenges limit their performances. To mitigate the two challenges, we propose a novel graph kernel called the Multi-scale Wasserstein Shortest-Path graph kernel (MWSP), at the heart of which is the multi-scale shortest-path node feature map, of which each element denotes the number of occurrences of a shortest path around a node. A shortest path is represented by the concatenation of all the labels of nodes in it. Since the shortest-path node feature map can only compare graphs at local scales, we incorporate into it the multiple different scales of the graph structure, which are captured by the truncated BFS trees of different depths rooted at each node in a graph. We use the Wasserstein distance to compute the similarity between the multi-scale shortest-path node feature maps of two graphs, considering the distributions of shortest paths. We empirically validate MWSP on various benchmark graph datasets and demonstrate that it achieves state-of-the-art performance on most datasets.
翻訳日:2023-09-13 18:10:22 公開日:2023-09-12
# 不均一学習率を有するPSO畳み込みニューラルネットワーク

PSO-Convolutional Neural Networks with Heterogeneous Learning Rate ( http://arxiv.org/abs/2205.10456v3 )

ライセンス: Link先を確認
Nguyen Huu Phong, Augusto Santos, Bernardete Ribeiro(参考訳) 畳み込みニューラルネットワーク(convnetsまたはcnn)は、コンピュータビジョンおよび関連する分野の領域に率直に展開されている。 それでも、これらのニューラルネットワークのトレーニングのダイナミクスはまだ解明されていない。 この課題を克服し、音声認識や画像認識、行動認識などの画像処理におけるいくつかの問題に対処するために、数多くのアーキテクチャとトレーニング戦略が提案されている。 本稿では,新しい粒子群最適化(PSO)によるConvNetsのトレーニングを提案する。 このようなフレームワークでは、各ConvNetの重みのベクトルは、一般に位相空間における粒子の位置としてキャストされ、PSOの協調力学は、訓練性能と一般化を促進するためにSGD(Stochastic Gradient Descent)と相互作用する。 私たちのアプローチは以下の通りです。 i) 各ConvNetは,SGDを介して独立して訓練される。 二 損失関数の勾配推定とともに、その重み(又は粒子配置)の現在のベクトル間で、[協調相]凸体を共有すること。 異なるステップサイズは、異なるconvnetによって作られる。 より保守的なものとともに大きな(おそらくランダムな)ステップサイズとConvNetを適切にブレンドすることにより、Cifar-10とCifar-100の他のPSOベースのアプローチ(98.31%と87.48%の精度)に対する競合性能を持つアルゴリズムを提案する。 これらの精度レベルは、たった4つのConvNetを使用して取得される。 ソースコードはhttps://github.com/leonlha/pso-convnet-dynamicsからダウンロードできる。

Convolutional Neural Networks (ConvNets or CNNs) have been candidly deployed in the scope of computer vision and related fields. Nevertheless, the dynamics of training of these neural networks lie still elusive: it is hard and computationally expensive to train them. A myriad of architectures and training strategies have been proposed to overcome this challenge and address several problems in image processing such as speech, image and action recognition as well as object detection. In this article, we propose a novel Particle Swarm Optimization (PSO) based training for ConvNets. In such framework, the vector of weights of each ConvNet is typically cast as the position of a particle in phase space whereby PSO collaborative dynamics intertwines with Stochastic Gradient Descent (SGD) in order to boost training performance and generalization. Our approach goes as follows: i) [regular phase] each ConvNet is trained independently via SGD; ii) [collaborative phase] ConvNets share among themselves their current vector of weights (or particle-position) along with their gradient estimates of the Loss function. Distinct step sizes are coined by distinct ConvNets. By properly blending ConvNets with large (possibly random) step-sizes along with more conservative ones, we propose an algorithm with competitive performance with respect to other PSO-based approaches on Cifar-10 and Cifar-100 (accuracy of 98.31% and 87.48%). These accuracy levels are obtained by resorting to only four ConvNets -- such results are expected to scale with the number of collaborative ConvNets accordingly. We make our source codes available for download https://github.com/leonlha/PSO-ConvNet-Dynamics.
翻訳日:2023-09-13 18:10:00 公開日:2023-09-12
# デバイス非依存ランダムネス抽出のための傾斜ハーディパラドックス

Tilted Hardy paradoxes for device-independent randomness extraction ( http://arxiv.org/abs/2205.02751v4 )

ライセンス: Link先を確認
Shuai Zhao, Ravishankar Ramanathan, Yuan Liu, and Pawe{\l} Horodecki(参考訳) デバイス非依存のパラダイムはランダム性の生成、鍵分布、自己テストにおいて目覚ましい成功を収めてきたが、これらの結果の多くは信頼とプライベートなランダムな種を持つと仮定して得られたものである。 測定独立性の仮定を緩和するために、ハーディの非局所性試験が理想的な候補として提案されている。 本稿では,完全2量子の絡み合った状態の自己テストと,最大1ビットの局所ランダム性証明を可能にする,傾きのあるハーディパラドックスのファミリを紹介する。 次に、傾斜したハーディ試験を用いて、任意の測定独立性を持つサンサ・ヴァジラニ(SV)源に対する最先端のランダム性増幅プロトコルの生成率を改善する。 デバイス非依存のランダム性増幅は、任意バイアスのSVソースとほぼ分離可能な状態から可能であることを示す。 最後に、diランダムネス抽出の潜在的な候補として、局所次元の最大絡み合い状態に対するハーディテストのファミリーを導入し、最大2 \log d$bit of global randomnessの最大値を証明する。

The device-independent paradigm has had spectacular successes in randomness generation, key distribution and self-testing, however most of these results have been obtained under the assumption that parties hold trusted and private random seeds. In efforts to relax the assumption of measurement independence, Hardy's non-locality tests have been proposed as ideal candidates. In this paper, we introduce a family of tilted Hardy paradoxes that allow to self-test general pure two-qubit entangled states, as well as certify up to $1$ bit of local randomness. We then use these tilted Hardy tests to obtain an improvement in the generation rate in the state-of-the-art randomness amplification protocols for Santha-Vazirani (SV) sources with arbitrarily limited measurement independence. Our result shows that device-independent randomness amplification is possible for arbitrarily biased SV sources and from almost separable states. Finally, we introduce a family of Hardy tests for maximally entangled states of local dimension $4, 8$ as the potential candidates for DI randomness extraction to certify up to the maximum possible $2 \log d$ bits of global randomness.
翻訳日:2023-09-13 18:09:31 公開日:2023-09-12
# 人間の言語判断予測のための自然言語モデルの限界の検証

Testing the limits of natural language models for predicting human language judgments ( http://arxiv.org/abs/2204.03592v3 )

ライセンス: Link先を確認
Tal Golan, Matthew Siegelman, Nikolaus Kriegeskorte, Christopher Baldassano(参考訳) ニューラルネットワーク言語モデルは、人間の言語処理に関する計算仮説として機能する。 多様な言語モデルのモデルと人間の一貫性を、新しい実験手法を用いて比較した。 議論の的になっている文対について、2つの言語モデルでは、どの文が自然文でより起こりやすいかは意見が一致しない。 9つの言語モデル(n-gram、リカレントニューラルネットワーク、トランスフォーマーモデルを含む)を考慮して、コーパスから文を選択したり、合成最適化された文ペアを非常に議論の余地のあるものにすることで、何百もの議論を巻き起こした文ペアを作成しました。 次に、被験者は2つの文のどちらがよりありそうなかを示す判断を下した。 議論の的となる文ペアは、モデルの失敗を明らかにし、人間の判断と最も密接に一致するモデルを特定するのに非常に効果的である。 最も人間一貫性のあるモデルは GPT-2 であったが、実験では人間の知覚との整合性の重大な欠点も明らかにした。

Neural network language models can serve as computational hypotheses about how humans process language. We compared the model-human consistency of diverse language models using a novel experimental approach: controversial sentence pairs. For each controversial sentence pair, two language models disagree about which sentence is more likely to occur in natural text. Considering nine language models (including n-gram, recurrent neural networks, and transformer models), we created hundreds of such controversial sentence pairs by either selecting sentences from a corpus or synthetically optimizing sentence pairs to be highly controversial. Human subjects then provided judgments indicating for each pair which of the two sentences is more likely. Controversial sentence pairs proved highly effective at revealing model failures and identifying models that aligned most closely with human judgments. The most human-consistent model tested was GPT-2, although experiments also revealed significant shortcomings of its alignment with human perception.
翻訳日:2023-09-13 18:09:11 公開日:2023-09-12
# 量子情報幾何における単調計量テンソル

Monotone metric tensors in Quantum Information Geometry ( http://arxiv.org/abs/2203.10857v2 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo, Fabio Di Nocera, Patrizia Vitale(参考訳) 有限次元における単調量子メトリクスの世界に関する幾何的側面を概観する。 特に強調されるのは、スペクトル定理から構築された量子状態の展開された視点であり、古典的な確率分布との比較に自然に適している。

We review some geometrical aspects pertaining to the world of monotone quantum metrics in finite dimensions. Particular emphasis is given to an unfolded perspective for quantum states that is built out of the spectral theorem and is naturally suited to investigate the comparison with the classical case of probability distributions.
翻訳日:2023-09-13 18:08:54 公開日:2023-09-12
# ニューラルネットワークにおける解釈可能性法と摂動アーティファクトの忠実性

Fidelity of Interpretability Methods and Perturbation Artifacts in Neural Networks ( http://arxiv.org/abs/2203.02928v4 )

ライセンス: Link先を確認
Lennart Brocki, Neo Christopher Chung(参考訳) 画像分類、検出、予測においてディープニューラルネットワーク(DNN)の優れた性能にもかかわらず、DNNが与えられた決定をどう行うかは未解決の問題であり、多くの解釈可能性手法が生み出されている。 ポストホック解釈可能性法は主に、クラス確率に関する入力特徴の重要性の定量化を目的としている。 しかし, 基礎的事実の欠如, 多様な操作特性を持つ解釈可能性手法の存在などにより, これらの手法の評価は極めて重要な課題である。 解釈可能性評価手法の一般的なアプローチは、与えられた予測に重要な入力特徴を摂動させ、精度の低下を観測することである。 しかし、摂動自体が人工物をもたらすこともある。 そこで本研究では, 摂動入力特徴のモデル精度曲線をMIF(Mest Import First)とLIF(Least Import First)の順に求めることにより, これらのアーチファクトの忠実度推定への影響を推定する手法を提案する。 ImageNetでトレーニングされたResNet-50を用いて、4つの一般的なポストホック解釈可能性手法の忠実度推定を提案する。

Despite excellent performance of deep neural networks (DNNs) in image classification, detection, and prediction, characterizing how DNNs make a given decision remains an open problem, resulting in a number of interpretability methods. Post-hoc interpretability methods primarily aim to quantify the importance of input features with respect to the class probabilities. However, due to the lack of ground truth and the existence of interpretability methods with diverse operating characteristics, evaluating these methods is a crucial challenge. A popular approach to evaluate interpretability methods is to perturb input features deemed important for a given prediction and observe the decrease in accuracy. However, perturbation itself may introduce artifacts. We propose a method for estimating the impact of such artifacts on the fidelity estimation by utilizing model accuracy curves from perturbing input features according to the Most Import First (MIF) and Least Import First (LIF) orders. Using the ResNet-50 trained on the ImageNet, we demonstrate the proposed fidelity estimation of four popular post-hoc interpretability methods.
翻訳日:2023-09-13 18:08:50 公開日:2023-09-12
# ランダムユニタリ、ロバスト性、および絡み合いの複雑さ

Random unitaries, Robustness, and Complexity of Entanglement ( http://arxiv.org/abs/2210.13495v3 )

ライセンス: Link先を確認
J. Odavi\'c, G. Torre, N. Miji\'c, D. Davidovi\'c, F. Franchini, S. M. Giampaolo(参考訳) 一般回路の存在下での絡み合いのダイナミクスは、絡み合いスペクトルの統計的性質の知識によって予測できることが広く受け入れられている。 我々は、同じ統計値を共有する状態に対して、異なる局所ゲートセットによって生成されるメトロポリスのような絡み合い冷却アルゴリズムを適用して、この仮定を検証した。 我々は、一意的なモデル、すなわち横磁場を持つ一次元イジングチェーンの基底状態を用いるが、パラ磁性、磁気秩序、位相的フラストレーションのような異なる巨視的位相に属する。 極めて驚くべきことに、エンタングルメントダイナミクスは異なるゲートの集合だけでなく位相にも強く依存しており、異なる位相は冷却プロセスに対して異なる反発性を持つ異なる種類のエンタングルメント(純粋に局所的、ghz的、w状態的)を持つことができることを示している。 我々の研究は、絡み合いスペクトルの知識だけではその力学を決定できないという事実を強調し、その不完全性を評価ツールとして示す。 さらに、局所性と非局所的制約との間の微妙な相互作用を示す。

It is widely accepted that the dynamic of entanglement in presence of a generic circuit can be predicted by the knowledge of the statistical properties of the entanglement spectrum. We tested this assumption by applying a Metropolis-like entanglement cooling algorithm generated by different sets of local gates, on states sharing the same statistic. We employ the ground states of a unique model, namely the one-dimensional Ising chain with a transverse field, but belonging to different macroscopic phases such as the paramagnetic, the magnetically ordered, and the topological frustrated ones. Quite surprisingly, we observe that the entanglement dynamics are strongly dependent not just on the different sets of gates but also on the phase, indicating that different phases can possess different types of entanglement (which we characterize as purely local, GHZ-like, and W-state-like) with different degree of resilience against the cooling process. Our work highlights the fact that the knowledge of the entanglement spectrum alone is not sufficient to determine its dynamics, thereby demonstrating its incompleteness as a characterization tool. Moreover, it shows a subtle interplay between locality and non-local constraints.
翻訳日:2023-09-13 18:00:44 公開日:2023-09-12
# プライマリパワーフィールドのための効率的な量子デコーダ

An Efficient Quantum Decoder for Prime-Power Fields ( http://arxiv.org/abs/2210.11552v2 )

ライセンス: Link先を確認
Lior Eldar(参考訳) 有限体 $\mathbb{F}_q$ 上の最寄り符号語問題のバージョンを、非二進アルファベットに対するハミング計量の類似であるマンハッタン距離を用いて検討する。 他の格子関連問題と同様に、この問題は定数係数近似までNPハードである。 しかし、$q = p^m$ の場合、$p$ はコードブロックサイズ $n$ と比較して小さいので、任意の$p$ に対して近似係数 $1/n^2$ に対して、時間で問題を解く量子アルゴリズムが存在することを示す。 一方、我々の知識を最大限に活用するために、古典的アルゴリズムはこの問題をはるかに小さな逆多項式因子に対してのみ効率的に解くことができる。 したがって、デコーダは古典的なアルゴリズムよりも指数関数的に改善され、classic mcelieceのようなコードベースの暗号システムの大きなalphabet拡張の暗号セキュリティに制限を課す。

We consider a version of the nearest-codeword problem on finite fields $\mathbb{F}_q$ using the Manhattan distance, an analog of the Hamming metric for non-binary alphabets. Similarly to other lattice related problems, this problem is NP-hard even up to constant factor approximation. We show, however, that for $q = p^m$ where $p$ is small relative to the code block-size $n$, there is a quantum algorithm that solves the problem in time ${\rm poly}(n)$, for approximation factor $1/n^2$, for any $p$. On the other hand, to the best of our knowledge, classical algorithms can efficiently solve the problem only for much smaller inverse polynomial factors. Hence, the decoder provides an exponential improvement over classical algorithms, and places limitations on the cryptographic security of large-alphabet extensions of code-based cryptosystems like Classic McEliece.
翻訳日:2023-09-13 18:00:23 公開日:2023-09-12
# ブランドの新K-FAC:オンライン分解アップデートでK-FACを高速化

Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates ( http://arxiv.org/abs/2210.08494v2 )

ライセンス: Link先を確認
Constantin Octavian Puiu(参考訳) K-FAC (arXiv:1503.05671, arXiv:1602.01407) は、"Kronecker-Factors"(K因子)の逆数を計算することのボトルネックとなる、ディープラーニング(DL)のための自然勾配(NG)の実装である。 RS-KFAC (arXiv:2206.15397) はK-FACの改良であり、K-因子の逆数推定の安価な方法を提供する。 本稿では,k-ファクターの指数平均構成パラダイムを活用し,オンライン数値線形代数手法を用いて,k-ファクター逆数をより安価(しかし正確ではない)に推定する方法を提案する。 特に,層サイズを線形にスケールするk因子逆更新を提案する。 また、線形にスケールする逆応用法も提案する(K-FACの1つは3次スケール、RS-KFACの1つは2次スケール)。 提案アルゴリズムは, K-FAC と RS-KFAC の近似的な実装であり, プレコンディショニング部は, 層径が線形にスケールする(K-FAC は立方体, RS-KFAC は二次)。 しかしながら、この更新はRS-KFACアプローチ(arXiv:2206.15397)とは異なり、いくつかの状況(典型的にはすべてのFC層)でのみ適用される。 RS-KFACの逆誤差を最小限のCPUオーバヘッドで低減できることを示す。 提案手法,修正法,rs-kfacに基づき,汎用深層ニューラルネットワークの最適化のための3つの実用的なアルゴリズムを提案する。 数値実験の結果, rs-kfacはcifar10分類において, vgg16_bnの微修正版で, 目標試験精度に優れることがわかった。 提案アルゴリズムは,SENG よりも 91$\%$テスト精度 (DL の実証NG 実装の現状; arXiv:2006.05924) が速いが,高いテスト精度で性能が劣る。

K-FAC (arXiv:1503.05671, arXiv:1602.01407) is a tractable implementation of Natural Gradient (NG) for Deep Learning (DL), whose bottleneck is computing the inverses of the so-called ``Kronecker-Factors'' (K-factors). RS-KFAC (arXiv:2206.15397) is a K-FAC improvement which provides a cheap way of estimating the K-factors inverses. In this paper, we exploit the exponential-average construction paradigm of the K-factors, and use online numerical linear algebra techniques to propose an even cheaper (but less accurate) way of estimating the K-factors inverses. In particular, we propose a K-factor inverse update which scales linearly in layer size. We also propose an inverse application procedure which scales linearly as well (the one of K-FAC scales cubically and the one of RS-KFAC scales quadratically). Overall, our proposed algorithm gives an approximate K-FAC implementation whose preconditioning part scales linearly in layer size (compare to cubic for K-FAC and quadratic for RS-KFAC). Importantly however, this update is only applicable in some circumstances (typically for all FC layers), unlike the RS-KFAC approach (arXiv:2206.15397). Numerical results show RS-KFAC's inversion error can be reduced with minimal CPU overhead by adding our proposed update to it. Based on the proposed procedure, a correction to it, and RS-KFAC, we propose three practical algorithms for optimizing generic Deep Neural Nets. Numerical results show that two of these outperform RS-KFAC for any target test accuracy on CIFAR10 classification with a slightly modified version of VGG16_bn. Our proposed algorithms achieve 91$\%$ test accuracy faster than SENG (the state of art implementation of empirical NG for DL; arXiv:2006.05924) but underperform it for higher test-accuracy.
翻訳日:2023-09-13 18:00:05 公開日:2023-09-12
# IBL-NeRF:画像に基づくニューラルラジアンス場の照明定式化

IBL-NeRF: Image-Based Lighting Formulation of Neural Radiance Fields ( http://arxiv.org/abs/2210.08202v2 )

ライセンス: Link先を確認
Changwoon Choi, Juhyeon Kim, Young Min Kim(参考訳) 大規模屋内シーンのニューラル放射場(NeRF)を固有成分に分解するIRB-NeRFを提案する。 最近のアプローチでは、暗黙の体積の焼成放射を、部分的に近似できるような固有の成分に分解する。 しかし、それらは共有環境の照明で孤立した物体を表現することに限定され、モンテカルロ積分で光を集約する計算上の負担に苦しむ。 対照的に, 事前濾過された放射輝度場は, 表面特性に加えて, シーン体積内の照明の空間的変動を捉えるために, オリジナルの nerf 定式化を拡張している。 具体的には、多彩な素材のシーンを、アルベド、粗さ、表面の正常性、照射性、予めフィルターした放射率といった、固有の要素に分解してレンダリングする。 すべてのコンポーネントは、大規模な一般的なシーンをモデル化可能な、MLPのニューラルイメージとして推論される。 特に、前フィルタ放射は体積光場を効果的にモデル化し、単一の環境光を超えた空間変動を捉える。 プリフィルタは、事前に定義された近傍サイズで光線を集約し、大域照明のコストのかかるモンテカルロ積分を、ニューラルネットワークからの単純なクエリに置き換える。 提案手法は, 合成画像や固有成分に対して, 優れた画質とマルチビューの整合性を継承する。 我々は、複雑なオブジェクトレイアウトとライトコンフィグレーションを備えたシーンのパフォーマンスをデモするが、これは以前のどの作業でも処理できない。

We propose IBL-NeRF, which decomposes the neural radiance fields (NeRF) of large-scale indoor scenes into intrinsic components. Recent approaches further decompose the baked radiance of the implicit volume into intrinsic components such that one can partially approximate the rendering equation. However, they are limited to representing isolated objects with a shared environment lighting, and suffer from computational burden to aggregate rays with Monte Carlo integration. In contrast, our prefiltered radiance field extends the original NeRF formulation to capture the spatial variation of lighting within the scene volume, in addition to surface properties. Specifically, the scenes of diverse materials are decomposed into intrinsic components for rendering, namely, albedo, roughness, surface normal, irradiance, and prefiltered radiance. All of the components are inferred as neural images from MLP, which can model large-scale general scenes. Especially the prefiltered radiance effectively models the volumetric light field, and captures spatial variation beyond a single environment light. The prefiltering aggregates rays in a set of predefined neighborhood sizes such that we can replace the costly Monte Carlo integration of global illumination with a simple query from a neural image. By adopting NeRF, our approach inherits superior visual quality and multi-view consistency for synthesized images as well as the intrinsic components. We demonstrate the performance on scenes with complex object layouts and light configurations, which could not be processed in any of the previous works.
翻訳日:2023-09-13 17:59:24 公開日:2023-09-12
# 反因果予測における公正性と堅牢性

Fairness and robustness in anti-causal prediction ( http://arxiv.org/abs/2209.09423v2 )

ライセンス: Link先を確認
Maggie Makar, Alexander D'Amour(参考訳) 分散シフトと公平性に対する堅牢性は、現代の機械学習モデルに必要な2つの重要なデシデラタとして独立に現れてきた。 これら2つのデシデラタは関連しているように見えるが、実際にはそれらの関係はしばしば不明確である。 本稿では,分類器(画像など)への入力が対象ラベルと保護属性の関数として生成されると仮定した反因果予測タスクに着目し,因果レンズを介してこれらの接続について議論する。 この観点から,共通フェアネス基準 - 分離 - とロバスト性 - の共通概念 - リスク不変性との間に,明らかな関係を描き出す。 これらのつながりは、分離基準をアンチコーサル設定に適用する新たな動機を与え、フェアネスパフォーマンストレードオフに関する古い議論を知らせる。 さらに,ロバストネスを動機とするアプローチは,分離を強制するためにも有効であり,分離を直接強制する手法よりも実践的に優れていることが示唆された。 医学的データセットを用いて,X線から肺炎を検出する作業において,性集団間の有病率の差異が公平さの緩和を動機づける状況において,その知見を実証的に検証した。 本研究は,公正度基準の選択・実施における因果構造の検討の重要性を強調した。

Robustness to distribution shift and fairness have independently emerged as two important desiderata required of modern machine learning models. While these two desiderata seem related, the connection between them is often unclear in practice. Here, we discuss these connections through a causal lens, focusing on anti-causal prediction tasks, where the input to a classifier (e.g., an image) is assumed to be generated as a function of the target label and the protected attribute. By taking this perspective, we draw explicit connections between a common fairness criterion - separation - and a common notion of robustness - risk invariance. These connections provide new motivation for applying the separation criterion in anticausal settings, and inform old discussions regarding fairness-performance tradeoffs. In addition, our findings suggest that robustness-motivated approaches can be used to enforce separation, and that they often work better in practice than methods designed to directly enforce separation. Using a medical dataset, we empirically validate our findings on the task of detecting pneumonia from X-rays, in a setting where differences in prevalence across sex groups motivates a fairness mitigation. Our findings highlight the importance of considering causal structure when choosing and enforcing fairness criteria.
翻訳日:2023-09-13 17:58:06 公開日:2023-09-12
# GEDI: グラフベースのエンドツーエンドデータインプットフレームワーク

GEDI: A Graph-based End-to-end Data Imputation Framework ( http://arxiv.org/abs/2208.06573v2 )

ライセンス: Link先を確認
Katrina Chen, Xiuqin Liang, Zheng Ma, Zhibin Zhang(参考訳) データ計算は、欠落したデータを扱う効果的な方法であり、実際的なアプリケーションでは一般的である。 本研究では,(1)特徴量行列の特徴量間の行方向の類似性と列方向の文脈関係を保存し,(2)特定の下流ラベル予測タスクにインプット処理を調整する,という2つの重要な目標を達成する新しいデータ計算プロセスを提案する。 提案手法はトランスフォーマーネットワークとグラフ構造学習を用いて,観測における特徴と類似点間の文脈関係を反復的に洗練する。 さらに、メタラーニングフレームワークを使用して、下流の予測タスクに影響を及ぼす機能を選択する。 本研究では,実世界の大規模データセットについて実験を行い,提案手法が様々なベンチマーク手法に対してインプテーションとラベル予測性能を一貫して向上させることを示す。

Data imputation is an effective way to handle missing data, which is common in practical applications. In this study, we propose and test a novel data imputation process that achieve two important goals: (1) preserve the row-wise similarities among observations and column-wise contextual relationships among features in the feature matrix, and (2) tailor the imputation process to specific downstream label prediction task. The proposed imputation process uses Transformer network and graph structure learning to iteratively refine the contextual relationships among features and similarities among observations. Moreover, it uses a meta-learning framework to select features that are influential to the downstream prediction task of interest. We conduct experiments on real-world large data sets, and show that the proposed imputation process consistently improves imputation and label prediction performance over a variety of benchmark methods.
翻訳日:2023-09-13 17:57:31 公開日:2023-09-12
# 中間量子アシストゲート分解回路の耐故障性について

On Fault Tolerance of Circuits with Intermediate Qutrit-assisted Gate Decomposition ( http://arxiv.org/abs/2212.07866v2 )

ライセンス: Link先を確認
Ritajit Majumdar, Amit Saha, Amlan Chakrabarti, Susmita Sur-Kolay(参考訳) 分解回路の深さを指数的に減少させるため, 3量子ユニタリゲートの効率的な分解にいくつかの中間クォートを用いる方法が提案されている。 中間キュービットは、特定の実行サイクルにおいてキュービットとして操作されることを意味する。 この方法は、主にNISQ時代に、キュービットを量子ビットとして扱うが、計算中に状態に$\ket{2}$にアクセスする必要がある場合のみである。 本稿では,そのような分解に耐障害性を含めることの課題について考察する。 まず、回路の任意の時点で$\ket{2}$ 状態へのアクセスを必要とする量子ビットは、量子エラー訂正符号 (qecc) を使ってエンコードされなければならないことを示し、その結果、量子ビットと量子ビットの両方が初期状態で回路となる。 クトリットはクビットよりもノイズが多いため、クビットのみの分解よりも特定の精度を達成するために、より高い結合度を必要とすることが期待されている。 次に分析的に導き出す i) 誤りの確率の関数としてのqubit-qutritとqubit-only分解に必要な連結のレベル数、及び (ii) qubit-qutrit分解の基準は、qubitのみ分解よりも低いゲート数となる。 量子ハードウェアノイズの異なる値と2制御三元CNOTゲートの非可逆的実装を考慮し、量子加算器の例回路に対して量子ビット・量子化分解が優れている状況を得る。

The use of a few intermediate qutrits for efficient decomposition of 3-qubit unitary gates has been proposed, to obtain an exponential reduction in the depth of the decomposed circuit. An intermediate qutrit implies that a qubit is operated as a qutrit in a particular execution cycle. This method, primarily for the NISQ era, treats a qubit as a qutrit only for the duration when it requires access to the state $\ket{2}$ during the computation. In this article, we study the challenges of including fault-tolerance in such a decomposition. We first show that any qubit that requires access to the state $\ket{2}$ at any point in the circuit, must be encoded using a qutrit quantum error correcting code (QECC), thus resulting in a circuit with both qubits and qutrits at the outset. Since qutrits are noisier than qubits, the former is expected to require higher levels of concatenation to achieve a particular accuracy than that for qubit-only decomposition. Next, we derive analytically (i) the number of levels of concatenation required for qubit-qutrit and qubit-only decompositions as a function of the probability of error, and (ii) the criterion for which qubit-qutrit decomposition leads to a lower gate count than qubit-only decomposition. We present numerical results for these two types of decomposition and obtain the situation where qubit-qutrit decomposition excels for the example circuit of the quantum adder by considering different values for quantum hardware-noise and non-transversal implementation of the 2-controlled ternary CNOT gate.
翻訳日:2023-09-13 17:52:56 公開日:2023-09-12
# 構造化知識強化によるオープンワールドストーリー生成:包括的調査

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey ( http://arxiv.org/abs/2212.04634v3 )

ライセンス: Link先を確認
Yuxin Wang, Jieru Lin, Zhiwei Yu, Wei Hu, B\"orje F. Karlsson(参考訳) ストーリーテリングと物語は人間体験の基本であり、社会と文化の関わりに絡み合っている。 そのため、研究者は長い間、物語を自動生成できるシステムを作ろうとしてきた。 近年,ディープラーニングと大量のデータリソースを活用して,自動ストーリ生成が大きな進歩を見せている。 しかし、生成したストーリーのグローバルコヒーレンスの必要性など、かなりの課題は、生成モデルが人間のナレーターと同じストーリーテリング能力に達することを妨げている。 これらの課題に取り組むために、多くの研究は構造的知識を生成プロセスに注入し、構造的知識強化ストーリー生成(structured knowledge-enhanced story generation)と呼ばれる。 外部知識の導入は、ストーリーイベント間の論理的一貫性を高め、より良い知識基盤化を達成し、ストーリーにおける過剰な一般化と反復問題を緩和することができる。 この調査は、この研究分野の最新かつ包括的なレビューを提供する。 (i)既存の手法がいかに構造化された知識をストーリー生成に組み込むかに関する体系的分類法を提示する。 (二)ストーリーコーパス、構造化知識データセット、評価指標をまとめる。 (3)知識強化ストーリー生成の課題を多次元的に把握し,将来的な研究の方向性に光を当てる。

Storytelling and narrative are fundamental to human experience, intertwined with our social and cultural engagement. As such, researchers have long attempted to create systems that can generate stories automatically. In recent years, powered by deep learning and massive data resources, automatic story generation has shown significant advances. However, considerable challenges, like the need for global coherence in generated stories, still hamper generative models from reaching the same storytelling ability as human narrators. To tackle these challenges, many studies seek to inject structured knowledge into the generation process, which is referred to as structured knowledge-enhanced story generation. Incorporating external knowledge can enhance the logical coherence among story events, achieve better knowledge grounding, and alleviate over-generalization and repetition problems in stories. This survey provides the latest and comprehensive review of this research field: (i) we present a systematic taxonomy regarding how existing methods integrate structured knowledge into story generation; (ii) we summarize involved story corpora, structured knowledge datasets, and evaluation metrics; (iii) we give multidimensional insights into the challenges of knowledge-enhanced story generation and cast light on promising directions for future study.
翻訳日:2023-09-13 17:52:28 公開日:2023-09-12
# OCT画像における網膜浮腫病変の信頼性の検討

Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images ( http://arxiv.org/abs/2212.00330v4 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Ke Zou, Yanyu Xu, Qingquan Meng, Rick Siow Mong Goh, Yong Liu, and Huazhu Fu(参考訳) OCT画像からの網膜浮腫病変の関節分節化のタスクにおいて, ぼやけた境界, 症状のスケール差, 背景雑音の干渉など, 複雑な病態の特徴に着目し, より信頼性の高い分節化を図った。 本稿では,信頼性評価により精度の高いセグメンテーション結果が得られる,信頼性の高いマルチスケールウェーブレットエンハンスドトランスネットワークを提案する。 具体的には,OCT画像における網膜浮腫病変の複雑な病態を学習する能力の向上を目的として,新たに設計されたウェーブレット強化特徴抽出器ネットワークとマルチスケールトランスフォーマーモジュールを統合した,新たなセグメンテーションバックボーンを開発した。 一方、セグメンテーション結果の信頼性を高めるために、主観的論理実証理論に基づく新たな不確実性セグメンテーションヘッドを導入し、対応する全体不確実性評価スコアマップを用いて最終セグメンテーション結果を生成する。 網膜浮腫病変セグメンテーションにおけるai-challenge 2018の公開データベースについて総合的な実験を行い,本手法は他の最先端セグメンテーション法に比べて高い信頼性でセグメンテーション精度を達成できることを示した。 コードは、https://github.com/LooKing9218/ReliableRESegでリリースされる。

Focusing on the complicated pathological features, such as blurred boundaries, severe scale differences between symptoms, background noise interference, etc., in the task of retinal edema lesions joint segmentation from OCT images and enabling the segmentation results more reliable. In this paper, we propose a novel reliable multi-scale wavelet-enhanced transformer network, which can provide accurate segmentation results with reliability assessment. Specifically, aiming at improving the model's ability to learn the complex pathological features of retinal edema lesions in OCT images, we develop a novel segmentation backbone that integrates a wavelet-enhanced feature extractor network and a multi-scale transformer module of our newly designed. Meanwhile, to make the segmentation results more reliable, a novel uncertainty segmentation head based on the subjective logical evidential theory is introduced to generate the final segmentation results with a corresponding overall uncertainty evaluation score map. We conduct comprehensive experiments on the public database of AI-Challenge 2018 for retinal edema lesions segmentation, and the results show that our proposed method achieves better segmentation accuracy with a high degree of reliability as compared to other state-of-the-art segmentation approaches. The code will be released on: https://github.com/LooKing9218/ReliableRESeg.
翻訳日:2023-09-13 17:52:10 公開日:2023-09-12
# 複数の選択肢から選択する学習

Learning to Select from Multiple Options ( http://arxiv.org/abs/2212.00301v3 )

ライセンス: Link先を確認
Jiangshu Du, Wenpeng Yin, Congying Xia, Philip S. Yu(参考訳) 多くのNLPタスクは、分類タスク、複数選択質問応答など、一連のオプションから選択問題とみなすことができる。 テクスチャエンテーメント(TE)は、それらの選択問題に対処するための最先端(SOTA)アプローチとして示されている。 TEは入力テキストを前提 (P) として扱い、オプションを仮説 (H) として扱う。 第一に、ペアワイズ・モデリングは、他の選択肢に気付かないが、人間は競合する候補を比較して最適な選択肢を決定することが多いため、直感的ではない。 この2つの問題に対処するために、この研究はまず、現在の(P, H)モデリングのコンテキストとして他のkオプションを追加することで、コンテキスト化されたTEモデル(Context-TE)を提案する。 Context-TEは、さまざまなコンテキストを考慮するため、より信頼性の高いHの決定を学習することができる。 次に,複数の選択肢を同時に選択するparallel-teを考案することで,コンテキストテを高速化する。 Parallel-TEはContext-TEと同等のパフォーマンスを維持しながら、推論速度を大幅に改善する。 提案手法は,オプションのサイズの異なる典型的な選択問題である3つのタスク(超微細なエンティティタイピング,意図検出,複数選択QA)で評価する。 実験の結果,新たなSOTA性能が得られた。特にParallel-TEは,1対のTEよりも100倍高速である。 私たちのコードはhttps://github.com/jiangshdd/LearningToSelect.comで公開されています。

Many NLP tasks can be regarded as a selection problem from a set of options, such as classification tasks, multi-choice question answering, etc. Textual entailment (TE) has been shown as the state-of-the-art (SOTA) approach to dealing with those selection problems. TE treats input texts as premises (P), options as hypotheses (H), then handles the selection problem by modeling (P, H) pairwise. Two limitations: first, the pairwise modeling is unaware of other options, which is less intuitive since humans often determine the best options by comparing competing candidates; second, the inference process of pairwise TE is time-consuming, especially when the option space is large. To deal with the two issues, this work first proposes a contextualized TE model (Context-TE) by appending other k options as the context of the current (P, H) modeling. Context-TE is able to learn more reliable decision for the H since it considers various context. Second, we speed up Context-TE by coming up with Parallel-TE, which learns the decisions of multiple options simultaneously. Parallel-TE significantly improves the inference speed while keeping comparable performance with Context-TE. Our methods are evaluated on three tasks (ultra-fine entity typing, intent detection and multi-choice QA) that are typical selection problems with different sizes of options. Experiments show our models set new SOTA performance; particularly, Parallel-TE is faster than the pairwise TE by k times in inference. Our code is publicly available at https://github.com/jiangshdd/LearningToSelect.
翻訳日:2023-09-13 17:51:47 公開日:2023-09-12
# 計算効率の良い強化学習:簡単なルールを活かした探索

Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules ( http://arxiv.org/abs/2211.16691v3 )

ライセンス: Link先を確認
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones(参考訳) モデルフリー強化学習(RL)は、一般的にサンプルの複雑さに悩まされる。 一方で、システムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。 そこで本研究では,このようなルールを組み込んだ連続的アクター・クリティカル・フレームワークの簡易かつ効果的な修正を提案し,RLエージェントの収束を著しく促進する状態-アクション空間の領域を回避する。 具体的には、エージェントが直感に従わない場合、エージェントが選択したアクションを飽和させ、重要なことは、学習プロセスが飽和ステップの影響を受けないようにポリシーの勾配更新ステップを変更することである。 室内温度制御のケーススタディでは、計算オーバーヘッドを伴わず、良好な最終性能を維持しながら、従来のエージェントよりも最大6~7倍の性能のポリシーに収束することができる。

Model-free Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state-action space to find well-performing policies. On the other hand, we postulate that expert knowledge of the system often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic frameworks to incorporate such rules and avoid regions of the state-action space that are known to be suboptimal, thereby significantly accelerating the convergence of RL agents. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process is not affected by the saturation step. On a room temperature control case study, it allows agents to converge to well-performing policies up to 6-7x faster than classical agents without computational overhead and while retaining good final performance.
翻訳日:2023-09-13 17:51:21 公開日:2023-09-12
# エゴセントリック行動予測のためのインタラクションビジュアルトランスフォーマ

Interaction Visual Transformer for Egocentric Action Anticipation ( http://arxiv.org/abs/2211.14154v6 )

ライセンス: Link先を確認
Debaditya Roy, Ramanathan Rajendiran and Basura Fernando(参考訳) ヒトと物体の相互作用は最も重要な視覚的手がかりの1つであり、人間と物体の相互作用をエゴセントリックな行動予測のために表現する方法を提案する。 本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練することにより,インタラクションをモデル化するトランスフォーマーを提案する。 具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。 これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。 本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
翻訳日:2023-09-13 17:51:01 公開日:2023-09-12
# ディープグラフクラスタリングに関するサーベイ:分類学、チャレンジ、応用、そしてオープンリソース

A Survey of Deep Graph Clustering: Taxonomy, Challenge, Application, and Open Resource ( http://arxiv.org/abs/2211.12875v4 )

ライセンス: Link先を確認
Yue Liu, Jun Xia, Sihang Zhou, Xihong Yang, Ke Liang, Chenchen Fan, Yan Zhuang, Stan Z. Li, Xinwang Liu, Kunlun He(参考訳) グラフのノードを複数のクラスタに分割することを目的としたグラフクラスタリングは、基本的には、挑戦的なタスクです。 ディープラーニングの強力な表現能力から、ディープグラフクラスタリング手法は近年大きな成功を収めている。 しかし、それに対応する調査論文は比較的少ないため、この分野を概観することは差し迫っている。 この動機から,深層グラフクラスタリングの包括的調査を行う。 まず,この分野における定式化,評価,開発について紹介する。 次に,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法の4つの異なる基準に基づいて,ディープグラフクラスタリング手法の分類について述べる。 第3に,既存の手法を広範な実験を通じて慎重に分析し,グラフデータの品質,安定性,スケーラビリティ,識別能力,未知クラスタ数といった5つの視点から課題と機会を要約する。 さらに,コンピュータビジョン,自然言語処理,レコメンデーションシステム,ソーシャルネットワーク解析,バイオインフォマティクス,医学など6分野の深層グラフクラスタリング手法の応用について紹介する。 最後に重要なことは、この論文はオープンリソースのサポートを提供する。 1) 最先端のディープグラフクラスタリングメソッド(ペーパー、コード、データセット)のコレクション(\url{https://github.com/yueliu 1999/Awesome-Deep-Graph-Clustering})と 2)ディープグラフクラスタリングの統一フレームワーク(\url{https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering})。 この研究がクイックガイドとなり、研究者たちがこの活発な分野での課題を克服できることを期待しています。

Graph clustering, which aims to divide nodes in the graph into several distinct clusters, is a fundamental yet challenging task. Benefiting from the powerful representation capability of deep learning, deep graph clustering methods have achieved great success in recent years. However, the corresponding survey paper is relatively scarce, and it is imminent to make a summary of this field. From this motivation, we conduct a comprehensive survey of deep graph clustering. Firstly, we introduce formulaic definition, evaluation, and development in this field. Secondly, the taxonomy of deep graph clustering methods is presented based on four different criteria, including graph type, network architecture, learning paradigm, and clustering method. Thirdly, we carefully analyze the existing methods via extensive experiments and summarize the challenges and opportunities from five perspectives, including graph data quality, stability, scalability, discriminative capability, and unknown cluster number. Besides, the applications of deep graph clustering methods in six domains, including computer vision, natural language processing, recommendation systems, social network analyses, bioinformatics, and medical science, are presented. Last but not least, this paper provides open resource supports, including 1) a collection (\url{https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering}) of state-of-the-art deep graph clustering methods (papers, codes, and datasets) and 2) a unified framework (\url{https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering}) of deep graph clustering. We hope this work can serve as a quick guide and help researchers overcome challenges in this vibrant field.
翻訳日:2023-09-13 17:50:41 公開日:2023-09-12
# 一度だけラベルを付ける: ポイントクラウドから画像への3Dボックス適応

You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning ( http://arxiv.org/abs/2211.09302v2 )

ライセンス: Link先を確認
Jieqi Shi, Peiliang Li, Xiaozhi Chen, Shaojie Shen(参考訳) 画像ベースの3Dオブジェクト検出タスクは、予測された3Dバウンディングボックスが、物体の輪郭を画像によく適合させながら、3D空間上の幾何学的属性を保ちながら、例えば、物理的次元、対方向直交等を保った ''tightness''' プロジェクション(立方体とも呼ばれる)を有することを期待する。 これらの要件はアノテーションに重大な課題をもたらします。 画像にLidarでラベル付けされた3Dボックスを投影するだけで、画像にキューブを直接描画しても元の3D情報にはアクセスできない。 本研究では,360$^{\circ}$ Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整し,パノラマカメラの外観を完璧に適合させる学習型3Dボックス適応手法を提案する。 トレーニング段階では2dボックスアノテーションのみを指導することで,lidarボックスから3dプロパティを備えた正確な画像レベルのcuboidアノテーションを生成できる。 私たちのメソッドを ‘you only label once'' と呼びます。つまり、ポイントクラウドにラベルを付け、周囲のすべてのカメラに自動的に適応します。 これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減します。 公開waymoおよびnuscenesデータセットの広範な実験により,手作業による調整を必要とせず,画像上に人間レベルのcuboidアノテーションを生成できることが確認された。

The image-based 3D object detection task expects that the predicted 3D bounding box has a ``tightness'' projection (also referred to as cuboid), which fits the object contour well on the image while still keeping the geometric attribute on the 3D space, e.g., physical dimension, pairwise orthogonal, etc. These requirements bring significant challenges to the annotation. Simply projecting the Lidar-labeled 3D boxes to the image leads to non-trivial misalignment, while directly drawing a cuboid on the image cannot access the original 3D information. In this work, we propose a learning-based 3D box adaptation approach that automatically adjusts minimum parameters of the 360$^{\circ}$ Lidar 3D bounding box to perfectly fit the image appearance of panoramic cameras. With only a few 2D boxes annotation as guidance during the training phase, our network can produce accurate image-level cuboid annotations with 3D properties from Lidar boxes. We call our method ``you only label once'', which means labeling on the point cloud once and automatically adapting to all surrounding cameras. As far as we know, we are the first to focus on image-level cuboid refinement, which balances the accuracy and efficiency well and dramatically reduces the labeling effort for accurate cuboid annotation. Extensive experiments on the public Waymo and NuScenes datasets show that our method can produce human-level cuboid annotation on the image without needing manual adjustment.
翻訳日:2023-09-13 17:50:12 公開日:2023-09-12
# 自動栄養の活用:栄養分類に基づく食品画像認識ベンチマークとデータセット

Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy ( http://arxiv.org/abs/2211.07440v2 )

ライセンス: Link先を確認
Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Isabel Espinosa-Salinas, Gala Freixer, Julian Fierrez, Ruben Vera-Rodriguez, Enrique Carrillo de Santa Pau, Ana Ram\'irez de Molina and Javier Ortega-Garcia(参考訳) 健康なライフスタイルをリードすることは、私たちの摂食生活と食事習慣の悪化により、今日の社会において最も困難な目標の一つとなっている。 その結果、国内外の生物は健康的な食物食と身体活動の習慣を促進するために多くの努力をしている。 しかし、これらの勧告は日々の生活において従うのが難しい場合があり、一般人口にも基づいている。 その結果、個人化された栄養学という新たな研究領域が、スマートデバイスと人工知能(AI)メソッドによる個々のソリューションに焦点を当てることが考えられた。 本研究は, 食品画像と栄養分類を考察した初の栄養データベースであるAI4Food-NutritionDBデータベースを提案する。 さらに、栄養学の専門家は6つの栄養レベル、19の主なカテゴリー(例えば「ミート」)、73のサブカテゴリ(例えば「ホワイト・ミート」)、853の食品(例えば「チッケン」)の4つの異なる分類レベルを考える。 AI4Food-NutritionDBは、食品の摂取頻度、品質、分類の観点から、新しい食品コンピューティングアプローチへの扉を開く。 また,本データベースに加えて,栄養分類に基づく3つのタスク(カテゴリー,分類,最終製品)を研究コミュニティで使用するための標準実験プロトコルとベンチマークを提案する。 最後に、私たちはai4food-nutritiondbでトレーニングされたディープラーニングモデルもリリースしています。

Leading a healthy lifestyle has become one of the most challenging goals in today's society due to our sedentary lifestyle and poor eating habits. As a result, national and international organisms have made numerous efforts to promote healthier food diets and physical activity habits. However, these recommendations are sometimes difficult to follow in our daily life and they are also based on a general population. As a consequence, a new area of research, personalised nutrition, has been conceived focusing on individual solutions through smart devices and Artificial Intelligence (AI) methods. This study presents the AI4Food-NutritionDB database, the first nutrition database that considers food images and a nutrition taxonomy based on recommendations by national and international organisms. In addition, four different categorisation levels are considered following nutrition experts: 6 nutritional levels, 19 main categories (e.g., "Meat"), 73 subcategories (e.g., "White Meat"), and 893 final food products (e.g., "Chicken"). The AI4Food-NutritionDB opens the doors to new food computing approaches in terms of food intake frequency, quality, and categorisation. Also, in addition to the database, we propose a standard experimental protocol and benchmark including three tasks based on the nutrition taxonomy (i.e., category, subcategory, and final product) to be used for the research community. Finally, we also release our Deep Learning models trained with the AI4Food-NutritionDB, which can be used as pre-trained models, achieving accurate recognition results with challenging food image databases.
翻訳日:2023-09-13 17:49:41 公開日:2023-09-12
# 再帰的クロスビュー: 3dアノテーションなしで3dオブジェクト検出を実現するために2d検出器のみを使用する

Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object Detection without 3D Annotations ( http://arxiv.org/abs/2211.07108v3 )

ライセンス: Link先を確認
Shun Gui and Yan Luximon(参考訳) 3Dアノテーションに大きく依存することは、3Dオブジェクト検出の現実的な応用を制限する。 本稿では,完全指向の3dバウンディングボックスを予測しながら,いかなる3dアノテーションも必要としない手法を提案する。 再帰的クロスビュー(RCV, Recursive Cross-View)と呼ばれる手法は3次元の原理を用いて3次元検出を複数の2次元検出タスクに変換する。 そこで我々は,Cross-Viewによるインスタンス分割と3次元境界ボックス生成を収束するまで再帰的に行う再帰的パラダイムを提案する。 特に,提案手法では,各2dバウンディングボックスに対してフラスタムを使用し,それに続く再帰的パラダイムにより,最終的に完全指向の3dボックスと対応するクラスとスコアを生成する。 なお、クラスとスコアは2D検出器によって与えられる。 SUN RGB-D と KITTI のデータセットから推定した手法は,既存の画像ベース手法よりも優れている。 新しいタスクに迅速に利用できることを正当化するため、3次元人間の検出と3次元手検出という2つの実世界のシナリオで実装する。 その結果、2つの新しい3dアノテートデータセットが得られ、rcvは(セミ)自動3dアノテータとして見ることができる。 さらに,ライブRGB-Dストリーム上で7fpsで検出できる深度センサにRCVを配置する。 RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。

Heavily relying on 3D annotations limits the real-world application of 3D object detection. In this paper, we propose a method that does not demand any 3D annotation, while being able to predict fully oriented 3D bounding boxes. Our method, called Recursive Cross-View (RCV), utilizes the three-view principle to convert 3D detection into multiple 2D detection tasks, requiring only a subset of 2D labels. We propose a recursive paradigm, in which instance segmentation and 3D bounding box generation by Cross-View are implemented recursively until convergence. Specifically, our proposed method involves the use of a frustum for each 2D bounding box, which is then followed by the recursive paradigm that ultimately generates a fully oriented 3D box, along with its corresponding class and score. Note that, class and score are given by the 2D detector. Estimated on the SUN RGB-D and KITTI datasets, our method outperforms existing image-based approaches. To justify that our method can be quickly used to new tasks, we implement it on two real-world scenarios, namely 3D human detection and 3D hand detection. As a result, two new 3D annotated datasets are obtained, which means that RCV can be viewed as a (semi-) automatic 3D annotator. Furthermore, we deploy RCV on a depth sensor, which achieves detection at 7 fps on a live RGB-D stream. RCV is the first 3D detection method that yields fully oriented 3D boxes without consuming 3D labels.
翻訳日:2023-09-13 17:49:02 公開日:2023-09-12
# Deep-OSG: セミグループにおけるオペレータの深層学習

Deep-OSG: Deep Learning of Operators in Semigroup ( http://arxiv.org/abs/2302.03358v2 )

ライセンス: Link先を確認
Junfeng Chen, Kailiang Wu(参考訳) 本稿では,未知の自律力学系を様々な時間ラグで収集した時系列データを用いてモデル化する,セミグループにおける学習者のための新しいディープラーニング手法を提案する。 これは、[T. Qin, K. Wu, D. Xiu, J. Comput. Phys., 395:620--635, 2019], [K. Wu and D. Xiu, J. Comput. Phys., 408:109307, 2020], [Z. Chen, V. Churchill, K. Wu, and D. Xiu, J. Comput. Phys., 449:110782, 2022]の続編である。 本稿では,自律システムの半群を構成する可変時間ステップを持つ進化演算子のファミリーを学習することを目的とする。 半群の性質は非常に重要であり、システムの進化的挙動を様々な時間スケールで関連付けるが、以前の研究では考慮されなかった。 本稿では,新しいニューラルネットワークアーキテクチャと新たな損失関数を用いて,半群特性をデータ駆動学習プロセスに組み込むフレームワークを初めて提案する。 このフレームワークは非常に実現可能で、任意の適切なニューラルネットワークと組み合わせることができ、一般的な自律的ODEやPDEの学習に適用できる。 提案手法の予測精度と頑健性を理解するために, 厳密な誤差推定と分散分析を行い, 半群認識の利点を示した。 さらに,本手法では,予測のための時間ステップを任意に選択し,予測結果の自己整合性と一貫性を確保する。 大規模数値実験により, 半群特性の埋め込みは深層学習モデルのデータの依存性を顕著に低減し, 長期予測の精度, 堅牢性, 安定性を大幅に向上させることが示された。

This paper proposes a novel deep learning approach for learning operators in semigroup, with applications to modeling unknown autonomous dynamical systems using time series data collected at varied time lags. It is a sequel to the previous flow map learning (FML) works [T. Qin, K. Wu, and D. Xiu, J. Comput. Phys., 395:620--635, 2019], [K. Wu and D. Xiu, J. Comput. Phys., 408:109307, 2020], and [Z. Chen, V. Churchill, K. Wu, and D. Xiu, J. Comput. Phys., 449:110782, 2022], which focused on learning single evolution operator with a fixed time step. This paper aims to learn a family of evolution operators with variable time steps, which constitute a semigroup for an autonomous system. The semigroup property is very crucial and links the system's evolutionary behaviors across varying time scales, but it was not considered in the previous works. We propose for the first time a framework of embedding the semigroup property into the data-driven learning process, through a novel neural network architecture and new loss functions. The framework is very feasible, can be combined with any suitable neural networks, and is applicable to learning general autonomous ODEs and PDEs. We present the rigorous error estimates and variance analysis to understand the prediction accuracy and robustness of our approach, showing the remarkable advantages of semigroup awareness in our model. Moreover, our approach allows one to arbitrarily choose the time steps for prediction and ensures that the predicted results are well self-matched and consistent. Extensive numerical experiments demonstrate that embedding the semigroup property notably reduces the data dependency of deep learning models and greatly improves the accuracy, robustness, and stability for long-time prediction.
翻訳日:2023-09-13 17:41:26 公開日:2023-09-12
# 画像分類のための拡散モデルを用いた意味誘導生成画像拡張法

Semantic-Guided Generative Image Augmentation Method with Diffusion Models for Image Classification ( http://arxiv.org/abs/2302.02070v2 )

ライセンス: Link先を確認
Bohan Li, Xiao Xu, Xinghao Wang, Yutai Hou, Yunlong Feng, Feng Wang, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che(参考訳) 既存の画像拡張法は摂動法と生成法という2つのカテゴリからなる。 摂動に基づく手法は、元の画像を強調するために予め定義された摂動を適用するが、局所的にしか変化せず、画像の多様性を欠く。 対照的に、生成法は画像の多様性を高めるが、意味的一貫性を保たない可能性があるため、元の画像の本質的意味を誤って変更する。 画像の多様性とセマンティック一貫性のバランスをとるために,画像分類のための拡散モデルを用いた意味誘導生成画像拡張法であるSGIDを提案する。 具体的には、SGIDは拡散モデルを用いて、画像の多様性に優れた拡張画像を生成する。 さらに重要なことは、SGIDは画像ラベルとキャプションを、拡張画像とオリジナル画像間のセマンティック一貫性を維持するためのガイダンスとして用いている。 実験の結果、SGIDはResNet-50で1.72%、ViTで0.33%、CLIP-ViT(LAION-2B)で0.14%向上した。 さらに、SGIDを他の画像拡張ベースラインと組み合わせることで、全体的なパフォーマンスが向上する。 定量的な人・自動評価と定性ケーススタディにより,SGIDのセマンティック一貫性と画像の多様性を実証する。

Existing image augmentation methods consist of two categories: perturbation-based methods and generative methods. Perturbation-based methods apply pre-defined perturbations to augment an original image, but only locally vary the image, thus lacking image diversity. In contrast, generative methods bring more image diversity in the augmented images but may not preserve semantic consistency, thus incorrectly changing the essential semantics of the original image. To balance image diversity and semantic consistency in augmented images, we propose SGID, a Semantic-guided Generative Image augmentation method with Diffusion models for image classification. Specifically, SGID employs diffusion models to generate augmented images with good image diversity. More importantly, SGID takes image labels and captions as guidance to maintain semantic consistency between the augmented and original images. Experimental results show that SGID outperforms the best augmentation baseline by 1.72% on ResNet-50 (from scratch), 0.33% on ViT (ImageNet-21k), and 0.14% on CLIP-ViT (LAION-2B). Moreover, SGID can be combined with other image augmentation baselines and further improves the overall performance. We demonstrate the semantic consistency and image diversity of SGID through quantitative human and automated evaluations, as well as qualitative case studies.
翻訳日:2023-09-13 17:40:25 公開日:2023-09-12
# モデル推定を伴わないロバストマルコフ決定過程

Robust Markov Decision Processes without Model Estimation ( http://arxiv.org/abs/2302.01248v2 )

ライセンス: Link先を確認
Wenhao Yang, Han Wang, Tadashi Kozuno, Scott M. Jordan, Zhihua Zhang(参考訳) ロバストマルコフ決定プロセス(MDP)は、環境の変化に敏感でない堅牢なポリシーを学ぶ際に、多くの注目を集めている。 頑健なMDPのサンプル効率を分析する研究が増えている。 しかし、実際に堅牢なMDPを適用するには2つの大きな障壁がある。 第一に、ほとんどの研究は、遷移確率を推定し、大量のメモリを$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$とする必要があるモデルベースの状態において堅牢なMDPを研究する。 第二に、先行研究は通常、堅牢なMDPを解決するための中間ステップとして最適解を得るための強いオラクルを仮定する。 しかし、実際には、そのようなオラクルは通常は存在しません。 オラクルを除去するために、元のロバストなMDPを別の形式に変換することで、確率勾配法を用いてロバストなMDPを解くことができる。 さらに、代替形式が元の形式と同じような役割を果たすことを証明している。 この新しい定式化により、oracleを必要とせず、より低いストレージ要件である$\mathcal{o}(|\mathcal{s}||\mathcal{a}|)$と引き換えに生成モデルまたはマルコフ連鎖からサンプルを生成することができる、モデルフリーな方法で堅牢なmdpを解決するためのサンプル効率の高いアルゴリズムを考案する。 最後に, 数値実験による理論的知見を検証し, 頑健なMDPの代替形態による効率性を示す。

Robust Markov Decision Processes (MDPs) are receiving much attention in learning a robust policy which is less sensitive to environment changes. There are an increasing number of works analyzing sample-efficiency of robust MDPs. However, there are two major barriers to applying robust MDPs in practice. First, most works study robust MDPs in a model-based regime, where the transition probability needs to be estimated and requires a large amount of memories $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$. Second, prior work typically assumes a strong oracle to obtain the optimal solution as an intermediate step to solve robust MDPs. However, in practice, such an oracle does not exist usually. To remove the oracle, we transform the original robust MDPs into an alternative form, which allows us to use stochastic gradient methods to solve the robust MDPs. Moreover, we prove the alternative form still plays a similar role as the original form. With this new formulation, we devise a sample-efficient algorithm to solve the robust MDPs in a model-free regime, which does not require an oracle and trades off a lower storage requirement $\mathcal{O}(|\mathcal{S}||\mathcal{A}|)$ with being able to generate samples from a generative model or Markovian chain. Finally, we validate our theoretical findings via numerical experiments, showing the efficiency with the alternative form of robust MDPs.
翻訳日:2023-09-13 17:40:01 公開日:2023-09-12
# 旅行モード選択のモデル化のための機械学習手法の予測と行動解析

A prediction and behavioural analysis of machine learning methods for modelling travel mode choice ( http://arxiv.org/abs/2301.04404v3 )

ライセンス: Link先を確認
Jos\'e \'Angel Mart\'in-Baos, Julio Alberto L\'opez-G\'omez, Luis Rodriguez-Benitez, Tim Hillel and Ricardo Garc\'ia-R\'odenas(参考訳) 旅行モード選択予測のためのさまざまな機械学習(ml)アプローチの出現は、トランスポートモデルラーに興味深い疑問をもたらす。 この質問に対する答えは、単純な予測性能に留まらず、振る舞いの解釈可能性や説明可能性、計算複雑性、データ効率など、多くの要因のバランスを取っている。 異なるML分類器の予測性能を古典的ランダムユーティリティモデルと比較しようとする研究団体が増えている。 しかしながら、既存の研究は通常、モデル選択に影響を与える他の側面を無視して、分散した予測性能のみを分析する。 さらに、不適切な検証スキームの使用、階層データの不正確なサンプリング、外部検証の欠如、離散メトリクスの排他的使用など、多くの研究は技術的な制限の影響を受けている。 モデル選択に影響を及ぼす可能性のある重要な要因(サンプル外の予測性能、予測市場シェアの正確さ、行動指標の抽出、計算効率)の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較することで、これらの制限に対処する。 複数の実世界データセットと合成データセットを結合し,データ生成関数が知られている。 その結果、最も非凝集性の高い予測性能(すなわち極度の勾配上昇とランダムな森林)を持つモデルでは、行動指標や集約モードのシェアが低く、より深いニューラルネットワークやMNL(Multinomial Logit)を含む他のモデルよりも高く見積もられていることが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。

The emergence of a variety of Machine Learning (ML) approaches for travel mode choice prediction poses an interesting question to transport modellers: which models should be used for which applications? The answer to this question goes beyond simple predictive performance, and is instead a balance of many factors, including behavioural interpretability and explainability, computational complexity, and data efficiency. There is a growing body of research which attempts to compare the predictive performance of different ML classifiers with classical random utility models. However, existing studies typically analyse only the disaggregate predictive performance, ignoring other aspects affecting model choice. Furthermore, many studies are affected by technical limitations, such as the use of inappropriate validation schemes, incorrect sampling for hierarchical data, lack of external validation, and the exclusive use of discrete metrics. We address these limitations by conducting a systematic comparison of different modelling approaches, across multiple modelling problems, in terms of the key factors likely to affect model choice (out-of-sample predictive performance, accuracy of predicted market shares, extraction of behavioural indicators, and computational efficiency). We combine several real world datasets with synthetic datasets, where the data generation function is known. The results indicate that the models with the highest disaggregate predictive performance (namely extreme gradient boosting and random forests) provide poorer estimates of behavioural indicators and aggregate mode shares, and are more expensive to estimate, than other models, including deep neural networks and Multinomial Logit (MNL). It is further observed that the MNL model performs robustly in a variety of situations, though ML techniques can improve the estimates of behavioural indices such as Willingness to Pay.
翻訳日:2023-09-13 17:39:30 公開日:2023-09-12
# 強化学習による近似型自律量子誤差補正

Approximate Autonomous Quantum Error Correction with Reinforcement Learning ( http://arxiv.org/abs/2212.11651v2 )

ライセンス: Link先を確認
Yexiong Zeng, Zheng-Yang Zhou, Enrico Rinaldi, Clemens Gneiting, Franco Nori(参考訳) 自律的量子誤差補正(autonomous quantum error correction, aqec)は、設計された散逸によって論理量子ビットを保護する。 ボソニック符号空間は単一光子損失が主要なエラー源であり、その柔軟性と制御性のために aqec の候補として有望である。 既存の提案では、AQECがボソニックな符号空間で実現可能であることを示したが、これらのスキームは通常、Knill-Laflamme条件の正確な実装に基づいているため、ハミルトン距離を$d\geq 2$で実現する必要がある。 このようなハミルトン距離を実装するには、複数の非線形相互作用と制御場が必要である。 本稿では,ニールラフラム条件を緩和して近似 aqec のボソニック符号を提案する。 強化学習(RL)を用いて、Fock状態の$\vert 2\rangle$と$\vert 4\rangle$からなる最適なボソニックなコードワード(ここではRLコードで記述する)を同定する。 我々が示すように、rlコードは、近似的な性質にもかかわらず、単一光子損失を効果的に抑制し、断続的なしきい値を大きく超える効果的な減光プロセスに還元する。 したがって、完全なエラー保護に向けた価値あるビルディングブロックを提供するかもしれない。 エンジニアリングされた散逸をエミュレートするアシラシステムを含む誤り訂正ハミルトンは、ハミルトン距離$d=1$に基づいており、モデルの複雑さを著しく減少させる。 シングルキュービットゲートは、最大距離$d_g=2$のRL符号で実装される。

Autonomous quantum error correction (AQEC) protects logical qubits by engineered dissipation and thus circumvents the necessity of frequent, error-prone measurement-feedback loops. Bosonic code spaces, where single-photon loss represents the dominant source of error, are promising candidates for AQEC due to their flexibility and controllability. While existing proposals have demonstrated the in-principle feasibility of AQEC with bosonic code spaces, these schemes are typically based on the exact implementation of the Knill-Laflamme conditions and thus require the realization of Hamiltonian distances $d\geq 2$. Implementing such Hamiltonian distances requires multiple nonlinear interactions and control fields, rendering these schemes experimentally challenging. Here, we propose a bosonic code for approximate AQEC by relaxing the Knill-Laflamme conditions. Using reinforcement learning (RL), we identify the optimal bosonic set of codewords (denoted here by RL code), which, surprisingly, is composed of the Fock states $\vert 2\rangle$ and $\vert 4\rangle$. As we show, the RL code, despite its approximate nature, successfully suppresses single-photon loss, reducing it to an effective dephasing process that well surpasses the break-even threshold. It may thus provide a valuable building block toward full error protection. The error-correcting Hamiltonian, which includes ancilla systems that emulate the engineered dissipation, is entirely based on the Hamiltonian distance $d=1$, significantly reducing model complexity. Single-qubit gates are implemented in the RL code with a maximum distance $d_g=2$.
翻訳日:2023-09-13 17:38:58 公開日:2023-09-12
# StyleDomain: ワンショット領域適応のためのStyleGANの効率的および軽量パラメータ化

StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain Adaptation ( http://arxiv.org/abs/2212.10229v4 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Maksim Nakhodnov, Dmitry Vetrov(参考訳) GANのドメイン適応は、大規模なデータセット(例えばStyleGAN)で事前訓練されたGANモデルを、サンプルが少ない特定の領域(例えば、絵の顔やスケッチなど)に適応させる問題である。 さまざまな方法でこの問題に取り組む方法はたくさんありますが、まだ解決されていない重要な質問はたくさんあります。 本稿では,GANのドメイン適応問題について,StyleGANモデルに焦点をあてた,体系的かつ詳細な解析を行う。 ソースドメインとターゲットドメインの類似性に応じて、ジェネレータを新しいドメインに適応させる役割を担っているstyleganの最も重要な部分について、詳細な調査を行う。 そこで本研究では,ドメイン適応のためのStyleGANの効率的かつ軽量なパラメータ化を提案する。 特に、StyleSpace(StyleDomain方向)には、類似のドメインに適応するのに十分な方向が存在することを示す。 類似したドメインに対しては、トレーニングパラメータをかなり少なくしながら、少数ショット適応で既存のベースラインを上回ることを可能にする、アフィン+とアフィンライト+パラメータ化を提案する。 最後に、StyleDomain方向を調べ、ドメイン混合やクロスドメイン画像の変形に応用する多くの驚くべき特性を見出す。 ソースコードはhttps://github.com/AIRI-Institute/StyleDomainにある。

Domain adaptation of GANs is a problem of fine-tuning GAN models pretrained on a large dataset (e.g. StyleGAN) to a specific domain with few samples (e.g. painting faces, sketches, etc.). While there are many methods that tackle this problem in different ways, there are still many important questions that remain unanswered. In this paper, we provide a systematic and in-depth analysis of the domain adaptation problem of GANs, focusing on the StyleGAN model. We perform a detailed exploration of the most important parts of StyleGAN that are responsible for adapting the generator to a new domain depending on the similarity between the source and target domains. As a result of this study, we propose new efficient and lightweight parameterizations of StyleGAN for domain adaptation. Particularly, we show that there exist directions in StyleSpace (StyleDomain directions) that are sufficient for adapting to similar domains. For dissimilar domains, we propose Affine+ and AffineLight+ parameterizations that allows us to outperform existing baselines in few-shot adaptation while having significantly less training parameters. Finally, we examine StyleDomain directions and discover their many surprising properties that we apply for domain mixing and cross-domain image morphing. Source code can be found at https://github.com/AIRI-Institute/StyleDomain.
翻訳日:2023-09-13 17:38:28 公開日:2023-09-12
# バイオメディカル画像分析コンペティションの現状

Biomedical image analysis competitions: The state of current participation practice ( http://arxiv.org/abs/2212.08568v2 )

ライセンス: Link先を確認
Matthias Eisenmann, Annika Reinke, Vivienn Weru, Minu Dietlinde Tizabi, Fabian Isensee, Tim J. Adler, Patrick Godau, Veronika Cheplygina, Michal Kozubek, Sharib Ali, Anubha Gupta, Jan Kybic, Alison Noble, Carlos Ortiz de Sol\'orzano, Samiksha Pachade, Caroline Petitjean, Daniel Sage, Donglai Wei, Elizabeth Wilden, Deepak Alapatt, Vincent Andrearczyk, Ujjwal Baid, Spyridon Bakas, Niranjan Balu, Sophia Bano, Vivek Singh Bawa, Jorge Bernal, Sebastian Bodenstedt, Alessandro Casella, Jinwook Choi, Olivier Commowick, Marie Daum, Adrien Depeursinge, Reuben Dorent, Jan Egger, Hannah Eichhorn, Sandy Engelhardt, Melanie Ganz, Gabriel Girard, Lasse Hansen, Mattias Heinrich, Nicholas Heller, Alessa Hering, Arnaud Huaulm\'e, Hyunjeong Kim, Bennett Landman, Hongwei Bran Li, Jianning Li, Jun Ma, Anne Martel, Carlos Mart\'in-Isla, Bjoern Menze, Chinedu Innocent Nwoye, Valentin Oreiller, Nicolas Padoy, Sarthak Pati, Kelly Payette, Carole Sudre, Kimberlin van Wijnen, Armine Vardazaryan, Tom Vercauteren, Martin Wagner, Chuanbo Wang, Moi Hoon Yap, Zeyun Yu, Chun Yuan, Maximilian Zenk, Aneeq Zia, David Zimmerer, Rina Bao, Chanyeol Choi, Andrew Cohen, Oleh Dzyubachyk, Adrian Galdran, Tianyuan Gan, Tianqi Guo, Pradyumna Gupta, Mahmood Haithami, Edward Ho, Ikbeom Jang, Zhili Li, Zhengbo Luo, Filip Lux, Sokratis Makrogiannis, Dominik M\"uller, Young-tack Oh, Subeen Pang, Constantin Pape, Gorkem Polat, Charlotte Rosalie Reed, Kanghyun Ryu, Tim Scherr, Vajira Thambawita, Haoyu Wang, Xinliang Wang, Kele Xu, Hung Yeh, Doyeob Yeo, Yixuan Yuan, Yan Zeng, Xin Zhao, Julian Abbing, Jannes Adam, Nagesh Adluru, Niklas Agethen, Salman Ahmed, Yasmina Al Khalil, Mireia Aleny\`a, Esa Alhoniemi, Chengyang An, Talha Anwar, Tewodros Weldebirhan Arega, Netanell Avisdris, Dogu Baran Aydogan, Yingbin Bai, Maria Baldeon Calisto, Berke Doga Basaran, Marcel Beetz, Cheng Bian, Hao Bian, Kevin Blansit, Louise Bloch, Robert Bohnsack, Sara Bosticardo, Jack Breen, Mikael Brudfors, Raphael Br\"ungel, Mariano Cabezas, Alberto Cacciola, Zhiwei Chen, Yucong Chen, Daniel Tianming Chen, Minjeong Cho, Min-Kook Choi, Chuantao Xie Chuantao Xie, Dana Cobzas, Julien Cohen-Adad, Jorge Corral Acero, Sujit Kumar Das, Marcela de Oliveira, Hanqiu Deng, Guiming Dong, Lars Doorenbos, Cory Efird, Sergio Escalera, Di Fan, Mehdi Fatan Serj, Alexandre Fenneteau, Lucas Fidon, Patryk Filipiak, Ren\'e Finzel, Nuno R. Freitas, Christoph M. Friedrich, Mitchell Fulton, Finn Gaida, Francesco Galati, Christoforos Galazis, Chang Hee Gan, Zheyao Gao, Shengbo Gao, Matej Gazda, Beerend Gerats, Neil Getty, Adam Gibicar, Ryan Gifford, Sajan Gohil, Maria Grammatikopoulou, Daniel Grzech, Orhun G\"uley, Timo G\"unnemann, Chunxu Guo, Sylvain Guy, Heonjin Ha, Luyi Han, Il Song Han, Ali Hatamizadeh, Tian He, Jimin Heo, Sebastian Hitziger, SeulGi Hong, SeungBum Hong, Rian Huang, Ziyan Huang, Markus Huellebrand, Stephan Huschauer, Mustaffa Hussain, Tomoo Inubushi, Ece Isik Polat, Mojtaba Jafaritadi, SeongHun Jeong, Bailiang Jian, Yuanhong Jiang, Zhifan Jiang, Yueming Jin, Smriti Joshi, Abdolrahim Kadkhodamohammadi, Reda Abdellah Kamraoui, Inha Kang, Junghwa Kang, Davood Karimi, April Khademi, Muhammad Irfan Khan, Suleiman A. Khan, Rishab Khantwal, Kwang-Ju Kim, Timothy Kline, Satoshi Kondo, Elina Kontio, Adrian Krenzer, Artem Kroviakov, Hugo Kuijf, Satyadwyoom Kumar, Francesco La Rosa, Abhi Lad, Doohee Lee, Minho Lee, Chiara Lena, Hao Li, Ling Li, Xingyu Li, Fuyuan Liao, KuanLun Liao, Arlindo Limede Oliveira, Chaonan Lin, Shan Lin, Akis Linardos, Marius George Linguraru, Han Liu, Tao Liu, Di Liu, Yanling Liu, Jo\~ao Louren\c{c}o-Silva, Jingpei Lu, Jiangshan Lu, Imanol Luengo, Christina B. Lund, Huan Minh Luu, Yi Lv, Yi Lv, Uzay Macar, Leon Maechler, Sina Mansour L., Kenji Marshall, Moona Mazher, Richard McKinley, Alfonso Medela, Felix Meissen, Mingyuan Meng, Dylan Miller, Seyed Hossein Mirjahanmardi, Arnab Mishra, Samir Mitha, Hassan Mohy-ud-Din, Tony Chi Wing Mok, Gowtham Krishnan Murugesan, Enamundram Naga Karthik, Sahil Nalawade, Jakub Nalepa, Mohamed Naser, Ramin Nateghi, Hammad Naveed, Quang-Minh Nguyen, Cuong Nguyen Quoc, Brennan Nichyporuk, Bruno Oliveira, David Owen, Jimut Bahan Pal, Junwen Pan, Wentao Pan, Winnie Pang, Bogyu Park, Vivek Pawar, Kamlesh Pawar, Michael Peven, Lena Philipp, Tomasz Pieciak, Szymon Plotka, Marcel Plutat, Fattaneh Pourakpour, Domen Prelo\v{z}nik, Kumaradevan Punithakumar, Abdul Qayyum, Sandro Queir\'os, Arman Rahmim, Salar Razavi, Jintao Ren, Mina Rezaei, Jonathan Adam Rico, ZunHyan Rieu, Markus Rink, Johannes Roth, Yusely Ruiz-Gonzalez, Numan Saeed, Anindo Saha, Mostafa Salem, Ricardo Sanchez-Matilla, Kurt Schilling, Wei Shao, Zhiqiang Shen, Ruize Shi, Pengcheng Shi, Daniel Sobotka, Th\'eodore Soulier, Bella Specktor Fadida, Danail Stoyanov, Timothy Sum Hon Mun, Xiaowu Sun, Rong Tao, Franz Thaler, Antoine Th\'eberge, Felix Thielke, Helena Torres, Kareem A. Wahid, Jiacheng Wang, YiFei Wang, Wei Wang, Xiong Wang, Jianhui Wen, Ning Wen, Marek Wodzinski, Ye Wu, Fangfang Xia, Tianqi Xiang, Chen Xiaofei, Lizhan Xu, Tingting Xue, Yuxuan Yang, Lin Yang, Kai Yao, Huifeng Yao, Amirsaeed Yazdani, Michael Yip, Hwanseung Yoo, Fereshteh Yousefirizi, Shunkai Yu, Lei Yu, Jonathan Zamora, Ramy Ashraf Zeineldin, Dewen Zeng, Jianpeng Zhang, Bokai Zhang, Jiapeng Zhang, Fan Zhang, Huahong Zhang, Zhongchen Zhao, Zixuan Zhao, Jiachen Zhao, Can Zhao, Qingshuo Zheng, Yuheng Zhi, Ziqi Zhou, Baosheng Zou, Klaus Maier-Hein, Paul F. J\"ager, Annette Kopp-Schneider, Lena Maier-Hein(参考訳) 国際ベンチマークコンテストの数は、機械学習(ML)の研究と実践の分野で着実に増えている。 しかし、これまでのところ、コミュニティが抱える研究課題に取り組む上で直面するボトルネックと同様に、一般的なプラクティスについてはほとんど知られていない。 バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするため,IEEE ISBI 2021およびMICCAI 2021会議(合計80コンペティション)と共同で実施した課題の参加者全員を対象とした国際調査を設計した。 この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。 調査には72%の参加者が参加した。 結果から,知識交換は参加者に対する第一のインセンティブ (70%) であり,賞金の受け取りは小さい (16%) に過ぎなかった。 80時間の平均的な作業時間がメソッド開発に費やされた一方で、参加者の大多数は、メソッド開発に十分な時間を持っていなかった(32%)。 25%はインフラストラクチャがボトルネックであると認識している。 全体として、すべてのソリューションの94%がディープラーニングベースだった。 そのうち84%は標準アーキテクチャに基づいていた。 回答者の43%が、データサンプル(画像など)は一度に処理するには大きすぎると回答している。 これはパッチベースのトレーニング(69%)、ダウンサンプリング(37%)、一連の2Dタスクとして3D解析タスクを解くことで対処された。 k-foldクロスバリデーションは参加者の37%に過ぎず、参加者の50%が複数の同一モデル(61%)または異種モデル(39%)に基づいてセンシングを行った。 回答者の48%が後処理を施した。

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
翻訳日:2023-09-13 17:38:06 公開日:2023-09-12
# ROSCOE:ステップバイステップ推論のためのメトリクススイート

ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning ( http://arxiv.org/abs/2212.07919v2 )

ライセンス: Link先を確認
Olga Golovneva, Moya Chen, Spencer Poff, Martin Corredor, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz(参考訳) 大きな言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクのパフォーマンスが向上する。 これらの推論ステップは、モデル解釈性と検証を大幅に改善するが、その正確性(最終回答によらず)を客観的に研究することは、自動評価のための信頼できる方法がなければ困難である。 私たちは単に、記述された推論ステップが最終最終タスクの予測を実際にサポートする頻度を知らないだけです。 本稿では,従来のテキスト生成評価指標を改善し拡張する,解釈可能で教師なしの自動スコアのセットであるroscoeを提案する。 ベースラインメトリクスに対するroscoeを評価するために,推論誤りの類型をデザインし,一般的な推論データセット上での合成および人為評価スコアを収集する。 既存のメトリクスとは対照的に、ROSCOEはステップバイステップの合理性の特性を活用することで、意味的一貫性、論理性、情報性、流布性、事実性を計測できる。 私たちは、5人の注釈付きと6つのプログラム的な摂動型診断データセットに関する測定基準の強みを実証的に検証しました。

Large language models show improved downstream task performance when prompted to generate step-by-step reasoning to justify their final answers. These reasoning steps greatly improve model interpretability and verification, but objectively studying their correctness (independent of the final answer) is difficult without reliable methods for automatic evaluation. We simply do not know how often the stated reasoning steps actually support the final end task predictions. In this work, we present ROSCOE, a suite of interpretable, unsupervised automatic scores that improve and extend previous text generation evaluation metrics. To evaluate ROSCOE against baseline metrics, we design a typology of reasoning errors and collect synthetic and human evaluation scores on commonly used reasoning datasets. In contrast with existing metrics, ROSCOE can measure semantic consistency, logicality, informativeness, fluency, and factuality - among other traits - by leveraging properties of step-by-step rationales. We empirically verify the strength of our metrics on five human annotated and six programmatically perturbed diagnostics datasets - covering a diverse set of tasks that require reasoning skills and show that ROSCOE can consistently outperform baseline metrics.
翻訳日:2023-09-13 17:37:33 公開日:2023-09-12
# ShaRPy:不確実性のあるRGB-Dの形状再構成と手探り推定

ShaRPy: Shape Reconstruction and Hand Pose Estimation from RGB-D with Uncertainty ( http://arxiv.org/abs/2303.10042v2 )

ライセンス: Link先を確認
Vanessa Wirth, Anna-Maria Liphardt, Birte Coppers, Johanna Br\"aunig, Simon Heinrich, Sigrid Leyendecker, Arnd Kleyer, Georg Schett, Martin Vossiek, Bernhard Egger, Marc Stamminger(参考訳) その可能性にもかかわらず、マーカーレスハンドトラッキング技術は、炎症性筋骨格疾患における活動の診断やモニタリングに実際は適用されていない。 その理由の1つは、ほとんどの方法の焦点が粗い、妥当なポーズの再構築にあるのに対して、臨床的文脈では、正確で、解釈可能で、信頼できる結果が必要であることである。 そこで本研究では,最初のrgb-d形状再構成・手姿勢追跡システムであるsharpyを提案する。 ShaRPyはポーズに加え、パーソナライズされた手の形を近似し、デジタル双生児のより現実的で直感的な理解を促進する。 提案手法では,1台のコンシューマレベルのRGB-Dカメラによる軽量な設定しか必要としないが,測定精度の低い空間において,小さな関節角偏差しか持たない類似のポーズを識別できる。 これはデータ駆動型高密度対応予測器と従来のエネルギー最小化を組み合わせたものである。 インタラクティブな可視化と生体シミュレーションのギャップを埋めるために、我々は生体医学的制約を取り入れ、そのポーズと手形の両方を最適化するパラメトリックハンドモデルを利用する。 キーポイント検出ベンチマークを用いてShaRPyを評価し,筋骨格疾患の能動モニタリングのための手機能評価の質的結果を示した。

Despite their potential, markerless hand tracking technologies are not yet applied in practice to the diagnosis or monitoring of the activity in inflammatory musculoskeletal diseases. One reason is that the focus of most methods lies in the reconstruction of coarse, plausible poses, whereas in the clinical context, accurate, interpretable, and reliable results are required. Therefore, we propose ShaRPy, the first RGB-D Shape Reconstruction and hand Pose tracking system, which provides uncertainty estimates of the computed pose, e.g., when a finger is hidden or its estimate is inconsistent with the observations in the input, to guide clinical decision-making. Besides pose, ShaRPy approximates a personalized hand shape, promoting a more realistic and intuitive understanding of its digital twin. Our method requires only a light-weight setup with a single consumer-level RGB-D camera yet it is able to distinguish similar poses with only small joint angle deviations in a metrically accurate space. This is achieved by combining a data-driven dense correspondence predictor with traditional energy minimization. To bridge the gap between interactive visualization and biomedical simulation we leverage a parametric hand model in which we incorporate biomedical constraints and optimize for both, its pose and hand shape. We evaluate ShaRPy on a keypoint detection benchmark and show qualitative results of hand function assessments for activity monitoring of musculoskeletal diseases.
翻訳日:2023-09-13 17:31:30 公開日:2023-09-12
# 地域型畳み込みニューラルネットワークを用いた植物病検出

Plant Disease Detection using Region-Based Convolutional Neural Network ( http://arxiv.org/abs/2303.09063v2 )

ライセンス: Link先を確認
Hasin Rehana, Muhammad Ibrahim, Md. Haider Ali(参考訳) 農業はバングラデシュの食料と経済において重要な役割を担っている。 長年にわたる人口の急激な増加は、食料生産の需要も増している。 低作物生産の主な原因の1つは、多くの細菌、ウイルス、真菌の植物病である。 植物病の早期発見と農薬や肥料の適切な使用は、病気の予防と収量の向上に不可欠である。 農夫の多くは、植物の状態を知ることなく、全畑で一般的な農薬や肥料を使っている。 このように、生産コストは頻繁に増加し、それだけでなく、時には収量に不利になる。 深層学習モデルは、植物の画像から植物疾患を自動的に検出し、人間の専門医の必要性を減らすのに非常に効果的である。 本稿では,トマトの葉病予測のための軽量深層学習モデルの構築を目的とする。 領域ベースの畳み込みニューラルネットワークを変更することで、ベンチマークデータセットで十分な経験的性能を示す効率的かつ効果的なモデルを設計する。 提案するモデルは、葉っぱの写真をドローンが撮る大きなシステムに簡単に配置でき、これらの画像は私たちのモデルに送られて健康状態を知ることができます。

Agriculture plays an important role in the food and economy of Bangladesh. The rapid growth of population over the years also has increased the demand for food production. One of the major reasons behind low crop production is numerous bacteria, virus and fungal plant diseases. Early detection of plant diseases and proper usage of pesticides and fertilizers are vital for preventing the diseases and boost the yield. Most of the farmers use generalized pesticides and fertilizers in the entire fields without specifically knowing the condition of the plants. Thus the production cost oftentimes increases, and, not only that, sometimes this becomes detrimental to the yield. Deep Learning models are found to be very effective to automatically detect plant diseases from images of plants, thereby reducing the need for human specialists. This paper aims at building a lightweight deep learning model for predicting leaf disease in tomato plants. By modifying the region-based convolutional neural network, we design an efficient and effective model that demonstrates satisfactory empirical performance on a benchmark dataset. Our proposed model can easily be deployed in a larger system where drones take images of leaves and these images will be fed into our model to know the health condition.
翻訳日:2023-09-13 17:31:05 公開日:2023-09-12
# 教師なし学習における一般化誤差のトレードオフ

Tradeoff of generalization error in unsupervised learning ( http://arxiv.org/abs/2303.05718v2 )

ライセンス: Link先を確認
Gilhan Kim, Hojun Lee, Junghyo Jo, Yongjoo Baek(参考訳) 一般化誤差(GE)を最小限に抑える最適なモデル複雑性を見つけることは、機械学習の重要な問題である。 従来の教師付き学習では、このタスクは一般的にバイアス-ばらつきのトレードオフを伴い、モデルをより複雑にすることでバイアスを下げる。 一方で、教師なし学習に同じトレードオフが存在するかどうかについてはほとんど研究されていない。 本研究では,教師なし学習は一般に,モデルエラーとデータエラーという,geの2成分のトレードオフを示す。より複雑なモデルを用いることで,データエラーのコストでモデルエラーを低減し,データエラーがより小さなトレーニングデータセットにおいてより重要な役割を果たすことを提案する。 これは、制限ボルツマン機械を訓練し、与えられた温度で2次元イジングモデルの構成と、与えられた入出率で完全に非対称な単純な排他過程を生成することによって裏付けられる。 また, 学習対象のデータがより複雑である場合には, 最適モデルはより複雑になる傾向が示唆された。

Finding the optimal model complexity that minimizes the generalization error (GE) is a key issue of machine learning. For the conventional supervised learning, this task typically involves the bias-variance tradeoff: lowering the bias by making the model more complex entails an increase in the variance. Meanwhile, little has been studied about whether the same tradeoff exists for unsupervised learning. In this study, we propose that unsupervised learning generally exhibits a two-component tradeoff of the GE, namely the model error and the data error -- using a more complex model reduces the model error at the cost of the data error, with the data error playing a more significant role for a smaller training dataset. This is corroborated by training the restricted Boltzmann machine to generate the configurations of the two-dimensional Ising model at a given temperature and the totally asymmetric simple exclusion process with given entry and exit rates. Our results also indicate that the optimal model tends to be more complex when the data to be learned are more complex.
翻訳日:2023-09-13 17:30:49 公開日:2023-09-12
# 吸収による洪水:複雑ネットワーク上の不均一帯域の効率的なプロトコル

Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks ( http://arxiv.org/abs/2303.05445v2 )

ライセンス: Link先を確認
Junghyun Lee, Laura Schmid, Se-Young Yun(参考訳) マルチアームのバンディットはシーケンシャルな意思決定のモデル化に広く使われており、オンラインレコメンデーションシステムやワイヤレスネットワークなど、多くの現実のアプリケーションで広く使われている。 我々は,各エージェントがそれぞれ異なるアームを持つバンドイットインスタンスを解くマルチエージェント設定について検討する。 彼らの目標は、あるネットワーク上の通信プロトコルを介して協力しながら、グループの後悔を最小限にすることである。 この問題に関する以前の文献では、腕の不均一性とネットワークエージェントを別々に考慮していた。 本稿では,両方の特徴を包含する設定を導入する。 この新しい設定のために、我々はまず、古典的なUTBポリシーと組み合わされた標準洪水プロトコルに対する厳格な後悔の分析を行う。 そこで本稿では,複雑なネットワークの浸水による通信コストの低減を図るため,FwA(Flooding with absorption)と呼ばれる新しいプロトコルを提案する。 以上の結果について理論的解析を行い,洪水時のFwAの利点について考察する。 最後に、FwAが他のネットワークプロトコルと比較して最小限の性能損失にもかかわらず、通信コストを大幅に低下させるという、動的ネットワークを含む様々なシナリオを実験的に検証する。

Multi-armed bandits are extensively used to model sequential decision-making, making them ubiquitous in many real-life applications such as online recommender systems and wireless networking. We consider a multi-agent setting where each agent solves their own bandit instance endowed with a different set of arms. Their goal is to minimize their group regret while collaborating via some communication protocol over a given network. Previous literature on this problem only considered arm heterogeneity and networked agents separately. In this work, we introduce a setting that encompasses both features. For this novel setting, we first provide a rigorous regret analysis for a standard flooding protocol combined with the classic UCB policy. Then, to mitigate the issue of high communication costs incurred by flooding in complex networks, we propose a new protocol called Flooding with Absorption (FwA). We provide a theoretical analysis of the resulting regret bound and discuss the advantages of using FwA over flooding. Lastly, we experimentally verify on various scenarios, including dynamic networks, that FwA leads to significantly lower communication costs despite minimal regret performance loss compared to other network protocols.
翻訳日:2023-09-13 17:30:32 公開日:2023-09-12
# 線形QAOAに基づく分解アルゴリズムの落とし穴

Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v5 )

ライセンス: Link先を確認
S.V. Grebnev, M.A. Gavreev, E.O. Kiktenko, A.P. Guglya, A.K. Fedorov(参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。 しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。 yanらによる最近の提案 al.は、部分線形量子資源を用いて因子分解問題を解決する可能性を主張する。 我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。 提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。

Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et. al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm.
翻訳日:2023-09-13 17:30:14 公開日:2023-09-12
# 日光自由空間量子鍵分布の理想的な波長

The ideal wavelength for daylight free-space quantum key distribution ( http://arxiv.org/abs/2303.02106v2 )

ライセンス: Link先を確認
Mostafa Abasifard, Chanaprom Cholsuk, Roberto G. Pousa, Anand Kumar, Ashkan Zand, Thomas Riel, Daniel K. L. Oi, Tobias Vogl(参考訳) 量子鍵分布(QKD)は近年,実証実験から市販システムまで成熟している。 主なボトルネックの1つは、指数的な信号減衰によるファイバーネットワークの通信距離の制限である。 大陸間距離の橋渡しには、大気上で量子信号を伝達する低軌道衛星を用いることができる。 しかし、これらの自由空間リンクは、日光が量子状態を測定するために使われる検出器を飽和させるため、夜間にしか動作できない。 連続的な可用性と高いデータレートを備えたグローバル量子インターネットにおけるQKDの適用には、日中操作が必要である。 本研究では,様々な量子光源に対する衛星対地量子チャネルをモデル化し,環境条件下で自由空間qkdの最適波長を同定する。 日中の量子通信はフラウンホーファー線または近赤外線スペクトル内で可能であり、太陽からの固有背景は両立できるほど低い。 有限鍵効果を考慮した年間最高秘密鍵長は、h\textalpha\ fraunhofer 線で達成可能である。 さらに重要なことは、他の特定のリンクシナリオに一般的に適応できる完全なモデルを提供します。 また, 六方晶窒化ホウ素の色中心をマイクロ共振器に結合した単一光子源を提案する。 我々の結果は屋上から屋根までのシナリオにも適用でき、そのため近未来の量子ネットワークに関係している。

Quantum key distribution (QKD) has matured in recent years from laboratory proof-of-principle demonstrations to commercially available systems. One of the major bottlenecks is the limited communication distance in fiber networks due to the exponential signal damping. To bridge intercontinental distances, low Earth orbit satellites transmitting the quantum signals over the atmosphere can be used. These free-space links, however, can only operate during the night, as the sunlight otherwise saturates the detectors used to measure the quantum states. For applying QKD in a global quantum internet with continuous availability and high data rates, operation during daylight is required. In this work, we model a satellite-to-ground quantum channel for different quantum light sources to identify the optimal wavelength for free-space QKD in ambient conditions. Daylight quantum communication is possible within the Fraunhofer lines or in the near-infrared spectrum, where the intrinsic background from the sun is comparably low. The highest annual secret key length considering the finite key effect is achievable at the H\textalpha\ Fraunhofer line. More importantly, we provide the full model that can be adapted in general to any other specific link scenario. We also propose a true single-photon source based on a color center in hexagonal boron nitride coupled to a microresonator that can implement such a scheme. Our results can also be applied in roof-to-roof scenarios and are therefore relevant for near-future quantum networks.
翻訳日:2023-09-13 17:29:58 公開日:2023-09-12
# JOSA:アトラス構築による関節表面の登録は脳の形状と機能の正確なアライメントを可能にする

JOSA: Joint surface-based registration with atlas construction enables accurate alignment of the brain geometry and function ( http://arxiv.org/abs/2303.01592v3 )

ライセンス: Link先を確認
Jian Li, Greta Tuckute, Evelina Fedorenko, Brian L. Edlow, Adrian V. Dalca, Bruce Fischl(参考訳) 表面ベースの皮質登録は、医用画像解析において重要なトピックであり、多くの下流応用を促進する。 現在の皮質登録のアプローチは、主にsulcal depthやcurvatureのような幾何学的特徴によって行われており、しばしば折りたたみパターンの登録が脳機能のアライメントにつながると仮定している。 しかし,特に高次認知領域では,解剖学的対応領域の機能的変動が広く報告されている。 本研究は,人口固有のアトラスを同時に学習しながら,幾何学と関数のミスマッチを共同でモデル化する新しい皮質登録フレームワークJOSAを提案する。 JOSAは、半教師付きトレーニング戦略を用いて、推論時に関数データを必要とせず、幾何と関数の両方において優れた登録性能を達成する。 この学習フレームワークは、トレーニング中に利用可能な球面登録をガイドするために任意の補助データに拡張することができ、パーセレーション、構造的アイデンティティ、転写情報、分子プロファイルなど、推論中に取得することが困難または不可能である。

Surface-based cortical registration is an important topic in medical image analysis and facilitates many downstream applications. Current approaches for cortical registration are mainly driven by geometric features, such as sulcal depth and curvature, and often assume that registration of folding patterns leads to alignment of brain function. However, functional variability of anatomically corresponding areas across subjects has been widely reported, particularly in higher-order cognitive areas. In this work, we present JOSA, a novel cortical registration framework that jointly models the mismatch between geometry and function while simultaneously learning an unbiased population-specific atlas. Using a semi-supervised training strategy, JOSA achieves superior registration performance in both geometry and function without requiring functional data at inference. This learning framework can be extended to any auxiliary data to guide spherical registration that is available during training but is difficult or impossible to obtain during inference, such as parcellations, architectonic identity, transcriptomic information, and molecular profiles.
翻訳日:2023-09-13 17:29:37 公開日:2023-09-12
# 多体非マルコフ力学のダイアグラム法:記憶効果と絡み合い遷移

Diagrammatic method for many-body non-Markovian dynamics: memory effects and entanglement transitions ( http://arxiv.org/abs/2302.10563v3 )

ライセンス: Link先を確認
Giuliano Chiriac\`o and Mikheil Tsitsishvili and Dario Poletti and Rosario Fazio and Marcello Dalmonte(参考訳) 我々は,多体系のコヒーレント進化と非マルコフ浴との結合の量子力学について検討した。 本稿では,量子ジャンプの観点から非マルコフ力学を解き明かす手法を提案する。 量子軌道の確率を体系的に計算し,それを図式構造で定式化する手法を開発した。 非マルコフ性は量子軌道を実現する確率を再正規化し、記憶効果はマルコフ力学の上の摂動として解釈できる。 図形構造はダイソン方程式と類似しており、軌道の確率は解析的に計算可能であることを示す。 次に、ランダムなユニタリ回路における測定誘起絡み合い遷移について検討する。 非マルコビアン性は遷移を著しくシフトさせるのではなく、過渡的な強い散逸から守ることで絡み合いの体積法相を安定化させる。

We study the quantum dynamics of a many-body system subject to coherent evolution and coupled to a non-Markovian bath. We propose a technique to unravel the non-Markovian dynamics in terms of quantum jumps, a connection that was so far only understood for single-body systems. We develop a systematic method to calculate the probability of a quantum trajectory, and formulate it in a diagrammatic structure. We find that non-Markovianity renormalizes the probability of realizing a quantum trajectory, and that memory effects can be interpreted as a perturbation on top of the Markovian dynamics. We show that the diagrammatic structure is akin to that of a Dyson equation, and that the probability of the trajectories can be calculated analytically. We then apply our results to study the measurement-induced entanglement transition in random unitary circuits. We find that non-Markovianity does not significantly shift the transition, but stabilizes the volume law phase of the entanglement by shielding it from transient strong dissipation.
翻訳日:2023-09-13 17:29:16 公開日:2023-09-12
# 階層的最適化に基づく学習

Hierarchical Optimization-Derived Learning ( http://arxiv.org/abs/2302.05587v2 )

ライセンス: Link先を確認
Risheng Liu, Xuan Liu, Shangzhi Zeng, Jin Zhang, and Yixuan Zhang(参考訳) 近年,深層モデルの伝播を定式化するために最適化手法を活用することで,多様な学習課題と視覚課題に対処する,いわゆるODLアプローチが提案されている。 実用性能は比較的満足しているが,既存のODL手法には根本的問題がある。 特に、現在のodl法は、モデル構築と学習を2つの異なるフェーズとして考える傾向があるため、基礎となる結合と依存関係を定式化できない。 本研究では,まず階層型odl(hodl)という新しいフレームワークを構築し,最適化モデル構築の固有挙動とそれに対応する学習プロセスを同時に検討する。 そして、近似品質と定常解析の両方の観点から、これらの2つのサブタスクの合同収束を厳密に証明する。 私たちの知る限りでは、これは2つのodlコンポーネント、すなわち最適化と学習に対する最初の理論的保証です。 我々は,既存の ODL 手法で適切に対処されていない学習課題に HODL を適用することで,フレームワークの柔軟性をさらに実証する。 最後に、様々なアプリケーションシナリオにおけるHODLの理論的特性と実用性を検証するために、視覚やその他の学習タスクにおける合成データと実アプリケーションの両方について広範な実験を行った。

In recent years, by utilizing optimization techniques to formulate the propagation of deep model, a variety of so-called Optimization-Derived Learning (ODL) approaches have been proposed to address diverse learning and vision tasks. Although having achieved relatively satisfying practical performance, there still exist fundamental issues in existing ODL methods. In particular, current ODL methods tend to consider model construction and learning as two separate phases, and thus fail to formulate their underlying coupling and depending relationship. In this work, we first establish a new framework, named Hierarchical ODL (HODL), to simultaneously investigate the intrinsic behaviors of optimization-derived model construction and its corresponding learning process. Then we rigorously prove the joint convergence of these two sub-tasks, from the perspectives of both approximation quality and stationary analysis. To our best knowledge, this is the first theoretical guarantee for these two coupled ODL components: optimization and learning. We further demonstrate the flexibility of our framework by applying HODL to challenging learning tasks, which have not been properly addressed by existing ODL methods. Finally, we conduct extensive experiments on both synthetic data and real applications in vision and other learning tasks to verify the theoretical properties and practical performance of HODL in various application scenarios.
翻訳日:2023-09-13 17:28:58 公開日:2023-09-12
# コードのための大規模言語モデル: セキュリティ強化と逆行テスト

Large Language Models for Code: Security Hardening and Adversarial Testing ( http://arxiv.org/abs/2302.05319v3 )

ライセンス: Link先を確認
Jingxuan He and Martin Vechev(参考訳) 大きな言語モデル(大きなlms)は、ますます巨大なコードベースで訓練され、コードを生成するのに使われる。 しかし、LMはセキュリティを意識せず、しばしば安全でないコードを生成する。 この研究は、2つの重要な軸に沿ってlmsのセキュリティを研究する。 (i)セキュアコード生成におけるlmsの信頼性向上を目的としたセキュリティ強化 (ii)敵対的立場からlsmのセキュリティを評価しようとする敵対的テスト。 制御コード生成と呼ばれる新しいセキュリティタスクを定式化することで、これら2つに対処する。 タスクはパラメトリックであり、LMが機能的に正しいコードを生成する能力を保持しながら、LMを誘導して安全または安全でないコードを生成するためにバイナリプロパティを入力する。 この課題を解決するために,SVENと呼ばれる新しい学習手法を提案する。 SVENはプロパティ固有の連続ベクトルを利用して、LMの重みを変更することなくプログラム生成を与えられたプロパティへ導く。 トレーニング手順は、コードの各領域に特別な損失項を強制することにより、これらの連続ベクトルを最適化する。 SVENは強力なセキュリティ制御を実現する上で極めて有効であることを示す。 例えば、2.7Bパラメータを持つ最先端のCodeGen LMは59.1%の時間でセキュアなコードを生成する。 このLM上でセキュリティ強化(または敵検定)を行うためにSVENを使用する場合、比率は92.3%(または36.8%に低下)に大幅に向上する。 重要なことに、SVENは機能的正確性において元のLMと密接に一致している。

Large language models (large LMs) are increasingly trained on massive codebases and used to generate code. However, LMs lack awareness of security and are found to frequently produce unsafe code. This work studies the security of LMs along two important axes: (i) security hardening, which aims to enhance LMs' reliability in generating secure code, and (ii) adversarial testing, which seeks to evaluate LMs' security at an adversarial standpoint. We address both of these by formulating a new security task called controlled code generation. The task is parametric and takes as input a binary property to guide the LM to generate secure or unsafe code, while preserving the LM's capability of generating functionally correct code. We propose a novel learning-based approach called SVEN to solve this task. SVEN leverages property-specific continuous vectors to guide program generation towards the given property, without modifying the LM's weights. Our training procedure optimizes these continuous vectors by enforcing specialized loss terms on different regions of code, using a high-quality dataset carefully curated by us. Our extensive evaluation shows that SVEN is highly effective in achieving strong security control. For instance, a state-of-the-art CodeGen LM with 2.7B parameters generates secure code for 59.1% of the time. When we employ SVEN to perform security hardening (or adversarial testing) on this LM, the ratio is significantly boosted to 92.3% (or degraded to 36.8%). Importantly, SVEN closely matches the original LMs in functional correctness.
翻訳日:2023-09-13 17:28:37 公開日:2023-09-12
# PyTorch FSDP: 完全なシャードデータ並列のスケーリングの経験

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel ( http://arxiv.org/abs/2304.11277v2 )

ライセンス: Link先を確認
Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang, Min Xu, Less Wright, Hamid Shojanazeri, Myle Ott, Sam Shleifer, Alban Desmaison, Can Balioglu, Pritam Damania, Bernard Nguyen, Geeta Chauhan, Yuchen Hao, Ajit Mathews and Shen Li(参考訳) 大きなモデルが幅広い領域で優れたパフォーマンスをもたらす可能性があることは広く認識されている。 大規模なモデルの開発と探索を可能にする機械学習システム研究の分野で顕著な進歩にもかかわらず、そのような能力は、少数の先進的なユーザーや業界リーダーのグループに限られており、より広いコミュニティがこれらの技術にアクセスし活用するための暗黙の技術的障壁となっている。 本稿では,大規模モデルトレーニングのための業界レベルのソリューションとして,PyTorch Fully Sharded Data Parallel (FSDP)を紹介する。 FSDPはTensor実装、ディスパッチシステム、CUDAメモリキャッシュアロケータなど、いくつかの主要なPyTorchコアコンポーネントと密に設計されており、非侵襲的なユーザエクスペリエンスと高いトレーニング効率を提供する。 さらにFSDPは、様々なハードウェア構成のリソース利用を最適化するための様々な技術と設定をネイティブに組み込んでいる。 実験結果から,fsdp は分散データ並列処理と同等の性能を達成でき,tflops の観点からは,より大規模でニアリニアなモデルをサポートできることがわかった。

It is widely acknowledged that large models have the potential to deliver superior performance across a broad range of domains. Despite the remarkable progress made in the field of machine learning systems research, which has enabled the development and exploration of large models, such abilities remain confined to a small group of advanced users and industry leaders, resulting in an implicit technical barrier for the wider community to access and leverage these technologies. In this paper, we introduce PyTorch Fully Sharded Data Parallel (FSDP) as an industry-grade solution for large model training. FSDP has been closely co-designed with several key PyTorch core components including Tensor implementation, dispatcher system, and CUDA memory caching allocator, to provide non-intrusive user experiences and high training efficiency. Additionally, FSDP natively incorporates a range of techniques and settings to optimize resource utilization across a variety of hardware configurations. The experimental results demonstrate that FSDP is capable of achieving comparable performance to Distributed Data Parallel while providing support for significantly larger models with near-linear scalability in terms of TFLOPS.
翻訳日:2023-09-13 17:21:38 公開日:2023-09-12
# galactic chitchat: 大きな言語モデルを使って天文学文献と会話する

Galactic ChitChat: Using Large Language Models to Converse with Astronomy Literature ( http://arxiv.org/abs/2304.05406v2 )

ライセンス: Link先を確認
Ioana Ciuc\u{a} and Yuan-Sen Ting(参考訳) 我々は,現在最先端のOpenAI GPT-4大言語モデルが,文脈内プロンプトを用いて天文学論文と有意義な対話を行う可能性を示す。 効率を最適化するために, 段落構造と全体的な意味的整合性を維持しつつ, 元の入力紙のサイズを50倍に効果的に削減する蒸留技術を用いる。 次に、マルチドキュメントコンテキスト(10個の蒸留文書)を用いてモデルの応答を探索する。 以上の結果から, GPT-4は多文書領域で優れており, 関連する研究成果の枠組み内での詳細な回答が得られた。 以上の結果から,天文学コミュニティにおける大規模言語モデルの可能性を示し,さらなる探索,特に仮説生成にモデルを活用する可能性を示唆した。

We demonstrate the potential of the state-of-the-art OpenAI GPT-4 large language model to engage in meaningful interactions with Astronomy papers using in-context prompting. To optimize for efficiency, we employ a distillation technique that effectively reduces the size of the original input paper by 50\%, while maintaining the paragraph structure and overall semantic integrity. We then explore the model's responses using a multi-document context (ten distilled documents). Our findings indicate that GPT-4 excels in the multi-document domain, providing detailed answers contextualized within the framework of related research findings. Our results showcase the potential of large language models for the astronomical community, offering a promising avenue for further exploration, particularly the possibility of utilizing the models for hypothesis generation.
翻訳日:2023-09-13 17:21:17 公開日:2023-09-12
# 知識追跡のための多粒度時間変換器

Multi-granulariy Time-based Transformer for Knowledge Tracing ( http://arxiv.org/abs/2304.05257v3 )

ライセンス: Link先を確認
Tong Zhou(参考訳) 本稿では,標準化試験における学生のパフォーマンス予測のためのトランスフォーマーアーキテクチャを提案する。 具体的には、過去のテストスコア、学習習慣、その他の関連情報を含む学生の履歴データを活用して、各学生にパーソナライズされたモデルを作成します。 次に、これらのモデルを使用して、将来のパフォーマンスを所定のテストで予測します。 このモデルをriiidデータセットに適用することにより,デコーダ入力として時間的特徴に複数の粒度を用いることで,モデル性能が大幅に向上することを示す。 また,本手法の有効性を示すとともに,LightGBM法よりも大幅に改善した。 我々の研究は、教育におけるAIの分野の成長に貢献し、学生の成果を予測するスケーラブルで正確なツールを提供する。

In this paper, we present a transformer architecture for predicting student performance on standardized tests. Specifically, we leverage students historical data, including their past test scores, study habits, and other relevant information, to create a personalized model for each student. We then use these models to predict their future performance on a given test. Applying this model to the RIIID dataset, we demonstrate that using multiple granularities for temporal features as the decoder input significantly improve model performance. Our results also show the effectiveness of our approach, with substantial improvements over the LightGBM method. Our work contributes to the growing field of AI in education, providing a scalable and accurate tool for predicting student outcomes.
翻訳日:2023-09-13 17:21:04 公開日:2023-09-12
# 位相絶縁層成層球のdyadic greens関数

Dyadic Greens function for a topological insulator stratified sphere ( http://arxiv.org/abs/2304.04572v4 )

ライセンス: Link先を確認
Huai-Yi Xie(参考訳) 電磁気学の枠組みの中で, 位相絶縁体(TI)成層球に対してDGF(Dyadic Greens function)を構築する。 これらのDGFに対して、アキシオンカップリング効果を考慮した追加膨張係数を含む。 これらのDGFの適用により、TI成層球近傍の双極子からの光散乱の定式化が導かれる。 数値解析では, 金属被覆TI球, 金属被覆TI球, 金属被覆TI球, 交互金属めっきTI球) の3種類の構成を与え, TI球のトポロジカル磁力(TME) 応答が金属殻の多極プラズマ共鳴に与える影響について検討した。 これらのタイプについて、TME効果はTI成層球近傍の発光双極子に対する崩壊速度スペクトルのいくつかの変化を引き起こすことを示した。 金属シェルの多極性共鳴では,TMEにより誘導されるボンディングモードと低次アンチボンディングモードの赤方偏移がみられたが,高次アンチボンディングモードのものは重要でない。 また、金属被覆ti球面の場合、誘電関数がバルクまたは5つのクインタプル層(5ql)スラブの形に選択されたtiコアの損失の影響を考慮に入れ、tme誘起減衰率スペクトルのいくつかの修正が明らかに抑制される。 これらの現象学的特徴は、分子蛍光実験によるTME効果の探索に有用である。

We construct the dyadic Greens functions (DGFs) for a topological insulator (TI) stratified sphere within the framework of axion electrodynamics. For these DGFs, the additional expansion coefficients are included to account for the axion coupling effect. With the application of these DGFs, we derive the formulation of light scattering from a dipole near a TI stratified sphere. In our numerical studies, we give three types of configurations (a metal-coated TI sphere, a metal-TI-metal-coated TI sphere and an alternating metal-TI stratified sphere) to investigate how the topological magneto-electric (TME) response of the TI sphere (shells) influences on the multipolar plasmonic resonance of the metal shells. For these types, the results show that the TME effect causes some modifications of the decay rate spectrum for an emitting dipole near a TI stratified sphere. For the multipolar resonances of the metal shells, it is observed that the TME-induced red-shifts for the bonding and lower order antibonding modes are found but those for the higher order antibonding modes are insignificant. In addition, for a metal-coated TI sphere, we take into account the effects of losses in the TI core of which the dielectric function is chosen to be the form of the bulk or five quintuple layers (5QL) slab and then the some modifications of the TME-induced decay rate spectrum are obviously suppressed. These phenomenological characteristics provide useful guidance to probing the TME effect via molecular fluorescence experiments.
翻訳日:2023-09-13 17:20:53 公開日:2023-09-12
# point-slam:密集したニューラルポイントクラウドベースのslam

Point-SLAM: Dense Neural Point Cloud-based SLAM ( http://arxiv.org/abs/2304.04278v3 )

ライセンス: Link先を確認
Erik Sandstr\"om and Yue Li and Luc Van Gool and Martin R. Oswald(参考訳) 本稿では,入力に依存したデータ駆動方式で反復生成される点クラウドにおいて,神経シーン表現の特徴をアンカーする単眼型rgbd入力のための高密度ニューラルネットワーク同時局在マッピング(slam)手法を提案する。 rgbdベースの再レンダリングロスを最小化することで、トラッキングとマッピングの両方を同じポイントベースのニューラルネットワークシーン表現で実行できることを実証する。 スパースグリッドのシーン特徴を固定する近年の高密度ニューラルネットワークSLAM法とは対照的に,我々のポイントベースアプローチは,アンカー点密度を入力の情報密度に動的に適応させることができる。 この戦略は、ディテールの少ないリージョンでのランタイムとメモリ使用量を削減し、詳細を解決するために高いポイント密度を捧げる。 我々の手法は、Replica、TUM-RGBD、ScanNetデータセット上での追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGBD SLAM法により良い、あるいは競合する。 ソースコードはhttps://github.com/eriksandstroem/point-slamで入手できる。

We propose a dense neural simultaneous localization and mapping (SLAM) approach for monocular RGBD input which anchors the features of a neural scene representation in a point cloud that is iteratively generated in an input-dependent data-driven manner. We demonstrate that both tracking and mapping can be performed with the same point-based neural scene representation by minimizing an RGBD-based re-rendering loss. In contrast to recent dense neural SLAM methods which anchor the scene features in a sparse grid, our point-based approach allows dynamically adapting the anchor point density to the information density of the input. This strategy reduces runtime and memory usage in regions with fewer details and dedicates higher point density to resolve fine details. Our approach performs either better or competitive to existing dense neural RGBD SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code is available at https://github.com/eriksandstroem/Point-SLAM.
翻訳日:2023-09-13 17:20:24 公開日:2023-09-12
# 統合失調症診断と側方化解析のための時間的動的同期機能脳ネットワーク

Temporal Dynamic Synchronous Functional Brain Network for Schizophrenia Diagnosis and Lateralization Analysis ( http://arxiv.org/abs/2304.01347v4 )

ライセンス: Link先を確認
Cheng Zhu, Ying Tan, Shuqi Yang, Jiaqing Miao, Jiayi Zhu, Huan Huang, Dezhong Yao, and Cheng Luo(参考訳) 利用可能な証拠は、動的機能接続(dfc)は静止状態脳機能磁気共鳴画像(rs-fmri)データにおいて脳活動の時間的異常を捉えることができ、統合失調症(sz)患者の脳活動異常のメカニズムを明らかにするのに自然な利点があることを示唆している。 そこで、時間的脳カテゴリグラフ畳み込みネットワーク(temporal-bcgcn)と呼ばれる高度な動的脳ネットワーク解析モデルを用いた。 まず、動的な同期機能を構築するために、ユニークな動的脳ネットワーク解析モジュールdsf-brainnetが設計された。 その後、特徴の同期時間特性に基づいて、革命的グラフ畳み込み法であるTemporalConvが提案された。 最後に, RS-fMRIデータに基づく深層学習における最初のモジュール状異常半球側方化試験ツール, CategoryPoolを提案する。 この研究はCOBREとUCLAのデータセットで検証され、それぞれ83.62%と89.71%の平均精度を達成した。 アブレーションの結果は,従来のエッジ特徴グラフ畳み込みアプローチに対するTemporalConvの利点と,古典的なグラフプーリングアプローチに対するCataggoryPoolの改善を示す。 本研究は,SZの右半球より左半球の低次知覚系と高次ネットワーク領域が高度に機能し,SZの左内側上前頭回の重要性を再確認した。 私たちのコアコードは、https://github.com/swfen/Temporal-BCGCN.comで利用可能です。

The available evidence suggests that dynamic functional connectivity (dFC) can capture time-varying abnormalities in brain activity in resting-state cerebral functional magnetic resonance imaging (rs-fMRI) data and has a natural advantage in uncovering mechanisms of abnormal brain activity in schizophrenia(SZ) patients. Hence, an advanced dynamic brain network analysis model called the temporal brain category graph convolutional network (Temporal-BCGCN) was employed. Firstly, a unique dynamic brain network analysis module, DSF-BrainNet, was designed to construct dynamic synchronization features. Subsequently, a revolutionary graph convolution method, TemporalConv, was proposed, based on the synchronous temporal properties of feature. Finally, the first modular abnormal hemispherical lateralization test tool in deep learning based on rs-fMRI data, named CategoryPool, was proposed. This study was validated on COBRE and UCLA datasets and achieved 83.62% and 89.71% average accuracies, respectively, outperforming the baseline model and other state-of-the-art methods. The ablation results also demonstrate the advantages of TemporalConv over the traditional edge feature graph convolution approach and the improvement of CategoryPool over the classical graph pooling approach. Interestingly, this study showed that the lower order perceptual system and higher order network regions in the left hemisphere are more severely dysfunctional than in the right hemisphere in SZ and reaffirms the importance of the left medial superior frontal gyrus in SZ. Our core code is available at: https://github.com/swfen/Temporal-BCGCN.
翻訳日:2023-09-13 17:20:03 公開日:2023-09-12
# BOLT:コモディティCPUハードウェア上での大規模検索とレコメンデーションモデルのトレーニングとデプロイのためのディープラーニングフレームワーク

BOLT: An Automated Deep Learning Framework for Training and Deploying Large-Scale Search and Recommendation Models on Commodity CPU Hardware ( http://arxiv.org/abs/2303.17727v4 )

ライセンス: Link先を確認
Nicholas Meisburger, Vihan Lakshman, Benito Geordie, Joshua Engels, David Torres Ramos, Pratik Pranav, Benjamin Coleman, Benjamin Meisburger, Shubh Gupta, Yashwanth Adunukota, Tharun Medini, Anshumali Shrivastava(参考訳) コモディティCPUハードウェア上での大規模なニューラルネットワークトレーニングと推論は、ディープラーニング(DL)機能を民主化する上で、極めて実践的な重要性を持つ。 現在、数十億から数十億のパラメータからなる大規模モデルをトレーニングするプロセスでは、GPUのような特別なハードウェアアクセラレータを広範囲に使用する必要がある。 さらに、これらのモデルのトレーニングとデプロイに関連するカーボンフットプリントが懸念されることが多い。 本稿では,標準的なCPUハードウェア上で大規模検索とレコメンデーションモデルをトレーニングする,疎いディープラーニングライブラリBOLTを導入することにより,これらの課題に対処する。 boltは、既存の人気のあるdlフレームワークのユーザになじみのあるモデルを構築するための、柔軟でハイレベルなapiを提供する。 特殊なハイパーパラメータを自動的にチューニングすることで、BOLTはスパースネットワークトレーニングのアルゴリズムの詳細を抽象化する。 製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。 提案システムは,コストとエネルギー消費のごく一部で最先端技術と競合する性能と,より高速な推定時間を実現する。 BOLTはまた、重要な問題に対処するために複数の企業によってうまくデプロイされており、Eコマースの分野における1つの顧客ケーススタディを強調している。

Efficient large-scale neural network training and inference on commodity CPU hardware is of immense practical significance in democratizing deep learning (DL) capabilities. Presently, the process of training massive models consisting of hundreds of millions to billions of parameters requires the extensive use of specialized hardware accelerators, such as GPUs, which are only accessible to a limited number of institutions with considerable financial resources. Moreover, there is often an alarming carbon footprint associated with training and deploying these models. In this paper, we take a step towards addressing these challenges by introducing BOLT, a sparse deep learning library for training large-scale search and recommendation models on standard CPU hardware. BOLT provides a flexible, high-level API for constructing models that will be familiar to users of existing popular DL frameworks. By automatically tuning specialized hyperparameters, BOLT also abstracts away the algorithmic details of sparse network training. We evaluate BOLT on a number of information retrieval tasks including product recommendations, text classification, graph neural networks, and personalization. We find that our proposed system achieves competitive performance with state-of-the-art techniques at a fraction of the cost and energy consumption and an order-of-magnitude faster inference time. BOLT has also been successfully deployed by multiple businesses to address critical problems, and we highlight one customer case study in the field of e-commerce.
翻訳日:2023-09-13 17:19:30 公開日:2023-09-12
# 多言語大言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages ( http://arxiv.org/abs/2303.13592v4 )

ライセンス: Link先を確認
Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Arjun Subramonian, Holy Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Lintang Sutawika, Jan Christian Blaise Cruz, Yin Lin Tan, Long Phan, Rowena Garcia, Thamar Solorio, Alham Fikri Aji(参考訳) コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。 大規模な言語モデル(llms)が最近普及したことにより,次のような疑問が生まれています。 本稿では,東南アジアの7カ国語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,タミル語,シングリッシュ語)のコードミキシングデータを生成するため,ゼロショット方式で多言語 LLM を作成することを検討する。 BLOOMZ や Flan-T5-XXL のような多言語命令調整モデルでは,異なる言語から句や節を生成できないことがわかった。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示し、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。 例えば、chatgptは英語ベースのクレオール(英語版)でシンガポールで話されている)が、英語とタミル語のペアでは、文法的に不正確または意味的に意味のない発話を生成することが多い。 さらに、プロンプトで指定されていない言語を誤って導入することもできる。 本研究により,既存の多言語 LLM は,SEA 言語用コード混合データ生成の幅広い習熟度を示す。 したがって、この文脈でのLSMの使用は、広範囲の人的チェックを伴わないようアドバイスする。

While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The recent proliferation of Large Language Models (LLMs) compels one to ask: how capable are these systems in generating code-mixed data? In this paper, we explore prompting multilingual LLMs in a zero-shot manner to generate code-mixed data for seven languages in South East Asia (SEA), namely Indonesian, Malay, Chinese, Tagalog, Vietnamese, Tamil, and Singlish. We find that publicly available multilingual instruction-tuned models such as BLOOMZ and Flan-T5-XXL are incapable of producing texts with phrases or clauses from different languages. ChatGPT exhibits inconsistent capabilities in generating code-mixed texts, wherein its performance varies depending on the prompt template and language pairing. For instance, ChatGPT generates fluent and natural Singlish texts (an English-based creole spoken in Singapore), but for English-Tamil language pair, the system mostly produces grammatically incorrect or semantically meaningless utterances. Furthermore, it may erroneously introduce languages not specified in the prompt. Based on our investigation, existing multilingual LLMs exhibit a wide range of proficiency in code-mixed data generation for SEA languages. As such, we advise against using LLMs in this context without extensive human checks.
翻訳日:2023-09-13 17:18:15 公開日:2023-09-12
# rescuespeech: search and rescue domainにおけるドイツ語音声認識コーパス

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain ( http://arxiv.org/abs/2306.04054v2 )

ライセンス: Link先を確認
Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith(参考訳) 近年の音声認識の進歩にもかかわらず、雑音環境や残響環境において、会話音声や感情音声の正確な書き起こしはいまだに困難である。 これは、救助チームメンバー間の会話を翻訳することが、リアルタイムの意思決定をサポートするために不可欠である、検索と救助(SAR)ドメインにおいて、特に課題となる。 SARシナリオにおける音声データの不足と背景雑音により,ロバスト音声認識システムの展開が困難になる。 この問題に対処するため、RescueSpeechというドイツの音声データセットを作成し公開しました。 本データセットは、模擬救助演習からの実際の音声記録を含む。 さらに、競争力のあるトレーニングレシピと事前トレーニングモデルをリリースしました。 我々の研究は、この困難なシナリオにおいて最先端のメソッドによって達成されたパフォーマンスは、まだ許容できるレベルには程遠いことを強調している。

Despite the recent advancements in speech recognition, there are still difficulties in accurately transcribing conversational and emotional speech in noisy and reverberant acoustic environments. This poses a particular challenge in the search and rescue (SAR) domain, where transcribing conversations among rescue team members is crucial to support real-time decision-making. The scarcity of speech data and associated background noise in SAR scenarios make it difficult to deploy robust speech recognition systems. To address this issue, we have created and made publicly available a German speech dataset called RescueSpeech. This dataset includes real speech recordings from simulated rescue exercises. Additionally, we have released competitive training recipes and pre-trained models. Our study highlights that the performance attained by state-of-the-art methods in this challenging scenario is still far from reaching an acceptable level.
翻訳日:2023-09-13 17:11:45 公開日:2023-09-12
# 準静的近似を超えた時間依存ハミルトニアンの量子シミュレーション

Quantum simulations of time-dependent Hamiltonians beyond the quasi-static approximation ( http://arxiv.org/abs/2305.17097v2 )

ライセンス: Link先を確認
Boyuan Shi and Florian Mintert(参考訳) 時間依存量子システムの量子シミュレーションをアナログ化する既存のアプローチは、シミュレーションされるシステムの時間依存に対する摂動的補正に依存している。 摂動的アプローチに対するこの制限を克服し、ラムダ系の教育的例と有限時間におけるクエンチを駆動ハバード系におけるチャーン絶縁体の量子相転移を通じて実現可能な量子シミュレーションの可能性を示す。

Existing approaches to analogue quantum simulations of time-dependent quantum systems rely on perturbative corrections to the time-independence of the systems to be simulated. We overcome this restriction to perturbative approaches and demonstrate the potential of achievable quantum simulations with the pedagogical example of a Lambda-system and the quench in finite time through a quantum phase transition of a Chern insulator in a driven Hubbard system.
翻訳日:2023-09-13 17:11:32 公開日:2023-09-12
# コントラスト学習と深いモジュール化に基づく音声分離

Speech Separation based on Contrastive Learning and Deep Modularization ( http://arxiv.org/abs/2305.10652v3 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 音声分離のための技術ツールの現況は教師付き学習に依存している。 これは、置換問題に対処する必要があることを意味しており、トレーニングや推論で使用する話者数にミスマッチの影響を受けている。 さらに、その性能は高品質なラベル付きデータの存在に大きく依存している。 これらの問題は、完全に教師なしの音声分離技術を用いることで効果的に解決できる。 本稿では,コントラスト学習を用いてフレームの表現を確立し,下流のディープモジュール化タスクで学習表現を使用する。 具体的には、音声分離において、話者の異なるフレームを、その話者の隠れた標準フレームの強化と見なすことができることを実験的に示す。 話者のフレームは、音声分離の鍵となる十分な韻律情報の重複を含む。 そこで本研究では,与えられた話者に属するフレーム間の距離を最小化するために,自己教師付き学習を実現する。 学習された表現は、下流の深いモジュール化タスクで、話者のアイデンティティに基づいたクラスタフレームに使用される。 WSJ0-2mix と WSJ0-3mix において, SI-SNRi と SDRi を 20.8 と 21.0 でそれぞれ達成した。 WSJ0-3mix では、SI-SNRi と SDRi はそれぞれ 20.7 と 20.7 を WSJ0-2mix で得る。 最大の強みは、話者数が増えるにつれて、その性能が著しく低下しないことである。

The current monaural state of the art tools for speech separation relies on supervised learning. This means that they must deal with permutation problem, they are impacted by the mismatch on the number of speakers used in training and inference. Moreover, their performance heavily relies on the presence of high-quality labelled data. These problems can be effectively addressed by employing a fully unsupervised technique for speech separation. In this paper, we use contrastive learning to establish the representations of frames then use the learned representations in the downstream deep modularization task. Concretely, we demonstrate experimentally that in speech separation, different frames of a speaker can be viewed as augmentations of a given hidden standard frame of that speaker. The frames of a speaker contain enough prosodic information overlap which is key in speech separation. Based on this, we implement a self-supervised learning to learn to minimize the distance between frames belonging to a given speaker. The learned representations are used in a downstream deep modularization task to cluster frames based on speaker identity. Evaluation of the developed technique on WSJ0-2mix and WSJ0-3mix shows that the technique attains SI-SNRi and SDRi of 20.8 and 21.0 respectively in WSJ0-2mix. In WSJ0-3mix, it attains SI-SNRi and SDRi of 20.7 and 20.7 respectively in WSJ0-2mix. Its greatest strength being that as the number of speakers increase, its performance does not degrade significantly.
翻訳日:2023-09-13 17:10:55 公開日:2023-09-12
# 深層強化学習を用いた電子健康記録からの診断経路抽出

Extracting Diagnosis Pathways from Electronic Health Records Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.06295v2 )

ライセンス: Link先を確認
Lillian Muyama, Antoine Neuraz and Adrien Coulet(参考訳) 臨床診断ガイドラインは、診断につながるステップを特定することを目的としている。 ガイドラインに着想を得て,電子健康記録から適切な診断を得るために,実行すべき行動の最適なシーケンスを学習することを目的とした。 本課題は,様々な深層強化学習アルゴリズムを応用し,貧血とそのサブタイプを鑑別的に診断する合成的かつ現実的なデータセットを実験し,ノイズや欠如データに対する様々なアプローチの頑健性を評価する。 実験結果から, 深層強化学習アルゴリズムは, 最先端の手法と比較して競争性能が向上し, 提案した診断経路を段階的に生成し, 決定過程をガイドし, 説明することができるという利点が示された。

Clinical diagnosis guidelines aim at specifying the steps that may lead to a diagnosis. Inspired by guidelines, we aim to learn the optimal sequence of actions to perform in order to obtain a correct diagnosis from electronic health records. We apply various deep reinforcement learning algorithms to this task and experiment on a synthetic but realistic dataset to differentially diagnose anemia and its subtypes and particularly evaluate the robustness of various approaches to noise and missing data. Experimental results show that the deep reinforcement learning algorithms show competitive performance compared to the state-of-the-art methods with the added advantage that they enable the progressive generation of a pathway to the suggested diagnosis, which can both guide and explain the decision process.
翻訳日:2023-09-13 17:09:56 公開日:2023-09-12
# アバターフィンガープリントによる音声合成ビデオの利用

Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos ( http://arxiv.org/abs/2305.03713v2 )

ライセンス: Link先を確認
Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo(参考訳) 現代のジェネレータは、ビデオ会議のような新しいユーザー体験を制約付き帯域幅予算で利用し、印象的なフォトリアリズムでトーキングヘッドビデオをレンダリングする。 しかし、彼らの安全な採用には、レンダリングされたビデオが信頼できるかどうかを検証するメカニズムが必要である。 例えば、ビデオ会議では、合成ビデオのポートレートが、同意なしに個人の外観を使用するケースを識別しなければならない。 これをアバターフィンガープリントと呼ぶ。 具体的には、一つのアイデンティティの動作シグネチャがグループ化され、他のアイデンティティのシグネチャから切り離された埋め込みを学習する。 これにより、顔の外観に関わらず、合成ビデオと動画内の表現を駆動するアイデンティティをリンクすることができる。 アバターの指紋認証アルゴリズムは、対話ヘッドジェネレータがよりユビキタスになるにつれて重要になるが、この新しいタスクには大規模なデータセットは存在しない。 そこで,本研究では,台本や即興の短いモノローグを制作する人たちの膨大なデータセットと,他者の顔の表情を用いて映像をレンダリングする合成動画をコントリビュートした。 プロジェクトページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/

Modern generators render talking-head videos with impressive photorealism, ushering in new user experiences such as videoconferencing under constrained bandwidth budgets. Their safe adoption, however, requires a mechanism to verify if the rendered video is trustworthy. For instance, for videoconferencing we must identify cases in which a synthetic video portrait uses the appearance of an individual without their consent. We term this task avatar fingerprinting. Specifically, we learn an embedding in which the motion signatures of one identity are grouped together, and pushed away from those of the other identities. This allows us to link the synthetic video to the identity driving the expressions in the video, regardless of the facial appearance shown. Avatar fingerprinting algorithms will be critical as talking head generators become more ubiquitous, and yet no large scale datasets exist for this new task. Therefore, we contribute a large dataset of people delivering scripted and improvised short monologues, accompanied by synthetic videos in which we render videos of one person using the facial appearance of another. Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
翻訳日:2023-09-13 17:09:41 公開日:2023-09-12
# 量子クエンチ後の安定化エントロピーダイナミクス

Stabilizer entropy dynamics after a quantum quench ( http://arxiv.org/abs/2304.13768v3 )

ライセンス: Link先を確認
Davide Rattacaso, Lorenzo Leone, Salvatore F.E. Oliviero, Alioscia Hamma(参考訳) 安定化器エントロピー(SE)は安定化器資源からの偏差を測定し、量子的優位性の基礎となる要素である。 特に、SEと絡み合いの相互作用は、古典的にシミュレートされた量子多体系の複雑さの根底にある。 本稿では,可積分系における量子クエンチ後の平衡から離れた量子多体系におけるseのダイナミクスについて検討する。 主な結果が2つあります (i)SEは,L-過大量であるにもかかわらず,サブシステムサイズとほぼ線形にスケールする時間に平衡することを示す。 (ii)時間的に線形に増加するse長が相関や絡み合いに類似していることを示す。

Stabilizer entropies (SE) measure deviations from stabilizer resources and as such are a fundamental ingredient for quantum advantage. In particular, the interplay of SE and entanglement is at the root of the complexity of classically simulating quantum many-body systems. In this paper, we study the dynamics of SE in a quantum many-body system away from the equilibrium after a quantum quench in an integrable system. We obtain two main results: (i) we show that SE, despite being an L-extensive quantity, equilibrates in a time that scales at most linearly with the subsystem size; and (ii) we show that there is a SE length increasing linearly in time, akin to correlations and entanglement spreading.
翻訳日:2023-09-13 17:09:19 公開日:2023-09-12
# 可変原子ミラーを用いた非エルミート導波路キャビティQED

Non-Hermitian Waveguide Cavity QED with Tunable Atomic Mirrors ( http://arxiv.org/abs/2304.12897v2 )

ライセンス: Link先を確認
Wei Nie, Tao Shi, Yu-xi Liu, Franco Nori(参考訳) 光鏡は光反射により空洞特性を決定する。 不完全な反射は光子損失を伴う開空洞を引き起こす。 可変反射スペクトルを持つ原子-二量体ミラーからなる開空洞について検討した。 原子空洞は反$\mathcal{PT}$対称性を示す。 鏡内の原子カップリングによって制御される反$\mathcal{PT}$相転移は、2つの退化キャビティスーパーモデムの出現を示す。 興味深いことに、強いコヒーレントな空洞-原子結合を実現するためにミラー反射のしきい値が同定される。 この反射閾値は、良好なキャビティを生み出すために原子鏡の基準を明らかにする。 さらに、プローブ原子を持つキャビティ量子電磁力学は、キャビティとプローブ原子によって形成される反射依存性のポーラリトンを含むミラーチューニング特性を示す。 我々の研究は、反$\mathcal{PT}$原子空洞の非エルミート理論を示し、量子光学や量子計算に応用できるかもしれない。

Optical mirrors determine cavity properties by means of light reflection. Imperfect reflection gives rise to open cavities with photon loss. We study an open cavity made of atom-dimer mirrors with a tunable reflection spectrum. We find that the atomic cavity shows anti-$\mathcal{PT}$ symmetry. The anti-$\mathcal{PT}$ phase transition controlled by atomic couplings in mirrors indicates the emergence of two degenerate cavity supermodes. Interestingly, a threshold of mirror reflection is identified for realizing strong coherent cavity-atom coupling. This reflection threshold reveals the criterion of atomic mirrors to produce a good cavity. Moreover, cavity quantum electrodynamics with a probe atom shows mirror-tuned properties, including reflection-dependent polaritons formed by the cavity and probe atom. Our work presents a non-Hermitian theory of an anti-$\mathcal{PT}$ atomic cavity, which may have applications in quantum optics and quantum computation.
翻訳日:2023-09-13 17:09:09 公開日:2023-09-12
# 拡張への学習: ドメイン一般化セグメンテーションのための幻覚的データ

Learning to Augment: Hallucinating Data for Domain Generalized Segmentation ( http://arxiv.org/abs/2307.01703v2 )

ライセンス: Link先を確認
Qiyu Sun, Pavlo Melnyk, Michael Felsberg, Yang Tang(参考訳) ドメイン一般化セマンティックセグメンテーション(dgss)は必須だが、非常に難しいタスクであり、モデルがソースデータのみに基づいてトレーニングされ、ターゲットデータも利用できない。 既存のDGSSメソッドは主に機能の分散を標準化するか、拡張のために追加のドメインデータを利用する。 しかし、前者は貴重な情報を犠牲にし、後者はドメインバイアスを導入する。 したがって、補助データなしで多彩なソースデータを生成することは魅力的な戦略である。 これを踏まえて,特徴生成器で意味的内容を保存しつつ,特徴マップのスタイライゼーションを行うgan-based feature augmentation (gbfa)を提案する。 GANの印象的な生成能力により、GBFAはエンドツーエンドフレームワークでチャネル間およびトレーニング可能な機能合成を実行することができる。 gbfaの学習を可能にするために、トレーニング中にソースイメージにさまざまなバリエーションを追加するランダム画像色拡張(rica)を導入する。 これらの拡張画像は、GBFAトレーニングに適した特徴を得るために、特徴抽出器に渡される。 GBFAとRICAはいずれもソースドメイン内でのみ動作するため、補助的なデータセットは不要である。 我々は広範な実験を行い,合成gtavとシンセサイアから実際の都市景観,bdd,mapillaryデータセットへの一般化結果から,dgssにおける最先端性能を実現することを示す。

Domain generalized semantic segmentation (DGSS) is an essential but highly challenging task, in which the model is trained only on source data and any target data is not available. Existing DGSS methods primarily standardize the feature distribution or utilize extra domain data for augmentation. However, the former sacrifices valuable information and the latter introduces domain biases. Therefore, generating diverse-style source data without auxiliary data emerges as an attractive strategy. In light of this, we propose GAN-based feature augmentation (GBFA) that hallucinates stylized feature maps while preserving their semantic contents with a feature generator. The impressive generative capability of GANs enables GBFA to perform inter-channel and trainable feature synthesis in an end-to-end framework. To enable learning GBFA, we introduce random image color augmentation (RICA), which adds a diverse range of variations to source images during training. These augmented images are then passed through a feature extractor to obtain features tailored for GBFA training. Both GBFA and RICA operate exclusively within the source domain, eliminating the need for auxiliary datasets. We conduct extensive experiments, and the generalization results from the synthetic GTAV and SYNTHIA to the real Cityscapes, BDDS, and Mapillary datasets show that our method achieves state-of-the-art performance in DGSS.
翻訳日:2023-09-13 17:01:51 公開日:2023-09-12
# probvlm:vison言語モデルに対する確率的アダプタ

ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models ( http://arxiv.org/abs/2307.00398v2 )

ライセンス: Link先を確認
Uddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata(参考訳) CLIPのような大規模視覚言語モデル(VLM)は、画像とテキストの対応を見つけることに成功した。 標準決定論的マッピングプロセスにより、埋め込み空間内の1つのベクトルに画像またはテキストサンプルをマッピングする。 複数のサンプル(画像やテキスト)が物理世界で同じ概念を抽象化できるため、決定論的埋め込みは埋め込み空間に固有の曖昧さを反映しない。 本稿では,大規模データセットや計算を必要とせず,時間外アライメントによる事前学習VLMの埋め込みの確率分布を推定する確率的アダプタProbVLMを提案する。 我々は,COCO,Flickr,CUB,オックスフォードフラワーの4つの挑戦的データセットにおいて,CLIPとBLIPの2つのVLMに対するマルチモーダル埋め込み不確かさを推定し,検索タスクにおける埋め込み不確かさのキャリブレーションを定量化し,ProbVLMが他の手法より優れていることを示す。 さらに,VLMにおける2つの実世界の下流タスクとして,能動的学習とモデル選択を提案する。 最後に,大規模な事前学習潜在拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。 コードはhttps://github.com/ExplainableML/ProbVLMで入手できる。

Large-scale vision-language models (VLMs) like CLIP successfully find correspondences between images and text. Through the standard deterministic mapping process, an image or a text sample is mapped to a single vector in the embedding space. This is problematic: as multiple samples (images or text) can abstract the same concept in the physical world, deterministic embeddings do not reflect the inherent ambiguity in the embedding space. We propose ProbVLM, a probabilistic adapter that estimates probability distributions for the embeddings of pre-trained VLMs via inter/intra-modal alignment in a post-hoc manner without needing large-scale datasets or computing. On four challenging datasets, i.e., COCO, Flickr, CUB, and Oxford-flowers, we estimate the multi-modal embedding uncertainties for two VLMs, i.e., CLIP and BLIP, quantify the calibration of embedding uncertainties in retrieval tasks and show that ProbVLM outperforms other methods. Furthermore, we propose active learning and model selection as two real-world downstream tasks for VLMs and show that the estimated uncertainty aids both tasks. Lastly, we present a novel technique for visualizing the embedding distributions using a large-scale pre-trained latent diffusion model. Code is available at https://github.com/ExplainableML/ProbVLM.
翻訳日:2023-09-13 17:01:27 公開日:2023-09-12
# 線形制約をもつバンディットの純粋探査

Pure Exploration in Bandits with Linear Constraints ( http://arxiv.org/abs/2306.12774v3 )

ライセンス: Link先を確認
Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi(参考訳) 我々は,多腕バンディット設定における最適ポリシーを一定の信頼度で識別する問題に, 'emph{the arms' が線形制約を受ける際に対処する。 良く研究されている標準的な最良の腕識別問題とは異なり、この場合の最適方針は決定論的ではなく、複数の腕の間で混合することができる。 これは、情報理論の下界によって特徴づけられる問題の幾何学を変える。 本稿では,この設定に対して,トラック・アンド・ストップ法とゲーム理論に基づく2つの漸近的最適アルゴリズムを提案する。 これらのアルゴリズムは、下界に基づいて最適な割り当てを追跡し、通常の円錐の境界への重み付き投影によって計算する。 最後に,限界を検証し,制約が問題の硬さを変える様子を可視化する実験結果を提供する。

We address the problem of identifying the optimal policy with a fixed confidence level in a multi-armed bandit setup, when \emph{the arms are subject to linear constraints}. Unlike the standard best-arm identification problem which is well studied, the optimal policy in this case may not be deterministic and could mix between several arms. This changes the geometry of the problem which we characterize via an information-theoretic lower bound. We introduce two asymptotically optimal algorithms for this setting, one based on the Track-and-Stop method and the other based on a game-theoretic approach. Both these algorithms try to track an optimal allocation based on the lower bound and computed by a weighted projection onto the boundary of a normal cone. Finally, we provide empirical results that validate our bounds and visualize how constraints change the hardness of the problem.
翻訳日:2023-09-13 17:00:43 公開日:2023-09-12
# デバイス上でのトレーニングメモリウォールの破壊:システム的調査

Breaking On-device Training Memory Wall: A Systematic Survey ( http://arxiv.org/abs/2306.10388v2 )

ライセンス: Link先を確認
Shitian Li and Chunlin Tian and Kahou Tam and Rui Ma and Li Li(参考訳) デバイス上でのトレーニングは、マシンラーニングに対する一般的なアプローチとなり、モデルをモバイルやエッジデバイスで直接トレーニングすることが可能になっている。 しかしながら、この領域における大きな課題は、これらのデバイスで利用可能なメモリの制限であり、トレーニング可能なモデルのサイズと複雑さを厳しく制限することができる。 本稿では,デバイス上でのメモリウォールの破壊に関する最新の技術を探究し,リソース制約のあるデバイスで大規模で複雑なモデルをトレーニングできる手法に注目した。 具体的には,デバイス上でのトレーニング中に発生するメモリ壁の現象に寄与する重要な要因を最初に分析する。 次に、メモリ制限の問題に対処するオンデバイストレーニングに関する総合的な文献レビューを示す。 最後に、デバイス上でのトレーニングを要約し、今後の研究におけるオープンな問題を強調する。 これらの技術の概要とメモリウォールの破壊効果を概観することにより、この分野の研究者や実践者がデバイス上でのトレーニングの急速な発展の展望をナビゲートしたいと考えている。

On-device training has become an increasingly popular approach to machine learning, enabling models to be trained directly on mobile and edge devices. However, a major challenge in this area is the limited memory available on these devices, which can severely restrict the size and complexity of the models that can be trained. In this systematic survey, we aim to explore the current state-of-the-art techniques for breaking on-device training memory walls, focusing on methods that can enable larger and more complex models to be trained on resource-constrained devices. Specifically, we first analyze the key factors that contribute to the phenomenon of memory walls encountered during on-device training. Then, we present a comprehensive literature review of on-device training, which addresses the issue of memory limitations. Finally, we summarize on-device training and highlight the open problems for future research. By providing a comprehensive overview of these techniques and their effectiveness in breaking memory walls, we hope to help researchers and practitioners in this field navigate the rapidly evolving landscape of on-device training.
翻訳日:2023-09-13 17:00:18 公開日:2023-09-12
# 医用画像解析のための連合学習:調査

Federated Learning for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2306.05980v3 )

ライセンス: Link先を確認
Hao Guan, Pew-Thian Yap, Andrea Bozoki, Mingxia Liu(参考訳) 医療画像における機械学習は、しばしば基本的なジレンマ、すなわち小さなサンプルサイズ問題に直面している。 最近の多くの研究は、異なる取得サイトやデータセットからプールされたマルチドメインデータを用いて、統計力を改善することを示唆している。 しかし、プライバシー保護の理由から、異なるサイトからの医療画像を簡単に共有することはできず、モデルトレーニング用の大規模なデータセットを構築することができる。 有望なソリューションとして,複数サイト間のデータ共有を必要とせず,異なるサイトのデータに基づく機械学習モデルの協調学習を可能にするフェデレーション学習が注目されている。 本稿では,医療画像解析におけるフェデレート学習手法の最近の開発について,総合的な調査を行う。 まず,医療画像におけるプライバシー保護と協調学習問題に対する連合学習の背景とモチベーションについて紹介する。 次に、医用画像解析のための連合学習手法の最近の進歩を概観する。 具体的には、クライアントエンド、サーバエンド、通信技術を含む連合学習システムの3つの重要な側面に基づいて、既存の手法を分類する。 各カテゴリにおいて、医用画像解析における特定の研究課題に応じて既存の連合学習手法を要約し、異なるアプローチのモチベーションに関する洞察を提供する。 さらに,現状の連合学習研究のための既存のベンチマーク医用画像データセットとソフトウェアプラットフォームについてレビューする。 また,医療画像解析のための典型的な連合学習法を実証的に評価する実験を行った。 この調査は、この有望な研究分野における現在の研究状況、課題、潜在的研究機会の理解を深める助けとなる。

Machine learning in medical imaging often faces a fundamental dilemma, namely the small sample size problem. Many recent studies suggest using multi-domain data pooled from different acquisition sites/datasets to improve statistical power. However, medical images from different sites cannot be easily shared to build large datasets for model training due to privacy protection reasons. As a promising solution, federated learning, which enables collaborative training of machine learning models based on data from different sites without cross-site data sharing, has attracted considerable attention recently. In this paper, we conduct a comprehensive survey of the recent development of federated learning methods in medical image analysis. We first introduce the background and motivation of federated learning for dealing with privacy protection and collaborative learning issues in medical imaging. We then present a comprehensive review of recent advances in federated learning methods for medical image analysis. Specifically, existing methods are categorized based on three critical aspects of a federated learning system, including client end, server end, and communication techniques. In each category, we summarize the existing federated learning methods according to specific research problems in medical image analysis and also provide insights into the motivations of different approaches. In addition, we provide a review of existing benchmark medical imaging datasets and software platforms for current federated learning research. We also conduct an experimental study to empirically evaluate typical federated learning methods for medical image analysis. This survey can help to better understand the current research status, challenges and potential research opportunities in this promising research field.
翻訳日:2023-09-13 16:59:09 公開日:2023-09-12
# あらゆるものを一度に追跡する

Tracking Everything Everywhere All at Once ( http://arxiv.org/abs/2306.05422v2 )

ライセンス: Link先を確認
Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely(参考訳) ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。 従来の光学フローまたは粒子ビデオ追跡アルゴリズムは、通常、限られた時間窓内で動作し、オクルージョンを追尾し、推定された運動軌跡のグローバルな一貫性を維持するのに苦労する。 ビデオ中の全画素の正確な全長モーション推定を可能にする,omnimotionと呼ばれる完全かつグローバルに一貫したモーション表現を提案する。 OmniMotionは、準3Dカノニカルボリュームを使用して動画を表現し、局所空間とカノニカル空間の間の複射によるピクセルワイドトラッキングを行う。 この表現は、グローバルに一貫性を確保し、オクルージョンを追跡し、カメラとオブジェクトの動きの組み合わせをモデル化できます。 TAP-Vidベンチマークと実世界の映像の大規模な評価は、我々の手法が従来の最先端手法よりも定量的にも質的にも優れていることを示している。 さらなる結果については、プロジェクトページを参照してください。

We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
翻訳日:2023-09-13 16:58:45 公開日:2023-09-12
# 医用画像登録における深層学習に関する調査:新しい技術、不確実性、評価指標など

A survey on deep learning in medical image registration: new technologies, uncertainty, evaluation metrics, and beyond ( http://arxiv.org/abs/2307.15615v2 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Shuwen Wei, Zhangxing Bian, Shalini Subramanian, Aaron Carass, Jerry L. Prince, Yong Du(参考訳) 深層学習技術は、過去10年間に医療画像登録の分野を劇的に変えてきた。 resnetベースのネットワークやu-netベースのネットワークといった初期の開発は、画像登録におけるディープラーニングの基礎を築いた。 その後、類似度測定、変形正則化、不確実性推定など、深層学習に基づく登録の様々な面で進展が見られた。 これらの進歩は、画像登録の分野を豊かにしただけでなく、アトラス構築、マルチアトラスセグメンテーション、モーション推定、および2D-3D登録など、幅広いタスクにも応用した。 本稿では,ディープラーニングに基づく画像登録の最近の進歩を総合的に概観する。 まず、深層学習に基づく画像登録のコアコンセプトの簡潔な紹介から始める。 次に,革新的なネットワークアーキテクチャ,登録に特有の損失関数,登録の不確かさを推定する手法について考察する。 さらに,登録タスクにおけるディープラーニングモデルの性能を評価するための適切な評価指標について検討する。 最後に,これらの新しい医療画像技術の実践的応用を強調し,深層学習に基づく画像登録の今後の展望について考察する。

Deep learning technologies have dramatically reshaped the field of medical image registration over the past decade. The initial developments, such as ResNet-based and U-Net-based networks, established the foundation for deep learning in image registration. Subsequent progress has been made in various aspects of deep learning-based registration, including similarity measures, deformation regularizations, and uncertainty estimation. These advancements have not only enriched the field of image registration but have also facilitated its application in a wide range of tasks, including atlas construction, multi-atlas segmentation, motion estimation, and 2D-3D registration. In this paper, we present a comprehensive overview of the most recent advancements in deep learning-based image registration. We begin with a concise introduction to the core concepts of deep learning-based image registration. Then, we delve into innovative network architectures, loss functions specific to registration, and methods for estimating registration uncertainty. Additionally, this paper explores appropriate evaluation metrics for assessing the performance of deep learning models in registration tasks. Finally, we highlight the practical applications of these novel techniques in medical imaging and discuss the future prospects of deep learning-based image registration.
翻訳日:2023-09-13 16:52:19 公開日:2023-09-12
# インテリジェントリモートセンシング画像品質検査システム

An Intelligent Remote Sensing Image Quality Inspection System ( http://arxiv.org/abs/2307.11965v2 )

ライセンス: Link先を確認
Yijiong Yu, Tao Wang, Kang Ran, Chang Li and Hao Wu(参考訳) 品質問題の存在が避けられないため、リモートセンシング画像の品質検査は、リモートセンシング画像の取得と適用の間には必然的なステップである。 しかし、従来の手動検査は低効率である。 そこで我々は,まず画像分類を行い,次にセマンティックセグメンテーションなどの最も適切な手法を用いて品質問題をローカライズする,複数の先進的なコンピュータビジョンモデルからなる,新しい深層学習ベースの2段階知能システムを提案する。 その結果,提案手法は従来の手法よりも優れた性能と効率性を示した。 さらに,リモートセンシング画像品質検査にマルチモーダルモデルを適用した最初の調査を行った。

Due to the inevitable presence of quality problems, remote sensing image quality inspection is indeed an indispensable step between the acquisition and the application of remote sensing images. However, traditional manual inspection suffers from low efficiency. Hence, we propose a novel deep learning-based two-step intelligent system consisting of multiple advanced computer vision models, which first performs image classification and then accordingly adopts the most appropriate method, such as semantic segmentation, to localize the quality problems. Results demonstrate that the proposed method exhibits excellent performance and efficiency, surpassing traditional methods. Furthermore, we conduct an initial exploration of applying multimodal models to remote sensing image quality inspection.
翻訳日:2023-09-13 16:51:21 公開日:2023-09-12
# TwinLiteNet:自動運転車における走行可能エリアとレーンセグメンテーションのための効率的軽量モデル

TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars ( http://arxiv.org/abs/2307.10705v4 )

ライセンス: Link先を確認
Quang Huy Che and Dinh Phuc Nguyen and Minh Quan Pham and Duc Khai Lam(参考訳) セマンティックセグメンテーションは、周囲の環境を理解するための自律運転において一般的な課題である。 運転可能なエリアセグメンテーションとレーン検出は、道路上の安全かつ効率的なナビゲーションに特に重要である。 しかし、オリジナルのセマンティクスセグメンテーションモデルは計算コストが高く、ハイエンドハードウェアを必要とするため、自動運転車の組み込みシステムでは実現不可能である。 本稿では,運転可能領域と車線区分の軽量モデルを提案する。 TwinLiteNetは安価に設計されているが、正確で効率的なセグメンテーション結果が得られる。 bdd100kデータセット上でtwinlitenetを評価し,現代的なモデルと比較する。 実験の結果,twinlitenetは既存の手法と同様に動作し,計算資源が大幅に少ないことがわかった。 具体的には、twinlitenet はdrivable area task の91.3%、レーン検出タスクの31.08% iou を 0.4 million のパラメータで達成し、gpu rtx a5000 で 415 fps を達成した。 さらにtwinlitenetは、jetson xavier nxで60fpsを達成したため、計算能力に制限のある組み込みデバイス上でリアルタイムに動作し、自動運転車にとって理想的なソリューションとなる。 コードは url{https://github.com/chequanghuy/TwinLiteNet} で入手できる。

Semantic segmentation is a common task in autonomous driving to understand the surrounding environment. Driveable Area Segmentation and Lane Detection are particularly important for safe and efficient navigation on the road. However, original semantic segmentation models are computationally expensive and require high-end hardware, which is not feasible for embedded systems in autonomous vehicles. This paper proposes a lightweight model for the driveable area and lane line segmentation. TwinLiteNet is designed cheaply but achieves accurate and efficient segmentation results. We evaluate TwinLiteNet on the BDD100K dataset and compare it with modern models. Experimental results show that our TwinLiteNet performs similarly to existing approaches, requiring significantly fewer computational resources. Specifically, TwinLiteNet achieves a mIoU score of 91.3% for the Drivable Area task and 31.08% IoU for the Lane Detection task with only 0.4 million parameters and achieves 415 FPS on GPU RTX A5000. Furthermore, TwinLiteNet can run in real-time on embedded devices with limited computing power, especially since it achieves 60FPS on Jetson Xavier NX, making it an ideal solution for self-driving vehicles. Code is available: url{https://github.com/chequanghuy/TwinLiteNet}.
翻訳日:2023-09-13 16:51:12 公開日:2023-09-12
# ペナルティ化およびしきい値化推定におけるパターン回復とその形状

Pattern Recovery in Penalized and Thresholded Estimation and its Geometry ( http://arxiv.org/abs/2307.10158v2 )

ライセンス: Link先を確認
Piotr Graczyk, Ulrike Schneider, Tomasz Skalski, Patrick Tardivel(参考訳) ペナルティ項が実数値多面体ゲージによって与えられるペナルティ化推定の枠組みについて考察し,lasso(および一般化lassoなどの多くの変種を含む),slide,osos,pacsなどの手法について考察する。 これらの推定子は、未知のパラメータベクトルの異なる構造や 'パターン' を明らかにすることができる。 我々は,部分微分に基づくパターンの一般概念を定義し,その複雑性を測るアプローチを定式化する。 パターン回復のためには,正の確率で検出すべき特定のパターン,いわゆるアクセシビリティ条件を最小限に設定する。 また,本手法を用いて,より強いノイズレス回復条件を導入する。 LASSOの場合,1/2$以上の確率でパターン復元を行うためには非表現性条件が必要であることがよく知られており,ノイズのない回復が全く同じ役割を果たすことを示し,それによってLASSOの不表現性条件を広範囲のペナル化推定器に拡張・統一する。 我々は、閾値付きペナル化推定器に切り替えると、ノイズレス回復条件が緩和され、しきい値付きLASSOの概念が拡張されることを示し、そのパターンの信号が十分に大きいことを条件として、閾値付きペナル化推定によるパターン回復が確実であることを示す。 論文全体を通して、我々の発見が幾何学的レンズを通してどのように解釈できるかを実証する。

We consider the framework of penalized estimation where the penalty term is given by a real-valued polyhedral gauge, which encompasses methods such as LASSO (and many variants thereof such as the generalized LASSO), SLOPE, OSCAR, PACS and others. Each of these estimators can uncover a different structure or ``pattern'' of the unknown parameter vector. We define a general notion of patterns based on subdifferentials and formalize an approach to measure their complexity. For pattern recovery, we provide a minimal condition for a particular pattern to be detected by the procedure with positive probability, the so-called accessibility condition. Using our approach, we also introduce the stronger noiseless recovery condition. For the LASSO, it is well known that the irrepresentability condition is necessary for pattern recovery with probability larger than $1/2$ and we show that the noiseless recovery plays exactly the same role, thereby extending and unifying the irrepresentability condition of the LASSO to a broad class of penalized estimators. We show that the noiseless recovery condition can be relaxed when turning to thresholded penalized estimators, extending the idea of the thresholded LASSO: we prove that the accessibility condition is already sufficient (and necessary) for sure pattern recovery by thresholded penalized estimation provided that the signal of the pattern is large enough. Throughout the article, we demonstrate how our findings can be interpreted through a geometrical lens.
翻訳日:2023-09-13 16:50:50 公開日:2023-09-12
# 昼頭市場における仮想発電所の戦略的入札のための安全強化学習

Safe Reinforcement Learning for Strategic Bidding of Virtual Power Plants in Day-Ahead Markets ( http://arxiv.org/abs/2307.05812v2 )

ライセンス: Link先を確認
Ognjen Stanojev, Lesia Mitridati, Riccardo de Nardis di Prata, Gabriela Hug(参考訳) 本稿では,電力市場における仮想発電プラント(vpps)の戦略的入札のための安全強化学習アルゴリズムを提案する。 提案アルゴリズムは,Deep Deterministic Policy Gradient (DDPG) 法を用いて,正確な市場モデルを必要としない競争入札政策を学習する。 さらに,vppsの複雑な内部物理的制約を考慮し,ddpg法の2つの拡張を導入する。 第一に、エージェントの動作を非線形の電力フロー方程式と分散エネルギー資源の運転制約によって定義される実現可能な空間に制限するプロジェクションベースの安全シールドを導出する。 次に、より安全なポリシーを学ぶためにエージェントにインセンティブを与える報酬機能におけるシールドアクティベーションに対するペナルティを導入する。 IEEE 13バスネットワークに基づくケーススタディでは、エージェントが高度に競争力のある安全な戦略方針を学習できるようにするための提案手法の有効性が示されている。

This paper presents a novel safe reinforcement learning algorithm for strategic bidding of Virtual Power Plants (VPPs) in day-ahead electricity markets. The proposed algorithm utilizes the Deep Deterministic Policy Gradient (DDPG) method to learn competitive bidding policies without requiring an accurate market model. Furthermore, to account for the complex internal physical constraints of VPPs we introduce two enhancements to the DDPG method. Firstly, a projection-based safety shield that restricts the agent's actions to the feasible space defined by the non-linear power flow equations and operating constraints of distributed energy resources is derived. Secondly, a penalty for the shield activation in the reward function that incentivizes the agent to learn a safer policy is introduced. A case study based on the IEEE 13-bus network demonstrates the effectiveness of the proposed approach in enabling the agent to learn a highly competitive, safe strategic policy.
翻訳日:2023-09-13 16:50:23 公開日:2023-09-12
# 年齢推定のための評価手法を振り返る--最新技術と統一ベンチマークの比較分析

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark ( http://arxiv.org/abs/2307.04570v2 )

ライセンス: Link先を確認
Jakub Paplham and Vojtech Franc(参考訳) 異なる年齢推定法を比較することは、ベンチマークプロセスの不整合に起因する結果の信頼性の欠如による課題となる。 過去10年間に専門的な手法を用いて連続的なパフォーマンス改善を報告してきたが、これらの主張に異議を唱えた。 本稿では,現在使用されている評価プロトコルの2つの自明だが永続的な問題を特定し,その解決法について述べる。 評価プロトコルを詳細に記述し、そのプロトコルの使用方法について具体例を示す。 本プロトコルを用いて,最先端顔年齢推定手法の広範な比較分析を行う。 驚くべきことに、これらの手法のパフォーマンスの違いは、顔のアライメント、顔のカバレッジ、画像の解像度、モデルアーキテクチャ、事前トレーニングに使用するデータ量など、他の要因の影響と比較して無視できる。 得られた知見を用いて、FaRLをバックボーンモデルとして使用し、その効率性を実証する。 その結果、信頼性と意味のある比較のための一貫性のあるデータ前処理プラクティスの重要性を強調した。 ソースコードはhttps://github.com/paplhjak/Facial-Age-Estimation-Benchmarkで公開しています。

Comparing different age estimation methods poses a challenge due to the unreliability of published results stemming from inconsistencies in the benchmarking process. Previous studies have reported continuous performance improvements over the past decade using specialized methods; however, our findings challenge these claims. This paper identifies two trivial, yet persistent issues with the currently used evaluation protocol and describes how to resolve them. We describe our evaluation protocol in detail and provide specific examples of how the protocol should be used. We utilize the protocol to offer an extensive comparative analysis for state-of-the-art facial age estimation methods. Surprisingly, we find that the performance differences between the methods are negligible compared to the effect of other factors, such as facial alignment, facial coverage, image resolution, model architecture, or the amount of data used for pretraining. We use the gained insights to propose using FaRL as the backbone model and demonstrate its efficiency. The results emphasize the importance of consistent data preprocessing practices for reliable and meaningful comparisons. We make our source code public at https://github.com/paplhjak/Facial-Age-Estimation-Benchmark.
翻訳日:2023-09-13 16:50:07 公開日:2023-09-12
# 3次元シミュレーションアンサンブルにおける統計依存性のインタラクティブ可視化のためのニューラルフィールド

Neural Fields for Interactive Visualization of Statistical Dependencies in 3D Simulation Ensembles ( http://arxiv.org/abs/2307.02203v4 )

ライセンス: Link先を確認
Fatemeh Farokhmanesh, Kevin H\"ohlein, Christoph Neuhauser, and R\"udiger Westermann(参考訳) 大規模な3次元シミュレーションアンサンブルにおいて,物理変数の値間の統計的依存関係をコンパクトに表現し,効率的に再構築することのできる,最初のニューラルネットワークを提案する。 線形依存を超えて、我々は相互情報を非線形依存の尺度とみなす。 我々は,複数の物理変数を250 x 352 x 20シミュレーショングリッドに格納した,1000人からなる大天気予報アンサンブルを用いて,学習と再構築を実証する。 計算集約型統計推定器を実行時に回避することにより、主要な依存構造を再構築するためのメモリと計算要求を著しく低減することを示した。 これにより、etimatorをgpuによる直接ボリュームレンダラに組み込み、選択したドメインポイントに対するすべての相互依存関係をインタラクティブに可視化することができる。

We present the first neural network that has learned to compactly represent and can efficiently reconstruct the statistical dependencies between the values of physical variables at different spatial locations in large 3D simulation ensembles. Going beyond linear dependencies, we consider mutual information as a measure of non-linear dependence. We demonstrate learning and reconstruction with a large weather forecast ensemble comprising 1000 members, each storing multiple physical variables at a 250 x 352 x 20 simulation grid. By circumventing compute-intensive statistical estimators at runtime, we demonstrate significantly reduced memory and computation requirements for reconstructing the major dependence structures. This enables embedding the estimator into a GPU-accelerated direct volume renderer and interactively visualizing all mutual dependencies for a selected domain point.
翻訳日:2023-09-13 16:49:21 公開日:2023-09-12
# ホロデッキ型シミュレーションゲームに向けて

Towards a Holodeck-style Simulation Game ( http://arxiv.org/abs/2308.13548v2 )

ライセンス: Link先を確認
Ahad Shams, Douglas Summers-Stay, Arpan Tripathi, Vsevolod Metelsky, Alexandros Titonis, Karan Malhotra(参考訳) Infinitiaは、再生時に生成画像と言語モデルを用いて、プレイヤーからの短い説明に基づいて設定とNPCの全ての側面を再構成するシミュレーションゲームシステムである。 生成エージェント(Generative Agents)論文のアイデアを生かした本システムでは,無限生成ファンタジーワールド,NPC行動の制御性,ユーモラス対話,コストと時間効率,プレイヤー間のコラボレーション,ゲーム内イベント間の非決定性要素などのゲームプレイ要素を導入している。 InfinitiaはサーバベースのアーキテクチャでUnityエンジンに実装されており、将来はコミュニティ開発者によるエキサイティングな機能追加を促進する。 さらに、マルチプレイヤーフレームワークを使用して、シミュレーションに人間が参加し、相互作用できるようにする。 シミュレーションは、https://infinitia.ai/で間もなくオープンソースとして公開される予定だ。

We introduce Infinitia, a simulation game system that uses generative image and language models at play time to reshape all aspects of the setting and NPCs based on a short description from the player, in a way similar to how settings are created on the fictional Holodeck. Building off the ideas of the Generative Agents paper, our system introduces gameplay elements, such as infinite generated fantasy worlds, controllability of NPC behavior, humorous dialogue, cost & time efficiency, collaboration between players and elements of non-determinism among in-game events. Infinitia is implemented in the Unity engine with a server-client architecture, facilitating the addition of exciting features by community developers in the future. Furthermore, it uses a multiplayer framework to allow humans to be present and interact in the simulation. The simulation will be available in open-alpha shortly at https://infinitia.ai/ and we are looking forward to building upon it with the community.
翻訳日:2023-09-13 16:41:16 公開日:2023-09-12
# 等変拡散モデルによる形状条件付き3次元分子生成

Shape-conditioned 3D Molecule Generation via Equivariant Diffusion Models ( http://arxiv.org/abs/2308.11890v2 )

ライセンス: Link先を確認
Ziqi Chen, Bo Peng, Srinivasan Parthasarathy, Xia Ning(参考訳) リガンドベースの薬物設計は、既知の活性分子と類似した形状の新しい薬物候補を特定することを目的としている。 本稿では, シリカ形状条件分子生成問題を定式化し, 与えられた分子の形状を条件とした3次元分子構造を生成する。 この問題に対処するために, 変換および回転同変形状誘導生成モデル shapemol を開発した。 ShapeMolは、分子表面形状を潜在埋め込みにマッピングする同変形状エンコーダと、これらの埋め込みに基づいて3次元分子を生成する同変拡散モデルからなる。 実験の結果、shapemolは、与えられた形状条件に類似した3d分子形状を保持する、新しい多様な薬物様分子を生成できることが示されている。 これらの結果は、タンパク質標的ポケットに結合する所望の3d形状の薬物候補の設計におけるshapemolの可能性を示している。

Ligand-based drug design aims to identify novel drug candidates of similar shapes with known active molecules. In this paper, we formulated an in silico shape-conditioned molecule generation problem to generate 3D molecule structures conditioned on the shape of a given molecule. To address this problem, we developed a translation- and rotation-equivariant shape-guided generative model ShapeMol. ShapeMol consists of an equivariant shape encoder that maps molecular surface shapes into latent embeddings, and an equivariant diffusion model that generates 3D molecules based on these embeddings. Experimental results show that ShapeMol can generate novel, diverse, drug-like molecules that retain 3D molecular shapes similar to the given shape condition. These results demonstrate the potential of ShapeMol in designing drug candidates of desired 3D shapes binding to protein target pockets.
翻訳日:2023-09-13 16:40:58 公開日:2023-09-12
# ソフトウェア工学のための大規模言語モデル:体系的文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v4 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学(se)を含む多くのドメインに大きな影響を与えてきた。 最近の多くの出版物は様々なSEタスクに適用されたLSMを探索している。 それでも、SE 上の LLM の応用、効果、および可能な制限に関する包括的な理解はまだ初期段階にある。 このギャップを埋めるために,我々は LLM4SE の体系的な文献レビューを行い,プロセスと成果を最適化するために LLM をどのように活用できるかを理解することに焦点をあてた。 我々は2017年から2023年までの229の研究論文を収集し分析し、4つの重要な研究質問(RQ)に答える。 RQ1では、SEタスクに採用された異なるLLMを分類し、その特徴と用途を特徴付ける。 RQ2では、データ収集、前処理、アプリケーションで使われる手法を分析し、SE 実装における LLM を成功させるために、よく計算されたデータセットの役割を強調します。 RQ3 では,SE における LLM の性能を最適化し,評価するための戦略について検討している。 最後に、RQ4は、LLMがこれまで成功してきた特定のSEタスクを調べ、その分野への実践的な貢献を説明する。 これらのRQに対する回答から、現状とトレンド、既存の研究のギャップの特定、今後の研究に期待できる領域のフラグ付けなどについて議論する。

Large Language Models (LLMs) have significantly impacted numerous domains, including Software Engineering (SE). Many recent publications have explored LLMs applied to various SE tasks. Nevertheless, a comprehensive understanding of the application, effects, and possible limitations of LLMs on SE is still in its early stages. To bridge this gap, we conducted a systematic literature review on LLM4SE, with a particular focus on understanding how LLMs can be exploited to optimize processes and outcomes. We collect and analyze 229 research papers from 2017 to 2023 to answer four key research questions (RQs). In RQ1, we categorize different LLMs that have been employed in SE tasks, characterizing their distinctive features and uses. In RQ2, we analyze the methods used in data collection, preprocessing, and application highlighting the role of well-curated datasets for successful LLM for SE implementation. RQ3 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE. Finally, RQ4 examines the specific SE tasks where LLMs have shown success to date, illustrating their practical contributions to the field. From the answers to these RQs, we discuss the current state-of-the-art and trends, identifying gaps in existing research, and flagging promising areas for future study.
翻訳日:2023-09-13 16:40:43 公開日:2023-09-12
# ThermRad: 混在条件下でのロバスト3次元物体検出のためのマルチモーダルデータセット

ThermRad: A Multi-modal Dataset for Robust 3D Object Detection under Challenging Conditions ( http://arxiv.org/abs/2308.10161v3 )

ライセンス: Link先を確認
Qiao Yan, Yihan Wang(参考訳) 極度の天候と照明条件下でのロバストな3D物体検出は難しい課題である。 レーダーとサーマルカメラはこれらの条件に対する弾力性で知られているが、対応するデータセットがないため、レーダー熱融合の研究はほとんど行われていない。 このギャップに対処するために、まず3D LiDAR、4Dレーダー、RGBカメラ、サーマルカメラを含む、ThermRadと呼ばれる新しいマルチモーダルデータセットを提示する。 このデータセットは、極度の気象条件下で4つのセンサー全てからのデータを含んでいるため、この領域における将来の研究に貴重なリソースを提供する。 そこで本研究では, RTDF-RCNNと呼ばれる, 4次元レーダとサーマルカメラの相補的強度を利用して, 物体検出性能を向上させるマルチモーダル融合法を提案する。 提案手法の有効性をさらに証明するため, 評価のためのベンチマークとして, データセット上にSOTA(State-of-the-art)3D検出器を再実装した。 提案手法は,車,歩行者,自転車の検知において,それぞれ7.98%,24.27%,27.15%以上の改善を達成し,LiDARによるアプローチと同等の結果を得た。 ThermRadデータセットと新しいマルチモーダル融合法への我々の貢献は、悪天候や照明条件下での堅牢な3次元物体検出に新しいアプローチを提供する。 ThermRadデータセットがリリースされる。

Robust 3D object detection in extreme weather and illumination conditions is a challenging task. While radars and thermal cameras are known for their resilience to these conditions, few studies have been conducted on radar-thermal fusion due to the lack of corresponding datasets. To address this gap, we first present a new multi-modal dataset called ThermRad, which includes a 3D LiDAR, a 4D radar, an RGB camera and a thermal camera. This dataset is unique because it includes data from all four sensors in extreme weather conditions, providing a valuable resource for future research in this area. To validate the robustness of 4D radars and thermal cameras for 3D object detection in challenging weather conditions, we propose a new multi-modal fusion method called RTDF-RCNN, which leverages the complementary strengths of 4D radars and thermal cameras to boost object detection performance. To further prove the effectiveness of our proposed framework, we re-implement state-of-the-art (SOTA) 3D detectors on our dataset as benchmarks for evaluation. Our method achieves significant enhancements in detecting cars, pedestrians, and cyclists, with improvements of over 7.98%, 24.27%, and 27.15%, respectively, while achieving comparable results to LiDAR-based approaches. Our contributions in both the ThermRad dataset and the new multi-modal fusion method provide a new approach to robust 3D object detection in adverse weather and illumination conditions. The ThermRad dataset will be released.
翻訳日:2023-09-13 16:40:21 公開日:2023-09-12
# 教師に適応する: 模範のない連続学習のための知識蒸留の改善

Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free Continual Learning ( http://arxiv.org/abs/2308.09544v2 )

ライセンス: Link先を確認
Filip Szatkowski, Mateusz Pyla, Marcin Przewi\k{e}\'zlikowski, Sebastian Cygert, Bart{\l}omiej Twardowski, Tomasz Trzci\'nski(参考訳) 本研究では, 知識蒸留(KD)を正規化戦略とし, 忘れることの防止を目的とした, 模範的自由クラスインクリメンタルラーニング(CIL)について検討する。 KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。 分析の結果,この問題は教師ネットワークにおける配布外データを扱う場合の表現変化に起因していることがわかった。 これにより、KD損失成分に大きなエラーが発生し、CILモデルのパフォーマンスが低下する。 近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。 提案手法は KD ベースの CIL アプローチとシームレスに統合し,その性能を複数の例のない CIL ベンチマークで一貫した向上を可能にする。

In this work, we investigate exemplar-free class incremental learning (CIL) with knowledge distillation (KD) as a regularization strategy, aiming to prevent forgetting. KD-based methods are successfully used in CIL, but they often struggle to regularize the model without access to exemplars of the training data from previous tasks. Our analysis reveals that this issue originates from substantial representation shifts in the teacher network when dealing with out-of-distribution data. This causes large errors in the KD loss component, leading to performance degradation in CIL models. Inspired by recent test-time adaptation methods, we introduce Teacher Adaptation (TA), a method that concurrently updates the teacher and the main models during incremental training. Our method seamlessly integrates with KD-based CIL approaches and allows for consistent enhancement of their performance across multiple exemplar-free CIL benchmarks.
翻訳日:2023-09-13 16:39:55 公開日:2023-09-12
# フレームレート非感受性マルチオブジェクトトラッキングのための協調トラッキング学習

Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object Tracking ( http://arxiv.org/abs/2308.05911v2 )

ライセンス: Link先を確認
Yiheng Liu, Junta Wu, Yi Fu(参考訳) 低フレームレートのマルチオブジェクトトラッキング(MOT)は、エッジデバイスの制約を満たすため、計算、ストレージ、電力オーバーヘッドを低減することができる。 既存のMOT法の多くは、隣接フレーム間の位置や外観の変化により、低フレームレートビデオの性能が著しく低下する。 そこで本研究では,コラボレーティブ・トラッキング・ラーニング(ColTrack)によるフレームレート非感受性MOTの問合せに基づくエンドツーエンド手法を提案する。 同じターゲットの複数の履歴クエリが、よりリッチな時間記述でそれを共同で追跡する。 一方,2つの時間的ブロッキングデコーダ間で情報リファインメントモジュールを挿入し,時間的手がかりの融合と特徴の洗練を図る。 さらに,過去のクエリ間のインタラクションを導くために,オブジェクト一貫性の損失を追跡する手法を提案する。 広範な実験結果から,高フレームレートビデオでは,大規模データセットのdancetrackやbdd100kにおいて,coltrackが最先端のメソッドよりも高いパフォーマンスを得られ,既存のmot17のエンドツーエンドメソッドよりも優れていることが示されている。 さらに重要なことに、coltrackは低フレームレートビデオにおける最先端のメソッドよりも大きなアドバンテージがあり、高いパフォーマンスを維持しながらフレームレート要件を削減し、より高速な処理速度を得ることができる。 コードはhttps://github.com/yolomax/ColTrackでリリースされる。

Multi-object tracking (MOT) at low frame rates can reduce computational, storage and power overhead to better meet the constraints of edge devices. Many existing MOT methods suffer from significant performance degradation in low-frame-rate videos due to significant location and appearance changes between adjacent frames. To this end, we propose to explore collaborative tracking learning (ColTrack) for frame-rate-insensitive MOT in a query-based end-to-end manner. Multiple historical queries of the same target jointly track it with richer temporal descriptions. Meanwhile, we insert an information refinement module between every two temporal blocking decoders to better fuse temporal clues and refine features. Moreover, a tracking object consistency loss is proposed to guide the interaction between historical queries. Extensive experimental results demonstrate that in high-frame-rate videos, ColTrack obtains higher performance than state-of-the-art methods on large-scale datasets Dancetrack and BDD100K, and outperforms the existing end-to-end methods on MOT17. More importantly, ColTrack has a significant advantage over state-of-the-art methods in low-frame-rate videos, which allows it to obtain faster processing speeds by reducing frame-rate requirements while maintaining higher performance. Code will be released at https://github.com/yolomax/ColTrack
翻訳日:2023-09-13 16:39:20 公開日:2023-09-12
# 実用的なアナロジーをモデル化するにはなぜニューロシンボリックAIが必要なのか?

Why Do We Need Neuro-symbolic AI to Model Pragmatic Analogies? ( http://arxiv.org/abs/2308.01936v2 )

ライセンス: Link先を確認
Thilini Wijesiriwardene and Amit Sheth and Valerie L. Shalin and Amitava Das(参考訳) 知性の要点は、親しみやすいドメインを使って、親しみないドメイン(アナロジー推論として知られる)を推論する能力である。 本稿では,非構造化テキストで表される漸進的に複雑な類似語を扱うために,Large Language Models(LLMs)の性能について検討する。 語彙の類似点,構文的類似点,意味的類似点,実用的類似点の4つの異なるレベルでの類似点について考察する。 類似語がより複雑になるにつれて、テキストの内容を超えてより広範囲で多様な知識が必要となり、llmを駆動する語彙共起統計には見当たらない。 そこで本稿では,統計とシンボルAIを組み合わせたニューロシンボリックAI技術の導入の必要性を論じ,非構造化テキストの表現によって関連コンテンツを強調・拡張し,抽象化とマッピングプロセスのガイドを行う。 我々の知識インフォームドアプローチはLLMの効率を維持しつつ、教育的応用のアナロジーを説明する能力を維持している。

A hallmark of intelligence is the ability to use a familiar domain to make inferences about a less familiar domain, known as analogical reasoning. In this article, we delve into the performance of Large Language Models (LLMs) in dealing with progressively complex analogies expressed in unstructured text. We discuss analogies at four distinct levels of complexity: lexical analogies, syntactic analogies, semantic analogies, and pragmatic analogies. As the analogies become more complex, they require increasingly extensive, diverse knowledge beyond the textual content, unlikely to be found in the lexical co-occurrence statistics that power LLMs. To address this, we discuss the necessity of employing Neuro-symbolic AI techniques that combine statistical and symbolic AI, informing the representation of unstructured text to highlight and augment relevant content, provide abstraction and guide the mapping process. Our knowledge-informed approach maintains the efficiency of LLMs while preserving the ability to explain analogies for pedagogical applications.
翻訳日:2023-09-13 16:38:56 公開日:2023-09-12
# 人間の顔に対する高忠実眼アニマタブル神経放射場

High-Fidelity Eye Animatable Neural Radiance Fields for Human Face ( http://arxiv.org/abs/2308.00773v3 )

ライセンス: Link先を確認
Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang(参考訳) neural radiance fields (nerf) はコンピュータビジョンの分野で急速に発展している研究分野である。 近年の手法は主にアイデンティティや表現などの顔属性の制御に重点を置いているが、様々な下流タスクにおいて重要である眼球回転をモデル化する重要な側面を見落としていることが多い。 本稿では,多視点画像から眼球運動に敏感な顔NeRFモデルを学習することを目的とする。 我々は、眼球回転を効果的に捉える方法と、眼球回転を表す多様体を構築する方法の2つの課題に対処する。 そこで我々はまず,マルチビューの整合性を考慮した多視点画像に,よく確立されたパラメトリック顔モデルFLAMEを適合させる。 その後、新しいダイナミックアイ対応NeRF(DeNeRF)を導入する。 DeNeRFは3Dポイントを異なる視点から標準空間に変換し、統一された顔NeRFモデルを学ぶ。 我々は、剛性変換、例えば、眼球回転、非剛性変換を含む変形のための眼変形場を設計する。 eth-xgazeデータセットを用いた実験により,新しい視野角でも正確な眼球回転と非剛性眼球変形を伴う高忠実度画像を生成することができることを実証した。 さらに、レンダリング画像を利用することで、視線推定性能を効果的に向上できることを示す。

Face rendering using neural radiance fields (NeRF) is a rapidly developing research area in computer vision. While recent methods primarily focus on controlling facial attributes such as identity and expression, they often overlook the crucial aspect of modeling eyeball rotation, which holds importance for various downstream tasks. In this paper, we aim to learn a face NeRF model that is sensitive to eye movements from multi-view images. We address two key challenges in eye-aware face NeRF learning: how to effectively capture eyeball rotation for training and how to construct a manifold for representing eyeball rotation. To accomplish this, we first fit FLAME, a well-established parametric face model, to the multi-view images considering multi-view consistency. Subsequently, we introduce a new Dynamic Eye-aware NeRF (DeNeRF). DeNeRF transforms 3D points from different views into a canonical space to learn a unified face NeRF model. We design an eye deformation field for the transformation, including rigid transformation, e.g., eyeball rotation, and non-rigid transformation. Through experiments conducted on the ETH-XGaze dataset, we demonstrate that our model is capable of generating high-fidelity images with accurate eyeball rotation and non-rigid periocular deformation, even under novel viewing angles. Furthermore, we show that utilizing the rendered images can effectively enhance gaze estimation performance.
翻訳日:2023-09-13 16:38:38 公開日:2023-09-12
# マルチモダリティマルチロス融合ネットワーク

Multi-Modality Multi-Loss Fusion Network ( http://arxiv.org/abs/2308.00264v2 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Jaywon Koo, Julia Hirschberg(参考訳) 本研究では,複数のモダリティにまたがる特徴の最適選択と融合について検討し,これらをニューラルネットワークで組み合わせ,感情検出を改善する。 異なる融合法を比較し,マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響を調べ,サブネット性能に関する有用な知見を明らかにした。 我々の最良のモデルは3つのデータセット(CMU-MOSI、CMU-MOSEI、CH-SIMS)の最先端性能を達成し、ほとんどの指標において他の手法よりも優れています。 マルチモーダル機能のトレーニングにより、単一のモダリティテストが改善され、データセットアノテーションスキーマに基づいた融合メソッドの設計がモデルパフォーマンスを向上させることが判明した。 これらの結果は、ニューラルネットワークにおける感情検出を強化するための最適化された特徴選択および融合アプローチへのロードマップを示唆する。

In this work we investigate the optimal selection and fusion of features across multiple modalities and combine these in a neural network to improve emotion detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying useful findings relating to subnet performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS), and outperforms the other methods in most metrics. We have found that training on multimodal features improves single modality testing and designing fusion methods based on dataset annotation schema enhances model performance. These results suggest a roadmap towards an optimized feature selection and fusion approach for enhancing emotion detection in neural networks.
翻訳日:2023-09-13 16:38:15 公開日:2023-09-12
# 非エルミート準結晶中の絡み合い相転移

Entanglement phase transitions in non-Hermitian quasicrystals ( http://arxiv.org/abs/2309.00924v2 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 絡み合いエントロピーのスケーリング法則は、量子多体系の非単位進化の間に定性的変化を起こす可能性がある。 本研究では,そのような絡み合い相転移を一次元非エルミート準結晶(nhqcs)で解明する。 非エルミート効果と準周期ポテンシャルの相互作用により、異なるスケーリング法則と臨界挙動を持つ2種類の絡み合い遷移を同定する。 最初のタイプは典型的な体積法則から面積法則遷移を表し、PT対称性の破れと局所化遷移と共に起こる。 第2のタイプは、定常的絡み合いエントロピーにおけるボリュームロースケーリングを伴う臨界相によって媒介される、異常なログロー対領域ロー遷移である。 これらのエンタングリング相と遷移は、NHQCの2つの代表モデルで示される。 その結果,非エルミート乱数系の絡み合い遷移の研究が進み,さらにNHQCの絡み合いパターンが明らかにされた。

The scaling law of entanglement entropy could undergo qualitative changes during the nonunitary evolution of a quantum many-body system. In this work, we uncover such entanglement phase transitions in one-dimensional non-Hermitian quasicrystals (NHQCs). We identify two types of entanglement transitions with different scaling laws and critical behaviors due to the interplay between non-Hermitian effects and quasiperiodic potentials. The first type represents a typical volume-law to area-law transition, which happens together with a PT-symmetry breaking and a localization transition. The second type features an abnormal log-law to area-law transition, which is mediated by a critical phase with a volume-law scaling in the steady-state entanglement entropy. These entangling phases and transitions are demonstrated in two representative models of NHQCs. Our results thus advanced the study of entanglement transitions in non-Hermitian disordered systems and further disclosed the rich entanglement patterns in NHQCs.
翻訳日:2023-09-13 16:32:52 公開日:2023-09-12
# キーポイント検出学習による変形可能な物体のマッチング改善

Improving the matching of deformable objects by learning to detect keypoints ( http://arxiv.org/abs/2309.00434v2 )

ライセンス: Link先を確認
Felipe Cadar and Welerson Melo and Vaishnavi Kanagasabapathi and Guilherme Potje and Renato Martins and Erickson R. Nascimento(参考訳) 本研究では,非剛性画像対応タスクにおける正しいマッチング数を増やすための新しい学習キーポイント検出手法を提案する。 注釈付き画像対と特定のディスクリプタ抽出器とのマッチングによって得られた真の対応を利用して、エンド・ツー・エンドの畳み込みニューラルネットワーク(CNN)をトレーニングし、検討されたディスクリプタにより適したキーポイント位置を見つける。 そこで,画像に幾何学的および測光的ワーピングを適用し,監視信号を生成し,検出器の最適化を可能にする。 実験により,本手法は,検出手法と併用して多数の記述子の平均マッチング精度を向上させるとともに,非剛体物体の実像における最先端のキーポイント検出器の性能を20p以上で向上させ,また,この課題に現在利用可能な最も優れたキーポイント検出器と同等に動作するオブジェクト検索の複雑な実世界のタスクにも適用できることを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/verlab/LearningToDetect_PRL_2023で公開されている。

We propose a novel learned keypoint detection method to increase the number of correct matches for the task of non-rigid image correspondence. By leveraging true correspondences acquired by matching annotated image pairs with a specified descriptor extractor, we train an end-to-end convolutional neural network (CNN) to find keypoint locations that are more appropriate to the considered descriptor. For that, we apply geometric and photometric warpings to images to generate a supervisory signal, allowing the optimization of the detector. Experiments demonstrate that our method enhances the Mean Matching Accuracy of numerous descriptors when used in conjunction with our detection method, while outperforming the state-of-the-art keypoint detectors on real images of non-rigid objects by 20 p.p. We also apply our method on the complex real-world task of object retrieval where our detector performs on par with the finest keypoint detectors currently available for this task. The source code and trained models are publicly available at https://github.com/verlab/LearningToDetect_PRL_2023
翻訳日:2023-09-13 16:31:50 公開日:2023-09-12
# Affective Visual Dialog:ビジュアル接地会話に基づく感情推論のための大規模ベンチマーク

Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations ( http://arxiv.org/abs/2308.16349v2 )

ライセンス: Link先を確認
Kilichbek Haydarov, Xiaoqian Shen, Avinash Madasu, Mahmoud Salem, Li-Jia Li, Gamaleldin Elsayed, Mohamed Elhoseiny(参考訳) 視覚の接地会話における感情の形成を理解するためのテストベッドとして,感情説明と推論タスクである情緒的視覚ダイアログを導入した。 課題は,(1)対話に基づく質問応答,(2)対話に基づく感情予測,(3)対話に基づく感情説明生成の3つのスキルである。 私たちの重要な貢献は、AffectVisDialと呼ばれる大規模なデータセットの収集です。50Kの10ターンの視覚的接地ダイアログと、感情の属性とダイアログのインフォームド感情の説明をまとめ、合計27180時間の作業時間になります。 データセット収集における設計判断について説明し,会話の参加者に関連付けられた質問者および回答者タスクについて紹介する。 我々は,最先端モデルから適応した視覚ダイアログベースラインを訓練し,実演する。 注目すべきことに、我々のモデルが生成した反応は、視覚的に接地された会話に応答して、有望な感情的推論能力を示す。 プロジェクトのページはhttps://affective-visual-dialog.github.ioで閲覧できます。

We introduce Affective Visual Dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in visually grounded conversations. The task involves three skills: (1) Dialog-based Question Answering (2) Dialog-based Emotion Prediction and (3) Affective emotion explanation generation based on the dialog. Our key contribution is the collection of a large-scale dataset, dubbed AffectVisDial, consisting of 50K 10-turn visually grounded dialogs as well as concluding emotion attributions and dialog-informed textual emotion explanations, resulting in a total of 27,180 working hours. We explain our design decisions in collecting the dataset and introduce the questioner and answerer tasks that are associated with the participants in the conversation. We train and demonstrate solid Affective Visual Dialog baselines adapted from state-of-the-art models. Remarkably, the responses generated by our models show promising emotional reasoning abilities in response to visually grounded conversations. Our project page is available at https://affective-visual-dialog.github.io.
翻訳日:2023-09-13 16:31:30 公開日:2023-09-12
# トレンドフィルタリングによる時間空間モデル

Temporal-spatial model via Trend Filtering ( http://arxiv.org/abs/2308.16172v3 )

ライセンス: Link先を確認
Carlos Misael Madrid Padilla, Oscar Hernan Madrid Padilla, Daren Wang(参考訳) 本研究では,同時時間と空間依存性を考慮した非パラメトリック回帰関数の推定に着目する。 このような文脈で、Trend Filteringは、 \cite{mammen 1997locally} と \cite{rudin 1992nonlinear} によって導入された非パラメトリック推定器である。 不平等な設定の場合、我々が考慮する信号は、有界な全変動を持つkth弱微分を持つと仮定され、一般的な滑らかさの程度を許容する。 多変量解析のシナリオでは,一括リプシッツ連続性基準に準拠した有界変動を持つ信号に適合するADMMアルゴリズムを用いて,$K$-Nearest Neighbor fused lasso estimator を \cite{padilla2018adaptive} で検討する。 下界に合わせることにより、推定器の最小最適度が検証される。 傾向フィルタリング研究に従来未記載であった一意な相転移現象が,本解析によって明らかにされる。 シミュレーション研究と実データ応用はどちらも,既存の文献で確立された手法と比較して,本手法の優れた性能を示している。

This research focuses on the estimation of a non-parametric regression function designed for data with simultaneous time and space dependencies. In such a context, we study the Trend Filtering, a nonparametric estimator introduced by \cite{mammen1997locally} and \cite{rudin1992nonlinear}. For univariate settings, the signals we consider are assumed to have a kth weak derivative with bounded total variation, allowing for a general degree of smoothness. In the multivariate scenario, we study a $K$-Nearest Neighbor fused lasso estimator as in \cite{padilla2018adaptive}, employing an ADMM algorithm, suitable for signals with bounded variation that adhere to a piecewise Lipschitz continuity criterion. By aligning with lower bounds, the minimax optimality of our estimators is validated. A unique phase transition phenomenon, previously uncharted in Trend Filtering studies, emerges through our analysis. Both Simulation studies and real data applications underscore the superior performance of our method when compared with established techniques in the existing literature.
翻訳日:2023-09-13 16:31:08 公開日:2023-09-12
# MedShapeNet - コンピュータビジョンのための3D医療形状の大規模データセット

MedShapeNet -- A Large-Scale Dataset of 3D Medical Shapes for Computer Vision ( http://arxiv.org/abs/2308.16139v3 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Gijs Luijten, Yuan Jin, Narmada Ambigapathy, Enrico Nasca, Naida Solak, Gian Marco Melito, Viet Duc Vu, Afaque R. Memon, Xiaojun Chen, Jan Stefan Kirschke, Ezequiel de la Rosa, Patrick Ferdinand Christ, Hongwei Bran Li, David G. Ellis, Michele R. Aizenberg, Sergios Gatidis, Thomas K\"ustner, Nadya Shusharina, Nicholas Heller, Vincent Andrearczyk, Adrien Depeursinge, Mathieu Hatt, Anjany Sekuboyina, Maximilian L\"offler, Hans Liebl, Reuben Dorent, Tom Vercauteren, Jonathan Shapey, Aaron Kujawa, Stefan Cornelissen, Patrick Langenhuizen, Achraf Ben-Hamadou, Ahmed Rekik, Sergi Pujades, Edmond Boyer, Federico Bolelli, Costantino Grana, Luca Lumetti, Hamidreza Salehi, Jun Ma, Yao Zhang, Ramtin Gharleghi, Susann Beier, Arcot Sowmya, Eduardo A. Garza-Villarreal, Thania Balducci, Diego Angeles-Valdez, Roberto Souza, Leticia Rittner, Richard Frayne, Yuanfeng Ji, Soumick Chatterjee, Florian Dubost, Stefanie Schreiber, Hendrik Mattern, Oliver Speck, Daniel Haehn, Christoph John, Andreas N\"urnberger, Jo\~ao Pedrosa, Carlos Ferreira, Guilherme Aresta, Ant\'onio Cunha, Aur\'elio Campilho, Yannick Suter, Jose Garcia, Alain Lalande, Emmanuel Audenaert, Claudia Krebs, Timo Van Leeuwen, Evie Vereecke, Rainer R\"ohrig, Frank H\"olzle, Vahid Badeli, Kathrin Krieger, Matthias Gunzer, Jianxu Chen, Amin Dada, Miriam Balzer, Jana Fragemann, Frederic Jonske, Moritz Rempe, Stanislav Malorodov, Fin H. Bahnsen, Constantin Seibold, Alexander Jaus, Ana Sofia Santos, Mariana Lindo, Andr\'e Ferreira, Victor Alves, Michael Kamp, Amr Abourayya, Felix Nensa, Fabian H\"orst, Alexander Brehmer, Lukas Heine, Lars E. Podleska, Matthias A. Fink, Julius Keyl, Konstantinos Tserpes, Moon-Sung Kim, Shireen Elhabian, Hans Lamecker, D\v{z}enan Zuki\'c, Beatriz Paniagua, Christian Wachinger, Martin Urschler, Luc Duong, Jakob Wasserthal, Peter F. Hoyer, Oliver Basu, Thomas Maal, Max J. H. Witjes, Ti-chiun Chang, Seyed-Ahmad Ahmadi, Ping Luo, Bjoern Menze, Mauricio Reyes, Christos Davatzikos, Behrus Puladi, Jens Kleesiek, Jan Egger(参考訳) 今回我々は,解剖学的形状(骨,臓器,血管など)と3次元手術器具モデルからなるmedshapenetを提案する。 深層学習に先立ち、医学画像解析における統計的形状モデル(SSM)の幅広い応用は、形状が医学データを記述するために一般的に用いられている証拠である。 しかし今日では、医療画像における最先端(SOTA)ディープラーニングアルゴリズムは、主にボキセルベースである。 コンピュータビジョンでは、コンピュータビジョン研究においてShapeNet(約51,300モデル)やプリンストンモデルNet(約127,915モデル)が増加し、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)のような主要なビジョンカンファレンスにおける多くの形状関連出版物から見られるように、形状(ボクセル占有グリッド、メッシュ、点雲、暗示表面モデルを含む)が3Dにおけるデータ表現として好ましい。 MedShapeNetは、データ駆動型ビジョンアルゴリズムの医療アプリケーションへの翻訳を容易にするために、これらの一般的な形状ベンチマークの代替として作成されており、重要な医療問題を解決するためにSOTAビジョンアルゴリズムを適用する機会を広げている。 さらに、MedShapeNetの医療用形状の大部分は、実際の患者の画像データに基づいて直接モデル化されており、コンピュータ支援設計(CAD)モデルからなる既存の形状ベンチマークを補完する。 現在MedShapeNetには10万以上の医療用形状が含まれており、ペアデータ形式でアノテーションを提供している。 そのため、拡張現実(virtual reality - vr, augmented reality - ar, mixed reality - mr)と医療用3dプリンティングのための3dモデルの無料リポジトリでもある。 このホワイトペーパーでは、medshapenetの背景にある動機、形状取得手順、ユースケース、オンラインシェイプ検索ポータルの使用について詳細に説明している。

We present MedShapeNet, a large collection of anatomical shapes (e.g., bones, organs, vessels) and 3D surgical instrument models. Prior to the deep learning era, the broad application of statistical shape models (SSMs) in medical image analysis is evidence that shapes have been commonly used to describe medical data. Nowadays, however, state-of-the-art (SOTA) deep learning algorithms in medical imaging are predominantly voxel-based. In computer vision, on the contrary, shapes (including, voxel occupancy grids, meshes, point clouds and implicit surface models) are preferred data representations in 3D, as seen from the numerous shape-related publications in premier vision conferences, such as the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), as well as the increasing popularity of ShapeNet (about 51,300 models) and Princeton ModelNet (127,915 models) in computer vision research. MedShapeNet is created as an alternative to these commonly used shape benchmarks to facilitate the translation of data-driven vision algorithms to medical applications, and it extends the opportunities to adapt SOTA vision algorithms to solve critical medical problems. Besides, the majority of the medical shapes in MedShapeNet are modeled directly on the imaging data of real patients, and therefore it complements well existing shape benchmarks comprising of computer-aided design (CAD) models. MedShapeNet currently includes more than 100,000 medical shapes, and provides annotations in the form of paired data. It is therefore also a freely available repository of 3D models for extended reality (virtual reality - VR, augmented reality - AR, mixed reality - MR) and medical 3D printing. This white paper describes in detail the motivations behind MedShapeNet, the shape acquisition procedures, the use cases, as well as the usage of the online shape search portal: https://medshapenet.ikim.nrw/
翻訳日:2023-09-13 16:30:49 公開日:2023-09-12
# LLaSM:大規模言語と音声モデル

LLaSM: Large Language and Speech Model ( http://arxiv.org/abs/2308.15930v2 )

ライセンス: Link先を確認
Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi(参考訳) 近年,マルチモーダル大規模言語モデルが注目されている。 しかし、ほとんどの作品は視覚言語のマルチモーダルモデルに焦点を合わせており、視覚と言語命令に従う強力な能力を提供している。 しかし、音声は人間が世界と相互作用する重要なモダリティでもあると主張する。 したがって、汎用アシスタントがマルチモーダル音声・言語指示を追従できることは不可欠である。 本研究では,Large Language and Speech Model (LLaSM)を提案する。 LLaSMは、多モーダルな多モーダル言語モデルで、多モーダルな会話能力を持ち、音声と音声の指示に従うことができる。 初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。 具体的には,LLaSM-Audio-Instructionsデータセットを大規模にリリースする。 コードとデモはhttps://github.com/LinkSoul-AI/LLaSMとhttps://huggingface.co/spaces/LinkSoul/LLaSMで公開されている。 LLaSM-Audio-Instructionsデータセットはhttps://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructionsで公開されている。

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
翻訳日:2023-09-13 16:30:13 公開日:2023-09-12
# JL-lemmaによる識別辞書学習のための最適投影法

JL-lemma derived Optimal Projections for Discriminative Dictionary Learning ( http://arxiv.org/abs/2308.13991v2 )

ライセンス: Link先を確認
G.Madhuri, Atul Negi, Kaluri V.Rangarao(参考訳) 大規模次元データを多数のクラスで分類することの難しさを克服するため,JLSPCADLと呼ばれる新しい手法を提案する。 本稿では、ジョンソン・リンデンシュトラウス(JL)レンマを用いて、信号分類のために識別辞書を学習できる変換空間の次元性を選択する。 ランダムなプロジェクションによって次元を減少させる代わりに、JLでしばしば行われるように、修正スーパービジョンPC解析(M-SPCA)からJLで規定される次元に導かれる射影変換行列を用いる。 JLSPCADLは、最適特徴空間を導出するために、適切な歪みレベルと対応する辞書原子の適切な記述長(SDL)を導出するヒューリスティックを提供し、より良い分類のために辞書原子のSDLを提供する。 最先端の次元縮小に基づく辞書学習法とは異なり、m-spcaから単段導出する投影変換行列は、元のデータのクラスター構造を維持しながら変換空間の最大特徴ラベル一貫性を提供する。 混乱したペアにもかかわらず、変換空間の辞書はより少ないトレーニングサンプルで差別的なスパース係数を生成する。 実験により、JLSPCADLはクラス数や次元数の増加とともに拡張可能であることが示された。 M-SPCAによる特徴のラベル一貫性の改善は、よりよい分類に役立つ。 さらに、SDLを用いて識別辞書の訓練の複雑さを著しく低減する。 OCRおよび顔認識データセットの実験は、他の教師付き辞書学習アルゴリズムよりも比較的優れた分類性能を示す。

To overcome difficulties in classifying large dimensionality data with a large number of classes, we propose a novel approach called JLSPCADL. This paper uses the Johnson-Lindenstrauss (JL) Lemma to select the dimensionality of a transformed space in which a discriminative dictionary can be learned for signal classification. Rather than reducing dimensionality via random projections, as is often done with JL, we use a projection transformation matrix derived from Modified Supervised PC Analysis (M-SPCA) with the JL-prescribed dimension. JLSPCADL provides a heuristic to deduce suitable distortion levels and the corresponding Suitable Description Length (SDL) of dictionary atoms to derive an optimal feature space and thus the SDL of dictionary atoms for better classification. Unlike state-of-the-art dimensionality reduction-based dictionary learning methods, a projection transformation matrix derived in a single step from M-SPCA provides maximum feature-label consistency of the transformed space while preserving the cluster structure of the original data. Despite confusing pairs, the dictionary for the transformed space generates discriminative sparse coefficients, with fewer training samples. Experimentation demonstrates that JLSPCADL scales well with an increasing number of classes and dimensionality. Improved label consistency of features due to M-SPCA helps to classify better. Further, the complexity of training a discriminative dictionary is significantly reduced by using SDL. Experimentation on OCR and face recognition datasets shows relatively better classification performance than other supervised dictionary learning algorithms.
翻訳日:2023-09-13 16:29:32 公開日:2023-09-12
# RoDia: 音声からのルーマニア方言識別のための新しいデータセット

RoDia: A New Dataset for Romanian Dialect Identification from Speech ( http://arxiv.org/abs/2309.03378v2 )

ライセンス: Link先を確認
Codrut Rotaru, Nicolae-Catalin Ristea, Radu Tudor Ionescu(参考訳) 方言識別は,音声認識や話者検証など,様々な応用の強化など,音声処理や言語技術において重要な課題である。 ほとんどの研究は広範に話されている言語における方言識別に費やされてきたが、ルーマニアのような低資源言語における方言識別には限定的な注意が払われている。 この研究ギャップを解決するために,ルーマニア語の方言識別のための最初のデータセットであるRoDiaを紹介する。 RoDiaデータセットには、ルーマニアの5つの異なる地域の音声サンプルの様々なコンパイルが含まれており、都市環境と農村環境の両方をカバーする。 データセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。 上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。 そこで我々はロディアがルーマニア語の方言識別の課題に取り組む研究を刺激する貴重な資源であると信じている。 私たちはデータセットとコードをhttps://github.com/codrut2/rodiaで公開しています。

Dialect identification is a critical task in speech processing and language technology, enhancing various applications such as speech recognition, speaker verification, and many others. While most research studies have been dedicated to dialect identification in widely spoken languages, limited attention has been given to dialect identification in low-resource languages, such as Romanian. To address this research gap, we introduce RoDia, the first dataset for Romanian dialect identification from speech. The RoDia dataset includes a varied compilation of speech samples from five distinct regions of Romania, covering both urban and rural environments, totaling 2 hours of manually annotated speech data. Along with our dataset, we introduce a set of competitive models to be used as baselines for future research. The top scoring model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%, indicating that the task is challenging. We thus believe that RoDia is a valuable resource that will stimulate research aiming to address the challenges of Romanian dialect identification. We publicly release our dataset and code at https://github.com/codrut2/RoDia.
翻訳日:2023-09-13 16:21:29 公開日:2023-09-12
# GPTは計算機なしで数学的問題を解くことができる

GPT Can Solve Mathematical Problems Without a Calculator ( http://arxiv.org/abs/2309.03241v2 )

ライセンス: Link先を確認
Zhen Yang, Ming Ding, Qingsong Lv, Zhihuan Jiang, Zehai He, Yuyi Guo, Jinfeng Bai, Jie Tang(参考訳) 従来の研究では、大きな言語モデルは算術演算、特に8桁の乗算や十進数と分数を含む演算を計算機ツールを使わずに正確に行うことができないと推定されていた。 本稿ではこの誤解に挑戦することを目的とする。 十分なトレーニングデータを持つ20億パラメータの言語モデルでは、データの漏洩なしにほぼ100%の精度で、gpt-4(マルチ桁乗算精度はわずか4.3%)を大幅に上回って、正確にマルチ桁演算を実行できる。 また,マルチステップ演算やテキストに記述された数学問題を含むデータセットの glm-10b から微調整した mathglm が,5,000 例の中国数学問題テストセットで gpt-4 と同等の性能を実現することを実証した。 私たちのコードとデータはhttps://github.com/THUDM/MathGLM.comで公開されています。

Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set. Our code and data are public at https://github.com/THUDM/MathGLM.
翻訳日:2023-09-13 16:21:10 公開日:2023-09-12
# POIレベルの群流推論のための時空間コントラスト自己監督学習

Spatio-Temporal Contrastive Self-Supervised Learning for POI-level Crowd Flow Inference ( http://arxiv.org/abs/2309.03239v2 )

ライセンス: Link先を確認
Songyu Ke, Ting Li, Li Song, Yanping Sun, Qintian Sun, Junbo Zhang, Yu Zheng(参考訳) Points of Interest (POIs) におけるクラウドフローの正確な取得は、効果的な交通管理、公共サービス、都市計画において重要である。 この重要性にもかかわらず、都市センシング技術の限界により、ほとんどの情報源のデータ品質は、各POIにおける群衆の流れを監視するのに不十分である。 これにより、低品質データからの正確な群集フローの推測が重要かつ困難な課題となる。 複雑さは3つの要因によって高められる。 1)ラベル付きデータの希少さと希少さ。 2)POI間の複雑な時空間依存性,及び 3) 正確な群集流とGPSによる報告との間には無数の相関関係が認められた。 これらの課題に対処するため,クラウドフロー推論問題を自己教師付き属性グラフ表現学習タスクとして再検討し,空間時間データ(CSST)のための新しいコントラスト自己学習フレームワークを導入する。 提案手法は,POIとその距離に基づいて構築された空間隣接グラフの構築から始める。 次に,ラベルなし時空間データを多量に活用するために,コントラスト学習手法を用いる。 我々は、同様のインスタンスからターゲットのサブグラフの表現を予測するために、交換された予測手法を採用する。 事前学習フェーズの後、モデルは正確な群衆フローデータで微調整される。 実世界の2つのデータセットで行った実験は、csstがスクラッチからトレーニングされたモデルに一貫して勝っていることを示している。

Accurate acquisition of crowd flow at Points of Interest (POIs) is pivotal for effective traffic management, public service, and urban planning. Despite this importance, due to the limitations of urban sensing techniques, the data quality from most sources is inadequate for monitoring crowd flow at each POI. This renders the inference of accurate crowd flow from low-quality data a critical and challenging task. The complexity is heightened by three key factors: 1) The scarcity and rarity of labeled data, 2) The intricate spatio-temporal dependencies among POIs, and 3) The myriad correlations between precise crowd flow and GPS reports. To address these challenges, we recast the crowd flow inference problem as a self-supervised attributed graph representation learning task and introduce a novel Contrastive Self-learning framework for Spatio-Temporal data (CSST). Our approach initiates with the construction of a spatial adjacency graph founded on the POIs and their respective distances. We then employ a contrastive learning technique to exploit large volumes of unlabeled spatio-temporal data. We adopt a swapped prediction approach to anticipate the representation of the target subgraph from similar instances. Following the pre-training phase, the model is fine-tuned with accurate crowd flow data. Our experiments, conducted on two real-world datasets, demonstrate that the CSST pre-trained on extensive noisy data consistently outperforms models trained from scratch.
翻訳日:2023-09-13 16:20:51 公開日:2023-09-12
# 列車はまだ乗れない。 エネルギー関数によるモンテカルロ木探索による大規模言語モデルの非定常数学的推論

No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function ( http://arxiv.org/abs/2309.03224v3 )

ライセンス: Link先を確認
Haotian Xu(参考訳) 大きな言語モデル(llm)は印象的な言語理解と文脈学習能力を示し、自然言語処理(nlp)タスクや複雑な数学的推論に適している。 しかしながら、数学的推論タスクに適用する場合、LLMは解の確率が高いにもかかわらず正しい推論ステップと解を生成するのに苦労することが多い。 この制限を克服し、追加の微調整ステップなしに微調整されたllmの数学的推論能力を高めるために、モンテカルロ木探索(mcts)と軽量エネルギー関数を組み込んだ決定ステップをランク付けし、即時反応と正確な推論を可能にする手法を提案する。 具体的には,微調整 LLM を残留エネルギーモデル (Residual-EBM) に再構成し,ノイズコントラスト推定を用いてエネルギー関数のパラメータを推定する。 次に、MCTSのエネルギー関数を経路検証器として利用し、出力空間を探索し、推論経路を評価する。 GSM8kとAQUA-RATの2つの数学的推論ベンチマークに関する広範な実験を通じて、人間のフィードバックアライメントによる微調整や強化学習を必要とせずに、微調整モデルのpass@1メトリックスを大幅に改善する手法の優れた能力を実証した。

Large language models (LLMs) demonstrate impressive language understanding and contextual learning abilities, making them suitable for natural language processing (NLP) tasks and complex mathematical reasoning. However, when applied to mathematical reasoning tasks, LLMs often struggle to generate correct reasoning steps and answers despite having high probabilities for the solutions. To overcome this limitation and enhance the mathematical reasoning capabilities of fine-tuned LLMs without additional fine-tuning steps, we propose a method that incorporates Monte Carlo Tree Search (MCTS) and a lightweight energy function to rank decision steps and enable immediate reaction and precise reasoning. Specifically, we re-formulate the fine-tuned LLMs into a Residual-based Energy Model (Residual-EBM) and employ noise contrastive estimation to estimate the energy function's parameters. We then utilize MCTS with the energy function as a path verifier to search the output space and evaluate the reasoning path. Through extensive experiments on two mathematical reasoning benchmarks, GSM8k and AQUA-RAT, we demonstrate the exceptional capabilities of our method, which significantly improves the pass@1 metric of the fine-tuned model without requiring additional fine-tuning or reinforcement learning with human feedback alignment.
翻訳日:2023-09-13 16:20:29 公開日:2023-09-12
# Stylebook: 音声データのみを用いた任意の音声変換のためのコンテンツ依存音声スタイルモデリング

Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data ( http://arxiv.org/abs/2309.02730v2 )

ライセンス: Link先を確認
Hyungseob Lim, Kyungguen Byun, Sunkuk Moon, Erik Visser(参考訳) 最近の音声変換モデルの多くは、対象音声のスタイル情報を変換音声に転送することに成功したが、それでも対象話者の発話スタイルを忠実に再現する能力に欠けていた。 本研究では,対象発話からリッチなスタイル情報を抽出し,テキストの書き起こしや話者ラベリングを必要とせずにソース音声コンテンツに効率的に転送する手法を提案する。 提案手法では,音声内容の異なる話者の発話スタイルを収集するために,自己教師付き学習(ssl)モデルを用いた注意機構を導入する。 スタイルはスタイルブックと呼ばれる埋め込みのセットで表現される。 次のステップでは、スタイルブックにソース音声の音声コンテンツが添付され、ソースコンテンツ毎の最終ターゲットスタイルが決定される。 最後に、ソース音声から抽出されたコンテンツ情報とコンテンツ依存のターゲットスタイル埋め込みとを拡散型デコーダに入力し、変換された音声メルスペクトルを生成する。 実験結果から,提案手法と拡散型生成モデルを組み合わせることで,ベースラインモデルと比較して音声変換タスクの話者類似性が向上し,長い発話による計算複雑性の増大が抑制された。

While many recent any-to-any voice conversion models succeed in transferring some target speech's style information to the converted speech, they still lack the ability to faithfully reproduce the speaking style of the target speaker. In this work, we propose a novel method to extract rich style information from target utterances and to efficiently transfer it to source speech content without requiring text transcriptions or speaker labeling. Our proposed approach introduces an attention mechanism utilizing a self-supervised learning (SSL) model to collect the speaking styles of a target speaker each corresponding to the different phonetic content. The styles are represented with a set of embeddings called stylebook. In the next step, the stylebook is attended with the source speech's phonetic content to determine the final target style for each source content. Finally, content information extracted from the source speech and content-dependent target style embeddings are fed into a diffusion-based decoder to generate the converted speech mel-spectrogram. Experiment results show that our proposed method combined with a diffusion-based generative model can achieve better speaker similarity in any-to-any voice conversion tasks when compared to baseline models, while the increase in computational complexity with longer utterances is suppressed.
翻訳日:2023-09-13 16:20:03 公開日:2023-09-12
# 大規模言語モデルに対するゼロソース幻覚防止

Zero-Resource Hallucination Prevention for Large Language Models ( http://arxiv.org/abs/2309.02654v2 )

ライセンス: Link先を確認
Junyu Luo, Cao Xiao, Fenglong Ma(参考訳) 様々な領域における大規模言語モデル(LLM)の一般的な使用は、LLMが事実的不正確な情報を生成する事例である「幻覚」の問題に注意を向けている。 言語アシスタントにおける幻覚検出のための既存の技術は、複雑なファジィで特定の自由言語に基づく思考連鎖(cot)技術または解釈可能性の問題に苦しむパラメータベース手法に依存している。 また,幻覚を識別する手法は,その発生を防止できず,命令形式やモデルスタイルの影響により,一貫性に欠ける性能に支障をきたすことができた。 本稿では,入力命令に存在する概念に対するモデルの親密性を評価し,不慣れな概念の場合の応答生成を保留することに着目し,自己親密性と呼ばれる新しい自己評価手法を提案する。 このアプローチは、不慣れなトピックに反応する人間の能力をエミュレートし、幻覚を減らす。 4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。 以上の結果から, LLMアシスタントの幻覚予防戦略への大幅な転換, 信頼性, 適用性, 解釈性の向上が示唆された。

The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of "hallucination," which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as SELF-FAMILIARITY, which focuses on evaluating the model's familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate SELF-FAMILIARITY across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.
翻訳日:2023-09-13 16:19:40 公開日:2023-09-12
# 確率単純性に関する拡散

Diffusion on the Probability Simplex ( http://arxiv.org/abs/2309.02530v2 )

ライセンス: Link先を確認
Griffin Floto, Thorsteinn Jonsson, Mihai Nica, Scott Sanner, Eric Zhengyu Zhu(参考訳) 拡散モデルは、データ分布の進行的ノイズ化を逆転して生成モデルを生成する。 しかし、ノイズ発生過程の所望の連続性は離散データと矛盾することがある。 連続オブジェクトと離散オブジェクトのこの緊張に対処するために,確率単純度上で拡散を行う手法を提案する。 確率の単純性を用いて自然に、点がカテゴリの確率分布に対応するような解釈を作る。 本手法は,有名な確率微分方程式ornstein-unlenbeck法に適用したsoftmax関数を用いる。 また,本手法は,有界画像生成に適用可能な単位立方体上の拡散を含むように自然に拡張されている。

Diffusion models learn to reverse the progressive noising of a data distribution to create a generative model. However, the desired continuous nature of the noising process can be at odds with discrete data. To deal with this tension between continuous and discrete objects, we propose a method of performing diffusion on the probability simplex. Using the probability simplex naturally creates an interpretation where points correspond to categorical probability distributions. Our method uses the softmax function applied to an Ornstein-Unlenbeck Process, a well-known stochastic differential equation. We find that our methodology also naturally extends to include diffusion on the unit cube which has applications for bounded image generation.
翻訳日:2023-09-13 16:19:17 公開日:2023-09-12
# BEVTrack:鳥の視点で3Dオブジェクトを追跡できるシンプルなベースライン

BEVTrack: A Simple Baseline for 3D Single Object Tracking in Bird's-Eye View ( http://arxiv.org/abs/2309.02185v3 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Jiahao Nie, Jing Zhang(参考訳) 点雲における3Dシングルオブジェクトトラッキング(SOT)は、外見のばらつき、イントラクタ、点雲の分散度が高いため、依然として難しい問題である。 特に自律走行のシナリオでは、ターゲットオブジェクトは通常、連続するフレーム間で空間的隣接性を維持し、主に水平方向に移動する。 この空間連続性は、ターゲットの局在に対する貴重な事前知識を提供する。 しかし、しばしばポイントワイズ表現を用いる既存のトラッカーは、そのような表現の不規則な形式のため、この知識を効率的に活用するのに苦労している。 そのため、空間対応を確立するために、精巧な設計と複数のサブタスクを解く必要がある。 本稿では,3次元SOTのためのシンプルながら強力なベースラインフレームワークであるBEVTrackを紹介する。 連続する点雲を共通のBird's-Eye View表現に変換した後、BEVTrackは本質的に空間的近接を符号化し、単純な要素ワイド操作と畳み込み層によるトラッキングのためのモーションキューを受信する。 さらに、多様なサイズと移動パターンを持つオブジェクトをよりうまく扱うために、bevtrackは、以前の作品のように固定ラプラシアンやガウス的仮定をするのではなく、基盤となる動き分布を直接学習する。 ベルとホイッスルなしで、BEVTrackは122FPSの高速な推論速度を維持しながら、KITTIとNuScenesデータセットの最先端のパフォーマンスを達成する。 コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。

3D single object tracking (SOT) in point clouds is still a challenging problem due to appearance variation, distractors, and high sparsity of point clouds. Notably, in autonomous driving scenarios, the target object typically maintains spatial adjacency across consecutive frames, predominantly moving horizontally. This spatial continuity offers valuable prior knowledge for target localization. However, existing trackers, which often employ point-wise representations, struggle to efficiently utilize this knowledge owing to the irregular format of such representations. Consequently, they require elaborate designs and solving multiple subtasks to establish spatial correspondence. In this paper, we introduce BEVTrack, a simple yet strong baseline framework for 3D SOT. After converting consecutive point clouds into the common Bird's-Eye View representation, BEVTrack inherently encodes spatial proximity and adeptly captures motion cues for tracking via a simple element-wise operation and convolutional layers. Additionally, to better deal with objects having diverse sizes and moving patterns, BEVTrack directly learns the underlying motion distribution rather than making a fixed Laplacian or Gaussian assumption as in previous works. Without bells and whistles, BEVTrack achieves state-of-the-art performance on KITTI and NuScenes datasets while maintaining a high inference speed of 122 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
翻訳日:2023-09-13 16:19:08 公開日:2023-09-12
# 強調的・混合的特徴再建による暗黙的神経画像縫合

Implicit Neural Image Stitching With Enhanced and Blended Feature Reconstruction ( http://arxiv.org/abs/2309.01409v3 )

ライセンス: Link先を確認
Minsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin(参考訳) 画像縫合のための既存のフレームワークは、しばしば視覚的に合理的な縫合を提供する。 しかし、照明や深さなどではぼやけた人工物や相違に悩まされている。 近年の学習に基づく縫合は、そのような相違を緩和するが、必要な方法は、縫合画像の高周波詳細を捉えない画像品質の犠牲を課す。 この問題に対処するために,任意のスケールの超解像を拡張可能な暗黙的ニューラルイメージスティッチ(NIS)を提案する。 画質向上のための画像のフーリエ係数を推定する。 提案したモデルでは,色ミスマッチと遅延空間のずれを混合し,その特徴を縫合画像のRGB値に復号する。 提案手法は, より高速な画像強調法により, 従来の深部画像縫合の低精細像の解消に有効であることを示す。 ソースコードはhttps://github.com/minshu-kim/nisで入手できます。

Existing frameworks for image stitching often provide visually reasonable stitchings. However, they suffer from blurry artifacts and disparities in illumination, depth level, etc. Although the recent learning-based stitchings relax such disparities, the required methods impose sacrifice of image qualities failing to capture high-frequency details for stitched images. To address the problem, we propose a novel approach, implicit Neural Image Stitching (NIS) that extends arbitrary-scale super-resolution. Our method estimates Fourier coefficients of images for quality-enhancing warps. Then, the suggested model blends color mismatches and misalignment in the latent space and decodes the features into RGB values of stitched images. Our experiments show that our approach achieves improvement in resolving the low-definition imaging of the previous deep image stitching with favorable accelerated image-enhancing methods. Our source code is available at https://github.com/minshu-kim/NIS.
翻訳日:2023-09-13 16:18:43 公開日:2023-09-12
# 測定専用量子回路におけるステアリング誘起相転移

Steering-induced phase transition in measurement-only quantum circuits ( http://arxiv.org/abs/2309.01315v2 )

ライセンス: Link先を確認
Dongheng Qian and Jing Wang(参考訳) 競合測定だけでは、エントロピーのエントロピー$\unicode{x2013}$のように、体積法相、対称性破れ(SB)相、対称性保護トポロジー(SPT)相$\unicode{x2013}$のような異なる位相が生じる。 別の研究領域では、最近の研究により、ステアリングが量子回路内の追加位相を引き起こすことが示されている。 本研究では, ステアリングを伴う測定専用量子回路に新しい位相が現れることを示す。 局所情報のみに依存する従来のステアリング方式とは異なり、我々が導入するステアリング方式では回路の構造を付加入力として要求する。 これらのステアリング誘導相は「インフォーマティブ」フェーズと呼ばれる。 それらは各回路で測定されたビット文字列の固有次元によって区別され、実験的なセットアップで検出するのがかなり容易である。 従来よく研究されていた3つの回路モデル、射影横場イジングモデル、格子ゲージヒッグスモデル、XZZXモデルにおいて、この相転移を数値シミュレーションにより明らかに示す。 情報相がSB相と一致する場合、我々の操舵機構は実質的に「予備選択」ルーチンとして機能し、SB相をより実験的に利用することができる。 さらに、絡み合いエントロピーによってキャプチャされた量子情報とビットストリングによって伝達される古典的情報との間に不一致が生じる中間相が現れることもある。 本研究は, ステアリングが理論的富性をもたらすだけでなく, 測定専用量子回路の研究において実用的優位性をもたらすことを示した。

Competing measurements alone can give rise to distinct phases characterized by entanglement entropy$\unicode{x2013}$such as the volume law phase, symmetry-breaking (SB) phase, and symmetry-protected topological (SPT) phase$\unicode{x2013}$that can only be discerned through quantum trajectories, making them challenging to observe experimentally. In another burgeoning area of research, recent studies have demonstrated that steering can give rise to additional phases within quantum circuits. In this work, we show that new phases can appear in measurement-only quantum circuit with steering. Unlike conventional steering methods that rely solely on local information, the steering scheme we introduce requires the circuit's structure as an additional input. These steering induced phases are termed as "informative" phases. They are distinguished by the intrinsic dimension of the bitstrings measured in each circuit run, making them substantially easier to detect in experimental setups. We explicitly show this phase transition by numerical simulation in three circuit models that are previously well-studied: projective transverse field Ising model, lattice gauge-Higgs model and XZZX model. When the informative phase coincides with the SB phase, our steering mechanism effectively serves as a "pre-selection" routine, making the SB phase more experimentally accessible. Additionally, an intermediate phase may manifest, where a discrepancy arises between the quantum information captured by entanglement entropy and the classical information conveyed by bitstrings. Our findings demonstrate that steering not only adds theoretical richness but also offers practical advantages in the study of measurement-only quantum circuits.
翻訳日:2023-09-13 16:18:26 公開日:2023-09-12
# TMComposites: 特殊なTsetlinマシン間のプラグインとプレイのコラボレーション

TMComposites: Plug-and-Play Collaboration Between Specialized Tsetlin Machines ( http://arxiv.org/abs/2309.04801v2 )

ライセンス: Link先を確認
Ole-Christoffer Granmo(参考訳) Tsetlin Machines (TM) は算術ベースから論理ベースの機械学習への根本的なシフトを提供する。 畳み込みをサポートするため、MNIST、Fashion-MNIST、CIFAR-2などの画像分類データセットにうまく対応している。 しかし、TMはCIFAR-10とCIFAR-100で最先端の性能を得るのに苦労し、より複雑なタスクを表現した。 本稿では、TMコンポジットと呼ばれる特殊なTM間のプラグアンドプレイコラボレーションを紹介する。 このコラボレーションは、学習中に専門化し、推論中にその能力を評価するTMの能力に依存している。 チームを組むとき、最も自信のあるtmsが決定を下し、不確かさを軽減します。 このようにして、TMコンポジットはメンバーよりも有能になり、その特殊化の恩恵を受ける。 コラボレーションはプラグイン・アンド・プレイであり、メンバーはいつでも微調整なしで任意の方法で組み合わせることができる。 我々は,グラデーションのヒストグラム,適応ガウスしきい値,色温度計の3つのtm特殊化を実装した。 その結果, Fashion-MNIST の精度は CIFAR-10 の12点, CIFAR-100 の9点に向上し, TM の最先端結果が得られた。 全体として、TMコンポジットは、より多くのタスクやデータセットに関する最先端のディープラーニングに対して、超低エネルギーで透明な代替手段を可能にすると期待しています。

Tsetlin Machines (TMs) provide a fundamental shift from arithmetic-based to logic-based machine learning. Supporting convolution, they deal successfully with image classification datasets like MNIST, Fashion-MNIST, and CIFAR-2. However, the TM struggles with getting state-of-the-art performance on CIFAR-10 and CIFAR-100, representing more complex tasks. This paper introduces plug-and-play collaboration between specialized TMs, referred to as TM Composites. The collaboration relies on a TM's ability to specialize during learning and to assess its competence during inference. When teaming up, the most confident TMs make the decisions, relieving the uncertain ones. In this manner, a TM Composite becomes more competent than its members, benefiting from their specializations. The collaboration is plug-and-play in that members can be combined in any way, at any time, without fine-tuning. We implement three TM specializations in our empirical evaluation: Histogram of Gradients, Adaptive Gaussian Thresholding, and Color Thermometers. The resulting TM Composite increases accuracy on Fashion-MNIST by two percentage points, CIFAR-10 by twelve points, and CIFAR-100 by nine points, yielding new state-of-the-art results for TMs. Overall, we envision that TM Composites will enable an ultra-low energy and transparent alternative to state-of-the-art deep learning on more tasks and datasets.
翻訳日:2023-09-13 16:13:09 公開日:2023-09-12
# 光格子における大規模原子配列の高精度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v2 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher(参考訳) 中性原子に基づく量子シミュレーションの最近の進歩は、高分解能単原子高感度イメージング技術の恩恵を受けている。 光格子や光ツイーザー中の原子を局所的に検出する様々な手法が開発されている。 アルカリ土類やアルカリ土類のような原子では、狭い光学遷移の存在は、トラップポテンシャルにおける微分光学レベルシフトを空間的に解決する能力に由来する新しいタイプのシシフス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,反発型シリフス冷却によるストロンチウム原子の高忠実度(99.9995(3)\%$)および高生存(99.80(5)\%$)画像を示す。 最大399ドルのtweezersを持つ大規模tweezerアレイの原子のピンニング電位として光格子を用い、繰り返し忠実な格子-tweezer-lattice転送を示す。 さらに、光格子の1面に10000ドル以上の原子を直接ロードすることで、プラットフォームのスケーラビリティを実証し、これは将来、光トウェザアレイの連続的な再充填のための局所アドレス可能かつソート可能な貯水池として使用できる。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.9995(3)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate the scalability of the platform by directly loading more than $10000$ atoms in a single plane of the optical lattice, which can be used as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
翻訳日:2023-09-13 16:12:45 公開日:2023-09-12
# FIAT: 指導促進チューニングによる学習パラダイムの融合

FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning ( http://arxiv.org/abs/2309.04663v2 )

ライセンス: Link先を確認
Xinyi Wang, John Wieting, Jonathan H. Clark(参考訳) 大規模言語モデル(LLM)の学習パラダイムは、現在、コンテキスト内学習(ICL)またはフル微調整のいずれかに該当する傾向にある。 これらのそれぞれには、利用可能なデータ、モデルサイズ、計算コスト、使いやすさ、最終的な品質に基づく独自のトレードオフがある。 本稿では、ICLと微調整のパラダイムを、それらの自然な関係を強調する形で最初に記述する。 これらの関係に基づいて,これらのパラダイムの長所を融合させるFIATという新たな学習パラダイムを提案し,非常に大きなモデルを用いた素早いエンジニアリング命令とチェーン・オブ・シント推論を実現するとともに,パラメータ効率の調整を伴う中小LLMのパラメータ更新に類似した手法を用いる。 本稿では,多言語タスクにおけるfiatの有効性を評価し,訓練例100~10,000例の尺度において,fiatがiclや微調整よりも優れた性能を示すことを確認した。 FIATは、学習パラダイム間の難しい選択をすることなく、LLMの潜在能力を最大限に活用する実用的な方法を提供することを願っている。

Learning paradigms for large language models (LLMs) currently tend to fall within either in-context learning (ICL) or full fine-tuning. Each of these comes with their own trade-offs based on available data, model size, compute cost, ease-of-use, and final quality with neither solution performing well across-the-board. In this article, we first describe ICL and fine-tuning paradigms in a way that highlights their natural connections. Based on these connections, we propose a new learning paradigm called FIAT that fuses the best of these paradigms together, enabling prompt-engineered instructions and chain-of-thought reasoning with the very largest models while also using similar methods to perform parameter updates on a modestly-sized LLM with parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of multilingual tasks and observe that FIAT performs better than both ICL and fine-tuning at scales ranging from 100-10,000 training examples. We hope that FIAT provides a practical way of harnessing the full potential of LLMs without needing to make a hard choice between learning paradigms.
翻訳日:2023-09-13 16:11:59 公開日:2023-09-12
# 知識蒸留による異常検出のためのデジタル双生児

Knowledge Distillation-Empowered Digital Twin for Anomaly Detection ( http://arxiv.org/abs/2309.04616v2 )

ライセンス: Link先を確認
Qinghua Xu, Shaukat Ali, Tao Yue, Zaimovic Nedim, and Inderjeet Singh(参考訳) 列車制御・管理システム(TCMS)のようなサイバー物理システム(CPS)は、重要なインフラにおいてユビキタスになりつつある。 安全性を重要視するシステムとしては,運用時の信頼性の確保が重要である。 デジタルツイン(dts)は、ランタイム監視と警告、異常の予測と検出などの能力により、この目的で研究されている。 しかし,TCMSにおける異常検出のためのDTの構築には十分なトレーニングデータが必要である。 そこで本研究では,TCMS異常検出のための新しいKDDT法を提案する。 KDDTは言語モデル(LM)と長期短期記憶(LSTM)ネットワークを利用して、それぞれコンテキストと時系列の特徴を抽出する。 データ量を高めるため、kddtは知識蒸留(kd)によるドメイン外データから恩恵を受ける。 我々は,KDDTを業界パートナーAlstomの2つのデータセットで評価し,それぞれ0.931と0.915のF1スコアを取得し,KDDTの有効性を実証した。 また,KDDTの総合的評価を通じて,DTモデル,LM,KDの個人的貢献についても検討し,平均F1得点改善率を12.4%,3%,6.05%とした。

Cyber-physical systems (CPSs), like train control and management systems (TCMS), are becoming ubiquitous in critical infrastructures. As safety-critical systems, ensuring their dependability during operation is crucial. Digital twins (DTs) have been increasingly studied for this purpose owing to their capability of runtime monitoring and warning, prediction and detection of anomalies, etc. However, constructing a DT for anomaly detection in TCMS necessitates sufficient training data and extracting both chronological and context features with high quality. Hence, in this paper, we propose a novel method named KDDT for TCMS anomaly detection. KDDT harnesses a language model (LM) and a long short-term memory (LSTM) network to extract contexts and chronological features, respectively. To enrich data volume, KDDT benefits from out-of-domain data with knowledge distillation (KD). We evaluated KDDT with two datasets from our industry partner Alstom and obtained the F1 scores of 0.931 and 0.915, respectively, demonstrating the effectiveness of KDDT. We also explored individual contributions of the DT model, LM, and KD to the overall performance of KDDT, via a comprehensive empirical study, and observed average F1 score improvements of 12.4%, 3%, and 6.05%, respectively.
翻訳日:2023-09-13 16:11:37 公開日:2023-09-12
# 共同視像設計における分離収差補正の優先性の検討

Revealing the preference for correcting separated aberrations in joint optic-image design ( http://arxiv.org/abs/2309.04342v2 )

ライセンス: Link先を確認
Jingwen Zhou, Shiqi Chen, Zheng Ren, Wenguan Zhang, Jiapu Yan, Huajun Feng, Qi Li, Yueting Chen(参考訳) 光システムと下流アルゴリズムの合同設計は、挑戦的で有望な課題である。 画像システムのグローバル最適化と物理シミュレーションの計算コストのバランスの要求のため、既存の手法ではスマートフォンやドローンのような複雑なシステムの効率的な共同設計は達成できない。 本研究では,光学設計の観点から,光の収差を分離した光学特性を特徴付ける。 さらに、グラデーションのないハードウェアとソフトウェアを橋渡しするために、レンズの真の撮像手順を大きな視野で再現する画像シミュレーションシステムを提案する。 収差補正については,空間的に変化する収差を知覚し,補正し,その優越性を検証するネットワークを提案する。 包括的実験により, 分割した収差の補正は, 縦色収差, 横色収差, 球状収差, フィールド曲率, コマの順で, アスティグマティズムが続くことが示唆された。 この嗜好から、消費者レベルの携帯電話レンズモジュールの総トラック長を10%削減する。 さらに、この手順は、製造のずれを緩和し、計算写真の極端に高品質な向上を実現する。 最適化パラダイムは、高度な光学系と後処理アルゴリズムの実用的な共同設計に関する革新的な洞察を提供する。

The joint design of the optical system and the downstream algorithm is a challenging and promising task. Due to the demand for balancing the global optimal of imaging systems and the computational cost of physical simulation, existing methods cannot achieve efficient joint design of complex systems such as smartphones and drones. In this work, starting from the perspective of the optical design, we characterize the optics with separated aberrations. Additionally, to bridge the hardware and software without gradients, an image simulation system is presented to reproduce the genuine imaging procedure of lenses with large field-of-views. As for aberration correction, we propose a network to perceive and correct the spatially varying aberrations and validate its superiority over state-of-the-art methods. Comprehensive experiments reveal that the preference for correcting separated aberrations in joint design is as follows: longitudinal chromatic aberration, lateral chromatic aberration, spherical aberration, field curvature, and coma, with astigmatism coming last. Drawing from the preference, a 10% reduction in the total track length of the consumer-level mobile phone lens module is accomplished. Moreover, this procedure spares more space for manufacturing deviations, realizing extreme-quality enhancement of computational photography. The optimization paradigm provides innovative insight into the practical joint design of sophisticated optical systems and post-processing algorithms.
翻訳日:2023-09-13 16:11:07 公開日:2023-09-12
# COVID-19におけるアウト・オブ・ディストリビューションの電力負荷予測:人間のモビリティを活用した継続的な学習アプローチ

Navigating Out-of-Distribution Electricity Load Forecasting during COVID-19: A Continual Learning Approach Leveraging Human Mobility ( http://arxiv.org/abs/2309.04296v2 )

ライセンス: Link先を確認
Arian Prabowo, Kaixuan Chen, Hao Xue, Subbu Sethuvenkatraman, Flora D. Salim(参考訳) 従来のディープラーニングアルゴリズムでは、トレーニングとデプロイメントの両方において、データ分布が一定である、という前提が鍵となる。 しかし、新型コロナウイルス(COVID-19)のロックダウンのようなアウト・オブ・ディストリビューション(Out-of-Distribution)の期間に直面すると、この仮定は問題になる。 本稿では,新たなデータを用いたモデル更新のための継続的学習手法と,建物の外にあるプライバシー保護歩行者カウンターから収集した人体移動データを活用するための2つの戦略を用いる。 新たに取得した知識が事前情報を消去することがしばしばあることから「破滅的な忘れ」に苦しむオンライン学習とは対照的に、継続学習は過去の洞察を保存し、新しいデータを統合するという全体論的アプローチを提供する。 この研究は、オーストラリアのメルボルンにある13の建物群から得られた実世界のデータに対して、強力な連続学習アルゴリズムFSNetを適用した。 結果は、正確なエネルギー予測、特に分布域外における連続学習の重要な役割を強調する。 モビリティや温度などの二次データは,一次予測モデルに補助的支援を与えた。 さらに重要なのは、従来の手法はロックダウン中に適応するのに苦労していたが、少なくともオンライン学習を特徴とするモデルはレジリエンスを示し、ロックダウン期間は適応学習技術で武装した場合の課題が少なくなった。 本研究は,今後のアウト・オブ・ディストリビューション期間におけるエネルギー負荷予測の改善に有効な方法論と洞察を提供する。

In traditional deep learning algorithms, one of the key assumptions is that the data distribution remains constant during both training and deployment. However, this assumption becomes problematic when faced with Out-of-Distribution periods, such as the COVID-19 lockdowns, where the data distribution significantly deviates from what the model has seen during training. This paper employs a two-fold strategy: utilizing continual learning techniques to update models with new data and harnessing human mobility data collected from privacy-preserving pedestrian counters located outside buildings. In contrast to online learning, which suffers from 'catastrophic forgetting' as newly acquired knowledge often erases prior information, continual learning offers a holistic approach by preserving past insights while integrating new data. This research applies FSNet, a powerful continual learning algorithm, to real-world data from 13 building complexes in Melbourne, Australia, a city which had the second longest total lockdown duration globally during the pandemic. Results underscore the crucial role of continual learning in accurate energy forecasting, particularly during Out-of-Distribution periods. Secondary data such as mobility and temperature provided ancillary support to the primary forecasting model. More importantly, while traditional methods struggled to adapt during lockdowns, models featuring at least online learning demonstrated resilience, with lockdown periods posing fewer challenges once armed with adaptive learning techniques. This study contributes valuable methodologies and insights to the ongoing effort to improve energy load forecasting during future Out-of-Distribution periods.
翻訳日:2023-09-13 16:10:42 公開日:2023-09-12
# UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media

UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media ( http://arxiv.org/abs/2309.04213v2 )

ライセンス: Link先を確認
Yan Jiang, Ruihong Qiu, Yi Zhang, Zi Huang(参考訳) ソーシャルメディアの人気が高まるにつれ、公衆衛生に関する活動がますます増えていく。 公衆衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルを含んでいる。 しかし、公衆衛生のためのドメイン内LCMのトレーニングのコストは特に高い。 さらに、ソーシャルメディアからのそのようなドメイン内データセットは、一般的に不均衡である。 これらの課題に取り組むために、データの強化とバランスのとれたトレーニングによって、データの不均衡を克服できる。 また、モデルを適切に促すことで、llmの能力を有効に活用することができる。 本稿では, LLM の説明機構を採用することで, ソーシャルメディア上での公衆衛生分析の性能向上を図るための新しい ALEX フレームワークを提案する。 その結果,ALEXモデルでは第2タスクと第4タスクの両方で,第1タスクは第2023ソーシャルメディアマイニング(SMM4H)[1]で高いスコアを示した。 私たちのコードはhttps:// github.com/YanJiangJerry/ALEXでリリースされています。

As social media becomes increasingly popular, more and more activities related to public health emerge. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). However, the costs of training in-domain LLMs for public health are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally imbalanced. To tackle these challenges, the data imbalance issue can be overcome by data augmentation and balanced training. Moreover, the ability of the LLMs can be effectively utilized by prompting the model properly. In this paper, a novel ALEX framework is proposed to improve the performance of public health analysis on social media by adopting an LLMs explanation mechanism. Results show that our ALEX model got the best performance among all submissions in both Task 2 and Task 4 with a high score in Task 1 in Social Media Mining for Health 2023 (SMM4H)[1]. Our code has been released at https:// github.com/YanJiangJerry/ALEX.
翻訳日:2023-09-13 16:10:14 公開日:2023-09-12
# CALLAデータセット:中国医学からLLMの対話的知識獲得を探る

The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from Chinese Medical Literature ( http://arxiv.org/abs/2309.04198v2 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Muzhen Cai, Jianyu Chen, Haochun Wang, Yuhan Chen, Haoqiang Guo, Bing Qin(参考訳) 医学領域への大規模言語モデル(llm)の適用は研究者の関心を刺激している。 近年, LLMのインタラクティブな医療知識を充実させるために, 医用知識グラフを用いたIFTデータの構築に焦点が当てられている。 しかし、医学知識の豊富な情報源としての医学文献は未解明のままである。 我々の研究は、中国医学文献からLLMの対話的知識獲得を探索するCALLAデータセットを導入している。 フリーダイアログのファクトチェックタスクを通じて、医学知識を習得するLLMの能力を評価する。 我々は, LLMが疑問に言及した事実を肯定し, 異議を唱える反感を呈する, ‘fact-following response` と呼ばれる現象を同定する。 この現象による不正確な評価を排除するために、ゴールデン・ファクトのために、私たちは2つの視点から人工的にテストデータを構築します。 カルタデータセットの探索実験から,iftデータを医学文献コーパスと高度に相関させることで,llmの強力な触媒となり,対話型シナリオにおける事前学習段階で得られた医学知識を巧みに活用し,精度を向上させることができると結論づけた。 さらに,医学文献に基づくiftデータの自動構築のためのフレームワークを設計し,実世界の応用について考察する。

The application of Large Language Models (LLMs) to the medical domain has stimulated the interest of researchers. Recent studies have focused on constructing Instruction Fine-Tuning (IFT) data through medical knowledge graphs to enrich the interactive medical knowledge of LLMs. However, the medical literature serving as a rich source of medical knowledge remains unexplored. Our work introduces the CALLA dataset to probe LLMs' interactive knowledge acquisition from Chinese medical literature. It assesses the proficiency of LLMs in mastering medical knowledge through a free-dialogue fact-checking task. We identify a phenomenon called the ``fact-following response``, where LLMs tend to affirm facts mentioned in questions and display a reluctance to challenge them. To eliminate the inaccurate evaluation caused by this phenomenon, for the golden fact, we artificially construct test data from two perspectives: one consistent with the fact and one inconsistent with the fact. Drawing from the probing experiment on the CALLA dataset, we conclude that IFT data highly correlated with the medical literature corpus serves as a potent catalyst for LLMs, enabling themselves to skillfully employ the medical knowledge acquired during the pre-training phase within interactive scenarios, enhancing accuracy. Furthermore, we design a framework for automatically constructing IFT data based on medical literature and discuss some real-world applications.
翻訳日:2023-09-13 16:10:00 公開日:2023-09-12
# ロボットパークラーニング

Robot Parkour Learning ( http://arxiv.org/abs/2309.05665v2 )

ライセンス: Link先を確認
Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher Atkeson, Soeren Schwertfeger, Chelsea Finn, Hang Zhao(参考訳) Parkourは、複雑な環境でさまざまな障害物を素早く克服するロボットを必要とする、足の移動の大きな課題だ。 既存の手法は、基準動物データや複雑な報酬を用いて、多様だが盲目なロコモーションスキルまたは視覚に基づく専門的なスキルを生成することができる。 しかし、自律駐車では、ビジョンベースで多様なスキルを習得し、様々なシナリオを知覚し、対応する必要がある。 そこで本研究では,参照動作データのない単純な報酬を用いて,多様なパーキングスキルを持つ単一エンドツーエンドのパークールポリシーを学習するシステムを提案する。 本研究では, 直接衝突法にインスパイアされた強化学習手法を開発し, 高い障害物を乗り越え, 大きな障害物を乗り越え, 低障壁の下をクロールし, 薄いスリットをくぐり抜けて走るなど, パールスキルを創出する。 我々はこれらの技術を単一の視覚に基づくパーサーポリシーに抽出し、エゴセントリックな深度カメラを用いて四足歩行ロボットに転送する。 本システムでは,2つの異なる低コストロボットに,実環境に挑戦する適切な駐車スキルを自律的に選択し実行させることができることを実証する。

Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
翻訳日:2023-09-13 16:00:49 公開日:2023-09-12
# 事前学習型大言語モデルのネットOps能力に関する実証的研究

An Empirical Study of NetOps Capability of Pre-Trained Large Language Models ( http://arxiv.org/abs/2309.05557v2 )

ライセンス: Link先を確認
Yukai Miao, Yu Bai, Li Chen, Dan Li, Haifeng Sun, Xizheng Wang, Ziqiu Luo, Dapeng Sun, Xiuting Xu, Qi Zhang, Chao Xiang, Xinchi Li(参考訳) 大規模言語モデル(LLM)は人間の言語クエリに応答でき、ネットワークオペレーション(NetOps)における強力な潜在的なアプリケーションを示している。 大量のコモンセンス知識のおかげで、LLMは従来のモデルよりもはるかに優れた推論精度を達成し、一般化、推論、コード生成において強力な能力を持つ。 これらの能力は、自動化されたインテリジェントなNetOpsに決定的な向上をもたらす可能性がある。 しかし、LLMが様々なNetOpsタスクでどれだけうまく機能するかは、まだ解明されていない。 本研究では,NetOps の分野で選択した LLM の機能,強度,限界を体系的に評価する。 評価はNetOpsに関する5,732の質問の収集に基づいて行われ、ChatGPT、LLaMA、Falconなど26のパブリックドメイン LLM が含まれている。 また、収集したnetopsコーパスでこれらのllmのいくつかを微調整し、結果モデルを評価する。 この評価法は、一般的なドメイン LLM に対して広く採用されているベンチマークに、Chain-of-Thought Prompts と Retrieval-Augmented Generation を併用する。 その結果, GPT-4のみがNetOps認定試験に合格したのに対して, 他のLLMは精度がはるかに低いことがわかった。 しかし、LLaMA 2のようないくつかのオープンモデルは大きな可能性を秘めている。 さらに,モデルパラメータやプロンプトエンジニアリング,インストラクションの微調整などの要因の影響を評価する。 本研究は,NetOpsにおけるLCMの体系的評価に向けた最初の取り組みとして扱われる。 将来の研究のために評価コードとデータセットがリリースされる予定だ。

Large language models (LLMs) can respond to human language queries and have shown powerful potential applications in network operations (NetOps). Thanks to the large amount of commonsense knowledge inherent, LLMs achieve much better inference accuracy than traditional models and emerge with strong abilities in generalization, reasoning, and code generation. These abilities may have a crucial boost to automated and intelligent NetOps. However, it remains under-explored how well LLMs perform in various NetOps tasks. In this work, we make a systematic assessment of the capabilities, strengths, and limitations of selected LLMs in the field of NetOps. The evaluation is conducted on a collection of 5,732 questions about NetOps, encompassing 26 publicly available general-domain LLMs, including ChatGPT, LLaMA, Falcon, etc. We also finetune some of these LLMs with our collected NetOps corpus and evaluate the resulting models. The evaluation method follows the widely adopted benchmarks for general-domain LLMs, combined with Chain-of-Thought Prompts and Retrieval-Augmented Generation. The results show that only GPT-4 achieves high accuracy equivalent to passing the NetOps certification exam for humans, while all the other LLMs have much lower accuracy. However, some open models like LLaMA 2 still demonstrate significant potential. Furthermore, we evaluate the impact of factors such as model parameters, prompt engineering, instruction fine-tuning etc. This work shall be treated as the initial effort to systematic evaluation of LLMs in NetOps, and a more rigorous study is required for production use. The evaluation code and dataset will be released to benefit future research.
翻訳日:2023-09-13 16:00:10 公開日:2023-09-12
# 経時的MRI生成とびまん性グリオーマ成長予測のための治療対応拡散確率モデル

Treatment-aware Diffusion Probabilistic Model for Longitudinal MRI Generation and Diffuse Glioma Growth Prediction ( http://arxiv.org/abs/2309.05406v2 )

ライセンス: Link先を確認
Qinghui Liu, Elies Fuster-Garcia, Ivar Thokle Hovden, Donatas Sederevicius, Karoline Skogen, Bradley J MacIntosh, Edvard Gr{\o}dem, Till Schellhorn, Petter Brandal, Atle Bj{\o}rnerud, and Kyrre Eeg Emblem(参考訳) びまん性グリオーマ(Diffuse glioma)は、悪性脳腫瘍である。 腫瘍細胞と正常組織との複雑な相互作用、および治療によって引き起こされる変化はグリオーマ腫瘍の成長を困難にする。 本稿では,今後腫瘍のマスクやmriを生成できる新しいエンド・ツー・エンドネットワークを提案する。 本モデルは,最先端拡散確率モデルとディープセグメンテーションニューラルネットワークに基づいている。 生成拡散過程を導くための条件入力として,逐次的マルチパラメトリックmriと治療情報を含む拡散モデルを拡張した。 これにより、任意の時点における腫瘍の成長を推定できる。 グリオーマ腫瘍成長軌跡を経時的に観察し, 術後の経時的MRIデータを用いて実験を行った。 このモデルは、腫瘍マスクを備えた高品質な合成MRIの生成、時系列の腫瘍セグメンテーション、不確実性推定など、様々なタスクで有望なパフォーマンスを示している。 腫瘍増殖予測と不確実性推定を組み合わせることで、臨床意思決定に有用な情報が得られる。

Diffuse gliomas are malignant brain tumors that grow widespread through the brain. The complex interactions between neoplastic cells and normal tissue, as well as the treatment-induced changes often encountered, make glioma tumor growth modeling challenging. In this paper, we present a novel end-to-end network capable of generating future tumor masks and realistic MRIs of how the tumor will look at any future time points for different treatment plans. Our model is built upon cutting-edge diffusion probabilistic models and deep-segmentation neural networks. We extended a diffusion model to include sequential multi-parametric MRI and treatment information as conditioning input to guide the generative diffusion process. This allows us to estimate tumor growth at any given time point. We trained the model using real-world postoperative longitudinal MRI data with glioma tumor growth trajectories represented as tumor segmentation maps over time. The model has demonstrated promising performance across a range of tasks, including the generation of high-quality synthetic MRIs with tumor masks, time-series tumor segmentations, and uncertainty estimation. Combined with the treatment-aware generated MRIs, the tumor growth predictions with uncertainty estimates can provide useful information for clinical decision-making.
翻訳日:2023-09-13 15:59:42 公開日:2023-09-12
# 単一フィルタbiphoton周波数コムにおける高次元時間周波数絡み合い

High-dimensional time-frequency entanglement in a singly-filtered biphoton frequency comb ( http://arxiv.org/abs/2309.05234v2 )

ライセンス: Link先を確認
Xiang Cheng, Kai-Chi Chang, Murat Can Sarihan, Andrew Mueller, Maria Spiropulu, Matthew D. Shaw, Boris Korzh, Andrei Faraon, Franco N. C. Wong, Jeffrey H. Shapiro, and Chee Wei Wong(参考訳) 高次元量子絡み合いは、大規模ノイズ耐性量子システム、フォールトトレラント量子コンピューティング、分散量子ネットワークを実現する高度な技術の基礎である。 最近開発されたbiphoton frequency comb(bfc)は、スペクトルおよび時間的量子モードにおける高次元量子情報処理のための強力なプラットフォームを提供する。 本稿では,Fabry-Perotキャビティを用いた信号光子のみをスペクトル形成することにより,自発的なパラメトリックダウンコンバージョンによる高次元BFCを提案する。 フランソン干渉再帰と低ジッタ検出器との時間相関により高次元エネルギー時間絡みを検証した。 単一フィルタBFCの周波数および時間的絡み合いをシュミットモード分解により定量化する。 その後,10km繊維リンク上に高次元単層フィルタBFC状態を分布させ,分布後の時間-ビン次元を少なくとも168以下とした。 高次元エンタングルメントとエンタングルメント分布の実証は、高効率量子情報処理と高容量量子ネットワークのための単一フィルタ量子周波数コムの能力を示している。

High-dimensional quantum entanglement is a cornerstone for advanced technology enabling large-scale noise-tolerant quantum systems, fault-tolerant quantum computing, and distributed quantum networks. The recently developed biphoton frequency comb (BFC) provides a powerful platform for high-dimensional quantum information processing in its spectral and temporal quantum modes. Here we propose and generate a singly-filtered high-dimensional BFC via spontaneous parametric down-conversion by spectrally shaping only the signal photons with a Fabry-Perot cavity. High-dimensional energy-time entanglement is verified through Franson-interference recurrences and temporal correlation with low-jitter detectors. Frequency- and temporal- entanglement of our singly-filtered BFC is then quantified by Schmidt mode decomposition. Subsequently, we distribute the high-dimensional singly-filtered BFC state over a 10 km fiber link with a post-distribution time-bin dimension lower bounded to be at least 168. Our demonstrations of high-dimensional entanglement and entanglement distribution show the capability of the singly-filtered quantum frequency comb for high-efficiency quantum information processing and high-capacity quantum networks.
翻訳日:2023-09-13 15:59:24 公開日:2023-09-12
# FreeMan: 野生での3D人物推定のベンチマークを目指す

FreeMan: Towards Benchmarking 3D Human Pose Estimation in the Wild ( http://arxiv.org/abs/2309.05073v2 )

ライセンス: Link先を確認
Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Ruimao Zhang(参考訳) 自然界から人体の3次元構造を推定することは視覚知覚の基本的な側面である。 このタスクはAIGCや人間-ロボットインタラクションといった分野において非常に重要である。 実際、現実の環境での3次元ポーズ推定は、この問題を解決するための重要な初期ステップである。 しかし、複雑なモーションキャプチャー装置と未知の背景を用いて制御された実験室条件下で収集される現在のデータセットは不十分である。 現実世界のデータセットがないため、この重要なタスクの進捗は停滞している。 3次元ポーズ推定の開発を容易にするために,最初の大規模実世界マルチビューデータセットであるfreemanを提案する。 freemanはさまざまなシナリオで8台のスマートフォンを同期させた。 8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。 これらのシーケンスは、それぞれ異なる照明条件を持つ10のシナリオにわたる40の被験者をカバーする。 また,大規模処理を効率的に行えるように,高精度なラベリングパイプラインも構築した。 さまざまなタスクに対する総合的な評価基準を提供し,freemanが抱える重要な課題を概説する。 標準的な屋内/屋外の人間のセンシングデータセットのさらなる評価は、FreeManが実シーンと複雑なシーンで堅牢な表現転送性を提供することを示している。 FreeManはhttps://wangjiongw.github.io/freeman.comで公開されている。

Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. This task carries great importance for fields like AIGC and human-robot interaction. In practice, 3D human pose estimation in real-world settings is a critical initial step in solving this problem. However, the current datasets, often collected under controlled laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of real-world datasets is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, real-world multi-view dataset. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an automated, precise labeling pipeline that allows for large-scale processing efficiently. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. FreeMan is now publicly available at https://wangjiongw.github.io/freeman.
翻訳日:2023-09-13 15:59:07 公開日:2023-09-12
# 多文書要約:比較評価

Multi-document Summarization: A Comparative Evaluation ( http://arxiv.org/abs/2309.04951v2 )

ライセンス: Link先を確認
Kushan Hewapathirana (1 and 2), Nisansa de Silva (1), C.D. Athuraliya (2) ((1) Department of Computer Science & Engineering, University of Moratuwa, Sri Lanka, (2) ConscientAI, Sri Lanka)(参考訳) 本論文は,多文書要約(MDS)のさまざまな分野のデータセットに対する最先端モデルの評価と,今後の研究方向を決定するための既存モデルの限界について検討することを目的とする。 このギャップに対処するため、我々は最先端のモデルとデータセットを特定するための広範な文献レビューを行った。 我々は,BigSurvey-MDSおよびMS$^2$データセット上でのPRIMERAおよびPEGASUSモデルの性能を解析した。 以上の結果から,汎用事前学習型LEDは,MS$^2$データセット上でPRIMERAとPEGASUSより優れていた。 我々は、ROUGEスコアをパフォーマンス指標として、異なるデータセット上で識別されたモデルを評価する。 本研究は,モデルの強みと弱み,および異なる領域における適用性に関する貴重な知見を提供する。 この研究は将来のMDS研究の参考として機能し、学術的および科学的に複雑なデータと一般化された比較的単純なデータセットの要求されたデータセットに利用できる正確で堅牢なモデルの開発に貢献する。

This paper is aimed at evaluating state-of-the-art models for Multi-document Summarization (MDS) on different types of datasets in various domains and investigating the limitations of existing models to determine future research directions. To address this gap, we conducted an extensive literature review to identify state-of-the-art models and datasets. We analyzed the performance of PRIMERA and PEGASUS models on BigSurvey-MDS and MS$^2$ datasets, which posed unique challenges due to their varied domains. Our findings show that the General-Purpose Pre-trained Model LED outperforms PRIMERA and PEGASUS on the MS$^2$ dataset. We used the ROUGE score as a performance metric to evaluate the identified models on different datasets. Our study provides valuable insights into the models' strengths and weaknesses, as well as their applicability in different domains. This work serves as a reference for future MDS research and contributes to the development of accurate and robust models which can be utilized on demanding datasets with academically and/or scientifically complex data as well as generalized, relatively simple datasets.
翻訳日:2023-09-13 15:58:49 公開日:2023-09-12
# mfpnet:軽量セマンティックセグメンテーションのためのマルチスケール特徴伝達ネットワーク

MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic Segmentation ( http://arxiv.org/abs/2309.04914v2 )

ライセンス: Link先を確認
Guoan Xu, Wenjing Jia, Tao Wu, Ligeng Chen(参考訳) 大規模モデルに焦点を当てた豊富な研究とは対照的に、軽量セマンティックセグメンテーションの進歩は比較的遅いペースで進んでいるようである。 しかし、既存のコンパクトメソッドは、ネットワークの浅さのため、機能表現能力が限られることが多い。 本稿では,マルチスケール特徴伝達ネットワーク (MFPNet) と呼ばれる,このジレンマに対処するための軽量セグメンテーションアーキテクチャを提案する。 具体的には,フレキシブル・ボトルネック残差モジュール(brm)からなる対称残差ブロックを特徴とするロバストなエンコーダ・デコーダ構造を設計し,深く,かつリッチなミューティスケール意味コンテキストを探索する。 さらに,潜在的な長期的文脈関係をモデル化する能力から,グラフ畳み込みネットワーク(gcns)を活用して,brmブロック間のマルチスケール特徴伝達を容易にする。 ベンチマークデータセットを用いて評価すると,提案手法はより優れたセグメンテーション結果を示す。

In contrast to the abundant research focusing on large-scale models, the progress in lightweight semantic segmentation appears to be advancing at a comparatively slower pace. However, existing compact methods often suffer from limited feature representation capability due to the shallowness of their networks. In this paper, we propose a novel lightweight segmentation architecture, called Multi-scale Feature Propagation Network (MFPNet), to address the dilemma. Specifically, we design a robust Encoder-Decoder structure featuring symmetrical residual blocks that consist of flexible bottleneck residual modules (BRMs) to explore deep and rich muti-scale semantic context. Furthermore, taking benefit from their capacity to model latent long-range contextual relationships, we leverage Graph Convolutional Networks (GCNs) to facilitate multi-scale feature propagation between the BRM blocks. When evaluated on benchmark datasets, our proposed approach shows superior segmentation results.
翻訳日:2023-09-13 15:58:24 公開日:2023-09-12
# ASR不確実性を爆発させる大規模言語モデルを活用する

Leveraging Large Language Models for Exploiting ASR Uncertainty ( http://arxiv.org/abs/2309.04842v2 )

ライセンス: Link先を確認
Pranay Dighe, Yi Su, Shangshang Zheng, Yunshu Liu, Vineet Garg, Xiaochuan Niu, Ahmed Tewfik(参考訳) 大きな言語モデルは、様々な自然言語処理(NLP)タスクに優れており、音声言語理解(SLU)タスクでうまく機能するためには、オフ・ザ・シェルフ自動音声認識(ASR)システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。 本研究は、SLUタスクにおけるLLMの精度が、音声入力における固定ASRシステムの精度によって制約される以前のシナリオに焦点を当てる。 具体的には、高い単語誤り率でLLMが発話意図を理解する能力を制限できる音声意図分類タスクに取り組む。 デプロイメントコストに関わらず、複雑なアーキテクチャや特殊なアーキテクチャを設計することで、高い精度を追求する代わりに、複数の非関連タスクで共有可能な、基盤となるASRとLLMを大きく変えることなく、どこまで進めるかを問う。 そこで本研究では, 誤り発生確率1-best仮説に代えて, n-best の ASR 仮説のリストを用いた LLM の提案を行う。 我々は,LLMにおけるn-bestリストの概念を説明するためにプロンプトエンジニアリングを検討し,続いて下流タスクにおける低ランク適応器の微調整を行った。 n-best list を用いたアプローチは,n-best list を用いたシステムが 1-best asr 仮説 を用いたものよりも優れており,それによって llms を用いた音声認識における asr の不確かさを効果的に活用するための方法が確立されている。

While large language models excel in a variety of natural language processing (NLP) tasks, to perform well on spoken language understanding (SLU) tasks, they must either rely on off-the-shelf automatic speech recognition (ASR) systems for transcription, or be equipped with an in-built speech modality. This work focuses on the former scenario, where LLM's accuracy on SLU tasks is constrained by the accuracy of a fixed ASR system on the spoken input. Specifically, we tackle speech-intent classification task, where a high word-error-rate can limit the LLM's ability to understand the spoken intent. Instead of chasing a high accuracy by designing complex or specialized architectures regardless of deployment costs, we seek to answer how far we can go without substantially changing the underlying ASR and LLM, which can potentially be shared by multiple unrelated tasks. To this end, we propose prompting the LLM with an n-best list of ASR hypotheses instead of only the error-prone 1-best hypothesis. We explore prompt-engineering to explain the concept of n-best lists to the LLM; followed by the finetuning of Low-Rank Adapters on the downstream tasks. Our approach using n-best lists proves to be effective on a device-directed speech detection task as well as on a keyword spotting task, where systems using n-best list prompts outperform those using 1-best ASR hypothesis; thus paving the way for an efficient method to exploit ASR uncertainty via LLMs for speech-based applications.
翻訳日:2023-09-13 15:58:06 公開日:2023-09-12
# シンボリック・ラーニングによるsalient object detectionのadversarial attack評価

Adversarial Attacks Assessment of Salient Object Detection via Symbolic Learning ( http://arxiv.org/abs/2309.05900v1 )

ライセンス: Link先を確認
Gustavo Olague, Roberto Pineda, Gerardo Ibarra-Vazquez, Matthieu Olague, Axel Martinez, Sambit Bakshi, Jonathan Vargas and Isnardo Reducindo(参考訳) 機械学習は主流技術の中心であり、手作りの機能設計に対する古典的なアプローチよりも優れています。 人工的特徴抽出の学習プロセスとは別に、入力から出力までのエンドツーエンドパラダイムを持ち、極めて正確な結果が得られる。 しかし、悪質で不可避な摂動に対する堅牢性に対するセキュリティ上の懸念は、その予測を完全に変更できるため注目されている。 salient object detectionは、深い畳み込みニューラルネットワークが効果的であることが証明されているが、その信頼性はハッカーの攻撃に対する分析と解決策を必要とする重要な問題である。 脳プログラミングは、古き良き人工知能の分野における象徴的な学習である。 この研究は、最も激しい摂動にも耐えうるため、信頼できる視覚的注意システムの設計において、象徴的な学習の堅牢性が不可欠であることを示す。 我々は,この進化的計算手法を,標準的なデータベースとSnowy Ploverと呼ばれる海岸鳥の現実問題を用いて,視覚的注意課題を表現したいくつかの敵攻撃とノイズ摂動に対して検証した。 提案手法を5つの異なるディープラーニングアプローチと比較し,ロバスト性に関する象徴的パラダイムと一致しないことを示す。 すべてのニューラルネットワークは大きなパフォーマンス損失を被るが、脳プログラミングはその基盤であり、影響を受けない。 また,Snowy Ploverの研究により,野生生物保護・保全に関する監視活動におけるセキュリティの重要性について述べる。

Machine learning is at the center of mainstream technology and outperforms classical approaches to handcrafted feature design. Aside from its learning process for artificial feature extraction, it has an end-to-end paradigm from input to output, reaching outstandingly accurate results. However, security concerns about its robustness to malicious and imperceptible perturbations have drawn attention since its prediction can be changed entirely. Salient object detection is a research area where deep convolutional neural networks have proven effective but whose trustworthiness represents a significant issue requiring analysis and solutions to hackers' attacks. Brain programming is a kind of symbolic learning in the vein of good old-fashioned artificial intelligence. This work provides evidence that symbolic learning robustness is crucial in designing reliable visual attention systems since it can withstand even the most intense perturbations. We test this evolutionary computation methodology against several adversarial attacks and noise perturbations using standard databases and a real-world problem of a shorebird called the Snowy Plover portraying a visual attention task. We compare our methodology with five different deep learning approaches, proving that they do not match the symbolic paradigm regarding robustness. All neural networks suffer significant performance losses, while brain programming stands its ground and remains unaffected. Also, by studying the Snowy Plover, we remark on the importance of security in surveillance activities regarding wildlife protection and conservation.
翻訳日:2023-09-13 14:53:02 公開日:2023-09-12
# 大規模言語モデルの戦略的行動--ゲーム構造と文脈フレーミング

Strategic Behavior of Large Language Models: Game Structure vs. Contextual Framing ( http://arxiv.org/abs/2309.05898v1 )

ライセンス: Link先を確認
Nunzio Lor\`e, Babak Heydari(参考訳) 本稿では,ゲーム理論の枠組みの中で,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。 囚人のジレンマ、スタッグハント、スノードリフト、囚人の喜びという4つの標準的な2人プレイゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを調べます。 本研究は,外交関係やカジュアルな友情といった文脈的フレーミングが,モデルの決定を形作る上で果たす役割について検討するために,分析を拡張した。 GPT-3.5は文脈的フレーミングに非常に敏感であるが,抽象的な戦略的推論を行う能力は限られている。 GPT-4とLLaMa-2はゲームの構造とコンテキストに基づいて戦略を調整するが、LLaMa-2はゲームの基礎となるメカニズムをより微妙に理解している。 これらの結果は、戦略的意思決定におけるLLMの現在の限界と様々な能力を強調し、複雑な戦略的推論を必要とするタスクにおける不適格な使用に対して警告する。

This paper investigates the strategic decision-making capabilities of three Large Language Models (LLMs): GPT-3.5, GPT-4, and LLaMa-2, within the framework of game theory. Utilizing four canonical two-player games -- Prisoner's Dilemma, Stag Hunt, Snowdrift, and Prisoner's Delight -- we explore how these models navigate social dilemmas, situations where players can either cooperate for a collective benefit or defect for individual gain. Crucially, we extend our analysis to examine the role of contextual framing, such as diplomatic relations or casual friendships, in shaping the models' decisions. Our findings reveal a complex landscape: while GPT-3.5 is highly sensitive to contextual framing, it shows limited ability to engage in abstract strategic reasoning. Both GPT-4 and LLaMa-2 adjust their strategies based on game structure and context, but LLaMa-2 exhibits a more nuanced understanding of the games' underlying mechanics. These results highlight the current limitations and varied proficiencies of LLMs in strategic decision-making, cautioning against their unqualified use in tasks requiring complex strategic reasoning.
翻訳日:2023-09-13 14:52:40 公開日:2023-09-12
# 対称性に基づくハミルトン変換を用いたマルチキュービット系の量子最適制御の高速化

Accelerating Quantum Optimal Control of Multi-Qubit Systems with Symmetry-Based Hamiltonian Transformations ( http://arxiv.org/abs/2309.05884v1 )

ライセンス: Link先を確認
Xian Wang, Mahmut Sait Okyay, Anshuman Kumar, Bryan M. Wong(参考訳) 様々な量子コンピューティングアプリケーションで使用される大規模マルチキュービットシステムの量子最適制御計算を高速化する,新しい計算効率の高い手法を提案する。 有限群の内在対称性を利用することでヒルベルト空間を分解し、ハミルトニアンはブロック対角化して超高速な量子最適制御計算を可能にする。 我々のアプローチは、Sn あるいは Dn 対称性の下で、$n$-qubit 系のハミルトニアンサイズを 2^n × 2^n から O(n by n) または O((2^n / n) から (2^n / n)) に減少させる。 最も重要なことに、このアプローチは、元の方法と同じ精度を維持しながら、量子ビット最適制御計算の計算ランタイムを桁違いに削減する。 その結果,(1)対称性が保護された部分空間は他の量子ハミルトニアンの量子誤差抑制とシミュレーションの潜在的な基盤となりうること,(2)リートロッター・スズキ分解アプローチは,この手法を様々なマルチ量子ビット系に一般化できることを示した。

We present a new, computationally efficient approach to accelerate quantum optimal control calculations of large multi-qubit systems used in a variety of quantum computing applications. By leveraging the intrinsic symmetry of finite groups, the Hilbert space can be decomposed and the Hamiltonians block-diagonalized to enable extremely fast quantum optimal control calculations. Our approach reduces the Hamiltonian size of an $n$-qubit system from 2^n by 2^n to O(n by n) or O((2^n / n) by (2^n / n)) under Sn or Dn symmetry, respectively. Most importantly, this approach reduces the computational runtime of qubit optimal control calculations by orders of magnitude while maintaining the same accuracy as the original method. As prospective applications, we show that (1) symmetry-protected subspaces can be potential platforms for quantum error suppression and simulation of other quantum Hamiltonians, and (2) Lie-Trotter-Suzuki decomposition approaches can generalize our method to a general variety of multi-qubit systems.
翻訳日:2023-09-13 14:52:16 公開日:2023-09-12
# ショッピングサイトにおけるマルチタスク画像誤り訂正のための階層的条件付き半ペア画像変換

Hierarchical Conditional Semi-Paired Image-to-Image Translation For Multi-Task Image Defect Correction On Shopping Websites ( http://arxiv.org/abs/2309.05883v1 )

ライセンス: Link先を確認
Moyan Li, Jinmiao Fu, Shaoyuan Xu, Huidong Liu, Jia Liu, Bryan Wang(参考訳) ショッピングウェブサイトでは、品質の低い製品イメージは顧客エクスペリエンスに悪影響を及ぼす。 異なる欠陥のある画像を検出する作業はたくさんありますが、大規模な欠陥を修正するための努力はほとんどありません。 大きな課題は、何千もの製品タイプがあり、それぞれに特定の欠陥があることです。 本稿では,異なる製品タイプにまたがる複数の欠陥を補正する統合イメージ・ツー・イメージ(I2I)翻訳モデルを提案する。 本モデルでは,高レベル欠陥群と特定の欠陥タイプを階層的に組み込んだ注意機構を用いて,欠陥関連画像領域をネットワークに誘導する。 8つの公開データセットで評価し,frechetインセプション距離(fid)を平均24.6%削減した。 パブリックデータとは異なり、ショッピングサイトにおけるもうひとつの現実的な課題は、ペア画像が低品質であることである。 そこで本研究では,ペアデータのL1損失とペアデータのサイクル損失を組み合わせた半ペア化設計を行う。 3つの画像欠陥を修正するために、ショッピングウェブサイトのデータセットでテストした結果、ws-i2iと比較して平均で(fid)を63.2%削減した。

On shopping websites, product images of low quality negatively affect customer experience. Although there are plenty of work in detecting images with different defects, few efforts have been dedicated to correct those defects at scale. A major challenge is that there are thousands of product types and each has specific defects, therefore building defect specific models is unscalable. In this paper, we propose a unified Image-to-Image (I2I) translation model to correct multiple defects across different product types. Our model leverages an attention mechanism to hierarchically incorporate high-level defect groups and specific defect types to guide the network to focus on defect-related image regions. Evaluated on eight public datasets, our model reduces the Frechet Inception Distance (FID) by 24.6% in average compared with MoNCE, the state-of-the-art I2I method. Unlike public data, another practical challenge on shopping websites is that some paired images are of low quality. Therefore we design our model to be semi-paired by combining the L1 loss of paired data with the cycle loss of unpaired data. Tested on a shopping website dataset to correct three image defects, our model reduces (FID) by 63.2% in average compared with WS-I2I, the state-of-the art semi-paired I2I method.
翻訳日:2023-09-13 14:51:50 公開日:2023-09-12
# 顔認証システムにおける一般化攻撃

Generalized Attacks on Face Verification Systems ( http://arxiv.org/abs/2309.05879v1 )

ライセンス: Link先を確認
Ehsan Nazari, Paula Branco, Guy-Vincent Jourdan(参考訳) ディープニューラルネットワークモデルを用いた顔検証(FV)は近年,人間の正確性を超え,バウンダリコントロールやスマートフォンのアンロックなど,さまざまなアプリケーションに展開されている。 しかし、FVシステムは、通常人間に知られない方法でこれらのシステムを騙すために入力画像を操作する敵攻撃に対して脆弱である。 本稿では,fvシステムに対する攻撃に関する詳細な研究を行う。 同一人物を同一視する顔画像の作成を定式化し,同一人物を別個の不一致集合で同一人物と認識しないようにするダジソフィケーション攻撃を提案する。 ドッジアタック、偽装攻撃、マスター・フェイスアタックなど、FVシステムに対する様々な種類の敵攻撃の統一ビューを提供するために分類法が提案されている。 最後に、よく知られたシナリオ(マスター・フェイス・アタック)における最先端のパフォーマンスを備えたDodgePersonation Attackを実装した'One Face to Rule Them All'アタックを提案し、この論文で導入された新しいシナリオにも使用できる。 最先端のマスターフェイス攻撃は、彼らのテストデータベースのアイデンティティの43.82%をカバーする9つのイメージを生成できるが、9つのイメージにより、攻撃者はこれらの識別の57.27%から58.5%をカバーでき、攻撃者は偽装を作成するために使用するアイデンティティを選択することができる。 さらに、発生した9つの攻撃画像は、カジュアルなオブザーバと同一に見える。

Face verification (FV) using deep neural network models has made tremendous progress in recent years, surpassing human accuracy and seeing deployment in various applications such as border control and smartphone unlocking. However, FV systems are vulnerable to Adversarial Attacks, which manipulate input images to deceive these systems in ways usually unnoticeable to humans. This paper provides an in-depth study of attacks on FV systems. We introduce the DodgePersonation Attack that formulates the creation of face images that impersonate a set of given identities while avoiding being identified as any of the identities in a separate, disjoint set. A taxonomy is proposed to provide a unified view of different types of Adversarial Attacks against FV systems, including Dodging Attacks, Impersonation Attacks, and Master Face Attacks. Finally, we propose the ''One Face to Rule Them All'' Attack which implements the DodgePersonation Attack with state-of-the-art performance on a well-known scenario (Master Face Attack) and which can also be used for the new scenarios introduced in this paper. While the state-of-the-art Master Face Attack can produce a set of 9 images to cover 43.82% of the identities in their test database, with 9 images our attack can cover 57.27% to 58.5% of these identifies while giving the attacker the choice of the identity to use to create the impersonation. Moreover, the 9 generated attack images appear identical to a casual observer.
翻訳日:2023-09-13 14:51:25 公開日:2023-09-12
# 正規化スパースロジスティック回帰について

On Regularized Sparse Logistic Regression ( http://arxiv.org/abs/2309.05925v1 )

ライセンス: Link先を確認
Mengyuan Zhang and Kai Liu(参考訳) スパースロジスティック回帰は、高次元データに対して、分類と特徴選択を同時に行うことを目的としている。 $\ell_1$-正規化ロジスティック回帰を解くために多くの研究がなされているが、非凸ペナルティに関連するスパースロジスティック回帰を解くという、同等に豊富な文献は存在しない。 本稿では,非凸ペナルティがいくつかの前提条件を満たす場合の,$\ell_1$-regularized sparse logistic regressionと,非凸ペナルティ-regularized sparse logistic regressionを類似の最適化フレームワークで解くことを提案する。 提案する最適化フレームワークでは,正規化条件の整合性を保証するために,異なる線探索基準を利用する。 実世界のデータセットを用いた二項分類タスクの実証実験により,提案アルゴリズムはより少ない計算コストで効果的に分類と特徴選択を行うことができることを示した。

Sparse logistic regression aims to perform classification and feature selection simultaneously for high-dimensional data. Although many studies have been done to solve $\ell_1$-regularized logistic regression, there is no equivalently abundant literature about solving sparse logistic regression associated with nonconvex penalties. In this paper, we propose to solve $\ell_1$-regularized sparse logistic regression and some nonconvex penalties-regularized sparse logistic regression, when the nonconvex penalties satisfy some prerequisites, with similar optimization frameworks. In the proposed optimization frameworks, we utilize different line search criteria to guarantee good convergence performance for different regularization terms. Empirical experiments on binary classification tasks with real-world datasets demonstrate our proposed algorithms are capable of performing classification and feature selection effectively with a lower computational cost.
翻訳日:2023-09-13 14:41:50 公開日:2023-09-12
# 変分量子探索のための量子シミュレータの比較:ベンチマークによる検討

Comparison of Quantum Simulators for Variational Quantum Search: A Benchmark Study ( http://arxiv.org/abs/2309.05924v1 )

ライセンス: Link先を確認
Mohammadreza Soltaninia, Junpeng Zhan(参考訳) 古典的コンピュータを用いた量子回路のシミュレーションは、量子アルゴリズムの開発と検証を加速することができる。 新たに開発された変分量子探索(VQS)アルゴリズムは,回路深度の観点からGroverのアルゴリズムに対して,非構造化データベースの探索において,5から26キュービットの範囲で指数関数的に優位性を示した。 26キュービット以上のvqsをさらに検証する必要があります。 多くのシミュレータが開発されている。 しかし、多くのキュービットでVQSを実行するのにどのシミュレータが最適かは明らかでない。 この問題を解決するために、VQSで使用される典型的な量子回路を8つの主流シミュレータ上で実装する。 その結果,ほとんどのシミュレータで要求される時間とメモリはキュービット数とともに指数関数的に増加し,GPUとQulacを用いたペニーレーンはVQSを効率的に実行するのに最適なシミュレータであることがわかった。 本研究は, 実装の徹底を必要とせず, 研究者が適切な量子シミュレータを選択するのに役立ち, コミュニティコントリビューションのためにコードを利用できるようにした。

Simulating quantum circuits using classical computers can accelerate the development and validation of quantum algorithms. Our newly developed algorithm, variational quantum search (VQS), has shown an exponential advantage over Grover's algorithm in the range from 5 to 26 qubits, in terms of circuit depth, for searching unstructured databases. We need to further validate the VQS for more than 26 qubits. Numerous simulators have been developed. However, it is not clear which simulator is most suitable for executing VQS with many qubits. To solve this issue, we implement a typical quantum circuit used in VQS on eight mainstream simulators. Results show that the time and memory required by most simulators increase exponentially with the number of qubits and that Pennylane with GPU and Qulacs are the most suitable simulators for executing VQS efficiently. Our results aid researchers in selecting suitable quantum simulators without the need for exhaustive implementation, and we have made our codes available for community contributions.
翻訳日:2023-09-13 14:41:33 公開日:2023-09-12
# 大規模基礎モデルにおける幻覚調査

A Survey of Hallucination in Large Foundation Models ( http://arxiv.org/abs/2309.05922v1 )

ライセンス: Link先を確認
Vipula Rawte, Amit Sheth, Amitava Das(参考訳) ファウンデーションモデル(fm)における幻覚とは、事実の現実から逸脱したり、情報を含むコンテンツの生成を指す。 本稿では,「大規模」基礎モデル(lfms)に着目し,幻覚の問題を特定し,解明し,取り組むことを目的とした最近の取り組みの概要について述べる。 本稿は, LFM特有の幻覚現象の種類を分類し, 幻覚の程度を評価するための評価基準を確立する。 また, LFMにおける幻覚の緩和戦略について検討し, 今後の研究の方向性について検討する。 本論文は, LFMにおける幻覚に関する課題と解決策を包括的に検討する。

Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
翻訳日:2023-09-13 14:41:14 公開日:2023-09-12
# SAGE: 数十億ドル規模の製品カタログのための構造化属性価値生成

SAGE: Structured Attribute Value Generation for Billion-Scale Product Catalogs ( http://arxiv.org/abs/2309.05920v1 )

ライセンス: Link先を確認
Athanasios N. Nikolakopoulos, Swati Kaul, Siva Karthik Gade, Bella Dubrov, Umit Batur, Suleiman Ali Khan(参考訳) 我々は,世界規模のeコマースカタログにまたがって商品の属性値を推定するジェネレーティブLLMであるSAGEを紹介する。 本稿では,Seq2Seq要約タスクとして,言語,製品タイプ,対象属性にまたがる属性値予測問題を新たに定式化する。 提案手法は,属性値の予測の制約を,事前に指定した選択セット内で解除するだけでなく,要求される属性値をテキスト内で明示的に記述する必要があるという制約を緩和するものである。 SAGEは、周辺言語を使って暗黙的にそのような値が言及されている場合でも、属性値を推論することができる。 さらに、SAGEは、手元にある製品に属性が適用できないか、または利用可能な情報から利用できないかを予測できる。 SAGEは、eコマースカタログの実践的な設定で生じる属性値予測タスクのすべての側面に取り組むことができる最初の方法である。 包括的な実験は、提案手法の有効性と、最先端の競合する代替案に対する優位性を示す。 さらに,本実験では,ゼロショット設定における属性値の予測タスクにSAGEが取り組む能力を強調し,学習に必要なラベル付きサンプルの総数を大幅に削減する機会を開放した。

We introduce SAGE; a Generative LLM for inferring attribute values for products across world-wide e-Commerce catalogs. We introduce a novel formulation of the attribute-value prediction problem as a Seq2Seq summarization task, across languages, product types and target attributes. Our novel modeling approach lifts the restriction of predicting attribute values within a pre-specified set of choices, as well as, the requirement that the sought attribute values need to be explicitly mentioned in the text. SAGE can infer attribute values even when such values are mentioned implicitly using periphrastic language, or not-at-all-as is the case for common-sense defaults. Additionally, SAGE is capable of predicting whether an attribute is inapplicable for the product at hand, or non-obtainable from the available information. SAGE is the first method able to tackle all aspects of the attribute-value-prediction task as they arise in practical settings in e-Commerce catalogs. A comprehensive set of experiments demonstrates the effectiveness of the proposed approach, as well as, its superiority against state-of-the-art competing alternatives. Moreover, our experiments highlight SAGE's ability to tackle the task of predicting attribute values in zero-shot setting; thereby, opening up opportunities for significantly reducing the overall number of labeled examples required for training.
翻訳日:2023-09-13 14:41:04 公開日:2023-09-12
# マルチモーダル画像分割のための不確実性定量化と文脈割引による深部明細融合

Deep evidential fusion with uncertainty quantification and contextual discounting for multimodal medical image segmentation ( http://arxiv.org/abs/2309.05919v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux(参考訳) 単一のモダリティの医療画像は、一般的に正確で信頼できる診断に到達できる十分な情報を持っていない。 このため、医師は一般的にPET/CTなどのマルチモーダルな医療画像に基づいて疾患を診断する。 マルチモーダル情報の効果的な融合は、信頼できる決定に到達し、その決定の方法を説明するために不可欠である。 本稿では,深層学習とデンプスター・シェーファー証拠理論に基づくマルチモーダル医用画像分割のための融合フレームワークを提案する。 このフレームワークでは、異なるオブジェクトをセグメンテーションするときの各単一のモダリティイメージの信頼性を、コンテクストディスカウント操作によって考慮する。 それぞれのモダリティから取り除かれた証拠は、最終決定に達するためのデンプスターの規則によってまとめられる。 脳腫瘍を伴うPET-CTデータセットとマルチMRIデータセットによる実験結果から,本手法は精度と信頼性において最先端の手法よりも優れていることが示された。

Single-modality medical images generally do not contain enough information to reach an accurate and reliable diagnosis. For this reason, physicians generally diagnose diseases based on multimodal medical images such as, e.g., PET/CT. The effective fusion of multimodal information is essential to reach a reliable decision and explain how the decision is made as well. In this paper, we propose a fusion framework for multimodal medical image segmentation based on deep learning and the Dempster-Shafer theory of evidence. In this framework, the reliability of each single modality image when segmenting different objects is taken into account by a contextual discounting operation. The discounted pieces of evidence from each modality are then combined by Dempster's rule to reach a final decision. Experimental results with a PET-CT dataset with lymphomas and a multi-MRI dataset with brain tumors show that our method outperforms the state-of-the-art methods in accuracy and reliability.
翻訳日:2023-09-13 14:40:37 公開日:2023-09-12
# 確率的LLMは言語を理解しない:記号的・説明可能・オントロジー的LLMを目指して

Stochastic LLMs do not Understand Language: Towards Symbolic, Explainable and Ontologically Based LLMs ( http://arxiv.org/abs/2309.05918v1 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 我々の意見では、データ駆動型大規模言語モデル(LLM)の相対的な成功を巡って、若干の誤解があり、いくつかの理由がある。 i) LLMは,すべての摂取されたテキスト(実物又は非実物)が平等に作成されたため,事実情報に頼ってはならない。 (二)その副記号的ナチュアにより、これらのモデルが言語について獲得する「知識」が何であれ、常に何十億ものマイクロ特徴(重み)に埋もれ、それ自体には意味がない。 (iii)LLMは、いくつかの言語文脈(例:名目化合物、述語、量化子スコープの曖昧さ、無緊張な文脈)において正しい推論に失敗することが多い。 データ駆動型大規模言語モデル(LLM)の相対的な成功は、記号的対準記号的議論の反映ではなく、大規模にボトムアップのリバースエンジニアリングを成功させるためのリフレクションであると信じているので、本論文では、シンボル的、説明可能な、そして存在論的基礎付けられた言語モデルをもたらす効果的なボトムアップ戦略を適用することを提案する。

In our opinion the exuberance surrounding the relative success of data-driven large language models (LLMs) is slightly misguided and for several reasons (i) LLMs cannot be relied upon for factual information since for LLMs all ingested text (factual or non-factual) was created equal; (ii) due to their subsymbolic na-ture, whatever 'knowledge' these models acquire about language will always be buried in billions of microfeatures (weights), none of which is meaningful on its own; and (iii) LLMs will often fail to make the correct inferences in several linguistic contexts (e.g., nominal compounds, copredication, quantifier scope ambi-guities, intensional contexts. Since we believe the relative success of data-driven large language models (LLMs) is not a reflection on the symbolic vs. subsymbol-ic debate but a reflection on applying the successful strategy of a bottom-up reverse engineering of language at scale, we suggest in this paper applying the effective bottom-up strategy in a symbolic setting resulting in symbolic, explainable, and ontologically grounded language models.
翻訳日:2023-09-13 14:40:22 公開日:2023-09-12
# ACT: アドバンテージ・コンディショニングによる動的プログラミングによる決定変換器の強化

ACT: Empowering Decision Transformer with Dynamic Programming via Advantage Conditioning ( http://arxiv.org/abs/2309.05915v1 )

ライセンス: Link先を確認
Chenxiao Gao, Chenyang Wu, Mingjun Cao, Rui Kong, Zongzhang Zhang, Yang Yu(参考訳) 動作生成に表現的シーケンスモデリング技術を用いる決定変換器 (DT) は, オフラインポリシー最適化への有望なアプローチとして登場した。 しかし、DTは、望まれる将来のリターンに条件づけられたアクションを生成し、環境確率性への感受性などの弱点を負うことが知られている。 DTの弱点を克服するために、動的プログラミングによるDTの強化を提案する。 この方法は3つのステップからなる。 まず,mdp構造上の動的プログラミングを含む近似値関数を得るために,サンプル値反復を用いる。 第2に,行動の質を推定的な利点で評価する。 我々は,異なるタスクに適した2種類の利点推定器,IAEとGAEを導入する。 第3に,推定したアドバンテージに基づくアクションを生成するために,アドバンテージコンディショルドトランスフォーマ(act)をトレーニングする。 最後に、テスト中にACTは、望ましい優位性で条件付けられたアクションを生成する。 本評価の結果から,actは動的プログラミングのパワーを活用し,環境的確率性にも拘わらず,効果的な軌道ステッチングとロバストなアクション生成を実証し,様々なベンチマークでベースライン法を上回った。 さらに,ACTの様々な設計選択をアブレーション研究を通じて詳細に分析する。

Decision Transformer (DT), which employs expressive sequence modeling techniques to perform action generation, has emerged as a promising approach to offline policy optimization. However, DT generates actions conditioned on a desired future return, which is known to bear some weaknesses such as the susceptibility to environmental stochasticity. To overcome DT's weaknesses, we propose to empower DT with dynamic programming. Our method comprises three steps. First, we employ in-sample value iteration to obtain approximated value functions, which involves dynamic programming over the MDP structure. Second, we evaluate action quality in context with estimated advantages. We introduce two types of advantage estimators, IAE and GAE, which are suitable for different tasks. Third, we train an Advantage-Conditioned Transformer (ACT) to generate actions conditioned on the estimated advantages. Finally, during testing, ACT generates actions conditioned on a desired advantage. Our evaluation results validate that, by leveraging the power of dynamic programming, ACT demonstrates effective trajectory stitching and robust action generation in spite of the environmental stochasticity, outperforming baseline methods across various benchmarks. Additionally, we conduct an in-depth analysis of ACT's various design choices through ablation studies.
翻訳日:2023-09-13 14:39:53 公開日:2023-09-12
# 信念関数理論とディープラーニングを用いた医用画像分割

Medical Image Segmentation with Belief Function Theory and Deep Learning ( http://arxiv.org/abs/2309.05914v1 )

ライセンス: Link先を確認
Ling Huang(参考訳) 深層学習は、強力な学習と特徴表現能力を備えた医療画像セグメンテーションに有望な貢献を示している。 しかし、不完全(不正確、不確実、部分的な)情報との推論と組み合わせに制限がある。 本論文では,信条関数理論と深層学習による医用画像分割手法について検討し,不確かな証拠に基づく情報モデリングと融合に着目した。 まず,既存の信念関数理論に基づく医用画像分割法について検討し,その利点と課題について考察する。 次に,半教師付き医用画像セグメンテーションフレームワークを提案し,証拠セグメンテーションとエビデンス融合によるアノテーションの欠如による不確実性を低減する。 第3に,証拠的ニューラルネットワークと放射状基底関数ネットワークの2つの証拠的分類器を比較し,不確実性定量化における信念関数理論の有効性を示す。 第4に、マス関数とコンテクストディスカウントを用いて異なるセグメンテーションタスクを行う際の各mr画像の信頼性を考慮したマルチモーダル医用画像融合フレームワークを提案する。

Deep learning has shown promising contributions in medical image segmentation with powerful learning and feature representation abilities. However, it has limitations for reasoning with and combining imperfect (imprecise, uncertain, and partial) information. In this thesis, we study medical image segmentation approaches with belief function theory and deep learning, specifically focusing on information modeling and fusion based on uncertain evidence. First, we review existing belief function theory-based medical image segmentation methods and discuss their advantages and challenges. Second, we present a semi-supervised medical image segmentation framework to decrease the uncertainty caused by the lack of annotations with evidential segmentation and evidence fusion. Third, we compare two evidential classifiers, evidential neural network and radial basis function network, and show the effectiveness of belief function theory in uncertainty quantification; we use the two evidential classifiers with deep neural networks to construct deep evidential models for lymphoma segmentation. Fourth, we present a multimodal medical image fusion framework taking into account the reliability of each MR image source when performing different segmentation tasks using mass functions and contextual discounting.
翻訳日:2023-09-13 14:39:31 公開日:2023-09-12
# モデル内協調学習による品質非依存なディープフェイク検出

Quality-Agnostic Deepfake Detection with Intra-model Collaborative Learning ( http://arxiv.org/abs/2309.05911v1 )

ライセンス: Link先を確認
Binh M. Le and Simon S. Woo(参考訳) Deepfakeは最近、セキュリティ上の脅威と偽情報の拡散に関して、多くの社会的懸念を提起した。 ディープフェイク検出に関する多くの研究が行われている。 しかし、低品質の検出とディープフェイクの異なる品質の同時検出は依然として大きな課題である。 多くのSOTAアプローチは、特定のディープフェイクビデオ品質タイプを検出するために単一の特定モデルを使用することによって制限される。 ビデオ品質に関する事前情報を持つ複数のモデルを構築する場合、この種の戦略は、モデルとトレーニングデータのオーバーヘッドだけでなく、かなりの計算コストを伴います。 さらに、現実世界の環境でのデプロイは、スケーラブルで実用的なものではない。 本研究では,異なる品質のディープフェイクを効果的かつ同時検出できる汎用的なモデル内協調学習フレームワークを提案する。 すなわち,本手法はQADと呼ばれる品質に依存しないディープフェイク検出法である。 特に、一般的な誤差期待値の上限を観測することにより、Hilbert-Schmidt Independence Criterionを介して異なる品質レベルの画像の中間表現間の依存性を最大化する。 さらに、Adversarial Weight Perturbationモジュールを慎重に設計し、モデル全体のパフォーマンスを高めながら、画像の破損に対してより堅牢なモデルを可能にする。 人気のある7つのdeepfakeデータセットに関する広範な実験は、以前のsomaベンチマークよりもqadモデルの優れていることを示している。

Deepfake has recently raised a plethora of societal concerns over its possible security threats and dissemination of fake information. Much research on deepfake detection has been undertaken. However, detecting low quality as well as simultaneously detecting different qualities of deepfakes still remains a grave challenge. Most SOTA approaches are limited by using a single specific model for detecting certain deepfake video quality type. When constructing multiple models with prior information about video quality, this kind of strategy incurs significant computational cost, as well as model and training data overhead. Further, it cannot be scalable and practical to deploy in real-world settings. In this work, we propose a universal intra-model collaborative learning framework to enable the effective and simultaneous detection of different quality of deepfakes. That is, our approach is the quality-agnostic deepfake detection method, dubbed QAD . In particular, by observing the upper bound of general error expectation, we maximize the dependency between intermediate representations of images from different quality levels via Hilbert-Schmidt Independence Criterion. In addition, an Adversarial Weight Perturbation module is carefully devised to enable the model to be more robust against image corruption while boosting the overall model's performance. Extensive experiments over seven popular deepfake datasets demonstrate the superiority of our QAD model over prior SOTA benchmarks.
翻訳日:2023-09-13 14:39:11 公開日:2023-09-12
# radiography-reports foundation modelにおける表現の強化 : masked contrastive learningを用いた粒状アライメントアルゴリズム

Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning ( http://arxiv.org/abs/2309.05904v1 )

ライセンス: Link先を確認
Weijian Huang and Hongyu Zhou and Cheng Li and Hao Yang and Jiarun Liu and Shanshan Wang(参考訳) 近年,医療分野では多モード視覚言語基盤モデルが注目されている。 これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、多くの課題に直面している。 本研究では,マルチモーダルな医療基盤モデルであるMaCoについて述べる。マスク付きコントラスト学習を用いて,様々な医用画像処理タスクに対して,微粒化とゼロショット学習を実現する。 MaCoには相関重み付け機構が組み込まれており、マスク画像パッチとその対応レポートの相関を調整し、表現学習能力を向上させる。 我々は,オープンソースのx線データセット6種についてmacoを評価し,その結果,分類,セグメンテーション,ゼロショット位相法における7つの最先端手法を上回っており,医療画像解析タスクを広範に促進する大きな可能性を示している。

Recently, multi-modal vision-language foundation models have gained significant attention in the medical field. While these models offer great opportunities, they still face a number of challenges, such as the requirement for fine-grained knowledge understanding in computer-aided diagnosis and capability of utilizing very limited or no task-specific labeled data in real-world clinical applications. In this study, we present MaCo, a novel multi-modal medical foundation model that explores masked contrastive learning to achieve granular alignment and zero-shot learning for a variety of medical imaging tasks. MaCo incorporates a correlation weighting mechanism to adjust the correlation between masked image patches and their corresponding reports, thereby enhancing the representation learning capabilities. We evaluate MaCo on six well-known open-source X-ray datasets, and the experimental results show it outperforms seven state-of-the-art approaches for classification, segmentation, and zero-shot phase grounding, demonstrating its great potential to promote a wide range of medical image analysis tasks.
翻訳日:2023-09-13 14:38:50 公開日:2023-09-12
# 視覚言語モデルのためのブラックボックスオプティマイザとしての言語モデル

Language Models as Black-Box Optimizers for Vision-Language Models ( http://arxiv.org/abs/2309.05950v1 )

ライセンス: Link先を確認
Samuel Yu and Shihong Liu and Zhiqiu Lin and Deepak Pathak and Deva Ramanan(参考訳) Webスケールデータセットで事前訓練された視覚言語モデル(VLM)は、様々な視覚とマルチモーダルタスクにまたがる顕著な能力を示している。 現在、VLMの微調整法は主にホワイトボックスで動作しており、バックプロパゲーションのためにモデルパラメータにアクセスする必要がある。 しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。 chatgptのような一般的なプライベートな大規模言語モデル(llms)が依然として言語ベースのユーザインターフェースを提供していることを考えると、自然言語プロンプトによるvlmの新たな微調整アプローチの開発を目標としています。 そこで本稿では,CLIP を用いた少数の画像分類において,最高のテキストプロンプトを検索するために,チャットベースの LLM をブラックボックスオプティマイザとして採用することを提案する。 具体的には、現在のプロンプトの正確さを評価し、LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで、効果的なプロンプトに収束する自動「ヒルクライミング」手順を、すべて人間を介さずに会話プロセス内に導入する。 難易度の高い1ショット学習セットアップでは、imagenetを含む11のデータセットで、ホワイトボックス連続プロンプトメソッドcoopを平均1.5%上回っています。 当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れており,反復APEのような他のブラックボックスメソッドよりも効率的です。 さらに,肯定的および否定的両方のプロンプトを取り入れた会話フィードバックの利点を強調し,LLMがテキストフィードバックの「緩やかな」方向をより効率的な検索に活用できることを示唆した。 最後に、我々の戦略によって生成されたテキストプロンプトは、解釈可能であるだけでなく、ブラックボックス方式で異なるCLIPアーキテクチャ間でうまく転送されている。

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities across a variety of vision and multimodal tasks. Currently, fine-tuning methods for VLMs mainly operate in a white-box setting, requiring access to model parameters for backpropagation. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. Given that popular private large language models (LLMs) like ChatGPT still offer a language-based user interface, we aim to develop a novel fine-tuning approach for VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or output logits. In this setup, we propose employing chat-based LLMs as black-box optimizers to search for the best text prompt on the illustrative task of few-shot image classification using CLIP. Specifically, we adopt an automatic "hill-climbing" procedure that converges on an effective prompt by evaluating the accuracy of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot learning setup, our simple approach surpasses the white-box continuous prompting method CoOp by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms OpenAI's manually crafted prompts and is more efficient than other black-box methods like iterative APE. Additionally, we highlight the advantage of conversational feedback incorporating both positive and negative prompts, suggesting that LLMs can utilize the implicit "gradient" direction in textual feedback for a more efficient search. Lastly, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different CLIP architectures in a black-box manner.
翻訳日:2023-09-13 14:34:32 公開日:2023-09-12
# 腫瘍血管新生最適化 : 新しいバイオインスパイアされたメタヒューリスティック

Tumoral Angiogenic Optimizer: A new bio-inspired based metaheuristic ( http://arxiv.org/abs/2309.05947v1 )

ライセンス: Link先を確認
Hern\'andez Rodr\'iguez, Mat\'ias Ezequiel(参考訳) 本稿では,腫瘍血管新生過程中に発生する血管内皮細胞(ecs)の形態形成細胞運動に着想を得た新しいメタヒューリスティックを提案する。 このアルゴリズムはランダムな初期集団から始まる。 各反復において、最も優れた候補が腫瘍として選択され、人口の他の個体は、先端と追従心電図の間の空間的関係を通して、調整されたダイナミクスに従って腫瘍の方向に移動するECとして扱われる。 血管新生形態形成におけるEC運動の数学的モデルについて,本論文で詳述する。 このアルゴリズムは、他の類似の最適化メタヒューリスティックと比較して利点がある: モデルパラメータは、既に腫瘍血管形成現象モデリングに従って設定されており、研究者が任意の値で初期化することを妨げている。 その後、このアルゴリズムをよく知られたベンチマーク関数と比較し、PSO(Particle Swarm Optimization)との比較研究により結果を検証する。 その結果,アルゴリズムは競争力の高い結果が得られることが示された。 また,提案アルゴリズムを実世界の問題に適用する。 その結果,提案アルゴリズムは制約付き最適化問題の解法に有効であることが判明した。

In this article, we propose a new metaheuristic inspired by the morphogenetic cellular movements of endothelial cells (ECs) that occur during the tumor angiogenesis process. This algorithm starts with a random initial population. In each iteration, the best candidate selected as the tumor, while the other individuals in the population are treated as ECs migrating toward the tumor's direction following a coordinated dynamics through a spatial relationship between tip and follower ECs. EC movements mathematical model in angiogenic morphogenesis are detailed in the article. This algorithm has an advantage compared to other similar optimization metaheuristics: the model parameters are already configured according to the tumor angiogenesis phenomenon modeling, preventing researchers from initializing them with arbitrary values. Subsequently, the algorithm is compared against well-known benchmark functions, and the results are validated through a comparative study with Particle Swarm Optimization (PSO). The results demonstrate that the algorithm is capable of providing highly competitive outcomes. Also the proposed algorithm is applied to a real-world problem. The results showed that the proposed algorithm performed effective in solving constrained optimization problems, surpassing other known algorithms.
翻訳日:2023-09-13 14:34:00 公開日:2023-09-12
# 人間中心のビデオにおける知識誘導型短文脈行動予測

Knowledge-Guided Short-Context Action Anticipation in Human-Centric Videos ( http://arxiv.org/abs/2309.05943v1 )

ライセンス: Link先を確認
Sarthak Bhagat, Simon Stepputtis, Joseph Campbell, Katia Sycara(参考訳) この研究は、長期の人間の行動、特に短いビデオセグメントの使用を予測し、より優れた提案を通じて編集ワークフローをスピードアップし、物語を提示することで創造性を育むことに焦点を当てている。 そこで本研究では,映像セグメントにおける動作予測のための記号的知識グラフを備えたトランスフォーマネットワークを,トランスフォーマの注意機構の特定の側面を実行時に高めることにより実現する。 Breakfastと50Saladsの2つのベンチマークデータセットを実証し、短いビデオコンテキストを使用した長期的なアクション予測のための最先端の手法を最大9%向上させた。

This work focuses on anticipating long-term human actions, particularly using short video segments, which can speed up editing workflows through improved suggestions while fostering creativity by suggesting narratives. To this end, we imbue a transformer network with a symbolic knowledge graph for action anticipation in video segments by boosting certain aspects of the transformer's attention mechanism at run-time. Demonstrated on two benchmark datasets, Breakfast and 50Salads, our approach outperforms current state-of-the-art methods for long-term action anticipation using short video context by up to 9%.
翻訳日:2023-09-13 14:33:41 公開日:2023-09-12
# マルチソース多視点知識の要約による製品に対する主観的誘導質問への回答

Answering Subjective Induction Questions on Products by Summarizing Multi-sources Multi-viewpoints Knowledge ( http://arxiv.org/abs/2309.05938v1 )

ライセンス: Link先を確認
Yufeng Zhang (1 and 2), Meng-xiang Wang (3), and Jianxing Yu (1, 2 and 4) ((1) School of Artificial Intelligence, Sun Yat-sen University, Zhuhai 519082 (2) Guangdong Key Laboratory of Big Data Analysis and Processing, 510006, China (3) China National Institute of Standardization, 100088, China (4) Pazhou Lab, Guangzhou, 510330, China)(参考訳) 本稿では,製品に対する主観的帰納的質問(subjpqa)に回答する新しい課題を提案する。 この種の質問に対する答えは非統一的だが、多くの観点から解釈できる。 例えば、「電話が重いかどうか」に対する答えには、様々な視点がある。 満足した回答は、これらの主観的な意見を複数の情報源から要約し、電話の重みなど客観的な知識を提供することができるべきである。 これは、ファクトイドの質問に対する回答がユニークで、単一のデータソースから見つけることができる従来のQAタスクとはかなり異なる。 この課題に対処するために,3段階の手法を提案する。 まず、事実や意見に関する複数の知識ソースから、回答に関連するすべての手がかりを抽出する。 暗黙のコモンセンス事実も、必要だが欠落した文脈を補うために収集される。 そして、対話的な注意による質問との関係を捉えます。 次に,これらの知識を集約する強化型要約器を設計する。 テンプレート制御デコーダに基づいて,包括的かつマルチパースペクティブな回答を出力できる。 新しいタスクに関連性のある評価ベンチマークセットがないため、15のプロダクトドメインにわたる48,352のサンプルからなる大規模データセットであるSupQAを構築した。 評価結果は,我々のアプローチの有効性を示している。

This paper proposes a new task in the field of Answering Subjective Induction Question on Products (SUBJPQA). The answer to this kind of question is non-unique, but can be interpreted from many perspectives. For example, the answer to 'whether the phone is heavy' has a variety of different viewpoints. A satisfied answer should be able to summarize these subjective opinions from multiple sources and provide objective knowledge, such as the weight of a phone. That is quite different from the traditional QA task, in which the answer to a factoid question is unique and can be found from a single data source. To address this new task, we propose a three-steps method. We first retrieve all answer-related clues from multiple knowledge sources on facts and opinions. The implicit commonsense facts are also collected to supplement the necessary but missing contexts. We then capture their relevance with the questions by interactive attention. Next, we design a reinforcement-based summarizer to aggregate all these knowledgeable clues. Based on a template-controlled decoder, we can output a comprehensive and multi-perspective answer. Due to the lack of a relevant evaluated benchmark set for the new task, we construct a large-scale dataset, named SupQA, consisting of 48,352 samples across 15 product domains. Evaluation results show the effectiveness of our approach.
翻訳日:2023-09-13 14:33:31 公開日:2023-09-12
# PLMはオントロジーの知識を知って理解しているか?

Do PLMs Know and Understand Ontological Knowledge? ( http://arxiv.org/abs/2309.05936v1 )

ライセンス: Link先を確認
Weiqi Wu, Chengyue Jiang, Yong Jiang, Pengjun Xie, Kewei Tu(参考訳) クラスと特性とその関係を含むオントロジー知識は、世界知識に不可欠なものである。 このような知識をPLM(Pretrained Language Models)が理解し理解しているかどうかを検討することは重要である。 しかし、既存の PLM 探索研究は主に事実知識に焦点を合わせており、オントロジ的知識の体系的な探索が欠如している。 本稿では, PLM が存在論的知識を格納し, 表面形状のロート記憶よりも知識を意味的に理解するかどうかを考察する。 plmが存在論的知識を知っているかどうかを調べるため、plmがいかによく記憶されているかを調査する。(1) エンティティの種類、(2) クラスとプロパティの階層的関係、例えば、動物とスポーツチームのメンバー間の階層的関係、(3) プロパティのドメインと範囲の制約、例えば、スポーツチームのメンバーの主題は人であり、対象はスポーツチームであるべきである。 さらに, PLM が暗記以上の存在論的知識を真に理解しているかどうかを調査するため, 与えられた知識に基づいて論理的推論を確実に行うことができるかどうかを, 包括的に検討した。 調査の結果,plmは存在論的知識を記憶し,推論に暗黙的知識を活用できることがわかった。 しかし、記憶力と推論能力はいずれも完璧に満たず、不完全な知識と理解を示している。

Ontological knowledge, which comprises classes and properties and their relationships, is integral to world knowledge. It is significant to explore whether Pretrained Language Models (PLMs) know and understand such knowledge. However, existing PLM-probing studies focus mainly on factual knowledge, lacking a systematic probing of ontological knowledge. In this paper, we focus on probing whether PLMs store ontological knowledge and have a semantic understanding of the knowledge rather than rote memorization of the surface form. To probe whether PLMs know ontological knowledge, we investigate how well PLMs memorize: (1) types of entities; (2) hierarchical relationships among classes and properties, e.g., Person is a subclass of Animal and Member of Sports Team is a subproperty of Member of ; (3) domain and range constraints of properties, e.g., the subject of Member of Sports Team should be a Person and the object should be a Sports Team. To further probe whether PLMs truly understand ontological knowledge beyond memorization, we comprehensively study whether they can reliably perform logical reasoning with given knowledge according to ontological entailment rules. Our probing results show that PLMs can memorize certain ontological knowledge and utilize implicit knowledge in reasoning. However, both the memorizing and reasoning performances are less than perfect, indicating incomplete knowledge and understanding.
翻訳日:2023-09-13 14:33:13 公開日:2023-09-12
# MatSciML: 固体材料モデリングのための多タスクベンチマーク

MatSciML: A Broad, Multi-Task Benchmark for Solid-State Materials Modeling ( http://arxiv.org/abs/2309.05934v1 )

ライセンス: Link先を確認
Kin Long Kelvin Lee, Carmelo Gonzales, Marcel Nassar, Matthew Spellings, Mikhail Galkin, Santiago Miret(参考訳) 本稿では,周期的結晶構造を有する固体材料に着目した機械学習(matsci ml)を用いた材料科学のモデリングベンチマークであるmatsci mlを提案する。 固相材料に機械学習手法を適用することは、機械学習モデルを開発するために使用される多種多様なデータセットによって大きく断片化され、生まれたばかりの分野である。 この断片化により、異なる手法の性能と一般化性の比較が困難になり、この分野における全体的な研究の進展を妨げる。 opencatalyst, oqmd, nomad, carolina materials database, and materials projectのような大規模なデータセットを含むオープンソースのデータセットの上に構築されたmatsci mlベンチマークは、シミュレーションエネルギー、原子力、物質バンドギャップ、および宇宙グループによる結晶対称性の分類データを含む、モデルトレーニングと評価のための多様な材料システムと特性データを提供する。 MatSci MLのプロパティの多様性は、固体材料に対するマルチタスク学習アルゴリズムの実装と評価を可能にし、データセットの多様性は、複数のデータセットにまたがる新しいより一般化されたアルゴリズムとメソッドの開発を促進する。 マルチデータセットの学習環境では、MatchSci MLは研究者が複数のデータセットからの観測を組み合わせることで、エネルギーや力などの共通特性を共同で予測することを可能にする。 matsci mlを用いて,単一タスク,マルチタスク,マルチデータ学習シナリオにまたがるベンチマークタスクにおいて,異なるグラフニューラルネットワークと等変点クラウドネットワークの性能を評価する。 当社のオープンソースコードはhttps://github.com/intellabs/matscimlで利用可能です。

We propose MatSci ML, a novel benchmark for modeling MATerials SCIence using Machine Learning (MatSci ML) methods focused on solid-state materials with periodic crystal structures. Applying machine learning methods to solid-state materials is a nascent field with substantial fragmentation largely driven by the great variety of datasets used to develop machine learning models. This fragmentation makes comparing the performance and generalizability of different methods difficult, thereby hindering overall research progress in the field. Building on top of open-source datasets, including large-scale datasets like the OpenCatalyst, OQMD, NOMAD, the Carolina Materials Database, and Materials Project, the MatSci ML benchmark provides a diverse set of materials systems and properties data for model training and evaluation, including simulated energies, atomic forces, material bandgaps, as well as classification data for crystal symmetries via space groups. The diversity of properties in MatSci ML makes the implementation and evaluation of multi-task learning algorithms for solid-state materials possible, while the diversity of datasets facilitates the development of new, more generalized algorithms and methods across multiple datasets. In the multi-dataset learning setting, MatSci ML enables researchers to combine observations from multiple datasets to perform joint prediction of common properties, such as energy and forces. Using MatSci ML, we evaluate the performance of different graph neural networks and equivariant point cloud networks on several benchmark tasks spanning single task, multitask, and multi-data learning scenarios. Our open-source code is available at https://github.com/IntelLabs/matsciml.
翻訳日:2023-09-13 14:32:41 公開日:2023-09-12
# 深層学習とストリートビューの併用による小作種の地図化

Combining deep learning and street view imagery to map smallholder crop types ( http://arxiv.org/abs/2309.05930v1 )

ライセンス: Link先を確認
Jordi Laguarta, Thomas Friedel, Sherrie Wang(参考訳) 正確な作物型地図は、大規模生産における収量進捗の監視、地球規模の作物生産の予測、効果的な政策の立案に欠かせない情報源である。 しかしこれまでは、機械学習モデルのトレーニングのための根拠のラベルがないため、低所得国や中所得国では、作物タイプの地図の作成が難しいままだった。 フィールドサーベイは正確性の点では金の標準であるが、時間、お金、統計能力が頻繁に必要である。 近年、Googleストリートビュー、KartaView、Mapillaryなどのストリートレベルの画像が世界中で利用可能になっている。 このような画像には、特定の場所や時代に栽培された作物の種類に関する豊富な情報が含まれている。 本研究では,深層学習とGoogleストリートビュー画像を用いた作物型土壌参照の自動生成システムを開発した。 作物畑を含む一組のストリートビュー画像を効率的にキュレートし、異なる領域外からの弱ラベル画像を利用して作物種を予測し、予測ラベルとリモートセンシング時系列を組み合わせることで、壁から壁までの作物種別地図を作成する。 タイでは,米,キャッサバ,トウモロコシ,サトウキビの全国分布図が93%の精度で得られた。 道路沿いの画像が拡大するにつれて、私たちのパイプラインは世界中の作物のタイプを地図化する方法を提供しています。

Accurate crop type maps are an essential source of information for monitoring yield progress at scale, projecting global crop production, and planning effective policies. To date, however, crop type maps remain challenging to create in low and middle-income countries due to a lack of ground truth labels for training machine learning models. Field surveys are the gold standard in terms of accuracy but require an often-prohibitively large amount of time, money, and statistical capacity. In recent years, street-level imagery, such as Google Street View, KartaView, and Mapillary, has become available around the world. Such imagery contains rich information about crop types grown at particular locations and times. In this work, we develop an automated system to generate crop type ground references using deep learning and Google Street View imagery. The method efficiently curates a set of street view images containing crop fields, trains a model to predict crop type by utilizing weakly-labelled images from disparate out-of-domain sources, and combines predicted labels with remote sensing time series to create a wall-to-wall crop type map. We show that, in Thailand, the resulting country-wide map of rice, cassava, maize, and sugarcane achieves an accuracy of 93%. As the availability of roadside imagery expands, our pipeline provides a way to map crop types at scale around the globe, especially in underserved smallholder regions.
翻訳日:2023-09-13 14:32:11 公開日:2023-09-12
# 医用画像分割拡散モデルにおける形状先行モジュールの導入

Introducing Shape Prior Module in Diffusion Model for Medical Image Segmentation ( http://arxiv.org/abs/2309.05929v1 )

ライセンス: Link先を確認
Zhiqing Zhang, Guojia Fan, Tianyong Liu, Nan Li, Yuyang Liu, Ziyu Liu, Canwei Dong, Shoujun Zhou(参考訳) 画像分割は脊髄疾患の診断と治療に重要である。 しかし、高騒音、曖昧さ、不確実性の存在は、この課題を非常に困難にしている。 解剖学的境界、クラス間類似性、不合理アノテーションなどの要因がこの課題に寄与する。 放射線科医を臨床で支援するためには, 正確かつ多様なセグメンテーションテンプレートの獲得が不可欠である。 近年,拡散確率モデル (DDPM) がコンピュータビジョンにおける顕著な研究トピックとして登場している。 画像の劣化、超解像、異常検出、さらにはピクセルレベルでの意味表現生成など、様々な視覚タスクにおいて有効性を示す。 視覚生成タスクにおける既存の拡散モデルの頑健さにもかかわらず、彼らは依然として離散的なマスクとその様々な効果に苦しむ。 高精度で多様な脊椎医用画像セグメンテーションテンプレートの必要性に対処するために,denoising diffusion probabilistic model (ddpm) を利用した versediff-unet と呼ばれるエンドツーエンドフレームワークを提案する。 我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。 各ステップにおいて、ノイズ付加画像とラベル付きマスクを組み合わせることで、拡散方向をターゲット領域へ正確に誘導する。 さらに, 医用画像から特定の解剖学的先駆情報を抽出するために, 形状を先駆モジュールとして組み込んだ。 このモジュールは、入力脊椎画像から構造的意味情報を効率よく抽出する。 本手法は,x線イメージングにより得られた脊椎画像の単一のデータセット上で評価する。 以上の結果から,VerseDiff-UNetは,解剖学の自然的特徴やバリエーションを保ちながら,他の最先端手法よりも精度が高いことがわかった。

Medical image segmentation is critical for diagnosing and treating spinal disorders. However, the presence of high noise, ambiguity, and uncertainty makes this task highly challenging. Factors such as unclear anatomical boundaries, inter-class similarities, and irrational annotations contribute to this challenge. Achieving both accurate and diverse segmentation templates is essential to support radiologists in clinical practice. In recent years, denoising diffusion probabilistic modeling (DDPM) has emerged as a prominent research topic in computer vision. It has demonstrated effectiveness in various vision tasks, including image deblurring, super-resolution, anomaly detection, and even semantic representation generation at the pixel level. Despite the robustness of existing diffusion models in visual generation tasks, they still struggle with discrete masks and their various effects. To address the need for accurate and diverse spine medical image segmentation templates, we propose an end-to-end framework called VerseDiff-UNet, which leverages the denoising diffusion probabilistic model (DDPM). Our approach integrates the diffusion model into a standard U-shaped architecture. At each step, we combine the noise-added image with the labeled mask to guide the diffusion direction accurately towards the target region. Furthermore, to capture specific anatomical a priori information in medical images, we incorporate a shape a priori module. This module efficiently extracts structural semantic information from the input spine images. We evaluate our method on a single dataset of spine images acquired through X-ray imaging. Our results demonstrate that VerseDiff-UNet significantly outperforms other state-of-the-art methods in terms of accuracy while preserving the natural features and variations of anatomy.
翻訳日:2023-09-13 14:31:48 公開日:2023-09-12
# 生体信号におけるマルチモーダルプリトレーニングのための周波数アウェアマスクオートエンコーダ

Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals ( http://arxiv.org/abs/2309.05927v1 )

ライセンス: Link先を確認
Ran Liu, Ellen L. Zippi, Hadi Pouransari, Chris Sandino, Jingping Nie, Hanlin Goh, Erdrin Azemi, Ali Moin(参考訳) 生体信号からのマルチモーダル情報を活用することは、人々の身体状態と精神状態の包括的表現を構築する上で不可欠である。 しかしながら、マルチモーダルバイオシグナールは、タスク仕様の変更やモダリティ構成の変化に起因する、事前学習と推論データセットの間のかなりの分布シフトを示すことが多い。 分布シフトが存在する場合に効果的な事前学習を実現するために,周波数空間における生体信号表現のパラメータ化を学習する周波数対応マスクオートエンコーダ(\textt{bio}$fame)を提案する。 $\texttt{bio}$FAMEは、大域的なトークンの混合に固定サイズのフーリエ演算子を利用する周波数認識変換器を組み込んでいる。 各入力チャネル内の周波数成分を維持するために、潜在空間でマスキングオートエンコーディングを行う周波数維持プリトレーニング戦略も採用する。 得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、入力サイズや順序に関わらず、テスト時に様々なタスクやモダリティにシームレスに適応することができる。 我々は、単調な時系列上での様々な転送実験に対するアプローチを評価し、以前の最先端技術よりも平均$$5.5%の分類精度の向上を実現した。 さらに,我々のアーキテクチャは,予測不能なモーダリティドロップアウトや置換を含むモダリティミスマッチシナリオにおいて堅牢であり,実世界のアプリケーションで実用性が証明できることを示した。 コードはもうすぐ入手できる。

Leveraging multimodal information from biosignals is vital for building a comprehensive representation of people's physical and mental states. However, multimodal biosignals often exhibit substantial distributional shifts between pretraining and inference datasets, stemming from changes in task specification or variations in modality compositions. To achieve effective pretraining in the presence of potential distributional shifts, we propose a frequency-aware masked autoencoder ($\texttt{bio}$FAME) that learns to parameterize the representation of biosignals in the frequency space. $\texttt{bio}$FAME incorporates a frequency-aware transformer, which leverages a fixed-size Fourier-based operator for global token mixing, independent of the length and sampling rate of inputs. To maintain the frequency components within each input channel, we further employ a frequency-maintain pretraining strategy that performs masked autoencoding in the latent space. The resulting architecture effectively utilizes multimodal information during pretraining, and can be seamlessly adapted to diverse tasks and modalities at test time, regardless of input size and order. We evaluated our approach on a diverse set of transfer experiments on unimodal time series, achieving an average of $\uparrow$5.5% improvement in classification accuracy over the previous state-of-the-art. Furthermore, we demonstrated that our architecture is robust in modality mismatch scenarios, including unpredicted modality dropout or substitution, proving its practical utility in real-world applications. Code will be available soon.
翻訳日:2023-09-13 14:31:06 公開日:2023-09-12
# SCOP: ゴールベースウェルスマネジメントのためのシュロディンガー制御最適計画

SCOP: Schrodinger Control Optimal Planning for Goal-Based Wealth Management ( http://arxiv.org/abs/2309.05926v1 )

ライセンス: Link先を確認
Igor Halperin(参考訳) 我々は、退職等の財務目標に向けて働く個人等の財務計画立案者の貢献の最適化の問題を考える。 プランナーの目的は、目標に向けて設定された投資ポートフォリオに定期的な設置の最適かつ実現可能なスケジュールを見つけることである。 ポートフォリオリターンはランダムであるため、問題の実用的なバージョンは、与えられた信頼レベルで目標が満たされる最適な貢献スキームを見つけるのに等しい。 本稿では,この問題の連続時間バージョンに対する半解析的アプローチとして,貢献政策が与えられた端末富のテール確率を記述した制御後向きコルモゴロフ方程式(bke)を提案する。 制御されたBKEは、制御されたシュロディンガー方程式に還元し、代数的手法で後者を解くことで半解析的に解かれる。 数値計算では, 制御パラメータの全ての値に対して, 同時に半解析解を求めるとともに, 標準2次元スプライン補間法を用いて, 元の計画最適化問題の全ての満足解を同時に表現する。 制御変数の空間の点である代わりに、満足できる解はこの空間における連続的な輪郭線(効率的なフロンティア)を形成する。

We consider the problem of optimization of contributions of a financial planner such as a working individual towards a financial goal such as retirement. The objective of the planner is to find an optimal and feasible schedule of periodic installments to an investment portfolio set up towards the goal. Because portfolio returns are random, the practical version of the problem amounts to finding an optimal contribution scheme such that the goal is satisfied at a given confidence level. This paper suggests a semi-analytical approach to a continuous-time version of this problem based on a controlled backward Kolmogorov equation (BKE) which describes the tail probability of the terminal wealth given a contribution policy. The controlled BKE is solved semi-analytically by reducing it to a controlled Schrodinger equation and solving the latter using an algebraic method. Numerically, our approach amounts to finding semi-analytical solutions simultaneously for all values of control parameters on a small grid, and then using the standard two-dimensional spline interpolation to simultaneously represent all satisficing solutions of the original plan optimization problem. Rather than being a point in the space of control variables, satisficing solutions form continuous contour lines (efficient frontiers) in this space.
翻訳日:2023-09-13 14:30:00 公開日:2023-09-12
# 曖昧なニュース記事表現の学習 : 知識を融合したアプローチ

Learning Unbiased News Article Representations: A Knowledge-Infused Approach ( http://arxiv.org/abs/2309.05981v1 )

ライセンス: Link先を確認
Sadia Kamal, Jimmy Hartford, Jeremy Willis, Arunkumar Bagavathi(参考訳) オンラインニュース記事の政治的傾倒の定量化は、社会集団における政治イデオロギーのダイナミクスを理解するのに役立つ。 しかし、機械学習モデルによるニュース記事の正確な政治的傾きを予測することは難しい課題である。 これは 一 ニュース記事の政治イデオロギーは、いくつかの要因により定義される。 (ii)既存の学習モデルの生来の性質は、モデルトレーニング中にニュース発行者の政治的偏見に偏る。 新たなニュース発行者が発行するニュース記事の政治的傾倒を予測するために、機械学習モデルの一般化を低下させるアルゴリズム的政治的バイアスを考慮しない、ニュース記事の政治的傾倒を研究する方法は限られている。 本研究では,比較的信頼性の高い外部データ資源を用いて,ニュース記事の偏りのない表現をグローバル・ローカルの文脈を用いて学習する,知識を融合した深層学習モデルを提案する。 テストセット内のニュースドメインやニュースパブリッシャが、トレーニング期間中に完全に見えなくなるような方法で、データを設定することにより、提案モデルを評価する。 この設定により,提案手法はアルゴリズム的政治的バイアスを軽減し,73%の精度でニュース記事の政治的傾倒を予測できるベースライン手法を上回った。

Quantification of the political leaning of online news articles can aid in understanding the dynamics of political ideology in social groups and measures to mitigating them. However, predicting the accurate political leaning of a news article with machine learning models is a challenging task. This is due to (i) the political ideology of a news article is defined by several factors, and (ii) the innate nature of existing learning models to be biased with the political bias of the news publisher during the model training. There is only a limited number of methods to study the political leaning of news articles which also do not consider the algorithmic political bias which lowers the generalization of machine learning models to predict the political leaning of news articles published by any new news publishers. In this work, we propose a knowledge-infused deep learning model that utilizes relatively reliable external data resources to learn unbiased representations of news articles using their global and local contexts. We evaluate the proposed model by setting the data in such a way that news domains or news publishers in the test set are completely unseen during the training phase. With this setup we show that the proposed model mitigates algorithmic political bias and outperforms baseline methods to predict the political leaning of news articles with up to 73% accuracy.
翻訳日:2023-09-13 14:21:26 公開日:2023-09-12
# CleanUNet 2: 波形とスペクトログラムに基づくハイブリッド音声認識モデル

CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram ( http://arxiv.org/abs/2309.05975v1 )

ライセンス: Link先を確認
Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro(参考訳) 本研究では,波形デノイザーとスペクトログラムデノイザーの長所を組み合わせた音声デノイジングモデルであるcleanunet 2を提案する。 cleanunet 2は波形モデルとスペクトログラムモデルからなる一般的な音声合成法に触発された2段階のフレームワークを使用している。 具体的には、cleanunet 2は最先端の波形デノイザーであるcleanunetの上に構築され、スペクトログラムデノイザーから予測されたスペクトログラムを入力としてその性能をさらに向上させる。 cleanunet 2は, 様々な客観的評価, 主観評価において, 従来の手法を上回っている。

In this work, we present CleanUNet 2, a speech denoising model that combines the advantages of waveform denoiser and spectrogram denoiser and achieves the best of both worlds. CleanUNet 2 uses a two-stage framework inspired by popular speech synthesis methods that consist of a waveform model and a spectrogram model. Specifically, CleanUNet 2 builds upon CleanUNet, the state-of-the-art waveform denoiser, and further boosts its performance by taking predicted spectrograms from a spectrogram denoiser as the input. We demonstrate that CleanUNet 2 outperforms previous methods in terms of various objective and subjective evaluations.
翻訳日:2023-09-13 14:21:03 公開日:2023-09-12
# サーキットブレーキング:ターゲットアブレーションによるモデル挙動の除去

Circuit Breaking: Removing Model Behaviors with Targeted Ablation ( http://arxiv.org/abs/2309.05973v1 )

ライセンス: Link先を確認
Maximilian Li, Xander Davies, Max Nadeau(参考訳) 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。 モデルコンポーネント間の少数の因果経路をアブレーションし,悪行の原因となる計算回路を無効にすることを意図して,好ましくない振る舞いを除去する新しい手法を提案する。 モデルの動作が不十分な入力の小さなデータセットを考えると、少数の重要な因果経路をアブレーションすることを学ぶ。 GPT-2の有害な言語生成を減少させる設定では、11.6Kの因果縁のうち12個だけが、他の入力の性能低下を最小限に抑えられる。

Language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We propose a novel approach to removing undesirable behaviors by ablating a small number of causal pathways between model components, with the intention of disabling the computational circuit responsible for the bad behavior. Given a small dataset of inputs where the model behaves poorly, we learn to ablate a small number of important causal pathways. In the setting of reducing GPT-2 toxic language generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic generation with minimal degradation of performance on other inputs.
翻訳日:2023-09-13 14:20:50 公開日:2023-09-12
# フレームワイド離散特徴を用いた人体運動構造の自己教師的抽出

Self-supervised Extraction of Human Motion Structures via Frame-wise Discrete Features ( http://arxiv.org/abs/2309.05972v1 )

ライセンス: Link先を確認
Tetsuya Abe, Ryusuke Sagawa, Ko Ayusawa, Wataru Takano(参考訳) 本稿では,フレーム単位の離散特徴によって表現される人間の動きの構造を自己監督的に抽出するエンコーダ・デコーダモデルを提案する。 提案手法では,人間の知識を使わずに動作コードブックのコードとして特徴を抽出し,これらのコード間の関係をグラフ上で可視化する。 取得したフレームレートと時間的に疎外されることが期待され、複数のシーケンスで共有できるため、提案するネットワークモデルは、トレーニング制約の必要性にも対処する。 具体的には、自己アテンション層とベクトルクラスタリングブロックで構成される。 注意層は、疎いキーフレームと離散的な特徴をモーションコードとして見つけ、ベクトルクラスタリングによって抽出する。 制約はトレーニング損失として実現され、同一の動作符号を可能な限り連続し、複数のシーケンスで共有できる。 また,多数のフレームからなる長い列に対する注意度を計算する手法として,因果的自己着想の利用を提案する。 実験では,動き符号のスパース構造を用いて,符号間の関係とシーケンス間の差異の可視化を容易にするグラフをコンパイルした。 次に,複数の認識タスクに適用することにより,抽出した動作符号の有効性を評価し,線形探索によりタスク最適化手法に匹敵する性能レベルが達成できることを見出した。

The present paper proposes an encoder-decoder model for extracting the structures of human motions represented by frame-wise discrete features in a self-supervised manner. In the proposed method, features are extracted as codes in a motion codebook without the use of human knowledge, and the relationship between these codes can be visualized on a graph. Since the codes are expected to be temporally sparse compared to the captured frame rate and can be shared by multiple sequences, the proposed network model also addresses the need for training constraints. Specifically, the model consists of self-attention layers and a vector clustering block. The attention layers contribute to finding sparse keyframes and discrete features as motion codes, which are then extracted by vector clustering. The constraints are realized as training losses so that the same motion codes can be as contiguous as possible and can be shared by multiple sequences. In addition, we propose the use of causal self-attention as a method by which to calculate attention for long sequences consisting of numerous frames. In our experiments, the sparse structures of motion codes were used to compile a graph that facilitates visualization of the relationship between the codes and the differences between sequences. We then evaluated the effectiveness of the extracted motion codes by applying them to multiple recognition tasks and found that performance levels comparable to task-optimized methods could be achieved by linear probing.
翻訳日:2023-09-13 14:20:36 公開日:2023-09-12
# ニューラルネットワーク層行列分解による潜時マニフォールド符号化とメモリ容量の解明

Neural Network Layer Matrix Decomposition reveals Latent Manifold Encoding and Memory Capacity ( http://arxiv.org/abs/2309.05968v1 )

ライセンス: Link先を確認
Ng Shyh-Chang, A-Li Luo, Bo Qiu(参考訳) 普遍近似定理、すなわち、連続活性化関数のすべての安定収束したnnに対して、その重み行列は実際に、そのトレーニングデータセットを有限個の領域上の誤差のマージン内に近似する連続関数を符号化することを示すニューラルネットワーク(nn)符号化定理の逆を証明する。 さらに,各NN層に対する重み行列の特異値分解に対するエッカート・ヤングの定理を用いて,各NN層で符号化・表現されたトレーニングデータセットの潜在空間多様体の性質と,各NN層で実行される数学的演算の幾何学的性質を照らし出すことができることを示した。 本研究の結果は, NNがメモリ容量を表現力に活用することで, 次元の呪いをいかに破るかを理解すること, 両者が相補的であることを示唆している。 この階層行列分解(lmd)はさらに、nn層の固有分解とホップフィールドネットワークとトランスフォーマーnnモデルの概念化の最新の進歩との関係を示唆している。

We prove the converse of the universal approximation theorem, i.e. a neural network (NN) encoding theorem which shows that for every stably converged NN of continuous activation functions, its weight matrix actually encodes a continuous function that approximates its training dataset to within a finite margin of error over a bounded domain. We further show that using the Eckart-Young theorem for truncated singular value decomposition of the weight matrix for every NN layer, we can illuminate the nature of the latent space manifold of the training dataset encoded and represented by every NN layer, and the geometric nature of the mathematical operations performed by each NN layer. Our results have implications for understanding how NNs break the curse of dimensionality by harnessing memory capacity for expressivity, and that the two are complementary. This Layer Matrix Decomposition (LMD) further suggests a close relationship between eigen-decomposition of NN layers and the latest advances in conceptualizations of Hopfield networks and Transformer NN models.
翻訳日:2023-09-13 14:20:15 公開日:2023-09-12
# ebbとフローの評価:多様なプラットフォームにわたる質問応答トレンドの詳細な分析

Evaluating the Ebb and Flow: An In-depth Analysis of Question-Answering Trends across Diverse Platforms ( http://arxiv.org/abs/2309.05961v1 )

ライセンス: Link先を確認
Rima Hazra, Agnik Saha, Somnath Banerjee and Animesh Mukherjee(参考訳) コミュニティ質問回答(Community Question Answering, CQA)プラットフォームは,クエリに対する迅速な応答をユーザに提供することで,着実に人気を集めている。 これらの応答の迅速性は、クエリ固有要素とユーザ関連要素の混合に起因している。 本稿では,これらの要因を,人気の高い6つのCQAプラットフォームのコンテキスト内で調査する。 本研究は,質問に対する最初の回答を得るのに要する時間と,複数の変数(メタデータ,質問の定式化,ユーザ間のインタラクションのレベル)との相関関係を明らかにする。 さらに、従来の機械学習モデルを用いてこれらのメタデータとユーザインタラクションのパターンを分析し、どのクエリがすぐに最初のレスポンスを受け取るかを予測する。

Community Question Answering (CQA) platforms steadily gain popularity as they provide users with fast responses to their queries. The swiftness of these responses is contingent on a mixture of query-specific and user-related elements. This paper scrutinizes these contributing factors within the context of six highly popular CQA platforms, identified through their standout answering speed. Our investigation reveals a correlation between the time taken to yield the first response to a question and several variables: the metadata, the formulation of the questions, and the level of interaction among users. Additionally, by employing conventional machine learning models to analyze these metadata and patterns of user interaction, we endeavor to predict which queries will receive their initial responses promptly.
翻訳日:2023-09-13 14:19:55 公開日:2023-09-12
# 大規模言語モデルにおけるモラルマシン実験

The Moral Machine Experiment on Large Language Models ( http://arxiv.org/abs/2309.05958v1 )

ライセンス: Link先を確認
Kazuhiro Takemoto(参考訳) 大規模言語モデル(llm)が様々な分野に深く統合されるにつれて、モラル判断の方法を理解することが、特に自動運転の領域において重要になっている。 本研究は,GPT-3.5,GPT-4,PaLM 2,Llama 2などの著名なLCMの倫理的意思決定傾向を,人間の嗜好に対する反応と比較するために,Moral Machineフレームワークを利用した。 ペットよりも人間を優先し、より多くの命を救うことを好むというLLMや人間の嗜好は広く一致しているが、特にPaLM 2とLlama 2は相違を示す。 加えて、LLMと人間の嗜好の質的な類似性にも拘わらず、有意な量的な相違があり、LLMは人間の軽度の傾きに比べて、より非妥協的な決定に傾く可能性があることを示唆している。 これらの知見は、LLMの倫理的枠組みと、その自律運転への潜在的影響を解明する。

As large language models (LLMs) become more deeply integrated into various sectors, understanding how they make moral judgments has become crucial, particularly in the realm of autonomous driving. This study utilized the Moral Machine framework to investigate the ethical decision-making tendencies of prominent LLMs, including GPT-3.5, GPT-4, PaLM 2, and Llama 2, comparing their responses to human preferences. While LLMs' and humans' preferences such as prioritizing humans over pets and favoring saving more lives are broadly aligned, PaLM 2 and Llama 2, especially, evidence distinct deviations. Additionally, despite the qualitative similarities between the LLM and human preferences, there are significant quantitative disparities, suggesting that LLMs might lean toward more uncompromising decisions, compared to the milder inclinations of humans. These insights elucidate the ethical frameworks of LLMs and their potential implications for autonomous driving.
翻訳日:2023-09-13 14:19:42 公開日:2023-09-12
# beyond generation: テキストを画像モデルに活用してオブジェクトの検出とセグメンテーションを行う

Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation ( http://arxiv.org/abs/2309.05956v1 )

ライセンス: Link先を確認
Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Neel Joshi, Laurent Itti, Vibhav Vineet(参考訳) テキストと画像の合成フレームワーク(DALL-E, 安定拡散など)を用いて, 精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。 提案するアプローチ1は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的にコヒーレントなバックグラウンド生成に分離する。 前景オブジェクトを生成するには、入力プロンプトとしてオブジェクトクラス名を取り入れた単純なテキストテンプレートを用いる。 これはテキストから画像への合成フレームワークに供給され、孤立した背景に対して様々なフォアグラウンドイメージを生成する。 前景背景分割アルゴリズムを用いて前景オブジェクトマスクを生成する。 文脈画像を生成するために、まず文脈の言語記述を作成する。 これは、所望のコンテキストを表す画像の小さなセットに画像キャプション法を適用することで実現される。 これらのテキスト記述は、テキストから画像への合成フレームワークを通じて、さまざまなコンテキストイメージに変換される。 続いて,前景の被写体マスクを初期段階に合成し,カット・アンド・ペースト法を用いてトレーニングデータを定式化する。 我々は、Pascal VOCやCOCOを含む5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。 その結果,本手法で生成した合成データのみを学習した検出器は実データと同等の性能を発揮することがわかった(第1報)。 さらに、実データと合成データの組み合わせにより、さらに優れた結果が得られる。 さらに分析した結果, 合成データ分布は実データ分布を効率的に補完することがわかった。 さらに,アウトオブディストリビューションおよびゼロショットデータ生成シナリオにおけるデータ生成アプローチの構成的性質についても強調する。 私たちはhttps://github.com/gyhandy/Text2Image-for-detectionでコードをオープンソース化しました。

We propose a new paradigm to automatically generate training data with accurate labels at scale using the text-to-image synthesis frameworks (e.g., DALL-E, Stable Diffusion, etc.). The proposed approach1 decouples training data generation into foreground object generation, and contextually coherent background generation. To generate foreground objects, we employ a straightforward textual template, incorporating the object class name as input prompts. This is fed into a text-to-image synthesis framework, producing various foreground images set against isolated backgrounds. A foreground-background segmentation algorithm is then used to generate foreground object masks. To generate context images, we begin by creating language descriptions of the context. This is achieved by applying an image captioning method to a small set of images representing the desired context. These textual descriptions are then transformed into a diverse array of context images via a text-to-image synthesis framework. Subsequently, we composite these with the foreground object masks produced in the initial step, utilizing a cut-and-paste method, to formulate the training data. We demonstrate the advantages of our approach on five object detection and segmentation datasets, including Pascal VOC and COCO. We found that detectors trained solely on synthetic data produced by our method achieve performance comparable to those trained on real data (Fig. 1). Moreover, a combination of real and synthetic data yields even much better results. Further analysis indicates that the synthetic data distribution complements the real data distribution effectively. Additionally, we emphasize the compositional nature of our data generation approach in out-of-distribution and zero-shot data generation scenarios. We open-source our code at https://github.com/gyhandy/Text2Image-for-Detection
翻訳日:2023-09-13 14:19:23 公開日:2023-09-12
# GLAD:ログ異常検出のためのコンテンツ認識動的グラフ

GLAD: Content-aware Dynamic Graphs For Log Anomaly Detection ( http://arxiv.org/abs/2309.05953v1 )

ライセンス: Link先を確認
Yufei Li, Yanchi Liu, Haoyu Wang, Zhengzhang Chen, Wei Cheng, Yuncong Chen, Wenchao Yu, Haifeng Chen, Cong Liu(参考訳) ログは、イベントや状態を含む貴重なシステム情報を記録することによって、システムの監視とデバッグにおいて重要な役割を果たす。 ログシーケンスの異常を検出するために様々な方法が提案されているが、ログの内容から識別できるサービスやユーザなど、システムコンポーネント間の関係を考慮する重要性をしばしば見逃している。 これらの関係を理解することは、異常とその原因を検出するのに不可欠である。 この問題に対処するために,システムログのリレーショナル異常を検出するために設計されたグラフベースのログ異常検出フレームワークgreyを紹介する。 gladはログセマンティクス、リレーショナルパターン、シーケンシャルパターンを、異常検出のための統一フレームワークに組み込んでいる。 具体的には、最初にGLADは、プロンプトベースの少数ショット学習を利用してログコンテンツから必須フィールドを識別するフィールド抽出モジュールを導入する。 次に、GLADは、抽出したフィールドとログイベントをログパーサから解析することで、スライドウィンドウのための動的ロググラフを構築する。 これらのグラフはイベントとフィールドをノードとして表現し、それらの関係をエッジとして表現する。 その後、GLADは時間的アテンテートグラフエッジ異常検出モデルを用いて、これらの動的ロググラフの異常関係を同定する。 このモデルでは、グラフニューラルネットワーク(GNN)ベースのエンコーダを使用して、コンテント、構造、時間的特徴をキャプチャする。 提案手法を3つのデータセットで評価し, 異なる関係パターンで示される異常の検出におけるGLADの有効性を示した。

Logs play a crucial role in system monitoring and debugging by recording valuable system information, including events and states. Although various methods have been proposed to detect anomalies in log sequences, they often overlook the significance of considering relations among system components, such as services and users, which can be identified from log contents. Understanding these relations is vital for detecting anomalies and their underlying causes. To address this issue, we introduce GLAD, a Graph-based Log Anomaly Detection framework designed to detect relational anomalies in system logs. GLAD incorporates log semantics, relational patterns, and sequential patterns into a unified framework for anomaly detection. Specifically, GLAD first introduces a field extraction module that utilizes prompt-based few-shot learning to identify essential fields from log contents. Then GLAD constructs dynamic log graphs for sliding windows by interconnecting extracted fields and log events parsed from the log parser. These graphs represent events and fields as nodes and their relations as edges. Subsequently, GLAD utilizes a temporal-attentive graph edge anomaly detection model for identifying anomalous relations in these dynamic log graphs. This model employs a Graph Neural Network (GNN)-based encoder enhanced with transformers to capture content, structural and temporal features. We evaluate our proposed method on three datasets, and the results demonstrate the effectiveness of GLAD in detecting anomalies indicated by varying relational patterns.
翻訳日:2023-09-13 14:18:57 公開日:2023-09-12
# 大規模言語モデルを用いた公衆衛生のためのバランスと説明可能なソーシャルメディア分析

Balanced and Explainable Social Media Analysis for Public Health with Large Language Models ( http://arxiv.org/abs/2309.05951v1 )

ライセンス: Link先を確認
Yan Jiang, Ruihong Qiu, Yi Zhang, Peng-Fei Zhang(参考訳) ソーシャルメディアの人気が高まるにつれ、公衆衛生活動がますます増え、パンデミックの監視や政府の意思決定にも注目に値する。 公衆衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルを含んでいる。 LLMの最近の進歩は、特定のドメインデータセットを微調整することで、知識を理解する強力な能力を示しているが、特定の公衆衛生タスクごとにドメイン内LSMをトレーニングするコストは特に高い。 さらに、ソーシャルメディアからのそのようなドメイン内データセットは一般に高度に不均衡であり、LCMのチューニング効率を損なう。 これらの課題に対処するために、ソーシャルメディアデータセットの高度なデータ拡張手法によって、データの不均衡を克服することができる。 さらに、モデルを適切に促すことで、llmの能力を有効に利用することができる。 本稿では,上記の議論を踏まえて,ソーシャルメディアによる公衆衛生分析のための新しいalexフレームワークを提案する。 具体的には,データ不均衡問題を解決するために拡張パイプラインを開発した。 さらに, BERT モデルから予測結果を LLM に誘導することで LLM の説明機構を提案する。 ソーシャル・メディア・マイニング・フォー・ヘルス2023(SMM4H)コンペティションにおいて,2つのタスクにランクインした3つのタスクを対象とした大規模な実験を行った。 私たちのコードはhttps://github.com/YanJiangJerry/ALEXで公開されています。

As social media becomes increasingly popular, more and more public health activities emerge, which is worth noting for pandemic monitoring and government decision-making. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). Although recent progress in LLMs has shown a strong ability to comprehend knowledge by being fine-tuned on specific domain datasets, the costs of training an in-domain LLM for every specific public health task are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally highly imbalanced, which will hinder the efficiency of LLMs tuning. To tackle these challenges, the data imbalance issue can be overcome by sophisticated data augmentation methods for social media datasets. In addition, the ability of the LLMs can be effectively utilised by prompting the model properly. In light of the above discussion, in this paper, a novel ALEX framework is proposed for social media analysis on public health. Specifically, an augmentation pipeline is developed to resolve the data imbalance issue. Furthermore, an LLMs explanation mechanism is proposed by prompting an LLM with the predicted results from BERT models. Extensive experiments conducted on three tasks at the Social Media Mining for Health 2023 (SMM4H) competition with the first ranking in two tasks demonstrate the superior performance of the proposed ALEX method. Our code has been released in https://github.com/YanJiangJerry/ALEX.
翻訳日:2023-09-13 14:18:36 公開日:2023-09-12
# 高分解能リモートセンシング画像からの建物抽出のための特徴集約ネットワーク

Feature Aggregation Network for Building Extraction from High-resolution Remote Sensing Images ( http://arxiv.org/abs/2309.06017v1 )

ライセンス: Link先を確認
Xuan Zhou, Xuefeng Wei(参考訳) 高解像度衛星リモートセンシングデータ取得の急速な進歩、特にサブメータ精度の向上は、表面構造の特徴を詳細に抽出する可能性を見出している。 しかし、表面分布の多様性と複雑さは、表面特徴の局所化情報にのみ焦点を絞る現在の手法にしばしばつながる。 これはしばしば境界認識と建物間におけるクラス内変動をもたらす。 そのため,高解像度衛星画像から表面像を微細に抽出する作業は,リモートセンシング画像処理において重要な課題となっている。 本研究では,衛星リモートセンシング画像からのランドマークの抽出を可能にするため,地球的特徴と局所的特徴の抽出に重点を置いた特徴集約ネットワーク(fanet)を提案する。 ピラミッドビジョントランスフォーマーはこれらのグローバル機能をキャプチャし、その後特徴集約モジュールによって洗練され、差分除去モジュールによって凝集表現にマージされる。 さらに,包括的特徴マップを実現するために,受容的場ブロックと2重注意モジュールを導入し,受容的場を拡大し,空間的およびチャネル的次元にまたがって注意力を強めた。 複数のデータセットに対する大規模な実験は、高解像度衛星画像から特徴を抽出する際のFANetの際立った能力を検証する。 これはリモートセンシング画像処理の分野での大きなブレークスルーを意味する。 私たちはすぐにコードをリリースします。

The rapid advancement in high-resolution satellite remote sensing data acquisition, particularly those achieving submeter precision, has uncovered the potential for detailed extraction of surface architectural features. However, the diversity and complexity of surface distributions frequently lead to current methods focusing exclusively on localized information of surface features. This often results in significant intraclass variability in boundary recognition and between buildings. Therefore, the task of fine-grained extraction of surface features from high-resolution satellite imagery has emerged as a critical challenge in remote sensing image processing. In this work, we propose the Feature Aggregation Network (FANet), concentrating on extracting both global and local features, thereby enabling the refined extraction of landmark buildings from high-resolution satellite remote sensing imagery. The Pyramid Vision Transformer captures these global features, which are subsequently refined by the Feature Aggregation Module and merged into a cohesive representation by the Difference Elimination Module. In addition, to ensure a comprehensive feature map, we have incorporated the Receptive Field Block and Dual Attention Module, expanding the receptive field and intensifying attention across spatial and channel dimensions. Extensive experiments on multiple datasets have validated the outstanding capability of FANet in extracting features from high-resolution satellite images. This signifies a major breakthrough in the field of remote sensing image processing. We will release our code soon.
翻訳日:2023-09-13 14:12:43 公開日:2023-09-12
# ディープニューラルネットワークの補間・近似・制御性

Interpolation, Approximation and Controllability of Deep Neural Networks ( http://arxiv.org/abs/2309.06015v1 )

ライセンス: Link先を確認
Jingpu Cheng, Qianxiao Li, Ting Lin, Zuowei Shen(参考訳) 制御理論により連続力学系として理想化された深部ニューラルネットワークの表現力について検討する。 具体的には、任意の入力と目標のトレーニングサンプルにマッチするユニバーサル補間(universal interpolation)と、フローマップを介して入力とターゲットの機能的関係を近似するユニバーサル近似(universal approximation)という、教師あり学習から生じる2つの特性について考察する。 制御ファミリのアフィン不変性の仮定の下では、普遍補間の特徴を与え、非線型性を持つ任意のアーキテクチャに対して本質的に成り立つことを示す。 さらに,一般制御系における普遍補間と普遍近似の関係を解明し,この2つの性質は互いに推論できないことを示した。 同時に、制御ファミリーの条件と2つの概念の同値性を保証する対象関数を同定する。

We investigate the expressive power of deep residual neural networks idealized as continuous dynamical systems through control theory. Specifically, we consider two properties that arise from supervised learning, namely universal interpolation - the ability to match arbitrary input and target training samples - and the closely related notion of universal approximation - the ability to approximate input-target functional relationships via flow maps. Under the assumption of affine invariance of the control family, we give a characterisation of universal interpolation, showing that it holds for essentially any architecture with non-linearity. Furthermore, we elucidate the relationship between universal interpolation and universal approximation in the context of general control systems, showing that the two properties cannot be deduced from each other. At the same time, we identify conditions on the control family and the target function that ensures the equivalence of the two notions.
翻訳日:2023-09-13 14:12:24 公開日:2023-09-12
# 最適パルス駆動を用いた耐障害スワップゲート

High-tolerance antiblockade SWAP gates using optimal pulse drivings ( http://arxiv.org/abs/2309.06013v1 )

ライセンス: Link先を確認
Wan-Xia Li, Jin-Lei Wu, Shi-Lei Su, and Jing Qian(参考訳) 位置誤差は、2つの原子間の相対的な動きの変動が反ブロッケード条件