このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230912となっている論文です。

PDF登録状況(公開日: 20230912)

TitleAuthorsAbstract論文公表日・翻訳日
# 高速超大容量定数乗算のマルチプライアレス設計

Multiplierless Design of High-Speed Very Large Constant Multiplications ( http://arxiv.org/abs/2309.05550v2 )

ライセンス: Link先を確認
Levent Aksoy, Debapriya Basu Roy, Malik Imran, Samuel Pagliarini, (参考訳) 暗号アルゴリズムでは、変数に乗じるべき定数は、セキュリティ要件のために非常に大きい。 したがって、そのようなアルゴリズムのハードウェアの複雑さは、大きな定数を扱う設計アーキテクチャに大きく依存する。 本稿では,低複雑かつ高速なアプリケーションに対して,非常に大きな定数乗算を自動生成する,LEIGERという電子設計自動化ツールを提案する。 LEIGERはシフト加算アーキテクチャを利用して3入力演算、すなわちキャリーセーブ加算器(CSA)を使用することができる。 また、2と3のインプット演算を異なる段階で使用するハイブリッド設計アーキテクチャの下で、一定の乗算を生成することもできる。 さらに、圧縮機木を用いて設計アーキテクチャの下での定数乗法を記述することもできる。 ケーススタディとして、暗号アルゴリズムの基本演算である高速モンゴメリー乗算は、提案アーキテクチャで実現された定数乗算ブロックを用いて設計されている。 実験の結果, LEIGERにより設計者は, 非常に大きな定数とモンゴメリー乗算の遅延の領域間のトレードオフを探索することができ, エリア遅延積, 遅延, エネルギー消費値を持つ設計を最近提案したアルゴリズムよりも大幅に向上させることができることがわかった。

In cryptographic algorithms, the constants to be multiplied by a variable can be very large due to security requirements. Thus, the hardware complexity of such algorithms heavily depends on the design architecture handling large constants. In this paper, we introduce an electronic design automation tool, called LEIGER, which can automatically generate the realizations of very large constant multiplications for low-complexity and high-speed applications, targeting the ASIC design platform. LEIGER can utilize the shift-adds architecture and use 3-input operations, i.e., carry-save adders (CSAs), where the number of CSAs is reduced using a prominent optimization algorithm. It can also generate constant multiplications under a hybrid design architecture, where 2-and 3-input operations are used at different stages. Moreover, it can describe constant multiplications under a design architecture using compressor trees. As a case study, high-speed Montgomery multiplication, which is a fundamental operation in cryptographic algorithms, is designed with its constant multiplication block realized under the proposed architectures. Experimental results indicate that LEIGER enables a designer to explore the trade-off between area and delay of the very large constant and Montgomery multiplications and leads to designs with area-delay product, latency, and energy consumption values significantly better than those obtained by a recently proposed algorithm.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# 知識の体系化(SoK)-サイバーセキュリティにおける伝達学習のクロスインパクト--攻撃的、防御的、脅威的知性の観点から

Systemization of Knowledge (SoK)- Cross Impact of Transfer Learning in Cybersecurity: Offensive, Defensive and Threat Intelligence Perspectives ( http://arxiv.org/abs/2309.05889v1 )

ライセンス: Link先を確認
Sofiya Makar, Ali Dehghantanha, Fattane Zarrinkalam, Gautam Srivastava, Abbas Yazdinejad, (参考訳) 近年の文献では、トランスファーラーニングとサイバーセキュリティの間に大きな影響を与えている。 トランスファーラーニングを用いてセキュリティを高めるために多くの研究が行われ、様々なサイバーセキュリティタスクに様々な応用がもたらされた。 しかし、これまでの研究はサイバーセキュリティの特定の分野に焦点を当てていた。 本稿では,幅広い領域を網羅し,現状を把握し,未探索領域に光を当てることにより,サイバーセキュリティにおけるトランスファーラーニング応用の包括的調査を行う。 この調査は、検出精度の向上、トレーニング時間の短縮、データの不均衡の処理、プライバシー保護の強化など、サイバーセキュリティにおける重要な問題に対処する上で、トランスファーラーニングの重要性を強調している。 ラベル付きデータの欠如、異なるデータ分散、プライバシの懸念など、トランスファーラーニングを使用して解決された一般的な問題に関するさらなる洞察が提供される。 本稿では、プライバシー保護モデルの必要性、知識伝達のための自動ツール、ドメイン関連度測定のためのメトリクス、プライバシー保護機構の強化など、コミュニティの注意を要する今後の研究の方向性と課題を明らかにする。 この論文で示された洞察とロードマップは、サイバーセキュリティにおけるトランスファー学習をさらに推進し、新たな脅威に対処し、機密情報を保護するための堅牢で効率的なサイバーセキュリティシステムの開発を促進する。 我々の知る限り、この論文は、トランスファーラーニングの恩恵を受けたサイバーセキュリティのあらゆる分野の包括的分類を提示し、この領域における研究の方向性を形作るための詳細な今後のロードマップを提案する最初のものである。

Recent literature highlights a significant cross-impact between transfer learning and cybersecurity. Many studies have been conducted on using transfer learning to enhance security, leading to various applications in different cybersecurity tasks. However, previous research is focused on specific areas of cybersecurity. This paper presents a comprehensive survey of transfer learning applications in cybersecurity by covering a wide range of domains, identifying current trends, and shedding light on under-explored areas. The survey highlights the significance of transfer learning in addressing critical issues in cybersecurity, such as improving detection accuracy, reducing training time, handling data imbalance, and enhancing privacy preservation. Additional insights are provided on the common problems solved using transfer learning, such as the lack of labeled data, different data distributions, and privacy concerns. The paper identifies future research directions and challenges that require community attention, including the need for privacy-preserving models, automatic tools for knowledge transfer, metrics for measuring domain relatedness, and enhanced privacy preservation mechanisms. The insights and roadmap presented in this paper will guide researchers in further advancing transfer learning in cybersecurity, fostering the development of robust and efficient cybersecurity systems to counter emerging threats and protect sensitive information. To the best of our knowledge, this paper is the first of its kind to present a comprehensive taxonomy of all areas of cybersecurity that benefited from transfer learning and propose a detailed future roadmap to shape the possible research direction in this area.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# 適応型プライバシー損失パラメータを用いた対話型微分プライバシーのコンカレント構成

Concurrent Composition for Interactive Differential Privacy with Adaptive Privacy-Loss Parameters ( http://arxiv.org/abs/2309.05901v1 )

ライセンス: Link先を確認
Samuel Haney, Michael Shoemate, Grace Tian, Salil Vadhan, Andrew Vyrros, Vicki Xu, Wanrong Zhang, (参考訳) 本稿では,適応的に選択されたプライバシ-ロスパラメータを用いた対話機構の同時構成について検討する。 この設定では、相手はクエリを既存の対話メカニズムにインターリーブし、新しいものを作成することができる。 プライバシー損失を$(\epsilon, \delta)$-DP, $f$-DP, R\'enyi DPを一定の順序で測定した場合、非インタラクティブなメカニズムに対する有効なプライバシフィルタとオドメータは、対話機構の同時構成にまで拡張することを示す。 この結果から, 並列性はプライバシ保証に影響を与えないことを示すため, 差分的にプライベートな対話機構を構成する上で, 完全な適応性を実現するための強力な理論的基盤を提供する。 実際にデプロイするための実装も提供しています。

In this paper, we study the concurrent composition of interactive mechanisms with adaptively chosen privacy-loss parameters. In this setting, the adversary can interleave queries to existing interactive mechanisms, as well as create new ones. We prove that every valid privacy filter and odometer for noninteractive mechanisms extends to the concurrent composition of interactive mechanisms if privacy loss is measured using $(\epsilon, \delta)$-DP, $f$-DP, or R\'enyi DP of fixed order. Our results offer strong theoretical foundations for enabling full adaptivity in composing differentially private interactive mechanisms, showing that concurrency does not affect the privacy guarantees. We also provide an implementation for users to deploy in practice.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# DJI拡張Wi-Fiプロトコルにおけるリバースエンジニアリングとドローンハイジャックの事例

Behind The Wings: The Case of Reverse Engineering and Drone Hijacking in DJI Enhanced Wi-Fi Protocol ( http://arxiv.org/abs/2309.05913v1 )

ライセンス: Link先を確認
Derry Pratama, Jaegeun Moon, Agus Mahardika Ari Laksmono, Dongwook Yun, Iqbal Muhammad, Byeonguk Jeong, Janghyun Ji, Howon Kim, (参考訳) 本研究は,制御指令のリバースエンジニアリング解析とその後のハイジャック攻撃の実証に着目し,拡張Wi-Fiプロトコルの検証を行う。 調査では、強化Wi-Fiコントロールコマンドの脆弱性が発見され、ハイジャック攻撃の危険性が指摘されました。 この研究は、手軽で費用対効果の高い市販のWi-Fiルーターでも、そのような攻撃を実行する効果的なツールとして活用できることを証明した。 この脆弱性を説明するために、DJI Mini SEドローンで概念実証リモートハイジャック攻撃が行われ、制御コマンドをインターセプトしてドローンの飛行軌跡を操作した。 本研究の成果は、無人航空機をハイジャックの脅威から守るために、堅牢なセキュリティ対策を実装することの重要性を強調した。 民間ドローンが現在軍用兵器として使われていることを考えると、この研究は民間ドローンのセキュリティ分野におけるさらなる調査と進歩の必要性を浮き彫りにしている。

This research paper entails an examination of the Enhanced Wi-Fi protocol, focusing on its control command reverse-engineering analysis and subsequent demonstration of a hijacking attack. Our investigation discovered vulnerabilities in the Enhanced Wi-Fi control commands, rendering them susceptible to hijacking attacks. Notably, the study established that even readily available and cost-effective commercial off-the-shelf Wi-Fi routers could be leveraged as effective tools for executing such attacks. To illustrate this vulnerability, a proof-of-concept remote hijacking attack was carried out on a DJI Mini SE drone, whereby we intercepted the control commands to manipulate the drone's flight trajectory. The findings of this research emphasize the critical necessity of implementing robust security measures to safeguard unmanned aerial vehicles against potential hijacking threats. Considering that civilian drones are now used as war weapons, the study underscores the urgent need for further exploration and advancement in the domain of civilian drone security.
翻訳日:2024-03-19 06:53:05 公開日:2023-09-12
# 反復関数システムに基づく公開鍵暗号システム

Public key cryptosystems based on Iterated Functions Systems ( http://arxiv.org/abs/2309.05917v1 )

ライセンス: Link先を確認
Jacques Peyriere, Fengxia Liu, Zhiyong Zheng, Zixian Gong, (参考訳) f=(f_0,f_1,\dots,f_{\nu-1})$ を、ある空間~$X$ からそれ自身への 1 対 1 個の関数の集合とし、集合 $f_j(X)$ が非随伴であるとする。 w=w_1w_2\cdots w_k$ がアルファベット $\{0,1,\dots,\nu-1\}$ であるなら、$\Phi_{f,w} = f_{w_1}\circ f_{w_2}\circ \cdots\circ f_{w_k}$ とする。 関数~$F$が与えられたとき、$\Phi_{f,w}$と書くことができれば、~$w$は簡単に回収できる。 ある秘密鍵を使って新しいシステム($g=(g_1,g_2,\dots,g_{\nu-1})$を別のセット~$Y$で取得し、$g_j$のイメージがもはや分離されないようにする。 公開鍵が~$$である暗号システムを定義する。 暗号化されるメッセージはワード~w$で、関連する暗号文は$\Phi_{g,w}$です。 秘密鍵は$\Phi_{f,w}$を$\Phi_{g,w}$から回収することができる。

Let $f=(f_0,f_1,\dots, f_{\nu-1})$ be a collection of one-to-one functions from some space~$X$ into itself such that the sets $f_j(X)$ are disjoint. If $w=w_1w_2\cdots w_k$ is a word on the alphabet $\{0,1,\dots,\nu-1\}$, let $\Phi_{f,w} = f_{w_1}\circ f_{w_2}\circ\cdots\circ f_{w_k}$. Given a function~$F$ of which we know that it can be written as $\Phi_{f,w}$, it is easy to recover~$w$. We give some examples of this situation where everything can be scrambled up by using some private key to get a new system $g=(g_1,g_2,\dots,g_{\nu-1})$ on another set~$Y$ in such a way that the images of the $g_j$ are no longer disjoint. We define a cryptosystem whose public key is~$g$. The message to be encrypted is a word~$w$ and the associated cryptogram is $\Phi_{g,w}$. The private key allows to recover $\Phi_{f,w}$ from $\Phi_{g,w}$.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# あらゆるものをキャッチする:コンセプト・ウォーターマーキングでテキストのインバージョンを守る

Catch You Everything Everywhere: Guarding Textual Inversion via Concept Watermarking ( http://arxiv.org/abs/2309.05940v1 )

ライセンス: Link先を確認
Weitao Feng, Jiyan He, Jie Zhang, Tianwei Zhang, Wenbo Zhou, Weiming Zhang, Nenghai Yu, (参考訳) AIGC(AI-Generated Content)は、テキスト・ツー・イメージタスクのような多くのアプリケーションにおいて、さまざまなプロンプト、すなわち自然言語の異なる記述で高品質な画像を生成することができる。 さらに驚くべきことに、新しいパーソナライゼーション技術は、いくつかの個人イメージを参照として、目に見えない概念を記述することに成功し、価値あるパーソナライズされたコンセプトを共有するための商用プラットフォームもいくつか存在する。 しかし、このような高度な手法は、悪意のあるユーザーがターゲット概念を誤用して、高度に現実的な違法な画像を生成するという深刻な脅威をもたらす。 そのため、悪意のあるユーザーを追跡して責任を負う必要がある。 本稿では、最も人気のある軽量パーソナライズモデルであるテキスト・インバージョン(TI)の保護に焦点を当てる。 そこで本研究では,透かし情報を対象概念に埋め込んで,その概念に基づいて生成された画像から抽出する新しい概念透かしを提案する。 具体的には、ループ内のサンプルと透かしエンコーダと透かしデコーダを共同でトレーニングする。 悪意のあるユーザによって選択される可能性のある,さまざまな拡散サンプリングプロセスに対する大きなレジリエンスを示します。 実際には、コンセプトオーナは、自身のコンセプトを異なる透かし(e, serial number)をプラットフォームにアップロードすることができ、プラットフォームは異なるシリアル番号を、その後の追跡と法医学のために割り当てる。

AIGC (AI-Generated Content) has achieved tremendous success in many applications such as text-to-image tasks, where the model can generate high-quality images with diverse prompts, namely, different descriptions in natural languages. More surprisingly, the emerging personalization techniques even succeed in describing unseen concepts with only a few personal images as references, and there have been some commercial platforms for sharing the valuable personalized concept. However, such an advanced technique also introduces a severe threat, where malicious users can misuse the target concept to generate highly-realistic illegal images. Therefore, it becomes necessary for the platform to trace malicious users and hold them accountable. In this paper, we focus on guarding the most popular lightweight personalization model, ie, Textual Inversion (TI). To achieve it, we propose the novel concept watermarking, where watermark information is embedded into the target concept and then extracted from generated images based on the watermarked concept. Specifically, we jointly train a watermark encoder and a watermark decoder with the sampler in the loop. It shows great resilience to different diffusion sampling processes possibly chosen by malicious users, meanwhile preserving utility for normal use. In practice, the concept owner can upload his concept with different watermarks (ie, serial numbers) to the platform, and the platform allocates different users with different serial numbers for subsequent tracing and forensics.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# ランダムセグメンテーション: パケットサイズベースのサイドチャネル攻撃に対する新しいトラフィック難読化

Random Segmentation: New Traffic Obfuscation against Packet-Size-Based Side-Channel Attacks ( http://arxiv.org/abs/2309.05941v1 )

ライセンス: Link先を確認
Mnassar Alyami, Abdulmajeed Alghamdi, Mohammed Alkhowaiter, Cliff Zou, Yan Solihin, (参考訳) 暗号化されているにもかかわらず、パケットサイズはまだ見えており、オブザーバはIoT(Internet of Things)環境でプライベート情報を推測することができる(IoTデバイス識別など)。 パケットパディングは、データにノイズを加えることに依存するため、パケット長特性を高いデータオーバーヘッドで難なくする。 本稿では,ノイズを伴わずにパケットサイズをランダム化する,よりデータ効率のよい手法を提案する。 大規模なTCPセグメントをランダムな大きさのチャンクに分割することで,ノイズデータを追加せずにパケット長分布を難読化することができる。 TCPソケットを使用したクライアントサーバの実装は、アプリケーションレベルでのアプローチの実現可能性を示します。 ローカルソケットプログラミングパラメータを2つ調整することで,パケットサイズ制御を実現する。 まず、TCP_NODELAYオプションを使って、指定された長さのパケットを送信します。 第二に、送信バッファを小さくして、送信側が受信可能なより多くのデータを出力しないようにし、パケットサイズの制御を無効にします。 我々は4つのIoTデバイスのネットワークトレースに対する防御をシミュレートし、デバイス分類の精度を98%から63%に引き下げた。 一方、実世界のデータ伝送実験では、追加のレイテンシは21%未満で、追加のパケットヘッダーのオーバーヘッドは約5%である。

Despite encryption, the packet size is still visible, enabling observers to infer private information in the Internet of Things (IoT) environment (e.g., IoT device identification). Packet padding obfuscates packet-length characteristics with a high data overhead because it relies on adding noise to the data. This paper proposes a more data-efficient approach that randomizes packet sizes without adding noise. We achieve this by splitting large TCP segments into random-sized chunks; hence, the packet length distribution is obfuscated without adding noise data. Our client-server implementation using TCP sockets demonstrates the feasibility of our approach at the application level. We realize our packet size control by adjusting two local socket-programming parameters. First, we enable the TCP_NODELAY option to send out each packet with our specified length. Second, we downsize the sending buffer to prevent the sender from pushing out more data than can be received, which could disable our control of the packet sizes. We simulate our defense on a network trace of four IoT devices and show a reduction in device classification accuracy from 98% to 63%, close to random guessing. Meanwhile, the real-world data transmission experiments show that the added latency is reasonable, less than 21%, while the added packet header overhead is only about 5%.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# CToMP: 無人システムのためのサイクルタスク指向メモリ保護スキーム

CToMP: A Cycle-task-oriented Memory Protection Scheme for Unmanned Systems ( http://arxiv.org/abs/2309.05978v1 )

ライセンス: Link先を確認
Chengyan Ma, Ning Xi, Di Lu, Yebo Feng, Jianfeng Ma, (参考訳) メモリ破損攻撃(英: Memory corruption attack、MCA)とは、コンピュータシステムの正常な動作を妨害するためにメモリ位置の内容を変更するシステム侵入者の悪意ある行動を指す。 汎用システムとは異なり、無人システムは、サイズ、コスト、性能に制限があるため、完全なセキュリティ保護スキームを展開できない。 無人システムのMCAは特に防御が難しい。 さらに、MCAは無人システムにおいて多様で予測不可能な攻撃インタフェースを持ち、デジタルおよび物理的セクターに深刻な影響を与えている。 本稿では,現在無人システムにあるMCAを一般化し,モデル化し,分類し,ポータブルで汎用的な防衛手法を設計するための基礎を築いた。 異なる攻撃機構により, MCAは主にreturn2libcとreturn2shellcodeの2種類に分類されることがわかった。 return2libcアタックに対処するために、サイクル付き無人システムの不安定な動作をモデル化し、制御フローの改ざんを防ぐためのサイクルタスク指向メモリ保護(CToMP)アプローチを提案する。 return2shellcode攻撃に対する防御として,Shellcodeの実行を防止するためにメモリプールを活用することにより,ランダムなメモリアドレスを持つセキュアなプロセススタックを導入する。 また,リターン2libc 攻撃の新たな変種である ROP 攻撃に対して CTOMP が抵抗する機構についても論じる。 最後に,CUAV V5+ 上で Ardupilot と Crazyflie を用いて CTOMP を実装した。 評価とセキュリティ解析の結果から,提案手法は,フットプリントが低く,システムオーバーヘッドの少ない無人システムにおいて,様々なMCAに耐性があることが示されている。

Memory corruption attacks (MCAs) refer to malicious behaviors of system intruders that modify the contents of a memory location to disrupt the normal operation of computing systems, causing leakage of sensitive data or perturbations to ongoing processes. Unlike general-purpose systems, unmanned systems cannot deploy complete security protection schemes, due to their limitations in size, cost and performance. MCAs in unmanned systems are particularly difficult to defend against. Furthermore, MCAs have diverse and unpredictable attack interfaces in unmanned systems, severely impacting digital and physical sectors. In this paper, we first generalize, model and taxonomize MCAs found in unmanned systems currently, laying the foundation for designing a portable and general defense approach. According to different attack mechanisms, we found that MCAs are mainly categorized into two types--return2libc and return2shellcode. To tackle return2libc attacks, we model the erratic operation of unmanned systems with cycles and then propose a cycle-task-oriented memory protection (CToMP) approach to protect control flows from tampering. To defend against return2shellcode attacks, we introduce a secure process stack with a randomized memory address by leveraging the memory pool to prevent Shellcode from being executed. Moreover, we discuss the mechanism by which CToMP resists the ROP attack, a novel variant of return2libc attacks. Finally, we implement CToMP on CUAV V5+ with Ardupilot and Crazyflie. The evaluation and security analysis results demonstrate that the proposed approach CToMP is resilient to various MCAs in unmanned systems with low footprints and system overhead.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# HoneyEVSE:電気自動車のサプライ機器をエミュレートするHoneypot

HoneyEVSE: An Honeypot to emulate Electric Vehicle Supply Equipments ( http://arxiv.org/abs/2309.06077v1 )

ライセンス: Link先を確認
Massimiliano Baldo, Tommaso Bianchi, Mauro Conti, Alessio Trevisan, Federico Turrin, (参考訳) 気候変動と戦うために、新しい「グリーン」技術が登場し、そのほとんどが電力として電気を使用している。 ソリューションのうち、電気自動車(EV)は将来の輸送システムの中心的な資産である。 EVは、スマートグリッドとEVの間の充電プロセスを管理するために、いわゆるV2Gパラダイムを実現するための複雑なインフラを必要としている。 このパラダイムでは、電気自動車供給装置(EVSE)または充電ステーションは、車両を認証し、充電する電力を供給する最終装置である。 しかしながら、EVSEが公開されインターネットに接続されているため、最近の研究は、物理的な改ざんとリモートアクセスを持つ攻撃者がEVSEをターゲットとして、インフラストラクチャ全体と最終ユーザのセキュリティを公開する方法を示している。 そのため、このようなインフラを確保するための新たな戦略を開発することが重要である。 本稿では,EVSEを模擬した最初のハニーポットであるHoneyEVSEを紹介する。 HoneyEVSEは、EV充電プロセスの忠実度の高さをシミュレートすると同時に、ユーザがダッシュボードを通じてそれを操作できるようにする。 さらに、インターネット上に公開された他の充電カラムに基づいて、ログインおよびデバイス情報ページをエミュレートし、ユーザエンゲージメントを高める。 我々はHoneyEVSEを30日間インターネットに公開し、その能力を評価し、Shodan Honeyscoreで受信したインタラクションを測定した。 結果から,HoneyEVSEは露呈したサービス上で多数のインタラクションを惹きつけながら,Shodan honeyscoreメトリックを回避できることが示唆された。

To fight climate change, new "green" technology are emerging, most of them using electricity as a power source. Among the solutions, Electric Vehicles (EVs) represent a central asset in the future transport system. EVs require a complex infrastructure to enable the so-called Vehicle-to-Grid (V2G) paradigm to manage the charging process between the smart grid and the EV. In this paradigm, the Electric Vehicle Supply Equipment (EVSE), or charging station, is the end device that authenticates the vehicle and delivers the power to charge it. However, since an EVSE is publicly exposed and connected to the Internet, recent works show how an attacker with physical tampering and remote access can target an EVSE, exposing the security of the entire infrastructure and the final user. For this reason, it is important to develop novel strategies to secure such infrastructures. In this paper we present HoneyEVSE, the first honeypot conceived to simulate an EVSE. HoneyEVSE can simulate with high fidelity the EV charging process and, at the same time, enables a user to interact with it through a dashboard. Furthermore, based on other charging columns exposed on the Internet, we emulate the login and device information pages to increase user engagement. We exposed HoneyEVSE for 30 days to the Internet to assess its capability and measured the interaction received with its Shodan Honeyscore. Results show that HoneyEVSE can successfully evade the Shodan honeyscore metric while attracting a high number of interactions on the exposed services.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# 位置情報のプライバシメカニズムの体系的評価

Systematic Evaluation of Geolocation Privacy Mechanisms ( http://arxiv.org/abs/2309.06263v1 )

ライセンス: Link先を確認
Alban Héon, Ryan Sheatsley, Quinn Burke, Blaine Hoak, Eric Pauley, Yohan Beugin, Patrick McDaniel, (参考訳) 位置情報データプライバシは、位置情報ベースサービス(LBS)が生活の重要な部分となっているため、ユーザにとって深刻な関心事となっている。 悪意ある当事者が位置情報データにアクセスして、宗教や政治的見解などのユーザに関する機密情報を学習することは可能である。 位置情報プライバシ保護メカニズム(LPPM)は、ユーザがLBSを使用できるようにしながら、共有データのプライバシを確保するために、以前の作業によって提案されている。 しかし、ユーザがLBSを使用するシナリオに応じて、どのメカニズムを使うべきかを明確には見当たらない。 シナリオは、ユーザがLBS(レポートの頻度、レポートの数)を使用する方法です。 本稿では,LPPMが使用するシナリオに対する感度について検討する。 本稿では,LPPM,アタック,メトリクスの徹底的な組み合わせを考慮し,LPPMを体系的に評価する枠組みを提案する。 本フレームワークを用いて,導入したLPPMを改良した機構を含む選択したLPPMと比較する。 様々なシナリオを評価することで、研究されたメカニズムの有効性(プライバシ、ユーティリティ、ロバスト性)がシナリオに依存していることが分かる。 このシナリオは、特定のアプリケーションに対して難読化メカニズムを選択する際には不可欠であることを示す。

Location data privacy has become a serious concern for users as Location Based Services (LBSs) have become an important part of their life. It is possible for malicious parties having access to geolocation data to learn sensitive information about the user such as religion or political views. Location Privacy Preserving Mechanisms (LPPMs) have been proposed by previous works to ensure the privacy of the shared data while allowing the users to use LBSs. But there is no clear view of which mechanism to use according to the scenario in which the user makes use of a LBS. The scenario is the way the user is using a LBS (frequency of reports, number of reports). In this paper, we study the sensitivity of LPPMs on the scenario on which they are used. We propose a framework to systematically evaluate LPPMs by considering an exhaustive combination of LPPMs, attacks and metrics. Using our framework we compare a selection of LPPMs including an improved mechanism that we introduce. By evaluating over a variety of scenarios, we find that the efficacy (privacy, utility, and robustness) of the studied mechanisms is dependent on the scenario: for example the privacy of Planar Laplace geo-indistinguishability is greatly reduced in a continuous scenario. We show that the scenario is essential to consider when choosing an obfuscation mechanism for a given application.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# レベルアップ: レベルアップ同型暗号を用いたプライベート非インタラクティブ決定木の評価

Level Up: Private Non-Interactive Decision Tree Evaluation using Levelled Homomorphic Encryption ( http://arxiv.org/abs/2309.06496v1 )

ライセンス: Link先を確認
Rasoul Akhavan Mahdavi, Haoyan Ni, Dimitry Linkov, Florian Kerschbaum, (参考訳) マシンラーニング・アズ・ア・サービスの人気が高まるにつれ、プライバシや知的財産権に対する懸念が高まっている。 サービスはプロプライエタリなモデルを保護することを目的としているのに対して、ユーザはサービスを取得するためにプライベート情報を開示することをためらうことが多い。 機械学習モデルとして広く使用されている決定木は、その単純さ、解釈可能性、トレーニングの容易さに好まれる。 このコンテキストにおいて、プライベート決定木評価(PDTE)は、クライアントのプライベート属性に基づいて、プライベート決定木を保持するサーバが予測を提供することを可能にする。 プロトコルは、サーバがクライアントのプライベート属性について何も学ばないようなものです。 同様に、クライアントは予測とハイパーパラメータ以外に、サーバのモデルについて何も学ばない。 本稿では,新しい非対話型PDTEプロトコルであるXXCMP-PDTEとRCC-PDTEの2つの新しい非対話型PDTEプロトコルであるXXCMPとRCCをベースとして提案する。 これらの比較演算子の評価は,提案手法が高精度な数値を効率的に評価できることを実証するものである。 具体的には、RCCは32ビットの数を10ミリ秒未満で比較できる。 提案したPDTEプロトコルを、UCIデータセット上でトレーニングされた決定木上で評価し、その分野における既存の研究結果と比較する。 さらに,RCC-PDTEは1000以上のノードと16ビットの精度を持つ決定木を2秒以内で評価できることを示す。 対照的に、現在の最先端技術は、たった11ビットの精度で、そのような木を評価するのに10秒以上かかります。

As machine learning as a service continues gaining popularity, concerns about privacy and intellectual property arise. Users often hesitate to disclose their private information to obtain a service, while service providers aim to protect their proprietary models. Decision trees, a widely used machine learning model, are favoured for their simplicity, interpretability, and ease of training. In this context, Private Decision Tree Evaluation (PDTE) enables a server holding a private decision tree to provide predictions based on a client's private attributes. The protocol is such that the server learns nothing about the client's private attributes. Similarly, the client learns nothing about the server's model besides the prediction and some hyperparameters. In this paper, we propose two novel non-interactive PDTE protocols, XXCMP-PDTE and RCC-PDTE, based on two new non-interactive comparison protocols, XXCMP and RCC. Our evaluation of these comparison operators demonstrates that our proposed constructions can efficiently evaluate high-precision numbers. Specifically, RCC can compare 32-bit numbers in under 10 milliseconds. We assess our proposed PDTE protocols on decision trees trained over UCI datasets and compare our results with existing work in the field. Moreover, we evaluate synthetic decision trees to showcase scalability, revealing that RCC-PDTE can evaluate a decision tree with over 1000 nodes and 16 bits of precision in under 2 seconds. In contrast, the current state-of-the-art requires over 10 seconds to evaluate such a tree with only 11 bits of precision.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# ポンプ、ダンプ、それから何?暗号通貨のポンプ・ダンプ・スキームの長期的影響

Pump, Dump, and then What? The Long-Term Impact of Cryptocurrency Pump-and-Dump Schemes ( http://arxiv.org/abs/2309.06608v1 )

ライセンス: Link先を確認
Joshua Clough, Matthew Edwards, (参考訳) ポンプ・ダンプ・スキーム(英: pump and dump scheme)は、調整されたアクターがより高い価格で販売するために資産の価格を上昇させる市場操作攻撃の一種である。 強制力の欠如により、これらのスキームは暗号通貨市場に広く浸透しているが、これらのイベントがターゲットとするコインに負の影響が及ぼされることは、まだ完全には理解されていない。 論文では,Telegramチャネルから抽出されたポンプイベントの新たなデータセットに基づいて,ポンプチャネルの異なる戦術と,765枚のコインにまたがるポンプ・ダンプスキームの長期的影響について検討する。 また, 短期的な影響にもかかわらず, ポンプやダンプの長期的影響が対象資産に与える影響は否定的であり, ポンプ発生後1年で平均30%の相対的な価格下落がみられた。

The pump and dump scheme is a form of market manipulation attack in which coordinated actors drive up the price of an asset in order to sell at a higher price. Due in part to a lack of enforcement, these schemes are widespread within the cryptocurrency marketplace, but the negative impact of these events on the coins they target is not yet fully understood. Drawing upon a novel dataset of pump events extracted from Telegram channels, an order of magnitude larger than the nearest comparable dataset in the literature, we explore the differing tactics of pumping channels and the long-term impact of pump and dump schemes across 765 coins. We find that, despite a short-term positive impact in some cases, the long-term impact of pump and dump schemes on the targeted assets is negative, amounting to an average 30% relative drop in price a year after the pump event.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# 複数の変数を持つオンラインアルゴリズムの微分プライバシーの決定

Deciding Differential Privacy of Online Algorithms with Multiple Variables ( http://arxiv.org/abs/2309.06615v1 )

ライセンス: Link先を確認
Rohit Chadha, A. Prasad Sistla, Mahesh Viswanathan, Bishnu Bhusal, (参考訳) 本稿では、入力ストリームを処理し、各入力に対応する出力を生成するオンラインランダム化アルゴリズムの差分プライバシーチェックの問題について考察する。 本稿では,複数の実数値ストレージ変数を許容することにより,Dip Automatica (See arXiv:2104.14519) と呼ばれるオートマトンモデルを一般化する。 DiPオートマトンは、プライバシー予算$\epsilon$に依存するパラメトリックオートマトンである。 オートマトン$A$は、ある$\mathfrak{D}$の場合、$\mathfrak{D}\epsilon$-differentially private for all values of $\epsilon>0$である。 微分プライベートなDiPオートマチックのクラスを正確に同定する。 与えられたDiPオートマトンがこのクラスに属するかどうかを決定する問題はPSPACE完全であることを示す。 我々のPSPACEアルゴリズムは、与えられたオートマトンが微分プライベートであるときに、$\mathfrak{D}$の値も計算する。 アルゴリズムが実装され,その有効性を示す実験結果が提示された。

We consider the problem of checking the differential privacy of online randomized algorithms that process a stream of inputs and produce outputs corresponding to each input. This paper generalizes an automaton model called DiP automata (See arXiv:2104.14519) to describe such algorithms by allowing multiple real-valued storage variables. A DiP automaton is a parametric automaton whose behavior depends on the privacy budget $\epsilon$. An automaton $A$ will be said to be differentially private if, for some $\mathfrak{D}$, the automaton is $\mathfrak{D}\epsilon$-differentially private for all values of $\epsilon>0$. We identify a precise characterization of the class of all differentially private DiP automata. We show that the problem of determining if a given DiP automaton belongs to this class is PSPACE-complete. Our PSPACE algorithm also computes a value for $\mathfrak{D}$ when the given automaton is differentially private. The algorithm has been implemented, and experiments demonstrating its effectiveness are presented.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# 自動モデル選択による階層的非負行列分解による極端クラス不均衡下のマルウェア群の半教師付き分類

Semi-supervised Classification of Malware Families Under Extreme Class Imbalance via Hierarchical Non-Negative Matrix Factorization with Automatic Model Selection ( http://arxiv.org/abs/2309.06643v1 )

ライセンス: Link先を確認
Maksim E. Eren, Manish Bhattarai, Robert J. Joyce, Edward Raff, Charles Nicholas, Boian S. Alexandrov, (参考訳) マルウェア標本が属する家族の同定は、マルウェアの挙動を理解し、緩和戦略を開発する上で不可欠である。 しかし、先行研究によって提案された解決策は、現実的な評価因子が欠如しているため、しばしば実践不可能である。 これらの要因には、クラス不均衡下での学習、新しいマルウェアを識別する能力、生産品質のラベル付きデータのコストが含まれる。 実際には、デプロイされたモデルは、顕著で稀で新しいマルウェアファミリーに直面しています。 同時に、モデルを訓練するための最新のラベル付きマルウェアの大量取得もコストがかかる。 本稿では,これらの問題に対処し,HNMFk分類器(HNMFk Classifier)と呼ばれる新しい階層的半教師付きアルゴリズムを提案する。 本手法は,自動モデル選択による非負行列分解,すなわちクラスタ数の推定に基づく。 HNMFk分類器を用いて、マルウェアデータの階層構造と半教師付き設定を併用し、極度のクラス不均衡の条件下でマルウェア群を分類する。 我々のソリューションは、新しいマルウェアファミリーの識別において有望な結果を生み出し、低量のラベル付きデータを使用する場合のモデルの性能維持を支援する、持続的な予測または拒絶オプションを実行することができる。 EMBER-2018コーパスの388,000点のサンプルを静的解析により,2900点近いマルウェアの集団分類を行った。 実験では、F1スコアが0.80の教師付きベースラインモデルと半教師付きベースラインモデルの両方を上回った。

Identification of the family to which a malware specimen belongs is essential in understanding the behavior of the malware and developing mitigation strategies. Solutions proposed by prior work, however, are often not practicable due to the lack of realistic evaluation factors. These factors include learning under class imbalance, the ability to identify new malware, and the cost of production-quality labeled data. In practice, deployed models face prominent, rare, and new malware families. At the same time, obtaining a large quantity of up-to-date labeled malware for training a model can be expensive. In this paper, we address these problems and propose a novel hierarchical semi-supervised algorithm, which we call the HNMFk Classifier, that can be used in the early stages of the malware family labeling process. Our method is based on non-negative matrix factorization with automatic model selection, that is, with an estimation of the number of clusters. With HNMFk Classifier, we exploit the hierarchical structure of the malware data together with a semi-supervised setup, which enables us to classify malware families under conditions of extreme class imbalance. Our solution can perform abstaining predictions, or rejection option, which yields promising results in the identification of novel malware families and helps with maintaining the performance of the model when a low quantity of labeled data is used. We perform bulk classification of nearly 2,900 both rare and prominent malware families, through static analysis, using nearly 388,000 samples from the EMBER-2018 corpus. In our experiments, we surpass both supervised and semi-supervised baseline models with an F1 score of 0.80.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-12
# ブリッジレスのブロックチェインチェームを渡るアキューダクトアルゴリズム

Arguably Adequate Aqueduct Algorithm: Crossing A Bridge-Less Block-Chain Chasm ( http://arxiv.org/abs/2311.10717v1 )

ライセンス: Link先を確認
Ravi Kashyap, (参考訳) 我々は、複数のネットワークにまたがる預金、償還、投資資産を備えた、クロスチェーンの富管理プラットフォームであることの問題を考察する。 プラットフォーム間の資金フローを促進するためのブロックチェーンブリッジの必要性について論じる。 我々は既存の橋についていくつかの問題を指摘した。 我々は、現在の制約を克服するために最適化されたアルゴリズムを開発し、橋梁の容量を動的に変化させ、それによってネットワーク間で転送される量を削減した。 数値シミュレーションを用いていくつかのシナリオを解説する。

We consider the problem of being a cross-chain wealth management platform with deposits, redemptions and investment assets across multiple networks. We discuss the need for blockchain bridges to facilitates fund flows across platforms. We point out several issues with existing bridges. We develop an algorithm - tailored to overcome current constraints - that dynamically changes the utilization of bridge capacities and hence the amounts to be transferred across networks. We illustrate several scenarios using numerical simulations.
翻訳日:2024-03-18 23:02:51 公開日:2023-09-12
# スパイクニューラルネットワークにおける共学習シナプス遅延、重み付け、適応

Co-learning synaptic delays, weights and adaptation in spiking neural networks ( http://arxiv.org/abs/2311.16112v1 )

ライセンス: Link先を確認
Lucas Deckers, Laurens Van Damme, Ing Jyh Tsang, Werner Van Leekwijck and Steven Latr\'e(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的処理とスパイクベースの計算によって、ニューラルネットワーク(ANN)と区別される。 本稿では、スパイキングニューロンを用いたデータ処理が、他の2つの生物学的にインスパイアされたニューロンの特徴と接続重みを協調学習することによって向上できることを実証する。 1)ニューロン適応過程を記述するパラメータの組と、 2)シナプス伝播遅延。 前者では、スパイクニューロンが過去に基づいてスパイクに特異的に反応する方法を学ぶことができる。 訓練された適応パラメータは、脳内で見られる神経細胞の不均一性をもたらし、また利用可能なスパイクパターンの多様性も向上する。 後者は、時間的に離れたパターンを明示的に関連付けることができる。 シナプス遅延は、活動電位があるニューロンから別のニューロンへ移動するのに必要な時間を反映している。 共同学習した各特徴は、ベースラインSNNよりも改善され、両者の組み合わせは、単純な2階層フィードフォワードネットワークを用いて調査された全ての音声認識データセットに対して、最先端のSNN結果をもたらすことを示す。 我々のSNNは、トレーニング可能なパラメータが少なくても、ニューロモピックデータセット(Spiking Heidelberg DigitsとSpike Speech Commands)でANNより優れています。 35クラスのGoogle Speech Commandsデータセットでは、SNNも同様のサイズのGRUを上回っています。 我々の研究は、脳にインスパイアされたSNNの改善を示し、時間的ダイナミクスの豊富なタスクにおいて、同等の大きさのANNをエクササイズすることができる。

Spiking neural networks (SNN) distinguish themselves from artificial neural networks (ANN) because of their inherent temporal processing and spike-based computations, enabling a power-efficient implementation in neuromorphic hardware. In this paper, we demonstrate that data processing with spiking neurons can be enhanced by co-learning the connection weights with two other biologically inspired neuronal features: 1) a set of parameters describing neuronal adaptation processes and 2) synaptic propagation delays. The former allows the spiking neuron to learn how to specifically react to incoming spikes based on its past. The trained adaptation parameters result in neuronal heterogeneity, which is found in the brain and also leads to a greater variety in available spike patterns. The latter enables to learn to explicitly correlate patterns that are temporally distanced. Synaptic delays reflect the time an action potential requires to travel from one neuron to another. We show that each of the co-learned features separately leads to an improvement over the baseline SNN and that the combination of both leads to state-of-the-art SNN results on all speech recognition datasets investigated with a simple 2-hidden layer feed-forward network. Our SNN outperforms the ANN on the neuromorpic datasets (Spiking Heidelberg Digits and Spiking Speech Commands), even with fewer trainable parameters. On the 35-class Google Speech Commands dataset, our SNN also outperforms a GRU of similar size. Our work presents brain-inspired improvements to SNN that enable them to excel over an equivalent ANN of similar size on tasks with rich temporal dynamics.
翻訳日:2024-01-15 15:23:38 公開日:2023-09-12
# K-ST:PLCのための構造化テキスト言語の形式的実行可能な意味論

K-ST: A Formal Executable Semantics of the Structured Text Language for PLCs ( http://arxiv.org/abs/2202.04076v2 )

ライセンス: Link先を確認
Kun Wang, Jingyi Wang, Christopher M. Poskitt, Xiangxiang Chen, Jun Sun, and Peng Cheng(参考訳) PLC(Programmable Logic Controllers)は、多くの産業システム(製造業や公共インフラなど)におけるプロセス制御の自動化に責任を持つ。 PLCの大部分はStructured Text (ST) などの言語でプログラムされている。 しかし、形式的な意味論の欠如は、ベンダーからベンダーまで異なる翻訳者やコンパイラーの正確性を確認するのを難しくしている。 本研究では,K フレームワークにおける ST の形式的実行的意味論である K-ST を開発する。 IEC 61131-3標準とPLCベンダーマニュアルに関して定義されたK-STは、異なるST実装の正確性と一貫性を評価するために使用できる高レベルの参照セマンティクスである。 我々は、Githubから抽出した509のSTプログラムを実行し、既存の商用コンパイラ(CODESYS、CX-Programmer、GX Works2)と比較することで、K-STを検証する。 次に、オープンソースのOpenPLCプラットフォームの実装を検証するためにK-STを適用し、いくつかのテストプログラムの実行を比較して、コンパイラの5つのバグと9つの機能欠陥を明らかにする。

Programmable Logic Controllers (PLCs) are responsible for automating process control in many industrial systems (e.g. in manufacturing and public infrastructure), and thus it is critical to ensure that they operate correctly and safely. The majority of PLCs are programmed in languages such as Structured Text (ST). However, a lack of formal semantics makes it difficult to ascertain the correctness of their translators and compilers, which vary from vendor-to-vendor. In this work, we develop K-ST, a formal executable semantics for ST in the K framework. Defined with respect to the IEC 61131-3 standard and PLC vendor manuals, K-ST is a high-level reference semantics that can be used to evaluate the correctness and consistency of different ST implementations. We validate K-ST by executing 509 ST programs extracted from Github and comparing the results against existing commercial compilers (i.e., CODESYS, CX-Programmer, and GX Works2). We then apply K-ST to validate the implementation of the open source OpenPLC platform, comparing the executions of several test programs to uncover five bugs and nine functional defects in the compiler.
翻訳日:2023-10-24 15:38:14 公開日:2023-09-12
# LibAM: バイナリ内のサードパーティライブラリを検出するためのエリアマッチングフレームワーク

LibAM: An Area Matching Framework for Detecting Third-party Libraries in Binaries ( http://arxiv.org/abs/2305.04026v3 )

ライセンス: Link先を確認
Siyuan Li, Yongpan Wang, Chaopeng Dong, Shouguo Yang, Hong Li, Hao Sun, Zhe Lang, Zuxin Chen, Weijie Wang, Hongsong Zhu, Limin Sun(参考訳) サードパーティライブラリ(TPL)は、ソフトウェア開発プロセスの迅速化と外部機能を組み込むために、開発者に広く利用されている。 しかし、安全でないTPLの再利用は重大なセキュリティリスクをもたらす可能性がある。 既存の方法では、ターゲットバイナリにTPLコードが存在するかを決定する。 既存の文字列の抽出や関数マッチングを含む手法を用いて、ターゲットバイナリ内のTPLコードの存在を判定する。 しかし、これらの手法は弦の繰り返しや多くの類似した非ホモロジー関数の存在により不満足な結果をもたらすことが多い。 さらに、ターゲットバイナリ内の特定の再利用コードの特定に苦労し、複雑な再利用関係の検出を複雑にし、ダウンストリームタスクを妨げている。 本稿では,TPL の再利用は一般に孤立関数だけでなく,Function Call Graph (FCG) 上のいくつかの隣接関数を含む領域も含むことを観察する。 LibAMは分離された関数をFCG上の関数領域に接続し、これらの関数領域の類似性を比較することでTPLを検出する。 さらに、LibAMはFCGの正確な再利用領域を検出し、下流タスクに実質的な利点を提供する最初のアプローチである。 実験の結果, LibAMは既存のTPL検出方法よりも優れており, 正確な再利用領域を同定してTPL検出結果の解釈可能な証拠を提供することがわかった。 また,iotファームウェアにおける大規模実世界のバイナリにおけるlibamの精度を評価し,これらのデバイスに対する潜在的な脆弱性のリストを生成する。 最後に、IoTファームウェアの検出結果を分析することで、異なるターゲットバイナリが常にTPLと同じコード領域を再利用する傾向があるなど、興味深い結果がいくつか得られます。

Third-party libraries (TPLs) are extensively utilized by developers to expedite the software development process and incorporate external functionalities. Nevertheless, insecure TPL reuse can lead to significant security risks. Existing methods are employed to determine the presence of TPL code in the target binary. Existing methods, which involve extracting strings or conducting function matching, are employed to determine the presence of TPL code in the target binary. However, these methods often yield unsatisfactory results due to the recurrence of strings and the presence of numerous similar non-homologous functions. Additionally, they struggle to identify specific pieces of reused code in the target binary, complicating the detection of complex reuse relationships and impeding downstream tasks. In this paper, we observe that TPL reuse typically involves not just isolated functions but also areas encompassing several adjacent functions on the Function Call Graph (FCG). We introduce LibAM, a novel Area Matching framework that connects isolated functions into function areas on FCG and detects TPLs by comparing the similarity of these function areas. Furthermore, LibAM is the first approach capable of detecting the exact reuse areas on FCG and offering substantial benefits for downstream tasks. Experimental results demonstrate that LibAM outperforms all existing TPL detection methods and provides interpretable evidence for TPL detection results by identifying exact reuse areas. We also evaluate LibAM's accuracy on large-scale, real-world binaries in IoT firmware and generate a list of potential vulnerabilities for these devices. Last but not least, by analyzing the detection results of IoT firmware, we make several interesting findings, such as different target binaries always tend to reuse the same code area of TPL.
翻訳日:2023-10-24 12:03:57 公開日:2023-09-12
# 量子プログラムデバッグにおけるバギーセグメントの配置

Locating Buggy Segments in Quantum Program Debugging ( http://arxiv.org/abs/2309.04266v2 )

ライセンス: Link先を確認
Naoto Sato and Ryota Katsube(参考訳) 量子コンピュータ上で量子プログラムをテストすることでバグが検出されると、その修正のためにその詳細位置を判断したい。 バグを見つけるため、量子プログラムは複数のセグメントに分割され、各セグメントがテストされる。 しかし、セグメントに入力される量子状態を作成するには、そのセグメントに先立って量子コンピュータで全てのセグメントを実行する必要がある。 つまり、各セグメントのテストコストは、その場所に依存する。 また、バギーセグメントの前にすべてのセグメントにバグがないことが確認された場合にのみバギーセグメントを見つけることも可能です。 量子プログラムは、測定結果に基づいて統計的にテストされるため、テスト精度とコストの間にはトレードオフがある。 これらの特徴は量子プログラムに特有のものであり、バグの特定が複雑であるが、研究されていない。 我々は,これらの特徴を効率的にバグを見つけるために考慮すべきことを初めて提案する。 また,これらの特性を考慮したバグ検出手法を最初に提案する。 実験の結果,提案手法を用いることで,実行された量子ゲート数として表されるバグ発見コストを削減できることが示唆された。

When a bug is detected by testing a quantum program on a quantum computer, we want to determine its detailed location to fix it. To locate the bug, the quantum program is divided into several segments and each segment is tested. However, to prepare a quantum state that is input to a segment, it is necessary to execute all the segments ahead of that segment in a quantum computer. This means that the cost of testing each segment depends on its location. We can also locate a buggy segment only if it is confirmed that there are no bugs in all segments ahead of that buggy segment. Since a quantum program is tested statistically on the basis of measurement results, there is a tradeoff between testing accuracy and cost. Although these characteristics are unique to quantum programs and complicate locating bugs, they have not been investigated. We suggest for the first time that these characteristics should be considered to efficiently locate bugs. We are also the first to propose a bug-locating method that takes these characteristics into account. The results from experiments indicate that the bug-locating cost that is represented as the number of executed quantum gates can be reduced with the proposed method compared with naive methods.
翻訳日:2023-10-23 08:23:39 公開日:2023-09-12
# マイクロサービスアーキテクチャにおける変更のリスク評価

Evaluating the Risk of Changes in a Microservices Architecture ( http://arxiv.org/abs/2309.06238v1 )

ライセンス: Link先を確認
Matteo Collina (1), Luca Maraschi (1), Tommaso Pirini 1. Platformatic Inc(参考訳) マイクロサービスベースのシステムでは、信頼性と可用性が、コンシューマにとって最高のクラスエクスペリエンスを保証する重要なコンポーネントです。 マイクロサービスアーキテクチャの重要なメリットのひとつは、サービスを独立してデプロイし、変更の柔軟性を最大化できることです。 しかしながら、これは、すべての変更に関連するリスクを管理するための余分な複雑さをもたらす。 本研究では,システム内の任意のマイクロサービスに対する各変更に関連するリスクを開発チームが決定可能にするアルゴリズムを提案する。

In a microservices-based system, reliability and availability are key components to guarantee the best-in-class experience for the consumers. One of the key advantages of microservices architecture is the ability to independently deploy services, providing maximum change flexibility. However, this introduces an extra complexity in managing the risk associated with every change: any mutation of a service might cause the whole system to fail. In this research, we would propose an algorithm to enable development teams to determine the risk associated with each change to any of the microservices in the system.
翻訳日:2023-10-23 08:12:39 公開日:2023-09-12
# REVIS: Rustのエラー可視化ツール

REVIS: An Error Visualization Tool for Rust ( http://arxiv.org/abs/2309.06640v1 )

ライセンス: Link先を確認
Ruochen Wang and Molly Maclaren and Michael Coblenz(参考訳) Rustは、所有権の概念を使用して、ガベージコレクタを使わずにメモリ安全性を保証するプログラミング言語である。 しかしながら、オーナシップに関連するエラーメッセージの中には、特にバリューライフタイムに依存するような、理解と修正が難しいものもあります。 ディベロッパがライフタイム関連のエラーを修正するのを助けるために、VSCodeエクステンションであるREVISを開発した。 我々は、VSCode拡張の設計と実装、およびRustの学生学習者に対するその効果の予備的な評価について述べる。 また,REVISの有効性を評価するには参加者数が少なかったが,参加者が遭遇したコンパイラエラーの頻度と時間に関するデータを収集した。

Rust is a programming language that uses a concept of ownership to guarantee memory safety without the use of a garbage collector. However, some error messages related to ownership can be difficult to understand and fix, particularly those that depend on value lifetimes. To help developers fix lifetime-related errors, we developed REVIS, a VSCode extension that visualizes lifetime-related Rust compiler errors. We describe the design and implementation of the VSCode extension, along with a preliminary evaluation of its efficacy for student learners of Rust. Although the number of participants was too low to enable evaluation of the efficacy of REVIS, we gathered data regarding the prevalence and time to fix the compiler errors that the participants encountered.
翻訳日:2023-10-23 08:02:49 公開日:2023-09-12
# ゲームエンジンサブシステムの可視化

Visualising Game Engine Subsystem Coupling ( http://arxiv.org/abs/2309.06329v1 )

ライセンス: Link先を確認
Gabriel C. Ullmann, Yann-Ga\"el Gu\'eh\'eneuc, Fabio Petrillo, Nicolas Anquetil, Cristiano Politowski(参考訳) ゲームエンジンはグラフィックレンダリングや入出力デバイス管理などの機能を提供することでビデオゲーム開発をサポートする。 しかし、それらのアーキテクチャはしばしば見過ごされ、統合と拡張を妨げる。 本稿では,10種類のオープンソースゲームエンジンのアーキテクチャモデルを作成するためのアーキテクチャ復元手法を提案する。 私たちはこれらのモデルを使って、以下の質問に答えています。 ゲームエンジンはサブシステム結合パターンを共有しているか? 我々は,低レベルレンダラー,プラットフォーム独立層,リソースマネージャがゲームエンジンCoreに頻繁に結合されていることを観察する。 最も頻繁な結合パターンを特定することで、創発的なゲームエンジンアーキテクチャを説明し、システム理解と保守性を改善するために実践者がどのように使用できるかについて議論する。

Game engines support video game development by providing functionalities such as graphics rendering or input/output device management. However, their architectures are often overlooked, which hinders their integration and extension. In this paper, we use an approach for architecture recovery to create architectural models for 10 open-source game engines. We use these models to answer the following questions: Which subsystems more often couple with one another? Do game engines share subsystem coupling patterns? We observe that the Low-Level Renderer, Platform Independence Layer and Resource Manager are frequently coupled to the game engine Core. By identifying the most frequent coupling patterns, we describe an emergent game engine architecture and discuss how it can be used by practitioners to improve system understanding and maintainability.
翻訳日:2023-10-23 08:02:38 公開日:2023-09-12
# ソフトウェア開発における透明性に対する開発者の認識の理解に向けて--予備的研究

Towards an Understanding of Developers' Perceptions of Transparency in Software Development: A Preliminary Study ( http://arxiv.org/abs/2309.06161v1 )

ライセンス: Link先を確認
Humphrey O. Obie, Juliet Ukwella, Kashumi Madampe, John Grundy, Mojtaba Shahin(参考訳) ソフトウェアアプリケーションは、コミュニケーションやエンターテイメントからビジネスや医療に至るまで、私たちの生活の様々な面でますます重要な役割を担っています。 これらのアプリケーションが普及するにつれて、ソフトウェア開発における人的価値を考えることの重要性が注目されている。 本研究では,人間の価値に対する開発者の認識と経験を,透明性の人的価値に焦点をあてて調査する。 私たちは5人の経験豊富な開発者に対してインタビューを行い、開発者が透明性をどのように認識しているか、透明性違反、報告された透明性違反を修正するプロセスについて、テーマ分析を行った。 開発者は、信頼の構築、説明責任の促進、倫理的プラクティスの育成において透明性が重要であることを認識しています。 開発者は透明性の人間的価値の侵害による否定的な結果を認識し、報告された違反を修正するための体系的なプロセスに従う。 これには調査、根本原因分析、修正行動計画、共同問題解決、テストと検証が含まれる。 これらの予備的な発見は、ソフトウェア開発における透明性の理解に寄与し、倫理的実践を促進するための洞察を提供する。

Software applications play an increasingly critical role in various aspects of our lives, from communication and entertainment to business and healthcare. As these applications become more pervasive, the importance of considering human values in software development has gained significant attention. In this preliminary study, we investigate developers's perceptions and experiences related to human values, with a focus on the human value of transparency. We interviewed five experienced developers and conducted thematic analysis to explore how developers perceive transparency, violations of transparency, and the process of fixing reported violations of transparency. Our findings reveal the significance of transparency as a fundamental value in software development, with developers recognising its importance for building trust, promoting accountability, and fostering ethical practices. Developers recognise the negative consequences of the violation of the human value of transparency and follow a systematic process to fix reported violations. This includes investigation, root cause analysis, corrective action planning, collaborative problem-solving, and testing and verification. These preliminary findings contribute to the understanding of transparency in software development and provide insights for promoting ethical practices.
翻訳日:2023-10-23 08:01:58 公開日:2023-09-12
# ソフトウェアメタ言語のためのオンラインネームベースナビゲーション

Online Name-Based Navigation for Software Meta-languages ( http://arxiv.org/abs/2309.06121v1 )

ライセンス: Link先を確認
Peter D. Mosses(参考訳) ソフトウェア言語の設計と実装は、しばしば様々な難解なメタ言語で書かれた仕様を含んでいる。 言語ワークベンチは一般的に、言語仕様をローカルで閲覧するときに正確な名前ベースのナビゲーションをサポートするが、コードリポジトリで同じ仕様をオンラインで閲覧する場合、そのようなサポートは欠落している。 本稿では,通常のWebブラウザを用いたオンラインリポジトリにおける言語仕様の正確な名前に基づくナビゲーションを支援する手法を提案する。 仕様テキストの冗長なコピーが、名前参照と宣言の間のハイパーリンクによって拡張されるWebサイトである。 言語ワークベンチ内で使用される名前バインディング分析から直接ハイパーリンクを生成することで、ハイパーリンク双子のオンラインナビゲーションは、ローカルナビゲーションと自動的に一致します。 このテクニックは、spoofax言語ワークベンチ向けに実装され、spoofaxメタ言語における様々な言語仕様からハイパーリンクされたツインwebサイトを生成するために使用される。 しかし、この技術の適用性はspoofaxに限らず、他の言語ワークベンチの開発者はおそらく同様のツールを実装して、ワークベンチをインストールしていない人に言語仕様をよりアクセスしやすくすることができるだろう。

Software language design and implementation often involve specifications written in various esoteric meta-languages. Language workbenches generally include support for precise name-based navigation when browsing language specifications locally, but such support is lacking when browsing the same specifications online in code repositories. This paper presents a technique to support precise name-based navigation of language specifications in online repositories using ordinary web browsers. The idea is to generate hyperlinked twins: websites where verbatim copies of specification text are enhanced with hyperlinks between name references and declarations. By generating hyperlinks directly from the name binding analysis used internally in a language workbench, online navigation in hyperlinked twins is automatically consistent with local navigation. The presented technique has been implemented for the Spoofax language workbench, and used to generate hyperlinked twin websites from various language specifications in Spoofax meta-languages. However, the applicability of the technique is not limited to Spoofax, and developers of other language workbenches could presumably implement similar tooling, to make their language specifications more accessible to those who do not have the workbench installed.
翻訳日:2023-10-23 08:01:41 公開日:2023-09-12
# マシンアンラーニングによるバックドア攻撃

Backdoor Attack through Machine Unlearning ( http://arxiv.org/abs/2310.10659v1 )

ライセンス: Link先を確認
Peixin Zhang, Jun Sun, Mingtian Tan, Xinyu Wang(参考訳) 近年、ディープラーニングの研究や応用の急速な発展により、人工知能のセキュリティ問題がますます顕著になっている。 バックドアアタック(backdoor attack)は、攻撃者が埋め込んだトリガによって隠れたバックドアが起動されるディープラーニングモデルの脆弱性を標的とする攻撃である。 本研究では,機械学習に基づく新しいブラックボックスバックドア攻撃を提案する。 攻撃者はまず、毒物や緩和データを含む注意深く設計されたサンプルで訓練セットを補強して「良性」モデルを訓練する。 そして、攻撃者は緩和サンプルの未学習の要求をポストし、モデルの関連データの影響を取り除き、徐々に隠れたバックドアを活性化する。 バックドアは反復的アンラーニングプロセス中に埋め込まれるため、バックドア検出や緩和のための既存の防御手法の計算オーバーヘッドを大幅に増大させる。 この新たなセキュリティ脅威に対処するために、このような悪意ある未学習要求を検知または緩和する2つの方法を提案する。 初歩的なアンラーニングとSISA設定の両方で実験を行う。 実験の結果は 1)我々の攻撃はバックドアをモデルにうまく埋め込むことができ、シャーディングは攻撃の困難を増す。 2) 検出アルゴリズムは緩和サンプルの同定に有効であるが, シャーディングは検出アルゴリズムの有効性を低下させる。

In recent years, the security issues of artificial intelligence have become increasingly prominent due to the rapid development of deep learning research and applications. Backdoor attack is an attack targeting the vulnerability of deep learning models, where hidden backdoors are activated by triggers embedded by the attacker, thereby outputting malicious predictions that may not align with the intended output for a given input. In this work, we propose a novel black-box backdoor attack based on machine unlearning. The attacker first augments the training set with carefully designed samples, including poison and mitigation data, to train a 'benign' model. Then, the attacker posts unlearning requests for the mitigation samples to remove the impact of relevant data on the model, gradually activating the hidden backdoor. Since backdoors are implanted during the iterative unlearning process, it significantly increases the computational overhead of existing defense methods for backdoor detection or mitigation. To address this new security threat, we propose two methods for detecting or mitigating such malicious unlearning requests. We conduct the experiment in both naive unlearning and SISA settings. Experimental results show that: 1) our attack can successfully implant backdoor into the model, and sharding increases the difficulty of attack; 2) our detection algorithms are effective in identifying the mitigation samples, while sharding reduces the effectiveness of our detection algorithms.
翻訳日:2023-10-23 02:33:20 公開日:2023-09-12
# 指紋攻撃: フェデレーション学習におけるクライアントの匿名化

Fingerprint Attack: Client De-Anonymization in Federated Learning ( http://arxiv.org/abs/2310.05960v1 )

ライセンス: Link先を確認
Qiongkai Xu and Trevor Cohn and Olga Ohrimenko(参考訳) 連合学習(federated learning)は、参加者が中央サーバを信頼していない設定で、データ共有を伴わない共同トレーニングを可能にする。 参加者とサーバ間のコミュニケーションがシャッフルによって匿名化され、参加者のアイデンティティをデータから分離することで、プライバシをさらに改善することができる。 本論文は,サーバに送信される勾配に対して,新たな指紋認証攻撃を提案することにより,匿名性を保証するのに適切かどうかを検討することを目的とする。 2つの言語コーパスにおける連合言語モデルの学習実験において,勾配のクラスタリングにより匿名化が容易に破られることを示した。 次に、差分プライバシーによるトレーニングが、指紋攻撃に対する実用的な防御に役立つことを示す。

Federated Learning allows collaborative training without data sharing in settings where participants do not trust the central server and one another. Privacy can be further improved by ensuring that communication between the participants and the server is anonymized through a shuffle; decoupling the participant identity from their data. This paper seeks to examine whether such a defense is adequate to guarantee anonymity, by proposing a novel fingerprinting attack over gradients sent by the participants to the server. We show that clustering of gradients can easily break the anonymization in an empirical study of learning federated language models on two language corpora. We then show that training with differential privacy can provide a practical defense against our fingerprint attack.
翻訳日:2023-10-15 14:26:26 公開日:2023-09-12
# 不均一アンサンブル深層学習による地すべりの自動検出

Automating global landslide detection with heterogeneous ensemble deep-learning classification ( http://arxiv.org/abs/2310.05959v1 )

ライセンス: Link先を確認
Alexandra Jarna Ganer{\o}d, Gabriele Franch, Erin Lindsay, Martina Calovi(参考訳) 気候の変化に伴い、極度の気象現象と地すべりを含む二次的な結果が既に増加しています。 地すべりは道路、鉄道、建物、人間の生活などのインフラを脅かす。 危険に基づく空間計画と早期警戒システムは、地すべりから社会へのリスクを減らすための費用対効果の戦略である。 しかし、どちらも過去の地すべり事件のデータに依存しており、しばしば少ない。 近年,中~高解像度の衛星画像を入力として陸地マッピングに多くの深層学習(DL)モデルが適用されている。 しかし、感度の問題や過剰フィッティング、マッピング精度の低さに苦しむことが多い。 本研究では,Unet,Linknet,PSP-Net,PAN,DeepLabなど,さまざまなセグメンテーションモデルを使用し,それらのパフォーマンスに基づいてアンサンブルモデルを構築することにより,これらの制限に対処する。 アンサンブルモデルはsentinel-1とsentinel-2のバンドを組み合わせることで最も高いf1-score (0.69) を達成し、アンサンブルサイズが20の場合平均で6.87%向上した。 一方、センチネル-2バンドは非常によく演奏され、アンサンブルサイズが20でf1スコアが0.61、アンサンブルサイズが20で14.59%向上した。 この結果から,植生指標dNDVIのみの変化に基づく,堅牢で信頼性の高いモニタリングシステムの構築の可能性が示唆された。

With changing climatic conditions, we are already seeing an increase in extreme weather events and their secondary consequences, including landslides. Landslides threaten infrastructure, including roads, railways, buildings, and human life. Hazard-based spatial planning and early warning systems are cost-effective strategies to reduce the risk to society from landslides. However, these both rely on data from previous landslide events, which is often scarce. Many deep learning (DL) models have recently been applied for landside mapping using medium- to high-resolution satellite images as input. However, they often suffer from sensitivity problems, overfitting, and low mapping accuracy. This study addresses some of these limitations by using a diverse global landslide dataset, using different segmentation models, such as Unet, Linknet, PSP-Net, PAN, and DeepLab and based on their performances, building an ensemble model. The ensemble model achieved the highest F1-score (0.69) when combining both Sentinel-1 and Sentinel-2 bands, with the highest average improvement of 6.87 % when the ensemble size was 20. On the other hand, Sentinel-2 bands only performed very well, with an F1 score of 0.61 when the ensemble size is 20 with an improvement of 14.59 % when the ensemble size is 20. This result shows considerable potential in building a robust and reliable monitoring system based on changes in vegetation index dNDVI only.
翻訳日:2023-10-15 14:26:14 公開日:2023-09-12
# Tカウントの最適化はNPハードである

Optimising T-count is NP-hard ( http://arxiv.org/abs/2310.05958v1 )

ライセンス: Link先を確認
John van de Wetering, Matt Amy(参考訳) 本稿では,ブール整合性は量子回路のTゲートの最適個数が減少し,Tカウントの最適化がNPハードであることを示す。

In this short note we show that Boolean satisfiability reduces to finding the optimal number of T gates of a quantum circuit, and hence that optimising T-count is NP-hard.
翻訳日:2023-10-15 14:25:51 公開日:2023-09-12
# SAF: 医薬品発見における原子の重要度と予測率向上のためのスマートアグリゲーションフレームワーク

SAF: Smart Aggregation Framework for Revealing Atoms Importance Rank and Improving Prediction Rates in Drug Discovery ( http://arxiv.org/abs/2310.03028v1 )

ライセンス: Link先を確認
Ronen Taub, Yonatan Savir(参考訳) 機械学習、特に表現学習は、シリコの大きな化学空間をスクリーニングすることで、創薬を促進する可能性を秘めている。 分子を表現するための成功したアプローチは、それらをグラフとして扱い、グラフニューラルネットワークを利用することである。 このような方法の重要な制限の1つは、原子の数が異なる化合物を表現する必要があることである。 平均化のような一般的な集約演算子は、原子レベルでの情報を失う。 本研究では,温度に類似したハイパーパラメータを持つボルツマン分布を用いて,各原子を非線形に重み付けする新しい凝集法を提案する。 この重み付けアグリゲーションを用いることで、抗生物質活性を予測するためのゴールド標準メッセージパスニューラルネットワークの能力が向上することを示す。 さらに, 温度ハイパーパラメータを変化させることで, 活動予測に重要な原子を滑らかかつ一貫した方法で明らかにし, グラフニューラルネットワークのための新しい制御された注意機構を提供する。 さらに,β-ラクタム系抗生物質の機能群を再結合させることにより,本手法を検証した。 所望の関数に対する原子の重要性をランク付けするアプローチの能力は、ノードレベルでの結果と予測の解釈可能性を提供するため、任意のグラフニューラルネットワーク内で利用することができる。

Machine learning, and representation learning in particular, has the potential to facilitate drug discovery by screening a large chemical space in silico. A successful approach for representing molecules is to treat them as a graph and utilize graph neural networks. One of the key limitations of such methods is the necessity to represent compounds with different numbers of atoms, which requires aggregating the atom's information. Common aggregation operators, such as averaging, result in loss of information at the atom level. In this work, we propose a novel aggregating approach where each atom is weighted non-linearly using the Boltzmann distribution with a hyperparameter analogous to temperature. We show that using this weighted aggregation improves the ability of the gold standard message-passing neural network to predict antibiotic activity. Moreover, by changing the temperature hyperparameter, our approach can reveal the atoms that are important for activity prediction in a smooth and consistent way, thus providing a novel, regulated attention mechanism for graph neural networks. We further validate our method by showing that it recapitulates the functional group in beta-Lactam antibiotics. The ability of our approach to rank the atoms' importance for a desired function can be used within any graph neural network to provide interpretability of the results and predictions at the node level.
翻訳日:2023-10-08 10:59:07 公開日:2023-09-12
# Harmがデータアノテーションにどのように影響するか - アノテーションが有害で有害なコメントを区別する方法を説明する

How We Define Harm Impacts Data Annotations: Explaining How Annotators Distinguish Hateful, Offensive, and Toxic Comments ( http://arxiv.org/abs/2309.15827v1 )

ライセンス: Link先を確認
Angela Sch\"opke-Gonzalez, Siqi Wu, Sagar Kumar, Paul J. Resnick, Libby Hemphill(参考訳) 計算社会科学の研究は、有害なコンテンツを検出するコンテンツモデレーターをサポートする機械学習と自然言語処理の進歩を遂げた。 これらの進歩は、しばしば、有害なコンテンツに対してクラウドワーカーが注釈付けしたトレーニングデータセットに依存している。 これらのアルゴリズムのトレーニングデータを生成するためのアノテーションタスクの指示を設計する際、研究者はしばしば、アルゴリズムが検出するように訓練する有害な概念("hateful"、"offensive"、"toxic"、"racist"、"sexist"など)を扱う。 -交換可能。 本研究では,研究者が「ハーム」を定義する方法が注釈結果に影響を及ぼすかどうかを検討した。 vennダイアグラム、情報ゲイン比較、コンテンツ分析を用いて、アノテーションは「ハテフル」、「攻撃的」、および「有害」の概念を相互に使用しないことを明らかにした。 我々は、調和の定義の特徴と注釈者の個人的特徴が、アノテーションがこれらの用語をどう使うかを説明する。 本研究は,コンテンツモデレーション研究において,有害概念を相互に利用するという一般的な実践を損なう経験的証拠を提供する。 その代わり、研究者は研究目標に基づいて、どの概念に害を与えるかという特定の選択をする必要がある。 研究者は、しばしばリソースに制約があることを認識し、興味のある概念が、既成の有害なコンテンツ検出アルゴリズムが識別する概念と異なる場合に、発見を束縛する情報を提供することも推奨します。 最後に、アルゴリズムプロバイダに対して、その機器がコンテキスト固有のコンテンツ検出目標(例えば、インスツルメンツユーザのフィードバックを暗唱する)に適応できることを推奨する。

Computational social science research has made advances in machine learning and natural language processing that support content moderators in detecting harmful content. These advances often rely on training datasets annotated by crowdworkers for harmful content. In designing instructions for annotation tasks to generate training data for these algorithms, researchers often treat the harm concepts that we train algorithms to detect - 'hateful', 'offensive', 'toxic', 'racist', 'sexist', etc. - as interchangeable. In this work, we studied whether the way that researchers define 'harm' affects annotation outcomes. Using Venn diagrams, information gain comparisons, and content analyses, we reveal that annotators do not use the concepts 'hateful', 'offensive', and 'toxic' interchangeably. We identify that features of harm definitions and annotators' individual characteristics explain much of how annotators use these terms differently. Our results offer empirical evidence discouraging the common practice of using harm concepts interchangeably in content moderation research. Instead, researchers should make specific choices about which harm concepts to analyze based on their research goals. Recognizing that researchers are often resource constrained, we also encourage researchers to provide information to bound their findings when their concepts of interest differ from concepts that off-the-shelf harmful content detection algorithms identify. Finally, we encourage algorithm providers to ensure their instruments can adapt to contextually-specific content detection goals (e.g., soliciting instrument users' feedback).
翻訳日:2023-10-01 12:05:13 公開日:2023-09-12
# 微分インダクションを用いた効率的なグラフィクス表現

Efficient Graphics Representation with Differentiable Indirection ( http://arxiv.org/abs/2309.08387v1 )

ライセンス: Link先を確認
Sayantan Datta, Carl Marshall, Zhao Dong, Zhengqin Li, Derek Nowrouzezahrai(参考訳) これは、グラフィクスパイプライン全体にわたる従来の計算およびデータ操作の効果的な代用として、差別化可能なマルチスケールルックアップテーブルを使用する、新しい学習プリミティブです。 我々は,幾何および画像表現,テクスチャマッピング,シェーディング,放射場表現など,多くのグラフィックタスクにおいて柔軟性を示す。 あらゆる場合において、微分可能な間接は既存のアーキテクチャにシームレスに統合され、迅速に訓練され、多目的かつ効率的な結果をもたらす。

We introduce differentiable indirection -- a novel learned primitive that employs differentiable multi-scale lookup tables as an effective substitute for traditional compute and data operations across the graphics pipeline. We demonstrate its flexibility on a number of graphics tasks, i.e., geometric and image representation, texture mapping, shading, and radiance field representation. In all cases, differentiable indirection seamlessly integrates into existing architectures, trains rapidly, and yields both versatile and efficient results.
翻訳日:2023-09-24 04:23:56 公開日:2023-09-12
# pcn:新しいグラフ構築法とchebyshevグラフ畳み込みを用いたジェットタグ付けへのディープラーニングアプローチ

PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions ( http://arxiv.org/abs/2309.08630v1 )

ライセンス: Link先を確認
Yash Semlani, Mihir Relan, Krithik Ramesh(参考訳) ジェットタグング(Jet tagging)は、高エネルギー物理実験における分類問題であり、粒子衝突からサブ原子粒子、ジェットの衝突した噴霧を識別し、エミッタ粒子にタグ付けすることを目的としている。 ジェットタグングの進歩は、標準模型を超えて新しい物理学を探索する機会を与える。 現在のアプローチでは、複雑な衝突データの隠れたパターンを明らかにするためにディープラーニングを使用している。 しかし、深層学習モデルへの入力としてのジェットの表現は様々であり、しばしば、情報的特徴はモデルから得られない。 本研究では,できるだけ多くの情報をエンコードするジェットのグラフベース表現を提案する。 この表現を最大限に活用するために、ChebConv(ChebConv)を用いたグラフニューラルネットワーク(GNN)であるParticle Chebyshev Network(PCN)を設計する。 ChebConvは、GNNにおける古典グラフ畳み込みの効果的な代替手段として実証され、ジェットタグの分野ではまだ研究されていない。 PCNは既存のタグよりも精度が大幅に向上し、高エネルギー物理実験においてジェットとChebConv層のグラフベース表現の研究への扉を開く。 コードはhttps://github.com/YVSemlani/PCN-Jet-Tagging.comで入手できる。

Jet tagging is a classification problem in high-energy physics experiments that aims to identify the collimated sprays of subatomic particles, jets, from particle collisions and tag them to their emitter particle. Advances in jet tagging present opportunities for searches of new physics beyond the Standard Model. Current approaches use deep learning to uncover hidden patterns in complex collision data. However, the representation of jets as inputs to a deep learning model have been varied, and often, informative features are withheld from models. In this study, we propose a graph-based representation of a jet that encodes the most information possible. To learn best from this representation, we design Particle Chebyshev Network (PCN), a graph neural network (GNN) using Chebyshev graph convolutions (ChebConv). ChebConv has been demonstrated as an effective alternative to classical graph convolutions in GNNs and has yet to be explored in jet tagging. PCN achieves a substantial improvement in accuracy over existing taggers and opens the door to future studies into graph-based representations of jets and ChebConv layers in high-energy physics experiments. Code is available at https://github.com/YVSemlani/PCN-Jet-Tagging.
翻訳日:2023-09-24 04:05:49 公開日:2023-09-12
# エクイティの問題は、誰が米国の量子情報教育プログラムにアクセスできますか?

The question of equity: Who has access to US quantum information education programs? ( http://arxiv.org/abs/2309.08629v1 )

ライセンス: Link先を確認
Josephine C. Meyer, Gina Passante, Bethany R. Wilcox(参考訳) 2018年の国家量子イニシアティブ法(National Quantum Initiative Act of 2018)により、量子情報科学(QIS)のコースワークと学位プログラムが米国の機関に急速に普及している。 しかし、先行研究は、量子労働力教育へのアクセスが不平等に分散しており、学生団体が米国の高等教育全体を示さない大規模研究機関の学生に不釣り合いに利益をもたらすことを示唆している。 2022年秋時点で456の高等教育機関にまたがるQISコースの分布を回帰分析を用いて分析し,特に制度分類,資金提供,地理的分布の軸に沿って,機関間の統計的に重要な格差を同定した。 また,新たに出現するqis学位プログラムの分布を簡潔に分析する。 我々は、教育者、政策立案者、量子労働開発イニシアチブに影響を及ぼすものについて論じる。

Driven in large part by the National Quantum Initiative Act of 2018, quantum information science (QIS) coursework and degree programs are rapidly spreading across US institutions. Yet prior work suggests that access to quantum workforce education is inequitably distributed, disproportionately benefiting students at large research-focused institutions whose student bodies are unrepresentative of US higher education as a whole. We use regression analysis to analyze the distribution of QIS coursework across 456 institutions of higher learning as of fall 2022, identifying statistically significant disparities across institutions in particular along the axes of institution classification, funding, and geographic distribution. We also conduct a brief analysis of the distribution of emerging dedicated QIS degree programs. We conclude with a discussion of implications for educators, policymakers, and quantum workforce development initiatives.
翻訳日:2023-09-24 04:05:24 公開日:2023-09-12
# 大規模言語モデルによるプライバシー保護マスクからの回復

Recovering from Privacy-Preserving Masking with Large Language Models ( http://arxiv.org/abs/2309.08628v1 )

ライセンス: Link先を確認
Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli(参考訳) モデル適応は、プロキシトレーニングデータと受信した実際のユーザデータとの相違を扱うために不可欠である。 効果的に適応するために、ユーザのテキストデータは、通常サーバーまたはローカルデバイスに格納され、下流自然言語処理(NLP)モデルは、そのようなドメイン内のデータを使って直接訓練することができる。 しかし、これは、相手にユーザー情報を暴露するリスクが余分にあるため、プライバシーとセキュリティの懸念を引き起こす可能性がある。 テキストデータ内の識別情報を汎用マーカーに置き換える手法が近年検討されている。 本研究では,大規模言語モデル(llm)を用いてマスキングトークンの代替案を提案し,その効果を下流言語モデリングタスクで評価する。 具体的には,複数の事前学習および微調整 LLM に基づくアプローチを提案し,これらの手法の比較のために様々なデータセットに関する実証的研究を行う。 実験結果から,難読化コーパスでトレーニングしたモデルは,プライバシ保護トークンマスキングを使わずに,元のデータでトレーニングしたモデルと同等のパフォーマンスを達成できることがわかった。

Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.
翻訳日:2023-09-24 04:05:09 公開日:2023-09-12
# 動的トピックモデルの評価

Evaluating Dynamic Topic Models ( http://arxiv.org/abs/2309.08627v1 )

ライセンス: Link先を確認
Charu James, Mayank Nagda, Nooshin Haji Ghassemi, Marius Kloft, Sophie Fellenz(参考訳) 動的トピックモデル(DTM)では,時間経過に伴うトピックの進行を評価する定量的尺度が欠如している。 このギャップを埋めて,各トピックの質の変化を経時的に分析するDTMの新たな評価尺度を提案する。 さらに,トピック品質とモデルの時間的整合性を組み合わせた拡張を提案する。 既存のDTMの合成データやデータに適用することで,提案手法の有用性を実証する。 また,人的評価を行い,提案手法が人的判断とよく相関していることを示す。 本研究の成果は,トピックの変化の特定,DTMの評価,今後の研究の指針となる可能性がある。

There is a lack of quantitative measures to evaluate the progression of topics through time in dynamic topic models (DTMs). Filling this gap, we propose a novel evaluation measure for DTMs that analyzes the changes in the quality of each topic over time. Additionally, we propose an extension combining topic quality with the model's temporal consistency. We demonstrate the utility of the proposed measure by applying it to synthetic data and data from existing DTMs. We also conducted a human evaluation, which indicates that the proposed measure correlates well with human judgment. Our findings may help in identifying changing topics, evaluating different DTMs, and guiding future research in this area.
翻訳日:2023-09-24 04:04:51 公開日:2023-09-12
# データ拡張、半教師付き学習、およびポストアラインニングによるニューラルネットワーク逆テキスト正規化のロバスト性の改善

Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method ( http://arxiv.org/abs/2309.08626v1 )

ライセンス: Link先を確認
Juntae Kim, Minkyu Lim, and Seokjin Hong(参考訳) 逆テキスト正規化(ITN)は、特に自動音声認識(ASR)の文脈において、音声形式を書字形式に変換する上で重要である。 ASRのダウンストリームタスクの多くは書式に依存しているが、ASRシステムはしばしば音声形式で出力し、製品レベルのASRベースのアプリケーションで堅牢なITNの必要性を強調している。 ニューラルITN法は将来性を示しているが、特にASR生成音声テキストを扱う場合、パフォーマンス上の課題に直面している。 これらの課題は、トレーニングデータとASR生成テキストの間のドメイン外問題から生じる。 そこで本研究では,asr言語文脈エミュレーションによるペアの強化と,言語モデルによる半教師付き学習手法を併用した,asr生成文または音声テキストを用いた直接学習手法を提案する。 さらに,予測不能なエラーを管理するポストアライニング手法を導入し,ITNの信頼性を向上させる。 提案手法は,様々なASRシナリオにおけるITN性能を著しく向上することを示した。

Inverse text normalization (ITN) is crucial for converting spoken-form into written-form, especially in the context of automatic speech recognition (ASR). While most downstream tasks of ASR rely on written-form, ASR systems often output spoken-form, highlighting the necessity for robust ITN in product-level ASR-based applications. Although neural ITN methods have shown promise, they still encounter performance challenges, particularly when dealing with ASR-generated spoken text. These challenges arise from the out-of-domain problem between training data and ASR-generated text. To address this, we propose a direct training approach that utilizes ASR-generated written or spoken text, with pairs augmented through ASR linguistic context emulation and a semi-supervised learning method enhanced by a large language model, respectively. Additionally, we introduce a post-aligning method to manage unpredictable errors, thereby enhancing the reliability of ITN. Our experiments show that our proposed methods remarkably improved ITN performance in various ASR scenarios.
翻訳日:2023-09-24 04:04:41 公開日:2023-09-12
# 米国医学ライセンス試験におけるChatGPT-3.5およびGPT-4の評価

Performance of ChatGPT-3.5 and GPT-4 on the United States Medical Licensing Examination With and Without Distractions ( http://arxiv.org/abs/2309.08625v1 )

ライセンス: Link先を確認
Myriam Safrai and Amos Azaria(参考訳) 大きな言語モデル(llm)は、プロンプトの単語に基づいて応答を構築する予測モデルであるため、小さな会話と無関係な情報は、応答と提案を変更する可能性がある。 そこで本研究では,ChatGPTが提供する医療アドバイスの精度に及ぼす医療データと小話の混合の影響について検討する。 USMLEのステップ3は、関連する医療データのモデルとして使用された。 複数の選択肢とオープンエンドの質問の両方を使っています。 我々は、Mechanical Turkプラットフォームを用いて、人間の参加者から小さな講演文を収集した。 両方のUSLME質問セットは、元の質問から各文章に小さな会話文が続くパターンで配置された。 チャットGPT 3.5 と 4 は,小言文と無言で両問に回答するよう求められた。 掲示板で確認した医師は、chatgptで回答を分析し、正式な正答と比較した。 分析の結果, 複数質問(72.1\% vs. 68.9\%)とオープン質問(61.5\% vs. 44.3\%; p=0.01)の医療データに小話を追加すると, ChatGPT-3.5の正解能力が損なわれることがわかった。 対照的に、小さな話し言葉は、どちらの質問でもchatgpt-4の能力を損なうことはない(それぞれ83.6\%と66.2\%)。 以上の結果から,ChatGPT-4は以前の3.5版よりも正確で,小話では医用レコメンデーションの提供能力に障害はないと考えられる。 本研究は,カジュアルな会話を含む医師と患者との対話にChatGPTや他のLLMを活用する可能性と限界を理解するための重要な第一歩である。

As Large Language Models (LLMs) are predictive models building their response based on the words in the prompts, there is a risk that small talk and irrelevant information may alter the response and the suggestion given. Therefore, this study aims to investigate the impact of medical data mixed with small talk on the accuracy of medical advice provided by ChatGPT. USMLE step 3 questions were used as a model for relevant medical data. We use both multiple choice and open ended questions. We gathered small talk sentences from human participants using the Mechanical Turk platform. Both sets of USLME questions were arranged in a pattern where each sentence from the original questions was followed by a small talk sentence. ChatGPT 3.5 and 4 were asked to answer both sets of questions with and without the small talk sentences. A board-certified physician analyzed the answers by ChatGPT and compared them to the formal correct answer. The analysis results demonstrate that the ability of ChatGPT-3.5 to answer correctly was impaired when small talk was added to medical data for multiple-choice questions (72.1\% vs. 68.9\%) and open questions (61.5\% vs. 44.3\%; p=0.01), respectively. In contrast, small talk phrases did not impair ChatGPT-4 ability in both types of questions (83.6\% and 66.2\%, respectively). According to these results, ChatGPT-4 seems more accurate than the earlier 3.5 version, and it appears that small talk does not impair its capability to provide medical recommendations. Our results are an important first step in understanding the potential and limitations of utilizing ChatGPT and other LLMs for physician-patient interactions, which include casual conversations.
翻訳日:2023-09-24 04:04:19 公開日:2023-09-12
# 神経可塑性モデリングのためのベイズ縦型テンソル応答回帰

Bayesian longitudinal tensor response regression for modeling neuroplasticity ( http://arxiv.org/abs/2309.10065v1 )

ライセンス: Link先を確認
Suprateek Kundu, Alec Reinhardt, Serena Song, M. Lawson Meadows, Bruce Crosson, Venkatagiri Krishnamurthy(参考訳) 縦型神経画像研究の主な関心は、訪問中の治療やその他の要因によるボクセルレベルの神経可塑性の研究である。 しかし、伝統的なvoxel-wiseメソッドにはいくつかの落とし穴があり、これらのアプローチの精度を損なう可能性がある。 本研究では,空間分布ボクセル間の情報をプールし,共変量調整中に有意な変化を推定する,縦型画像データに対するベイズテンソル応答回帰法を提案する。 提案手法はマルコフ連鎖モンテカルロ(mcmc)サンプリングを用いて実装され,低ランク分解を利用して次元を低減し,係数推定時にボクセルの空間配置を保存する。 また、より正確な推論のために後部分布の形状を尊重する継手信頼領域による特徴選択を可能にする。 グループレベルの推論に加えて、個々のレベルの神経可塑性を推測し、パーソナライズされた疾患や回復軌道の検査を可能にする。 ボクセルの回帰に対する予測と特徴選択という手法の利点は、広範囲なシミュレーション研究を通して強調される。 本研究は, ベースラインでの制御介入または意図的治療を行った被験者群から得られた, タスク機能的MRI画像からなる縦断的失語症データセットに適用し, その後の訪問で追跡した。 分析の結果,脳活動の長期的増加が認められたが,意図的治療は短期的な変化を主に生み出し,どちらも局所的に集中していた。 対照的に、voxel-wiseの回帰は、多重度調整後の有意な神経可塑性の検出に失敗した。

A major interest in longitudinal neuroimaging studies involves investigating voxel-level neuroplasticity due to treatment and other factors across visits. However, traditional voxel-wise methods are beset with several pitfalls, which can compromise the accuracy of these approaches. We propose a novel Bayesian tensor response regression approach for longitudinal imaging data, which pools information across spatially-distributed voxels to infer significant changes while adjusting for covariates. The proposed method, which is implemented using Markov chain Monte Carlo (MCMC) sampling, utilizes low-rank decomposition to reduce dimensionality and preserve spatial configurations of voxels when estimating coefficients. It also enables feature selection via joint credible regions which respect the shape of the posterior distributions for more accurate inference. In addition to group level inferences, the method is able to infer individual-level neuroplasticity, allowing for examination of personalized disease or recovery trajectories. The advantages of the proposed approach in terms of prediction and feature selection over voxel-wise regression are highlighted via extensive simulation studies. Subsequently, we apply the approach to a longitudinal Aphasia dataset consisting of task functional MRI images from a group of subjects who were administered either a control intervention or intention treatment at baseline and were followed up over subsequent visits. Our analysis revealed that while the control therapy showed long-term increases in brain activity, the intention treatment produced predominantly short-term changes, both of which were concentrated in distinct localized regions. In contrast, the voxel-wise regression failed to detect any significant neuroplasticity after multiplicity adjustments, which is biologically implausible and implies lack of power.
翻訳日:2023-09-24 03:53:21 公開日:2023-09-12
# シフトスコアによる分子コンフォメーション生成

Molecular Conformation Generation via Shifting Scores ( http://arxiv.org/abs/2309.09985v1 )

ライセンス: Link先を確認
Zihan Zhou, Ruiying Liu, Chaolong Ying, Ruimao Zhang and Tianshu Yu(参考訳) 分子コンフォメーション生成は、計算化学の重要な側面であり、与えられた分子に対して三次元コンフォメーション幾何学を生成する。 拡散による分子コンフォメーションの生成は、ノージングプロセスを逆転する学習を必要とする。 コンフォーメーションの代わりに原子間距離の拡散はSE(3)等価性を保ち、他の手法よりも優れた性能を示すが、関連する生成モデルは主にヒューリスティックな仮定に基づいている。 これに対応するために,分子の崩壊は,原子間距離の変化の分布がガウス分布からマクスウェル・ボルツマン分布に変化するような,分子の分解が増大する力場をその合成原子にキャストすることと見なすことのできる,新たな分子コンフォメーション生成アプローチを提案する。 対応する生成モデリングは、実現可能な原子間距離幾何学を保証し、時間可逆性を示す。 分子データセットによる実験結果から, 提案したシフト分布の利点を最先端技術と比較した。

Molecular conformation generation, a critical aspect of computational chemistry, involves producing the three-dimensional conformer geometry for a given molecule. Generating molecular conformation via diffusion requires learning to reverse a noising process. Diffusion on inter-atomic distances instead of conformation preserves SE(3)-equivalence and shows superior performance compared to alternative techniques, whereas related generative modelings are predominantly based upon heuristical assumptions. In response to this, we propose a novel molecular conformation generation approach driven by the observation that the disintegration of a molecule can be viewed as casting increasing force fields to its composing atoms, such that the distribution of the change of inter-atomic distance shifts from Gaussian to Maxwell-Boltzmann distribution. The corresponding generative modeling ensures a feasible inter-atomic distance geometry and exhibits time reversibility. Experimental results on molecular datasets demonstrate the advantages of the proposed shifting distribution compared to the state-of-the-art.
翻訳日:2023-09-24 03:52:20 公開日:2023-09-12
# bdec:脳深部組み込みクラスタリングモデル

BDEC:Brain Deep Embedded Clustering model ( http://arxiv.org/abs/2309.09984v1 )

ライセンス: Link先を確認
Xiaoxiao Ma, Chunzhi Yi, Zhicai Zhong, Hui Zhou, Baichun Wei, Haiqi Zhu and Feng Jiang(参考訳) 神経科学の脳ネットワーク解析の重要な前提は、大脳皮質を機能的に均質な領域に分割することに成功したことである。 静止状態の機能的磁気共鳴画像(rs-fMRI)は脳の自発活動を捉え、皮質のパーセレーションの可能性を秘めている。 従来のパーセレーション法は、主に局所勾配、大域的類似性、あるいは両者の組み合わせを利用する3つの群に大別することができる。 K平均」や「スペクトルクラスタリング」のような伝統的なクラスタリングアルゴリズムは、再現性やパーセレーションの生物学的解釈に影響を与える可能性がある;領域成長ベースの手法は、大規模な脳における機能的ホモジニティの表現に影響を与える;確率的グラフモデルに基づくパーセレーション法は、モデル仮定バイアスを必然的に導入する。 本研究では,深層学習の頑健なデータ適合能力を生かした,BDECと呼ばれる仮定自由モデルを開発する。 我々の知る限りでは、rs-fMRIを用いたパーセレーションにディープラーニングアルゴリズムを用いた最初の研究である。 9種類の脳のパーセレーション法と比較することにより,BDECモデルは種々の機能的均一性指標において有意に優れた性能を示す。 さらに, 妥当性, ネットワーク分析, タスクの均一性, 一般化能力の観点から, 良好な結果を示す。 以上の結果から,BDECパーセレーションは脳の機能的特徴を捉え,fMRIデータの次元化における将来的なボクセル脳ネットワーク解析の可能性を示唆している。

An essential premise for neuroscience brain network analysis is the successful segmentation of the cerebral cortex into functionally homogeneous regions. Resting-state functional magnetic resonance imaging (rs-fMRI), capturing the spontaneous activities of the brain, provides the potential for cortical parcellation. Previous parcellation methods can be roughly categorized into three groups, mainly employing either local gradient, global similarity, or a combination of both. The traditional clustering algorithms, such as "K-means" and "Spectral clustering" may affect the reproducibility or the biological interpretation of parcellations; The region growing-based methods influence the expression of functional homogeneity in the brain at a large scale; The parcellation method based on probabilistic graph models inevitably introduce model assumption biases. In this work, we develop an assumption-free model called as BDEC, which leverages the robust data fitting capability of deep learning. To the best of our knowledge, this is the first study that uses deep learning algorithm for rs-fMRI-based parcellation. By comparing with nine commonly used brain parcellation methods, the BDEC model demonstrates significantly superior performance in various functional homogeneity indicators. Furthermore, it exhibits favorable results in terms of validity, network analysis, task homogeneity, and generalization capability. These results suggest that the BDEC parcellation captures the functional characteristics of the brain and holds promise for future voxel-wise brain network analysis in the dimensionality reduction of fMRI data.
翻訳日:2023-09-24 03:52:04 公開日:2023-09-12
# 都市サービスとリーダーシップと意思決定のためのダッシュボードのための重要指標に関するデータ分析

Data analytics on key indicators for the city's urban services and dashboards for leadership and decision-making ( http://arxiv.org/abs/2212.03081v4 )

ライセンス: Link先を確認
Md Aminul Islam (1), Md Abu Sufian (2) ((1) Oxford Brookes University, UK, (2) Data Analysis for Business Intelligence, University of Leicester)(参考訳) 都市は人間の居住地を進化させ続けている。 都市はますます都市化され、計画立案者、意思決定者、そしてコミュニティは適応する準備ができなければならない。 データは行政にとって重要な資源である。 いくつかの技術は、都市データの収集、処理、可視化を支援し、都市システムの動作の解釈と理解を支援する。 データ分析とスマートシティの関係は、両者への関心が高まるにつれて、近年明らかになってきた。 プランナーや住民を含む相互接続システムの高度なネットワークは、スマートシティとして知られている。 データ分析は、スマートシティのコンテキストでデータ駆動意思決定をサポートする可能性がある。 都市管理者も住民も、都市ダッシュボードへの関心が高まっている。 ダッシュボードは地域のパフォーマンスに関する情報を収集し、表示し、分析し、提供することで、スマートシティの開発を支援する。 意思決定プロセスを支援し,都市のパフォーマンスを向上させるために,都市課題に関する正確かつ代表的な情報を取得するためのダッシュボードの活用方法を検討する。 この章は、都市のサービスとリーダーシップと意思決定のためのダッシュボードの重要な指標に関するデータ分析をまとめている。 統合された情報、プランナーや意思決定者に関連するリアルタイムデータストリーム、住民の日々の生活、そしてユーザインタラクションや嗜好を評価する方法としてのサイト分析の1つが、都市ダッシュボードの提案である。 キーワード:ダッシュボード、データ分析、スマートシティ、サステナビリティ、スマートシティ、都市ダッシュボード、都市サービス、意思決定、相互接続システム、リアルタイムデータストリーム、キーインジケータ、都市課題。

Cities are continuously evolving human settlements. Our cities are under strain in an increasingly urbanized world, and planners, decision-makers, and communities must be ready to adapt. Data is an important resource for municipal administration. Some technologies aid in the collection, processing, and visualization of urban data, assisting in the interpretation and comprehension of how urban systems operate. The relationship between data analytics and smart cities has come to light in recent years as interest in both has grown. A sophisticated network of interconnected systems, including planners and inhabitants, is what is known as a smart city. Data analysis has the potential to support data-driven decision-making in the context of smart cities. Both urban managers and residents are becoming more interested in city dashboards. Dashboards may collect, display, analyze, and provide information on regional performance to help smart cities development have sustainability. In order to assist decision-making processes and enhance the performance of cities, we examine how dashboards might be used to acquire accurate and representative information regarding urban challenges. This chapter culminates Data Analytics on key indicators for the city's urban services and dashboards for leadership and decision-making. A single web page with consolidated information, real-time data streams pertinent to planners and decision-makers as well as residents' everyday lives, and site analytics as a method to assess user interactions and preferences are among the proposals for urban dashboards. Keywords: -Dashboard, data analytics, smart city, sustainability, Smart cities, City dashboards, Urban services, Decision-making, Interconnected systems, Real-time data streams, Key indicators, and Urban challenges.
翻訳日:2023-09-15 19:42:24 公開日:2023-09-12
# 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方

Reward is not Necessary: How to Create a Compositional Self-Preserving Agent for Life-Long Learning ( http://arxiv.org/abs/2211.10851v3 )

ライセンス: Link先を確認
Thomas J. Ringstrom(参考訳) 強化学習は、報酬の最大化と罰の回避が、目標指向の行動を説明する中心であると考えている。 しかし、生命体は、世界の状態と状態-ベクトル遷移ダイナミクスという、世界の構造に関する様々な側面を学ぶ必要がある。 エージェントが新しい知識を取り入れるにつれて、状態の組み合わせの数は指数関数的に増大し、与えられた状態の組み合わせに対して定義された既存の報酬やコストの明らかな重み付けは存在せず、そのような重み付けは、エージェントの経験よりも前に善と悪の組み合わせに関する情報をエンコードする必要がある。 したがって、我々は大きな状態空間における行動とモチベーションのより自然主義的な説明を開発する必要がある。 エンパワーメントの本質的動機付け指標のみを使うことは可能であり、これはトランジッション演算子の下で多くの可能な未来を実現するエージェントの能力を測定する。 演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントのスケールを提案する。 これらの方程式は、初期状態とエージェントが最終状態と目標を達成する時間にポリシーを開始する時刻をマッピングする構成的階層的状態時間遷移作用素である。 これらの関数は階層演算子であるため、階層的なエンパワーメント測度を定義することができる。 エージェントは、その階層的なエンパワーメントゲインを最大化するために、遠くの州や時間へのプランを最適化し、その内部構造(生理状態)と外部環境(世界構造と空間状態)とのより好ましい結合をもたらす目標を発見できる。 したがって、生涯のエージェントは、主に構成性とエンパワーメントの原則によってアニメーションされ、報酬の最大化を繰り返すことなく、自身の構造的完全性の成長と維持を自認できる。

Reinforcement Learning views the maximization of rewards and avoidance of punishments as central to explaining goal-directed behavior. However, over a life, organisms will need to learn about many different aspects of the world's structure: the states of the world and state-vector transition dynamics. The number of combinations of states grows exponentially as an agent incorporates new knowledge, and there is no obvious weighted combination of pre-existing rewards or costs defined for a given combination of states, as such a weighting would need to encode information about good and bad combinations prior to an agent's experience in the world. Therefore, we must develop more naturalistic accounts of behavior and motivation in large state-spaces. We show that it is possible to use only the intrinsic motivation metric of empowerment, which measures the agent's capacity to realize many possible futures under a transition operator. We propose to scale empowerment to hierarchical state-spaces by using Operator Bellman Equations. These equations produce state-time feasibility functions, which are compositional hierarchical state-time transition operators that map an initial state and time when an agent begins a policy to the final states and times of completing a goal. Because these functions are hierarchical operators we can define hierarchical empowerment measures on them. An agent can then optimize plans to distant states and times to maximize its hierarchical empowerment-gain, allowing it to discover goals that bring about a more favorable coupling of its internal structure (physiological states) to its external environment (world structure & spatial state). Life-long agents could therefore be primarily animated by principles of compositionality and empowerment, exhibiting self-concern for the growth & maintenance of their own structural integrity without recourse to reward-maximization.
翻訳日:2023-09-15 19:41:57 公開日:2023-09-12
# Bonsaiアルゴリズム:自作のフェルミオン・ツー・キュービットマッピング

The Bonsai algorithm: grow your own fermion-to-qubit mapping ( http://arxiv.org/abs/2212.09731v2 )

ライセンス: Link先を確認
Aaron Miller, Zolt\'an Zimbor\'as, Stefan Knecht, Sabrina Maniscalco, Guillermo Garc\'ia-P\'erez(参考訳) フェルミオン-量子ビットマッピングは、電子構造計算のための多くの量子アルゴリズムにおいて重要な第一歩である量子コンピュータ上のフェルミオンモードを表現するために用いられる。 本稿では,三元木からのフレキシブルなフェルミオンから量子ビットへのマッピングを設計するための形式的手法を提案する。 本研究では,木構造の生成と,パウリ重みやモード占有の非局在化といったマッピングの特定の性質との関係を直感的に議論する。 さらに,fock基底状態が量子ビット空間内の計算基底状態にマッピングされることを保証するレシピを導入する。 この定式化に基づいて、量子デバイスの量子ビット接続の潜在的に制限されたトポロジを入力として、他のパラダイムマッピングに関してSWAPオーバーヘッドを低減するように調整されたフェルミオン-量子ビットマッピングを返すボンサイアルゴリズムを導入する。 我々は,IBM量子コンピュータで広く使われているヘキサゴナルトポロジのマッピングを作成した。 結果として得られる写像は、この接続性についてpauli weight scaling $\mathcal{o}(\sqrt{n})$を持つが、単一の励起操作にはスワップゲートが不要である。

Fermion-to-qubit mappings are used to represent fermionic modes on quantum computers, an essential first step in many quantum algorithms for electronic structure calculations. In this work, we present a formalism to design flexible fermion-to-qubit mappings from ternary trees. We discuss in an intuitive manner the connection between the generating trees' structure and certain properties of the resulting mapping, such as Pauli weight and the delocalisation of mode occupation. Moreover, we introduce a recipe that guarantees Fock basis states are mapped to computational basis states in qubit space, a desirable property for many applications in quantum computing. Based on this formalism, we introduce the Bonsai algorithm, which takes as input the potentially limited topology of the qubit connectivity of a quantum device and returns a tailored fermion-to-qubit mapping that reduces the SWAP overhead with respect to other paradigmatic mappings. We illustrate the algorithm by producing mappings for the heavy-hexagon topology widely used in IBM quantum computers. The resulting mappings have a favourable Pauli weight scaling $\mathcal{O}(\sqrt{N})$ on this connectivity, while ensuring that no SWAP gates are necessary for single excitation operations.
翻訳日:2023-09-15 19:28:33 公開日:2023-09-12
# エンドツーエンドビデオベース異常検出システムを用いたジェットソンエッジデバイスのベンチマーク

Benchmarking Jetson Edge Devices with an End-to-end Video-based Anomaly Detection System ( http://arxiv.org/abs/2307.16834v3 )

ライセンス: Link先を確認
Hoang Viet Pham, Thinh Gia Tran, Chuong Dinh Le, An Dinh Le, Hien Bich Vo(参考訳) 組み込みシステムプラットフォーム、特にハードウェアアクセラレーションの革新的強化は、現実世界のシナリオにおけるディープラーニングの適用に大きな影響を与える。 これらのイノベーションは、人間の労働力を自律運転、ロボット工学、IoT(Internet-of-Things)など、さまざまな分野で使用されている自動化インテリジェントシステムに変換する。 NVIDIAのJetsonプラットフォームは、ディープラーニングアルゴリズムの実行におけるエネルギー効率とスループットに関する最適なパフォーマンスを提供するパイオニアの1つである。 以前は、ほとんどのベンチマーク分析は、比較結果ごとに1つのディープラーニングモデルを持つ2D画像に基づいていた。 本稿では,監視ビデオから入力されるエンドツーエンドのビデオベース犯罪シーン異常検知システムを実装し,複数のJetsonエッジデバイス(Nano, AGX Xavier, Orin Nano)で完全に動作させる。 比較分析では、モデルパフォーマンスの最適化のためにNVIDIAのソフトウェア開発キットとしてTorch-TensorRTを統合している。 このシステムは、facebookのpyslowfastオープンソースプロジェクトに基づいて、コーディングテンプレートとして構築されている。 エンドツーエンドシステムプロセスは、カメラからの映像、データ前処理パイプライン、特徴抽出装置、異常検出を含む。 私たちは,さまざまなJetson Edgeデバイスに,AIベースのシステムデプロイメントをDockerテクノロジで実施した経験を提供します。 異常検出器については,ロバスト時間特徴量学習(rtfm)と呼ばれる弱教師付きビデオベース深層学習モデルを適用した。 アプローチシステムは、Jetsonエッジデバイス上の毎秒47.56フレーム(FPS)の推論速度に到達し、RAM使用量は3.11GBである。 また、aiシステムが前バージョンのjetsonデバイスよりも15%優れた性能を実現し、50%のエネルギーを消費する有望なjetsonデバイスも発見する。

Innovative enhancement in embedded system platforms, specifically hardware accelerations, significantly influence the application of deep learning in real-world scenarios. These innovations translate human labor efforts into automated intelligent systems employed in various areas such as autonomous driving, robotics, Internet-of-Things (IoT), and numerous other impactful applications. NVIDIA's Jetson platform is one of the pioneers in offering optimal performance regarding energy efficiency and throughput in the execution of deep learning algorithms. Previously, most benchmarking analysis was based on 2D images with a single deep learning model for each comparison result. In this paper, we implement an end-to-end video-based crime-scene anomaly detection system inputting from surveillance videos and the system is deployed and completely operates on multiple Jetson edge devices (Nano, AGX Xavier, Orin Nano). The comparison analysis includes the integration of Torch-TensorRT as a software developer kit from NVIDIA for the model performance optimisation. The system is built based on the PySlowfast open-source project from Facebook as the coding template. The end-to-end system process comprises the videos from camera, data preprocessing pipeline, feature extractor and the anomaly detection. We provide the experience of an AI-based system deployment on various Jetson Edge devices with Docker technology. Regarding anomaly detectors, a weakly supervised video-based deep learning model called Robust Temporal Feature Magnitude Learning (RTFM) is applied in the system. The approach system reaches 47.56 frames per second (FPS) inference speed on a Jetson edge device with only 3.11 GB RAM usage total. We also discover the promising Jetson device that the AI system achieves 15% better performance than the previous version of Jetson devices while consuming 50% less energy power.
翻訳日:2023-09-15 18:27:48 公開日:2023-09-12
# オントロジーアライメントのための大規模言語モデル探索

Exploring Large Language Models for Ontology Alignment ( http://arxiv.org/abs/2309.07172v1 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Hang Dong, Ian Horrocks(参考訳) 本稿では,GPT シリーズや Flan-T5 などの最近の生成型大規模言語モデル (LLM) をオントロジーアライメントに適用し,概念同値写像のオントロジーへの応用について検討する。 Flan-T5-XXLとGPT-3.5-turboのゼロショット性能をテストするために,OAEI Bio-MLトラックの2つの等価マッチングデータセットから,概念ラベルと構造コンテキストを考慮した挑戦的なサブセットを利用する。 予備的な発見は、LCMがBERTMapのような既存のオントロジーアライメントシステムより優れている可能性を示唆している。

This work investigates the applicability of recent generative Large Language Models (LLMs), such as the GPT series and Flan-T5, to ontology alignment for identifying concept equivalence mappings across ontologies. To test the zero-shot performance of Flan-T5-XXL and GPT-3.5-turbo, we leverage challenging subsets from two equivalence matching datasets of the OAEI Bio-ML track, taking into account concept labels and structural contexts. Preliminary findings suggest that LLMs have the potential to outperform existing ontology alignment systems like BERTMap, given careful framework and prompt design.
翻訳日:2023-09-15 17:40:29 公開日:2023-09-12
# センサデータを用いた人間行動認識の概要

Overview of Human Activity Recognition Using Sensor Data ( http://arxiv.org/abs/2309.07170v1 )

ライセンス: Link先を確認
Rebeen Ali Hamad, Wai Lok Woo, Bo Wei and Longzhi Yang(参考訳) HAR(Human Activity Recognition)は、家庭や職場の自動化、セキュリティ、監視、医療など、さまざまな用途で使われている重要な研究分野である。 従来の機械学習手法から最近開発されたディープラーニング技術やモノのインターネットに至るまで、過去10年間にHAR領域で重要な貢献が示されてきた。 いくつかのレビューと調査研究が公表されているが、ウェアラブルセンサーとスマートホームセンサーデータの使用状況の要約と、HARおよびディープラーニング技術の応用に焦点を当てた、センサーベースのHAR概要研究は欠落している。 そこで,センサをベースとしたHARを概説し,HARに依存したいくつかの重要な応用について論じ,HARに使われている最も一般的な機械学習手法を強調した。 最後に、HARの堅牢性をさらに向上するために、HARのいくつかの課題について検討する。

Human activity recognition (HAR) is an essential research field that has been used in different applications including home and workplace automation, security and surveillance as well as healthcare. Starting from conventional machine learning methods to the recently developing deep learning techniques and the Internet of things, significant contributions have been shown in the HAR area in the last decade. Even though several review and survey studies have been published, there is a lack of sensor-based HAR overview studies focusing on summarising the usage of wearable sensors and smart home sensors data as well as applications of HAR and deep learning techniques. Hence, we overview sensor-based HAR, discuss several important applications that rely on HAR, and highlight the most common machine learning methods that have been used for HAR. Finally, several challenges of HAR are explored that should be addressed to further improve the robustness of HAR.
翻訳日:2023-09-15 17:40:14 公開日:2023-09-12
# コンプレクトンシフト演算子の周波数収束

Frequency Convergence of Complexon Shift Operators ( http://arxiv.org/abs/2309.07169v1 )

ライセンス: Link先を確認
Purui Zhang, Xingchao Jian, Feng Ji, Wee Peng Tay, Bihan Wen(参考訳) トポロジカル信号処理(TSP)は、単純錯体を用いて、頂点や縁よりも高次構造をモデル化する。 本稿では, 一般化された高次グラフトンを用いたTSPの転送可能性について検討する。 複素数体の概念を単純複素数列 [1] の極限として覚えている。 グラフトンシフト作用素の積分作用素形式に着想を得て、複素数から得られるすべての可能な次元の成分に従って境界複素数および複素数シフト作用素(CSO)を構築する。 我々はCSOの固有値と固有ベクトルを調査し、それらを重み付き隣接行列の新しい族に関連付ける。 simplicial complex sequence が複素数に収束すると、対応する CSO の固有値は極限複素数に収束する。 これらの結果は, グラフ信号処理フレームワークを一般化した, 大規模単純複素数あるいは単純複素数列上での伝達可能性の学習を示唆している。

Topological signal processing (TSP) utilizes simplicial complexes to model structures with higher order than vertices and edges. In this paper, we study the transferability of TSP via a generalized higher-order version of graphon, known as complexon. We recall the notion of a complexon as the limit of a simplicial complex sequence [1]. Inspired by the integral operator form of graphon shift operators, we construct a marginal complexon and complexon shift operator (CSO) according to components of all possible dimensions from the complexon. We investigate the CSO's eigenvalues and eigenvectors, and relate them to a new family of weighted adjacency matrices. We prove that when a simplicial complex sequence converges to a complexon, the eigenvalues of the corresponding CSOs converge to that of the limit complexon. These results hint at learning transferability on large simplicial complexes or simplicial complex sequences, which generalize the graphon signal processing framework.
翻訳日:2023-09-15 17:39:58 公開日:2023-09-12
# 階層型強化学習における目標空間抽象化

Goal Space Abstraction in Hierarchical Reinforcement Learning via Reachability Analysis ( http://arxiv.org/abs/2309.07168v1 )

ライセンス: Link先を確認
Mehdi Zadem (LIX, U2IS), Sergio Mover (LIX), Sao Mai Nguyen (U2IS, Flowers, IMT Atlantique - INFO, Lab-STICC_RAMBO)(参考訳) オープンディビジョン学習は、効率的で転送可能な学習のために知識を構造化する方法を提供するため、目標表現にシンボリックな方法を使用することで大きなメリットがあります。 しかしながら、既存の階層強化学習(HRL)アプローチは、しばしば手動の目標表現を必要とするため、象徴的推論に依存している。 象徴的な目標表現を自律的に発見する上での課題は、環境力学のような重要な情報を保存する必要があることである。 本研究では,タスクに類似する役割を持つ環境状態の集合を抽象化する創発的表現を通じて,サブゴア発見のための発達的メカニズムを提案する。 我々は、この表現をポリシーとともに徐々に学習するHRLアルゴリズムを作成し、それをナビゲーションタスクで評価して、学習した表現が解釈可能であることを示す。

Open-ended learning benefits immensely from the use of symbolic methods for goal representation as they offer ways to structure knowledge for efficient and transferable learning. However, the existing Hierarchical Reinforcement Learning (HRL) approaches relying on symbolic reasoning are often limited as they require a manual goal representation. The challenge in autonomously discovering a symbolic goal representation is that it must preserve critical information, such as the environment dynamics. In this work, we propose a developmental mechanism for subgoal discovery via an emergent representation that abstracts (i.e., groups together) sets of environment states that have similar roles in the task. We create a HRL algorithm that gradually learns this representation along with the policies and evaluate it on navigation tasks to show the learned representation is interpretable and results in data efficiency.
翻訳日:2023-09-15 17:39:41 公開日:2023-09-12
# 分数法則ポテンシャルに対する多くのボソン量子シラードエンジン

Many boson quantum Szilard engine for fractional power law potential ( http://arxiv.org/abs/2309.07167v1 )

ライセンス: Link先を確認
Najirul Islam(参考訳) 本稿では,非相互作用ボソンに対する量子Szilardエンジン(QZE)について述べる。 この目的のためにボース=アインシュタイン統計を採用した。 この目的のために分数的電力法則の可能性を検討し、エネルギーの量子化のアーティファクトを利用した。 分数パワーポテンシャルにおける非相互作用ボソンの作業と効率を計算した。 本研究は, 作業における粒子数と効率の依存性を明らかにした。 また、モースポテンシャルの単一粒子に対するQZEは、ポテンシャルの深さが仕事と効率の両方にどのように影響するかを明らかにする。 さらに, 温度と非調和パラメータが作業に及ぼす影響についても検討した。 最後に,高調波近似条件下での非相互作用ボソンとモースポテンシャルの単一粒子の比較解析を行った。

In this article, we have realized the quantum Szilard engine (QZE) for non-interacting bosons. We have adopted the Bose-Einstein statistics for this purpose. We have considered fractional power law potential for this purpose and have used the artifact of the quantization of energy. We have calculated the work and the efficiency for non-interacting bosons in fractional power potential. We have shown the dependence of the number of particles for the work and the efficiency. We also have realized the QZE for a single-particle in a Morse potential revealing how the depth of the potential impacts both work and efficiency. Furthermore, we have examined the influence of temperature and the anharmonicity parameter on the work. Finally, we have conducted a comparative analysis, considering both non-interacting bosons in a fractional power law potential and a single-particle in a Morse potential under harmonic approximation conditions.
翻訳日:2023-09-15 17:39:26 公開日:2023-09-12
# 高度な信号処理と機械学習を用いた呼吸疾患の音響的分類による診断支援

Audio-Based Classification of Respiratory Diseases using Advanced Signal Processing and Machine Learning for Assistive Diagnosis Support ( http://arxiv.org/abs/2309.07183v1 )

ライセンス: Link先を確認
Constantino \'Alvarez Casado, Manuel Lage Ca\~nellas, Matteo Pedone, Xiaoting Wu, Miguel Bordallo L\'opez(参考訳) 世界的な医療において、呼吸器疾患は死亡の主な原因であり、迅速かつ正確な診断の必要性を強調している。 本研究は,呼吸音の医療データベースとして最大級に広く公開されているものを用いて,異なる健康状態の分類が可能な複数の機械学習モデルを訓練することに焦点を当てた。 本手法は経験的モード分解(EMD)とスペクトル分析を併用し, 心血管および呼吸パターンと密接に結びついている音響データから生理的関連バイオシグナールを抽出し, 従来の音声特徴抽出法から分離したアプローチである。 我々は、パワースペクトル密度解析とフィルタリング技術を用いて、基礎となる生理現象と強く相関する固有モード関数(IMF)を選択する。 これらの生体信号は、予測モデリングのための包括的な特徴抽出プロセスを行う。 最初は、健康な人と病気の人の区別において、87%のバランスのとれた精度を示すバイナリ分類モデルを展開しました。 その後,肺炎や慢性閉塞性肺疾患(COPD)などの特定の呼吸器疾患の診断において,バランスの取れた精度が72%に達する6クラス分類モデルを用いた。 また,音響データのみに基づく年齢・身体質量指数(BMI)を推定する回帰モデルや,性別分類のモデルも導入した。 我々の発見は、このアプローチが補助的および遠隔診断能力を大幅に向上する可能性を強調している。

In global healthcare, respiratory diseases are a leading cause of mortality, underscoring the need for rapid and accurate diagnostics. To advance rapid screening techniques via auscultation, our research focuses on employing one of the largest publicly available medical database of respiratory sounds to train multiple machine learning models able to classify different health conditions. Our method combines Empirical Mode Decomposition (EMD) and spectral analysis to extract physiologically relevant biosignals from acoustic data, closely tied to cardiovascular and respiratory patterns, making our approach apart in its departure from conventional audio feature extraction practices. We use Power Spectral Density analysis and filtering techniques to select Intrinsic Mode Functions (IMFs) strongly correlated with underlying physiological phenomena. These biosignals undergo a comprehensive feature extraction process for predictive modeling. Initially, we deploy a binary classification model that demonstrates a balanced accuracy of 87% in distinguishing between healthy and diseased individuals. Subsequently, we employ a six-class classification model that achieves a balanced accuracy of 72% in diagnosing specific respiratory conditions like pneumonia and chronic obstructive pulmonary disease (COPD). For the first time, we also introduce regression models that estimate age and body mass index (BMI) based solely on acoustic data, as well as a model for gender classification. Our findings underscore the potential of this approach to significantly enhance assistive and remote diagnostic capabilities.
翻訳日:2023-09-15 17:29:55 公開日:2023-09-12
# 事前学習型深層学習モデルを用いた睡眠段階分類

Sleep Stage Classification Using a Pre-trained Deep Learning Model ( http://arxiv.org/abs/2309.07182v1 )

ライセンス: Link先を確認
Hassan Ardeshir, Mohammad Araghi(参考訳) 人間の病気の1つは睡眠障害である。 睡眠ステージの分類は、睡眠障害の診断、治療効果のモニタリング、睡眠ステージと様々な健康状態の関係の理解に基本的な役割を果たす。 これらの段階の正確かつ効率的な分類は、睡眠関連現象の理解を著しく向上させ、最終的に健康状態の改善と疾患治療につながる可能性がある。 他のモデルでは、しばしば時間を消費し、特にn1期では十分な精度を欠いている。 本研究の目的は「EEGMobile」と呼ばれる機械学習モデルを提示することである。 このモデルは、事前訓練されたモデルを使用し、脳波の脳波(EEG)スペクトログラムから学習する。 このモデルは"Sleep-EDF20"と呼ばれる公開データセットで86.97%の精度を達成した。 さらに、ステージN1では56.4%の精度を記録し、他のモデルより優れている。 以上の結果から,本モデルが本疾患の治療に有効である可能性が示唆された。

One of the common human diseases is sleep disorders. The classification of sleep stages plays a fundamental role in diagnosing sleep disorders, monitoring treatment effectiveness, and understanding the relationship between sleep stages and various health conditions. A precise and efficient classification of these stages can significantly enhance our understanding of sleep-related phenomena and ultimately lead to improved health outcomes and disease treatment. Models others propose are often time-consuming and lack sufficient accuracy, especially in stage N1. The main objective of this research is to present a machine-learning model called "EEGMobile". This model utilizes pre-trained models and learns from electroencephalogram (EEG) spectrograms of brain signals. The model achieved an accuracy of 86.97% on a publicly available dataset named "Sleep-EDF20", outperforming other models proposed by different researchers. Moreover, it recorded an accuracy of 56.4% in stage N1, which is better than other models. These findings demonstrate that this model has the potential to achieve better results for the treatment of this disease.
翻訳日:2023-09-15 17:29:30 公開日:2023-09-12
# The Grand Illusion: The Myth of Software Portability and Implications for ML Progress

The Grand Illusion: The Myth of Software Portability and Implications for ML Progress ( http://arxiv.org/abs/2309.07181v1 )

ライセンス: Link先を確認
Fraser Mince, Dzung Dinh, Jonas Kgomo, Neil Thompson, Sara Hooker(参考訳) 機械学習の境界を押し上げるには、しばしば異なるハードウェアとソフトウェアの組み合わせを探索する必要がある。 しかし、さまざまなツールスタックをまたいで実験する自由は、効率向上の原動力と矛盾する可能性がある。 探索的な研究は、ソフトウェアとハードウェアが共進化している場合に制限され、一般的なツールスタックでうまく機能する主流のアイデアから離れることがさらに難しくなる。 この摩擦は機械学習のイノベーションの速度にますます影響しますが、私たちの知る限り、ツールのポータビリティの欠如は定量化されていません。 一般的なMLソフトウェアフレームワークはどの程度ポータブルなのでしょうか? 我々は,様々なハードウェアタイプにわたる主流mlフレームワークの可搬性に関する大規模研究を行っている。 フレームワークは、他のハードウェアに移植されると、主要な機能の40%以上を失う可能性がある。 さらに悪いことに、関数がポータブルであっても、パフォーマンスのスローダウンは極端であり、パフォーマンスを維持できない。 総じて,ハードウェアとソフトウェアの組み合わせの狭い部分から,いかにコストがかかるかを明らかにするとともに,ハードウェアの特殊化が機械学習研究のイノベーションを妨げることを示唆する。

Pushing the boundaries of machine learning often requires exploring different hardware and software combinations. However, the freedom to experiment across different tooling stacks can be at odds with the drive for efficiency, which has produced increasingly specialized AI hardware and incentivized consolidation around a narrow set of ML frameworks. Exploratory research can be restricted if software and hardware are co-evolving, making it even harder to stray away from mainstream ideas that work well with popular tooling stacks. While this friction increasingly impacts the rate of innovation in machine learning, to our knowledge the lack of portability in tooling has not been quantified. In this work, we ask: How portable are popular ML software frameworks? We conduct a large-scale study of the portability of mainstream ML frameworks across different hardware types. Our findings paint an uncomfortable picture -- frameworks can lose more than 40% of their key functions when ported to other hardware. Worse, even when functions are portable, the slowdown in their performance can be extreme and render performance untenable. Collectively, our results reveal how costly straying from a narrow set of hardware-software combinations can be - and suggest that specialization of hardware impedes innovation in machine learning research.
翻訳日:2023-09-15 17:29:14 公開日:2023-09-12
# CloudBrain-NMR:NMR分光処理、再構成、分析のためのインテリジェントなクラウドコンピューティングプラットフォーム

CloudBrain-NMR: An Intelligent Cloud Computing Platform for NMR Spectroscopy Processing, Reconstruction and Analysis ( http://arxiv.org/abs/2309.07178v1 )

ライセンス: Link先を確認
Di Guo, Sijin Li, Jun Liu, Zhangren Tu, Tianyu Qiu, Jingjing Xu, Liubin Feng, Donghai Lin, Qing Hong, Meijin Lin, Yanqin Lin, Xiaobo Qu(参考訳) 核磁気共鳴(nmr)分光法は、化学と生物学の分子構造と動力学を研究する強力な分析ツールである。 しかし、NMR分光計から得られた生データの処理とその後の定量分析は、プログラミングとNMRの包括的な知識を必要とする様々な特殊なツールを含んでいる。 特に、新しいディープラーニングツールは、計算の高度なセットアップのため、NMRで広く使われることは困難である。 したがって、NMR処理は化学者や生物学者にとって簡単な作業ではない。 本研究では、NMRデータ読取、処理、再構成、定量分析のために設計された、インテリジェントなオンラインクラウドコンピューティングプラットフォームであるCloudBrain-NMRを紹介する。 このプラットフォームはWebブラウザを通じて便利にアクセスでき、ユーザー側のプログラムをインストールする必要がなくなる。 cloudbrain-nmrは、グラフィック処理ユニットと中央処理ユニットとの並列コンピューティングを使用し、計算時間を著しく短縮する。 さらに、最先端のディープラーニングベースのアルゴリズムが組み込まれており、ユーザーは追加のソフトウェアに頼ることなく、処理プロセス全体を完了することができる。 このプラットフォームは、高度な人工知能処理を備えたNMRアプリケーションを強化した。 CloudBrain-NMRはhttps://csrc.xmu.edu.cn/CloudBrain.htmlで無料で利用できる。

Nuclear Magnetic Resonance (NMR) spectroscopy has served as a powerful analytical tool for studying molecular structure and dynamics in chemistry and biology. However, the processing of raw data acquired from NMR spectrometers and subsequent quantitative analysis involves various specialized tools, which necessitates comprehensive knowledge in programming and NMR. Particularly, the emerging deep learning tools is hard to be widely used in NMR due to the sophisticated setup of computation. Thus, NMR processing is not an easy task for chemist and biologists. In this work, we present CloudBrain-NMR, an intelligent online cloud computing platform designed for NMR data reading, processing, reconstruction, and quantitative analysis. The platform is conveniently accessed through a web browser, eliminating the need for any program installation on the user side. CloudBrain-NMR uses parallel computing with graphics processing units and central processing units, resulting in significantly shortened computation time. Furthermore, it incorporates state-of-the-art deep learning-based algorithms offering comprehensive functionalities that allow users to complete the entire processing procedure without relying on additional software. This platform has empowered NMR applications with advanced artificial intelligence processing. CloudBrain-NMR is openly accessible for free usage at https://csrc.xmu.edu.cn/CloudBrain.html
翻訳日:2023-09-15 17:28:53 公開日:2023-09-12
# 最適かつ公平な奨励政策の評価と学習

Optimal and Fair Encouragement Policy Evaluation and Learning ( http://arxiv.org/abs/2309.07176v1 )

ライセンス: Link先を確認
Angela Zhou(参考訳) 連続的な領域では、個人に治療を強制することはしばしば不可能であり、最適な政策ルールは、治療勧告に対するヒトの非順守の存在において単に提案である。 これらの同じ領域では、治療を受ける際に反応する人と治療効果の多様性の両方に異質性がある可能性がある。 最適な治療規則は、人口全体の因果関係を最大化することができるが、アクセスパリティ制約やその他の公平性考慮は、奨励の場合に関係がある。 例えば、ソーシャルサービスでは、永続的なパズルは、最も利益を享受できる人々の間で、有益なサービスを取り上げる際のギャップです。 さらに、意思決定者がアクセスと平均結果の両方に対して分布的選好を持つ場合、最適な決定ルールが変化する。 本研究は, 正の潜在的な違反を含む最適処理規則の因果同定, 統計的分散推定, およびロバスト推定について検討した。 本研究は, 治療における人口統計学的パリティなどの公平性制約や, その他の制約について, 制約付き最適化によって検討する。 提案手法は,提案手法における肯定性欠如のロバスト性チェックを用いて,共変量条件排他的制約下でアルゴリズム的推奨を扱うように拡張することができる。 一般制約下でのパラメタライズされたポリシークラスを解くための2段階のアルゴリズムを開発し、分散感応的後悔境界を求める。 本研究は,無作為化促進から保険加入までのデータと,電子モニタリングによる事前監督リリースの2つのケーススタディである。

In consequential domains, it is often impossible to compel individuals to take treatment, so that optimal policy rules are merely suggestions in the presence of human non-adherence to treatment recommendations. In these same domains, there may be heterogeneity both in who responds in taking-up treatment, and heterogeneity in treatment efficacy. While optimal treatment rules can maximize causal outcomes across the population, access parity constraints or other fairness considerations can be relevant in the case of encouragement. For example, in social services, a persistent puzzle is the gap in take-up of beneficial services among those who may benefit from them the most. When in addition the decision-maker has distributional preferences over both access and average outcomes, the optimal decision rule changes. We study causal identification, statistical variance-reduced estimation, and robust estimation of optimal treatment rules, including under potential violations of positivity. We consider fairness constraints such as demographic parity in treatment take-up, and other constraints, via constrained optimization. Our framework can be extended to handle algorithmic recommendations under an often-reasonable covariate-conditional exclusion restriction, using our robustness checks for lack of positivity in the recommendation. We develop a two-stage algorithm for solving over parametrized policy classes under general constraints to obtain variance-sensitive regret bounds. We illustrate the methods in two case studies based on data from randomized encouragement to enroll in insurance and from pretrial supervised release with electronic monitoring.
翻訳日:2023-09-15 17:28:33 公開日:2023-09-12
# melage:純粋なpythonベースのニューロイメージングソフトウェア(neonatal)

MELAGE: A purely python based Neuroimaging software (Neonatal) ( http://arxiv.org/abs/2309.07175v1 )

ライセンス: Link先を確認
Bahram Jafrasteh, Sim\'on Pedro Lubi\'an L\'opez, Isabel Benavente Fern\'andez(参考訳) 先駆的なPythonベースのニューロイメージングソフトウェアであるMELAGEは、医療画像の可視化、処理、分析のための汎用ツールとして登場した。 当初、新生児期に3d超音波とmriの脳画像を処理するというユニークな課題に対処するために考案されたmelageは、顕著な適応性を示し、その有用性を成人の脳画像の領域にまで広げる。 MELAGEのコアとなるのは、ディープラーニングモジュールによって強化された半自動脳抽出ツールで、MRIと3D Ultrasoundデータから正確で効率的な脳構造抽出を実現する。 さらに、MELAGEはダイナミックな3Dビジュアライゼーション、正確な測定、インタラクティブなイメージセグメンテーションを含む、包括的な機能スイートを提供している。 このトランスフォーメーションソフトウェアは、研究者や臨床医にとって大きな約束であり、画像分析の合理化、ディープラーニングアルゴリズムとのシームレスな統合、医療画像の領域における幅広い適用性を提供する。

MELAGE, a pioneering Python-based neuroimaging software, emerges as a versatile tool for the visualization, processing, and analysis of medical images. Initially conceived to address the unique challenges of processing 3D ultrasound and MRI brain images during the neonatal period, MELAGE exhibits remarkable adaptability, extending its utility to the domain of adult human brain imaging. At its core, MELAGE features a semi-automatic brain extraction tool empowered by a deep learning module, ensuring precise and efficient brain structure extraction from MRI and 3D Ultrasound data. Moreover, MELAGE offers a comprehensive suite of features, encompassing dynamic 3D visualization, accurate measurements, and interactive image segmentation. This transformative software holds immense promise for researchers and clinicians, offering streamlined image analysis, seamless integration with deep learning algorithms, and broad applicability in the realm of medical imaging.
翻訳日:2023-09-15 17:28:05 公開日:2023-09-12
# hurricast: ハリケーン予報のための機械学習と統計モデルを用いた自動フレームワーク

HurriCast: An Automatic Framework Using Machine Learning and Statistical Modeling for Hurricane Forecasting ( http://arxiv.org/abs/2309.07174v1 )

ライセンス: Link先を確認
Shouwei Gao, Meiyan Gao, Yuepeng Li, Wenqian Dong(参考訳) ハリケーンは、その破壊的な影響により、アメリカにおいて大きな課題を呈している。 これらのリスクを緩和することは重要であり、リスク評価に複雑な統計モデルを用いることで、保険業界がこの取り組みの中心となっている。 しかし、これらのモデルはしばしば重要な時間的および空間的ハリケーンパターンを無視し、データ不足によって制限される。 本研究では,ARIMAモデルとK-MEANSを組み合わせることで,ハリケーンの傾向をより正確に把握する手法を提案する。 実験の結果, このハイブリッド手法は歴史的ハリケーンの挙動を効果的にシミュレートし, 将来的な軌道や強度の詳細な予測を行うことができた。 さらに,包括的かつ選択的にデータセットを活用することで,ハリケーンパターンの現在の理解を深め,リスク管理戦略に有効な洞察を提供する。

Hurricanes present major challenges in the U.S. due to their devastating impacts. Mitigating these risks is important, and the insurance industry is central in this effort, using intricate statistical models for risk assessment. However, these models often neglect key temporal and spatial hurricane patterns and are limited by data scarcity. This study introduces a refined approach combining the ARIMA model and K-MEANS to better capture hurricane trends, and an Autoencoder for enhanced hurricane simulations. Our experiments show that this hybrid methodology effectively simulate historical hurricane behaviors while providing detailed projections of potential future trajectories and intensities. Moreover, by leveraging a comprehensive yet selective dataset, our simulations enrich the current understanding of hurricane patterns and offer actionable insights for risk management strategies.
翻訳日:2023-09-15 17:27:48 公開日:2023-09-12
# 深層対流氷嵐分類における教師なし・教師なし学習とデジタル双生児の利用

Using Unsupervised and Supervised Learning and Digital Twin for Deep Convective Ice Storm Classification ( http://arxiv.org/abs/2309.07173v1 )

ライセンス: Link先を確認
Jason Swope, Steve Chien, Emily Dunkel, Xavier Bosch-Lluis, Qing Yue and William Deal(参考訳) スマートアイスクラウドセンシング(Smart Ice Cloud Sensing、SMICES)は、小型の衛星で、主レーダーが頭頂放射計によって収集された情報に基づいて、知的に氷嵐を標的とするコンセプトである。 インテリジェントターゲティングには、放射計が収集した8バンドの放射能からストーム/クラウドタイプを正確に識別することが重要である。 雲のタイプは、晴れた空、薄いシラス、シラス、雨天のアンビル、対流コアである。 本稿では、このような分類器を導出するために、機械学習と地球の大気のデジタル双生児の多段階利用について述べる。 まず、気象研究予測(WRF)と呼ばれる地球の大気のデジタル双対が、シミュレーションされた頭頂放射計データとより深い「科学」隠れ変数を生成する。 データセットはカリブ海の熱帯地域とアメリカ合衆国の大西洋岸の非熱帯地域をシミュレートする。 科学者がクラスタの隠れた変数の平均/中心値から情報を得たことにより、各物理データポイントをクラウドタイプにマッピングする、データの自動ラベリングを生成するために、k-meansクラスタリングが人間の専門家によって利用された。 次に、シミュレートされた放射計データとその対応するラベルの入力で分類器を訓練した。 ランダム決定フォレスト(rdf)、サポートベクターマシン(svm)、ガウスのna\"ive bayes、フィードフォワードニューラルネットワーク(ann)、畳み込みニューラルネットワーク(cnn)の分類器を訓練した。 熱帯のデータセット上では、最も優れた性能の分類器は、ホールドアウトテストセットの各クラスで80%以上の精度で、非嵐雲と嵐雲を識別することができた。 非トロピカルデータセットにおいて、最もパフォーマンスの高い分類器は、90%以上の精度で非ストーム雲、40%以上の精度でストーム雲を分類することができた。 さらに、両方の分類器は計器ノイズに対して弾力性があることが示されている。

Smart Ice Cloud Sensing (SMICES) is a small-sat concept in which a primary radar intelligently targets ice storms based on information collected by a lookahead radiometer. Critical to the intelligent targeting is accurate identification of storm/cloud types from eight bands of radiance collected by the radiometer. The cloud types of interest are: clear sky, thin cirrus, cirrus, rainy anvil, and convection core. We describe multi-step use of Machine Learning and Digital Twin of the Earth's atmosphere to derive such a classifier. First, a digital twin of Earth's atmosphere called a Weather Research Forecast (WRF) is used generate simulated lookahead radiometer data as well as deeper "science" hidden variables. The datasets simulate a tropical region over the Caribbean and a non-tropical region over the Atlantic coast of the United States. A K-means clustering over the scientific hidden variables was utilized by human experts to generate an automatic labelling of the data - mapping each physical data point to cloud types by scientists informed by mean/centroids of hidden variables of the clusters. Next, classifiers were trained with the inputs of the simulated radiometer data and its corresponding label. The classifiers of a random decision forest (RDF), support vector machine (SVM), Gaussian na\"ive bayes, feed forward artificial neural network (ANN), and a convolutional neural network (CNN) were trained. Over the tropical dataset, the best performing classifier was able to identify non-storm and storm clouds with over 80% accuracy in each class for a held-out test set. Over the non-tropical dataset, the best performing classifier was able to classify non-storm clouds with over 90% accuracy and storm clouds with over 40% accuracy. Additionally both sets of classifiers were shown to be resilient to instrument noise.
翻訳日:2023-09-15 17:27:33 公開日:2023-09-12
# スピン1/2粒子の重力デコヒーレンスに対する開量子系アプローチ

Open quantum system approach to the gravitational decoherence of spin-1/2 particles ( http://arxiv.org/abs/2309.07236v1 )

ライセンス: Link先を確認
Mohammad Sharifian, Moslem Zarei, Mehdi Abdi, Nicola Bartolo, and Sabino Matarrese(参考訳) 本稿では,空間重ね合わせにおける圧縮重力波と質量粒子系との相互作用によるデコヒーレンス効果について検討する。 スピン1/2粒子とスピンレス粒子からなる2つの系を考慮に入れ、量子ボルツマン方程式を用いてデコヒーレンスを研究する。 スピン1/2粒子系では, 分離速度は重力波のスクイーズ強度とスクイーズ角の両方に依存することが明らかとなった。 その結果,r_p\geq1.2$のスクイーズ強度と$\varphi_p=\pi/2$のスクイーズ角を有する圧縮重力波は,スピン1/2粒子の雲の1 s自由落下内で1 %のデコヒーレンスを誘導できることがわかった。 対照的に、スピンレス粒子系では、デコヒーレンス速度は弱く、重力波のスクイーズ強度にのみ依存し、スクイーズ角度に依存しない。 結果として、この場合、スピン-1/2粒子のデコヒーレンスは同じ量のデコヒーレンスに達することができるのは、系が桁違いに大きく、実験が10倍長く、強度$r_p\geq2.1$である。 この研究は、圧縮された重力波と質量粒子とそのスピンの系における空間重ね合わせ状態のコヒーレンスの関係に光を当てている。 デコヒーレンスがスクイーズ強度やスピン-1/2粒子の場合、スクイーズ角に依存することは、量子重力接続のさらなる探索と理解の道を開く。 このような実験的な設定は、インフレーションによって初期の宇宙で生成された重力波のスクイーズ効果(および量子関連特性)のレベルを調べるためにも用いられることを示唆する。

This paper investigates the decoherence effect resulting from the interaction of squeezed gravitational waves with a system of massive particles in spatial superposition. We take into account two systems, one made up of spin-1/2 particles and the other of spinless particles, and use the quantum Boltzmann equation to study their decoherence. For the spin-1/2 particle system, our analysis reveals that the rate of decoherence depends on both the squeezing strength and the squeezing angle of the gravitational waves. Our results demonstrate that squeezed gravitational waves with squeezing strengths of $r_p\geq1.2$ and a squeezing angle of $\varphi_p=\pi/2$ can induce a 1 % decoherence within 1 s free falling of a cloud of spin-1/2 particles. In contrast, for the spinless particle system, the decoherence rate is weaker and depends solely on the squeezing strength of the gravitational waves and does not depend on the squeezing angle. As a consequence, in this case, the same amount of decoherence of the spin-1/2 particles can be reached when the system is two orders of magnitude more massive, the experiment ten times longer, and for squeezing strength $r_p\geq2.1$. This investigation sheds light on the relationship between squeezed gravitational waves and the coherence of spatial superposition states in systems of massive particles and their spin. The dependence of decoherence on squeezing strength and, in the case of spin-1/2 particles, on the squeezing angle paves the way for further exploration and understanding of the quantum-gravity connection. We suggest that such an experimental setup could also be employed to eventually investigate the level of squeezing effect (and hence quantum-related properties) of gravitational waves produced in the Early Universe from inflation.
翻訳日:2023-09-15 17:08:25 公開日:2023-09-12
# 超広角高忠実ホログラフィディスプレイのためのニューラル \'{E}tendue Expander

Neural \'{E}tendue Expander for Ultra-Wide-Angle High-Fidelity Holographic Display ( http://arxiv.org/abs/2109.08123v3 )

ライセンス: Link先を確認
Ethan Tseng, Seung-Hwan Baek, Grace Kuo, Nathan Matsuda, Andrew Maimone, Florian Schiffers, Praneeth Chakravarthula, Qiang Fu, Wolfgang Heidrich, Douglas Lanman, and Felix Heide(参考訳) ホログラフィックディスプレイは、空間光変調器を用いて光のコヒーレントビームの波面を動的に変調することで光場を生成することができる。 しかし、既存の動的空間光変調器の空間分解能は、回折角に強い拘束力を与える。 結果として、現代のホログラフィックディスプレイは、表示領域の積であり、回折光の最大固体角である低い \'{e}tendue を有する。 低い \'{e}tendue はフィールドオブビュー (fov) または表示サイズを犠牲にする。 本研究では,neural \'{e}tendue expanderを提示することで,この制限を解消する。 自然画像データセットから学習されたこの新しい光学素子は、コンパクトなフォームファクターと表示されたコンテンツの忠実さを維持しながら、超広帯域のFOVに対して高い回折角を可能にする。 neural \'{e}tendue expanders を用いて,自然画像のフルカラー展開64$\times$ \'{e}tendue を実験的に達成し,fov を水平および垂直に1桁拡張した。

Holographic displays can generate light fields by dynamically modulating the wavefront of a coherent beam of light using a spatial light modulator, promising rich virtual and augmented reality applications. However, the limited spatial resolution of existing dynamic spatial light modulators imposes a tight bound on the diffraction angle. As a result, modern holographic displays possess low \'{e}tendue, which is the product of the display area and the maximum solid angle of diffracted light. The low \'{e}tendue forces a sacrifice of either the field-of-view (FOV) or the display size. In this work, we lift this limitation by presenting neural \'{e}tendue expanders. This new breed of optical elements, which is learned from a natural image dataset, enables higher diffraction angles for ultra-wide FOV while maintaining both a compact form factor and the fidelity of displayed contents to human viewers. With neural \'{e}tendue expanders, we experimentally achieve 64$\times$ \'{e}tendue expansion of natural images in full color, expanding the FOV by an order of magnitude horizontally and vertically, with high-fidelity reconstruction quality (measured in PSNR) over 29 dB on retinal-resolution images.
翻訳日:2023-09-14 19:04:07 公開日:2023-09-12
# データセットシフト診断のための統一フレームワーク

A unified framework for dataset shift diagnostics ( http://arxiv.org/abs/2205.08340v4 )

ライセンス: Link先を確認
Felipe Maia Polo, Rafael Izbicki, Evanildo Gomes Lacerda Jr, Juan Pablo Ibieta-Jimenez, Renato Vicente(参考訳) 教師付き学習技術は、通常、訓練データがターゲット人口に由来すると仮定する。 しかし、実際にはデータセットのシフトが頻繁に発生し、適切に考慮しなければ予測器の性能が低下する可能性がある。 本研究では,複数のデータセットのシフトの定量化とテストを行い,y$,y$,$y$,$x|y$,$y|x$,$y|x$の分布の変化を包含する,新しい柔軟なフレームワークである detectionshift を提案する。 DetectShiftは実践者にデータシフトに関する洞察を与え、ソースデータとターゲットデータの両方を使用して予測者の適応や再トレーニングを容易にする。 これは、ターゲット領域のラベル付きサンプルが制限されている場合に非常に価値がある。 このフレームワークは同じ性質でテスト統計を利用し、様々なシフトの大きさを定量化し、その結果をより解釈可能である。 汎用的で、回帰処理や分類処理に適しており、表やテキスト、イメージなど、さまざまなデータ形式に対応している。 実験結果は,高次元においてもデータセットシフト検出における検出シフトの有効性を示す。

Supervised learning techniques typically assume training data originates from the target population. Yet, in reality, dataset shift frequently arises, which, if not adequately taken into account, may decrease the performance of their predictors. In this work, we propose a novel and flexible framework called DetectShift that quantifies and tests for multiple dataset shifts, encompassing shifts in the distributions of $(X, Y)$, $X$, $Y$, $X|Y$, and $Y|X$. DetectShift equips practitioners with insights into data shifts, facilitating the adaptation or retraining of predictors using both source and target data. This proves extremely valuable when labeled samples in the target domain are limited. The framework utilizes test statistics with the same nature to quantify the magnitude of the various shifts, making results more interpretable. It is versatile, suitable for regression and classification tasks, and accommodates diverse data forms - tabular, text, or image. Experimental results demonstrate the effectiveness of DetectShift in detecting dataset shifts even in higher dimensions.
翻訳日:2023-09-14 18:54:37 公開日:2023-09-12
# CPU/GPUアーキテクチャ上での分散メモリ外NMF

Distributed Out-of-Memory NMF on CPU/GPU Architectures ( http://arxiv.org/abs/2202.09518v4 )

ライセンス: Link先を確認
Ismael Boureima, Manish Bhattarai, Maksim Eren, Erik Skau, Philip Romero, Stephan Eidenbenz, Boian Alexandrov(参考訳) ヘテロジニアスハイパフォーマンス計算(HPC)システムのための非負行列分解(NMF)アルゴリズムのメモリ外分散実装を提案する。 提案手法は,データから潜在変数やパターンを自動的に抽出し,モデル選択を行うnmfkの先行研究に基づいている。 本研究では,マルチノード,マルチGPUシステム上での高密度かつスパースな行列演算のサポートを追加することでNMFkを拡張する。 得られたアルゴリズムは、与えられた行列を分解するために必要なメモリが利用可能なGPUメモリよりも大きいメモリ外問題(OOM)に最適化される。 メモリの複雑さはバッチ/チルティング戦略によって減少し、スパースと密度の高い行列演算はGPUコア(あるいは利用可能なテンソルコア)で大幅に加速される。 ホストとデバイス間のバッチコピーに関連する入出力(I/O)レイテンシをCUDAストリームを使用して隠蔽し、データ転送と非同期処理を行い、最適化されたNVIDIA Collective Communication Library NCCLベースのコミュニケータを使用して、集合通信(ノード内およびノード間の両方)に関連するレイテンシを低減する。 ベンチマークの結果、32Xから76倍のスピードアップ、CPUベースのNMFk上のGPUを使った新しい実装など、大幅な改善が見られた。 密度340テラバイトサイズの行列と密度10e-6の11エクサバイトサイズのスパース行列を分解する場合,4096個のマルチGPUクラスタノードに約25,000個のGPUを配置した。

We propose an efficient distributed out-of-memory implementation of the Non-negative Matrix Factorization (NMF) algorithm for heterogeneous high-performance-computing (HPC) systems. The proposed implementation is based on prior work on NMFk, which can perform automatic model selection and extract latent variables and patterns from data. In this work, we extend NMFk by adding support for dense and sparse matrix operation on multi-node, multi-GPU systems. The resulting algorithm is optimized for out-of-memory (OOM) problems where the memory required to factorize a given matrix is greater than the available GPU memory. Memory complexity is reduced by batching/tiling strategies, and sparse and dense matrix operations are significantly accelerated with GPU cores (or tensor cores when available). Input/Output (I/O) latency associated with batch copies between host and device is hidden using CUDA streams to overlap data transfers and compute asynchronously, and latency associated with collective communications (both intra-node and inter-node) is reduced using optimized NVIDIA Collective Communication Library NCCL based communicators. Benchmark results show significant improvement, from 32X to 76x speedup, with the new implementation using GPUs over the CPU-based NMFk. Good weak scaling was demonstrated on up to 4096 multi-GPU cluster nodes with approximately 25,000 GPUs when decomposing a dense 340 Terabyte-size matrix and an 11 Exabyte-size sparse matrix of density 10e-6.
翻訳日:2023-09-14 18:53:09 公開日:2023-09-12
# Remove, Reduce, Inform: ソーシャルメディアのプラットホームが、コンテンツの誤解を招きかねない、どんなアクションを望んでいるか?

Remove, Reduce, Inform: What Actions do People Want Social Media Platforms to Take on Potentially Misleading Content? ( http://arxiv.org/abs/2202.00799v3 )

ライセンス: Link先を確認
Shubham Atreja, Libby Hemphill, Paul Resnick(参考訳) 誤情報の拡散を減らすために、ソーシャルメディアプラットフォームは、情報警告ラベルの追加、配布の削減、コンテンツの完全削除など、悪質なコンテンツに対する強制措置を取る可能性がある。 しかし、彼らの行動と不行は論争を巻き起こし、党派偏見の主張に悩まされている。 特定のコンテンツアイテムに関しては、一般人がプラットフォームに何をしたいのか、驚くほど不明だ。 368のニュース記事に対する3つの潜在的プラットフォーム行動に対する、政治的にバランスのとれたレートラーの選好に関する実証的な証拠を提供する。 我々の結果は、多くの記事において、どの行動をとるべきかについてのコンセンサスがないことを確認した。 行動の重大さが認識される階層が明確であることに気付き、リサーの大多数が記事に情報ラベルを付け、最少項目を削除したいと願っている。 プラットフォームアクションに値する記事数に関して党派的な違いはなかったが、保守派はリベラルな情報源からのコンテンツに対して幾らかのアクションを好み、その逆も好んだ。 また,「誤解」と「危害」という2つの総合的性質に関する判断が,利率者の多数派がどのような行為を承認するかを判断する効果的な指標となることも見いだした。

To reduce the spread of misinformation, social media platforms may take enforcement actions against offending content, such as adding informational warning labels, reducing distribution, or removing content entirely. However, both their actions and their inactions have been controversial and plagued by allegations of partisan bias. When it comes to specific content items, surprisingly little is known about what ordinary people want the platforms to do. We provide empirical evidence about a politically balanced panel of lay raters' preferences for three potential platform actions on 368 news articles. Our results confirm that on many articles there is a lack of consensus on which actions to take. We find a clear hierarchy of perceived severity of actions with a majority of raters wanting informational labels on the most articles and removal on the fewest. There was no partisan difference in terms of how many articles deserve platform actions but conservatives did prefer somewhat more action on content from liberal sources, and vice versa. We also find that judgments about two holistic properties, misleadingness and harm, could serve as an effective proxy to determine what actions would be approved by a majority of raters.
翻訳日:2023-09-14 18:52:38 公開日:2023-09-12
# サインと関連性学習

Sign and Relevance Learning ( http://arxiv.org/abs/2110.07292v4 )

ライセンス: Link先を確認
Sama Daryanavard and Bernd Porr(参考訳) 生物学的に現実的あるいは生物学的にインスパイアされた強化学習の標準モデルは、浅いネットワークの使用を意味するグローバルエラー信号を使用する。 一方、エラーのバックプロパゲーションにより、複数のレイヤを持つネットワークを使用できる。 しかし, 生物学的に現実的なネットワークでは, 層間を正確に重み付けした誤りバックプロパゲーションが必要となるため, 正確な誤りバックプロパゲーションを正当化することは困難である。 本研究では,ネットワーク全体の可塑性変化の兆候(LTP/LTD)のみを伝播させ,ニューロ変調が学習率を制御することによって,この問題を解決する新しいネットワークを提案する。 ニューロモジュレーションは整流エラーまたは関連信号として解釈できるが、エラー信号の上位ダウンサインは長期増強または長期抑うつが起こるかどうかを判断する。 提案手法の有効性を実証するために,概念実証として実際のロボット作業を行った。 その結果,このパラダイムは生物学的に妥当な学習機構を用いて複雑なタスクを遂行できることがわかった。

Standard models of biologically realistic or biologically inspired reinforcement learning employ a global error signal, which implies the use of shallow networks. On the other hand, error backpropagation allows the use of networks with multiple layers. However, precise error backpropagation is difficult to justify in biologically realistic networks because it requires precise weighted error backpropagation from layer to layer. In this study, we introduce a novel network that solves this problem by propagating only the sign of the plasticity change (i.e., LTP/LTD) throughout the whole network, while neuromodulation controls the learning rate. Neuromodulation can be understood as a rectified error or relevance signal, while the top-down sign of the error signal determines whether long-term potentiation or long-term depression will occur. To demonstrate the effectiveness of this approach, we conducted a real robotic task as proof of concept. Our results show that this paradigm can successfully perform complex tasks using a biologically plausible learning mechanism.
翻訳日:2023-09-14 18:51:33 公開日:2023-09-12
# MIDOG 2022チャレンジのための放射予測領域適応分類器

Radial Prediction Domain Adaption Classifier for the MIDOG 2022 Challenge ( http://arxiv.org/abs/2208.13902v2 )

ライセンス: Link先を確認
Jonas Annuscheit and Christian Krumnow(参考訳) 本稿では,mitotic cell の検出に関する midog 2022 challenge への貢献について述べる。 MIDOG 2022の課題で解決すべき問題のひとつは、病理学の分野における実生活データに現れる自然変動の下での堅牢性である。 この問題に対処するために、新しいドメイン適応分類器(DAC)と共にオブジェクト検出に適合したYOLOv5sモデルを用いて、ドメインシフト下で堅牢性を実現する。 さらに,HED色空間における染色増色によるトレーニングデータの可変性も向上する。 提案手法を用いて,テスト集合 f1-score を 0.6658 とする。

This paper describes our contribution to the MIDOG 2022 challenge for detecting mitotic cells. One of the major problems to be addressed in the MIDOG 2022 challenge is the robustness under the natural variance that appears for real-life data in the histopathology field. To address the problem, we use an adapted YOLOv5s model for object detection in conjunction with a new Domain Adaption Classifier (DAC) variant, the Radial-Prediction-DAC, to achieve robustness under domain shifts. In addition, we increase the variability of the available training data using stain augmentation in HED color space. Using the suggested method, we obtain a test set F1-score of 0.6658.
翻訳日:2023-09-14 18:41:20 公開日:2023-09-12
# CTRL:ラベルエラー検出のためのクラスタリングトレーニング損失

CTRL: Clustering Training Losses for Label Error Detection ( http://arxiv.org/abs/2208.08464v2 )

ライセンス: Link先を確認
Chang Yue and Niraj K. Jha(参考訳) 教師付き機械学習では、正確なラベルの使用は高い精度を保証するために極めて重要である。 残念ながら、ほとんどのデータセットにはラベルが破損している。 このようなデータセットでトレーニングされた機械学習モデルは、うまく一般化しない。 これにより、ラベルエラーの検出は、その有効性を著しく向上させることができる。 本稿では,マルチクラスデータセットにおけるラベルエラーを検出するctrl(clustering training loss for label error detection)と呼ばれる新しいフレームワークを提案する。 モデルが異なる方法でクリーンでノイズの多いラベルを学習する観察に基づいて、ラベルエラーを2つのステップで検出する。 まず,ノイズトレーニングデータセットを用いてニューラルネットワークをトレーニングし,各サンプルの損失曲線を得る。 次に,グループサンプルの学習損失にクラスタリングアルゴリズムを適用し,クリーンラベルとノイズラベルの2つのカテゴリに分類した。 ラベル誤り検出後、ノイズラベル付きサンプルを除去し、モデルを再訓練する。 実験により, 画像(CIFAR-10, CIFAR-100)と表状データセットの両方に対して, シミュレーションノイズ下での誤り検出精度を示す。 また、CTRLがなぜうまく機能するのかを理論的に分析する。

In supervised machine learning, use of correct labels is extremely important to ensure high accuracy. Unfortunately, most datasets contain corrupted labels. Machine learning models trained on such datasets do not generalize well. Thus, detecting their label errors can significantly increase their efficacy. We propose a novel framework, called CTRL (Clustering TRaining Losses for label error detection), to detect label errors in multi-class datasets. It detects label errors in two steps based on the observation that models learn clean and noisy labels in different ways. First, we train a neural network using the noisy training dataset and obtain the loss curve for each sample. Then, we apply clustering algorithms to the training losses to group samples into two categories: cleanly-labeled and noisily-labeled. After label error detection, we remove samples with noisy labels and retrain the model. Our experimental results demonstrate state-of-the-art error detection accuracy on both image (CIFAR-10 and CIFAR-100) and tabular datasets under simulated noise. We also use a theoretical analysis to provide insights into why CTRL performs so well.
翻訳日:2023-09-14 18:41:09 公開日:2023-09-12
# 量子ランダムアクセスメモリと量子ネットワークを備えたデータセンター

Data centers with quantum random access memory and quantum networks ( http://arxiv.org/abs/2207.14336v3 )

ライセンス: Link先を確認
Junyu Liu, Connor T. Hann, Liang Jiang(参考訳) 本稿では,量子ランダムアクセスメモリ(QRAM)と量子ネットワークを組み合わせたアーキテクチャである量子データセンター(QDC)を提案する。 qdcの正確な定義を与え、その実現可能性と拡張について論じる。 本稿では,QDCの量子計算,量子通信,量子センシングへの応用について論じる。QDCは$T$-gateリソース,QDCはマルチパーティのプライベート量子通信,QDCはデータ圧縮による分散センシングに重点を置いている。 我々は、QDCが将来のデータセンターとして効率的でプライベートで高速なサービスを提供することを示す。

In this paper, we propose the Quantum Data Center (QDC), an architecture combining Quantum Random Access Memory (QRAM) and quantum networks. We give a precise definition of QDC, and discuss its possible realizations and extensions. We discuss applications of QDC in quantum computation, quantum communication, and quantum sensing, with a primary focus on QDC for $T$-gate resources, QDC for multi-party private quantum communication, and QDC for distributed sensing through data compression. We show that QDC will provide efficient, private, and fast services as a future version of data centers.
翻訳日:2023-09-14 18:40:51 公開日:2023-09-12
# Snipper: ビデオスニペットにおける同時多人数3次元姿勢推定と予測のための時空間変換器

Snipper: A Spatiotemporal Transformer for Simultaneous Multi-Person 3D Pose Estimation Tracking and Forecasting on a Video Snippet ( http://arxiv.org/abs/2207.04320v3 )

ライセンス: Link先を確認
Shihao Zou, Yuanlu Xu, Chao Li, Lingni Ma, Li Cheng, Minh Vo(参考訳) RGBビデオからの多人数ポーズ理解には、ポーズ推定、トラッキング、モーション予測という3つの複雑なタスクが含まれる。 直感的には、正確な複数人のポーズ推定はロバストなトラッキングを促進し、ロバストなトラッキングは正しい動き予測に重要な履歴を構築する。 既存の作業の多くは1つのタスクに集中するか、複数のタスクを個別に解決するためのマルチステージアプローチを採用するかのどちらかだ。 本稿では,複数の人物によるポーズ推定,トラッキング,動き予測を同時に行うための統合フレームワークであるSnipperを提案する。 ビデオスニペットから時空間情報を集約する,効率的かつ強力に変形可能なアテンション機構を提案する。 この変形可能な注意に基づいて、ビデオトランスフォーマは、マルチフレームスニペットから時空間的特徴をエンコードし、多人数のポーズクエリのための情報的ポーズ特徴を復号するために学習される。 最後に、これらのポーズクエリを回帰して、複数人のポーズトラジェクトリと将来の動きを1ショットで予測する。 実験では,ポーズ推定,追跡,予測のための最先端ベースラインに匹敵する3つの難解なパブリックデータセットに対して,スナイパーの有効性を示す。

Multi-person pose understanding from RGB videos involves three complex tasks: pose estimation, tracking and motion forecasting. Intuitively, accurate multi-person pose estimation facilitates robust tracking, and robust tracking builds crucial history for correct motion forecasting. Most existing works either focus on a single task or employ multi-stage approaches to solving multiple tasks separately, which tends to make sub-optimal decision at each stage and also fail to exploit correlations among the three tasks. In this paper, we propose Snipper, a unified framework to perform multi-person 3D pose estimation, tracking, and motion forecasting simultaneously in a single stage. We propose an efficient yet powerful deformable attention mechanism to aggregate spatiotemporal information from the video snippet. Building upon this deformable attention, a video transformer is learned to encode the spatiotemporal features from the multi-frame snippet and to decode informative pose features for multi-person pose queries. Finally, these pose queries are regressed to predict multi-person pose trajectories and future motions in a single shot. In the experiments, we show the effectiveness of Snipper on three challenging public datasets where our generic model rivals specialized state-of-art baselines for pose estimation, tracking, and forecasting.
翻訳日:2023-09-14 18:40:23 公開日:2023-09-12
# コンピュータビジョンとLSTMニューラルネットワークを用いた太陽コロナホール解析と予測

Solar Coronal Hole Analysis and Prediction using Computer Vision and LSTM Neural Network ( http://arxiv.org/abs/2301.06732v5 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 人類が宇宙を探索し始めるにつれ、宇宙の天気の重要性が明らかになってきた。 宇宙天気現象の一種であるコロナホールが、航空機や衛星の運用に影響を与えることが確立されている。 コロナホール(英: coronal hole)は、オープン磁場線と比較的低温を特徴とする太陽上の領域であり、太陽風を平均より高い速度で放出する。 本研究では,地球へのコロナホールの影響に備えるために,コンピュータビジョンを用いてコロナホール領域を検出し,太陽動力学観測所(sdo)の画像に基づいてその大きさを計算する。 我々は、太陽の各領域のコロナホールを比較し、相関関係を分析する。 次に, 深層学習, 特にLong Short-Term Memory (LSTM) 手法を実装し, コロナホール領域データの傾向を解析し, 7日間にわたる異なる太陽領域におけるそのサイズを予測する。 本研究は, コロナホール領域の時系列データを解析することにより, コロナホールの挙動のパターンや傾向を同定し, 宇宙気象事象にどのように影響するかを理解することを目的とする。 この研究は、地球と技術システムに影響を与える宇宙天気イベントを予測し、準備する能力を改善するための重要なステップである。

As humanity has begun to explore space, the significance of space weather has become apparent. It has been established that coronal holes, a type of space weather phenomenon, can impact the operation of aircraft and satellites. The coronal hole is an area on the sun characterized by open magnetic field lines and relatively low temperatures, which result in the emission of the solar wind at higher than average rates. In this study, To prepare for the impact of coronal holes on the Earth, we use computer vision to detect the coronal hole region and calculate its size based on images from the Solar Dynamics Observatory (SDO). We compare the coronal holes for each region of the Sun and analyze the correlation. We then implement deep learning techniques, specifically the Long Short-Term Memory (LSTM) method, to analyze trends in the coronal hole area data and predict its size for different sun regions over 7 days. By analyzing time series data on the coronal hole area, this study aims to identify patterns and trends in coronal hole behavior and understand how they may impact space weather events. This research represents an important step towards improving our ability to predict and prepare for space weather events that can affect Earth and technological systems.
翻訳日:2023-09-14 18:33:47 公開日:2023-09-12
# 未知のカテゴリとカメラポーズを用いた少数視点物体再構成

Few-View Object Reconstruction with Unknown Categories and Camera Poses ( http://arxiv.org/abs/2212.04492v2 )

ライセンス: Link先を確認
Hanwen Jiang, Zhenyu Jiang, Kristen Grauman and Yuke Zhu(参考訳) 近年では物体の復元が大きな進歩を遂げているが、現在の手法では一般的に高密度に撮影された画像やカメラのポーズが必要となる。 本研究は,自然界におけるオブジェクトの再構築に向けて,カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から,一般的な現実世界のオブジェクトを再構築する。 私たちの研究の要点は、統一されたアプローチで2つの基本的な3D視覚問題(形状再構成とポーズ推定)を解決することです。 信頼性の高いカメラポーズ推定は正確な形状再構成を生じさせ、正確な再構成は異なる視点間のロバストな対応を誘発し、ポーズ推定を促進する。 提案手法は,各視点から3次元特徴を予測し,入力画像と連動して,相対カメラポーズ推定のためのクロスビュー対応を確立する。 3D特徴は、推定されたポーズによって共有空間に変換され、神経放射場に融合される。 復元結果はボリュームレンダリング技術によってレンダリングされ、3次元形状のグラウンドトルースを使わずにモデルを訓練することができる。 実験の結果,forgeは5つの視点から確実にオブジェクトを再構築できることがわかった。 ポーズ推定法は既存のものよりも大きなマージンで優れている。 予測されたポーズによる再構成結果は,接地姿勢と同等である。 新たなテストカテゴリのパフォーマンスは、トレーニング中に見られるカテゴリの結果にマッチする。 プロジェクトページ: https://ut-austin-rpl.github.io/forge/

While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
翻訳日:2023-09-14 18:32:36 公開日:2023-09-12
# QAOA with $N\cdot p\geq 200$

QAOA with $N\cdot p\geq 200$ ( http://arxiv.org/abs/2303.02064v2 )

ライセンス: Link先を確認
Ruslan Shaydulin and Marco Pistoia(参考訳) ノイズの多い中間スケール量子(onisq)プログラムによるdarpa最適化の中心的な目標の1つは、高い$n\cdot p$を持つハイブリッド量子/古典的最適化アルゴリズムを実装することである。 本稿では,非平面3次元正則グラフの最大カット問題に適用する量子近似最適化アルゴリズム (qaoa) の実行を,量子化h1-1およびh2トラップイオン量子プロセッサ上で最大320ドルのn\cdot p$で実証する。 われわれの知る限りでは、これはこれまでのハードウェアで実証された最高額の$N\cdot p$だ。 量子ハードウェアの急速な進歩を実証する。

One of the central goals of the DARPA Optimization with Noisy Intermediate-Scale Quantum (ONISQ) program is to implement a hybrid quantum/classical optimization algorithm with high $N\cdot p$, where $N$ is the number of qubits and $p$ is the number of alternating applications of parameterized quantum operators in the protocol. In this note, we demonstrate the execution of the Quantum Approximate Optimization Algorithm (QAOA) applied to the MaxCut problem on non-planar 3-regular graphs with $N\cdot p$ of up to $320$ on the Quantinuum H1-1 and H2 trapped-ion quantum processors. To the best of our knowledge, this is the highest $N\cdot p$ demonstrated on hardware to date. Our demonstration highlights the rapid progress of quantum hardware.
翻訳日:2023-09-14 18:21:41 公開日:2023-09-12
# ペナルティに基づく二値勾配法について

On Penalty-based Bilevel Gradient Descent Method ( http://arxiv.org/abs/2302.05185v4 )

ライセンス: Link先を確認
Han Shen, Quan Xiao, Tianyi Chen(参考訳) 双レベル最適化は、ハイパーパラメータ最適化、メタラーニング、強化学習において幅広い応用を享受している。 しかし、二段階最適化問題は解決が難しい。 スケーラブルなbilevelアルゴリズムの最近の進歩は、主に低レベル目標が強い凸か非拘束かの2レベル最適化問題に焦点を当てている。 本研究では, ペナルティ手法のレンズを用いて, バイレベル問題に取り組む。 一定の条件下では、ペナルティ改革は元の二段階問題の解を回復する。 さらに,ペナルティに基づく二レベル勾配降下(pbgd)アルゴリズムを提案し,その有限時間収束を,低レベル強い凸性を持たずに確立する。 実験では提案したPBGDアルゴリズムの有効性を示す。

Bilevel optimization enjoys a wide range of applications in hyper-parameter optimization, meta-learning and reinforcement learning. However, bilevel optimization problems are difficult to solve. Recent progress on scalable bilevel algorithms mainly focuses on bilevel optimization problems where the lower-level objective is either strongly convex or unconstrained. In this work, we tackle the bilevel problem through the lens of the penalty method. We show that under certain conditions, the penalty reformulation recovers the solutions of the original bilevel problem. Further, we propose the penalty-based bilevel gradient descent (PBGD) algorithm and establish its finite-time convergence for the constrained bilevel problem without lower-level strong convexity. Experiments showcase the efficiency of the proposed PBGD algorithm.
翻訳日:2023-09-14 18:19:38 公開日:2023-09-12
# 時間平均制約を考慮した制御系オンライン最適化のためのプライマル・ディダル・コンテクストベイズ最適化

Primal-Dual Contextual Bayesian Optimization for Control System Online Optimization with Time-Average Constraints ( http://arxiv.org/abs/2304.06104v3 )

ライセンス: Link先を確認
Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones(参考訳) 本稿では,制約付き閉ループ制御システムのオンライン性能最適化の問題点について検討する。 一定の規則性条件下での動的最適解に対して,線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。 さらに、アルゴリズムは平均時間制約違反をゼロとし、制約関数の平均値が所望の制約を満たすことを保証する。 本手法はガウシアンプロセスから採取したサンプルインスタンスと, 連続発振型原子炉パラメータチューニング問題の両方に適用し, シミュレーション結果から, ほぼ最適性能を同時に提供し, 平均的な制約実現性を維持することを示す。 これは、提示されたケーススタディに対する大きな累積的後悔または厳しい制約違反に苦しむ現在の最先端の手法とは対照的である。

This paper studies the problem of online performance optimization of constrained closed-loop control systems, where both the objective and the constraints are unknown black-box functions affected by exogenous time-varying contextual disturbances. A primal-dual contextual Bayesian optimization algorithm is proposed that achieves sublinear cumulative regret with respect to the dynamic optimal solution under certain regularity conditions. Furthermore, the algorithm achieves zero time-average constraint violation, ensuring that the average value of the constraint function satisfies the desired constraint. The method is applied to both sampled instances from Gaussian processes and a continuous stirred tank reactor parameter tuning problem; simulation results show that the method simultaneously provides close-to-optimal performance and maintains constraint feasibility on average. This contrasts current state-of-the-art methods, which either suffer from large cumulative regret or severe constraint violations for the case studies presented.
翻訳日:2023-09-14 18:13:44 公開日:2023-09-12
# LaCViT:ビジョントランスフォーマーのためのラベル対応コントラストトレーニングフレームワーク

LaCViT: A Label-aware Contrastive Training Framework for Vision Transformers ( http://arxiv.org/abs/2303.18013v2 )

ライセンス: Link先を確認
Zijun Long, Zaiqiao Meng, Gerardo Aragon Camarasa, Richard McCreadie(参考訳) ビジョントランスフォーマーは、長い機能依存性をモデル化できるため、コンピュータビジョンタスクに取り組む際に非常に効果的です。 大規模なトレーニングデータと様々な自己監視信号(例えばマスクされたランダムパッチ)を使用することで、vision transformerはimagenet-1kやcifar-10といったいくつかのベンチマークデータセットで最先端のパフォーマンスを提供する。 しかし、一般的な大規模画像コーパスで事前訓練されたこれらの視覚トランスフォーマーは、異方性表現空間しか生成できず、その一般化性と目標下流タスクへの転送性を制限した。 本稿では、視覚変換器の事前学習表現空間の等方性を改善し、幅広い画像分類タスクにおいてより効果的な移動学習を可能にする、単純で効果的なラベル対応コントラスト訓練フレームワークLaCViTを提案する。 5つの標準画像分類データセットを実験することにより、LaCViTトレーニングされたモデルは、元のトレーニング済みベースラインを約9%の絶対精度@1で上回り、LaCViTを3つの評価された視覚変換器に適用した場合、一貫した改善が観察できることを示した。

Vision Transformers have been incredibly effective when tackling computer vision tasks due to their ability to model long feature dependencies. By using large-scale training data and various self-supervised signals (e.g., masked random patches), vision transformers provide state-of-the-art performance on several benchmarking datasets, such as ImageNet-1k and CIFAR-10. However, these vision transformers pretrained over general large-scale image corpora could only produce an anisotropic representation space, limiting their generalizability and transferability to the target downstream tasks. In this paper, we propose a simple and effective Label-aware Contrastive Training framework LaCViT, which improves the isotropy of the pretrained representation space for vision transformers, thereby enabling more effective transfer learning amongst a wide range of image classification tasks. Through experimentation over five standard image classification datasets, we demonstrate that LaCViT-trained models outperform the original pretrained baselines by around 9% absolute Accuracy@1, and consistent improvements can be observed when applying LaCViT to our three evaluated vision transformers.
翻訳日:2023-09-14 18:12:26 公開日:2023-09-12
# 不変および等変場予測としての4次元パノプティカルセグメンテーション

4D Panoptic Segmentation as Invariant and Equivariant Field Prediction ( http://arxiv.org/abs/2303.15651v2 )

ライセンス: Link先を確認
Minghan Zhu, Shizhong Han, Hong Cai, Shubhankar Borse, Maani Ghaffari, Fatih Porikli(参考訳) 本稿では,4次元パノプティックセグメンテーションのための回転同変ニューラルネットワークを開発する。 4D Panoptic segmentationは自動運転のためのベンチマークタスクで、LiDARスキャンに基づいて道路上のセマンティッククラスとオブジェクトインスタンスを認識し、時間をかけてインスタンスに時間的に一貫したIDを割り当てる。 運転シナリオは地上面上の回転と対称であることが観察された。 したがって、回転等価性はより良い一般化とより堅牢な特徴学習をもたらす。 具体的には、オブジェクトインスタンスクラスタリング戦略を見直し、中心性に基づくアプローチとオフセットに基づくアプローチを不変スカラー場と等変ベクトル場の予測として再検討する。 他のサブタスクもこの観点からも統一されており、異なる不変および同変層はそれらの予測を容易にするように設計されている。 本研究では,Semantic KITTIの標準4Dパノプティクスセグメンテーションベンチマークを用いて,同変モデルが非等変モデルと比較して計算コストを低くして高い精度を達成することを示す。 さらに,本手法は,新しい最先端性能を設定し,SemanticKITTI 4D Panoptic Segmentation Leaderboardで1位を獲得している。

In this paper, we develop rotation-equivariant neural networks for 4D panoptic segmentation. 4D panoptic segmentation is a benchmark task for autonomous driving that requires recognizing semantic classes and object instances on the road based on LiDAR scans, as well as assigning temporally consistent IDs to instances across time. We observe that the driving scenario is symmetric to rotations on the ground plane. Therefore, rotation-equivariance could provide better generalization and more robust feature learning. Specifically, we review the object instance clustering strategies and restate the centerness-based approach and the offset-based approach as the prediction of invariant scalar fields and equivariant vector fields. Other sub-tasks are also unified from this perspective, and different invariant and equivariant layers are designed to facilitate their predictions. Through evaluation on the standard 4D panoptic segmentation benchmark of SemanticKITTI, we show that our equivariant models achieve higher accuracy with lower computational costs compared to their non-equivariant counterparts. Moreover, our method sets the new state-of-the-art performance and achieves 1st place on the SemanticKITTI 4D Panoptic Segmentation leaderboard.
翻訳日:2023-09-14 18:10:35 公開日:2023-09-12
# 変圧器を用いた単眼視覚オドメトリーモデル : 映像理解によるアプローチ

Transformer-based model for monocular visual odometry: a video understanding approach ( http://arxiv.org/abs/2305.06121v2 )

ライセンス: Link先を確認
Andr\'e O. Fran\c{c}ani and Marcos R. O. A. Maximo(参考訳) 1台のカメラの画像からカメラのポーズを推定することは、移動ロボットや自動運転車の伝統的なタスクである。 この問題は単眼視覚計測と呼ばれ、特定のシナリオに対してかなりのエンジニアリング作業を必要とする幾何学的アプローチに依存することが多い。 深層学習法は、適切な訓練と大量のデータを得た後に一般化できることが示されている。 トランスフォーマーベースのアーキテクチャは、自然言語処理や画像やビデオ理解などのコンピュータビジョンタスクにおいて最先端のアーキテクチャを支配してきた。 本研究では,6-DoFカメラのポーズを推定するために,映像理解タスクとしてモノクロ視覚計測を扱う。 映像から特徴を抽出し, 動きをエンドツーエンドで推定するために, 時空間自己着機構に基づくtsformer-voモデルを提案する。 本手法はkittiビジュアルオドメトリデータセット上の幾何ベースおよび深層学習ベースの手法と比較し,視覚オドメトリコミュニティで広く受け入れられているdeepvo実装を上回っている。

Estimating the camera's pose given images of a single camera is a traditional task in mobile robots and autonomous vehicles. This problem is called monocular visual odometry and it often relies on geometric approaches that require considerable engineering effort for a specific scenario. Deep learning methods have shown to be generalizable after proper training and a large amount of available data. Transformer-based architectures have dominated the state-of-the-art in natural language processing and computer vision tasks, such as image and video understanding. In this work, we deal with the monocular visual odometry as a video understanding task to estimate the 6-DoF camera's pose. We contribute by presenting the TSformer-VO model based on spatio-temporal self-attention mechanisms to extract features from clips and estimate the motions in an end-to-end manner. Our approach achieved competitive state-of-the-art performance compared with geometry-based and deep learning-based methods on the KITTI visual odometry dataset, outperforming the DeepVO implementation highly accepted in the visual odometry community.
翻訳日:2023-09-14 17:59:50 公開日:2023-09-12
# 組み込みデバイスでの自然言語処理:現代のモデルの性能はどの程度か?

Processing Natural Language on Embedded Devices: How Well Do Modern Models Perform? ( http://arxiv.org/abs/2304.11520v3 )

ライセンス: Link先を確認
Souvika Sarkar, Mohammad Fakhruddin Babar, Md Mahadi Hassan, Monowar Hasan, and Shubhra Kanti Karmaker Santu(参考訳) 音声制御システムは、ホーム/インダストリアルオートメーション、自動車インフォテインメント、ヘルスケアなど、多くのIoT固有のアプリケーションで普及している。 クラウドベースの音声サービス(\eg Alexa、Siri)は高性能なコンピューティングサーバーを利用することができるが、いくつかのユースケース(\eg Roboticss、自動車インフォテインメント)では、自然言語処理(NLP)タスクをオフラインで実行する必要がある。 BERTなどの大規模言語モデルは、主に計算量の多いサーバを念頭に開発されている。 様々なNLPタスクにまたがるBERTモデルの優れた性能にもかかわらず、その大きなサイズと多数のパラメータは組み込みシステムにおけるオフライン計算にかなりの障害をもたらす。 このような言語モデルのより軽量な置換 (\eg DistilBERT と TinyBERT) は、特に複雑な NLP タスクの精度を犠牲にすることが多い。 これまでのところ、最先端の言語モデルである \viz bertとその変種が、プロセッサ、メモリ、バッテリパワーに制限のある組み込みシステムにデプロイ可能かどうか、もしそうであれば \cbと、所定のnlpタスクのために選択すべき設定とパラメータの ``right'' セットは何かは、まだ不明である。 本稿では,異なる資源制約と正確性予算の下で,これらの資源/正確性トレードオフに関する経験的観察を導出するために, \textit{exploratory study of modern language models} を提案する。 特に,最もよく使われているBERTベースの4つの言語モデル (\eg BERT, RoBERTa, DistilBERT, TinyBERT) が組込みシステム上でどのように動作するかを検討する。 3つのハードウェア構成と4つのデータセットがさまざまなNLPタスクを実行するRaspberry Piベースのロボットプラットフォームでテストしました。 私たちの発見は、デザイナーが現代の言語モデル、特にbertアーキテクチャに基づくモデルのデプロイ可能性とパフォーマンスを理解するのに役立ちます。

Voice-controlled systems are becoming ubiquitous in many IoT-specific applications such as home/industrial automation, automotive infotainment, and healthcare. While cloud-based voice services (\eg Alexa, Siri) can leverage high-performance computing servers, some use cases (\eg robotics, automotive infotainment) may require to execute the natural language processing (NLP) tasks offline, often on resource-constrained embedded devices. Large language models such as BERT and its variants are primarily developed with compute-heavy servers in mind. Despite the great performance of BERT models across various NLP tasks, their large size and numerous parameters pose substantial obstacles to offline computation on embedded systems. Lighter replacement of such language models (\eg DistilBERT and TinyBERT) often sacrifice accuracy, particularly for complex NLP tasks. Until now, it is still unclear \ca whether the state-of-the-art language models, \viz BERT and its variants are deployable on embedded systems with a limited processor, memory, and battery power and \cb if they do, what are the ``right'' set of configurations and parameters to choose for a given NLP task. This paper presents an \textit{exploratory study of modern language models} under different resource constraints and accuracy budgets to derive empirical observations about these resource/accuracy trade-offs. In particular, we study how the four most commonly used BERT-based language models (\eg BERT, RoBERTa, DistilBERT, and TinyBERT) perform on embedded systems. We tested them on a Raspberry Pi-based robotic platform with three hardware configurations and four datasets running various NLP tasks. Our findings can help designers to understand the deployability and performance of modern language models, especially those based on BERT architectures, thus saving a lot of time wasted in trial-and-error efforts.
翻訳日:2023-09-14 17:59:10 公開日:2023-09-12
# フリードキンの限られた情報を持つ敵-ジョンセンモデル

Adversaries with Limited Information in the Friedkin--Johnsen Model ( http://arxiv.org/abs/2306.10313v2 )

ライセンス: Link先を確認
Sijing Tu, Stefan Neumann, Aristides Gionis(参考訳) 近年、オンライン・ソーシャルネットワークは社会に不和をもたらし、民主主義を弱体化させ、コミュニティを不安定化させようとする敵の標的となっている。 多くの場合、ゴールは紛争の特定の側面を支持するのではなく、不一致と偏極を高めることである。 このような攻撃を数学的に理解するために、研究者はフリードキン=ジョンセンモデルのような社会学の世論形成モデルを使い、少数のユーザーに対して意見を変えることで敵がどれだけ不和を生み出すか正式に研究している。 この一連の研究において、敵はネットワークトポロジーとすべてのユーザの意見に関する完全な知識を持っていると一般的に考えられている。 しかし、後者の仮定はしばしば非現実的であり、ユーザーの意見が得られず、正確に見積もることが難しい。 この懸念に対処するために、我々は以下の疑問を提起する。 攻撃者は、ネットワークトポロジのみを知っていても、ソーシャルネットワークで不和を和らげることができるのか? 私たちはこの質問に答える。 ネットワーク内の不一致や偏光に強い影響を与える少数のユーザ群を検出するための近似アルゴリズムを提案する。 敵がこれらのユーザを過激化させ、ネットワークにおける初期不一致/分極があまり高くない場合、ユーザの意見が分かっている場合、その設定に定数近似を与える。 影響力のあるユーザの集合を見つけるために、正および負のエッジ重みを持つグラフにおいて、MaxCutの変種に対する新しい近似アルゴリズムを提供する。 ネットワークトポロジにのみアクセス可能な手法を実験的に評価し,ネットワークトポロジとすべてのユーザの意見にアクセス可能な手法として同等の性能を有することを見出した。 さらに、Chen と Racz [IEEE Trans. Netw. Sci. Eng., 2021] によるオープンな質問であるNP完全性証明を提示する。

In recent years, online social networks have been the target of adversaries who seek to introduce discord into societies, to undermine democracies and to destabilize communities. Often the goal is not to favor a certain side of a conflict but to increase disagreement and polarization. To get a mathematical understanding of such attacks, researchers use opinion-formation models from sociology, such as the Friedkin--Johnsen model, and formally study how much discord the adversary can produce when altering the opinions for only a small set of users. In this line of work, it is commonly assumed that the adversary has full knowledge about the network topology and the opinions of all users. However, the latter assumption is often unrealistic in practice, where user opinions are not available or simply difficult to estimate accurately. To address this concern, we raise the following question: Can an attacker sow discord in a social network, even when only the network topology is known? We answer this question affirmatively. We present approximation algorithms for detecting a small set of users who are highly influential for the disagreement and polarization in the network. We show that when the adversary radicalizes these users and if the initial disagreement/polarization in the network is not very high, then our method gives a constant-factor approximation on the setting when the user opinions are known. To find the set of influential users, we provide a novel approximation algorithm for a variant of MaxCut in graphs with positive and negative edge weights. We experimentally evaluate our methods, which have access only to the network topology, and we find that they have similar performance as methods that have access to the network topology and all user opinions. We further present an NP-hardness proof, which was an open question by Chen and Racz [IEEE Trans. Netw. Sci. Eng., 2021].
翻訳日:2023-09-14 17:53:08 公開日:2023-09-12
# スケーラブル量子ネットワーク: 誤り訂正による混雑のない階層的絡み合いルーティング

Scalable Quantum Networks: Congestion-Free Hierarchical Entanglement Routing with Error Correction ( http://arxiv.org/abs/2306.09216v2 )

ライセンス: Link先を確認
Hyeongrak Choi, Marc G. Davis, \'Alvaro G. I\~nesta, Dirk R. Englund(参考訳) 本稿では,階層型マルチフロー絡み合いルーティングアーキテクチャであるQuantum Tree Networks (QTN)を紹介する。 ネットワーク設計は$k$-aryツリーであり、エンドノードは内部ノードの葉とルータに配置され、各ノードは子レイヤの$k$ノードに接続されている。 ノード間のチャネル長は$a_k$で増加し、葉から根ノードに上昇するにつれて増加する。 この構成により、ノード当たりのqubit-per-nodeオーバーヘッドを持つ混雑のないエラー修正操作が、ノード数に応じてサブ線形にスケールできる。 k$-ary QTN のオーバーヘッドは $\mathcal{O}(N^{\log_k a_k} \cdot \log_k N)$ とスケールし、最小表面被覆端ノードを持つすべての$k$に対してサブ線形である。 具体的には、クォータナリー(k=4$) QTN のオーバーヘッドは$\sim \mathcal{O}(N^{0.25}\cdot\log_4 N)$である。 あるいは、終端ノードが正方格子上に分散されるとき、四元木ルーティングはオーバーヘッド $\sim \mathcal{o}(\sqrt{n}\cdot\log_4 n)$ を与える。 ネットワークレベルのシミュレーションでは,QTNのサイズに依存しない閾値挙動を示す。 さらに、ツリーネットワークルーティングは、ネットワーク操作を合理化し、複雑なマルチパス探索アルゴリズムの必要性を回避する。 これらの性質により、QTNアーキテクチャはスケーラブルな量子ネットワークの重要な要件を満たす。

We introduce Quantum Tree Networks (QTN), an architecture for hierarchical multi-flow entanglement routing. The network design is a $k$-ary tree where end nodes are situated on the leaves and routers at the internal nodes, with each node connected to $k$ nodes in the child layer. The channel length between nodes grows with a rate $a_k$, increasing as one ascends from the leaf to the root node. This construction allows for congestion-free and error-corrected operation with qubit-per-node overhead to scale sublinearly with the number of end nodes, $N$. The overhead for a $k$-ary QTN scales as $\mathcal{O}(N^{\log_k a_k} \cdot \log_k N)$ and is sublinear for all $k$ with minimal surface-covering end nodes. More specifically, the overhead of quarternary ($k=4$) QTN is $\sim \mathcal{O}(N^{0.25}\cdot\log_4 N)$. Alternatively, when end nodes are distributed over a square lattice, the quaternary tree routing gives the overhead $\sim \mathcal{O}(\sqrt{N}\cdot\log_4 N)$. Our network-level simulations demonstrate a size-independent threshold behavior of QTNs. Moreover, tree network routing avoids the necessity for intricate multi-path finding algorithms, streamlining the network operation. With these properties, the QTN architecture satisfies crucial requirements for scalable quantum networks.
翻訳日:2023-09-14 17:52:12 公開日:2023-09-12
# 1:1マッチング課題における誤り率の信頼区間:臨界統計分析と勧告

Confidence Intervals for Error Rates in 1:1 Matching Tasks: Critical Statistical Analysis and Recommendations ( http://arxiv.org/abs/2306.01198v2 )

ライセンス: Link先を確認
Riccardo Fogliato, Pratik Patil, Pietro Perona(参考訳) マッチングアルゴリズムは、コレクション内のアイテム間のマッチングを予測するために一般的に使用される。 例えば、1:1の顔認証では、マッチングアルゴリズムが2つの顔画像が同一人物を表すかどうかを予測する。 このようなアルゴリズムの誤り率の不確実性を正確に評価することは、データが依存していてエラー率が低い場合には困難であり、文献でしばしば見過ごされている2つの側面がある。 本稿では、1:1マッチングタスクにおける誤差率の信頼区間を構築する手法について検討する。 これらの手法の統計的特性を導出し, サンプルサイズ, 誤差率, およびデータ依存性の程度が, 合成および実世界のデータセットを用いた解析と実験の両方に依存することを示す。 本稿では,1:1のマッチングタスクにおいて,誤り率に対する信頼区間を構築するためのベストプラクティスを提案する。

Matching algorithms are commonly used to predict matches between items in a collection. For example, in 1:1 face verification, a matching algorithm predicts whether two face images depict the same person. Accurately assessing the uncertainty of the error rates of such algorithms can be challenging when data are dependent and error rates are low, two aspects that have been often overlooked in the literature. In this work, we review methods for constructing confidence intervals for error rates in 1:1 matching tasks. We derive and examine the statistical properties of these methods, demonstrating how coverage and interval width vary with sample size, error rates, and degree of data dependence on both analysis and experiments with synthetic and real-world datasets. Based on our findings, we provide recommendations for best practices for constructing confidence intervals for error rates in 1:1 matching tasks.
翻訳日:2023-09-14 17:50:22 公開日:2023-09-12
# 連続時間ガウス過程回帰による時間分解能を有するイベントベースステレオビジュアルオドメトリー

Event-based Stereo Visual Odometry with Native Temporal Resolution via Continuous-time Gaussian Process Regression ( http://arxiv.org/abs/2306.01188v5 )

ライセンス: Link先を確認
Jianeng Wang, Jonathan D. Gammell(参考訳) イベントベースのカメラは、シーン内の個々の視覚変化を非同期に捉えます。 これにより、従来のフレームベースのカメラよりも、非常にダイナミックな動きと照明が弱い。 それはまた、シーン内のすべての測定が、ユニークなタイミングで起こりうることを意味する。 これらの異なる測定時間を扱うことは、イベントベースのカメラを使用する上で大きな課題である。 視覚計測(VO)パイプラインでは、時間的に近い測定を1つの共通の時間で行うように近似することで、しばしば対処される。 このグルーピングは推定問題を単純化するが、追加センサーがないため、イベントベースカメラの時間分解能を犠牲にする。 そこで本稿では,グループ化や近似を必要とせず,個々の事象計測時間を直接推定する完全ステレオVOパイプラインを提案する。 連続時間軌道推定を用いて、物理的動機付け前のガウス過程の回帰を通じて、イベントベースのカメラの時間的忠実度と非同期性を維持する。 その性能はMVSECデータセットで評価され、2つの独立したシーケンスで7.9e-3と5.9e-3の相対誤差を達成し、既存の公開イベントベースのステレオVOパイプラインをそれぞれ2回と4回上回る。

Event-based cameras asynchronously capture individual visual changes in a scene. This makes them more robust than traditional frame-based cameras to highly dynamic motions and poor illumination. It also means that every measurement in a scene can occur at a unique time. Handling these different measurement times is a major challenge of using event-based cameras. It is often addressed in visual odometry (VO) pipelines by approximating temporally close measurements as occurring at one common time. This grouping simplifies the estimation problem but, absent additional sensors, sacrifices the inherent temporal resolution of event-based cameras. This paper instead presents a complete stereo VO pipeline that estimates directly with individual event-measurement times without requiring any grouping or approximation in the estimation state. It uses continuous-time trajectory estimation to maintain the temporal fidelity and asynchronous nature of event-based cameras through Gaussian process regression with a physically motivated prior. Its performance is evaluated on the MVSEC dataset, where it achieves 7.9e-3 and 5.9e-3 RMS relative error on two independent sequences, outperforming the existing publicly available event-based stereo VO pipeline by two and four times, respectively.
翻訳日:2023-09-14 17:50:07 公開日:2023-09-12
# 間質性肺疾患分類におけるZero-Shot CLIPの有用性の検討

Exploring the Versatility of Zero-Shot CLIP for Interstitial Lung Disease Classification ( http://arxiv.org/abs/2306.01111v2 )

ライセンス: Link先を確認
Cara Van Uden and Christian Bluethgen and Maayane Attias and Malgorzata Polacin and Haiwei Henry Guo and Neha Simha and Rishi Raj and Curtis Langlotz(参考訳) 間質性肺疾患(ILD:interstitial lung disease, ILD)は, 診断上の課題である。 そこで本研究では,ILD分類のためのマルチモーダル(画像とテキスト)自己教師モデルであるCLIPを用いた機械学習手法を提案する。 ワークフロー全体を通じてゼロショットCLIPを広範囲に統合し、ボリュームCTスキャンから画像パッチを抽出し、"パッチモンタージュ"を用いてILD分類に進む。 さらに,タスク固有画像を用いたdapt(domain adaptive pretraining)クリップ(ct "patch montages" と/またはテキスト(放射線学レポートのlung-specific section of radiology reports)が下流icd分類性能に与える影響について検討した。 CLIP抽出した「パッチモンタージュ」とDAPTを利用して、ラベル付きトレーニングデータを必要としない0.893のAUROCを含む強力なゼロショットLD分類結果を得る。 この研究は、ラベル付きデータが不足している医療画像分類タスクのためのクリップのようなマルチモーダルモデルの汎用性と可能性を強調している。

Interstitial lung diseases (ILD) present diagnostic challenges due to their varied manifestations and overlapping imaging features. To address this, we propose a machine learning approach that utilizes CLIP, a multimodal (image and text) self-supervised model, for ILD classification. We extensively integrate zero-shot CLIP throughout our workflow, starting from the initial extraction of image patches from volumetric CT scans and proceeding to ILD classification using "patch montages". Furthermore, we investigate how domain adaptive pretraining (DAPT) CLIP with task-specific images (CT "patch montages" extracted with ILD-specific prompts for CLIP) and/or text (lung-specific sections of radiology reports) affects downstream ILD classification performance. By leveraging CLIP-extracted "patch montages" and DAPT, we achieve strong zero-shot ILD classification results, including an AUROC of 0.893, without the need for any labeled training data. This work highlights the versatility and potential of multimodal models like CLIP for medical image classification tasks where labeled data is scarce.
翻訳日:2023-09-14 17:49:48 公開日:2023-09-12
# Factify 2の発見:マルチモーダルフェイクニュース検出

Findings of Factify 2: Multimodal Fake News Detection ( http://arxiv.org/abs/2307.10475v2 )

ライセンス: Link先を確認
S Suryavardan, Shreyash Mishra, Megha Chakraborty, Parth Patwa, Anku Rani, Aman Chadha, Aishwarya Reganti, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal, Srijan Kumar(参考訳) ここ数年でソーシャルメディアの利用が急増し、フェイクニュースも急速に広まりつつある。 フェイクニュースの有害な影響は、偽情報の検出を自動化し、その正確性を検証する研究の必要性を強調している。 本稿では,AAAI'23におけるDeFactify 2ワークショップの一環として,マルチモーダルな事実検証と風刺ニュースデータセットを提供するFactify 2共有タスクの結果を示す。 このデータでは,マルチモーダル関係に基づく5つのクラスに分けて,ソーシャルメディアの主張をテキストと画像の両方で支援文書と組み合わせることで,タスクに対する比較に基づくアプローチが求められている。 このタスクの第2イテレーションでは、60人以上の参加者と9つの最終テストセットの提出がありました。 最高のパフォーマンスは、テキストにDeBERTa、画像にSwinv2とCLIPを使うことである。 全5クラスの平均得点は81.82%であった。

With social media usage growing exponentially in the past few years, fake news has also become extremely prevalent. The detrimental impact of fake news emphasizes the need for research focused on automating the detection of false information and verifying its accuracy. In this work, we present the outcome of the Factify 2 shared task, which provides a multi-modal fact verification and satire news dataset, as part of the DeFactify 2 workshop at AAAI'23. The data calls for a comparison based approach to the task by pairing social media claims with supporting documents, with both text and image, divided into 5 classes based on multi-modal relations. In the second iteration of this task we had over 60 participants and 9 final test-set submissions. The best performances came from the use of DeBERTa for text and Swinv2 and CLIP for image. The highest F1 score averaged for all five classes was 81.82%.
翻訳日:2023-09-14 17:42:43 公開日:2023-09-12
# 人間の体デジタル双生児:マスタープラン

Human Body Digital Twin: A Master Plan ( http://arxiv.org/abs/2307.09225v2 )

ライセンス: Link先を確認
Chenyu Tang, Wentian Yi, Edoardo Occhipinti, Yanning Dai, Shuo Gao, and Luigi G. Occhipinti(参考訳) 人体デジタル双生児 (human body digital twin, dt) は、センサーや医療検査装置からのリアルタイムデータを用いて、高度な分析とシミュレーションを通じて健康成果をシミュレーション、予測、最適化することを目的とした、個人の生理状態の仮想表現である。 人体DTは医療とウェルネスに革命をもたらす可能性があるが、その責任と効果的な実装には様々な要因を考慮する必要がある。 本稿では,人体DTの現状と今後の展望を概観し,開発のための5段階のロードマップを提案する。 ロードマップは、ウェアラブルデバイス、データ収集、データ分析、意思決定システムなど、さまざまなコンポーネントの開発をカバーしている。 記事はまた、人体DTの責任と効果的な実装を保証するために対処する必要がある、必要なサポート、セキュリティ、コスト、倫理的考察を強調している。 提案するロードマップは、将来の開発を導くためのフレームワークを提供し、この急速に発展する分野において、新たな学際的な研究と革新的なソリューションを促進する、人体DTの将来に関するユニークな視点を提供する。

A human body digital twin (DT) is a virtual representation of an individual's physiological state, created using real-time data from sensors and medical test devices, with the purpose of simulating, predicting, and optimizing health outcomes through advanced analytics and simulations. The human body DT has the potential to revolutionize healthcare and wellness, but its responsible and effective implementation requires consideration of various factors. This article presents a comprehensive overview of the current status and future prospects of the human body DT and proposes a five-level roadmap for its development. The roadmap covers the development of various components, such as wearable devices, data collection, data analysis, and decision-making systems. The article also highlights the necessary support, security, cost, and ethical considerations that must be addressed in order to ensure responsible and effective implementation of the human body DT. The proposed roadmap provides a framework for guiding future development and offers a unique perspective on the future of the human body DT, facilitating new interdisciplinary research and innovative solutions in this rapidly evolving field.
翻訳日:2023-09-14 17:42:27 公開日:2023-09-12
# unpacking polarization: オンラインインタラクションの署名ネットワークにおける対立性とアライメント

Unpacking polarization: Antagonism and Alignment in Signed Networks of Online Interaction ( http://arxiv.org/abs/2307.06571v2 )

ライセンス: Link先を確認
Emma Fraxanet, Max Pellert, Simon Schweighofer, Vicen\c{c} G\'omez, David Garcia(参考訳) 影響のある分極は単なる対立以上のものであり、主に政治的分裂の間でネガティブな相互作用が起こる。 分極の研究は通常、政治的分裂の定義を前提とするか、分極と不一致を同じ現象とみなす。 正負のオンラインインタラクションの新たなデータソースを活用することで、分割問題を最小限の仮定でオンラインコミュニティの障害線を計算的に発見する手法を提案する。 これにより、オンライン相互作用における敵意の一般的な頻度であるアンタゴニズムと、グループ間でのネガティブな関係(分割性)を捉えるアライメントの2つの要因を解き放つことができる。 当社のアプローチは,米国のtwitterファクトチェックコミュニティであるbirdwatchや,オーストリアのオンライン新聞であるderstandardのディスカッションフォーラムに適用しています。 以上の結果から,両コミュニティは2つの大きなグループに分けられ,その分離は政治的アイデンティティや話題に従っていることが明らかとなった。 反抗とアライメントの様々な組み合わせの問題をderstandardで識別することができ、これらの2つのメトリクスは等価ではないと仮定できる。 本手法は,結束性と分裂性の別々な寄与と,アライメントの力学における議論のある選挙やイベントの役割を示す時間分解図を提供する。

Affective polarization is more than mere antagonism as it appears when negative interactions happen mostly across political divisions. Research in polarization usually assumes a given definition of political divisions or conflates polarization and disagreement as the same phenomenon. Leveraging on novel data sources of positive and negative online interactions, we present a method to computationally discover the fault lines of an online community with minimal assumptions on the dividing issues. This enables us to unpack two factors of polarization: Antagonism, which is the general prevalence of hostility in online interaction, and Alignment, which captures how negative relations exist across groups (divisiveness) while positive interactions are contained within (cohesiveness). We apply our approach to Birdwatch, a US-based Twitter fact-checking community, and to the discussion forums of DerStandard, an Austrian online newspaper. Our results reveal that both communities are divided into two large groups and that their separation follows political identities and topics. We can identify issues across various combinations of antagonism and alignment in DerStandard, evidencing that these two metrics are not equivalent. Our methods provide a time-resolved picture that illustrates the separate contribution of cohesiveness and divisiveness and the role of controversial elections and events in the dynamics of alignment.
翻訳日:2023-09-14 17:41:54 公開日:2023-09-12
# MAMO:モノクロビデオ深度推定のためのメモリと注意の活用

MAMo: Leveraging Memory and Attention for Monocular Video Depth Estimation ( http://arxiv.org/abs/2307.14336v2 )

ライセンス: Link先を確認
Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli(参考訳) モノクロ映像深度推定のための新しいメモリとアテンションフレームであるMAMOを提案する。 MAMOは、任意の単一画像深度推定ネットワークをビデオ深度推定モデルに拡張し、改善し、時間的情報を利用してより正確な深度を予測できる。 また,MAMoでは,映像を流すときの深度予測を支援するメモリによるモデル拡張を行う。 具体的には、前回のインスタンスの視覚的および変位的トークンを記憶する。 これにより、現在のフレームの深さを予測する際に、深度ネットワークが過去から関連する特徴を相互参照することができる。 本稿では,過去と現在の両方の視覚情報に対応するトークンを保持するために,メモリを継続的に更新する新しい手法を提案する。 本稿では,自己認識モジュールを用いた視覚的・変位的メモリトークン間の時空間的関係を初めて学習するプロセスメモリ特徴に対する注意に基づくアプローチを採用する。 さらに、自己注意の出力特徴を、交差注意を通して現在の視覚特徴と集約する。 交差した特徴は最終的にデコーダに与えられ、現在のフレームの深さを予測する。 KITTI,NYU-Depth V2,DDADなどのベンチマーク実験を通じて,MAMOは単分子深度推定ネットワークを一貫して改善し,新しいSOTA(State-of-the-art)の精度を設定することを示した。 特に,当社のMAMoビデオ深度推定は,SOTAコストボリュームに基づくビデオ深度モデルに準じて,低レイテンシで高い精度を実現する。

We propose MAMo, a novel memory and attention frame-work for monocular video depth estimation. MAMo can augment and improve any single-image depth estimation networks into video depth estimation models, enabling them to take advantage of the temporal information to predict more accurate depth. In MAMo, we augment model with memory which aids the depth prediction as the model streams through the video. Specifically, the memory stores learned visual and displacement tokens of the previous time instances. This allows the depth network to cross-reference relevant features from the past when predicting depth on the current frame. We introduce a novel scheme to continuously update the memory, optimizing it to keep tokens that correspond with both the past and the present visual information. We adopt attention-based approach to process memory features where we first learn the spatio-temporal relation among the resultant visual and displacement memory tokens using self-attention module. Further, the output features of self-attention are aggregated with the current visual features through cross-attention. The cross-attended features are finally given to a decoder to predict depth on the current frame. Through extensive experiments on several benchmarks, including KITTI, NYU-Depth V2, and DDAD, we show that MAMo consistently improves monocular depth estimation networks and sets new state-of-the-art (SOTA) accuracy. Notably, our MAMo video depth estimation provides higher accuracy with lower latency, when omparing to SOTA cost-volume-based video depth models.
翻訳日:2023-09-14 17:31:51 公開日:2023-09-12
# バイトコード解釈のためのCHERI性能向上

CHERI Performance Enhancement for a Bytecode Interpreter ( http://arxiv.org/abs/2308.05076v2 )

ライセンス: Link先を確認
Duncan Lowther, Dejice Jacob, Jeremy Singer(参考訳) マイクロPythonバイトコードインタプリタをCHERIベースのArm Morelloプラットフォームに移植した際、多くの重大なパフォーマンス劣化が発生しました。 本稿では、これらのパフォーマンス問題のいくつかを詳細に検討し、それぞれのケースにおいて、問題の原因、修正、および対応するインタプリタのパフォーマンス改善を、標準pythonベンチマークのセットに対して特徴付ける。 モレロがcheriの概念の原型的物理的インスタンス化であることは認識しているが、ネイティブポインタ(一般に64ビット)に比べてcheri能力(128ビット)が大きいため、特定の種類のソフトウェアによって引き起こされるランタイムオーバーヘッドを排除できることが示されている。 今回のケースでは、幾何平均ベンチマークのスローダウンを5倍(最適化前)から1.7倍(最適化後)に削減しています。 最悪のケースのスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善されている。 以前のcheri移植プロジェクトでは、コンパイル時および実行時エラーがポインタサイズ仮定で露呈されているのに対して、代わりに、このような仮定のパフォーマンスへの影響に注目しています。

During our port of the MicroPython bytecode interpreter to the CHERI-based Arm Morello platform, we encountered a number of serious performance degradations. This paper explores several of these performance issues in detail, in each case we characterize the cause of the problem, the fix, and the corresponding interpreter performance improvement over a set of standard Python benchmarks. While we recognize that Morello is a prototypical physical instantiation of the CHERI concept, we show that it is possible to eliminate certain kinds of software-induced runtime overhead that occur due to the larger size of CHERI capabilities (128 bits) relative to native pointers (generally 64 bits). In our case, we reduce a geometric mean benchmark slowdown from 5x (before optimization) to 1.7x (after optimization) relative to AArch64, non-capability, execution. The worst-case slowdowns are greatly improved, from 100x (before optimization) to 2x (after optimization). The key insight is that implicit pointer size presuppositions pervade systems code; whereas previous CHERI porting projects highlighted compile-time and execution-time errors exposed by pointer size assumptions, we instead focus on the performance implications of such assumptions.
翻訳日:2023-09-14 17:20:52 公開日:2023-09-12
# 正則特異点を持つschr\"odinger方程式のスペクトル解

Spectral solutions for the Schr\"odinger equation with a regular singularity ( http://arxiv.org/abs/2309.00026v2 )

ライセンス: Link先を確認
Pushkar Mohile, Ayaz Ahmed, T.R.Vishnu, Pichai Ramadevi(参考訳) 本研究では,水素原子スペクトルと波動関数を再現するためのBethe型アンサッツの改質を提案する。 このような提案は、原点に特異なポテンシャル V (x) に関連する量子周期の正確な量子化条件(EQC)を試みようとする手がかりを与えた。 パラメータの適切な極限において、ポテンシャルは |x| ポテンシャルにマッピングできる。 我々は、Vorosスペクトルを数値計算し、|x|ポテンシャルの真のスペクトルとマッチングすることで、EQC命題を検証する。 したがって、原点に正則特異点を持つポテンシャルを含む一次元シュリンガー方程式のスペクトル解を得るための経路を与えた。

We propose a modification in the Bethe-like ansatz to reproduce the hydrogen atom spectrum and the wave functions. Such a proposal provided a clue to attempt the exact quantization conditions (EQC) for the quantum periods associated with potentials V (x) which are singular at the origin. In a suitable limit of the parameters, the potential can be mapped to |x| potential. We validate our EQC proposition by numerically computing the Voros spectrum and matching it with the true spectrum for |x| potential. Thus we have given a route to obtain the spectral solution for the one dimensional Schr\"odinger equation involving potentials with regular singularity at the origin.
翻訳日:2023-09-14 17:12:59 公開日:2023-09-12
# 拡散モデルにおける露光バイアスの解明

Elucidating the Exposure Bias in Diffusion Models ( http://arxiv.org/abs/2308.15321v3 )

ライセンス: Link先を確認
Mang Ning, Mingxiao Li, Jianlin Su, Albert Ali Salah, Itir Onal Ertugrul(参考訳) 拡散モデルは印象的な生成能力を示しているが、トレーニングとサンプリングの入力ミスマッチとして説明される「暴露バイアス」問題は、深い探索に欠けている。 本稿では,まずサンプリング分布を解析的にモデル化し,各サンプリングステップにおける予測誤差を露光バイアス問題の根本原因として分類し,拡散モデルにおける露光バイアス問題を体系的に検討する。 さらに,この問題に対する潜在的な解決策を議論し,直観的な指標を提案する。 露光バイアスの解明とともに,エプシロンスケーリング(Epsilon Scaling)と呼ばれる簡易かつ効果的でトレーニングのない手法を提案し,露光バイアスを緩和する。 Epsilon Scalingは,ネットワーク出力(Epsilon)をスケールダウンし,トレーニングとサンプリングの間の入力ミスマッチを緩和することにより,トレーニング段階で学習したベクトル場に近いサンプリング軌道を明示的に移動させる。 各種拡散フレームワーク (ADM, DDPM/DDIM, EDM, LDM) , 非条件および条件設定, 決定論的対確率的サンプリング) の実験により, 提案手法の有効性が検証された。 コードはhttps://github.com/forever208/ADM-ES; https://github.com/forever208/EDM-ESで入手できる。

Diffusion models have demonstrated impressive generative capabilities, but their 'exposure bias' problem, described as the input mismatch between training and sampling, lacks in-depth exploration. In this paper, we systematically investigate the exposure bias problem in diffusion models by first analytically modelling the sampling distribution, based on which we then attribute the prediction error at each sampling step as the root cause of the exposure bias issue. Furthermore, we discuss potential solutions to this issue and propose an intuitive metric for it. Along with the elucidation of exposure bias, we propose a simple, yet effective, training-free method called Epsilon Scaling to alleviate the exposure bias. We show that Epsilon Scaling explicitly moves the sampling trajectory closer to the vector field learned in the training phase by scaling down the network output (Epsilon), mitigating the input mismatch between training and sampling. Experiments on various diffusion frameworks (ADM, DDPM/DDIM, EDM, LDM), unconditional and conditional settings, and deterministic vs. stochastic sampling verify the effectiveness of our method. The code is available at https://github.com/forever208/ADM-ES; https://github.com/forever208/EDM-ES
翻訳日:2023-09-14 17:11:53 公開日:2023-09-12
# Project Aria:エゴセントリックなマルチモーダルAI研究のための新しいツール

Project Aria: A New Tool for Egocentric Multi-Modal AI Research ( http://arxiv.org/abs/2308.13561v2 )

ライセンス: Link先を確認
Kiran Somasundaram, Jing Dong, Huixuan Tang, Julian Straub, Mingfei Yan, Michael Goesele, Jakob Julian Engel, Renzo De Nardi, Richard Newcombe(参考訳) 将来の拡張現実(ar)デバイスで利用可能なエゴセントリックでマルチモーダルなデータは、機械知覚に特有の課題と機会を提供する。 これらの将来のデバイスは、常に利用可能なコンテキスト認識およびパーソナライズされたaiアプリケーションをサポートするために、社会的に受け入れられるフォームファクターとして、一日中ウェアラブルである必要がある。 meta reality labs researchの私たちのチームは、この分野の研究の促進と加速を目的として、エゴセントリックでマルチモーダルなデータ記録とストリーミングデバイスであるaria deviceを開発しました。 本稿では、センサ構成を含むAriaデバイスハードウェアと、そのようなデータの記録と処理を可能にする対応するソフトウェアツールについて述べる。

Egocentric, multi-modal data as available on future augmented reality (AR) devices provides unique challenges and opportunities for machine perception. These future devices will need to be all-day wearable in a socially acceptable form-factor to support always available, context-aware and personalized AI applications. Our team at Meta Reality Labs Research built the Aria device, an egocentric, multi-modal data recording and streaming device with the goal to foster and accelerate research in this area. In this paper, we describe the Aria device hardware including its sensor configuration and the corresponding software tools that enable recording and processing of such data.
翻訳日:2023-09-14 17:11:30 公開日:2023-09-12
# ウェーブレットを用いた変圧器の高周波増幅による細粒度アンロック

Unlocking Fine-Grained Details with Wavelet-based High-Frequency Enhancement in Transformers ( http://arxiv.org/abs/2308.13442v2 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Alaa Sulaiman, Afshin Bozorgpour, Ehsan Khodapanah Aghdam, Abin Jose, Dorit Merhof(参考訳) 医療画像分割は診断、治療計画、疾患モニタリングにおいて重要な役割を果たす重要な課題である。 医学画像からの解剖学的構造と異常の正確な区分は、様々な疾患の早期発見と治療に役立つ。 本稿では,トランスフォーマーモデルの局所的特徴不足に対処するため,自己注意マップを慎重に再設計し,医用画像の正確な密度予測を行う。 この目的のために、まずウェーブレット変換を適用し、入力特徴写像を低周波(LF)および高周波(HF)サブバンドに分解する。 LFセグメントは粗粒度の特徴に関連付けられ、HFコンポーネントはテクスチャやエッジ情報などの細粒度の特徴を保存する。 次に、効率的な変換器を用いて自己注意操作を再構成し、周波数表現の上に空間的および文脈的注意を向ける。 さらに,境界情報の重要性を高めるために,HF成分の上にガウスピラミッドを作成することにより,付加的な注意マップを付加する。 さらに,エンコーダモジュールとデコーダモジュールのステージ間のセマンティックギャップを克服するため,スキップ接続内のマルチスケールコンテキスト拡張ブロックを提案し,スケール間の依存関係を適応的にモデル化する。 包括的実験を通じて,多臓器および皮膚病変セグメンテーションベンチマークにおける戦略の有効性を実証した。 実装コードは、受け入れ次第利用可能になる。 https://github.com/mindflow-institue/WaveFormer}{GitHub}

Medical image segmentation is a critical task that plays a vital role in diagnosis, treatment planning, and disease monitoring. Accurate segmentation of anatomical structures and abnormalities from medical images can aid in the early detection and treatment of various diseases. In this paper, we address the local feature deficiency of the Transformer model by carefully re-designing the self-attention map to produce accurate dense prediction in medical images. To this end, we first apply the wavelet transformation to decompose the input feature map into low-frequency (LF) and high-frequency (HF) subbands. The LF segment is associated with coarse-grained features while the HF components preserve fine-grained features such as texture and edge information. Next, we reformulate the self-attention operation using the efficient Transformer to perform both spatial and context attention on top of the frequency representation. Furthermore, to intensify the importance of the boundary information, we impose an additional attention map by creating a Gaussian pyramid on top of the HF components. Moreover, we propose a multi-scale context enhancement block within skip connections to adaptively model inter-scale dependencies to overcome the semantic gap among stages of the encoder and decoder modules. Throughout comprehensive experiments, we demonstrate the effectiveness of our strategy on multi-organ and skin lesion segmentation benchmarks. The implementation code will be available upon acceptance. \href{https://github.com/mindflow-institue/WaveFormer}{GitHub}.
翻訳日:2023-09-14 17:11:19 公開日:2023-09-12
# Noisy Demkov-Kunikeモデル

Noisy Demkov-Kunike model ( http://arxiv.org/abs/2309.06448v1 )

ライセンス: Link先を確認
Lin Chen and Zhaoxin Liang(参考訳) デムコフ・クニケ(dk)モデルは、ラビカップリングとオンサイトデチューニングがそれぞれ$j~\text{sech}(t/t)$と$\delta_0+\delta_1\tanh(t/t)$の時間に依存するもので、正確に解くことができる2状態量子モデルの最も一般的な形式の一つを提供する。 したがって、量子ビットの量子状態のコヒーレント操作を研究するためのパラダイムを提供する。 しかし、ノイズの多いDKモデルの探索はまだ不十分である。 本稿では、電信ノイズとガウスノイズを例として、色付きマルコフノイズ源の存在下で、$J\rightarrow J_{\text{noisy}}(t)$でDKモデルを検討した。 生存確率$q^{noisy}_{dk}$の厳密な解を解析的に求め,初期状態のままであった。 高速な電信ノイズに対しては、驚くべきことに、$q^{noisy}_{dk}$が量子ゼノ効果によって理解されるノイズによって強化されるのではなく、抑制されるパラメータレジームが存在する。 遅いガウス雑音に対しては、ノイズ量子がギャップを越えて吸収されるため、ノイズは常に拡張された$Q^{noisy}_{DK}$につながる。 我々の研究はLandau-Zenerモデルの研究を補完する。 また、2レベル量子システムの制御に対する新しい視点を提供する。

The Demkov-Kunike (DK) model, in which the Rabi coupling and the on-site detuning depend on time as $J~\text{sech}(t/T)$ and $\Delta_0+\Delta_1\tanh(t/T)$ respectively, provides one of the most general forms of an exactly solvable two-state quantum model. Thus it offers a paradigm for studying the coherent manipulations of the quantum state of a qubit. However, the exploration of the noisy DK model is still lacking. Here, we study the DK model with $J\rightarrow J_{\text{noisy}}(t)$ in the presence of colored Markovian noise sources, as exemplified by the telegraph noise and Gaussian noise. We analytically obtain the exact solutions for the survival probability $Q^{noisy}_{DK}$ of finding the system remained in the initial state. For the fast telegraph noise, surprisingly, we find parameter regimes where the $Q^{noisy}_{DK}$ is suppressed rather than being enhanced by noise, which can be understood through the quantum Zeno effect. For the slow Gaussian noise, we find the noise always leads to an enhanced $Q^{noisy}_{DK}$, due to the absorption of the noise quanta across the gap. Our work complements the studies of the noisy Landau-Zener model. It also offers a new perspective for the control of two-level quantum systems.
翻訳日:2023-09-14 17:03:19 公開日:2023-09-12
# mask2anomaly:ユニバーサルオープンセットセグメンテーションのためのマスクトランスフォーマー

Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation ( http://arxiv.org/abs/2309.04573v2 )

ライセンス: Link先を確認
Shyam Nandan Rai, Fabio Cermelli, Barbara Caputo, Carlo Masone(参考訳) 未知または異常なオブジェクトインスタンスのセグメンテーションは、自動運転アプリケーションにおいて重要なタスクであり、伝統的にピクセル単位の分類問題としてアプローチされている。 しかし、文脈意味論を考慮せずに各ピクセルを個別に推論すると、オブジェクトの境界や多数の偽陽性に高い不確実性をもたらす。 本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 マスクベース手法であるMask2Anomalyは,異常セグメンテーション,オープンセットセマンティックセグメンテーション,オープンセットパノプティクスセグメンテーションを併用するマスク分類アーキテクチャの実現可能性を示した。 Mask2Anomalyには、異常/未知のオブジェクトの検出を改善するために設計されたいくつかの技術的ノベルティが含まれている。 一 前景及び背景地域に個別に焦点をあてるグローバルマスク付注意モジュール 二 異常と既知のクラスの間のマージンを最大化するマスクコントラスト学習 三 偽陽性を減少させるマスク改善液、及び iv)マスク構造特性に基づく未知のインスタンスをマイニングするための新しいアプローチ。 包括的質的・質的評価により,mask2anomalyは,異常セグメンテーション,オープンセット意味セグメンテーション,オープンセットパオプティクスセグメンテーションのベンチマークにおいて,新たな最先端結果を達成する。

Segmenting unknown or anomalous object instances is a critical task in autonomous driving applications, and it is approached traditionally as a per-pixel classification problem. However, reasoning individually about each pixel without considering their contextual semantics results in high uncertainty around the objects' boundaries and numerous false positives. We propose a paradigm change by shifting from a per-pixel classification to a mask classification. Our mask-based method, Mask2Anomaly, demonstrates the feasibility of integrating a mask-classification architecture to jointly address anomaly segmentation, open-set semantic segmentation, and open-set panoptic segmentation. Mask2Anomaly includes several technical novelties that are designed to improve the detection of anomalies/unknown objects: i) a global masked attention module to focus individually on the foreground and background regions; ii) a mask contrastive learning that maximizes the margin between an anomaly and known classes; iii) a mask refinement solution to reduce false positives; and iv) a novel approach to mine unknown instances based on the mask-architecture properties. By comprehensive qualitative and qualitative evaluation, we show Mask2Anomaly achieves new state-of-the-art results across the benchmarks of anomaly segmentation, open-set semantic segmentation, and open-set panoptic segmentation.
翻訳日:2023-09-14 17:02:47 公開日:2023-09-12
# MultiWay-Adapater:スケーラブルな画像テキスト検索のための大規模マルチモーダルモデルの適用

MultiWay-Adapater: Adapting large-scale multi-modal models for scalable image-text retrieval ( http://arxiv.org/abs/2309.01516v2 )

ライセンス: Link先を確認
Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa(参考訳) LMM(Large Multi-Modal Models)のサイズが一貫して大きくなるにつれて、これらの事前学習されたモデルの特殊タスクへの適応は、計算的かつメモリ集約的な課題となっている。 従来の微調整手法では、新しいタスクごとに分離された徹底的な修正が必要であり、モデルの汎用性を制限する。 さらに、現在の効率的な適応手法は、新しいタスクの知識抽出にのみ焦点をあてて、しばしばモダリティアライメントを見落としている。 そこで本稿では,モダリティアライメントを深めるために,'alignment enhancer'を組み込んだ革新的なフレームワークであるmultiway-adapterを紹介し,事前学習パラメータをチューニングせずに高い転送性を実現する。 本手法では, BEiT-3 モデルを用いて, LMM に1.25 % 未満の追加パラメータを付加する。 これにより、完全な微調整モデルと比較してゼロショット画像テキスト検索性能が向上し、57\%の微調整時間が短縮される。 提案手法は, LMMの資源効率, 有効適応経路を提供し, 適用範囲を拡大する。 ソースコードは: \url{https://github.com/longkukuhi/MultiWay-Adapter} で公開されている。

As the size of Large Multi-Modal Models (LMMs) increases consistently, the adaptation of these pre-trained models to specialized tasks has become a computationally and memory-intensive challenge. Traditional fine-tuning methods require isolated, exhaustive retuning for each new task, limiting the models' versatility. Moreover, current efficient adaptation techniques often overlook modality alignment, focusing only on the knowledge extraction of new tasks. To tackle these issues, we introduce Multiway-Adapter, an innovative framework incorporating an 'Alignment Enhancer' to deepen modality alignment, enabling high transferability without tuning pre-trained parameters. Our method adds fewer than 1.25\% of additional parameters to LMMs, exemplified by the BEiT-3 model in our study. This leads to superior zero-shot image-text retrieval performance compared to fully fine-tuned models, while achieving up to a 57\% reduction in fine-tuning time. Our approach offers a resource-efficient and effective adaptation pathway for LMMs, broadening their applicability. The source code is publicly available at: \url{https://github.com/longkukuhi/MultiWay-Adapter}.
翻訳日:2023-09-14 16:59:23 公開日:2023-09-12
# 対話自動分析のための大規模言語モデル活用

Leveraging Large Language Models for Automated Dialogue Analysis ( http://arxiv.org/abs/2309.06490v1 )

ライセンス: Link先を確認
Sarah E. Finch, Ellie S. Paek, Jinho D. Choi(参考訳) 高パフォーマンスな対話システムの開発は、システム応答における望ましくない振る舞いの自動識別から恩恵を受ける。 しかし、そのような行動を検出することは、一般的な知識と会話の実践の理解に頼っているため、依然として困難である。 近年の研究では、特定の対話行動を検出するための特殊な分類器の構築に焦点が当てられているが、行動カバレッジはまだ不完全であり、現実世界の人間とボットの相互作用に対するテストの欠如がある。 本稿では,人間-ボット対話における9つのカテゴリの対話行動検出を行うための最先端の大規模言語モデルであるchatgpt-3.5の能力について検討する。 本研究の目的は、ChatGPTが特殊モデルに適合し、人間のパフォーマンスを近似できるかどうかを評価することである。 以上の結果から, 特殊モデルもChatGPTもこの課題に満足できない結果が得られず, 人的性能に乏しいことが判明した。 それでもChatGPTは有望なポテンシャルを示し、しばしば特殊な検出モデルより優れている。 本稿では,ChatGPTの欠点を詳細に検討し,今後のLCM機能向上に向けたガイダンスを提供する。

Developing high-performing dialogue systems benefits from the automatic identification of undesirable behaviors in system responses. However, detecting such behaviors remains challenging, as it draws on a breadth of general knowledge and understanding of conversational practices. Although recent research has focused on building specialized classifiers for detecting specific dialogue behaviors, the behavior coverage is still incomplete and there is a lack of testing on real-world human-bot interactions. This paper investigates the ability of a state-of-the-art large language model (LLM), ChatGPT-3.5, to perform dialogue behavior detection for nine categories in real human-bot dialogues. We aim to assess whether ChatGPT can match specialized models and approximate human performance, thereby reducing the cost of behavior detection tasks. Our findings reveal that neither specialized models nor ChatGPT have yet achieved satisfactory results for this task, falling short of human performance. Nevertheless, ChatGPT shows promising potential and often outperforms specialized detection models. We conclude with an in-depth examination of the prevalent shortcomings of ChatGPT, offering guidance for future research to enhance LLM capabilities.
翻訳日:2023-09-14 16:53:35 公開日:2023-09-12
# 操作独立事象は量子論において互いに影響を及ぼすことができる

Operationally independent events can influence each other in quantum theory ( http://arxiv.org/abs/2309.06488v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 自然の既知の記述では、2つの物理系が互いに独立であると見なされるが、一方の系に対する何らかの作用が他方の系を変えない場合である。 世界に関する我々の古典的な直観から、これらの2つの系はいかなる方法でも影響を受けておらず、したがってこれら2つの系は因果的に切断されているか、互いに影響を与えていないと結論づける。 この考え方に基づいて、量子論において、そのような古典的独立性の概念は満たされない、すなわち、2つの量子系は、一方の系上の操作が他方に可観測効果を与えていない場合でも、互いに影響しあうことができる。 我々は,量子ネットワークの枠組みを考察し,クレーター=ホルン=シモニー=ホルト不等式を利用した線形証人を構築する。 また、量子状態と測定値のデバイス非依存認証に対する古典的独立性の最大違反から生じる興味深い応用の1つについても論じる。

In any known description of nature, two physical systems are considered independent of each other if any action on one of the systems does not change the other system. From our classical intuitions about the world, we further conclude that these two systems are not affecting each other in any possible way, and thus these two systems are causally disconnected or they do not influence each other. Building on this idea, we show that in quantum theory such a notion of classical independence is not satisfied, that is, two quantum systems can still influence each other even if any operation on one of the systems does not create an observable effect on the other. For our purpose, we consider the framework of quantum networks and construct a linear witness utilizing the Clauser-Horne-Shimony-Holt inequality. We also discuss one of the interesting applications resulting from the maximal violation of classical independence towards device-independent certification of quantum states and measurements.
翻訳日:2023-09-14 16:53:13 公開日:2023-09-12
# メッシュの位相操作の学習とポリゴンのブロック分解への応用

Learning topological operations on meshes with application to block decomposition of polygons ( http://arxiv.org/abs/2309.06484v1 )

ライセンス: Link先を確認
Arjun Narayanan, Yulong Pan, Per-Olof Persson(参考訳) 非構造三角形および四辺メッシュ上でのメッシュ品質向上のための学習ベースのフレームワークを提案する。 本モデルは,事前のヒューリスティックを伴わない自己プレイ強化学習を通じて,所定の目的関数に従ってメッシュ品質を改善することを学ぶ。 メッシュ上で実行されるアクションは、標準的なローカルおよびグローバル要素操作である。 その目的は、理想値からのノード次数の偏差を最小化することであり、内部頂点の場合、不規則ノードの最小化につながる。

We present a learning based framework for mesh quality improvement on unstructured triangular and quadrilateral meshes. Our model learns to improve mesh quality according to a prescribed objective function purely via self-play reinforcement learning with no prior heuristics. The actions performed on the mesh are standard local and global element operations. The goal is to minimize the deviation of the node degrees from their ideal values, which in the case of interior vertices leads to a minimization of irregular nodes.
翻訳日:2023-09-14 16:52:56 公開日:2023-09-12
# flow for flow: 最大確率推定でデータセットを別のデータにモーフィングする

Flows for Flows: Morphing one Dataset into another with Maximum Likelihood Estimation ( http://arxiv.org/abs/2309.06472v1 )

ライセンス: Link先を確認
Tobias Golling, Samuel Klein, Radha Mastandrea, Benjamin Nachman, John Andrew Raine(参考訳) 高エネルギー物理学におけるデータ分析の多くのコンポーネントは、あるデータセットを別のデータセットに変形させる必要がある。 これは一般に再重み付けによって解決されるが、重みを保ち、代わりにデータポイントをシフトする多くの利点がある。 正規化フローは、様々な素粒子物理学タスクにおいて印象的な精度を持つ機械学習モデルである。 フローの正規化は、開始データセットの確率密度の知識を必要とするため、モーフィングには使用できない。 粒子物理学のほとんどの場合、より多くの例を生成できるが、明確に密度は分かっていない。 いずれのデータセットの確率密度も明確に分かっていても,フローの正規化をトレーニングするためのflows for flowというプロトコルを提案する。 これにより、最大推定値で訓練されたモーフィング戦略が実現され、関連するタスクに非常に効果的であることが示されている。 我々は,このプロトコルのバリエーションを調査し,データポイントの移動距離を統計的に比較した。 さらに,条件付け機能の各値に対してモーフィング関数を作成するために,特定の特徴について学習フローを条件付けする方法を示す。 例えば、おもちゃの例のフローや、ディジェット現象を含む衝突器物理学の例を示す。

Many components of data analysis in high energy physics and beyond require morphing one dataset into another. This is commonly solved via reweighting, but there are many advantages of preserving weights and shifting the data points instead. Normalizing flows are machine learning models with impressive precision on a variety of particle physics tasks. Naively, normalizing flows cannot be used for morphing because they require knowledge of the probability density of the starting dataset. In most cases in particle physics, we can generate more examples, but we do not know densities explicitly. We propose a protocol called flows for flows for training normalizing flows to morph one dataset into another even if the underlying probability density of neither dataset is known explicitly. This enables a morphing strategy trained with maximum likelihood estimation, a setup that has been shown to be highly effective in related tasks. We study variations on this protocol to explore how far the data points are moved to statistically match the two datasets. Furthermore, we show how to condition the learned flows on particular features in order to create a morphing function for every value of the conditioning feature. For illustration, we demonstrate flows for flows for toy examples as well as a collider physics example involving dijet events
翻訳日:2023-09-14 16:52:50 公開日:2023-09-12
# 固有状態分布の解剖学:真の多相性を求めて

Anatomy of the eigenstates distribution: a quest for a genuine multifractality ( http://arxiv.org/abs/2309.06468v1 )

ライセンス: Link先を確認
Anton Kutlin and Ivan M. Khaymovich(参考訳) 最近の一連の研究によって動機づけられたマルチフラクタル相への関心は、Multi-Body Localized (MBL) フェーズに存在し、量子アニールや機械学習において高い需要があると考えられているため高まっている。 ガウス分布ホッピング要素を持つRosenzweigPorter(RP)モデルの成功に触発されて、太い尾を持つ分散ホッピング項を持つRPライクなアンサンブルがいくつか提案されている。 本研究では, 汎用RPモデルに対するフラクタル次元の自己整合解析計算を可能にする一般(図式)アプローチを開発し, マルチフラクタル相の出現に対するRPハミルトニアンの特徴について検討する。 真のマルチフラクタル性に寄与する唯一の特徴は、オンサイトエネルギーの分布であり、つまり、統計的に均質な対角性障害の分布と非相関な対角性項を持つランダム行列モデルがマルチフラクタル位相をホストできないことを意味する。

Motivated by a series of recent works, an interest in multifractal phases has risen as they are believed to be present in the Many-Body Localized (MBL) phase and are of high demand in quantum annealing and machine learning. Inspired by the success of the RosenzweigPorter (RP) model with Gaussian-distributed hopping elements, several RP-like ensembles with the fat-tailed distributed hopping terms have been proposed, with claims that they host the desired multifractal phase. In the present work, we develop a general (graphical) approach allowing a self-consistent analytical calculation of fractal dimensions for a generic RP model and investigate what features of the RP Hamiltonians can be responsible for the multifractal phase emergence. We conclude that the only feature contributing to a genuine multifractality is the on-site energies' distribution, meaning that no random matrix model with a statistically homogeneous distribution of diagonal disorder and uncorrelated off-diagonal terms can host a multifractal phase.
翻訳日:2023-09-14 16:52:29 公開日:2023-09-12
# 2次元スケルトンヒートマップを用いたアクションセグメンテーション

Action Segmentation Using 2D Skeleton Heatmaps ( http://arxiv.org/abs/2309.06462v1 )

ライセンス: Link先を確認
Syed Waleed Hyder, Muhammad Usama, Anas Zafar, Muhammad Naufil, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,人間の活動認識における2次元スケルトンに基づく行動分割法を提案する。 時空間特徴学習において3次元骨格座標のシーケンスを直接入力として取り込んでグラフ畳み込みネットワーク(GCN)を適用する最先端の手法とは対照的に,我々は2次元骨格熱マップのシーケンスを入力として使用し,時空間畳み込みネットワーク(TCN)を用いて時空間特徴を抽出する。 3d情報の欠如にもかかわらず、従来のアクションセグメンテーションデータセットの手法よりも、同等/上位のパフォーマンスと欠落したキーポイントに対するロバスト性が向上している。 さらに、2DスケルトンヒートマップとRGBビデオの両方を入力として使用することで、パフォーマンスをさらに向上する。 我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン+RGB融合を探索する最初の研究である。

This paper presents a 2D skeleton-based action segmentation method with applications in fine-grained human activity recognition. In contrast with state-of-the-art methods which directly take sequences of 3D skeleton coordinates as inputs and apply Graph Convolutional Networks (GCNs) for spatiotemporal feature learning, our main idea is to use sequences of 2D skeleton heatmaps as inputs and employ Temporal Convolutional Networks (TCNs) to extract spatiotemporal features. Despite lacking 3D information, our approach yields comparable/superior performances and better robustness against missing keypoints than previous methods on action segmentation datasets. Moreover, we improve the performances further by using both 2D skeleton heatmaps and RGB videos as inputs. To our best knowledge, this is the first work to utilize 2D skeleton heatmap inputs and the first work to explore 2D skeleton+RGB fusion for action segmentation.
翻訳日:2023-09-14 16:52:06 公開日:2023-09-12
# 広く解釈可能な意味表現:幅広い適用性のためのフレームレス意味表現

Widely Interpretable Semantic Representation: Frameless Meaning Representation for Broader Applicability ( http://arxiv.org/abs/2309.06460v1 )

ライセンス: Link先を確認
Lydia Feng, Gregor Williamson, Han He, Jinho D. Choi(参考訳) 本稿では,抽象的意味表現 (AMR) の課題を克服する新しい意味表現 WISeR を提案する。 その強みにもかかわらず、AMRは事前に定義されたセマンティックフレームなしでは言語やドメインに簡単に適用できず、番号付き引数を使用すると、直接解釈できないセマンティックロールラベルとなり、パーサーにセマンティックオーバーロードされる。 本稿では,AMRにおける述語数論法を検証し,意味的フレームを参照する必要のない主題的役割に変換する。 wiserとamrの両方に注釈付き1kの英語対話文の新しいコーパスを作成する。 WISeRは初心者と経験者アノテータに対してより強力なアノテータ契約を示し、初心者はWISeRアノテーションに精通するようになる。 最後に、AMR 3.0コーパスと、AMR 3.0から変換されたWISeRコーパスに最先端のパーサをトレーニングする。 これらのコーパスと対話コーパスを用いて解析を行った。 WISeRモデルはボード全体のAMRよりも高い精度を示しており、WISeRはパーサーが学習しやすいことを示している。

This paper presents a novel semantic representation, WISeR, that overcomes challenges for Abstract Meaning Representation (AMR). Despite its strengths, AMR is not easily applied to languages or domains without predefined semantic frames, and its use of numbered arguments results in semantic role labels, which are not directly interpretable and are semantically overloaded for parsers. We examine the numbered arguments of predicates in AMR and convert them to thematic roles that do not require reference to semantic frames. We create a new corpus of 1K English dialogue sentences annotated in both WISeR and AMR. WISeR shows stronger inter-annotator agreement for beginner and experienced annotators, with beginners becoming proficient in WISeR annotation more quickly. Finally, we train a state-of-the-art parser on the AMR 3.0 corpus and a WISeR corpus converted from AMR 3.0. The parser is evaluated on these corpora and our dialogue corpus. The WISeR model exhibits higher accuracy than its AMR counterpart across the board, demonstrating that WISeR is easier for parsers to learn.
翻訳日:2023-09-14 16:51:45 公開日:2023-09-12
# 不正識別を用いた一般$d$レベルの量子秘密共有方式

General $d$-level quantum multi-secret sharing scheme with cheating identification ( http://arxiv.org/abs/2309.06458v1 )

ライセンス: Link先を確認
Deepa Rathi, Sanjeev Kumar(参考訳) 本研究は、不正検出機構を備えた$d$次元量子マルチシークレット共有(QMSS)方式を提案する。 ディーラーは、マルチアクセス構造とモノトーンスパンプログラムを使用して秘密共有を作成する。 参加者の不正を検出するために、ディーラーは、ブラックボックスに格納されたランダムな可逆行列$x$に由来する秘密共有シャドーを参加者に配布する。 ブラックボックスの不正検出機構は、秘密回復フェーズにおける参加者の偽りの振る舞いを特定する。 ブラックボックスによって認証された正直な参加者だけが秘密の株を取得し、複数の秘密を回復する。 ブラックボックスの不正検証の後、参加者はユニタリ演算と量子フーリエ変換を利用して秘密を再構築する。 提案プロトコルは盗聴者や参加者からの攻撃を防ぐ。 提案プロトコルは、より汎用性、セキュリティ、実用性を提供する。

This work proposes a $d$-dimensional quantum multi-secret sharing (QMSS) scheme with a cheat detection mechanism. The dealer creates the secret shares using multi access structures and a monotone span program. To detect the participant's deceit, the dealer distributes secret share shadows derived from a random invertible matrix $X$ to the participants, stored in the Black box. The cheat detection mechanism of the Black box identifies the participant's deceitful behavior during the secret recovery phase. Only honest participants authenticated by the Black box acquire their secret shares to recover the multiple secrets. After the Black box cheating verification, the participants reconstruct the secrets by utilizing the unitary operations and quantum Fourier transform. The proposed protocol is reliable to prevent attacks from eavesdroppers and participants. The proposed protocol provides greater versatility, security, and practicality.
翻訳日:2023-09-14 16:51:25 公開日:2023-09-12
# 大規模言語モデルを用いた教師付き文表現学習と教師なし文表現のギャップを狭める

Narrowing the Gap between Supervised and Unsupervised Sentence Representation Learning with Large Language Model ( http://arxiv.org/abs/2309.06453v1 )

ライセンス: Link先を確認
Mingxin Li, Richong Zhang, Zhijie Nie, Yongyi Mao(参考訳) 文表現学習(srl)は自然言語処理(nlp)における基本課題であり、文章埋め込み(cse)のコントラスト学習はその優れた性能のために主流となる技術である。 CSEにおける興味深い現象は、その文エンコーダと損失関数が同じである場合でも、教師付きメソッドと教師なしメソッドの間の重要なパフォーマンスギャップである。 以前は、このパフォーマンスギャップは2つの表現特性(配向と均一性)の違いによるものであった。 しかし、アライメントと均一性は結果のみを測定するため、"パフォーマンスギャップにつながるトレーニングプロセスの間に何が起こるのか?"、“パフォーマンスギャップを狭めるにはどうすればよいのか? 本稿では,これらの「何」と「どのように」の問いに答える実験を行う。 まず,各学習過程における教師なしCSEの挙動を徹底的に比較し,その「何」に答える。 比較から,適合困難度に有意差がみられた。 そこで,本研究では,評価データセットとホールドアウトトレーニングデータセットの間の適合困難度を計測するfdi(フィッティング困難度インクリメント)と呼ばれる指標を導入し,その指標を用いて「何」の質問に答える。 次に,「何」質問から得られた洞察に基づいて,学習データセットの適合難易度を高めることで「どのように」質問に取り組む。 我々は,Large Language Model (LLM) の In-Context Learning (ICL) 機能を活用し,複雑なパターンをシミュレートするデータを生成する。 LLM生成データにおける階層パターンを利用して、教師なしCSEと教師なしCSEのギャップを効果的に狭める。

Sentence Representation Learning (SRL) is a fundamental task in Natural Language Processing (NLP), with Contrastive learning of Sentence Embeddings (CSE) as the mainstream technique due to its superior performance. An intriguing phenomenon in CSE is the significant performance gap between supervised and unsupervised methods, even when their sentence encoder and loss function are the same. Previous works attribute this performance gap to differences in two representation properties (alignment and uniformity). However, alignment and uniformity only measure the results, which means they cannot answer "What happens during the training process that leads to the performance gap?" and "How can the performance gap be narrowed?". In this paper, we conduct empirical experiments to answer these "What" and "How" questions. We first answer the "What" question by thoroughly comparing the behavior of supervised and unsupervised CSE during their respective training processes. From the comparison, We observe a significant difference in fitting difficulty. Thus, we introduce a metric, called Fitting Difficulty Increment (FDI), to measure the fitting difficulty gap between the evaluation dataset and the held-out training dataset, and use the metric to answer the "What" question. Then, based on the insights gained from the "What" question, we tackle the "How" question by increasing the fitting difficulty of the training dataset. We achieve this by leveraging the In-Context Learning (ICL) capability of the Large Language Model (LLM) to generate data that simulates complex patterns. By utilizing the hierarchical patterns in the LLM-generated data, we effectively narrow the gap between supervised and unsupervised CSE.
翻訳日:2023-09-14 16:51:14 公開日:2023-09-12
# 量子化非揮発性ナノ磁気合成に基づく非教師なしネットワーク異常検出のためのオートエンコーダ

Quantized Non-Volatile Nanomagnetic Synapse based Autoencoder for Efficient Unsupervised Network Anomaly Detection ( http://arxiv.org/abs/2309.06449v1 )

ライセンス: Link先を確認
Muhammad Sabbir Alam, Walid Al Misba, Jayasimha Atulasimha(参考訳) オートエンコーダに基づく異常検出パラダイムでは,ハードウェア,エネルギー,計算資源の制限により,リアルタイムに学習可能なエッジデバイスにオートエンコーダを実装することは極めて困難である。 これらの制限は、低解像度の非揮発性メモリベースのシナプスを持つオートエンコーダを設計し、効果的な量子化ニューラルネットワーク学習アルゴリズムを用いて対処できることが示される。 磁気領域壁(DW)を自己エンコーダのシナプスとして包含するノッチを用いた強磁性競馬場を提案し, スピン軌道トルク(SOT)電流パルスによって有限状態(5状態)シナプス重みを演算する。 NSL-KDDデータセットを用いて,提案したオートエンコーダモデルの異常検出性能を評価する。 浮動小数点精度重みを有するオートエンコーダに匹敵する異常検出性能を有するオートエンコーダの限定分解能及びDWデバイス確率性学習を行う。 ナノスケールデバイスにおけるDWシナプス重みの量子化状態の限られた数と固有確率特性は性能に悪影響を及ぼすことが知られているが,ハードウェア・アウェア・トレーニング・アルゴリズムはこれらの不完全なデバイス特性を活用し,浮動小数点学習重量の精度と比較して異常検出精度(90.98%)の向上を図っている。 さらに,本手法は浮動小数点法に比べて,トレーニング中の重み更新の少なくとも3桁の大幅な削減効果を示し,本手法の省エネルギー効果を示唆する。 この研究は、非教師なしデータでエッジ上でリアルタイムのトレーニングと推論を行うことができる超エネルギー効率の非揮発性マルチステートシナプスベースのプロセッサの開発を促進する可能性がある。

In the autoencoder based anomaly detection paradigm, implementing the autoencoder in edge devices capable of learning in real-time is exceedingly challenging due to limited hardware, energy, and computational resources. We show that these limitations can be addressed by designing an autoencoder with low-resolution non-volatile memory-based synapses and employing an effective quantized neural network learning algorithm. We propose a ferromagnetic racetrack with engineered notches hosting a magnetic domain wall (DW) as the autoencoder synapses, where limited state (5-state) synaptic weights are manipulated by spin orbit torque (SOT) current pulses. The performance of anomaly detection of the proposed autoencoder model is evaluated on the NSL-KDD dataset. Limited resolution and DW device stochasticity aware training of the autoencoder is performed, which yields comparable anomaly detection performance to the autoencoder having floating-point precision weights. While the limited number of quantized states and the inherent stochastic nature of DW synaptic weights in nanoscale devices are known to negatively impact the performance, our hardware-aware training algorithm is shown to leverage these imperfect device characteristics to generate an improvement in anomaly detection accuracy (90.98%) compared to accuracy obtained with floating-point trained weights. Furthermore, our DW-based approach demonstrates a remarkable reduction of at least three orders of magnitude in weight updates during training compared to the floating-point approach, implying substantial energy savings for our method. This work could stimulate the development of extremely energy efficient non-volatile multi-state synapse-based processors that can perform real-time training and inference on the edge with unsupervised data.
翻訳日:2023-09-14 16:50:42 公開日:2023-09-12
# 民族性とバイオメトリック・ユニーク性:西アフリカデータベースにおける虹彩パターンの個性

Ethnicity and Biometric Uniqueness: Iris Pattern Individuality in a West African Database ( http://arxiv.org/abs/2309.06521v1 )

ライセンス: Link先を確認
John Daugman, Cathryn Downing, Oluwatobi Noah Akande, Oluwakemi Christiana Abikoye(参考訳) 我々はナイジェリアの2つの大学で収集された画像から得られた虹彩パターンの13万件以上の比較を行い、新たに利用可能なアフリカ人虹彩(AFHIRIS)データベースを構成した。 本研究の目的は、オールチャイニーズ画像データベースや、わずか1.53%のアフリカ系アメリカ人の遺産であるアメリカのデータベースとは対照的に、アイリスの構造と外観の民族差が、アイリスの識別に重要な違いをもたらしたかどうかを明らかにすることである。 AFHIRISデータベースのエントロピーの低下は, 厚いメラノサイト前層から生じる粗い虹彩の特徴によるものであり, 関連する経験分布を正確にモデル化する確率的パラメーターが発見された。 Quantile-Quantile解析により、アフリカのデータベースの操作決定しきい値の非常に小さな変更がエントロピーの減少を補い、False Matchesに対する抵抗の点で同じ性能を生成することが明らかとなった。 人口差にもかかわらず、個人性は西アフリカの人口の虹彩パターンの比較によって確実に識別できると結論付けている。

We conducted more than 1.3 million comparisons of iris patterns encoded from images collected at two Nigerian universities, which constitute the newly available African Human Iris (AFHIRIS) database. The purpose was to discover whether ethnic differences in iris structure and appearance such as the textural feature size, as contrasted with an all-Chinese image database or an American database in which only 1.53% were of African-American heritage, made a material difference for iris discrimination. We measured a reduction in entropy for the AFHIRIS database due to the coarser iris features created by the thick anterior layer of melanocytes, and we found stochastic parameters that accurately model the relevant empirical distributions. Quantile-Quantile analysis revealed that a very small change in operational decision thresholds for the African database would compensate for the reduced entropy and generate the same performance in terms of resistance to False Matches. We conclude that despite demographic difference, individuality can be robustly discerned by comparison of iris patterns in this West African population.
翻訳日:2023-09-14 16:41:21 公開日:2023-09-12
# 文法誤り訂正システムのシステム結合における最小ベイズのリスクデコード

Minimum Bayes' Risk Decoding for System Combination of Grammatical Error Correction Systems ( http://arxiv.org/abs/2309.06520v1 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) シーケンスからシーケンスまでのタスクでは、個々のシステム出力を組み合わせることが難しい。 さらに、デコード基準と評価に用いる基準との間には、しばしばミスマッチがある。 最小ベイズリスク(mbr)デコーディングは、最終評価基準とより良い一致を促す方法でシステム出力を組み合わせるために使用できる。 本稿では,文法的誤り訂正システム(GEC)のMBRデコーディングについて検討する。 そこで本研究では,この形式に直結した新しいMBR損失関数を提案する。 さらに、候補文の集合を拡張するためのアプローチについても述べる。 これは、現在の最大投票の組み合わせスキームと、個々の編集レベルの選択に基づいて構築される。 3つの一般的なECCデータセットと最先端のECCシステムを用いた実験は、提案したMBRアプローチの有効性を示す。 さらに、MBRデコーディングフレームワーク内の様々な報酬指標が、複合GECシステムにおける精度、リコール、Fスコアの制御にどのように役立つかを強調した。

For sequence-to-sequence tasks it is challenging to combine individual system outputs. Further, there is also often a mismatch between the decoding criterion and the one used for assessment. Minimum Bayes' Risk (MBR) decoding can be used to combine system outputs in a manner that encourages better alignment with the final assessment criterion. This paper examines MBR decoding for Grammatical Error Correction (GEC) systems, where performance is usually evaluated in terms of edits and an associated F-score. Hence, we propose a novel MBR loss function directly linked to this form of criterion. Furthermore, an approach to expand the possible set of candidate sentences is described. This builds on a current max-voting combination scheme, as well as individual edit-level selection. Experiments on three popular GEC datasets and with state-of-the-art GEC systems demonstrate the efficacy of the proposed MBR approach. Additionally, the paper highlights how varying reward metrics within the MBR decoding framework can provide control over precision, recall, and the F-score in combined GEC systems.
翻訳日:2023-09-14 16:41:01 公開日:2023-09-12
# アドバンスアウェア・レコメンデーションのためのq-learningアプローチ

A Q-learning Approach for Adherence-Aware Recommendations ( http://arxiv.org/abs/2309.06519v1 )

ライセンス: Link先を確認
Ioannis Faros and Aditya Dave and Andreas A. Malikopoulos(参考訳) ハイステイクと安全性に関する多くの現実世界のシナリオにおいて、人間の意思決定者(hdm)は、意思決定の究極の責任を負いながら、人工知能から推奨を受ける可能性がある。 本稿では,この問題に対処するために,アドヘレンスアウェアなq-learningアルゴリズムを開発した。 このアルゴリズムは、hdmが推奨アクションに従う頻度をキャプチャする「アドヘレンスレベル」を学習し、最適な推奨ポリシーをリアルタイムで導出する。 提案するq-learningアルゴリズムを最適値に収束させ,その性能を様々なシナリオで評価する。

In many real-world scenarios involving high-stakes and safety implications, a human decision-maker (HDM) may receive recommendations from an artificial intelligence while holding the ultimate responsibility of making decisions. In this letter, we develop an "adherence-aware Q-learning" algorithm to address this problem. The algorithm learns the "adherence level" that captures the frequency with which an HDM follows the recommended actions and derives the best recommendation policy in real time. We prove the convergence of the proposed Q-learning algorithm to the optimal value and evaluate its performance across various scenarios.
翻訳日:2023-09-14 16:40:46 公開日:2023-09-12
# memotion 3の概要 : コード混合hinglishミームの感情分析と感情分析

Overview of Memotion 3: Sentiment and Emotion Analysis of Codemixed Hinglish Memes ( http://arxiv.org/abs/2309.06517v1 )

ライセンス: Link先を確認
Shreyash Mishra, S Suryavardan, Megha Chakraborty, Parth Patwa, Anku Rani, Aman Chadha, Aishwarya Reganti, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal and Srijan Kumar(参考訳) インターネット上でのミームの分析は、このマルチモーダルな形のコンテンツがオンライン談話の形成に影響を及ぼすため、重要な取り組みとして現れてきた。 ミームは感情や感情を表現し、ユーモアや皮肉を通じて憎しみや誤報を広める強力なツールになっている。 本稿では,AAAI-23におけるDeFactify 2ワークショップの一環として,Memotion 3共有タスクの概要を紹介する。 タスクA(Task A)、感情B(Task B)、感情強度(Task C)に基づいて、ヒンディー語と英語のコード混合ミームの注釈付きデータセットをリリースした。 これらはそれぞれ個別のタスクとして定義され、参加者は各タスクごとに別々にランク付けされる。 50以上のチームが共有タスクに登録し、5つがmemotion 3データセットのテストセットに最終提出を行った。 CLIP、BERT修正、ViTなどは学生-教師モデル、Fusion、Ensemblingといったアプローチとともに参加者の間で最も人気のあるモデルであった。 AタスクのF1スコアは34.41、Bタスクは79.77、Cタスクは59.82である。

Analyzing memes on the internet has emerged as a crucial endeavor due to the impact this multi-modal form of content wields in shaping online discourse. Memes have become a powerful tool for expressing emotions and sentiments, possibly even spreading hate and misinformation, through humor and sarcasm. In this paper, we present the overview of the Memotion 3 shared task, as part of the DeFactify 2 workshop at AAAI-23. The task released an annotated dataset of Hindi-English code-mixed memes based on their Sentiment (Task A), Emotion (Task B), and Emotion intensity (Task C). Each of these is defined as an individual task and the participants are ranked separately for each task. Over 50 teams registered for the shared task and 5 made final submissions to the test set of the Memotion 3 dataset. CLIP, BERT modifications, ViT etc. were the most popular models among the participants along with approaches such as Student-Teacher model, Fusion, and Ensembling. The best final F1 score for Task A is 34.41, Task B is 79.77 and Task C is 59.82.
翻訳日:2023-09-14 16:40:36 公開日:2023-09-12
# df-transfusion: 口唇交叉と顔面自己接触によるマルチモーダルディープフェイク検出

DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention ( http://arxiv.org/abs/2309.06511v1 )

ライセンス: Link先を確認
Aaditya Kharel, Manas Paranjape, Aniket Bera(参考訳) 操作メディアの増加に伴い、ディープフェイク検出はデジタルコンテンツの信頼性を維持するための必須課題となっている。 本稿では,ディープフェイク検出タスクにおいて,音声と映像を同時に処理するマルチモーダルオーディオビデオフレームワークを提案する。 本モデルでは,vgg-16ネットワークを用いて視覚手がかりを抽出しながら,クロスアテンション機構による入力音声とのリップ同期を活用している。 その後、変圧器エンコーダネットワークを用いて顔自己着脱を行う。 アプローチのさまざまな強みを強調する複数のアブレーション研究を行っている。 マルチモーダル手法は,f-1とビデオ単位のaucスコアで最先端のマルチモーダルディープフェイク検出技術を上回る。

With the rise in manipulated media, deepfake detection has become an imperative task for preserving the authenticity of digital content. In this paper, we present a novel multi-modal audio-video framework designed to concurrently process audio and video inputs for deepfake detection tasks. Our model capitalizes on lip synchronization with input audio through a cross-attention mechanism while extracting visual cues via a fine-tuned VGG-16 network. Subsequently, a transformer encoder network is employed to perform facial self-attention. We conduct multiple ablation studies highlighting different strengths of our approach. Our multi-modal methodology outperforms state-of-the-art multi-modal deepfake detection techniques in terms of F-1 and per-video AUC scores.
翻訳日:2023-09-14 16:40:16 公開日:2023-09-12
# 機械結合ゲインロス発振器における例外点誘起量子位相同期と絡み合いダイナミクス

Exceptional point induced quantum phase synchronization and entanglement dynamics in mechanically coupled gain-loss oscillators ( http://arxiv.org/abs/2309.06508v1 )

ライセンス: Link先を確認
Joy Ghosh, Souvik Mondal, Shailendra K. Varshney, kapil Debnath(参考訳) オプトメカニカルキャビティ(omc)システムは、過去10年間にわたって連続変数量子情報の出現におけるパラダイムである。 本稿では, 共役ゲイン損失機械発振器における量子位相同期と2成分ガウスの絡み合いの関係について検討し, キャビティを青色および赤色のデチューンレーザーで駆動することにより, ゲインと損失率を制御した。 発振器の2次揺らぎの間にロバストな量子相関を生じさせる自己持続振動を生成する決定論的方法における例外点の役割について検討する。 特に、安定相同期ダイナミクスと絡み合い現象は、臨界駆動力の上の効果的な弱い結合状態において観察される。 これらの現象は、ウィグナー分布の機械的スクイーズと位相空間回転を観察してさらに検証される。 さらに,発振器の周波数ミスマッチと熱フォノンによるデコヒーレンスがシステムのダイナミクスに与える影響について考察する。 これらの発見はフォノンベースの量子通信と情報処理への応用を約束している。

The optomechanical cavity (OMC) system has been a paradigm in the manifestation of continuous variable quantum information over the past decade. This paper investigates how quantum phase synchronization relates to bipartite Gaussian entanglement in coupled gain-loss mechanical oscillators, where the gain and loss rates are engineered by driving the cavity with blue and red detuned lasers, respectively. We examine the role of exceptional point in a deterministic way of producing self-sustained oscillations that induce robust quantum correlations among quadrature fluctuations of the oscillators. Particularly, steady phase synchronization dynamics along with the entanglement phenomena are observed in the effective weak coupling regime above a critical driving power. These phenomena are further verified by observing the mechanical squeezing and phase space rotations of the Wigner distributions. Additionally, we discuss how the oscillators frequency mismatches and decoherence due to thermal phonons impact the system dynamics. These findings hold promise for applications in phonon-based quantum communication and information processing.
翻訳日:2023-09-14 16:40:03 公開日:2023-09-12
# ソーシャルメディアデータアノテーションのための大規模言語モデルと弱スーパービジョンの活用 : COVID-19自己申告型予防接種ツイートを用いた評価

Leveraging Large Language Models and Weak Supervision for Social Media data annotation: an evaluation using COVID-19 self-reported vaccination tweets ( http://arxiv.org/abs/2309.06503v1 )

ライセンス: Link先を確認
Ramya Tekumalla and Juan M. Banda(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、医療業界や社会全体に大きな課題をもたらした。 新型コロナウイルスワクチンの急速な発展に伴い、ソーシャルメディアプラットフォームはワクチン関連の話題に関する議論の場となっている。 ワクチンに関連するツイートを特定し分析することで、公衆衛生研究や政策立案者に貴重な洞察を与えることができる。 しかし、大量のツイートのマニュアルアノテーションは、時間と費用がかかる。 本研究では,GPT-4(3月23日版)を用いて,ヒトアノテータとの性能を比較することを目的とした,COVID-19ワクチン関連ツイートを識別する手法について検討した。 gpt-4を使って、追加の微調整や指示なしで、シングルショットモードで(追加のプロンプトなしで)ラベルを提供しました。

The COVID-19 pandemic has presented significant challenges to the healthcare industry and society as a whole. With the rapid development of COVID-19 vaccines, social media platforms have become a popular medium for discussions on vaccine-related topics. Identifying vaccine-related tweets and analyzing them can provide valuable insights for public health research-ers and policymakers. However, manual annotation of a large number of tweets is time-consuming and expensive. In this study, we evaluate the usage of Large Language Models, in this case GPT-4 (March 23 version), and weak supervision, to identify COVID-19 vaccine-related tweets, with the purpose of comparing performance against human annotators. We leveraged a manu-ally curated gold-standard dataset and used GPT-4 to provide labels without any additional fine-tuning or instructing, in a single-shot mode (no additional prompting).
翻訳日:2023-09-14 16:39:45 公開日:2023-09-12
# フォトニック量子ネットワークにおける非局所性活性化

Nonlocality activation in a photonic quantum network ( http://arxiv.org/abs/2309.06501v1 )

ライセンス: Link先を確認
Luis Villegas-Aguilar, Emanuele Polino, Farzad Ghafari, Marco T\'ulio Quintino, Kiarn Laverick, Ian R. Berkman, Sven Rogge, Lynden K. Shalm, Nora Tischler, Eric G. Cavalcanti, Sergei Slussarenko, Geoff J. Pryde(参考訳) ベル非局所性 (bell nonlocality) は、古典的因果関係の概念に挑戦する2つの遠方の絡み合った粒子の間の相関関係を指す。 基礎的な重要性の他に、非局所性は量子鍵分布やランダムネス生成のようなデバイスに依存しない技術にとって重要である。 非局所性はノイズの存在下で急速に悪化し、非局所相関は追加の資源を必要とする。 これらは多くの場合、入力状態と共同測定の多くの例の形で行われ、重要なリソースオーバーヘッドを引き起こす。 ここでは,標準ベルの不等式に違反することができないベル局所状態の単一コピーが,複数のパーティの量子ネットワークに埋め込まれた後に非局所性を引き起こすことを示す。 状態の一部を2つの独立した受信機に放送する量子チャネルに初期絡み合った状態を入力し、調整されたベル様不等式に違反してネットワーク内の非局所性を証明する。 これらの結果は、準備された状態、量子チャネル、あるいは量子理論の妥当性について仮定することなく得られる。 本研究は,非局所性に基礎的な意味を持ち,ノイズに支配されるシナリオにおいても,実世界のアプリケーションにおいて非局所相関の実践的利用を可能にする。

Bell nonlocality refers to correlations between two distant, entangled particles that challenge classical notions of local causality. Beyond its foundational significance, nonlocality is crucial for device-independent technologies like quantum key distribution and randomness generation. Nonlocality quickly deteriorates in the presence of noise, and restoring nonlocal correlations requires additional resources. These often come in the form of many instances of the input state and joint measurements, incurring a significant resource overhead. Here, we experimentally demonstrate that single copies of Bell-local states, incapable of violating any standard Bell inequality, can give rise to nonlocality after being embedded into a quantum network of multiple parties. We subject the initial entangled state to a quantum channel that broadcasts part of the state to two independent receivers and certify the nonlocality in the resulting network by violating a tailored Bell-like inequality. We obtain these results without making any assumptions about the prepared states, the quantum channel, or the validity of quantum theory. Our findings have fundamental implications for nonlocality and enable the practical use of nonlocal correlations in real-world applications, even in scenarios dominated by noise.
翻訳日:2023-09-14 16:39:30 公開日:2023-09-12
# 双極子ゲージにおける導波路QED

Waveguide QED in the Dipole Gauge ( http://arxiv.org/abs/2309.06500v1 )

ライセンス: Link先を確認
Sergi Terradas-Brians\'o, Luis Mart\'in-Moreno, David Zueco(参考訳) キャビティにおける物質と光の超強結合に関する最近の研究では、広く使われている2レベル近似を用いた場合のゲージ選択の重要性が強調されている。 これらの研究を拡張して、導波路QEDに解析を拡張し、ダイポールゲージでのトラルケーションが正確な結果をもたらすことを示した。 この点を説明するために、空洞アレイに結合した双極子の場合を考える。 システムの低エネルギー力学を研究するために、様々な数値解析技術が用いられている。 これらの理論ツールを活用することで、単一光子散乱はゲージ関連の問題を調べるのに理想的な方法であると論じる。 以上の結果から, クーロンゲージを用いた切断モデルでは再現できない散乱スペクトルの2つの新しい効果が明らかになった。 第一に、一次共鳴はラムシフトの寄与によって変化する。 次に、この共鳴を囲む非対称透過振幅を観測し、このモデルにおけるスペクトル密度の非対称性を反映した。 さらに、ファノ共鳴や非弾性チャネルの出現など、超強結合による散乱スペクトルの他の特徴についても検討する。 最後に、回路QEDの文脈において、我々のアイデアを実験的に検証する。

In recent studies on ultrastrong coupling between matter and light in cavities, the significance of gauge choice when employing the widely-used two-level approximation has been highlighted. Expanding upon these investigations, we extend the analysis to waveguide QED, where we demonstrate that truncations performed in the dipole gauge also yield accurate results. To illustrate this point, we consider the case of a dipole coupled to a cavity array. Various numerical and analytical techniques have been employed to investigate the low-energy dynamics of the system. Leveraging these theoretical tools, we argue that single photon scattering is an ideal method for investigating gauge-related issues. Our findings reveal two novel effects in the scattering spectra, which cannot be reproduced in a truncated model using the Coulomb gauge. Firstly, the primary resonance is modified due to a Lamb shift contribution. Secondly, we observe asymmetric transmission amplitudes surrounding this resonance, reflecting the asymmetry of the spectral density in this model. Additionally, we explore other features in the scattering spectra resulting from ultrastrong couplings, such as the emergence of Fano resonances and inelastic channels. Finally, we propose an experimental test of our ideas in the context of circuit QED.
翻訳日:2023-09-14 16:39:09 公開日:2023-09-12
# 大規模ニューラルネットワーク学習のための分散シャンプー最適化器の分散データ並列PyTorch実装

A Distributed Data-Parallel PyTorch Implementation of the Distributed Shampoo Optimizer for Training Neural Networks At-Scale ( http://arxiv.org/abs/2309.06497v1 )

ライセンス: Link先を確認
Hao-Jun Michael Shi, Tsung-Hsien Lee, Shintaro Iwasaki, Jose Gallego-Posada, Zhijing Li, Kaushik Rangadurai, Dheevatsa Mudigere, and Michael Rabbat(参考訳) Shampooは、ニューラルネットワークをトレーニングするためのAdaGradファミリーに属する、オンラインで確率的な最適化アルゴリズムである。 ブロック対角プレコンディショナー(block-diagonal preconditioner)を構築し、各ブロックはニューラルネットワークの各パラメータのフルマトリックスアダグラードに近似する粗いクロネッカー積からなる。 本研究では,PyTorchのディープ・ネットワークを大規模にトレーニングするために,アルゴリズムの完全な記述と,実装が活用する性能最適化について述べる。 本稿では、pytorchのdtensorデータ構造を介して各パラメータのブロックに関連付けられたメモリと計算を分散し、各イテレーションで計算された検索方向に対してallgatherプリミティブを実行し、高速マルチgpu分散データ並列トレーニングを実現する。 この性能向上により、標準的な対角線スケーリングに基づく適応勾配法と比較して、ステップ毎のウォールタイムの10%以上の性能低下を達成できる。 我々は、ImageNet ResNet50のトレーニングに関するアブレーション研究を行い、最小限のハイパーパラメータチューニングによる標準的なトレーニングレシピよりもシャンプーの方が優れていることを示す。

Shampoo is an online and stochastic optimization algorithm belonging to the AdaGrad family of methods for training neural networks. It constructs a block-diagonal preconditioner where each block consists of a coarse Kronecker product approximation to full-matrix AdaGrad for each parameter of the neural network. In this work, we provide a complete description of the algorithm as well as the performance optimizations that our implementation leverages to train deep networks at-scale in PyTorch. Our implementation enables fast multi-GPU distributed data-parallel training by distributing the memory and computation associated with blocks of each parameter via PyTorch's DTensor data structure and performing an AllGather primitive on the computed search directions at each iteration. This major performance enhancement enables us to achieve at most a 10% performance reduction in per-step wall-clock time compared against standard diagonal-scaling-based adaptive gradient methods. We validate our implementation by performing an ablation study on training ImageNet ResNet50, demonstrating Shampoo's superiority over standard training recipes with minimal hyperparameter tuning.
翻訳日:2023-09-14 16:38:50 公開日:2023-09-12
# AI会話としてのコマンド

Commands as AI Conversations ( http://arxiv.org/abs/2309.06551v1 )

ライセンス: Link先を確認
Diomidis Spinellis(参考訳) 開発者やデータサイエンティストは、ChatGPTのようなグラフィカルなインターフェースやツールが役に立つとしても、コマンドライン入力を書くのに苦労することが多い。 解決策は? これはGitHub Copilotにインスパイアされたオープンソースのシステムで、自然言語プロンプトをさまざまなLinuxコマンドラインツールの実行可能なコマンドに変換する。 JSON HTTPリクエストによるインタラクションを可能にするOpenAIのAPIをタップすることで、"ai-cli"はユーザクエリを実行可能なコマンドライン命令に変換する。 しかし、複数のコマンドラインツール、特にオープンソースの設定にAIアシストを統合するのは、複雑である。 歴史的に、オペレーティングシステムは仲介を行うことができたが、個々のツール機能と統一アプローチの欠如は集中統合を困難にした。 ツールは、動的ローディングと各プログラムのReadlineライブラリAPIとのリンクを通じてこのギャップを埋めることで、コマンドラインインターフェースをより賢く、ユーザフレンドリにし、さらなる拡張とクロスプラットフォーム適用性を実現する。

Developers and data scientists often struggle to write command-line inputs, even though graphical interfaces or tools like ChatGPT can assist. The solution? "ai-cli," an open-source system inspired by GitHub Copilot that converts natural language prompts into executable commands for various Linux command-line tools. By tapping into OpenAI's API, which allows interaction through JSON HTTP requests, "ai-cli" transforms user queries into actionable command-line instructions. However, integrating AI assistance across multiple command-line tools, especially in open source settings, can be complex. Historically, operating systems could mediate, but individual tool functionality and the lack of a unified approach have made centralized integration challenging. The "ai-cli" tool, by bridging this gap through dynamic loading and linking with each program's Readline library API, makes command-line interfaces smarter and more user-friendly, opening avenues for further enhancement and cross-platform applicability.
翻訳日:2023-09-14 16:33:29 公開日:2023-09-12
# AmodalSynthDrive:自動運転のための合成アモーダル知覚データセット

AmodalSynthDrive: A Synthetic Amodal Perception Dataset for Autonomous Driving ( http://arxiv.org/abs/2309.06547v1 )

ライセンス: Link先を確認
Ahmed Rida Sekkat, Rohit Mohan, Oliver Sawade, Elmar Matthes, and Abhinav Valada(参考訳) 部分的に遮蔽された場合でも物体全体を無力に推定できる人間とは異なり、現代のコンピュータビジョンアルゴリズムは、この側面を極めて困難に感じている。 このアモーダルな認識を自動運転に活用することは、適切なデータセットがないため、ほとんど解決されていない。 これらのデータセットのキュレーションは、主に重要なアノテーションコストと、正確なラベル付けにおけるアノテーションの主観性の緩和によって妨げられている。 これらの制約に対処するために、合成マルチタスクマルチモーダルアモーダル認識データセットであるAmodalSynthDriveを導入する。 データセットは、多視点カメライメージ、3dバウンディングボックス、lidarデータ、およびさまざまな交通、天候、照明条件で1m以上のオブジェクトアノテーションを含む150の運転シーケンスに対するオドメトリを提供する。 AmodalSynthDriveは、空間的理解を高めるために導入されたアモーダル深度推定を含む複数のアモーダルシーン理解タスクをサポートする。 これらのタスクのベースラインをいくつか評価し,課題を説明し,公開ベンチマークサーバを設置した。 データセットはhttp://amodalsynthdrive.cs.uni-freiburg.deで利用可能である。

Unlike humans, who can effortlessly estimate the entirety of objects even when partially occluded, modern computer vision algorithms still find this aspect extremely challenging. Leveraging this amodal perception for autonomous driving remains largely untapped due to the lack of suitable datasets. The curation of these datasets is primarily hindered by significant annotation costs and mitigating annotator subjectivity in accurately labeling occluded regions. To address these limitations, we introduce AmodalSynthDrive, a synthetic multi-task multi-modal amodal perception dataset. The dataset provides multi-view camera images, 3D bounding boxes, LiDAR data, and odometry for 150 driving sequences with over 1M object annotations in diverse traffic, weather, and lighting conditions. AmodalSynthDrive supports multiple amodal scene understanding tasks including the introduced amodal depth estimation for enhanced spatial understanding. We evaluate several baselines for each of these tasks to illustrate the challenges and set up public benchmarking servers. The dataset is available at http://amodalsynthdrive.cs.uni-freiburg.de.
翻訳日:2023-09-14 16:32:58 公開日:2023-09-12
# テキストエンコーダの知識不足:ドメイン特有な意味的テクスチャ類似性のための生成LDMの活用

Text Encoders Lack Knowledge: Leveraging Generative LLMs for Domain-Specific Semantic Textual Similarity ( http://arxiv.org/abs/2309.06541v1 )

ライセンス: Link先を確認
Joseph Gatto, Omar Sharif, Parker Seegmiller, Philip Bohlman, Sarah Masud Preum(参考訳) 様々なタスクにおける大規模言語モデル (LLM) の評価の急激な増加の中で, 意味的テキスト類似性 (STS) が過小評価されていることがわかった。 本研究では,複数のSTSベンチマークにおいて高い性能を維持しつつ,テキスト生成問題としてSTSをキャストできることを示す。 さらに,世界知識に依存した複雑な意味関係を持つ2つのテキスト間の意味的類似性を特徴付ける場合,既存のエンコーダベースのSTSモデルよりも優れた生成性を示す。 この主張は,保健・政治・スポーツ分野における世界的知識を必要とする3つのSTSチャレンジセットに対して,ジェネレーティブLSMと既存のエンコーダベースのSTSモデルの両方を評価することによって検証される。 新たに収集されたデータは2023年5月以降に投稿されたソーシャルメディアコンテンツから収集され、chatgptのようなクローズドソースモデルのパフォーマンスは記憶に残ることができない。 以上の結果から, 生成LDMは, 世界の知識を必要とするSTSタスクにおいて, 平均22.3%, 最良エンコーダのみのベースラインを上回っていることがわかった。 この結果から,複雑なドメイン固有のSTSタスクにおいて,STS固有のプロンプト戦略を持つ生成言語モデルが最先端の性能を達成することが示唆された。

Amidst the sharp rise in the evaluation of large language models (LLMs) on various tasks, we find that semantic textual similarity (STS) has been under-explored. In this study, we show that STS can be cast as a text generation problem while maintaining strong performance on multiple STS benchmarks. Additionally, we show generative LLMs significantly outperform existing encoder-based STS models when characterizing the semantic similarity between two texts with complex semantic relationships dependent on world knowledge. We validate this claim by evaluating both generative LLMs and existing encoder-based STS models on three newly collected STS challenge sets which require world knowledge in the domains of Health, Politics, and Sports. All newly collected data is sourced from social media content posted after May 2023 to ensure the performance of closed-source models like ChatGPT cannot be credited to memorization. Our results show that, on average, generative LLMs outperform the best encoder-only baselines by an average of 22.3% on STS tasks requiring world knowledge. Our results suggest generative language models with STS-specific prompting strategies achieve state-of-the-art performance in complex, domain-specific STS tasks.
翻訳日:2023-09-14 16:32:24 公開日:2023-09-12
# 分布的ロバストな転送学習

Distributionally Robust Transfer Learning ( http://arxiv.org/abs/2309.06534v1 )

ライセンス: Link先を確認
Xin Xiong, Zijian Guo, Tianxi Cai(参考訳) 既存のトランスファー学習手法の多くは、ターゲットデータによく似たソースデータからの情報を活用している。 しかし、このアプローチはしばしば、異なるが潜在的に関連する補助サンプルに存在する可能性のある貴重な知識を見落としている。 限られた量のターゲットデータと多種多様なソースモデルを扱う際,本論文は,厳密な類似性制約を伴わない転送学習(transdro)のための分散的ロバスト最適化という新しいアプローチを提案する。 transdroは、不確実性セット内の最も敵対的な損失を最適化するために設計されており、ターゲットデータに対する優れた予測性能を保証するソース分布の凸結合として生成されるターゲット集団の集合として定義される。 TransDROは、転送学習と分散ロバストネス予測モデルの領域を効果的に橋渡しする。 ベースラインモデルに最も近いソースモデルの重み付け平均としてtransdroの識別可能性とその解釈を確立する。 また,TransDROは,対象データに適合するモデルよりも高速に収束することを示す。 TransDROを用いた多施設電子健康記録データの総合的な数値研究と解析により、TransDROの堅牢性と正確性をさらに裏付け、トランスファーラーニングアプリケーションにおける強力なツールとしての可能性を強調した。

Many existing transfer learning methods rely on leveraging information from source data that closely resembles the target data. However, this approach often overlooks valuable knowledge that may be present in different yet potentially related auxiliary samples. When dealing with a limited amount of target data and a diverse range of source models, our paper introduces a novel approach, Distributionally Robust Optimization for Transfer Learning (TransDRO), that breaks free from strict similarity constraints. TransDRO is designed to optimize the most adversarial loss within an uncertainty set, defined as a collection of target populations generated as a convex combination of source distributions that guarantee excellent prediction performances for the target data. TransDRO effectively bridges the realms of transfer learning and distributional robustness prediction models. We establish the identifiability of TransDRO and its interpretation as a weighted average of source models closest to the baseline model. We also show that TransDRO achieves a faster convergence rate than the model fitted with the target data. Our comprehensive numerical studies and analysis of multi-institutional electronic health records data using TransDRO further substantiate the robustness and accuracy of TransDRO, highlighting its potential as a powerful tool in transfer learning applications.
翻訳日:2023-09-14 16:31:29 公開日:2023-09-12
# セッションベースレコメンデーションのための階層型マルチタスク学習フレームワーク

Hierarchical Multi-Task Learning Framework for Session-based Recommendations ( http://arxiv.org/abs/2309.06533v1 )

ライセンス: Link先を確認
Sejoon Oh, Walid Shalaby, Amir Afsharinejad, Xiquan Cui(参考訳) セッションベースレコメンデータシステム(SBRS)はより優れたレコメンデーション性能を示したが、マルチタスク学習(MTL)は、その予測精度と一般化性を高めるためにSBRSによって採用されている。 階層mtl (h-mtl) は予測タスク間の階層構造を設定し、補助タスクからメインタスクへの出力を供給する。 この階層は、既存のMTLフレームワークと比較して、メインタスクの入力機能と予測の解釈可能性の向上につながります。 しかし、H-MTLフレームワークはSBRSではまだ研究されていない。 本稿では,H-MTLアーキテクチャをSBRSに組み込んだHierSRecを提案する。 HierSRecはメタデータ対応のTransformerで所定のセッションをエンコードし、セッションエンコーディングで次のカテゴリ予測(補助タスク)を行う。 次に、hiersrecはカテゴリ予測結果とセッションエンコーディングで次項目の予測(すなわちメインタスク)を行う。 スケーラブルな推論のために、HierSRecはカテゴリ予測を用いてテスト例ごとにコンパクトな候補項目(例:全項目の4%)を作成する。 実験により、HierSRecは2つのセッションベースのレコメンデーションデータセットにおいて、次のイテム予測精度に従って既存のSBRSより優れていることが示された。 注意深く調整された候補項目で測定されたhiersrecの精度は、全ての項目で算出されたhiersrecの精度と一致し、h-mtlによる候補生成方式の有用性を検証する。

While session-based recommender systems (SBRSs) have shown superior recommendation performance, multi-task learning (MTL) has been adopted by SBRSs to enhance their prediction accuracy and generalizability further. Hierarchical MTL (H-MTL) sets a hierarchical structure between prediction tasks and feeds outputs from auxiliary tasks to main tasks. This hierarchy leads to richer input features for main tasks and higher interpretability of predictions, compared to existing MTL frameworks. However, the H-MTL framework has not been investigated in SBRSs yet. In this paper, we propose HierSRec which incorporates the H-MTL architecture into SBRSs. HierSRec encodes a given session with a metadata-aware Transformer and performs next-category prediction (i.e., auxiliary task) with the session encoding. Next, HierSRec conducts next-item prediction (i.e., main task) with the category prediction result and session encoding. For scalable inference, HierSRec creates a compact set of candidate items (e.g., 4% of total items) per test example using the category prediction. Experiments show that HierSRec outperforms existing SBRSs as per next-item prediction accuracy on two session-based recommendation datasets. The accuracy of HierSRec measured with the carefully-curated candidate items aligns with the accuracy of HierSRec calculated with all items, which validates the usefulness of our candidate generation scheme via H-MTL.
翻訳日:2023-09-14 16:31:08 公開日:2023-09-12
# 教師なしとマルチターゲットドメイン適応のための強弱統合セミスーパービジョン

Strong-Weak Integrated Semi-supervision for Unsupervised Single and Multi Target Domain Adaptation ( http://arxiv.org/abs/2309.06528v1 )

ライセンス: Link先を確認
Xiaohu Lu and Hayder Radha(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインで学習された知識をラベルなしターゲットドメインに転送することに焦点を当てている。 近年、画像分類のための単一ターゲット領域適応において大きな進歩があったが、単一ターゲット領域適応から多ターゲット領域適応への拡張はいまだに未解明の領域である。 一般に、教師なしのドメイン適応は、単一のラベルのないターゲットドメインから信頼できる情報を学習しようとする場合、大きな課題に直面します。 ラベルのないターゲットドメインの数が増加すると、この問題はさらに悪化する。 本稿では,単目的シナリオと多目的シナリオの両方でうまく機能する,教師なし領域適応を用いた画像分類のための強弱統合半スーパービジョン(swiss)学習戦略を提案する。 提案したSWISS-UDAフレームワークでは,信頼性が高いが多様性が低い対象ドメインの強い代表セットと信頼性が低いが多様性が低い対象ドメインの弱い代表セットをトレーニングプロセス中に常に更新する。 どちらのセットも融合して、擬似ラベルで強化された強弱トレーニングバッチを生成し、イテレーション毎にネットワークをトレーニングする。 シングルターゲットからマルチターゲットドメインへの適応の延長は、ドメイン間のクラス間距離関係を探索し、ピアスキャフォールディングを通じて、ピアドメインの強い代表集合をより強力なサンプルに置き換えることで達成される。 さらに,新たな対向ロジット損失が提案され,ソースドメインとターゲットドメイン間のクラス内ばらつきを低減し,分類器とネットワークの他の部分の間の勾配逆層と逆方向に逆転する。 Office-31、Office-Home、DomainNetの3つのベンチマークに基づく実験結果は、提案されたSWISSフレームワークの有効性を示している。

Unsupervised domain adaptation (UDA) focuses on transferring knowledge learned in the labeled source domain to the unlabeled target domain. Despite significant progress that has been achieved in single-target domain adaptation for image classification in recent years, the extension from single-target to multi-target domain adaptation is still a largely unexplored problem area. In general, unsupervised domain adaptation faces a major challenge when attempting to learn reliable information from a single unlabeled target domain. Increasing the number of unlabeled target domains further exacerbate the problem rather significantly. In this paper, we propose a novel strong-weak integrated semi-supervision (SWISS) learning strategy for image classification using unsupervised domain adaptation that works well for both single-target and multi-target scenarios. Under the proposed SWISS-UDA framework, a strong representative set with high confidence but low diversity target domain samples and a weak representative set with low confidence but high diversity target domain samples are updated constantly during the training process. Both sets are fused to generate an augmented strong-weak training batch with pseudo-labels to train the network during every iteration. The extension from single-target to multi-target domain adaptation is accomplished by exploring the class-wise distance relationship between domains and replacing the strong representative set with much stronger samples from peer domains via peer scaffolding. Moreover, a novel adversarial logit loss is proposed to reduce the intra-class divergence between source and target domains, which is back-propagated adversarially with a gradient reverse layer between the classifier and the rest of the network. Experimental results based on three benchmarks, Office-31, Office-Home, and DomainNet, show the effectiveness of the proposed SWISS framework.
翻訳日:2023-09-14 16:30:41 公開日:2023-09-12
# テーブルトランスフォーマの微分プライベートプリトレーニングとパラメータ効率の良い微調整の利点を探る

Exploring the Benefits of Differentially Private Pre-training and Parameter-Efficient Fine-tuning for Table Transformers ( http://arxiv.org/abs/2309.06526v1 )

ライセンス: Link先を確認
Xilong Wang, Chia-Mu Yu, and Pin-Yu Chen(参考訳) 表データによる機械学習では、Tab Transformer(Tab Transformer)が最先端のニューラルネットワークモデルであり、差分プライバシー(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。 本稿では,これら2つの側面を併用したトランスファー学習のシナリオ -- 差動プライベートな事前学習と,アダプタやlora,プロンプトチューニングなど,さまざまなパラメータ効率の細かいチューニング(peft)メソッドを備えたタブトランスフォーマの微調整 -- において,これらの利点について検討する。 ACSIncomeデータセットに関する広範な実験により、これらのPEFT手法は、下流タスクの精度とトレーニング可能なパラメータ数において従来の手法よりも優れており、パラメータ効率、プライバシ、精度のトレードオフが改善されていることが示された。 私たちのコードはgithub.com/IBM/DP-TabTransformerで利用可能です。

For machine learning with tabular data, Table Transformer (TabTransformer) is a state-of-the-art neural network model, while Differential Privacy (DP) is an essential component to ensure data privacy. In this paper, we explore the benefits of combining these two aspects together in the scenario of transfer learning -- differentially private pre-training and fine-tuning of TabTransformers with a variety of parameter-efficient fine-tuning (PEFT) methods, including Adapter, LoRA, and Prompt Tuning. Our extensive experiments on the ACSIncome dataset show that these PEFT methods outperform traditional approaches in terms of the accuracy of the downstream task and the number of trainable parameters, thus achieving an improved trade-off among parameter efficiency, privacy, and accuracy. Our code is available at github.com/IBM/DP-TabTransformer.
翻訳日:2023-09-14 16:29:55 公開日:2023-09-12
# 磁場のダイナミックイメージングのための量子ダイヤモンド顕微鏡

Quantum Diamond Microscope for Dynamic Imaging of Magnetic Fields ( http://arxiv.org/abs/2309.06587v1 )

ライセンス: Link先を確認
Jiashen Tang, Zechuan Yin, Connor A. Hart, John W. Blanchard, Jner Tzern Oon, Smriti Bhalerao, Jennifer M. Schloss, Matthew J. Turner and Ronald L. Walsworth(参考訳) ダイヤモンド中の窒素空洞(NV)中心のアンサンブルを用いた磁気信号の広視野イメージングは、ミクロンスケールの解像度、ミリスケールの視野、物理科学と生命科学の様々なサンプルとの互換性が組み合わさって、関心が高まっている。 近年,Ramseyプロトコルに基づく広視野NVイメージングは,従来の測定値と比較して均一かつ高感度化されている。 本稿では,NVスピンデフォーカス時間を拡張し,磁気感度を向上させるために,Ramseyベースのプロトコルとスピンバス駆動を統合した。 また, ダイナミック広視野磁気イメージングを実現するために, 高速カメラも採用している。 量子ダイヤモンド顕微鏡 (qdm) の実用性について, ワイヤファントムを作製した磁場をイメージングして評価する。 270 {\displaystyle 270\times270 \hspace{0.08333em} \mu\mathrm{m}$^2$の視野では、中央値の4.1(1)\hspace{0.08333em}\mathrm{nT}$/\sqrt{\mathrm{Hz}}$は空間分解$$\lesssim\hspace{0.08333em}10\hspace{0.08333em}\mu\mathrm{m}$で実現される。 重要なことに、空間磁気ノイズフロアは、時間と信号の変調によりピクトスラスケールに縮小することができ、ピークからピークまでの振幅差が約300\hspace{0.08333em}\mathrm{pT}$の磁場パターンを撮像することができる。 最後に, この動的QDMのバイオミネラル化および電気活性細胞研究への応用の可能性について検討する。

Wide-field imaging of magnetic signals using ensembles of nitrogen-vacancy (NV) centers in diamond has garnered increasing interest due to its combination of micron-scale resolution, millimeter-scale field of view, and compatibility with diverse samples from across the physical and life sciences. Recently, wide-field NV magnetic imaging based on the Ramsey protocol has achieved uniform and enhanced sensitivity compared to conventional measurements. Here, we integrate the Ramsey-based protocol with spin-bath driving to extend the NV spin dephasing time and improve magnetic sensitivity. We also employ a high-speed camera to enable dynamic wide-field magnetic imaging. We benchmark the utility of this quantum diamond microscope (QDM) by imaging magnetic fields produced from a fabricated wire phantom. Over a $270\times270 \hspace{0.08333em} \mu\mathrm{m}$$^2$ field of view, a median per-pixel magnetic sensitivity of $4.1(1)\hspace{0.08333em}\mathrm{nT}$$/\sqrt{\mathrm{Hz}}$ is realized with a spatial resolution $\lesssim\hspace{0.08333em}10\hspace{0.08333em}\mu\mathrm{m}$ and sub-millisecond temporal resolution. Importantly, the spatial magnetic noise floor can be reduced to the picotesla scale by time-averaging and signal modulation, which enables imaging of a magnetic-field pattern with a peak-to-peak amplitude difference of about $300\hspace{0.08333em}\mathrm{pT}$. Finally, we discuss potential new applications of this dynamic QDM in studying biomineralization and electrically-active cells.
翻訳日:2023-09-14 16:22:45 公開日:2023-09-12
# アルツハイマー病に対する説明可能なグラフニューラルネットワークと認知症リスク予測

Explainable Graph Neural Network for Alzheimer's Disease And Related Dementias Risk Prediction ( http://arxiv.org/abs/2309.06584v1 )

ライセンス: Link先を確認
Xinyue Hu (1), Zenan Sun (1), Yi Nian (1), Yifang Dang (1), Fang Li (1), Jingna Feng (1), Evan Yu (1), Cui Tao (1) ((1) McWilliams School of Biomedical Informatics, The University of Texas Health Science Center at Houston, Houston, TX, USA)(参考訳) アルツハイマー病と関連する認知症(ADRD)は、ADRDの正確なリスク予測の重要性を浮き彫りにして、米国で6番目に大きな死因となっている。 近年のADRDリスク予測の進歩は画像解析に大きく依存しているが,ADRD診断に先立ってすべての患者が画像診断を受けているわけではない。 機械学習とクレームデータの融合は、さまざまな医療コード間の新たなリスク要因や相互関係を明らかにする可能性がある。 我々の目標は、ADRDリスク予測のためのクレームデータとグラフニューラルネットワーク(GNN)を使用することです。 これらの予測の背後にある人間解釈可能な理由の欠如に対処し,関係の重要性とそのadrdリスク予測への影響を評価し,包括的解釈を確実にする革新的な手法を提案する。 我々はADRD確率を推定するために変分正規化エンコーダデコーダグラフニューラルネットワーク(VGNN)を用いた。 モデル効率を評価するために,ランダムフォレストと光勾配ブーストマシンをベースラインとして用いた3つのシナリオを作成した。 我々はさらに,ADRDリスク予測の鍵となる関係を明らかにするために,関係重要度法を適用した。 vgnnは、受信機の動作特性の下で、他のベースラインモデルを10%上回った。 gnnモデルと関係重要度解釈の統合は、adrdの進行に寄与または遅延する要因に対する貴重な洞察を提供する上で重要な役割を果たす可能性がある。 クレームデータによるGNNアプローチの採用はADRDリスク予測を強化し、相互接続された医療コード関係の影響に関する洞察を提供する。 この手法はADRDリスクモデリングを可能にするだけでなく、クレームデータを用いた他の画像解析予測の可能性を示す。

Alzheimer's disease and related dementias (ADRD) ranks as the sixth leading cause of death in the US, underlining the importance of accurate ADRD risk prediction. While recent advancement in ADRD risk prediction have primarily relied on imaging analysis, yet not all patients undergo medical imaging before an ADRD diagnosis. Merging machine learning with claims data can reveal additional risk factors and uncover interconnections among diverse medical codes. Our goal is to utilize Graph Neural Networks (GNNs) with claims data for ADRD risk prediction. Addressing the lack of human-interpretable reasons behind these predictions, we introduce an innovative method to evaluate relationship importance and its influence on ADRD risk prediction, ensuring comprehensive interpretation. We employed Variationally Regularized Encoder-decoder Graph Neural Network (VGNN) for estimating ADRD likelihood. We created three scenarios to assess the model's efficiency, using Random Forest and Light Gradient Boost Machine as baselines. We further used our relation importance method to clarify the key relationships for ADRD risk prediction. VGNN surpassed other baseline models by 10% in the area under the receiver operating characteristic. The integration of the GNN model and relation importance interpretation could potentially play an essential role in providing valuable insight into factors that may contribute to or delay ADRD progression. Employing a GNN approach with claims data enhances ADRD risk prediction and provides insights into the impact of interconnected medical code relationships. This methodology not only enables ADRD risk modeling but also shows potential for other image analysis predictions using claims data.
翻訳日:2023-09-14 16:22:03 公開日:2023-09-12
# cms高粒度熱量計プロトタイプにおける電子エネルギー回帰

Electron Energy Regression in the CMS High-Granularity Calorimeter Prototype ( http://arxiv.org/abs/2309.06582v1 )

ライセンス: Link先を確認
Roger Rusack, Bhargav Joshi, Alpana Alpana, Seema Sharma, Thomas Vadnais(参考訳) CERN大ハドロン衝突型加速器に搭載される新しいカロリー計のシミュレーションデータを含む,新たに公開されたデータセットを提案する。 この検出器は、各チャネルに位置、電離、正確な時間測定ができる6百万以上のチャネルを持つ。 これらのイベントを効率的に再構築することは、最新の機械学習技術で対処されている大きな課題となる。 この開発の一環として、12,000チャンネルの大型プロトタイプが製造され、高エネルギー電子ビームが入射した。 機械学習を用いて、我々は3次元ヒットのエネルギーから入射電子のエネルギーを再構築した。 このデータを公開することで、私たちは機械学習の応用の専門家に、これらの電子の効率的で正確な画像再構成を開発することを奨励したいと考えています。

We present a new publicly available dataset that contains simulated data of a novel calorimeter to be installed at the CERN Large Hadron Collider. This detector will have more than six-million channels with each channel capable of position, ionisation and precision time measurement. Reconstructing these events in an efficient way poses an immense challenge which is being addressed with the latest machine learning techniques. As part of this development a large prototype with 12,000 channels was built and a beam of high-energy electrons incident on it. Using machine learning methods we have reconstructed the energy of incident electrons from the energies of three-dimensional hits, which is known to some precision. By releasing this data publicly we hope to encourage experts in the application of machine learning to develop efficient and accurate image reconstruction of these electrons.
翻訳日:2023-09-14 16:21:38 公開日:2023-09-12
# ガイドクロッピングによるゼロショット視覚分類

Zero-Shot Visual Classification with Guided Cropping ( http://arxiv.org/abs/2309.06581v1 )

ライセンス: Link先を確認
Piyapat Saranrittichai, Mauricio Munoz, Volker Fischer and Chaithanya Kumar Mummadi(参考訳) CLIPのような事前訓練されたビジョン言語モデルでは、さまざまなデータセットでゼロショットのパフォーマンスが期待できる。 しかし、クローズドセットの分類タスクには固有の制限がある: CLIPイメージエンコーダは典型的には、ターゲットタスクの過剰な情報や不明確な情報を要約する一般的な画像レベルの特徴を抽出するために設計されている。 これにより、特に興味の対象が入力画像の小さな領域をカバーする場合、分類性能が低下する。 本研究では,ゼロショット分類器の被写体へのフォーカスを増加させ,外部画像領域の影響を最小限に抑えるために,既成のゼロショット物体検出モデルを用いた映像クリップ(gc-clip)を提案する。 提案手法はアーキテクチャやデータセット間のゼロショット分類を改良し,小型オブジェクトに好適に適用できることを実証的に示す。

Pretrained vision-language models, such as CLIP, show promising zero-shot performance across a wide variety of datasets. For closed-set classification tasks, however, there is an inherent limitation: CLIP image encoders are typically designed to extract generic image-level features that summarize superfluous or confounding information for the target tasks. This results in degradation of classification performance, especially when objects of interest cover small areas of input images. In this work, we propose CLIP with Guided Cropping (GC-CLIP), where we use an off-the-shelf zero-shot object detection model in a preprocessing step to increase focus of zero-shot classifier to the object of interest and minimize influence of extraneous image regions. We empirically show that our approach improves zero-shot classification results across architectures and datasets, favorably for small objects.
翻訳日:2023-09-14 16:21:25 公開日:2023-09-12
# 制御合成のための深層カーネル学習の約束

Promises of Deep Kernel Learning for Control Synthesis ( http://arxiv.org/abs/2309.06569v1 )

ライセンス: Link先を確認
Robert Reed, Luca Laurenti, Morteza Lahijanian(参考訳) ディープカーネル学習(dkl)は、ニューラルネットワークの表現力とガウス過程の不確実性定量化を組み合わせる。 したがって、複雑な力学系を学習し制御する有望なツールである可能性がある。 本研究では,複雑な仕様に対する確率力学系の合成制御にdklを用いたスケーラブルな抽象化フレームワークを開発した。 具体的には、時間論理の仕様を考察し、DKLを用いて未知のシステムをデータから学習し、正式にDKLモデルをインターバルマルコフ決定プロセス(IMDP)に抽象化し、正確性を保証する制御合成を行う。 さらに,正確な学習と効率的な抽象化計算を可能にする深層アーキテクチャを特定する。 提案手法の有効性を5次元非線形確率システムを含む様々なベンチマークで示し,DKLによる制御合成が最先端の競合手法を大幅に上回ることを示す。

Deep Kernel Learning (DKL) combines the representational power of neural networks with the uncertainty quantification of Gaussian Processes. Hence, it is potentially a promising tool to learn and control complex dynamical systems. In this work, we develop a scalable abstraction-based framework that enables the use of DKL for control synthesis of stochastic dynamical systems against complex specifications. Specifically, we consider temporal logic specifications and create an end-to-end framework that uses DKL to learn an unknown system from data and formally abstracts the DKL model into an Interval Markov Decision Process (IMDP) to perform control synthesis with correctness guarantees. Furthermore, we identify a deep architecture that enables accurate learning and efficient abstraction computation. The effectiveness of our approach is illustrated on various benchmarks, including a 5-D nonlinear stochastic system, showing how control synthesis with DKL can substantially outperform state-of-the-art competitive methods.
翻訳日:2023-09-14 16:19:38 公開日:2023-09-12
# 半教師型医用画像分割のための多次元融合と整合性

Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2309.06618v1 )

ライセンス: Link先を確認
Yixing Lu, Zhaoxin Fan, Min Xu(参考訳) 本稿では,医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。 我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。 このスキームはvitsとcnnの両方の強みをうまく組み合わせ、両アーキテクチャの独特な利点と視覚言語のモダリティにおける補完的な情報に乗じている。 さらに,ロバストな擬似ラベルを生成するための多軸一貫性フレームワークを提案し,半教師付き学習プロセスを強化する。 広く使われているいくつかのデータセットに関する広範な実験は、我々のアプローチの有効性を明白に実証している。

In this paper, we introduce a novel semi-supervised learning framework tailored for medical image segmentation. Central to our approach is the innovative Multi-scale Text-aware ViT-CNN Fusion scheme. This scheme adeptly combines the strengths of both ViTs and CNNs, capitalizing on the unique advantages of both architectures as well as the complementary information in vision-language modalities. Further enriching our framework, we propose the Multi-Axis Consistency framework for generating robust pseudo labels, thereby enhancing the semi-supervised learning process. Our extensive experiments on several widely-used datasets unequivocally demonstrate the efficacy of our approach.
翻訳日:2023-09-14 16:12:44 公開日:2023-09-12
# ナノインデンテーションデータの教師なし学習による複合材料の微細構造の詳細推定

Unsupervised Learning of Nanoindentation Data to Infer Microstructural Details of Complex Materials ( http://arxiv.org/abs/2309.06613v1 )

ライセンス: Link先を確認
Chen Zhang, Cl\'emence Bos, Stefan Sandfeld, Ruth Schwaiger(参考訳) 本研究では,Cu-Cr複合材料をナノインデンテーションにより研究した。 試料の広い領域に多数のインデントが配置され、結果として数百のヤング率と様々なインデント深さの硬さの測定結果が得られた。 教師なし学習手法であるガウス混合モデルを用いてデータを解析し、「機械的位相」の数とそれぞれの機械的特性を決定するのに役立った。 さらに、データ量が適切かどうかを判断し、信頼できる予測に必要なデータ量を提案するために、クロスバリデーションアプローチが導入された。

In this study, Cu-Cr composites were studied by nanoindentation. Arrays of indents were placed over large areas of the samples resulting in datasets consisting of several hundred measurements of Young's modulus and hardness at varying indentation depths. The unsupervised learning technique, Gaussian mixture model, was employed to analyze the data, which helped to determine the number of "mechanical phases" and the respective mechanical properties. Additionally, a cross-validation approach was introduced to infer whether the data quantity was adequate and to suggest the amount of data required for reliable predictions -- one of the often encountered but difficult to resolve issues in machine learning of materials science problems.
翻訳日:2023-09-14 16:12:33 公開日:2023-09-12
# Harmonic-NAS:資源制約デバイス上でのハードウェア対応マルチモーダルニューラルネットワーク探索

Harmonic-NAS: Hardware-Aware Multimodal Neural Architecture Search on Resource-constrained Devices ( http://arxiv.org/abs/2309.06612v1 )

ライセンス: Link先を確認
Mohamed Imed Eddine Ghebriout, Halima Bouzidi, Smail Niar, Hamza Ouarnoughi(参考訳) MM-NN(Multimodal Neural Networks)を取り巻く最近の関心の高まりは、様々なデータソースから情報を効率的に処理し統合する能力に起因している。 MM-NNでは、適切な一方向のバックボーンと特定の融合ネットワークを用いて複数のモードから特徴を抽出し、融合する。 これはマルチモーダル情報表現の強化に役立つが、そのようなネットワークの設計は労働集約的である。 ユニモーダルバックボーンのアーキテクチャパラメータをチューニングし、融合点を選択し、融合のための操作を選択する必要がある。 さらに、IoT(Internet of Things)システムでは、推論レイテンシとエネルギー消費が精度に加えて重要な指標となる最先端オプションとして、マルチモダリティAIが登場している。 本稿では,リソース制約のあるデバイスにハードウェアを意識した,単調バックボーンとマルチモーダル融合ネットワークの協調最適化のためのフレームワークであるHarmonic-NASを提案する。 harmonic-nasは、ユニモーダルバックボーンアーキテクチャと融合戦略と演算子のための2層最適化アプローチを含んでいる。 ハードウェア次元を最適化に組み込むことにより、様々なデバイスやマルチモーダルデータセットの評価結果が、10.9%の精度向上、1.1倍のレイテンシ削減、2.14倍のエネルギー効率向上を達成する最先端アプローチよりも高調波nasが優れていることを実証した。

The recent surge of interest surrounding Multimodal Neural Networks (MM-NN) is attributed to their ability to effectively process and integrate information from diverse data sources. In MM-NN, features are extracted and fused from multiple modalities using adequate unimodal backbones and specific fusion networks. Although this helps strengthen the multimodal information representation, designing such networks is labor-intensive. It requires tuning the architectural parameters of the unimodal backbones, choosing the fusing point, and selecting the operations for fusion. Furthermore, multimodality AI is emerging as a cutting-edge option in Internet of Things (IoT) systems where inference latency and energy consumption are critical metrics in addition to accuracy. In this paper, we propose Harmonic-NAS, a framework for the joint optimization of unimodal backbones and multimodal fusion networks with hardware awareness on resource-constrained devices. Harmonic-NAS involves a two-tier optimization approach for the unimodal backbone architectures and fusion strategy and operators. By incorporating the hardware dimension into the optimization, evaluation results on various devices and multimodal datasets have demonstrated the superiority of Harmonic-NAS over state-of-the-art approaches achieving up to 10.9% accuracy improvement, 1.91x latency reduction, and 2.14x energy efficiency gain.
翻訳日:2023-09-14 16:12:24 公開日:2023-09-12
# カイラル軌道電流状態における電流感受性ホール効果

Current-sensitive Hall effect in a chiral-orbital-current state ( http://arxiv.org/abs/2309.06610v1 )

ライセンス: Link先を確認
Yu Zhang, Yifei Ni, Pedro Schlottmann, Rahul Nandkishore, Lance E. DeLong, and Gang Cao(参考訳) 強磁性Mn3Si2Te6 [1]における新しいコロッサル磁気抵抗(CMR)の基盤となるキラル軌道電流(COC)。 Here we report the Hall effect in the COC state which exhibits the following unprecedented features: (1) A sharp, current-sensitive peak in the magnetic field dependence of the Hall resistivity; (2) An unusually large Hall angle reaching up to 0.15 (comparable to the highest values yet reported); and (3) A current-sensitive scaling relation between the Hall conductivity sigma_xy and the longitudinal conductivity sigma_xx, namely, sigma_xy ~ sigma_xx^alpha with alpha ranging between 3 and 5, which is both sensitive to external current and exceptionally large compared to alpha < 2 typical of most solids. これらの異常はCOC状態に特有の巨大な電流感受性ホール効果を示す。 完全発達したCOCにより誘導される磁場と印加磁場が組み合わさって、新しいホール応答を規定する荷電担体に大きく強化された横力を発揮することを論じる。 COCホール効果は、固有のCOCと応用外部電流の相互作用によって生成・制御されるため、基礎的および技術的重要性の新たな輸送現象を引き起こし、説明のために新しい物理を必要とする。

Chiral orbital currents (COC) underpin a novel colossal magnetoresistance (CMR) in ferrimagnetic Mn3Si2Te6 [1]. Here we report the Hall effect in the COC state which exhibits the following unprecedented features: (1) A sharp, current-sensitive peak in the magnetic field dependence of the Hall resistivity; (2) An unusually large Hall angle reaching up to 0.15 (comparable to the highest values yet reported); and (3) A current-sensitive scaling relation between the Hall conductivity sigma_xy and the longitudinal conductivity sigma_xx, namely, sigma_xy ~ sigma_xx^alpha with alpha ranging between 3 and 5, which is both sensitive to external current and exceptionally large compared to alpha < 2 typical of most solids. These anomalies point to a giant, current-sensitive Hall effect that is unique to the COC state. We argue that a magnetic field induced by the fully developed COC combines with the applied magnetic field to exert the greatly enhanced transverse force on charge carriers, which dictates the novel Hall responses. The COC Hall effect is unique, as it is generated and controlled via the interaction between intrinsic COC and applied external currents, which leads to novel transport phenomena of fundamental and technological significance and requires new physics for explanation.
翻訳日:2023-09-14 16:11:58 公開日:2023-09-12
# アルゴリズム的公正文学における人種カテゴリーの実証分析

An Empirical Analysis of Racial Categories in the Algorithmic Fairness Literature ( http://arxiv.org/abs/2309.06607v1 )

ライセンス: Link先を確認
Amina A. Abdu, Irene V. Pasquetto, Abigail Z. Jacobs(参考訳) アルゴリズムフェアネスにおける最近の研究は、差別防止のために人種分類を定義するという課題を強調している。 これらの課題は新しいものではなく、政府統計、政策、および差別防止法における明白な基準を通じて人種を制定する州に以前に及んだ。 国家の人種形成の歴史を振り返って,アルゴリズム的公平性文学において,人種と差別の性質に関する長年の疑問がいかに現れるかを検討する。 2018年から2020年にかけて、FAccTで発表された60の論文の内容分析を通じて、アルゴリズムフェアネスフレームワークにおける人種の概念化と形式化について分析する。 人種の異なる概念は、単一の分析でさえも一貫性のない形で採用されていることに注意する。 また,これらの選択に伴う制度的影響と価値についても考察する。 アルゴリズムフェアネス作業で使用されるカテゴリは、しばしば法的枠組みと一致するが、学術計算機科学の価値観が人種的カテゴリーの構築において等しく重要な役割を果たすことを示す。 最後に、人種の異なる操作の背景にある理由を調べ、それらの選択を明示的に記述する論文がほとんどなく、正当化も少ないことを突き止めた。 我々は、人種カテゴリーの構築は、アルゴリズム的公正性のプロジェクトにおいて、社会的、政治的に重要な結果をもたらす価値あるプロセスであると主張する。 人種の運営に関する正当化の広範な欠如は、これらの政治的決定が知識生産の舞台裏で曖昧にされ続けることを許す制度上の規範を反映している。

Recent work in algorithmic fairness has highlighted the challenge of defining racial categories for the purposes of anti-discrimination. These challenges are not new but have previously fallen to the state, which enacts race through government statistics, policies, and evidentiary standards in anti-discrimination law. Drawing on the history of state race-making, we examine how longstanding questions about the nature of race and discrimination appear within the algorithmic fairness literature. Through a content analysis of 60 papers published at FAccT between 2018 and 2020, we analyze how race is conceptualized and formalized in algorithmic fairness frameworks. We note that differing notions of race are adopted inconsistently, at times even within a single analysis. We also explore the institutional influences and values associated with these choices. While we find that categories used in algorithmic fairness work often echo legal frameworks, we demonstrate that values from academic computer science play an equally important role in the construction of racial categories. Finally, we examine the reasoning behind different operationalizations of race, finding that few papers explicitly describe their choices and even fewer justify them. We argue that the construction of racial categories is a value-laden process with significant social and political consequences for the project of algorithmic fairness. The widespread lack of justification around the operationalization of race reflects institutional norms that allow these political decisions to remain obscured within the backstage of knowledge production.
翻訳日:2023-09-14 16:11:41 公開日:2023-09-12
# 分散機械学習リソースを用いたハイブリッドアルゴリズム選択とハイパーパラメータチューニング:階層的エージェントに基づくアプローチ

Hybrid Algorithm Selection and Hyperparameter Tuning on Distributed Machine Learning Resources: A Hierarchical Agent-based Approach ( http://arxiv.org/abs/2309.06604v1 )

ライセンス: Link先を確認
Ahmad Esmaeili, Eric T. Matson, Julia T. Rayz(参考訳) アルゴリズムの選択とハイパーパラメータチューニングは、学術および応用機械学習において重要なステップである。 一方で、機械学習リソースの数、多様性、分散性が大幅に向上したことで、これらのステップはますます微妙になってきている。 機械学習プラットフォームの設計に適用されたマルチエージェントシステムは、スケーラビリティ、柔軟性、堅牢性など、いくつかの特徴的な特徴をもたらす。 本稿では,分散された機械学習アルゴリズムを選択し,同時にハイパーパラメータを調整するための,完全自動かつ協調的なエージェントベース機構を提案する。 提案手法は,既存のエージェントベース階層型機械学習プラットフォーム上に構築され,上記の機能をサポートするクエリ構造を,特定の学習,選択,チューニング機構に制限されずに拡張する。 提案手法の正確性,資源利用,計算効率を実証するため,理論的評価,形式的検証,解析的研究を行った。 その結果,提案手法は完全に正解であり,利用可能な資源の大きさに対して線形時間と空間複雑性を示すことがわかった。 提案手法がアルゴリズムの選択肢やデータセットをまたいで効果的に適応・実行できることの具体例を提供するため,24のアルゴリズムと9のデータセットからなるシステムを用いて,一連の実験を行った。

Algorithm selection and hyperparameter tuning are critical steps in both academic and applied machine learning. On the other hand, these steps are becoming ever increasingly delicate due to the extensive rise in the number, diversity, and distributedness of machine learning resources. Multi-agent systems, when applied to the design of machine learning platforms, bring about several distinctive characteristics such as scalability, flexibility, and robustness, just to name a few. This paper proposes a fully automatic and collaborative agent-based mechanism for selecting distributedly organized machine learning algorithms and simultaneously tuning their hyperparameters. Our method builds upon an existing agent-based hierarchical machine-learning platform and augments its query structure to support the aforementioned functionalities without being limited to specific learning, selection, and tuning mechanisms. We have conducted theoretical assessments, formal verification, and analytical study to demonstrate the correctness, resource utilization, and computational efficiency of our technique. According to the results, our solution is totally correct and exhibits linear time and space complexity in relation to the size of available resources. To provide concrete examples of how the proposed methodologies can effectively adapt and perform across a range of algorithmic options and datasets, we have also conducted a series of experiments using a system comprised of 24 algorithms and 9 datasets.
翻訳日:2023-09-14 16:11:17 公開日:2023-09-12
# オフライン強化学習における潜時拡散による推論

Reasoning with Latent Diffusion in Offline Reinforcement Learning ( http://arxiv.org/abs/2309.06599v1 )

ライセンス: Link先を確認
Siddarth Venkatraman, Shivesh Khaitan, Ravi Tej Akella, John Dolan, Jeff Schneider, Glen Berseth(参考訳) オフライン強化学習(RL)は、さらなる環境相互作用を必要とせずに、静的データセットから高解像度ポリシーを学習する手段として、約束を守る。 しかし、オフラインRLにおける重要な課題は、データセットがサポートされていないために生じる外挿エラーを回避しつつ、静的データセットから最適な軌道の部分を効果的に縫合することにある。 既存のアプローチでは、(示すように)マルチモーダルデータにチューニングしたり、苦労したりするのが難しい保守的な手法や、報酬条件付けのためにノイズの多いモンテカルロの返却サンプルに依存しています。 本研究では, 潜伏拡散の表現性を利用して, 圧縮潜伏スキルとして, 支持軌道列をモデル化する新しい手法を提案する。 これにより、バッチ制約による外挿エラーを避けながら、Q関数の学習が容易になる。 潜在空間は表現的かつ優雅にマルチモーダルデータを扱う。 学習した時間的制約付き潜在空間は、オフラインのRLタスクに対して、生の状態よりもリッチなタスク固有情報を符号化する。 これにより、クレジット割り当てが改善され、q-learning中の報酬伝達が高速化される。 提案手法は,D4RLベンチマークにおける最先端性能,特に長距離・スパース・リワードタスクにおいて優れた性能を示す。

Offline reinforcement learning (RL) holds promise as a means to learn high-reward policies from a static dataset, without the need for further environment interactions. However, a key challenge in offline RL lies in effectively stitching portions of suboptimal trajectories from the static dataset while avoiding extrapolation errors arising due to a lack of support in the dataset. Existing approaches use conservative methods that are tricky to tune and struggle with multi-modal data (as we show) or rely on noisy Monte Carlo return-to-go samples for reward conditioning. In this work, we propose a novel approach that leverages the expressiveness of latent diffusion to model in-support trajectory sequences as compressed latent skills. This facilitates learning a Q-function while avoiding extrapolation error via batch-constraining. The latent space is also expressive and gracefully copes with multi-modal data. We show that the learned temporally-abstract latent space encodes richer task-specific information for offline RL tasks as compared to raw state-actions. This improves credit assignment and facilitates faster reward propagation during Q-learning. Our method demonstrates state-of-the-art performance on the D4RL benchmarks, particularly excelling in long-horizon, sparse-reward tasks.
翻訳日:2023-09-14 16:10:57 公開日:2023-09-12
# Rank2Tell: 共同重要度ランキングと推論のためのマルチモーダル運転データセット

Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning ( http://arxiv.org/abs/2309.06597v1 )

ライセンス: Link先を確認
Enna Sachdeva, Nakul Agarwal, Suhas Chundi, Sean Roelofs, Jiachen Li, Behzad Dariush, Chiho Choi, Mykel Kochenderfer(参考訳) 商業用自動運転車(AV)や高度運転支援システム(ADAS)の普及は、乗客に対する信頼感と解釈性が重要であると認識される社会の受容に大きく依存している可能性がある。 一般的に、現代の自律システムソフトウェアはブラックボックス人工知能モデルに大きく依存しているため、この課題は難しい。 この目的に向けて,重要度をランク付けし,その重要性の理由を述べるマルチモーダルなego中心のデータセットであるrank2tellを提案する。 クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。 データセットの濃密なアノテーションとユニークな属性は、視覚的なシーン理解と関連する分野に取り組む研究者にとって貴重なリソースとなる。 さらに,共同重要度ランキングと自然言語キャプション生成のための共同モデルを導入し,データセットをベンチマークし,定量的評価により性能を示す。

The widespread adoption of commercial autonomous vehicles (AVs) and advanced driver assistance systems (ADAS) may largely depend on their acceptance by society, for which their perceived trustworthiness and interpretability to riders are crucial. In general, this task is challenging because modern autonomous systems software relies heavily on black-box artificial intelligence models. Towards this goal, this paper introduces a novel dataset, Rank2Tell, a multi-modal ego-centric dataset for Ranking the importance level and Telling the reason for the importance. Using various close and open-ended visual question answering, the dataset provides dense annotations of various semantic, spatial, temporal, and relational attributes of various important objects in complex traffic scenarios. The dense annotations and unique attributes of the dataset make it a valuable resource for researchers working on visual scene understanding and related fields. Further, we introduce a joint model for joint importance level ranking and natural language captions generation to benchmark our dataset and demonstrate performance with quantitative evaluations.
翻訳日:2023-09-14 16:10:37 公開日:2023-09-12
# 生成型大規模言語モデルは数十億のパラメータを必要とするか?

Do Generative Large Language Models need billions of parameters? ( http://arxiv.org/abs/2309.06589v1 )

ライセンス: Link先を確認
Sia Gholami, Marwan Omar(参考訳) 本稿では,効率的な大規模言語モデル(LLM)の開発のための新しいシステムと方法論を提案する。 これらのAIシステムの効率を最大化することを目的として、モデルサイズ、パフォーマンス、計算リソース間のトレードオフを探究する。 この研究は、モデルの異なる部分でパラメータを共有することを可能にする新しい方法を探求し、必要なユニークなパラメータの総数を減らす。 このアプローチは、複雑な言語構造を学習し表現する能力を犠牲にすることなく、モデルをコンパクトに保つ。 この研究は、より効率的で効果的なLLMを作成するための貴重な洞察とツールを提供し、AI言語モデリングのより持続的でアクセスしやすい未来に寄与する。

This paper presents novel systems and methodologies for the development of efficient large language models (LLMs). It explores the trade-offs between model size, performance, and computational resources, with the aim of maximizing the efficiency of these AI systems. The research explores novel methods that allow different parts of the model to share parameters, reducing the total number of unique parameters required. This approach ensures that the model remains compact without sacrificing its ability to learn and represent complex language structures. This study provides valuable insights and tools for creating more efficient and effective LLMs, contributing to a more sustainable and accessible future for AI language modeling.
翻訳日:2023-09-14 16:10:16 公開日:2023-09-12
# LQRにおける勾配型MAMLの収束性

Convergence of Gradient-based MAML in LQR ( http://arxiv.org/abs/2309.06588v1 )

ライセンス: Link先を確認
Negin Musavi and Geir E. Dullerud(参考訳) 本研究の目的は,線形系2次最適制御(lqr)に適用されるモデル非依存メタラーニング(maml)の局所収束特性を検討することである。 MAMLとそのバリエーションは、回帰、分類、強化学習といった分野における過去の学習知識を活用することで、新しいタスクに迅速に適応するための一般的な技術となっている。 しかし、その理論的保証は非凸性と構造のため未知のままであり、動的システム設定における安定性の確保がさらに困難である。 本研究は, 動的システムの安定性を維持しつつ, 局所収束保証を提供するLQR設定におけるMAMLの探索に焦点を当てた。 また,LQRタスクにおけるMAMLの収束特性を示すため,単純な数値計算結果も提示する。

The main objective of this research paper is to investigate the local convergence characteristics of Model-agnostic Meta-learning (MAML) when applied to linear system quadratic optimal control (LQR). MAML and its variations have become popular techniques for quickly adapting to new tasks by leveraging previous learning knowledge in areas like regression, classification, and reinforcement learning. However, its theoretical guarantees remain unknown due to non-convexity and its structure, making it even more challenging to ensure stability in the dynamic system setting. This study focuses on exploring MAML in the LQR setting, providing its local convergence guarantees while maintaining the stability of the dynamical system. The paper also presents simple numerical results to demonstrate the convergence properties of MAML in LQR tasks.
翻訳日:2023-09-14 16:10:04 公開日:2023-09-12
# adapt and diffuse: 潜在拡散モデルによるサンプル適応型再構成

Adapt and Diffuse: Sample-adaptive Reconstruction via Latent Diffusion Models ( http://arxiv.org/abs/2309.06642v1 )

ライセンス: Link先を確認
Zalan Fabian, Berk Tinaz, Mahdi Soltanolkotabi(参考訳) 逆問題は、ノイズや(非線形でない)観測からクリーンな信号を回復することが目的である複数のアプリケーションで発生する。 再構成問題の難しさは, 基底真理信号の構造, 劣化の深刻度, 復元モデルの暗黙バイアス, 上記の因子間の複雑な相互作用など, 様々な要因に依存する。 その結果, 復元作業の難易度において, サンプル・バイ・サンプルの自然な変動が生じ, 現代の技術では見落とされがちである。 近年,拡散型逆解法が様々な再構成課題において新たな最先端技術を確立している。 しかし、それらは計算的に禁止されるという欠点がある。 本稿では, 既存の解法では, 計算能力が再現作業の難易度に適応する能力が欠如しているため, 長時間の推測時間, 性能の低下, 資源割り当ての無駄が生じる。 自動符号化器の潜時空間における雑音・劣化信号の劣化重大度を推定するために,重大度符号化と呼ばれる新しい手法を提案する。 推定重大度が真の汚損レベルと強く相関していることを示し,サンプル・バイ・サンプルに基づく復元問題の難しさを示唆する有用なヒントを与える。 さらに,予測した劣化性を利用して逆拡散サンプリング軌跡を微調整し,サンプル適応推定時間を実現する潜在拡散モデルに基づく再構成法を提案する。 我々は遅延拡散後サンプリングを用いて観測値との整合性を維持する。 線形と非線形の逆問題の両方について実験を行い, 計算効率を大幅に向上させながら, 最先端の拡散ベース技術に匹敵する性能を実現することを実証する。

Inverse problems arise in a multitude of applications, where the goal is to recover a clean signal from noisy and possibly (non)linear observations. The difficulty of a reconstruction problem depends on multiple factors, such as the structure of the ground truth signal, the severity of the degradation, the implicit bias of the reconstruction model and the complex interactions between the above factors. This results in natural sample-by-sample variation in the difficulty of a reconstruction task, which is often overlooked by contemporary techniques. Recently, diffusion-based inverse problem solvers have established new state-of-the-art in various reconstruction tasks. However, they have the drawback of being computationally prohibitive. Our key observation in this paper is that most existing solvers lack the ability to adapt their compute power to the difficulty of the reconstruction task, resulting in long inference times, subpar performance and wasteful resource allocation. We propose a novel method that we call severity encoding, to estimate the degradation severity of noisy, degraded signals in the latent space of an autoencoder. We show that the estimated severity has strong correlation with the true corruption level and can give useful hints at the difficulty of reconstruction problems on a sample-by-sample basis. Furthermore, we propose a reconstruction method based on latent diffusion models that leverages the predicted degradation severities to fine-tune the reverse diffusion sampling trajectory and thus achieve sample-adaptive inference times. We utilize latent diffusion posterior sampling to maintain data consistency with observations. We perform experiments on both linear and nonlinear inverse problems and demonstrate that our technique achieves performance comparable to state-of-the-art diffusion-based techniques, with significant improvements in computational efficiency.
翻訳日:2023-09-14 16:02:28 公開日:2023-09-12
# 量子データセンター:展望

Quantum Data Center: Perspectives ( http://arxiv.org/abs/2309.06641v1 )

ライセンス: Link先を確認
Junyu Liu, Liang Jiang(参考訳) データセンターの量子バージョンは、量子時代において重要かもしれない。 本稿では、量子ランダムアクセスメモリ(QRAM)と量子ネットワークを組み合わせることに焦点を当てた、既存の古典的データセンターの量子バージョンである量子データセンター(QDC)を紹介する。 我々は、QDCが効率、セキュリティ、精度の点で顧客に大きなメリットをもたらし、量子コンピューティング、通信、センシングに役立ちます。 我々は,ハードウェア実現と応用可能性を通じて,この新たな研究方向に沿って,潜在的な科学的・ビジネス的機会について検討する。 我々は、ビジネスや科学、特に機械学習やビッグデータ産業におけるqdcの影響の可能性を示す。

A quantum version of data centers might be significant in the quantum era. In this paper, we introduce Quantum Data Center (QDC), a quantum version of existing classical data centers, with a specific emphasis on combining Quantum Random Access Memory (QRAM) and quantum networks. We argue that QDC will provide significant benefits to customers in terms of efficiency, security, and precision, and will be helpful for quantum computing, communication, and sensing. We investigate potential scientific and business opportunities along this novel research direction through hardware realization and possible specific applications. We show the possible impacts of QDCs in business and science, especially the machine learning and big data industries.
翻訳日:2023-09-14 16:01:58 公開日:2023-09-12
# g$-mapper:マッパー建設でカバーを学ぶ

$G$-Mapper: Learning a Cover in the Mapper Construction ( http://arxiv.org/abs/2309.06634v1 )

ライセンス: Link先を確認
Enrique Alvarado, Robin Belton, Emily Fischer, Kang-Ju Lee, Sourabh Palande, Sarah Percival, Emilie Purvine(参考訳) Mapperアルゴリズムは、与えられたデータセットの構造を反映したグラフを出力するトポロジカルデータ解析(TDA)の可視化技術である。 マッパーアルゴリズムは、"nice"マッパーグラフを生成するためにいくつかのパラメータをチューニングする必要がある。 本稿はカバーパラメータの選択に焦点をあてる。 本稿では,マッパーグラフの被覆を,統計的正規性テストに従って繰り返し分割することにより最適化するアルゴリズムを提案する。 このアルゴリズムは,anderson-darlingテストを繰り返し実施することにより,k$-meansで最適なクラスタ数を探索する,$g$-meansクラスタリングに基づいている。 分割手順では,与えられたデータの分布に基づいてカバーを慎重に選択するためにガウス混合モデルを用いる。 合成および実世界のデータセットに対する実験により、我々のアルゴリズムがカバーを生成し、Mapperグラフがデータセットの本質を保持することを示す。

The Mapper algorithm is a visualization technique in topological data analysis (TDA) that outputs a graph reflecting the structure of a given dataset. The Mapper algorithm requires tuning several parameters in order to generate a "nice" Mapper graph. The paper focuses on selecting the cover parameter. We present an algorithm that optimizes the cover of a Mapper graph by splitting a cover repeatedly according to a statistical test for normality. Our algorithm is based on $G$-means clustering which searches for the optimal number of clusters in $k$-means by conducting iteratively the Anderson-Darling test. Our splitting procedure employs a Gaussian mixture model in order to choose carefully the cover based on the distribution of a given data. Experiments for synthetic and real-world datasets demonstrate that our algorithm generates covers so that the Mapper graphs retain the essence of the datasets.
翻訳日:2023-09-14 16:01:48 公開日:2023-09-12
# 効率的な抽象化のための誘導バイアスとしてのリレーショナルボトルネック

The Relational Bottleneck as an Inductive Bias for Efficient Abstraction ( http://arxiv.org/abs/2309.06629v1 )

ライセンス: Link先を確認
Taylor W. Webb, Steven M. Frankland, Awni Altabaa, Kamesh Krishnamurthy, Declan Campbell, Jacob Russin, Randall O'Reilly, John Lafferty, Jonathan D. Cohen(参考訳) 認知科学の中心的な課題は、抽象概念が限られた経験からどのように獲得されるかを説明することである。 この取り組みは、経験主義的アプローチとナティビズム的アプローチの2分法という観点でしばしば構成されており、最近ではディープニューラルネットワークとシンボリック認知モデルに関する議論で具現化されている。 ここでは、リレーショナルボトルネックと呼ばれる帰納的バイアスを利用して、これらのアプローチの新たな和解を示唆する最近の研究のラインを強調します。 我々は、この手法を用いて抽象概念をデータ効率で誘導するモデル群をレビューし、人間の心と脳における抽象概念の獲得の候補モデルとしての可能性を強調した。

A central challenge for cognitive science is to explain how abstract concepts are acquired from limited experience. This effort has often been framed in terms of a dichotomy between empiricist and nativist approaches, most recently embodied by debates concerning deep neural networks and symbolic cognitive models. Here, we highlight a recently emerging line of work that suggests a novel reconciliation of these approaches, by exploiting an inductive bias that we term the relational bottleneck. We review a family of models that employ this approach to induce abstractions in a data-efficient manner, emphasizing their potential as candidate models for the acquisition of abstract concepts in the human mind and brain.
翻訳日:2023-09-14 16:01:32 公開日:2023-09-12
# 適応学習のための高速ニューラルネットワークアンサンブルの認識モデル不確かさ

Epistemic Modeling Uncertainty of Rapid Neural Network Ensembles for Adaptive Learning ( http://arxiv.org/abs/2309.06628v1 )

ライセンス: Link先を確認
Atticus Beachy (1), Harok Bae (1), Jose Camberos (2), Ramana Grandhi (2) ((1) Wright State University, Dayton, OH, USA (2) Air Force Institute of Technology, Wright-Patterson AFB, OH, USA)(参考訳) 物理インフォームドニューラルネットワークの一種であるエミュレータ組込みニューラルネットワークは、航空宇宙工学システムの効率的な設計探索にマルチフィデリティデータソースを利用する。 ニューラルネットワークモデルの複数の実現は、異なるランダム初期化で訓練される。 モデル実現のアンサンブルは、トレーニングサンプルの欠如に起因するてんかんのモデリングの不確実性を評価するために用いられる。 この不確実性推定は、航空宇宙システム設計における目標指向適応学習の成功にとって重要な情報である。 しかしながら、アンサンブルモデルの訓練コストはしばしば禁止され、特に適応学習中にモデルが並列に訓練されない場合、計算上の課題となる。 本研究では,高速ニューラルネットワークのパラダイムを用いて,新しいタイプのエミュレータ組み込みニューラルネットワークを提案する。 勾配に基づくバックプロパゲーションを用いてネットワーク層の重みとバイアスを最適化する従来のニューラルネットワークトレーニングとは異なり、ラピッドニューラルネットワークトレーニングは線形回帰手法を適用して最終層接続重みのみを調整する。 提案するエミュレータ組込みニューラルネットワークは,予測精度を損なうことなく,ほぼ瞬時にトレーニングされることが判明した。 提案手法は, 航空宇宙飛行パラメータによる汎用極超音速機の研究と同様に, 複数の解析例で実証された。

Emulator embedded neural networks, which are a type of physics informed neural network, leverage multi-fidelity data sources for efficient design exploration of aerospace engineering systems. Multiple realizations of the neural network models are trained with different random initializations. The ensemble of model realizations is used to assess epistemic modeling uncertainty caused due to lack of training samples. This uncertainty estimation is crucial information for successful goal-oriented adaptive learning in an aerospace system design exploration. However, the costs of training the ensemble models often become prohibitive and pose a computational challenge, especially when the models are not trained in parallel during adaptive learning. In this work, a new type of emulator embedded neural network is presented using the rapid neural network paradigm. Unlike the conventional neural network training that optimizes the weights and biases of all the network layers by using gradient-based backpropagation, rapid neural network training adjusts only the last layer connection weights by applying a linear regression technique. It is found that the proposed emulator embedded neural network trains near-instantaneously, typically without loss of prediction accuracy. The proposed method is demonstrated on multiple analytical examples, as well as an aerospace flight parameter study of a generic hypersonic vehicle.
翻訳日:2023-09-14 16:01:17 公開日:2023-09-12
# 多感性属性の連続的公正なメカニズム

A Sequentially Fair Mechanism for Multiple Sensitive Attributes ( http://arxiv.org/abs/2309.06627v1 )

ライセンス: Link先を確認
Fran\c{c}ois Hu and Philipp Ratz and Arthur Charpentier(参考訳) アルゴリズム的公平性の標準的なユースケースでは、敏感な変数と対応するスコアの関係をなくすことが目標である。 近年、科学コミュニティは、この課題を解決するための多くの定義とツールを開発しており、多くの実用的な応用でうまく機能している。 しかし、これらのツールや定義の適用性や効果性は、複数の敏感な属性の場合、それほど単純ではない。 この問題に取り組むため,我々は,機密性の高い機能セットの公平性を段階的に達成するためのシーケンシャルフレームワークを提案する。 マルチマルジナル・ワッサーシュタイン・バリセンタを利用することにより,複数の感度特性を持つ場合に対して,強デモグラフィック・パリティの標準概念を拡張する。 この方法はまた、最適で逐次的に公正な予測器に対する閉形式解を提供し、感度の高い特徴相関を明確に解釈する。 当社のアプローチは、リスクと不公平の間のトレードオフを緩和するフレームワークを包含することで、公平性をシームレスに拡張します。 この拡張により、機密属性のセット内の特定の属性に対する公平性の改善を目標とする優先順位付けが可能となり、ケース固有の適応が可能になる。 導出溶液のデータ駆動推定法を開発し,合成データと実データの両方について総合的な数値実験を行った。 実験の結果は,公平な意思決定を育むための後処理アプローチの実際的効果を決定的に強調する。

In the standard use case of Algorithmic Fairness, the goal is to eliminate the relationship between a sensitive variable and a corresponding score. Throughout recent years, the scientific community has developed a host of definitions and tools to solve this task, which work well in many practical applications. However, the applicability and effectivity of these tools and definitions becomes less straightfoward in the case of multiple sensitive attributes. To tackle this issue, we propose a sequential framework, which allows to progressively achieve fairness across a set of sensitive features. We accomplish this by leveraging multi-marginal Wasserstein barycenters, which extends the standard notion of Strong Demographic Parity to the case with multiple sensitive characteristics. This method also provides a closed-form solution for the optimal, sequentially fair predictor, permitting a clear interpretation of inter-sensitive feature correlations. Our approach seamlessly extends to approximate fairness, enveloping a framework accommodating the trade-off between risk and unfairness. This extension permits a targeted prioritization of fairness improvements for a specific attribute within a set of sensitive attributes, allowing for a case specific adaptation. A data-driven estimation procedure for the derived solution is developed, and comprehensive numerical experiments are conducted on both synthetic and real datasets. Our empirical findings decisively underscore the practical efficacy of our post-processing approach in fostering fair decision-making.
翻訳日:2023-09-14 16:00:57 公開日:2023-09-12
# 半構造化アクティベーションスパーシティによるディープニューラルネットワークの高速化

Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity ( http://arxiv.org/abs/2309.06626v1 )

ライセンス: Link先を確認
Matteo Grimaldi, Darshan C. Ganji, Ivan Lazarevich, Sudhakar Sah(参考訳) 組み込みデバイス上でのディープニューラルネットワーク(DNN)の効率的な処理の要求は、デプロイメントを制限する重要な課題である。 ネットワークの機能マップにおけるスパーシティの利用は、その推論遅延を減らす方法の1つです。 非構造的なスパーシリティは、構造化されたスパーシリティに対して低い精度の劣化をもたらすことが知られているが、前者はレイテンシの利点を得るために広範な推論エンジンの変更を必要とする。 この課題に取り組むため,我々は,半構造化アクティベーションスパーシティをマイナーなランタイム変更によって悪用する解決策を提案する。 推定時に高いスピードアップレベルを達成するために,一般行列乗算(gemm)を計算しながら,アクティベーションの最終位置を意識したスパーストレーニング手順を設計する。 画像分類や物体検出タスクの様々なモデルにおいて,提案手法を広範囲に評価する。 注目すべきは、ImageNetデータセット上のResNet18モデルに対して、最小精度の1.1\%の1.25 \times$のスピード改善が得られることだ。 さらに、最先端の構造化プルーニング手法と組み合わせることで、得られたモデルは、構造化プルーニング技術のみを用いる優れた遅延精度のトレードオフを提供する。

The demand for efficient processing of deep neural networks (DNNs) on embedded devices is a significant challenge limiting their deployment. Exploiting sparsity in the network's feature maps is one of the ways to reduce its inference latency. It is known that unstructured sparsity results in lower accuracy degradation with respect to structured sparsity but the former needs extensive inference engine changes to get latency benefits. To tackle this challenge, we propose a solution to induce semi-structured activation sparsity exploitable through minor runtime modifications. To attain high speedup levels at inference time, we design a sparse training procedure with awareness of the final position of the activations while computing the General Matrix Multiplication (GEMM). We extensively evaluate the proposed solution across various models for image classification and object detection tasks. Remarkably, our approach yields a speed improvement of $1.25 \times$ with a minimal accuracy drop of $1.1\%$ for the ResNet18 model on the ImageNet dataset. Furthermore, when combined with a state-of-the-art structured pruning method, the resulting models provide a good latency-accuracy trade-off, outperforming models that solely employ structured pruning techniques.
翻訳日:2023-09-14 16:00:35 公開日:2023-09-12
# 確率線形系におけるschr\"odinger橋の収縮係数について

On the Contraction Coefficient of the Schr\"odinger Bridge for Stochastic Linear Systems ( http://arxiv.org/abs/2309.06622v1 )

ライセンス: Link先を確認
Alexis M.H. Teter, Yongxin Chen, Abhishek Halder(参考訳) schr\"{o}dinger bridgeは、与えられた初期状態密度を別の状態密度に制御するための確率的最適制御問題である。 schr\"{o}dinger bridge問題を解く一般的な方法は、古典的および線形システム設定の両方において、収縮的不動点再帰(contractive fixed point recursions)である。 これらの再帰は、よく知られたシンクホーン反復の動的バージョンと見なすことができ、穏やかな仮定の下で、線形収束を保証したいわゆるschr\"{o}dingerシステムを解く。 そこで本研究では,各Schr\"{o}dinger系の収束に伴う収縮係数の事前推定について検討する。 我々は、新しい幾何学的および制御論的解釈を提供する。 これらの新たな解釈に基づいて,エンドポイントサポートセットをプリコンディショニングすることにより,線形sbpの最悪の収縮係数の計算精度が向上する可能性を指摘する。

Schr\"{o}dinger bridge is a stochastic optimal control problem to steer a given initial state density to another, subject to controlled diffusion and deadline constraints. A popular method to numerically solve the Schr\"{o}dinger bridge problems, in both classical and in the linear system settings, is via contractive fixed point recursions. These recursions can be seen as dynamic versions of the well-known Sinkhorn iterations, and under mild assumptions, they solve the so-called Schr\"{o}dinger systems with guaranteed linear convergence. In this work, we study a priori estimates for the contraction coefficients associated with the convergence of respective Schr\"{o}dinger systems. We provide new geometric and control-theoretic interpretations for the same. Building on these newfound interpretations, we point out the possibility of improved computation for the worst-case contraction coefficients of linear SBPs by preconditioning the endpoint support sets.
翻訳日:2023-09-14 16:00:15 公開日:2023-09-12
# 視覚観測によるロボットアンロードの強化学習手法

A Reinforcement Learning Approach for Robotic Unloading from Visual Observations ( http://arxiv.org/abs/2309.06621v1 )

ライセンス: Link先を確認
Vittorio Giammarino, Alberto Giammarino, Matthew Pearce(参考訳) 本研究では,RGB-D画像を主入力源として,ロボットが自動で大量の荷物を降ろすという,視覚的観察からのロボットの降ろし問題に焦点を当てる。 教師付きおよび模倣学習はこの種のタスクで良い結果を得たが、ラベル付きデータに大きく依存しており、現実的なシナリオでは入手が困難である。 本研究の目的は,学習プロセス中にラベル付きデータを必要とせずにタスクのアンロードを学習できる,効率的なコントローラフレームワークの開発である。 そこで本研究では,高レベル意思決定モジュールと古典的動作制御を組み合わせた階層型コントローラ構造を提案する。 高レベルモジュールは、Deep Reinforcement Learning (DRL)を用いてトレーニングされ、安全バイアス機構を組み込んで、このタスクに適した報酬関数を設計する。 本実験は,これらの要素が学習性能の向上に重要な役割を果たしていることを示す。 さらに,再現性を確保し,将来の研究のためのベンチマークを確立するため,コードやシミュレーションへの無償アクセスを提供する。

In this work, we focus on a robotic unloading problem from visual observations, where robots are required to autonomously unload stacks of parcels using RGB-D images as their primary input source. While supervised and imitation learning have accomplished good results in these types of tasks, they heavily rely on labeled data, which are challenging to obtain in realistic scenarios. Our study aims to develop a sample efficient controller framework that can learn unloading tasks without the need for labeled data during the learning process. To tackle this challenge, we propose a hierarchical controller structure that combines a high-level decision-making module with classical motion control. The high-level module is trained using Deep Reinforcement Learning (DRL), wherein we incorporate a safety bias mechanism and design a reward function tailored to this task. Our experiments demonstrate that both these elements play a crucial role in achieving improved learning performance. Furthermore, to ensure reproducibility and establish a benchmark for future research, we provide free access to our code and simulation.
翻訳日:2023-09-14 15:59:57 公開日:2023-09-12
# RT-LM:言語モデルのリアルタイム推論のための不確実性を考慮した資源管理

RT-LM: Uncertainty-Aware Resource Management for Real-Time Inference of Language Models ( http://arxiv.org/abs/2309.06619v1 )

ライセンス: Link先を確認
Yufei Li, Zexin Li, Wei Yang, Cong Liu(参考訳) 近年の言語モデル(LM)の進歩は、人間のような応答を生成する能力に大きな注目を集めている。 会話AIのような様々なアプリケーションにとって有望な未来を示す一方で、これらのLMは計算コストの極端さと予測不可能な推論遅延のために、さまざまなデバイスにデプロイする課題に直面している。 このような様々な推論遅延は、言語の性質に固有の不確実性の結果として認識され、特に高トラフィックなワークロードにおいて、計算効率が低下し、lmsの全体的な性能が低下する可能性がある。 残念ながら、これらの不確実性源の帯域幅は広く、遅延の予測とそのような不確実性から生じる影響を複雑にしている。 実時間応答要求システムにおける不確実性の影響を理解し,緩和するために,我々は,これらの不確実性に起因するLMの性能変化を理解し,定量化し,最適化する第一歩を踏み出した。 具体的には,実時間予測のための不確実性を考慮した資源管理エコシステムRT-LMを提案する。 RT-LMは、特定の入力の不確かさが遅延にどのように影響するかを革新的に定量化し、しばしば出力長を増大させる。 これらの知見をエクスプロイトし、実行時に出力長と入力テキストの不確かさを動的に相関させる軽量で効果的な手法を考案する。 この量化をレイテンシーヒューリスティックとして利用し,不確実性情報をシステムレベルのスケジューラに統合し,不確実性を考慮した優先順位付け,動的統合,戦略的cpuオフローディングなど,不確実性が引き起こされる最適化機会を探索する。 2つのハードウェアプラットフォームにおける5つの最先端のlmsにおける定量的実験は、rt-lmが平均応答時間を大幅に削減し、実行時のオーバーヘッドをかなり小さくしながらスループットを向上させることを証明している。

Recent advancements in language models (LMs) have gained substantial attentions on their capability to generate human-like responses. Though exhibiting a promising future for various applications such as conversation AI, these LMs face deployment challenges on various devices due to their extreme computational cost and unpredictable inference latency. Such varied inference latency, identified as a consequence of uncertainty intrinsic to the nature of language, can lead to computational inefficiency and degrade the overall performance of LMs, especially under high-traffic workloads. Unfortunately, the bandwidth of these uncertainty sources is extensive, complicating the prediction of latency and the effects emanating from such uncertainties. To understand and mitigate the impact of uncertainty on real-time response-demanding systems, we take the first step to comprehend, quantify and optimize these uncertainty-induced latency performance variations in LMs. Specifically, we present RT-LM, an uncertainty-aware resource management ecosystem for real-time inference of LMs. RT-LM innovatively quantifies how specific input uncertainties, adversely affect latency, often leading to an increased output length. Exploiting these insights, we devise a lightweight yet effective method to dynamically correlate input text uncertainties with output length at runtime. Utilizing this quantification as a latency heuristic, we integrate the uncertainty information into a system-level scheduler which explores several uncertainty-induced optimization opportunities, including uncertainty-aware prioritization, dynamic consolidation, and strategic CPU offloading. Quantitative experiments across five state-of-the-art LMs on two hardware platforms demonstrates that RT-LM can significantly reduce the average response time and improve throughput while incurring a rather small runtime overhead.
翻訳日:2023-09-14 15:59:39 公開日:2023-09-12
# bregmanグラフニューラルネットワーク

Bregman Graph Neural Network ( http://arxiv.org/abs/2309.06645v1 )

ライセンス: Link先を確認
Jiayu Zhai, Lequan Lin, Dai Shi, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)に関する最近の多くの研究は、滑らかさを仮定した最適化問題として、GNNアーキテクチャの定式化に重点を置いている。 しかし、ノード分類タスクでは、GNNによって誘導される滑らか化効果は、連結ノードの表現と過剰な均質化ラベルを同化する傾向にあり、過度なスムース化や誤分類などの悪影響をもたらす。 本稿では,Bregman 距離の概念に着想を得た GNN のための二段階最適化フレームワークを提案する。 提案したGNN層は,「スキップ接続」を連想させる機構を導入することで,過度にスムースな問題を効果的に軽減できることを示す。 我々は,Bregman-enhanced GNN がホモ親和性グラフとヘテロ親和性グラフの両方において元のグラフよりも優れているという包括的実証研究を通じて理論結果を検証した。 さらに,bregman gnnは層数が高い場合でもより頑健な学習精度が得られることを示し,提案手法の有効性を示唆する。

Numerous recent research on graph neural networks (GNNs) has focused on formulating GNN architectures as an optimization problem with the smoothness assumption. However, in node classification tasks, the smoothing effect induced by GNNs tends to assimilate representations and over-homogenize labels of connected nodes, leading to adverse effects such as over-smoothing and misclassification. In this paper, we propose a novel bilevel optimization framework for GNNs inspired by the notion of Bregman distance. We demonstrate that the GNN layer proposed accordingly can effectively mitigate the over-smoothing issue by introducing a mechanism reminiscent of the "skip connection". We validate our theoretical results through comprehensive empirical studies in which Bregman-enhanced GNNs outperform their original counterparts in both homophilic and heterophilic graphs. Furthermore, our experiments also show that Bregman GNNs can produce more robust learning accuracy even when the number of layers is high, suggesting the effectiveness of the proposed method in alleviating the over-smoothing issue.
翻訳日:2023-09-14 15:50:29 公開日:2023-09-12
# HPCカーネル生成のためのLlama-2とGPT-3 LLMの比較

Comparing Llama-2 and GPT-3 LLMs for HPC kernels generation ( http://arxiv.org/abs/2309.07103v1 )

ライセンス: Link先を確認
Pedro Valero-Lara, Alexis Huante, Mustafa Al Lail, William F. Godoy, Keita Teranishi, Prasanna Balaprakash, Jeffrey S. Vetter(参考訳) C++: OpenMP, OpenMP Offload, OpenACC, CUDA, HIP; Fortran: OpenMP, OpenMP Offload, OpenACC; Python: numpy, Numba, pyCUDA, cuPy; Julia: Threads, CUDA.jl, AMDGPU.jl; Julia: Threads, CUDA.jl, AMDGPU.jl; GPT-3の後継であるOpenAI Codexをベースとして、GitHub Copilot経由で簡単なプロンプトで同様のカーネルを生成するという、これまでの作業に基づいています。 我々の目標は、Llama-2とGPT-3のベースラインの精度を、同様の測定値を用いて比較することである。 Llama-2は、競争力やより優れた精度を示すシンプルなモデルを持っている。 また、生成AIが人間とコンピュータの相互作用を再定義し続けているため、これらの基礎となる大きな言語モデルの違いについても報告する。 全体として、Copilotはより信頼性が高く、より最適化されていないコードを生成する。

We evaluate the use of the open-source Llama-2 model for generating well-known, high-performance computing kernels (e.g., AXPY, GEMV, GEMM) on different parallel programming models and languages (e.g., C++: OpenMP, OpenMP Offload, OpenACC, CUDA, HIP; Fortran: OpenMP, OpenMP Offload, OpenACC; Python: numpy, Numba, pyCUDA, cuPy; and Julia: Threads, CUDA.jl, AMDGPU.jl). We built upon our previous work that is based on the OpenAI Codex, which is a descendant of GPT-3, to generate similar kernels with simple prompts via GitHub Copilot. Our goal is to compare the accuracy of Llama-2 and our original GPT-3 baseline by using a similar metric. Llama-2 has a simplified model that shows competitive or even superior accuracy. We also report on the differences between these foundational large language models as generative AI continues to redefine human-computer interactions. Overall, Copilot generates codes that are more reliable but less optimized, whereas codes generated by Llama-2 are less reliable but more optimized when correct.
翻訳日:2023-09-14 13:20:15 公開日:2023-09-12
# 協調拡散回復様相によるエネルギーモデル学習

Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood ( http://arxiv.org/abs/2309.05153v2 )

ライセンス: Link先を確認
Yaxuan Zhu, Jianwen Xie, Yingnian Wu, Ruiqi Gao(参考訳) 高次元データに対する最大推定値のトレーニングエネルギーベースモデル(EBMs)は、困難かつ時間を要する可能性がある。 その結果、ESMとGANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質の顕著なギャップがある。 拡散回復率(DRL)を最大化してESMを学習する最近の取り組みに触発されたこのギャップを埋めるため,各ESMの初期化モデルと組み合わさったデータセットの騒々しい頂点上で定義された一連のESMから効果的に学習し,サンプルを抽出するための協調拡散回復可能性(CDRL)を提案する。 各ノイズレベルにおいて、初期化子モデルがebmのサンプリング過程を償却することを学習し、2つのモデルを協調訓練枠組み内で共同で推定する。 初期化器からのサンプルは、ebmからいくつかのサンプリングステップで洗練された出発点として機能する。 精製試料では回収可能性の最大化によりEBMを最適化し, 精製試料と初期試料との差から初期化装置を最適化した。 我々は,新しいノイズスケジュールと分散低減手法を開発し,サンプル品質をさらに向上させる。 CIFAR-10 と ImageNet 32x32 の既存 EBM 法と比較して FID のスコアが大幅に向上し,DRL を2倍高速化した。 さらに,本手法を合成生成および画像インペインティングタスクに拡張し,cdrlと条件生成のための分類器フリーガイダンスとの互換性を示し,拡散モデルと同様にサンプル品質とサンプル多様性のトレードオフを実現した。

Training energy-based models (EBMs) with maximum likelihood estimation on high-dimensional data can be both challenging and time-consuming. As a result, there a noticeable gap in sample quality between EBMs and other generative frameworks like GANs and diffusion models. To close this gap, inspired by the recent efforts of learning EBMs by maximimizing diffusion recovery likelihood (DRL), we propose cooperative diffusion recovery likelihood (CDRL), an effective approach to tractably learn and sample from a series of EBMs defined on increasingly noisy versons of a dataset, paired with an initializer model for each EBM. At each noise level, the initializer model learns to amortize the sampling process of the EBM, and the two models are jointly estimated within a cooperative training framework. Samples from the initializer serve as starting points that are refined by a few sampling steps from the EBM. With the refined samples, the EBM is optimized by maximizing recovery likelihood, while the initializer is optimized by learning from the difference between the refined samples and the initial samples. We develop a new noise schedule and a variance reduction technique to further improve the sample quality. Combining these advances, we significantly boost the FID scores compared to existing EBM methods on CIFAR-10 and ImageNet 32x32, with a 2x speedup over DRL. In addition, we extend our method to compositional generation and image inpainting tasks, and showcase the compatibility of CDRL with classifier-free guidance for conditional generation, achieving similar trade-offs between sample quality and sample diversity as in diffusion models.
翻訳日:2023-09-14 11:25:26 公開日:2023-09-12
# 低分解スライスによる超解像表面の再構成

Super-Resolution Surface Reconstruction from Few Low-Resolution Slices ( http://arxiv.org/abs/2309.05071v2 )

ライセンス: Link先を確認
Yiyao Zhang, Ke Chen and Shang-Hua Yang(参考訳) 他の数値シミュレーション(有限要素解析など)でセグメント化された特徴(血管など)がさらに使用される多くのイメージングアプリケーションでは、得られた表面はタスクに適した微細な解像度を持たない。 このような表面の分解能を高めることが重要となる。 本稿では,Euler-Elastica-based regulariserに基づく新しい変分モデルを提案する。 さらに, このモデルの解法として, 投影勾配降下法と乗算器の交互方向法という2つの数値アルゴリズムを提案し, 実装した。 実例(他の変分モデルの出力から2つを含む)を用いた数値実験が有効性を示す。 新しいモデルの利点は、離散幾何学の観点からのガウス曲率と平均曲率の標準偏差による定量的比較によって示される。

In many imaging applications where segmented features (e.g. blood vessels) are further used for other numerical simulations (e.g. finite element analysis), the obtained surfaces do not have fine resolutions suitable for the task. Increasing the resolution of such surfaces becomes crucial. This paper proposes a new variational model for solving this problem, based on an Euler-Elastica-based regulariser. Further, we propose and implement two numerical algorithms for solving the model, a projected gradient descent method and the alternating direction method of multipliers. Numerical experiments using real-life examples (including two from outputs of another variational model) have been illustrated for effectiveness. The advantages of the new model are shown through quantitative comparisons by the standard deviation of Gaussian curvatures and mean curvatures from the viewpoint of discrete geometry.
翻訳日:2023-09-14 11:24:37 公開日:2023-09-12
# 高密度QAOA回路の高速シミュレーション

Fast Simulation of High-Depth QAOA Circuits ( http://arxiv.org/abs/2309.04841v2 )

ライセンス: Link先を確認
Danylo Lykov, Ruslan Shaydulin, Yue Sun, Yuri Alexeev, Marco Pistoia(参考訳) 多くの量子ビットを持つ高忠実度量子コンピュータが広く利用可能になるまで、古典的なシミュレーションはアルゴリズムの設計、チューニング、検証に不可欠である。 本稿では,量子近似最適化アルゴリズム(QAOA)のシミュレータを提案する。 このシミュレータはQAOAパラメータ最適化の計算コストを削減し,CPUとGPUの両方の実行をサポートすることを目標に設計されている。 我々の中心的な観察は、QAOA状態のシミュレーションと最適化すべきQAOA目標の計算の両方の計算コストを、この問題を符号化する対角ハミルトニアンをプリ計算することで削減できるということである。 cuQuantumをベースとした最先端のGPU量子回路シミュレータと比較して,典型的なQAOAパラメータ最適化の時間を,$n = 26$ qubitsで11倍削減する。 私たちのシミュレータはgithubで入手できる。 https://github.com/jpmorganchase/qokit

Until high-fidelity quantum computers with a large number of qubits become widely available, classical simulation remains a vital tool for algorithm design, tuning, and validation. We present a simulator for the Quantum Approximate Optimization Algorithm (QAOA). Our simulator is designed with the goal of reducing the computational cost of QAOA parameter optimization and supports both CPU and GPU execution. Our central observation is that the computational cost of both simulating the QAOA state and computing the QAOA objective to be optimized can be reduced by precomputing the diagonal Hamiltonian encoding the problem. We reduce the time for a typical QAOA parameter optimization by eleven times for $n = 26$ qubits compared to a state-of-the-art GPU quantum circuit simulator based on cuQuantum. Our simulator is available on GitHub: https://github.com/jpmorganchase/QOKit
翻訳日:2023-09-14 11:24:23 公開日:2023-09-12
# メモリインジェクション:トランスフォーマティブ言語モデルにおける推論中のマルチホップ推論障害の修正

Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models ( http://arxiv.org/abs/2309.05605v2 )

ライセンス: Link先を確認
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Daniel Grzenda, Nathaniel Hudson, Andr\'e Bauer, Kyle Chard, Ian Foster(参考訳) マルチホップ推論に答えるには、様々な情報源からの情報を検索し、合成する必要がある。 大規模言語モデル(LLM)はそのような推論を一貫して行うのに苦労する。 本稿では,LLMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。 まず,シングルホッププロンプトとマルチホッププロンプトに応答して,GPT-2モデルの層間アクティベーションを分析する。 次に,提案するメカニズムにより,ユーザが推論中に重要なLCM箇所で,関連するプロンプト固有情報を「記憶」として注入する機構を提案する。 これにより、LLMは推論中に追加の関連情報を組み込めるようになり、マルチホッププロンプトの完成度が向上する。 キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。

Answering multi-hop reasoning questions requires retrieving and synthesizing information from diverse sources. Large Language Models (LLMs) struggle to perform such reasoning consistently. Here we propose an approach to pinpoint and rectify multi-hop reasoning failures through targeted memory injections on LLM attention heads. First, we analyze the per-layer activations of GPT-2 models in response to single and multi-hop prompts. We then propose a mechanism that allows users to inject pertinent prompt-specific information, which we refer to as "memories," at critical LLM locations during inference. By thus enabling the LLM to incorporate additional relevant information during inference, we enhance the quality of multi-hop prompt completions. We show empirically that a simple, efficient, and targeted memory injection into a key attention layer can often increase the probability of the desired next token in multi-hop tasks, by up to 424%.
翻訳日:2023-09-14 11:15:58 公開日:2023-09-12
# マルコフ連鎖と混合時間の経験的およびインスタンス依存的推定

Empirical and Instance-Dependent Estimation of Markov Chain and Mixing Time ( http://arxiv.org/abs/1912.06845v4 )

ライセンス: Link先を確認
Geoffrey Wolfer(参考訳) 本稿では,マルコフ連鎖の混合時間を1つの観測軌道から推定する問題に対処する。 スペクトルギャップを推定するためにヒルベルト空間法を用いたほとんどの先行研究とは異なり、全変動に関する縮小に基づくアプローチを選択した。 具体的には, ドブルシンから着想を得たWolfer [2020] で導入された収縮係数を推定する。 この量はスペクトルギャップとは異なり、強い普遍定数までの混合時間を制御し、可逆鎖に適用できるままである。 我々は、この収縮係数の周りの既存の完全データ依存の信頼区間を改善し、スペクトルよりも計算が容易で薄い。 さらに,遷移行列に関する追加情報を活用することで,最悪のシナリオを超えた新たな解析手法を提案する。 これにより、誘導された一様ノルムおよびその混合特性に関して行列を推定するためのインスタンス依存率を導出することができる。

We address the problem of estimating the mixing time of a Markov chain from a single trajectory of observations. Unlike most previous works which employed Hilbert space methods to estimate spectral gaps, we opt for an approach based on contraction with respect to total variation. Specifically, we estimate the contraction coefficient introduced in Wolfer [2020], inspired from Dobrushin's. This quantity, unlike the spectral gap, controls the mixing time up to strong universal constants and remains applicable to non-reversible chains. We improve existing fully data-dependent confidence intervals around this contraction coefficient, which are both easier to compute and thinner than spectral counterparts. Furthermore, we introduce a novel analysis beyond the worst-case scenario by leveraging additional information about the transition matrix. This allows us to derive instance-dependent rates for estimating the matrix with respect to the induced uniform norm, and some of its mixing properties.
翻訳日:2023-09-13 18:35:50 公開日:2023-09-12
# マルチプレイヤーバンド学習 : 競争から協力へ

Multiplayer Bandit Learning, from Competition to Cooperation ( http://arxiv.org/abs/1908.01135v3 )

ライセンス: Link先を確認
Simina Br\^anzei and Yuval Peres(参考訳) 確率的多腕バンディットモデルは探索と搾取の間のトレードオフを捉えている。 このトレードオフに対する競争と協力の効果について検討する。 k$の腕とアリスとボブの2人のプレーヤーがいるとしよう。 各ラウンドにおいて、各プレイヤーは腕を引っ張り、その結果得られる報酬を受け取り、他のプレイヤーの選択を観察するが、報酬は与えない。 Aliceのユーティリティは$\Gamma_A + \lambda \Gamma_B$(Bobも同様)であり、$\Gamma_A$はAliceの総報酬であり、$\lambda \in [-1, 1]$は協力パラメータである。 プレイヤーは$\lambda = -1$でゼロサムゲームに出場し、$\lambda = 1$で完全に協力し、$\lambda = 0$では中立である。 このモデルは、通常プレイヤーが互いの報酬を観察する戦略実験に関する経済学文献と関連している。 割引係数 $\beta$ で、Gittins インデックスはリスクのあるアームと予測可能なアーム、成功確率 $p$ の比較に1人のプレイヤー問題を還元する。 プレイヤーが腕の間に無関心な$p$の値は、Gittins index $g = g(\mu,\beta) > m$である。 競技者が単一のプレイヤーより少ない探索を行うことを示す:$p^* \in (m, g)$なので、すべての$p > p^*$に対して、プレイヤーは予測可能なアームに留まる。 しかし、プレイヤーは目立たない:彼らはまだ約$p > m$を求めて探索している。 一方、協力的なプレイヤーは1人以上のプレイヤーを探索する。 また、中立プレイヤーは互いに学習し、単独でプレイするよりも厳密に高い報酬を受け取り、全ての$p\in (p^*, g)$に対して、$p^*$が競合するケースのしきい値であることを示す。 最後に、競争相手と中立相手のプレイヤーは、nash平衡ごとに同じ腕に落ち着くが、これは協力するプレイヤーには失敗する可能性がある。

The stochastic multi-armed bandit model captures the tradeoff between exploration and exploitation. We study the effects of competition and cooperation on this tradeoff. Suppose there are $k$ arms and two players, Alice and Bob. In every round, each player pulls an arm, receives the resulting reward, and observes the choice of the other player but not their reward. Alice's utility is $\Gamma_A + \lambda \Gamma_B$ (and similarly for Bob), where $\Gamma_A$ is Alice's total reward and $\lambda \in [-1, 1]$ is a cooperation parameter. At $\lambda = -1$ the players are competing in a zero-sum game, at $\lambda = 1$, they are fully cooperating, and at $\lambda = 0$, they are neutral: each player's utility is their own reward. The model is related to the economics literature on strategic experimentation, where usually players observe each other's rewards. With discount factor $\beta$, the Gittins index reduces the one-player problem to the comparison between a risky arm, with a prior $\mu$, and a predictable arm, with success probability $p$. The value of $p$ where the player is indifferent between the arms is the Gittins index $g = g(\mu,\beta) > m$, where $m$ is the mean of the risky arm. We show that competing players explore less than a single player: there is $p^* \in (m, g)$ so that for all $p > p^*$, the players stay at the predictable arm. However, the players are not myopic: they still explore for some $p > m$. On the other hand, cooperating players explore more than a single player. We also show that neutral players learn from each other, receiving strictly higher total rewards than they would playing alone, for all $ p\in (p^*, g)$, where $p^*$ is the threshold from the competing case. Finally, we show that competing and neutral players eventually settle on the same arm in every Nash equilibrium, while this can fail for cooperating players.
翻訳日:2023-09-13 18:35:37 公開日:2023-09-12
# マニフォールドフィルタとマニフォールドニューラルネットワークの変形に対する安定性

Stability to Deformations of Manifold Filters and Manifold Neural Networks ( http://arxiv.org/abs/2106.03725v4 )

ライセンス: Link先を確認
Zhiyang Wang, Luana Ruiz, Alejandro Ribeiro(参考訳) 本稿では、多様体(M)畳み込みフィルタとニューラルネットワーク(NN)を定義し、研究する。 ラプラス・ベルトラミ作用素指数(英語版)の項で定義され、多様体がサンプリングされたときの離散近似として \emph{graph} (G) フィルタとニューラルネットワーク(NN) が復元される。 これらのフィルタは、グラフフィルタのスペクトル表現と標準畳み込みフィルタの連続時間における周波数応答の両方の一般化であるスペクトル表現を許容する。 この論文の主な技術的貢献は、多様体の滑らかな変形に対する多様体フィルタとMNNの安定性を分析することである。 この解析はグラフフィルタとgnnの既知の安定性特性を一般化し、標準畳み込みフィルタとニューラルネットワークの既知の安定性特性を連続時間に一般化する。 この分析から得られた最も重要な観察は、グラフフィルタや標準連続時間フィルタと同じ多様体フィルタは、変形の存在下で高周波成分の識別が困難であるということである。 これは、多様体、グラフ、または連続時間ニューラルネットワークの使用によって改善できる課題である。 この分析の最も重要な実践的成果は、大規模グラフにおけるグラフフィルタとGNNの挙動に光を当てることである。

The paper defines and studies manifold (M) convolutional filters and neural networks (NNs). \emph{Manifold} filters and MNNs are defined in terms of the Laplace-Beltrami operator exponential and are such that \emph{graph} (G) filters and neural networks (NNs) are recovered as discrete approximations when the manifold is sampled. These filters admit a spectral representation which is a generalization of both the spectral representation of graph filters and the frequency response of standard convolutional filters in continuous time. The main technical contribution of the paper is to analyze the stability of manifold filters and MNNs to smooth deformations of the manifold. This analysis generalizes known stability properties of graph filters and GNNs and it is also a generalization of known stability properties of standard convolutional filters and neural networks in continuous time. The most important observation that follows from this analysis is that manifold filters, same as graph filters and standard continuous time filters, have difficulty discriminating high frequency components in the presence of deformations. This is a challenge that can be ameliorated with the use of manifold, graph, or continuous time neural networks. The most important practical consequence of this analysis is to shed light on the behavior of graph filters and GNNs in large scale graphs.
翻訳日:2023-09-13 18:32:24 公開日:2023-09-12
# Graph Barlow Twins: グラフのための自己教師型表現学習フレームワーク

Graph Barlow Twins: A self-supervised representation learning framework for graphs ( http://arxiv.org/abs/2106.02466v3 )

ライセンス: Link先を確認
Piotr Bielak, Tomasz Kajdanowicz, Nitesh V. Chawla(参考訳) 自己教師型学習(SSL)パラダイムは,高価なデータラベリングの必要性を排除すべく,重要な調査領域である。 コンピュータビジョンや自然言語処理においてSSLメソッドが大きな成功を収めたにもかかわらず、そのほとんどは負のサンプルを必要とする対照的な学習目標を採用しており、定義は困難である。 これはグラフの場合さらに難しくなり、堅牢な表現を達成するためのボトルネックとなる。 このような制限を克服するために、負のサンプルの代わりに相互相関に基づく損失関数を利用するグラフバーロウツインズ(Graph Barlow Twins)という自己教師付きグラフ表現学習のためのフレームワークを提案する。 さらに、非対称ニューラルネットワークアーキテクチャに依存しておらず、最先端の自己教師付きグラフ表現学習法bgrlとは対照的である。 提案手法は,高パラメータの削減と計算時間の短縮(BGRLの約30倍)を必要としながら,最高の自己監督手法や完全教師付き手法として競合する結果が得られることを示す。

The self-supervised learning (SSL) paradigm is an essential exploration area, which tries to eliminate the need for expensive data labeling. Despite the great success of SSL methods in computer vision and natural language processing, most of them employ contrastive learning objectives that require negative samples, which are hard to define. This becomes even more challenging in the case of graphs and is a bottleneck for achieving robust representations. To overcome such limitations, we propose a framework for self-supervised graph representation learning - Graph Barlow Twins, which utilizes a cross-correlation-based loss function instead of negative samples. Moreover, it does not rely on non-symmetric neural network architectures - in contrast to state-of-the-art self-supervised graph representation learning method BGRL. We show that our method achieves as competitive results as the best self-supervised methods and fully supervised ones while requiring fewer hyperparameters and substantially shorter computation time (ca. 30 times faster than BGRL).
翻訳日:2023-09-13 18:32:02 公開日:2023-09-12
# 医用画像分類のためのプライバシー保護領域一般化

Privacy-Preserving Constrained Domain Generalization for Medical Image Classification ( http://arxiv.org/abs/2105.08511v2 )

ライセンス: Link先を確認
Chris Xing Tian, Haoliang Li, Yufei Wang, Shiqi Wang(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像応用において前例のない成功を収めている。 しかし、データセットの可用性の制限や患者のプライバシ保護の厳格な法的・倫理的要件により、大規模なトレーニングデータを用いたDNNによる医用画像分類の幅広い適用が妨げられている。 例えば、あるドメイン(例えば、ある病院からのデータのみ)からDNNを訓練する場合、他のドメイン(例えば、別の病院からのデータ)への一般化能力はほとんど欠落している。 本稿では,プライバシ保護制約付きドメイン一般化手法を開発し,プライバシ保護条件下での一般化能力の向上を目指す。 特に,集中型サーバ側における情報集約プロセスを改善することを提案し,トレーニングされたモデルが"見えない"が関連する医療画像に対してより一般化できることを期待する。 提案手法の理論的および有効性は,提案手法を分布距離測定として広く採用されている最大平均離散性(MMD)と結合することによって説明できる。 2つの難解な医用画像分類タスクの実験結果は,最先端のフェデレーション学習法と比較して,クロスドメイン一般化能力が向上することを示した。

Deep neural networks (DNN) have demonstrated unprecedented success for medical imaging applications. However, due to the issue of limited dataset availability and the strict legal and ethical requirements for patient privacy protection, the broad applications of medical imaging classification driven by DNN with large-scale training data have been largely hindered. For example, when training the DNN from one domain (e.g., with data only from one hospital), the generalization capability to another domain (e.g., data from another hospital) could be largely lacking. In this paper, we aim to tackle this problem by developing the privacy-preserving constrained domain generalization method, aiming to improve the generalization capability under the privacy-preserving condition. In particular, We propose to improve the information aggregation process on the centralized server-side with a novel gradient alignment loss, expecting that the trained model can be better generalized to the "unseen" but related medical images. The rationale and effectiveness of our proposed method can be explained by connecting our proposed method with the Maximum Mean Discrepancy (MMD) which has been widely adopted as the distribution distance measurement. Experimental results on two challenging medical imaging classification tasks indicate that our method can achieve better cross-domain generalization capability compared to the state-of-the-art federated learning methods.
翻訳日:2023-09-13 18:31:45 公開日:2023-09-12
# 部分観測可能な線形確率システムの構成による到達回避制御

Correct-by-construction reach-avoid control of partially observable linear stochastic systems ( http://arxiv.org/abs/2103.02398v4 )

ライセンス: Link先を確認
Thom Badings, Hasan A. Poonawala, Marielle Stoelinga, Nils Jansen(参考訳) ガウス過程と測定ノイズを有する離散時間線形時間不変(lti)系の到達回避制御のためのフィードバック制御器の合成について検討した。 問題は、少なくともある程度の確率で、システムは安全でない状態を避けながら、有限時間で所望のゴール状態に達するようにコントローラを計算することである。 確率性と非凸性のため、この問題はアルゴリズム的あるいは閉形式な解を一般に認めない。 我々の鍵となる貢献は、カルマンフィルタを用いて得られた非測定状態上のガウス的信念の有限状態抽象に基づく構成的制御合成スキームである。 我々はこの抽象概念をマルコフ決定過程(MDP)として定式化する。 遷移確率を近似する数値的不規則に対して頑健であるためには、遷移確率の間隔を持つmdpを用いる。 構成により、抽象に関する任意のポリシーをltiシステムのための分割線形フィードバックコントローラに洗練することができる。 この制御器の閉ループ LTI システムは,少なくとも必要な確率で到達可能な問題を満たすことを証明した。 数値実験により,本手法は最大6次元状態空間を持つシステムの到達回避問題を解くことができ,高速に探索するランダム信念木 (rrbt) のような手法では処理できない入力制約を制御できることを示した。

We study feedback controller synthesis for reach-avoid control of discrete-time, linear time-invariant (LTI) systems with Gaussian process and measurement noise. The problem is to compute a controller such that, with at least some required probability, the system reaches a desired goal state in finite time while avoiding unsafe states. Due to stochasticity and nonconvexity, this problem does not admit exact algorithmic or closed-form solutions in general. Our key contribution is a correct-by-construction controller synthesis scheme based on a finite-state abstraction of a Gaussian belief over the unmeasured state, obtained using a Kalman filter. We formalize this abstraction as a Markov decision process (MDP). To be robust against numerical imprecision in approximating transition probabilities, we use MDPs with intervals of transition probabilities. By construction, any policy on the abstraction can be refined into a piecewise linear feedback controller for the LTI system. We prove that the closed-loop LTI system under this controller satisfies the reach-avoid problem with at least the required probability. The numerical experiments show that our method is able to solve reach-avoid problems for systems with up to 6D state spaces, and with control input constraints that cannot be handled by methods such as the rapidly-exploring random belief trees (RRBT).
翻訳日:2023-09-13 18:31:24 公開日:2023-09-12
# GTAdam: 分散オンライン最適化のための適応モーメントによるグラディエントトラッキング

GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online Optimization ( http://arxiv.org/abs/2009.01745v3 )

ライセンス: Link先を確認
Guido Carnevale, Francesco Farina, Ivano Notarnicola, Giuseppe Notarstefano(参考訳) 本稿では,オンライン最適化問題,すなわち局所的な計算と通信によって,中央コーディネータを使わずに解くことを目的とした計算エージェントのネットワークについて述べる。 本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。 このアルゴリズムは、リプシッツ連続勾配の強い凸コスト関数のオンライン設定で解析される。 本研究では,初期条件に関連する用語と,目的関数の時間的変動に関連する用語によって与えられる動的後悔の上限を与える。 さらに、静的な設定では線形収束率が保証される。 このアルゴリズムは、時間変化の分類問題、(移動)目標位置決め問題、および画像分類からの確率的最適化設定において試験される。 マルチエージェント学習による数値実験では、gtadamは最先端の分散最適化手法よりも優れている。

This paper deals with a network of computing agents aiming to solve an online optimization problem in a distributed fashion, i.e., by means of local computation and communication, without any central coordinator. We propose the gradient tracking with adaptive momentum estimation (GTAdam) distributed algorithm, which combines a gradient tracking mechanism with first and second order momentum estimates of the gradient. The algorithm is analyzed in the online setting for strongly convex cost functions with Lipschitz continuous gradients. We provide an upper bound for the dynamic regret given by a term related to the initial conditions and another term related to the temporal variations of the objective functions. Moreover, a linear convergence rate is guaranteed in the static setup. The algorithm is tested on a time-varying classification problem, on a (moving) target localization problem, and in a stochastic optimization setup from image classification. In these numerical experiments from multi-agent learning, GTAdam outperforms state-of-the-art distributed optimization methods.
翻訳日:2023-09-13 18:29:25 公開日:2023-09-12
# 識別特徴を用いた下流分類における自己監督表現品質の測定

Measuring Self-Supervised Representation Quality for Downstream Classification using Discriminative Features ( http://arxiv.org/abs/2203.01881v5 )

ライセンス: Link先を確認
Neha Kalibhat, Kanika Narang, Hamed Firooz, Maziar Sanjabi, Soheil Feizi(参考訳) 自己教師付き学習(SSL)は下流の分類タスクにおいて顕著な結果を示している。 しかし、失敗モードを理解し、学習した表現を解釈する作業は限られている。 本稿では,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討する。 クラスラベル情報を使わずに、画像のユニークな物理的属性に対応する識別的特徴を発見し、主に正しく分類された表現に現れる。 これらの特徴を用いて、線形分類性能に大きな影響を及ぼすことなく、表現空間を最大40%圧縮することができる。 次に,画像Net-100で91.45,ImageNet-1Kで78.78のAUPRCを達成し,線形評価中に標本が誤分類される可能性を確実に予測できる教師なしスコアであるセルフ・スーパービジョン表現品質スコア(あるいはQスコア)を提案する。 Q-Scoreは、訓練済みエンコーダの正規化用語としても使用でき、低品質表現を補うことができる。 Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100では5.8%、ImageNet-1Kでは3.7%向上する。 最後に、勾配ヒートマップとsaient imagenetマスクを用いて、各表現の解釈可能性の定量化のためのメトリックを定義する。 識別機能はコア属性と強く関連していることを示し,q-score正規化によってssl表現をより解釈可能にした。

Self-supervised learning (SSL) has shown impressive results in downstream classification tasks. However, there is limited work in understanding their failure modes and interpreting their learned representations. In this paper, we study the representation space of state-of-the-art self-supervised models including SimCLR, SwaV, MoCo, BYOL, DINO, SimSiam, VICReg and Barlow Twins. Without the use of class label information, we discover discriminative features that correspond to unique physical attributes in images, present mostly in correctly-classified representations. Using these features, we can compress the representation space by up to 40% without significantly affecting linear classification performance. We then propose Self-Supervised Representation Quality Score (or Q-Score), an unsupervised score that can reliably predict if a given sample is likely to be mis-classified during linear evaluation, achieving AUPRC of 91.45 on ImageNet-100 and 78.78 on ImageNet-1K. Q-Score can also be used as a regularization term on pre-trained encoders to remedy low-quality representations. Fine-tuning with Q-Score regularization can boost the linear probing accuracy of SSL models by up to 5.8% on ImageNet-100 and 3.7% on ImageNet-1K compared to their baselines. Finally, using gradient heatmaps and Salient ImageNet masks, we define a metric to quantify the interpretability of each representation. We show that discriminative features are strongly correlated to core attributes and, enhancing these features through Q-score regularization makes SSL representations more interpretable.
翻訳日:2023-09-13 18:21:44 公開日:2023-09-12
# 重みのチューニング: 初期マトリックス構成が継承的特徴の学習効果に及ぼす影響

Tuning the Weights: The Impact of Initial Matrix Configurations on Successor Features Learning Efficacy ( http://arxiv.org/abs/2111.02017v2 )

ライセンス: Link先を確認
Hyunsu Lee(参考訳) 本研究の目的は,Reinforcement Learning (RL) エージェントの学習効率と収束性に及ぼす継手特徴量行列(SF)の初期化戦略の違いの影響を検討することである。 グリッドワールドのパラダイムを用いて,sf重み行列を同一行列,ゼロ行列,ランダム生成行列(xavier,he,あるいは一様分布法を用いて)で初期化するrlエージェントの性能を比較する。 分析は,値誤差,ステップ長,後続表現場(sr)のpca,異なるエージェント間のsr行列距離などの指標を評価することを目的としている。 その結果、ランダム行列で初期化されたrlエージェントは最適なsrプレイスフィールドに早く到達し、より効率的な学習を指し示すことで、値の誤差を素早く低減できることが示される。 さらに、これらのランダムエージェントは、より大きなグリッドワールド環境におけるステップ長の高速化を示す。 この研究は、これらの結果の神経生物学的解釈、知性を理解するためのその意味、そして将来の研究方向性に関する洞察を提供する。 これらの発見は人工知能の分野、特に学習アルゴリズムの設計に大きな影響を与える可能性がある。

The focus of this study is to investigate the impact of different initialization strategies for the weight matrix of Successor Features (SF) on learning efficiency and convergence in Reinforcement Learning (RL) agents. Using a grid-world paradigm, we compare the performance of RL agents, whose SF weight matrix is initialized with either an identity matrix, zero matrix, or a randomly generated matrix (using Xavier, He, or uniform distribution method). Our analysis revolves around evaluating metrics such as value error, step length, PCA of Successor Representation (SR) place field, and the distance of SR matrices between different agents. The results demonstrate that RL agents initialized with random matrices reach the optimal SR place field faster and showcase a quicker reduction in value error, pointing to more efficient learning. Furthermore, these random agents also exhibit a faster decrease in step length across larger grid-world environments. The study provides insights into the neurobiological interpretations of these results, their implications for understanding intelligence, and potential future research directions. These findings could have profound implications for the field of artificial intelligence, particularly in the design of learning algorithms.
翻訳日:2023-09-13 18:20:51 公開日:2023-09-12
# 希土類ドープ結晶におけるピエゾ軌道バックアクション力

Piezo-orbital backaction force in a rare-earth doped crystal ( http://arxiv.org/abs/2109.06577v2 )

ライセンス: Link先を確認
Anne Louchet-Chauvet and Pierre Verlot and Jean-Philippe Poizat and Thierry Chaneli\`ere(参考訳) バルク結晶に埋もれた室温希土類イオンのアンサンブルからなり, 内部ひずみに内在的に結合した系について, 周囲の結晶界に対する感度について検討した。 共振原子励起下での機械的応答の発生を実証する。 この動きは、イオンの励起状態への促進に伴う結晶場の変化によって生じる、保守的なピエゾ軌道機構と、原子集団の緩和を通じて発生するフォノンに関する散逸性非放射性光熱過程の2つの基本的な共鳴光学的バックアクションの過程の和である。 我々の研究は、ハイブリッド光力学における新しい研究の道を開き、超コヒーレントな希土類イオンの強調するダイナミクスを理解する上で鍵となる新しい相互作用を強調します。

We investigate a system composed of an ensemble of room temperature rare-earth ions embedded in a bulk crystal, intrinsically coupled to internal strain via their sensitivity to the surrounding crystal field. We evidence the generation of a mechanical response under resonant atomic excitation. We find this motion to be the sum of two fundamental, resonant optomechanical backaction processes: a conservative, piezo-orbital mechanism, resulting from the modification of the crystal field associated with the promotion of the ions to their excited state, and a dissipative, non-radiative photothermal process related to the phonons generated throughout the atomic population relaxation. Our work opens new research avenues in hybrid optomechanics, and highlights new interactions that may be key for understanding the dephasing dynamics of ultra-coherent rare-earth ions.
翻訳日:2023-09-13 18:19:57 公開日:2023-09-12
# マルチデバイス協調エッジ推論のためのタスク指向通信

Task-Oriented Communication for Multi-Device Cooperative Edge Inference ( http://arxiv.org/abs/2109.00172v3 )

ライセンス: Link先を確認
Jiawei Shao, Yuyi Mao, Jun Zhang(参考訳) 本稿では,分散ローエンドエッジデバイス群がローカルサンプルの抽出した特徴を強力なエッジサーバに送信して推論を行うマルチデバイス協調エッジ推論のためのタスク指向通信について検討する。 協調エッジ推論は、単一デバイスの限られた感知能力を克服することができるが、通信オーバーヘッドを大幅に増加させ、過度の遅延を引き起こす可能性がある。 低遅延協調推論を可能にするため,我々は,ローカル特徴抽出と分散特徴エンコーディングをタスク指向で最適化し,エッジサーバでデータサンプルを再構築するのではなく,ダウンストリーム推論タスクに不可欠な情報を伝達する学習ベースの通信方式を提案する。 具体的には、各エッジデバイスにおけるタスク関連機能を抽出するための情報ボトルネック(ib)原則を利用し、分散情報ボトルネック(dib)フレームワークを採用し、分散特徴符号化のための最適なレート関連トレードオフの単一レターキャラクタリゼーションを定式化する。 通信オーバヘッドの柔軟な制御を認めるため、DIBフレームワークを分散決定性情報ボトルネック(DDIB)の対象に拡張し、符号化された特徴の表現コストを明示的に組み込む。 IBに基づく目的は高次元データに対して計算的に禁じられているため、最適化問題を抽出するために変分近似を採用する。 変動近似による潜在的な性能損失を補うため,複数のエッジデバイスの符号化特徴の冗長性を識別し,通信オーバヘッドの低減を図るための選択再送信(SR)機構も開発した。 広範な実験により、提案するタスク指向通信方式がベースライン方式よりも適切なレート関連トレードオフを実現することが証明された。

This paper investigates task-oriented communication for multi-device cooperative edge inference, where a group of distributed low-end edge devices transmit the extracted features of local samples to a powerful edge server for inference. While cooperative edge inference can overcome the limited sensing capability of a single device, it substantially increases the communication overhead and may incur excessive latency. To enable low-latency cooperative inference, we propose a learning-based communication scheme that optimizes local feature extraction and distributed feature encoding in a task-oriented manner, i.e., to remove data redundancy and transmit information that is essential for the downstream inference task rather than reconstructing the data samples at the edge server. Specifically, we leverage an information bottleneck (IB) principle to extract the task-relevant feature at each edge device and adopt a distributed information bottleneck (DIB) framework to formalize a single-letter characterization of the optimal rate-relevance tradeoff for distributed feature encoding. To admit flexible control of the communication overhead, we extend the DIB framework to a distributed deterministic information bottleneck (DDIB) objective that explicitly incorporates the representational costs of the encoded features. As the IB-based objectives are computationally prohibitive for high-dimensional data, we adopt variational approximations to make the optimization problems tractable. To compensate the potential performance loss due to the variational approximations, we also develop a selective retransmission (SR) mechanism to identify the redundancy in the encoded features of multiple edge devices to attain additional communication overhead reduction. Extensive experiments evidence that the proposed task-oriented communication scheme achieves a better rate-relevance tradeoff than baseline methods.
翻訳日:2023-09-13 18:19:23 公開日:2023-09-12
# DASS:スパースニューラルネットワークのための微分可能なアーキテクチャ探索

DASS: Differentiable Architecture Search for Sparse neural networks ( http://arxiv.org/abs/2207.06968v5 )

ライセンス: Link先を確認
Hamid Mousavi, Mohammad Loni, Mina Alibeigi, Masoud Daneshtalab(参考訳) エッジデバイスへのディープニューラルネットワーク(DNN)のデプロイは、パフォーマンス要件と利用可能な処理パワーの間に大きなギャップがあるために妨げられている。 最近の研究は、DNNの計算オーバーヘッドを低減するためのスパースネットワークを構築するためのプルーニング手法の開発に大きく貢献しているが、特に高いプルーニング比において、かなりの精度の損失がある。 構造探索手法は, プランニング機構を適用した場合, 密集したネットワーク向けに設計したアーキテクチャは有効ではないことが判明した。 主な理由は,本手法が検索空間におけるスパースアーキテクチャをサポートせず,高密度ネットワークを対象とし,疎度に注意を払わない探索目的を用いているためである。 本稿では,スパーシティフレンドリなニューラルアーキテクチャを探索する新しい手法を提案する。 検索空間に2つの新しいスパース操作を追加し、検索目的を変更してこれを行う。 本稿では,スパース操作を含む検索空間を拡張するために,2つの新しいパラメトリックSparseConvとSparseLinear演算を提案する。 特に、これらの操作は線形および畳み込み操作のスパースパラメトリックバージョンを使用するため、柔軟な探索空間を作る。 提案する検索目的は,検索空間操作のスパース性に基づいて,アーキテクチャを訓練することである。 CIFAR-10 と ImageNet データセットの検索構造は,最先端のスパースネットワークで使用されているものよりも優れていることを示す。 性能とハードウェア効率の面では、DASSはMobileNet-v2のスパースバージョンの精度を73.44%から81.35%(+7.91%改善)に改善し、推論時間は3.87倍に向上した。

The deployment of Deep Neural Networks (DNNs) on edge devices is hindered by the substantial gap between performance requirements and available processing power. While recent research has made significant strides in developing pruning methods to build a sparse network for reducing the computing overhead of DNNs, there remains considerable accuracy loss, especially at high pruning ratios. We find that the architectures designed for dense networks by differentiable architecture search methods are ineffective when pruning mechanisms are applied to them. The main reason is that the current method does not support sparse architectures in their search space and uses a search objective that is made for dense networks and does not pay any attention to sparsity. In this paper, we propose a new method to search for sparsity-friendly neural architectures. We do this by adding two new sparse operations to the search space and modifying the search objective. We propose two novel parametric SparseConv and SparseLinear operations in order to expand the search space to include sparse operations. In particular, these operations make a flexible search space due to using sparse parametric versions of linear and convolution operations. The proposed search objective lets us train the architecture based on the sparsity of the search space operations. Quantitative analyses demonstrate that our search architectures outperform those used in the stateof-the-art sparse networks on the CIFAR-10 and ImageNet datasets. In terms of performance and hardware effectiveness, DASS increases the accuracy of the sparse version of MobileNet-v2 from 73.44% to 81.35% (+7.91% improvement) with 3.87x faster inference time.
翻訳日:2023-09-13 18:11:39 公開日:2023-09-12
# 創発的猫状態を伴う超ラジアント相転移の観察

Observation of a superradiant phase transition with emergent cat states ( http://arxiv.org/abs/2207.05512v3 )

ライセンス: Link先を確認
Ri-Hua Zheng, Wen Ning, Ye-Hong Chen, Jia-Hao L\"u, Li-Tuo Shen, Kai Xu, Yu-Ran Zhang, Da Xu, Hekang Li, Yan Xia, Fan Wu, Zhen-Biao Yang, Adam Miranowicz, Neill Lambert, Dongning Zheng, Heng Fan, Franco Nori, and Shi-Biao Zheng(参考訳) 超ラジアント相転移(SPT)は、量子レベルでの光-物質相互作用を理解するために重要であり、臨界度を増強する量子センシングにおいて中心的な役割を果たす。 これまでのところ、SPTは駆動散逸系で観測されているが、励起光場は強い散逸の存在のため、非古典的な特徴を示さなかった。 本稿では,超伝導量子ビットに共振器を結合した超古典性フォトニックフィールドの出現を特徴とするspt実験を行い,量子ラビモデルを実装した。 ウィグナーマトリクストモグラフィにより,光マッター状態を完全に特徴付ける。 測定された行列要素は、フォトニックメソスコピックな重ね合わせの量子干渉の本質を示し、光-物質絡みを明らかにする

Superradiant phase transitions (SPTs) are important for understanding light-matter interactions at the quantum level, and play a central role in criticality-enhanced quantum sensing. So far, SPTs have been observed in driven-dissipative systems, but the emergent light fields did not show any nonclassical characteristic due to the presence of strong dissipation. Here we report an experimental demonstration of the SPT featuring the emergence of a highly nonclassical photonic field, realized with a resonator coupled to a superconducting qubit, implementing the quantum Rabi model. We fully characterize the light-matter state by Wigner matrix tomography. The measured matrix elements exhibit quantum interference intrinsic of a photonic mesoscopic superposition, and reveal light-matter entanglement
翻訳日:2023-09-13 18:11:08 公開日:2023-09-12
# グラフ分類のためのマルチスケールワッサースタイン短パスグラフカーネル

Multi-scale Wasserstein Shortest-path Graph Kernels for Graph Classification ( http://arxiv.org/abs/2206.00979v4 )

ライセンス: Link先を確認
Wei Ye, Hao Tian, Qijun Chen(参考訳) グラフカーネルはグラフの類似性を計算する従来の方法である。 しかし、ほとんどのR-畳み込みグラフカーネルは2つの課題に直面している。 1)複数の異なるスケールでグラフを比較することはできない。 2) カーネル行列の計算では, サブ構造分布を考慮しない。 これらの2つの課題はパフォーマンスを制限します。 この2つの課題を緩和するために,我々はマルチスケールワッサースタイン短パスグラフカーネル (MWSP) と呼ばれる新しいグラフカーネルを提案し,その中心はマルチスケールの短パスノード特徴写像であり,各要素はノード周辺で最短パスの発生回数を表す。 最も短いパスは、その中の全てのノードのラベルの結合によって表現される。 最短経路ノード特徴写像は局所スケールでしかグラフを比較できないため、グラフ内の各ノードに根付いた異なる深さの分岐したBFS木によってキャプチャされるグラフ構造の複数の異なるスケールを組み込む。 最短経路の分布を考慮した2つのグラフの複数スケール短パスノード特徴マップ間の類似性を計算するためにワッサースタイン距離を用いる。 我々はMWSPを様々なベンチマークグラフデータセット上で実証的に検証し、ほとんどのデータセットで最先端のパフォーマンスを実現することを実証した。

Graph kernels are conventional methods for computing graph similarities. However, most of the R-convolution graph kernels face two challenges: 1) They cannot compare graphs at multiple different scales, and 2) they do not consider the distributions of substructures when computing the kernel matrix. These two challenges limit their performances. To mitigate the two challenges, we propose a novel graph kernel called the Multi-scale Wasserstein Shortest-Path graph kernel (MWSP), at the heart of which is the multi-scale shortest-path node feature map, of which each element denotes the number of occurrences of a shortest path around a node. A shortest path is represented by the concatenation of all the labels of nodes in it. Since the shortest-path node feature map can only compare graphs at local scales, we incorporate into it the multiple different scales of the graph structure, which are captured by the truncated BFS trees of different depths rooted at each node in a graph. We use the Wasserstein distance to compute the similarity between the multi-scale shortest-path node feature maps of two graphs, considering the distributions of shortest paths. We empirically validate MWSP on various benchmark graph datasets and demonstrate that it achieves state-of-the-art performance on most datasets.
翻訳日:2023-09-13 18:10:22 公開日:2023-09-12
# 不均一学習率を有するPSO畳み込みニューラルネットワーク

PSO-Convolutional Neural Networks with Heterogeneous Learning Rate ( http://arxiv.org/abs/2205.10456v3 )

ライセンス: Link先を確認
Nguyen Huu Phong, Augusto Santos, Bernardete Ribeiro(参考訳) 畳み込みニューラルネットワーク(convnetsまたはcnn)は、コンピュータビジョンおよび関連する分野の領域に率直に展開されている。 それでも、これらのニューラルネットワークのトレーニングのダイナミクスはまだ解明されていない。 この課題を克服し、音声認識や画像認識、行動認識などの画像処理におけるいくつかの問題に対処するために、数多くのアーキテクチャとトレーニング戦略が提案されている。 本稿では,新しい粒子群最適化(PSO)によるConvNetsのトレーニングを提案する。 このようなフレームワークでは、各ConvNetの重みのベクトルは、一般に位相空間における粒子の位置としてキャストされ、PSOの協調力学は、訓練性能と一般化を促進するためにSGD(Stochastic Gradient Descent)と相互作用する。 私たちのアプローチは以下の通りです。 i) 各ConvNetは,SGDを介して独立して訓練される。 二 損失関数の勾配推定とともに、その重み(又は粒子配置)の現在のベクトル間で、[協調相]凸体を共有すること。 異なるステップサイズは、異なるconvnetによって作られる。 より保守的なものとともに大きな(おそらくランダムな)ステップサイズとConvNetを適切にブレンドすることにより、Cifar-10とCifar-100の他のPSOベースのアプローチ(98.31%と87.48%の精度)に対する競合性能を持つアルゴリズムを提案する。 これらの精度レベルは、たった4つのConvNetを使用して取得される。 ソースコードはhttps://github.com/leonlha/pso-convnet-dynamicsからダウンロードできる。

Convolutional Neural Networks (ConvNets or CNNs) have been candidly deployed in the scope of computer vision and related fields. Nevertheless, the dynamics of training of these neural networks lie still elusive: it is hard and computationally expensive to train them. A myriad of architectures and training strategies have been proposed to overcome this challenge and address several problems in image processing such as speech, image and action recognition as well as object detection. In this article, we propose a novel Particle Swarm Optimization (PSO) based training for ConvNets. In such framework, the vector of weights of each ConvNet is typically cast as the position of a particle in phase space whereby PSO collaborative dynamics intertwines with Stochastic Gradient Descent (SGD) in order to boost training performance and generalization. Our approach goes as follows: i) [regular phase] each ConvNet is trained independently via SGD; ii) [collaborative phase] ConvNets share among themselves their current vector of weights (or particle-position) along with their gradient estimates of the Loss function. Distinct step sizes are coined by distinct ConvNets. By properly blending ConvNets with large (possibly random) step-sizes along with more conservative ones, we propose an algorithm with competitive performance with respect to other PSO-based approaches on Cifar-10 and Cifar-100 (accuracy of 98.31% and 87.48%). These accuracy levels are obtained by resorting to only four ConvNets -- such results are expected to scale with the number of collaborative ConvNets accordingly. We make our source codes available for download https://github.com/leonlha/PSO-ConvNet-Dynamics.
翻訳日:2023-09-13 18:10:00 公開日:2023-09-12
# デバイス非依存ランダムネス抽出のための傾斜ハーディパラドックス

Tilted Hardy paradoxes for device-independent randomness extraction ( http://arxiv.org/abs/2205.02751v4 )

ライセンス: Link先を確認
Shuai Zhao, Ravishankar Ramanathan, Yuan Liu, and Pawe{\l} Horodecki(参考訳) デバイス非依存のパラダイムはランダム性の生成、鍵分布、自己テストにおいて目覚ましい成功を収めてきたが、これらの結果の多くは信頼とプライベートなランダムな種を持つと仮定して得られたものである。 測定独立性の仮定を緩和するために、ハーディの非局所性試験が理想的な候補として提案されている。 本稿では,完全2量子の絡み合った状態の自己テストと,最大1ビットの局所ランダム性証明を可能にする,傾きのあるハーディパラドックスのファミリを紹介する。 次に、傾斜したハーディ試験を用いて、任意の測定独立性を持つサンサ・ヴァジラニ(SV)源に対する最先端のランダム性増幅プロトコルの生成率を改善する。 デバイス非依存のランダム性増幅は、任意バイアスのSVソースとほぼ分離可能な状態から可能であることを示す。 最後に、diランダムネス抽出の潜在的な候補として、局所次元の最大絡み合い状態に対するハーディテストのファミリーを導入し、最大2 \log d$bit of global randomnessの最大値を証明する。

The device-independent paradigm has had spectacular successes in randomness generation, key distribution and self-testing, however most of these results have been obtained under the assumption that parties hold trusted and private random seeds. In efforts to relax the assumption of measurement independence, Hardy's non-locality tests have been proposed as ideal candidates. In this paper, we introduce a family of tilted Hardy paradoxes that allow to self-test general pure two-qubit entangled states, as well as certify up to $1$ bit of local randomness. We then use these tilted Hardy tests to obtain an improvement in the generation rate in the state-of-the-art randomness amplification protocols for Santha-Vazirani (SV) sources with arbitrarily limited measurement independence. Our result shows that device-independent randomness amplification is possible for arbitrarily biased SV sources and from almost separable states. Finally, we introduce a family of Hardy tests for maximally entangled states of local dimension $4, 8$ as the potential candidates for DI randomness extraction to certify up to the maximum possible $2 \log d$ bits of global randomness.
翻訳日:2023-09-13 18:09:31 公開日:2023-09-12
# 人間の言語判断予測のための自然言語モデルの限界の検証

Testing the limits of natural language models for predicting human language judgments ( http://arxiv.org/abs/2204.03592v3 )

ライセンス: Link先を確認
Tal Golan, Matthew Siegelman, Nikolaus Kriegeskorte, Christopher Baldassano(参考訳) ニューラルネットワーク言語モデルは、人間の言語処理に関する計算仮説として機能する。 多様な言語モデルのモデルと人間の一貫性を、新しい実験手法を用いて比較した。 議論の的になっている文対について、2つの言語モデルでは、どの文が自然文でより起こりやすいかは意見が一致しない。 9つの言語モデル(n-gram、リカレントニューラルネットワーク、トランスフォーマーモデルを含む)を考慮して、コーパスから文を選択したり、合成最適化された文ペアを非常に議論の余地のあるものにすることで、何百もの議論を巻き起こした文ペアを作成しました。 次に、被験者は2つの文のどちらがよりありそうなかを示す判断を下した。 議論の的となる文ペアは、モデルの失敗を明らかにし、人間の判断と最も密接に一致するモデルを特定するのに非常に効果的である。 最も人間一貫性のあるモデルは GPT-2 であったが、実験では人間の知覚との整合性の重大な欠点も明らかにした。

Neural network language models can serve as computational hypotheses about how humans process language. We compared the model-human consistency of diverse language models using a novel experimental approach: controversial sentence pairs. For each controversial sentence pair, two language models disagree about which sentence is more likely to occur in natural text. Considering nine language models (including n-gram, recurrent neural networks, and transformer models), we created hundreds of such controversial sentence pairs by either selecting sentences from a corpus or synthetically optimizing sentence pairs to be highly controversial. Human subjects then provided judgments indicating for each pair which of the two sentences is more likely. Controversial sentence pairs proved highly effective at revealing model failures and identifying models that aligned most closely with human judgments. The most human-consistent model tested was GPT-2, although experiments also revealed significant shortcomings of its alignment with human perception.
翻訳日:2023-09-13 18:09:11 公開日:2023-09-12
# 量子情報幾何における単調計量テンソル

Monotone metric tensors in Quantum Information Geometry ( http://arxiv.org/abs/2203.10857v2 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo, Fabio Di Nocera, Patrizia Vitale(参考訳) 有限次元における単調量子メトリクスの世界に関する幾何的側面を概観する。 特に強調されるのは、スペクトル定理から構築された量子状態の展開された視点であり、古典的な確率分布との比較に自然に適している。

We review some geometrical aspects pertaining to the world of monotone quantum metrics in finite dimensions. Particular emphasis is given to an unfolded perspective for quantum states that is built out of the spectral theorem and is naturally suited to investigate the comparison with the classical case of probability distributions.
翻訳日:2023-09-13 18:08:54 公開日:2023-09-12
# ニューラルネットワークにおける解釈可能性法と摂動アーティファクトの忠実性

Fidelity of Interpretability Methods and Perturbation Artifacts in Neural Networks ( http://arxiv.org/abs/2203.02928v4 )

ライセンス: Link先を確認
Lennart Brocki, Neo Christopher Chung(参考訳) 画像分類、検出、予測においてディープニューラルネットワーク(DNN)の優れた性能にもかかわらず、DNNが与えられた決定をどう行うかは未解決の問題であり、多くの解釈可能性手法が生み出されている。 ポストホック解釈可能性法は主に、クラス確率に関する入力特徴の重要性の定量化を目的としている。 しかし, 基礎的事実の欠如, 多様な操作特性を持つ解釈可能性手法の存在などにより, これらの手法の評価は極めて重要な課題である。 解釈可能性評価手法の一般的なアプローチは、与えられた予測に重要な入力特徴を摂動させ、精度の低下を観測することである。 しかし、摂動自体が人工物をもたらすこともある。 そこで本研究では, 摂動入力特徴のモデル精度曲線をMIF(Mest Import First)とLIF(Least Import First)の順に求めることにより, これらのアーチファクトの忠実度推定への影響を推定する手法を提案する。 ImageNetでトレーニングされたResNet-50を用いて、4つの一般的なポストホック解釈可能性手法の忠実度推定を提案する。

Despite excellent performance of deep neural networks (DNNs) in image classification, detection, and prediction, characterizing how DNNs make a given decision remains an open problem, resulting in a number of interpretability methods. Post-hoc interpretability methods primarily aim to quantify the importance of input features with respect to the class probabilities. However, due to the lack of ground truth and the existence of interpretability methods with diverse operating characteristics, evaluating these methods is a crucial challenge. A popular approach to evaluate interpretability methods is to perturb input features deemed important for a given prediction and observe the decrease in accuracy. However, perturbation itself may introduce artifacts. We propose a method for estimating the impact of such artifacts on the fidelity estimation by utilizing model accuracy curves from perturbing input features according to the Most Import First (MIF) and Least Import First (LIF) orders. Using the ResNet-50 trained on the ImageNet, we demonstrate the proposed fidelity estimation of four popular post-hoc interpretability methods.
翻訳日:2023-09-13 18:08:50 公開日:2023-09-12
# ランダムユニタリ、ロバスト性、および絡み合いの複雑さ

Random unitaries, Robustness, and Complexity of Entanglement ( http://arxiv.org/abs/2210.13495v3 )

ライセンス: Link先を確認
J. Odavi\'c, G. Torre, N. Miji\'c, D. Davidovi\'c, F. Franchini, S. M. Giampaolo(参考訳) 一般回路の存在下での絡み合いのダイナミクスは、絡み合いスペクトルの統計的性質の知識によって予測できることが広く受け入れられている。 我々は、同じ統計値を共有する状態に対して、異なる局所ゲートセットによって生成されるメトロポリスのような絡み合い冷却アルゴリズムを適用して、この仮定を検証した。 我々は、一意的なモデル、すなわち横磁場を持つ一次元イジングチェーンの基底状態を用いるが、パラ磁性、磁気秩序、位相的フラストレーションのような異なる巨視的位相に属する。 極めて驚くべきことに、エンタングルメントダイナミクスは異なるゲートの集合だけでなく位相にも強く依存しており、異なる位相は冷却プロセスに対して異なる反発性を持つ異なる種類のエンタングルメント(純粋に局所的、ghz的、w状態的)を持つことができることを示している。 我々の研究は、絡み合いスペクトルの知識だけではその力学を決定できないという事実を強調し、その不完全性を評価ツールとして示す。 さらに、局所性と非局所的制約との間の微妙な相互作用を示す。

It is widely accepted that the dynamic of entanglement in presence of a generic circuit can be predicted by the knowledge of the statistical properties of the entanglement spectrum. We tested this assumption by applying a Metropolis-like entanglement cooling algorithm generated by different sets of local gates, on states sharing the same statistic. We employ the ground states of a unique model, namely the one-dimensional Ising chain with a transverse field, but belonging to different macroscopic phases such as the paramagnetic, the magnetically ordered, and the topological frustrated ones. Quite surprisingly, we observe that the entanglement dynamics are strongly dependent not just on the different sets of gates but also on the phase, indicating that different phases can possess different types of entanglement (which we characterize as purely local, GHZ-like, and W-state-like) with different degree of resilience against the cooling process. Our work highlights the fact that the knowledge of the entanglement spectrum alone is not sufficient to determine its dynamics, thereby demonstrating its incompleteness as a characterization tool. Moreover, it shows a subtle interplay between locality and non-local constraints.
翻訳日:2023-09-13 18:00:44 公開日:2023-09-12
# プライマリパワーフィールドのための効率的な量子デコーダ

An Efficient Quantum Decoder for Prime-Power Fields ( http://arxiv.org/abs/2210.11552v2 )

ライセンス: Link先を確認
Lior Eldar(参考訳) 有限体 $\mathbb{F}_q$ 上の最寄り符号語問題のバージョンを、非二進アルファベットに対するハミング計量の類似であるマンハッタン距離を用いて検討する。 他の格子関連問題と同様に、この問題は定数係数近似までNPハードである。 しかし、$q = p^m$ の場合、$p$ はコードブロックサイズ $n$ と比較して小さいので、任意の$p$ に対して近似係数 $1/n^2$ に対して、時間で問題を解く量子アルゴリズムが存在することを示す。 一方、我々の知識を最大限に活用するために、古典的アルゴリズムはこの問題をはるかに小さな逆多項式因子に対してのみ効率的に解くことができる。 したがって、デコーダは古典的なアルゴリズムよりも指数関数的に改善され、classic mcelieceのようなコードベースの暗号システムの大きなalphabet拡張の暗号セキュリティに制限を課す。

We consider a version of the nearest-codeword problem on finite fields $\mathbb{F}_q$ using the Manhattan distance, an analog of the Hamming metric for non-binary alphabets. Similarly to other lattice related problems, this problem is NP-hard even up to constant factor approximation. We show, however, that for $q = p^m$ where $p$ is small relative to the code block-size $n$, there is a quantum algorithm that solves the problem in time ${\rm poly}(n)$, for approximation factor $1/n^2$, for any $p$. On the other hand, to the best of our knowledge, classical algorithms can efficiently solve the problem only for much smaller inverse polynomial factors. Hence, the decoder provides an exponential improvement over classical algorithms, and places limitations on the cryptographic security of large-alphabet extensions of code-based cryptosystems like Classic McEliece.
翻訳日:2023-09-13 18:00:23 公開日:2023-09-12
# ブランドの新K-FAC:オンライン分解アップデートでK-FACを高速化

Brand New K-FACs: Speeding up K-FAC with Online Decomposition Updates ( http://arxiv.org/abs/2210.08494v2 )

ライセンス: Link先を確認
Constantin Octavian Puiu(参考訳) K-FAC (arXiv:1503.05671, arXiv:1602.01407) は、"Kronecker-Factors"(K因子)の逆数を計算することのボトルネックとなる、ディープラーニング(DL)のための自然勾配(NG)の実装である。 RS-KFAC (arXiv:2206.15397) はK-FACの改良であり、K-因子の逆数推定の安価な方法を提供する。 本稿では,k-ファクターの指数平均構成パラダイムを活用し,オンライン数値線形代数手法を用いて,k-ファクター逆数をより安価(しかし正確ではない)に推定する方法を提案する。 特に,層サイズを線形にスケールするk因子逆更新を提案する。 また、線形にスケールする逆応用法も提案する(K-FACの1つは3次スケール、RS-KFACの1つは2次スケール)。 提案アルゴリズムは, K-FAC と RS-KFAC の近似的な実装であり, プレコンディショニング部は, 層径が線形にスケールする(K-FAC は立方体, RS-KFAC は二次)。 しかしながら、この更新はRS-KFACアプローチ(arXiv:2206.15397)とは異なり、いくつかの状況(典型的にはすべてのFC層)でのみ適用される。 RS-KFACの逆誤差を最小限のCPUオーバヘッドで低減できることを示す。 提案手法,修正法,rs-kfacに基づき,汎用深層ニューラルネットワークの最適化のための3つの実用的なアルゴリズムを提案する。 数値実験の結果, rs-kfacはcifar10分類において, vgg16_bnの微修正版で, 目標試験精度に優れることがわかった。 提案アルゴリズムは,SENG よりも 91$\%$テスト精度 (DL の実証NG 実装の現状; arXiv:2006.05924) が速いが,高いテスト精度で性能が劣る。

K-FAC (arXiv:1503.05671, arXiv:1602.01407) is a tractable implementation of Natural Gradient (NG) for Deep Learning (DL), whose bottleneck is computing the inverses of the so-called ``Kronecker-Factors'' (K-factors). RS-KFAC (arXiv:2206.15397) is a K-FAC improvement which provides a cheap way of estimating the K-factors inverses. In this paper, we exploit the exponential-average construction paradigm of the K-factors, and use online numerical linear algebra techniques to propose an even cheaper (but less accurate) way of estimating the K-factors inverses. In particular, we propose a K-factor inverse update which scales linearly in layer size. We also propose an inverse application procedure which scales linearly as well (the one of K-FAC scales cubically and the one of RS-KFAC scales quadratically). Overall, our proposed algorithm gives an approximate K-FAC implementation whose preconditioning part scales linearly in layer size (compare to cubic for K-FAC and quadratic for RS-KFAC). Importantly however, this update is only applicable in some circumstances (typically for all FC layers), unlike the RS-KFAC approach (arXiv:2206.15397). Numerical results show RS-KFAC's inversion error can be reduced with minimal CPU overhead by adding our proposed update to it. Based on the proposed procedure, a correction to it, and RS-KFAC, we propose three practical algorithms for optimizing generic Deep Neural Nets. Numerical results show that two of these outperform RS-KFAC for any target test accuracy on CIFAR10 classification with a slightly modified version of VGG16_bn. Our proposed algorithms achieve 91$\%$ test accuracy faster than SENG (the state of art implementation of empirical NG for DL; arXiv:2006.05924) but underperform it for higher test-accuracy.
翻訳日:2023-09-13 18:00:05 公開日:2023-09-12
# IBL-NeRF:画像に基づくニューラルラジアンス場の照明定式化

IBL-NeRF: Image-Based Lighting Formulation of Neural Radiance Fields ( http://arxiv.org/abs/2210.08202v2 )

ライセンス: Link先を確認
Changwoon Choi, Juhyeon Kim, Young Min Kim(参考訳) 大規模屋内シーンのニューラル放射場(NeRF)を固有成分に分解するIRB-NeRFを提案する。 最近のアプローチでは、暗黙の体積の焼成放射を、部分的に近似できるような固有の成分に分解する。 しかし、それらは共有環境の照明で孤立した物体を表現することに限定され、モンテカルロ積分で光を集約する計算上の負担に苦しむ。 対照的に, 事前濾過された放射輝度場は, 表面特性に加えて, シーン体積内の照明の空間的変動を捉えるために, オリジナルの nerf 定式化を拡張している。 具体的には、多彩な素材のシーンを、アルベド、粗さ、表面の正常性、照射性、予めフィルターした放射率といった、固有の要素に分解してレンダリングする。 すべてのコンポーネントは、大規模な一般的なシーンをモデル化可能な、MLPのニューラルイメージとして推論される。 特に、前フィルタ放射は体積光場を効果的にモデル化し、単一の環境光を超えた空間変動を捉える。 プリフィルタは、事前に定義された近傍サイズで光線を集約し、大域照明のコストのかかるモンテカルロ積分を、ニューラルネットワークからの単純なクエリに置き換える。 提案手法は, 合成画像や固有成分に対して, 優れた画質とマルチビューの整合性を継承する。 我々は、複雑なオブジェクトレイアウトとライトコンフィグレーションを備えたシーンのパフォーマンスをデモするが、これは以前のどの作業でも処理できない。

We propose IBL-NeRF, which decomposes the neural radiance fields (NeRF) of large-scale indoor scenes into intrinsic components. Recent approaches further decompose the baked radiance of the implicit volume into intrinsic components such that one can partially approximate the rendering equation. However, they are limited to representing isolated objects with a shared environment lighting, and suffer from computational burden to aggregate rays with Monte Carlo integration. In contrast, our prefiltered radiance field extends the original NeRF formulation to capture the spatial variation of lighting within the scene volume, in addition to surface properties. Specifically, the scenes of diverse materials are decomposed into intrinsic components for rendering, namely, albedo, roughness, surface normal, irradiance, and prefiltered radiance. All of the components are inferred as neural images from MLP, which can model large-scale general scenes. Especially the prefiltered radiance effectively models the volumetric light field, and captures spatial variation beyond a single environment light. The prefiltering aggregates rays in a set of predefined neighborhood sizes such that we can replace the costly Monte Carlo integration of global illumination with a simple query from a neural image. By adopting NeRF, our approach inherits superior visual quality and multi-view consistency for synthesized images as well as the intrinsic components. We demonstrate the performance on scenes with complex object layouts and light configurations, which could not be processed in any of the previous works.
翻訳日:2023-09-13 17:59:24 公開日:2023-09-12
# 反因果予測における公正性と堅牢性

Fairness and robustness in anti-causal prediction ( http://arxiv.org/abs/2209.09423v2 )

ライセンス: Link先を確認
Maggie Makar, Alexander D'Amour(参考訳) 分散シフトと公平性に対する堅牢性は、現代の機械学習モデルに必要な2つの重要なデシデラタとして独立に現れてきた。 これら2つのデシデラタは関連しているように見えるが、実際にはそれらの関係はしばしば不明確である。 本稿では,分類器(画像など)への入力が対象ラベルと保護属性の関数として生成されると仮定した反因果予測タスクに着目し,因果レンズを介してこれらの接続について議論する。 この観点から,共通フェアネス基準 - 分離 - とロバスト性 - の共通概念 - リスク不変性との間に,明らかな関係を描き出す。 これらのつながりは、分離基準をアンチコーサル設定に適用する新たな動機を与え、フェアネスパフォーマンストレードオフに関する古い議論を知らせる。 さらに,ロバストネスを動機とするアプローチは,分離を強制するためにも有効であり,分離を直接強制する手法よりも実践的に優れていることが示唆された。 医学的データセットを用いて,X線から肺炎を検出する作業において,性集団間の有病率の差異が公平さの緩和を動機づける状況において,その知見を実証的に検証した。 本研究は,公正度基準の選択・実施における因果構造の検討の重要性を強調した。

Robustness to distribution shift and fairness have independently emerged as two important desiderata required of modern machine learning models. While these two desiderata seem related, the connection between them is often unclear in practice. Here, we discuss these connections through a causal lens, focusing on anti-causal prediction tasks, where the input to a classifier (e.g., an image) is assumed to be generated as a function of the target label and the protected attribute. By taking this perspective, we draw explicit connections between a common fairness criterion - separation - and a common notion of robustness - risk invariance. These connections provide new motivation for applying the separation criterion in anticausal settings, and inform old discussions regarding fairness-performance tradeoffs. In addition, our findings suggest that robustness-motivated approaches can be used to enforce separation, and that they often work better in practice than methods designed to directly enforce separation. Using a medical dataset, we empirically validate our findings on the task of detecting pneumonia from X-rays, in a setting where differences in prevalence across sex groups motivates a fairness mitigation. Our findings highlight the importance of considering causal structure when choosing and enforcing fairness criteria.
翻訳日:2023-09-13 17:58:06 公開日:2023-09-12
# GEDI: グラフベースのエンドツーエンドデータインプットフレームワーク

GEDI: A Graph-based End-to-end Data Imputation Framework ( http://arxiv.org/abs/2208.06573v2 )

ライセンス: Link先を確認
Katrina Chen, Xiuqin Liang, Zheng Ma, Zhibin Zhang(参考訳) データ計算は、欠落したデータを扱う効果的な方法であり、実際的なアプリケーションでは一般的である。 本研究では,(1)特徴量行列の特徴量間の行方向の類似性と列方向の文脈関係を保存し,(2)特定の下流ラベル予測タスクにインプット処理を調整する,という2つの重要な目標を達成する新しいデータ計算プロセスを提案する。 提案手法はトランスフォーマーネットワークとグラフ構造学習を用いて,観測における特徴と類似点間の文脈関係を反復的に洗練する。 さらに、メタラーニングフレームワークを使用して、下流の予測タスクに影響を及ぼす機能を選択する。 本研究では,実世界の大規模データセットについて実験を行い,提案手法が様々なベンチマーク手法に対してインプテーションとラベル予測性能を一貫して向上させることを示す。

Data imputation is an effective way to handle missing data, which is common in practical applications. In this study, we propose and test a novel data imputation process that achieve two important goals: (1) preserve the row-wise similarities among observations and column-wise contextual relationships among features in the feature matrix, and (2) tailor the imputation process to specific downstream label prediction task. The proposed imputation process uses Transformer network and graph structure learning to iteratively refine the contextual relationships among features and similarities among observations. Moreover, it uses a meta-learning framework to select features that are influential to the downstream prediction task of interest. We conduct experiments on real-world large data sets, and show that the proposed imputation process consistently improves imputation and label prediction performance over a variety of benchmark methods.
翻訳日:2023-09-13 17:57:31 公開日:2023-09-12
# 中間量子アシストゲート分解回路の耐故障性について

On Fault Tolerance of Circuits with Intermediate Qutrit-assisted Gate Decomposition ( http://arxiv.org/abs/2212.07866v2 )

ライセンス: Link先を確認
Ritajit Majumdar, Amit Saha, Amlan Chakrabarti, Susmita Sur-Kolay(参考訳) 分解回路の深さを指数的に減少させるため, 3量子ユニタリゲートの効率的な分解にいくつかの中間クォートを用いる方法が提案されている。 中間キュービットは、特定の実行サイクルにおいてキュービットとして操作されることを意味する。 この方法は、主にNISQ時代に、キュービットを量子ビットとして扱うが、計算中に状態に$\ket{2}$にアクセスする必要がある場合のみである。 本稿では,そのような分解に耐障害性を含めることの課題について考察する。 まず、回路の任意の時点で$\ket{2}$ 状態へのアクセスを必要とする量子ビットは、量子エラー訂正符号 (qecc) を使ってエンコードされなければならないことを示し、その結果、量子ビットと量子ビットの両方が初期状態で回路となる。 クトリットはクビットよりもノイズが多いため、クビットのみの分解よりも特定の精度を達成するために、より高い結合度を必要とすることが期待されている。 次に分析的に導き出す i) 誤りの確率の関数としてのqubit-qutritとqubit-only分解に必要な連結のレベル数、及び (ii) qubit-qutrit分解の基準は、qubitのみ分解よりも低いゲート数となる。 量子ハードウェアノイズの異なる値と2制御三元CNOTゲートの非可逆的実装を考慮し、量子加算器の例回路に対して量子ビット・量子化分解が優れている状況を得る。

The use of a few intermediate qutrits for efficient decomposition of 3-qubit unitary gates has been proposed, to obtain an exponential reduction in the depth of the decomposed circuit. An intermediate qutrit implies that a qubit is operated as a qutrit in a particular execution cycle. This method, primarily for the NISQ era, treats a qubit as a qutrit only for the duration when it requires access to the state $\ket{2}$ during the computation. In this article, we study the challenges of including fault-tolerance in such a decomposition. We first show that any qubit that requires access to the state $\ket{2}$ at any point in the circuit, must be encoded using a qutrit quantum error correcting code (QECC), thus resulting in a circuit with both qubits and qutrits at the outset. Since qutrits are noisier than qubits, the former is expected to require higher levels of concatenation to achieve a particular accuracy than that for qubit-only decomposition. Next, we derive analytically (i) the number of levels of concatenation required for qubit-qutrit and qubit-only decompositions as a function of the probability of error, and (ii) the criterion for which qubit-qutrit decomposition leads to a lower gate count than qubit-only decomposition. We present numerical results for these two types of decomposition and obtain the situation where qubit-qutrit decomposition excels for the example circuit of the quantum adder by considering different values for quantum hardware-noise and non-transversal implementation of the 2-controlled ternary CNOT gate.
翻訳日:2023-09-13 17:52:56 公開日:2023-09-12
# 構造化知識強化によるオープンワールドストーリー生成:包括的調査

Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey ( http://arxiv.org/abs/2212.04634v3 )

ライセンス: Link先を確認
Yuxin Wang, Jieru Lin, Zhiwei Yu, Wei Hu, B\"orje F. Karlsson(参考訳) ストーリーテリングと物語は人間体験の基本であり、社会と文化の関わりに絡み合っている。 そのため、研究者は長い間、物語を自動生成できるシステムを作ろうとしてきた。 近年,ディープラーニングと大量のデータリソースを活用して,自動ストーリ生成が大きな進歩を見せている。 しかし、生成したストーリーのグローバルコヒーレンスの必要性など、かなりの課題は、生成モデルが人間のナレーターと同じストーリーテリング能力に達することを妨げている。 これらの課題に取り組むために、多くの研究は構造的知識を生成プロセスに注入し、構造的知識強化ストーリー生成(structured knowledge-enhanced story generation)と呼ばれる。 外部知識の導入は、ストーリーイベント間の論理的一貫性を高め、より良い知識基盤化を達成し、ストーリーにおける過剰な一般化と反復問題を緩和することができる。 この調査は、この研究分野の最新かつ包括的なレビューを提供する。 (i)既存の手法がいかに構造化された知識をストーリー生成に組み込むかに関する体系的分類法を提示する。 (二)ストーリーコーパス、構造化知識データセット、評価指標をまとめる。 (3)知識強化ストーリー生成の課題を多次元的に把握し,将来的な研究の方向性に光を当てる。

Storytelling and narrative are fundamental to human experience, intertwined with our social and cultural engagement. As such, researchers have long attempted to create systems that can generate stories automatically. In recent years, powered by deep learning and massive data resources, automatic story generation has shown significant advances. However, considerable challenges, like the need for global coherence in generated stories, still hamper generative models from reaching the same storytelling ability as human narrators. To tackle these challenges, many studies seek to inject structured knowledge into the generation process, which is referred to as structured knowledge-enhanced story generation. Incorporating external knowledge can enhance the logical coherence among story events, achieve better knowledge grounding, and alleviate over-generalization and repetition problems in stories. This survey provides the latest and comprehensive review of this research field: (i) we present a systematic taxonomy regarding how existing methods integrate structured knowledge into story generation; (ii) we summarize involved story corpora, structured knowledge datasets, and evaluation metrics; (iii) we give multidimensional insights into the challenges of knowledge-enhanced story generation and cast light on promising directions for future study.
翻訳日:2023-09-13 17:52:28 公開日:2023-09-12
# OCT画像における網膜浮腫病変の信頼性の検討

Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images ( http://arxiv.org/abs/2212.00330v4 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Ke Zou, Yanyu Xu, Qingquan Meng, Rick Siow Mong Goh, Yong Liu, and Huazhu Fu(参考訳) OCT画像からの網膜浮腫病変の関節分節化のタスクにおいて, ぼやけた境界, 症状のスケール差, 背景雑音の干渉など, 複雑な病態の特徴に着目し, より信頼性の高い分節化を図った。 本稿では,信頼性評価により精度の高いセグメンテーション結果が得られる,信頼性の高いマルチスケールウェーブレットエンハンスドトランスネットワークを提案する。 具体的には,OCT画像における網膜浮腫病変の複雑な病態を学習する能力の向上を目的として,新たに設計されたウェーブレット強化特徴抽出器ネットワークとマルチスケールトランスフォーマーモジュールを統合した,新たなセグメンテーションバックボーンを開発した。 一方、セグメンテーション結果の信頼性を高めるために、主観的論理実証理論に基づく新たな不確実性セグメンテーションヘッドを導入し、対応する全体不確実性評価スコアマップを用いて最終セグメンテーション結果を生成する。 網膜浮腫病変セグメンテーションにおけるai-challenge 2018の公開データベースについて総合的な実験を行い,本手法は他の最先端セグメンテーション法に比べて高い信頼性でセグメンテーション精度を達成できることを示した。 コードは、https://github.com/LooKing9218/ReliableRESegでリリースされる。

Focusing on the complicated pathological features, such as blurred boundaries, severe scale differences between symptoms, background noise interference, etc., in the task of retinal edema lesions joint segmentation from OCT images and enabling the segmentation results more reliable. In this paper, we propose a novel reliable multi-scale wavelet-enhanced transformer network, which can provide accurate segmentation results with reliability assessment. Specifically, aiming at improving the model's ability to learn the complex pathological features of retinal edema lesions in OCT images, we develop a novel segmentation backbone that integrates a wavelet-enhanced feature extractor network and a multi-scale transformer module of our newly designed. Meanwhile, to make the segmentation results more reliable, a novel uncertainty segmentation head based on the subjective logical evidential theory is introduced to generate the final segmentation results with a corresponding overall uncertainty evaluation score map. We conduct comprehensive experiments on the public database of AI-Challenge 2018 for retinal edema lesions segmentation, and the results show that our proposed method achieves better segmentation accuracy with a high degree of reliability as compared to other state-of-the-art segmentation approaches. The code will be released on: https://github.com/LooKing9218/ReliableRESeg.
翻訳日:2023-09-13 17:52:10 公開日:2023-09-12
# 複数の選択肢から選択する学習

Learning to Select from Multiple Options ( http://arxiv.org/abs/2212.00301v3 )

ライセンス: Link先を確認
Jiangshu Du, Wenpeng Yin, Congying Xia, Philip S. Yu(参考訳) 多くのNLPタスクは、分類タスク、複数選択質問応答など、一連のオプションから選択問題とみなすことができる。 テクスチャエンテーメント(TE)は、それらの選択問題に対処するための最先端(SOTA)アプローチとして示されている。 TEは入力テキストを前提 (P) として扱い、オプションを仮説 (H) として扱う。 第一に、ペアワイズ・モデリングは、他の選択肢に気付かないが、人間は競合する候補を比較して最適な選択肢を決定することが多いため、直感的ではない。 この2つの問題に対処するために、この研究はまず、現在の(P, H)モデリングのコンテキストとして他のkオプションを追加することで、コンテキスト化されたTEモデル(Context-TE)を提案する。 Context-TEは、さまざまなコンテキストを考慮するため、より信頼性の高いHの決定を学習することができる。 次に,複数の選択肢を同時に選択するparallel-teを考案することで,コンテキストテを高速化する。 Parallel-TEはContext-TEと同等のパフォーマンスを維持しながら、推論速度を大幅に改善する。 提案手法は,オプションのサイズの異なる典型的な選択問題である3つのタスク(超微細なエンティティタイピング,意図検出,複数選択QA)で評価する。 実験の結果,新たなSOTA性能が得られた。特にParallel-TEは,1対のTEよりも100倍高速である。 私たちのコードはhttps://github.com/jiangshdd/LearningToSelect.comで公開されています。

Many NLP tasks can be regarded as a selection problem from a set of options, such as classification tasks, multi-choice question answering, etc. Textual entailment (TE) has been shown as the state-of-the-art (SOTA) approach to dealing with those selection problems. TE treats input texts as premises (P), options as hypotheses (H), then handles the selection problem by modeling (P, H) pairwise. Two limitations: first, the pairwise modeling is unaware of other options, which is less intuitive since humans often determine the best options by comparing competing candidates; second, the inference process of pairwise TE is time-consuming, especially when the option space is large. To deal with the two issues, this work first proposes a contextualized TE model (Context-TE) by appending other k options as the context of the current (P, H) modeling. Context-TE is able to learn more reliable decision for the H since it considers various context. Second, we speed up Context-TE by coming up with Parallel-TE, which learns the decisions of multiple options simultaneously. Parallel-TE significantly improves the inference speed while keeping comparable performance with Context-TE. Our methods are evaluated on three tasks (ultra-fine entity typing, intent detection and multi-choice QA) that are typical selection problems with different sizes of options. Experiments show our models set new SOTA performance; particularly, Parallel-TE is faster than the pairwise TE by k times in inference. Our code is publicly available at https://github.com/jiangshdd/LearningToSelect.
翻訳日:2023-09-13 17:51:47 公開日:2023-09-12
# 計算効率の良い強化学習:簡単なルールを活かした探索

Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging Simple Rules ( http://arxiv.org/abs/2211.16691v3 )

ライセンス: Link先を確認
Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones(参考訳) モデルフリー強化学習(RL)は、一般的にサンプルの複雑さに悩まされる。 一方で、システムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。 そこで本研究では,このようなルールを組み込んだ連続的アクター・クリティカル・フレームワークの簡易かつ効果的な修正を提案し,RLエージェントの収束を著しく促進する状態-アクション空間の領域を回避する。 具体的には、エージェントが直感に従わない場合、エージェントが選択したアクションを飽和させ、重要なことは、学習プロセスが飽和ステップの影響を受けないようにポリシーの勾配更新ステップを変更することである。 室内温度制御のケーススタディでは、計算オーバーヘッドを伴わず、良好な最終性能を維持しながら、従来のエージェントよりも最大6~7倍の性能のポリシーに収束することができる。

Model-free Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state-action space to find well-performing policies. On the other hand, we postulate that expert knowledge of the system often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic frameworks to incorporate such rules and avoid regions of the state-action space that are known to be suboptimal, thereby significantly accelerating the convergence of RL agents. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process is not affected by the saturation step. On a room temperature control case study, it allows agents to converge to well-performing policies up to 6-7x faster than classical agents without computational overhead and while retaining good final performance.
翻訳日:2023-09-13 17:51:21 公開日:2023-09-12
# エゴセントリック行動予測のためのインタラクションビジュアルトランスフォーマ

Interaction Visual Transformer for Egocentric Action Anticipation ( http://arxiv.org/abs/2211.14154v6 )

ライセンス: Link先を確認
Debaditya Roy, Ramanathan Rajendiran and Basura Fernando(参考訳) ヒトと物体の相互作用は最も重要な視覚的手がかりの1つであり、人間と物体の相互作用をエゴセントリックな行動予測のために表現する方法を提案する。 本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練することにより,インタラクションをモデル化するトランスフォーマーを提案する。 具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。 これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。 本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

Human-object interaction is one of the most important visual cues and we propose a novel way to represent human-object interactions for egocentric action anticipation. We propose a novel transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
翻訳日:2023-09-13 17:51:01 公開日:2023-09-12
# ディープグラフクラスタリングに関するサーベイ:分類学、チャレンジ、応用、そしてオープンリソース

A Survey of Deep Graph Clustering: Taxonomy, Challenge, Application, and Open Resource ( http://arxiv.org/abs/2211.12875v4 )

ライセンス: Link先を確認
Yue Liu, Jun Xia, Sihang Zhou, Xihong Yang, Ke Liang, Chenchen Fan, Yan Zhuang, Stan Z. Li, Xinwang Liu, Kunlun He(参考訳) グラフのノードを複数のクラスタに分割することを目的としたグラフクラスタリングは、基本的には、挑戦的なタスクです。 ディープラーニングの強力な表現能力から、ディープグラフクラスタリング手法は近年大きな成功を収めている。 しかし、それに対応する調査論文は比較的少ないため、この分野を概観することは差し迫っている。 この動機から,深層グラフクラスタリングの包括的調査を行う。 まず,この分野における定式化,評価,開発について紹介する。 次に,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法の4つの異なる基準に基づいて,ディープグラフクラスタリング手法の分類について述べる。 第3に,既存の手法を広範な実験を通じて慎重に分析し,グラフデータの品質,安定性,スケーラビリティ,識別能力,未知クラスタ数といった5つの視点から課題と機会を要約する。 さらに,コンピュータビジョン,自然言語処理,レコメンデーションシステム,ソーシャルネットワーク解析,バイオインフォマティクス,医学など6分野の深層グラフクラスタリング手法の応用について紹介する。 最後に重要なことは、この論文はオープンリソースのサポートを提供する。 1) 最先端のディープグラフクラスタリングメソッド(ペーパー、コード、データセット)のコレクション(\url{https://github.com/yueliu 1999/Awesome-Deep-Graph-Clustering})と 2)ディープグラフクラスタリングの統一フレームワーク(\url{https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering})。 この研究がクイックガイドとなり、研究者たちがこの活発な分野での課題を克服できることを期待しています。

Graph clustering, which aims to divide nodes in the graph into several distinct clusters, is a fundamental yet challenging task. Benefiting from the powerful representation capability of deep learning, deep graph clustering methods have achieved great success in recent years. However, the corresponding survey paper is relatively scarce, and it is imminent to make a summary of this field. From this motivation, we conduct a comprehensive survey of deep graph clustering. Firstly, we introduce formulaic definition, evaluation, and development in this field. Secondly, the taxonomy of deep graph clustering methods is presented based on four different criteria, including graph type, network architecture, learning paradigm, and clustering method. Thirdly, we carefully analyze the existing methods via extensive experiments and summarize the challenges and opportunities from five perspectives, including graph data quality, stability, scalability, discriminative capability, and unknown cluster number. Besides, the applications of deep graph clustering methods in six domains, including computer vision, natural language processing, recommendation systems, social network analyses, bioinformatics, and medical science, are presented. Last but not least, this paper provides open resource supports, including 1) a collection (\url{https://github.com/yueliu1999/Awesome-Deep-Graph-Clustering}) of state-of-the-art deep graph clustering methods (papers, codes, and datasets) and 2) a unified framework (\url{https://github.com/Marigoldwu/A-Unified-Framework-for-Deep-Attribute-Graph-Clustering}) of deep graph clustering. We hope this work can serve as a quick guide and help researchers overcome challenges in this vibrant field.
翻訳日:2023-09-13 17:50:41 公開日:2023-09-12
# 一度だけラベルを付ける: ポイントクラウドから画像への3Dボックス適応

You Only Label Once: 3D Box Adaptation from Point Cloud to Image via Semi-Supervised Learning ( http://arxiv.org/abs/2211.09302v2 )

ライセンス: Link先を確認
Jieqi Shi, Peiliang Li, Xiaozhi Chen, Shaojie Shen(参考訳) 画像ベースの3Dオブジェクト検出タスクは、予測された3Dバウンディングボックスが、物体の輪郭を画像によく適合させながら、3D空間上の幾何学的属性を保ちながら、例えば、物理的次元、対方向直交等を保った ''tightness''' プロジェクション(立方体とも呼ばれる)を有することを期待する。 これらの要件はアノテーションに重大な課題をもたらします。 画像にLidarでラベル付けされた3Dボックスを投影するだけで、画像にキューブを直接描画しても元の3D情報にはアクセスできない。 本研究では,360$^{\circ}$ Lidar 3Dバウンディングボックスの最小パラメータを自動的に調整し,パノラマカメラの外観を完璧に適合させる学習型3Dボックス適応手法を提案する。 トレーニング段階では2dボックスアノテーションのみを指導することで,lidarボックスから3dプロパティを備えた正確な画像レベルのcuboidアノテーションを生成できる。 私たちのメソッドを ‘you only label once'' と呼びます。つまり、ポイントクラウドにラベルを付け、周囲のすべてのカメラに自動的に適応します。 これは精度と効率のバランスを良くし、正確な立方体アノテーションに対するラベル付けの労力を劇的に削減します。 公開waymoおよびnuscenesデータセットの広範な実験により,手作業による調整を必要とせず,画像上に人間レベルのcuboidアノテーションを生成できることが確認された。

The image-based 3D object detection task expects that the predicted 3D bounding box has a ``tightness'' projection (also referred to as cuboid), which fits the object contour well on the image while still keeping the geometric attribute on the 3D space, e.g., physical dimension, pairwise orthogonal, etc. These requirements bring significant challenges to the annotation. Simply projecting the Lidar-labeled 3D boxes to the image leads to non-trivial misalignment, while directly drawing a cuboid on the image cannot access the original 3D information. In this work, we propose a learning-based 3D box adaptation approach that automatically adjusts minimum parameters of the 360$^{\circ}$ Lidar 3D bounding box to perfectly fit the image appearance of panoramic cameras. With only a few 2D boxes annotation as guidance during the training phase, our network can produce accurate image-level cuboid annotations with 3D properties from Lidar boxes. We call our method ``you only label once'', which means labeling on the point cloud once and automatically adapting to all surrounding cameras. As far as we know, we are the first to focus on image-level cuboid refinement, which balances the accuracy and efficiency well and dramatically reduces the labeling effort for accurate cuboid annotation. Extensive experiments on the public Waymo and NuScenes datasets show that our method can produce human-level cuboid annotation on the image without needing manual adjustment.
翻訳日:2023-09-13 17:50:12 公開日:2023-09-12
# 自動栄養の活用:栄養分類に基づく食品画像認識ベンチマークとデータセット

Leveraging Automatic Personalised Nutrition: Food Image Recognition Benchmark and Dataset based on Nutrition Taxonomy ( http://arxiv.org/abs/2211.07440v2 )

ライセンス: Link先を確認
Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Isabel Espinosa-Salinas, Gala Freixer, Julian Fierrez, Ruben Vera-Rodriguez, Enrique Carrillo de Santa Pau, Ana Ram\'irez de Molina and Javier Ortega-Garcia(参考訳) 健康なライフスタイルをリードすることは、私たちの摂食生活と食事習慣の悪化により、今日の社会において最も困難な目標の一つとなっている。 その結果、国内外の生物は健康的な食物食と身体活動の習慣を促進するために多くの努力をしている。 しかし、これらの勧告は日々の生活において従うのが難しい場合があり、一般人口にも基づいている。 その結果、個人化された栄養学という新たな研究領域が、スマートデバイスと人工知能(AI)メソッドによる個々のソリューションに焦点を当てることが考えられた。 本研究は, 食品画像と栄養分類を考察した初の栄養データベースであるAI4Food-NutritionDBデータベースを提案する。 さらに、栄養学の専門家は6つの栄養レベル、19の主なカテゴリー(例えば「ミート」)、73のサブカテゴリ(例えば「ホワイト・ミート」)、853の食品(例えば「チッケン」)の4つの異なる分類レベルを考える。 AI4Food-NutritionDBは、食品の摂取頻度、品質、分類の観点から、新しい食品コンピューティングアプローチへの扉を開く。 また,本データベースに加えて,栄養分類に基づく3つのタスク(カテゴリー,分類,最終製品)を研究コミュニティで使用するための標準実験プロトコルとベンチマークを提案する。 最後に、私たちはai4food-nutritiondbでトレーニングされたディープラーニングモデルもリリースしています。

Leading a healthy lifestyle has become one of the most challenging goals in today's society due to our sedentary lifestyle and poor eating habits. As a result, national and international organisms have made numerous efforts to promote healthier food diets and physical activity habits. However, these recommendations are sometimes difficult to follow in our daily life and they are also based on a general population. As a consequence, a new area of research, personalised nutrition, has been conceived focusing on individual solutions through smart devices and Artificial Intelligence (AI) methods. This study presents the AI4Food-NutritionDB database, the first nutrition database that considers food images and a nutrition taxonomy based on recommendations by national and international organisms. In addition, four different categorisation levels are considered following nutrition experts: 6 nutritional levels, 19 main categories (e.g., "Meat"), 73 subcategories (e.g., "White Meat"), and 893 final food products (e.g., "Chicken"). The AI4Food-NutritionDB opens the doors to new food computing approaches in terms of food intake frequency, quality, and categorisation. Also, in addition to the database, we propose a standard experimental protocol and benchmark including three tasks based on the nutrition taxonomy (i.e., category, subcategory, and final product) to be used for the research community. Finally, we also release our Deep Learning models trained with the AI4Food-NutritionDB, which can be used as pre-trained models, achieving accurate recognition results with challenging food image databases.
翻訳日:2023-09-13 17:49:41 公開日:2023-09-12
# 再帰的クロスビュー: 3dアノテーションなしで3dオブジェクト検出を実現するために2d検出器のみを使用する

Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object Detection without 3D Annotations ( http://arxiv.org/abs/2211.07108v3 )

ライセンス: Link先を確認
Shun Gui and Yan Luximon(参考訳) 3Dアノテーションに大きく依存することは、3Dオブジェクト検出の現実的な応用を制限する。 本稿では,完全指向の3dバウンディングボックスを予測しながら,いかなる3dアノテーションも必要としない手法を提案する。 再帰的クロスビュー(RCV, Recursive Cross-View)と呼ばれる手法は3次元の原理を用いて3次元検出を複数の2次元検出タスクに変換する。 そこで我々は,Cross-Viewによるインスタンス分割と3次元境界ボックス生成を収束するまで再帰的に行う再帰的パラダイムを提案する。 特に,提案手法では,各2dバウンディングボックスに対してフラスタムを使用し,それに続く再帰的パラダイムにより,最終的に完全指向の3dボックスと対応するクラスとスコアを生成する。 なお、クラスとスコアは2D検出器によって与えられる。 SUN RGB-D と KITTI のデータセットから推定した手法は,既存の画像ベース手法よりも優れている。 新しいタスクに迅速に利用できることを正当化するため、3次元人間の検出と3次元手検出という2つの実世界のシナリオで実装する。 その結果、2つの新しい3dアノテートデータセットが得られ、rcvは(セミ)自動3dアノテータとして見ることができる。 さらに,ライブRGB-Dストリーム上で7fpsで検出できる深度センサにRCVを配置する。 RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。

Heavily relying on 3D annotations limits the real-world application of 3D object detection. In this paper, we propose a method that does not demand any 3D annotation, while being able to predict fully oriented 3D bounding boxes. Our method, called Recursive Cross-View (RCV), utilizes the three-view principle to convert 3D detection into multiple 2D detection tasks, requiring only a subset of 2D labels. We propose a recursive paradigm, in which instance segmentation and 3D bounding box generation by Cross-View are implemented recursively until convergence. Specifically, our proposed method involves the use of a frustum for each 2D bounding box, which is then followed by the recursive paradigm that ultimately generates a fully oriented 3D box, along with its corresponding class and score. Note that, class and score are given by the 2D detector. Estimated on the SUN RGB-D and KITTI datasets, our method outperforms existing image-based approaches. To justify that our method can be quickly used to new tasks, we implement it on two real-world scenarios, namely 3D human detection and 3D hand detection. As a result, two new 3D annotated datasets are obtained, which means that RCV can be viewed as a (semi-) automatic 3D annotator. Furthermore, we deploy RCV on a depth sensor, which achieves detection at 7 fps on a live RGB-D stream. RCV is the first 3D detection method that yields fully oriented 3D boxes without consuming 3D labels.
翻訳日:2023-09-13 17:49:02 公開日:2023-09-12
# Deep-OSG: セミグループにおけるオペレータの深層学習

Deep-OSG: Deep Learning of Operators in Semigroup ( http://arxiv.org/abs/2302.03358v2 )

ライセンス: Link先を確認
Junfeng Chen, Kailiang Wu(参考訳) 本稿では,未知の自律力学系を様々な時間ラグで収集した時系列データを用いてモデル化する,セミグループにおける学習者のための新しいディープラーニング手法を提案する。 これは、[T. Qin, K. Wu, D. Xiu, J. Comput. Phys., 395:620--635, 2019], [K. Wu and D. Xiu, J. Comput. Phys., 408:109307, 2020], [Z. Chen, V. Churchill, K. Wu, and D. Xiu, J. Comput. Phys., 449:110782, 2022]の続編である。 本稿では,自律システムの半群を構成する可変時間ステップを持つ進化演算子のファミリーを学習することを目的とする。 半群の性質は非常に重要であり、システムの進化的挙動を様々な時間スケールで関連付けるが、以前の研究では考慮されなかった。 本稿では,新しいニューラルネットワークアーキテクチャと新たな損失関数を用いて,半群特性をデータ駆動学習プロセスに組み込むフレームワークを初めて提案する。 このフレームワークは非常に実現可能で、任意の適切なニューラルネットワークと組み合わせることができ、一般的な自律的ODEやPDEの学習に適用できる。 提案手法の予測精度と頑健性を理解するために, 厳密な誤差推定と分散分析を行い, 半群認識の利点を示した。 さらに,本手法では,予測のための時間ステップを任意に選択し,予測結果の自己整合性と一貫性を確保する。 大規模数値実験により, 半群特性の埋め込みは深層学習モデルのデータの依存性を顕著に低減し, 長期予測の精度, 堅牢性, 安定性を大幅に向上させることが示された。

This paper proposes a novel deep learning approach for learning operators in semigroup, with applications to modeling unknown autonomous dynamical systems using time series data collected at varied time lags. It is a sequel to the previous flow map learning (FML) works [T. Qin, K. Wu, and D. Xiu, J. Comput. Phys., 395:620--635, 2019], [K. Wu and D. Xiu, J. Comput. Phys., 408:109307, 2020], and [Z. Chen, V. Churchill, K. Wu, and D. Xiu, J. Comput. Phys., 449:110782, 2022], which focused on learning single evolution operator with a fixed time step. This paper aims to learn a family of evolution operators with variable time steps, which constitute a semigroup for an autonomous system. The semigroup property is very crucial and links the system's evolutionary behaviors across varying time scales, but it was not considered in the previous works. We propose for the first time a framework of embedding the semigroup property into the data-driven learning process, through a novel neural network architecture and new loss functions. The framework is very feasible, can be combined with any suitable neural networks, and is applicable to learning general autonomous ODEs and PDEs. We present the rigorous error estimates and variance analysis to understand the prediction accuracy and robustness of our approach, showing the remarkable advantages of semigroup awareness in our model. Moreover, our approach allows one to arbitrarily choose the time steps for prediction and ensures that the predicted results are well self-matched and consistent. Extensive numerical experiments demonstrate that embedding the semigroup property notably reduces the data dependency of deep learning models and greatly improves the accuracy, robustness, and stability for long-time prediction.
翻訳日:2023-09-13 17:41:26 公開日:2023-09-12
# 画像分類のための拡散モデルを用いた意味誘導生成画像拡張法

Semantic-Guided Generative Image Augmentation Method with Diffusion Models for Image Classification ( http://arxiv.org/abs/2302.02070v2 )

ライセンス: Link先を確認
Bohan Li, Xiao Xu, Xinghao Wang, Yutai Hou, Yunlong Feng, Feng Wang, Xuanliang Zhang, Qingfu Zhu, Wanxiang Che(参考訳) 既存の画像拡張法は摂動法と生成法という2つのカテゴリからなる。 摂動に基づく手法は、元の画像を強調するために予め定義された摂動を適用するが、局所的にしか変化せず、画像の多様性を欠く。 対照的に、生成法は画像の多様性を高めるが、意味的一貫性を保たない可能性があるため、元の画像の本質的意味を誤って変更する。 画像の多様性とセマンティック一貫性のバランスをとるために,画像分類のための拡散モデルを用いた意味誘導生成画像拡張法であるSGIDを提案する。 具体的には、SGIDは拡散モデルを用いて、画像の多様性に優れた拡張画像を生成する。 さらに重要なことは、SGIDは画像ラベルとキャプションを、拡張画像とオリジナル画像間のセマンティック一貫性を維持するためのガイダンスとして用いている。 実験の結果、SGIDはResNet-50で1.72%、ViTで0.33%、CLIP-ViT(LAION-2B)で0.14%向上した。 さらに、SGIDを他の画像拡張ベースラインと組み合わせることで、全体的なパフォーマンスが向上する。 定量的な人・自動評価と定性ケーススタディにより,SGIDのセマンティック一貫性と画像の多様性を実証する。

Existing image augmentation methods consist of two categories: perturbation-based methods and generative methods. Perturbation-based methods apply pre-defined perturbations to augment an original image, but only locally vary the image, thus lacking image diversity. In contrast, generative methods bring more image diversity in the augmented images but may not preserve semantic consistency, thus incorrectly changing the essential semantics of the original image. To balance image diversity and semantic consistency in augmented images, we propose SGID, a Semantic-guided Generative Image augmentation method with Diffusion models for image classification. Specifically, SGID employs diffusion models to generate augmented images with good image diversity. More importantly, SGID takes image labels and captions as guidance to maintain semantic consistency between the augmented and original images. Experimental results show that SGID outperforms the best augmentation baseline by 1.72% on ResNet-50 (from scratch), 0.33% on ViT (ImageNet-21k), and 0.14% on CLIP-ViT (LAION-2B). Moreover, SGID can be combined with other image augmentation baselines and further improves the overall performance. We demonstrate the semantic consistency and image diversity of SGID through quantitative human and automated evaluations, as well as qualitative case studies.
翻訳日:2023-09-13 17:40:25 公開日:2023-09-12
# モデル推定を伴わないロバストマルコフ決定過程

Robust Markov Decision Processes without Model Estimation ( http://arxiv.org/abs/2302.01248v2 )

ライセンス: Link先を確認
Wenhao Yang, Han Wang, Tadashi Kozuno, Scott M. Jordan, Zhihua Zhang(参考訳) ロバストマルコフ決定プロセス(MDP)は、環境の変化に敏感でない堅牢なポリシーを学ぶ際に、多くの注目を集めている。 頑健なMDPのサンプル効率を分析する研究が増えている。 しかし、実際に堅牢なMDPを適用するには2つの大きな障壁がある。 第一に、ほとんどの研究は、遷移確率を推定し、大量のメモリを$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$とする必要があるモデルベースの状態において堅牢なMDPを研究する。 第二に、先行研究は通常、堅牢なMDPを解決するための中間ステップとして最適解を得るための強いオラクルを仮定する。 しかし、実際には、そのようなオラクルは通常は存在しません。 オラクルを除去するために、元のロバストなMDPを別の形式に変換することで、確率勾配法を用いてロバストなMDPを解くことができる。 さらに、代替形式が元の形式と同じような役割を果たすことを証明している。 この新しい定式化により、oracleを必要とせず、より低いストレージ要件である$\mathcal{o}(|\mathcal{s}||\mathcal{a}|)$と引き換えに生成モデルまたはマルコフ連鎖からサンプルを生成することができる、モデルフリーな方法で堅牢なmdpを解決するためのサンプル効率の高いアルゴリズムを考案する。 最後に, 数値実験による理論的知見を検証し, 頑健なMDPの代替形態による効率性を示す。

Robust Markov Decision Processes (MDPs) are receiving much attention in learning a robust policy which is less sensitive to environment changes. There are an increasing number of works analyzing sample-efficiency of robust MDPs. However, there are two major barriers to applying robust MDPs in practice. First, most works study robust MDPs in a model-based regime, where the transition probability needs to be estimated and requires a large amount of memories $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$. Second, prior work typically assumes a strong oracle to obtain the optimal solution as an intermediate step to solve robust MDPs. However, in practice, such an oracle does not exist usually. To remove the oracle, we transform the original robust MDPs into an alternative form, which allows us to use stochastic gradient methods to solve the robust MDPs. Moreover, we prove the alternative form still plays a similar role as the original form. With this new formulation, we devise a sample-efficient algorithm to solve the robust MDPs in a model-free regime, which does not require an oracle and trades off a lower storage requirement $\mathcal{O}(|\mathcal{S}||\mathcal{A}|)$ with being able to generate samples from a generative model or Markovian chain. Finally, we validate our theoretical findings via numerical experiments, showing the efficiency with the alternative form of robust MDPs.
翻訳日:2023-09-13 17:40:01 公開日:2023-09-12
# 旅行モード選択のモデル化のための機械学習手法の予測と行動解析

A prediction and behavioural analysis of machine learning methods for modelling travel mode choice ( http://arxiv.org/abs/2301.04404v3 )

ライセンス: Link先を確認
Jos\'e \'Angel Mart\'in-Baos, Julio Alberto L\'opez-G\'omez, Luis Rodriguez-Benitez, Tim Hillel and Ricardo Garc\'ia-R\'odenas(参考訳) 旅行モード選択予測のためのさまざまな機械学習(ml)アプローチの出現は、トランスポートモデルラーに興味深い疑問をもたらす。 この質問に対する答えは、単純な予測性能に留まらず、振る舞いの解釈可能性や説明可能性、計算複雑性、データ効率など、多くの要因のバランスを取っている。 異なるML分類器の予測性能を古典的ランダムユーティリティモデルと比較しようとする研究団体が増えている。 しかしながら、既存の研究は通常、モデル選択に影響を与える他の側面を無視して、分散した予測性能のみを分析する。 さらに、不適切な検証スキームの使用、階層データの不正確なサンプリング、外部検証の欠如、離散メトリクスの排他的使用など、多くの研究は技術的な制限の影響を受けている。 モデル選択に影響を及ぼす可能性のある重要な要因(サンプル外の予測性能、予測市場シェアの正確さ、行動指標の抽出、計算効率)の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較することで、これらの制限に対処する。 複数の実世界データセットと合成データセットを結合し,データ生成関数が知られている。 その結果、最も非凝集性の高い予測性能(すなわち極度の勾配上昇とランダムな森林)を持つモデルでは、行動指標や集約モードのシェアが低く、より深いニューラルネットワークやMNL(Multinomial Logit)を含む他のモデルよりも高く見積もられていることが示唆された。 MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。

The emergence of a variety of Machine Learning (ML) approaches for travel mode choice prediction poses an interesting question to transport modellers: which models should be used for which applications? The answer to this question goes beyond simple predictive performance, and is instead a balance of many factors, including behavioural interpretability and explainability, computational complexity, and data efficiency. There is a growing body of research which attempts to compare the predictive performance of different ML classifiers with classical random utility models. However, existing studies typically analyse only the disaggregate predictive performance, ignoring other aspects affecting model choice. Furthermore, many studies are affected by technical limitations, such as the use of inappropriate validation schemes, incorrect sampling for hierarchical data, lack of external validation, and the exclusive use of discrete metrics. We address these limitations by conducting a systematic comparison of different modelling approaches, across multiple modelling problems, in terms of the key factors likely to affect model choice (out-of-sample predictive performance, accuracy of predicted market shares, extraction of behavioural indicators, and computational efficiency). We combine several real world datasets with synthetic datasets, where the data generation function is known. The results indicate that the models with the highest disaggregate predictive performance (namely extreme gradient boosting and random forests) provide poorer estimates of behavioural indicators and aggregate mode shares, and are more expensive to estimate, than other models, including deep neural networks and Multinomial Logit (MNL). It is further observed that the MNL model performs robustly in a variety of situations, though ML techniques can improve the estimates of behavioural indices such as Willingness to Pay.
翻訳日:2023-09-13 17:39:30 公開日:2023-09-12
# 強化学習による近似型自律量子誤差補正

Approximate Autonomous Quantum Error Correction with Reinforcement Learning ( http://arxiv.org/abs/2212.11651v2 )

ライセンス: Link先を確認
Yexiong Zeng, Zheng-Yang Zhou, Enrico Rinaldi, Clemens Gneiting, Franco Nori(参考訳) 自律的量子誤差補正(autonomous quantum error correction, aqec)は、設計された散逸によって論理量子ビットを保護する。 ボソニック符号空間は単一光子損失が主要なエラー源であり、その柔軟性と制御性のために aqec の候補として有望である。 既存の提案では、AQECがボソニックな符号空間で実現可能であることを示したが、これらのスキームは通常、Knill-Laflamme条件の正確な実装に基づいているため、ハミルトン距離を$d\geq 2$で実現する必要がある。 このようなハミルトン距離を実装するには、複数の非線形相互作用と制御場が必要である。 本稿では,ニールラフラム条件を緩和して近似 aqec のボソニック符号を提案する。 強化学習(RL)を用いて、Fock状態の$\vert 2\rangle$と$\vert 4\rangle$からなる最適なボソニックなコードワード(ここではRLコードで記述する)を同定する。 我々が示すように、rlコードは、近似的な性質にもかかわらず、単一光子損失を効果的に抑制し、断続的なしきい値を大きく超える効果的な減光プロセスに還元する。 したがって、完全なエラー保護に向けた価値あるビルディングブロックを提供するかもしれない。 エンジニアリングされた散逸をエミュレートするアシラシステムを含む誤り訂正ハミルトンは、ハミルトン距離$d=1$に基づいており、モデルの複雑さを著しく減少させる。 シングルキュービットゲートは、最大距離$d_g=2$のRL符号で実装される。

Autonomous quantum error correction (AQEC) protects logical qubits by engineered dissipation and thus circumvents the necessity of frequent, error-prone measurement-feedback loops. Bosonic code spaces, where single-photon loss represents the dominant source of error, are promising candidates for AQEC due to their flexibility and controllability. While existing proposals have demonstrated the in-principle feasibility of AQEC with bosonic code spaces, these schemes are typically based on the exact implementation of the Knill-Laflamme conditions and thus require the realization of Hamiltonian distances $d\geq 2$. Implementing such Hamiltonian distances requires multiple nonlinear interactions and control fields, rendering these schemes experimentally challenging. Here, we propose a bosonic code for approximate AQEC by relaxing the Knill-Laflamme conditions. Using reinforcement learning (RL), we identify the optimal bosonic set of codewords (denoted here by RL code), which, surprisingly, is composed of the Fock states $\vert 2\rangle$ and $\vert 4\rangle$. As we show, the RL code, despite its approximate nature, successfully suppresses single-photon loss, reducing it to an effective dephasing process that well surpasses the break-even threshold. It may thus provide a valuable building block toward full error protection. The error-correcting Hamiltonian, which includes ancilla systems that emulate the engineered dissipation, is entirely based on the Hamiltonian distance $d=1$, significantly reducing model complexity. Single-qubit gates are implemented in the RL code with a maximum distance $d_g=2$.
翻訳日:2023-09-13 17:38:58 公開日:2023-09-12
# StyleDomain: ワンショット領域適応のためのStyleGANの効率的および軽量パラメータ化

StyleDomain: Efficient and Lightweight Parameterizations of StyleGAN for One-shot and Few-shot Domain Adaptation ( http://arxiv.org/abs/2212.10229v4 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Maksim Nakhodnov, Dmitry Vetrov(参考訳) GANのドメイン適応は、大規模なデータセット(例えばStyleGAN)で事前訓練されたGANモデルを、サンプルが少ない特定の領域(例えば、絵の顔やスケッチなど)に適応させる問題である。 さまざまな方法でこの問題に取り組む方法はたくさんありますが、まだ解決されていない重要な質問はたくさんあります。 本稿では,GANのドメイン適応問題について,StyleGANモデルに焦点をあてた,体系的かつ詳細な解析を行う。 ソースドメインとターゲットドメインの類似性に応じて、ジェネレータを新しいドメインに適応させる役割を担っているstyleganの最も重要な部分について、詳細な調査を行う。 そこで本研究では,ドメイン適応のためのStyleGANの効率的かつ軽量なパラメータ化を提案する。 特に、StyleSpace(StyleDomain方向)には、類似のドメインに適応するのに十分な方向が存在することを示す。 類似したドメインに対しては、トレーニングパラメータをかなり少なくしながら、少数ショット適応で既存のベースラインを上回ることを可能にする、アフィン+とアフィンライト+パラメータ化を提案する。 最後に、StyleDomain方向を調べ、ドメイン混合やクロスドメイン画像の変形に応用する多くの驚くべき特性を見出す。 ソースコードはhttps://github.com/AIRI-Institute/StyleDomainにある。

Domain adaptation of GANs is a problem of fine-tuning GAN models pretrained on a large dataset (e.g. StyleGAN) to a specific domain with few samples (e.g. painting faces, sketches, etc.). While there are many methods that tackle this problem in different ways, there are still many important questions that remain unanswered. In this paper, we provide a systematic and in-depth analysis of the domain adaptation problem of GANs, focusing on the StyleGAN model. We perform a detailed exploration of the most important parts of StyleGAN that are responsible for adapting the generator to a new domain depending on the similarity between the source and target domains. As a result of this study, we propose new efficient and lightweight parameterizations of StyleGAN for domain adaptation. Particularly, we show that there exist directions in StyleSpace (StyleDomain directions) that are sufficient for adapting to similar domains. For dissimilar domains, we propose Affine+ and AffineLight+ parameterizations that allows us to outperform existing baselines in few-shot adaptation while having significantly less training parameters. Finally, we examine StyleDomain directions and discover their many surprising properties that we apply for domain mixing and cross-domain image morphing. Source code can be found at https://github.com/AIRI-Institute/StyleDomain.
翻訳日:2023-09-13 17:38:28 公開日:2023-09-12
# バイオメディカル画像分析コンペティションの現状

Biomedical image analysis competitions: The state of current participation practice ( http://arxiv.org/abs/2212.08568v2 )

ライセンス: Link先を確認
Matthias Eisenmann, Annika Reinke, Vivienn Weru, Minu Dietlinde Tizabi, Fabian Isensee, Tim J. Adler, Patrick Godau, Veronika Cheplygina, Michal Kozubek, Sharib Ali, Anubha Gupta, Jan Kybic, Alison Noble, Carlos Ortiz de Sol\'orzano, Samiksha Pachade, Caroline Petitjean, Daniel Sage, Donglai Wei, Elizabeth Wilden, Deepak Alapatt, Vincent Andrearczyk, Ujjwal Baid, Spyridon Bakas, Niranjan Balu, Sophia Bano, Vivek Singh Bawa, Jorge Bernal, Sebastian Bodenstedt, Alessandro Casella, Jinwook Choi, Olivier Commowick, Marie Daum, Adrien Depeursinge, Reuben Dorent, Jan Egger, Hannah Eichhorn, Sandy Engelhardt, Melanie Ganz, Gabriel Girard, Lasse Hansen, Mattias Heinrich, Nicholas Heller, Alessa Hering, Arnaud Huaulm\'e, Hyunjeong Kim, Bennett Landman, Hongwei Bran Li, Jianning Li, Jun Ma, Anne Martel, Carlos Mart\'in-Isla, Bjoern Menze, Chinedu Innocent Nwoye, Valentin Oreiller, Nicolas Padoy, Sarthak Pati, Kelly Payette, Carole Sudre, Kimberlin van Wijnen, Armine Vardazaryan, Tom Vercauteren, Martin Wagner, Chuanbo Wang, Moi Hoon Yap, Zeyun Yu, Chun Yuan, Maximilian Zenk, Aneeq Zia, David Zimmerer, Rina Bao, Chanyeol Choi, Andrew Cohen, Oleh Dzyubachyk, Adrian Galdran, Tianyuan Gan, Tianqi Guo, Pradyumna Gupta, Mahmood Haithami, Edward Ho, Ikbeom Jang, Zhili Li, Zhengbo Luo, Filip Lux, Sokratis Makrogiannis, Dominik M\"uller, Young-tack Oh, Subeen Pang, Constantin Pape, Gorkem Polat, Charlotte Rosalie Reed, Kanghyun Ryu, Tim Scherr, Vajira Thambawita, Haoyu Wang, Xinliang Wang, Kele Xu, Hung Yeh, Doyeob Yeo, Yixuan Yuan, Yan Zeng, Xin Zhao, Julian Abbing, Jannes Adam, Nagesh Adluru, Niklas Agethen, Salman Ahmed, Yasmina Al Khalil, Mireia Aleny\`a, Esa Alhoniemi, Chengyang An, Talha Anwar, Tewodros Weldebirhan Arega, Netanell Avisdris, Dogu Baran Aydogan, Yingbin Bai, Maria Baldeon Calisto, Berke Doga Basaran, Marcel Beetz, Cheng Bian, Hao Bian, Kevin Blansit, Louise Bloch, Robert Bohnsack, Sara Bosticardo, Jack Breen, Mikael Brudfors, Raphael Br\"ungel, Mariano Cabezas, Alberto Cacciola, Zhiwei Chen, Yucong Chen, Daniel Tianming Chen, Minjeong Cho, Min-Kook Choi, Chuantao Xie Chuantao Xie, Dana Cobzas, Julien Cohen-Adad, Jorge Corral Acero, Sujit Kumar Das, Marcela de Oliveira, Hanqiu Deng, Guiming Dong, Lars Doorenbos, Cory Efird, Sergio Escalera, Di Fan, Mehdi Fatan Serj, Alexandre Fenneteau, Lucas Fidon, Patryk Filipiak, Ren\'e Finzel, Nuno R. Freitas, Christoph M. Friedrich, Mitchell Fulton, Finn Gaida, Francesco Galati, Christoforos Galazis, Chang Hee Gan, Zheyao Gao, Shengbo Gao, Matej Gazda, Beerend Gerats, Neil Getty, Adam Gibicar, Ryan Gifford, Sajan Gohil, Maria Grammatikopoulou, Daniel Grzech, Orhun G\"uley, Timo G\"unnemann, Chunxu Guo, Sylvain Guy, Heonjin Ha, Luyi Han, Il Song Han, Ali Hatamizadeh, Tian He, Jimin Heo, Sebastian Hitziger, SeulGi Hong, SeungBum Hong, Rian Huang, Ziyan Huang, Markus Huellebrand, Stephan Huschauer, Mustaffa Hussain, Tomoo Inubushi, Ece Isik Polat, Mojtaba Jafaritadi, SeongHun Jeong, Bailiang Jian, Yuanhong Jiang, Zhifan Jiang, Yueming Jin, Smriti Joshi, Abdolrahim Kadkhodamohammadi, Reda Abdellah Kamraoui, Inha Kang, Junghwa Kang, Davood Karimi, April Khademi, Muhammad Irfan Khan, Suleiman A. Khan, Rishab Khantwal, Kwang-Ju Kim, Timothy Kline, Satoshi Kondo, Elina Kontio, Adrian Krenzer, Artem Kroviakov, Hugo Kuijf, Satyadwyoom Kumar, Francesco La Rosa, Abhi Lad, Doohee Lee, Minho Lee, Chiara Lena, Hao Li, Ling Li, Xingyu Li, Fuyuan Liao, KuanLun Liao, Arlindo Limede Oliveira, Chaonan Lin, Shan Lin, Akis Linardos, Marius George Linguraru, Han Liu, Tao Liu, Di Liu, Yanling Liu, Jo\~ao Louren\c{c}o-Silva, Jingpei Lu, Jiangshan Lu, Imanol Luengo, Christina B. Lund, Huan Minh Luu, Yi Lv, Yi Lv, Uzay Macar, Leon Maechler, Sina Mansour L., Kenji Marshall, Moona Mazher, Richard McKinley, Alfonso Medela, Felix Meissen, Mingyuan Meng, Dylan Miller, Seyed Hossein Mirjahanmardi, Arnab Mishra, Samir Mitha, Hassan Mohy-ud-Din, Tony Chi Wing Mok, Gowtham Krishnan Murugesan, Enamundram Naga Karthik, Sahil Nalawade, Jakub Nalepa, Mohamed Naser, Ramin Nateghi, Hammad Naveed, Quang-Minh Nguyen, Cuong Nguyen Quoc, Brennan Nichyporuk, Bruno Oliveira, David Owen, Jimut Bahan Pal, Junwen Pan, Wentao Pan, Winnie Pang, Bogyu Park, Vivek Pawar, Kamlesh Pawar, Michael Peven, Lena Philipp, Tomasz Pieciak, Szymon Plotka, Marcel Plutat, Fattaneh Pourakpour, Domen Prelo\v{z}nik, Kumaradevan Punithakumar, Abdul Qayyum, Sandro Queir\'os, Arman Rahmim, Salar Razavi, Jintao Ren, Mina Rezaei, Jonathan Adam Rico, ZunHyan Rieu, Markus Rink, Johannes Roth, Yusely Ruiz-Gonzalez, Numan Saeed, Anindo Saha, Mostafa Salem, Ricardo Sanchez-Matilla, Kurt Schilling, Wei Shao, Zhiqiang Shen, Ruize Shi, Pengcheng Shi, Daniel Sobotka, Th\'eodore Soulier, Bella Specktor Fadida, Danail Stoyanov, Timothy Sum Hon Mun, Xiaowu Sun, Rong Tao, Franz Thaler, Antoine Th\'eberge, Felix Thielke, Helena Torres, Kareem A. Wahid, Jiacheng Wang, YiFei Wang, Wei Wang, Xiong Wang, Jianhui Wen, Ning Wen, Marek Wodzinski, Ye Wu, Fangfang Xia, Tianqi Xiang, Chen Xiaofei, Lizhan Xu, Tingting Xue, Yuxuan Yang, Lin Yang, Kai Yao, Huifeng Yao, Amirsaeed Yazdani, Michael Yip, Hwanseung Yoo, Fereshteh Yousefirizi, Shunkai Yu, Lei Yu, Jonathan Zamora, Ramy Ashraf Zeineldin, Dewen Zeng, Jianpeng Zhang, Bokai Zhang, Jiapeng Zhang, Fan Zhang, Huahong Zhang, Zhongchen Zhao, Zixuan Zhao, Jiachen Zhao, Can Zhao, Qingshuo Zheng, Yuheng Zhi, Ziqi Zhou, Baosheng Zou, Klaus Maier-Hein, Paul F. J\"ager, Annette Kopp-Schneider, Lena Maier-Hein(参考訳) 国際ベンチマークコンテストの数は、機械学習(ML)の研究と実践の分野で着実に増えている。 しかし、これまでのところ、コミュニティが抱える研究課題に取り組む上で直面するボトルネックと同様に、一般的なプラクティスについてはほとんど知られていない。 バイオメディカルイメージング分析の特定の分野におけるアルゴリズム開発の現状を明らかにするため,IEEE ISBI 2021およびMICCAI 2021会議(合計80コンペティション)と共同で実施した課題の参加者全員を対象とした国際調査を設計した。 この調査は、参加者の専門知識と作業環境、選択した戦略、およびアルゴリズムの特徴をカバーした。 調査には72%の参加者が参加した。 結果から,知識交換は参加者に対する第一のインセンティブ (70%) であり,賞金の受け取りは小さい (16%) に過ぎなかった。 80時間の平均的な作業時間がメソッド開発に費やされた一方で、参加者の大多数は、メソッド開発に十分な時間を持っていなかった(32%)。 25%はインフラストラクチャがボトルネックであると認識している。 全体として、すべてのソリューションの94%がディープラーニングベースだった。 そのうち84%は標準アーキテクチャに基づいていた。 回答者の43%が、データサンプル(画像など)は一度に処理するには大きすぎると回答している。 これはパッチベースのトレーニング(69%)、ダウンサンプリング(37%)、一連の2Dタスクとして3D解析タスクを解くことで対処された。 k-foldクロスバリデーションは参加者の37%に過ぎず、参加者の50%が複数の同一モデル(61%)または異種モデル(39%)に基づいてセンシングを行った。 回答者の48%が後処理を施した。

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
翻訳日:2023-09-13 17:38:06 公開日:2023-09-12
# ROSCOE:ステップバイステップ推論のためのメトリクススイート

ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning ( http://arxiv.org/abs/2212.07919v2 )

ライセンス: Link先を確認
Olga Golovneva, Moya Chen, Spencer Poff, Martin Corredor, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz(参考訳) 大きな言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクのパフォーマンスが向上する。 これらの推論ステップは、モデル解釈性と検証を大幅に改善するが、その正確性(最終回答によらず)を客観的に研究することは、自動評価のための信頼できる方法がなければ困難である。 私たちは単に、記述された推論ステップが最終最終タスクの予測を実際にサポートする頻度を知らないだけです。 本稿では,従来のテキスト生成評価指標を改善し拡張する,解釈可能で教師なしの自動スコアのセットであるroscoeを提案する。 ベースラインメトリクスに対するroscoeを評価するために,推論誤りの類型をデザインし,一般的な推論データセット上での合成および人為評価スコアを収集する。 既存のメトリクスとは対照的に、ROSCOEはステップバイステップの合理性の特性を活用することで、意味的一貫性、論理性、情報性、流布性、事実性を計測できる。 私たちは、5人の注釈付きと6つのプログラム的な摂動型診断データセットに関する測定基準の強みを実証的に検証しました。

Large language models show improved downstream task performance when prompted to generate step-by-step reasoning to justify their final answers. These reasoning steps greatly improve model interpretability and verification, but objectively studying their correctness (independent of the final answer) is difficult without reliable methods for automatic evaluation. We simply do not know how often the stated reasoning steps actually support the final end task predictions. In this work, we present ROSCOE, a suite of interpretable, unsupervised automatic scores that improve and extend previous text generation evaluation metrics. To evaluate ROSCOE against baseline metrics, we design a typology of reasoning errors and collect synthetic and human evaluation scores on commonly used reasoning datasets. In contrast with existing metrics, ROSCOE can measure semantic consistency, logicality, informativeness, fluency, and factuality - among other traits - by leveraging properties of step-by-step rationales. We empirically verify the strength of our metrics on five human annotated and six programmatically perturbed diagnostics datasets - covering a diverse set of tasks that require reasoning skills and show that ROSCOE can consistently outperform baseline metrics.
翻訳日:2023-09-13 17:37:33 公開日:2023-09-12
# ShaRPy:不確実性のあるRGB-Dの形状再構成と手探り推定

ShaRPy: Shape Reconstruction and Hand Pose Estimation from RGB-D with Uncertainty ( http://arxiv.org/abs/2303.10042v2 )

ライセンス: Link先を確認
Vanessa Wirth, Anna-Maria Liphardt, Birte Coppers, Johanna Br\"aunig, Simon Heinrich, Sigrid Leyendecker, Arnd Kleyer, Georg Schett, Martin Vossiek, Bernhard Egger, Marc Stamminger(参考訳) その可能性にもかかわらず、マーカーレスハンドトラッキング技術は、炎症性筋骨格疾患における活動の診断やモニタリングに実際は適用されていない。 その理由の1つは、ほとんどの方法の焦点が粗い、妥当なポーズの再構築にあるのに対して、臨床的文脈では、正確で、解釈可能で、信頼できる結果が必要であることである。 そこで本研究では,最初のrgb-d形状再構成・手姿勢追跡システムであるsharpyを提案する。 ShaRPyはポーズに加え、パーソナライズされた手の形を近似し、デジタル双生児のより現実的で直感的な理解を促進する。 提案手法では,1台のコンシューマレベルのRGB-Dカメラによる軽量な設定しか必要としないが,測定精度の低い空間において,小さな関節角偏差しか持たない類似のポーズを識別できる。 これはデータ駆動型高密度対応予測器と従来のエネルギー最小化を組み合わせたものである。 インタラクティブな可視化と生体シミュレーションのギャップを埋めるために、我々は生体医学的制約を取り入れ、そのポーズと手形の両方を最適化するパラメトリックハンドモデルを利用する。 キーポイント検出ベンチマークを用いてShaRPyを評価し,筋骨格疾患の能動モニタリングのための手機能評価の質的結果を示した。

Despite their potential, markerless hand tracking technologies are not yet applied in practice to the diagnosis or monitoring of the activity in inflammatory musculoskeletal diseases. One reason is that the focus of most methods lies in the reconstruction of coarse, plausible poses, whereas in the clinical context, accurate, interpretable, and reliable results are required. Therefore, we propose ShaRPy, the first RGB-D Shape Reconstruction and hand Pose tracking system, which provides uncertainty estimates of the computed pose, e.g., when a finger is hidden or its estimate is inconsistent with the observations in the input, to guide clinical decision-making. Besides pose, ShaRPy approximates a personalized hand shape, promoting a more realistic and intuitive understanding of its digital twin. Our method requires only a light-weight setup with a single consumer-level RGB-D camera yet it is able to distinguish similar poses with only small joint angle deviations in a metrically accurate space. This is achieved by combining a data-driven dense correspondence predictor with traditional energy minimization. To bridge the gap between interactive visualization and biomedical simulation we leverage a parametric hand model in which we incorporate biomedical constraints and optimize for both, its pose and hand shape. We evaluate ShaRPy on a keypoint detection benchmark and show qualitative results of hand function assessments for activity monitoring of musculoskeletal diseases.
翻訳日:2023-09-13 17:31:30 公開日:2023-09-12
# 地域型畳み込みニューラルネットワークを用いた植物病検出

Plant Disease Detection using Region-Based Convolutional Neural Network ( http://arxiv.org/abs/2303.09063v2 )

ライセンス: Link先を確認
Hasin Rehana, Muhammad Ibrahim, Md. Haider Ali(参考訳) 農業はバングラデシュの食料と経済において重要な役割を担っている。 長年にわたる人口の急激な増加は、食料生産の需要も増している。 低作物生産の主な原因の1つは、多くの細菌、ウイルス、真菌の植物病である。 植物病の早期発見と農薬や肥料の適切な使用は、病気の予防と収量の向上に不可欠である。 農夫の多くは、植物の状態を知ることなく、全畑で一般的な農薬や肥料を使っている。 このように、生産コストは頻繁に増加し、それだけでなく、時には収量に不利になる。 深層学習モデルは、植物の画像から植物疾患を自動的に検出し、人間の専門医の必要性を減らすのに非常に効果的である。 本稿では,トマトの葉病予測のための軽量深層学習モデルの構築を目的とする。 領域ベースの畳み込みニューラルネットワークを変更することで、ベンチマークデータセットで十分な経験的性能を示す効率的かつ効果的なモデルを設計する。 提案するモデルは、葉っぱの写真をドローンが撮る大きなシステムに簡単に配置でき、これらの画像は私たちのモデルに送られて健康状態を知ることができます。

Agriculture plays an important role in the food and economy of Bangladesh. The rapid growth of population over the years also has increased the demand for food production. One of the major reasons behind low crop production is numerous bacteria, virus and fungal plant diseases. Early detection of plant diseases and proper usage of pesticides and fertilizers are vital for preventing the diseases and boost the yield. Most of the farmers use generalized pesticides and fertilizers in the entire fields without specifically knowing the condition of the plants. Thus the production cost oftentimes increases, and, not only that, sometimes this becomes detrimental to the yield. Deep Learning models are found to be very effective to automatically detect plant diseases from images of plants, thereby reducing the need for human specialists. This paper aims at building a lightweight deep learning model for predicting leaf disease in tomato plants. By modifying the region-based convolutional neural network, we design an efficient and effective model that demonstrates satisfactory empirical performance on a benchmark dataset. Our proposed model can easily be deployed in a larger system where drones take images of leaves and these images will be fed into our model to know the health condition.
翻訳日:2023-09-13 17:31:05 公開日:2023-09-12
# 教師なし学習における一般化誤差のトレードオフ

Tradeoff of generalization error in unsupervised learning ( http://arxiv.org/abs/2303.05718v2 )

ライセンス: Link先を確認
Gilhan Kim, Hojun Lee, Junghyo Jo, Yongjoo Baek(参考訳) 一般化誤差(GE)を最小限に抑える最適なモデル複雑性を見つけることは、機械学習の重要な問題である。 従来の教師付き学習では、このタスクは一般的にバイアス-ばらつきのトレードオフを伴い、モデルをより複雑にすることでバイアスを下げる。 一方で、教師なし学習に同じトレードオフが存在するかどうかについてはほとんど研究されていない。 本研究では,教師なし学習は一般に,モデルエラーとデータエラーという,geの2成分のトレードオフを示す。より複雑なモデルを用いることで,データエラーのコストでモデルエラーを低減し,データエラーがより小さなトレーニングデータセットにおいてより重要な役割を果たすことを提案する。 これは、制限ボルツマン機械を訓練し、与えられた温度で2次元イジングモデルの構成と、与えられた入出率で完全に非対称な単純な排他過程を生成することによって裏付けられる。 また, 学習対象のデータがより複雑である場合には, 最適モデルはより複雑になる傾向が示唆された。

Finding the optimal model complexity that minimizes the generalization error (GE) is a key issue of machine learning. For the conventional supervised learning, this task typically involves the bias-variance tradeoff: lowering the bias by making the model more complex entails an increase in the variance. Meanwhile, little has been studied about whether the same tradeoff exists for unsupervised learning. In this study, we propose that unsupervised learning generally exhibits a two-component tradeoff of the GE, namely the model error and the data error -- using a more complex model reduces the model error at the cost of the data error, with the data error playing a more significant role for a smaller training dataset. This is corroborated by training the restricted Boltzmann machine to generate the configurations of the two-dimensional Ising model at a given temperature and the totally asymmetric simple exclusion process with given entry and exit rates. Our results also indicate that the optimal model tends to be more complex when the data to be learned are more complex.
翻訳日:2023-09-13 17:30:49 公開日:2023-09-12
# 吸収による洪水:複雑ネットワーク上の不均一帯域の効率的なプロトコル

Flooding with Absorption: An Efficient Protocol for Heterogeneous Bandits over Complex Networks ( http://arxiv.org/abs/2303.05445v2 )

ライセンス: Link先を確認
Junghyun Lee, Laura Schmid, Se-Young Yun(参考訳) マルチアームのバンディットはシーケンシャルな意思決定のモデル化に広く使われており、オンラインレコメンデーションシステムやワイヤレスネットワークなど、多くの現実のアプリケーションで広く使われている。 我々は,各エージェントがそれぞれ異なるアームを持つバンドイットインスタンスを解くマルチエージェント設定について検討する。 彼らの目標は、あるネットワーク上の通信プロトコルを介して協力しながら、グループの後悔を最小限にすることである。 この問題に関する以前の文献では、腕の不均一性とネットワークエージェントを別々に考慮していた。 本稿では,両方の特徴を包含する設定を導入する。 この新しい設定のために、我々はまず、古典的なUTBポリシーと組み合わされた標準洪水プロトコルに対する厳格な後悔の分析を行う。 そこで本稿では,複雑なネットワークの浸水による通信コストの低減を図るため,FwA(Flooding with absorption)と呼ばれる新しいプロトコルを提案する。 以上の結果について理論的解析を行い,洪水時のFwAの利点について考察する。 最後に、FwAが他のネットワークプロトコルと比較して最小限の性能損失にもかかわらず、通信コストを大幅に低下させるという、動的ネットワークを含む様々なシナリオを実験的に検証する。

Multi-armed bandits are extensively used to model sequential decision-making, making them ubiquitous in many real-life applications such as online recommender systems and wireless networking. We consider a multi-agent setting where each agent solves their own bandit instance endowed with a different set of arms. Their goal is to minimize their group regret while collaborating via some communication protocol over a given network. Previous literature on this problem only considered arm heterogeneity and networked agents separately. In this work, we introduce a setting that encompasses both features. For this novel setting, we first provide a rigorous regret analysis for a standard flooding protocol combined with the classic UCB policy. Then, to mitigate the issue of high communication costs incurred by flooding in complex networks, we propose a new protocol called Flooding with Absorption (FwA). We provide a theoretical analysis of the resulting regret bound and discuss the advantages of using FwA over flooding. Lastly, we experimentally verify on various scenarios, including dynamic networks, that FwA leads to significantly lower communication costs despite minimal regret performance loss compared to other network protocols.
翻訳日:2023-09-13 17:30:32 公開日:2023-09-12
# 線形QAOAに基づく分解アルゴリズムの落とし穴

Pitfalls of the sublinear QAOA-based factorization algorithm ( http://arxiv.org/abs/2303.04656v5 )

ライセンス: Link先を確認
S.V. Grebnev, M.A. Gavreev, E.O. Kiktenko, A.P. Guglya, A.K. Fedorov(参考訳) 量子コンピューティングデバイスは、広く普及している公開鍵暗号ツールの中心である素因数分解問題を解決する上で強力であると考えられている。 しかし、Shorの量子因数分解アルゴリズムの実装には、数値サイズと線形にスケールする重要なリソースが必要であり、量子エラー補正に必要なオーバーヘッドを考慮すると、2048ビットのRSA鍵を8時間で分解するには2000万の物理量子ビットが必要である。 yanらによる最近の提案 al.は、部分線形量子資源を用いて因子分解問題を解決する可能性を主張する。 我々の研究で示すように、この提案はシュノーラーの格子に基づくアプローチを利用するアルゴリズムの古典的な部分の計算複雑性の体系的な解析を欠いている。 提案する量子分解アルゴリズムに対する追加資源分析の必要性を示すいくつかの例を示す。

Quantum computing devices are believed to be powerful in solving the prime factorization problem, which is at the heart of widely deployed public-key cryptographic tools. However, the implementation of Shor's quantum factorization algorithm requires significant resources scaling linearly with the number size; taking into account an overhead that is required for quantum error correction the estimation is that 20 millions of (noisy) physical qubits are required for factoring 2048-bit RSA key in 8 hours. Recent proposal by Yan et. al. claims a possibility of solving the factorization problem with sublinear quantum resources. As we demonstrate in our work, this proposal lacks systematic analysis of the computational complexity of the classical part of the algorithm, which exploits the Schnorr's lattice-based approach. We provide several examples illustrating the need in additional resource analysis for the proposed quantum factorization algorithm.
翻訳日:2023-09-13 17:30:14 公開日:2023-09-12
# 日光自由空間量子鍵分布の理想的な波長

The ideal wavelength for daylight free-space quantum key distribution ( http://arxiv.org/abs/2303.02106v2 )

ライセンス: Link先を確認
Mostafa Abasifard, Chanaprom Cholsuk, Roberto G. Pousa, Anand Kumar, Ashkan Zand, Thomas Riel, Daniel K. L. Oi, Tobias Vogl(参考訳) 量子鍵分布(QKD)は近年,実証実験から市販システムまで成熟している。 主なボトルネックの1つは、指数的な信号減衰によるファイバーネットワークの通信距離の制限である。 大陸間距離の橋渡しには、大気上で量子信号を伝達する低軌道衛星を用いることができる。 しかし、これらの自由空間リンクは、日光が量子状態を測定するために使われる検出器を飽和させるため、夜間にしか動作できない。 連続的な可用性と高いデータレートを備えたグローバル量子インターネットにおけるQKDの適用には、日中操作が必要である。 本研究では,様々な量子光源に対する衛星対地量子チャネルをモデル化し,環境条件下で自由空間qkdの最適波長を同定する。 日中の量子通信はフラウンホーファー線または近赤外線スペクトル内で可能であり、太陽からの固有背景は両立できるほど低い。 有限鍵効果を考慮した年間最高秘密鍵長は、h\textalpha\ fraunhofer 線で達成可能である。 さらに重要なことは、他の特定のリンクシナリオに一般的に適応できる完全なモデルを提供します。 また, 六方晶窒化ホウ素の色中心をマイクロ共振器に結合した単一光子源を提案する。 我々の結果は屋上から屋根までのシナリオにも適用でき、そのため近未来の量子ネットワークに関係している。

Quantum key distribution (QKD) has matured in recent years from laboratory proof-of-principle demonstrations to commercially available systems. One of the major bottlenecks is the limited communication distance in fiber networks due to the exponential signal damping. To bridge intercontinental distances, low Earth orbit satellites transmitting the quantum signals over the atmosphere can be used. These free-space links, however, can only operate during the night, as the sunlight otherwise saturates the detectors used to measure the quantum states. For applying QKD in a global quantum internet with continuous availability and high data rates, operation during daylight is required. In this work, we model a satellite-to-ground quantum channel for different quantum light sources to identify the optimal wavelength for free-space QKD in ambient conditions. Daylight quantum communication is possible within the Fraunhofer lines or in the near-infrared spectrum, where the intrinsic background from the sun is comparably low. The highest annual secret key length considering the finite key effect is achievable at the H\textalpha\ Fraunhofer line. More importantly, we provide the full model that can be adapted in general to any other specific link scenario. We also propose a true single-photon source based on a color center in hexagonal boron nitride coupled to a microresonator that can implement such a scheme. Our results can also be applied in roof-to-roof scenarios and are therefore relevant for near-future quantum networks.
翻訳日:2023-09-13 17:29:58 公開日:2023-09-12
# JOSA:アトラス構築による関節表面の登録は脳の形状と機能の正確なアライメントを可能にする

JOSA: Joint surface-based registration with atlas construction enables accurate alignment of the brain geometry and function ( http://arxiv.org/abs/2303.01592v3 )

ライセンス: Link先を確認
Jian Li, Greta Tuckute, Evelina Fedorenko, Brian L. Edlow, Adrian V. Dalca, Bruce Fischl(参考訳) 表面ベースの皮質登録は、医用画像解析において重要なトピックであり、多くの下流応用を促進する。 現在の皮質登録のアプローチは、主にsulcal depthやcurvatureのような幾何学的特徴によって行われており、しばしば折りたたみパターンの登録が脳機能のアライメントにつながると仮定している。 しかし,特に高次認知領域では,解剖学的対応領域の機能的変動が広く報告されている。 本研究は,人口固有のアトラスを同時に学習しながら,幾何学と関数のミスマッチを共同でモデル化する新しい皮質登録フレームワークJOSAを提案する。 JOSAは、半教師付きトレーニング戦略を用いて、推論時に関数データを必要とせず、幾何と関数の両方において優れた登録性能を達成する。 この学習フレームワークは、トレーニング中に利用可能な球面登録をガイドするために任意の補助データに拡張することができ、パーセレーション、構造的アイデンティティ、転写情報、分子プロファイルなど、推論中に取得することが困難または不可能である。

Surface-based cortical registration is an important topic in medical image analysis and facilitates many downstream applications. Current approaches for cortical registration are mainly driven by geometric features, such as sulcal depth and curvature, and often assume that registration of folding patterns leads to alignment of brain function. However, functional variability of anatomically corresponding areas across subjects has been widely reported, particularly in higher-order cognitive areas. In this work, we present JOSA, a novel cortical registration framework that jointly models the mismatch between geometry and function while simultaneously learning an unbiased population-specific atlas. Using a semi-supervised training strategy, JOSA achieves superior registration performance in both geometry and function without requiring functional data at inference. This learning framework can be extended to any auxiliary data to guide spherical registration that is available during training but is difficult or impossible to obtain during inference, such as parcellations, architectonic identity, transcriptomic information, and molecular profiles.
翻訳日:2023-09-13 17:29:37 公開日:2023-09-12
# 多体非マルコフ力学のダイアグラム法:記憶効果と絡み合い遷移

Diagrammatic method for many-body non-Markovian dynamics: memory effects and entanglement transitions ( http://arxiv.org/abs/2302.10563v3 )

ライセンス: Link先を確認
Giuliano Chiriac\`o and Mikheil Tsitsishvili and Dario Poletti and Rosario Fazio and Marcello Dalmonte(参考訳) 我々は,多体系のコヒーレント進化と非マルコフ浴との結合の量子力学について検討した。 本稿では,量子ジャンプの観点から非マルコフ力学を解き明かす手法を提案する。 量子軌道の確率を体系的に計算し,それを図式構造で定式化する手法を開発した。 非マルコフ性は量子軌道を実現する確率を再正規化し、記憶効果はマルコフ力学の上の摂動として解釈できる。 図形構造はダイソン方程式と類似しており、軌道の確率は解析的に計算可能であることを示す。 次に、ランダムなユニタリ回路における測定誘起絡み合い遷移について検討する。 非マルコビアン性は遷移を著しくシフトさせるのではなく、過渡的な強い散逸から守ることで絡み合いの体積法相を安定化させる。

We study the quantum dynamics of a many-body system subject to coherent evolution and coupled to a non-Markovian bath. We propose a technique to unravel the non-Markovian dynamics in terms of quantum jumps, a connection that was so far only understood for single-body systems. We develop a systematic method to calculate the probability of a quantum trajectory, and formulate it in a diagrammatic structure. We find that non-Markovianity renormalizes the probability of realizing a quantum trajectory, and that memory effects can be interpreted as a perturbation on top of the Markovian dynamics. We show that the diagrammatic structure is akin to that of a Dyson equation, and that the probability of the trajectories can be calculated analytically. We then apply our results to study the measurement-induced entanglement transition in random unitary circuits. We find that non-Markovianity does not significantly shift the transition, but stabilizes the volume law phase of the entanglement by shielding it from transient strong dissipation.
翻訳日:2023-09-13 17:29:16 公開日:2023-09-12
# 階層的最適化に基づく学習

Hierarchical Optimization-Derived Learning ( http://arxiv.org/abs/2302.05587v2 )

ライセンス: Link先を確認
Risheng Liu, Xuan Liu, Shangzhi Zeng, Jin Zhang, and Yixuan Zhang(参考訳) 近年,深層モデルの伝播を定式化するために最適化手法を活用することで,多様な学習課題と視覚課題に対処する,いわゆるODLアプローチが提案されている。 実用性能は比較的満足しているが,既存のODL手法には根本的問題がある。 特に、現在のodl法は、モデル構築と学習を2つの異なるフェーズとして考える傾向があるため、基礎となる結合と依存関係を定式化できない。 本研究では,まず階層型odl(hodl)という新しいフレームワークを構築し,最適化モデル構築の固有挙動とそれに対応する学習プロセスを同時に検討する。 そして、近似品質と定常解析の両方の観点から、これらの2つのサブタスクの合同収束を厳密に証明する。 私たちの知る限りでは、これは2つのodlコンポーネント、すなわち最適化と学習に対する最初の理論的保証です。 我々は,既存の ODL 手法で適切に対処されていない学習課題に HODL を適用することで,フレームワークの柔軟性をさらに実証する。 最後に、様々なアプリケーションシナリオにおけるHODLの理論的特性と実用性を検証するために、視覚やその他の学習タスクにおける合成データと実アプリケーションの両方について広範な実験を行った。

In recent years, by utilizing optimization techniques to formulate the propagation of deep model, a variety of so-called Optimization-Derived Learning (ODL) approaches have been proposed to address diverse learning and vision tasks. Although having achieved relatively satisfying practical performance, there still exist fundamental issues in existing ODL methods. In particular, current ODL methods tend to consider model construction and learning as two separate phases, and thus fail to formulate their underlying coupling and depending relationship. In this work, we first establish a new framework, named Hierarchical ODL (HODL), to simultaneously investigate the intrinsic behaviors of optimization-derived model construction and its corresponding learning process. Then we rigorously prove the joint convergence of these two sub-tasks, from the perspectives of both approximation quality and stationary analysis. To our best knowledge, this is the first theoretical guarantee for these two coupled ODL components: optimization and learning. We further demonstrate the flexibility of our framework by applying HODL to challenging learning tasks, which have not been properly addressed by existing ODL methods. Finally, we conduct extensive experiments on both synthetic data and real applications in vision and other learning tasks to verify the theoretical properties and practical performance of HODL in various application scenarios.
翻訳日:2023-09-13 17:28:58 公開日:2023-09-12
# コードのための大規模言語モデル: セキュリティ強化と逆行テスト

Large Language Models for Code: Security Hardening and Adversarial Testing ( http://arxiv.org/abs/2302.05319v3 )

ライセンス: Link先を確認
Jingxuan He and Martin Vechev(参考訳) 大きな言語モデル(大きなlms)は、ますます巨大なコードベースで訓練され、コードを生成するのに使われる。 しかし、LMはセキュリティを意識せず、しばしば安全でないコードを生成する。 この研究は、2つの重要な軸に沿ってlmsのセキュリティを研究する。 (i)セキュアコード生成におけるlmsの信頼性向上を目的としたセキュリティ強化 (ii)敵対的立場からlsmのセキュリティを評価しようとする敵対的テスト。 制御コード生成と呼ばれる新しいセキュリティタスクを定式化することで、これら2つに対処する。 タスクはパラメトリックであり、LMが機能的に正しいコードを生成する能力を保持しながら、LMを誘導して安全または安全でないコードを生成するためにバイナリプロパティを入力する。 この課題を解決するために,SVENと呼ばれる新しい学習手法を提案する。 SVENはプロパティ固有の連続ベクトルを利用して、LMの重みを変更することなくプログラム生成を与えられたプロパティへ導く。 トレーニング手順は、コードの各領域に特別な損失項を強制することにより、これらの連続ベクトルを最適化する。 SVENは強力なセキュリティ制御を実現する上で極めて有効であることを示す。 例えば、2.7Bパラメータを持つ最先端のCodeGen LMは59.1%の時間でセキュアなコードを生成する。 このLM上でセキュリティ強化(または敵検定)を行うためにSVENを使用する場合、比率は92.3%(または36.8%に低下)に大幅に向上する。 重要なことに、SVENは機能的正確性において元のLMと密接に一致している。

Large language models (large LMs) are increasingly trained on massive codebases and used to generate code. However, LMs lack awareness of security and are found to frequently produce unsafe code. This work studies the security of LMs along two important axes: (i) security hardening, which aims to enhance LMs' reliability in generating secure code, and (ii) adversarial testing, which seeks to evaluate LMs' security at an adversarial standpoint. We address both of these by formulating a new security task called controlled code generation. The task is parametric and takes as input a binary property to guide the LM to generate secure or unsafe code, while preserving the LM's capability of generating functionally correct code. We propose a novel learning-based approach called SVEN to solve this task. SVEN leverages property-specific continuous vectors to guide program generation towards the given property, without modifying the LM's weights. Our training procedure optimizes these continuous vectors by enforcing specialized loss terms on different regions of code, using a high-quality dataset carefully curated by us. Our extensive evaluation shows that SVEN is highly effective in achieving strong security control. For instance, a state-of-the-art CodeGen LM with 2.7B parameters generates secure code for 59.1% of the time. When we employ SVEN to perform security hardening (or adversarial testing) on this LM, the ratio is significantly boosted to 92.3% (or degraded to 36.8%). Importantly, SVEN closely matches the original LMs in functional correctness.
翻訳日:2023-09-13 17:28:37 公開日:2023-09-12
# PyTorch FSDP: 完全なシャードデータ並列のスケーリングの経験

PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel ( http://arxiv.org/abs/2304.11277v2 )

ライセンス: Link先を確認
Yanli Zhao, Andrew Gu, Rohan Varma, Liang Luo, Chien-Chin Huang, Min Xu, Less Wright, Hamid Shojanazeri, Myle Ott, Sam Shleifer, Alban Desmaison, Can Balioglu, Pritam Damania, Bernard Nguyen, Geeta Chauhan, Yuchen Hao, Ajit Mathews and Shen Li(参考訳) 大きなモデルが幅広い領域で優れたパフォーマンスをもたらす可能性があることは広く認識されている。 大規模なモデルの開発と探索を可能にする機械学習システム研究の分野で顕著な進歩にもかかわらず、そのような能力は、少数の先進的なユーザーや業界リーダーのグループに限られており、より広いコミュニティがこれらの技術にアクセスし活用するための暗黙の技術的障壁となっている。 本稿では,大規模モデルトレーニングのための業界レベルのソリューションとして,PyTorch Fully Sharded Data Parallel (FSDP)を紹介する。 FSDPはTensor実装、ディスパッチシステム、CUDAメモリキャッシュアロケータなど、いくつかの主要なPyTorchコアコンポーネントと密に設計されており、非侵襲的なユーザエクスペリエンスと高いトレーニング効率を提供する。 さらにFSDPは、様々なハードウェア構成のリソース利用を最適化するための様々な技術と設定をネイティブに組み込んでいる。 実験結果から,fsdp は分散データ並列処理と同等の性能を達成でき,tflops の観点からは,より大規模でニアリニアなモデルをサポートできることがわかった。

It is widely acknowledged that large models have the potential to deliver superior performance across a broad range of domains. Despite the remarkable progress made in the field of machine learning systems research, which has enabled the development and exploration of large models, such abilities remain confined to a small group of advanced users and industry leaders, resulting in an implicit technical barrier for the wider community to access and leverage these technologies. In this paper, we introduce PyTorch Fully Sharded Data Parallel (FSDP) as an industry-grade solution for large model training. FSDP has been closely co-designed with several key PyTorch core components including Tensor implementation, dispatcher system, and CUDA memory caching allocator, to provide non-intrusive user experiences and high training efficiency. Additionally, FSDP natively incorporates a range of techniques and settings to optimize resource utilization across a variety of hardware configurations. The experimental results demonstrate that FSDP is capable of achieving comparable performance to Distributed Data Parallel while providing support for significantly larger models with near-linear scalability in terms of TFLOPS.
翻訳日:2023-09-13 17:21:38 公開日:2023-09-12
# galactic chitchat: 大きな言語モデルを使って天文学文献と会話する

Galactic ChitChat: Using Large Language Models to Converse with Astronomy Literature ( http://arxiv.org/abs/2304.05406v2 )

ライセンス: Link先を確認
Ioana Ciuc\u{a} and Yuan-Sen Ting(参考訳) 我々は,現在最先端のOpenAI GPT-4大言語モデルが,文脈内プロンプトを用いて天文学論文と有意義な対話を行う可能性を示す。 効率を最適化するために, 段落構造と全体的な意味的整合性を維持しつつ, 元の入力紙のサイズを50倍に効果的に削減する蒸留技術を用いる。 次に、マルチドキュメントコンテキスト(10個の蒸留文書)を用いてモデルの応答を探索する。 以上の結果から, GPT-4は多文書領域で優れており, 関連する研究成果の枠組み内での詳細な回答が得られた。 以上の結果から,天文学コミュニティにおける大規模言語モデルの可能性を示し,さらなる探索,特に仮説生成にモデルを活用する可能性を示唆した。

We demonstrate the potential of the state-of-the-art OpenAI GPT-4 large language model to engage in meaningful interactions with Astronomy papers using in-context prompting. To optimize for efficiency, we employ a distillation technique that effectively reduces the size of the original input paper by 50\%, while maintaining the paragraph structure and overall semantic integrity. We then explore the model's responses using a multi-document context (ten distilled documents). Our findings indicate that GPT-4 excels in the multi-document domain, providing detailed answers contextualized within the framework of related research findings. Our results showcase the potential of large language models for the astronomical community, offering a promising avenue for further exploration, particularly the possibility of utilizing the models for hypothesis generation.
翻訳日:2023-09-13 17:21:17 公開日:2023-09-12
# 知識追跡のための多粒度時間変換器

Multi-granulariy Time-based Transformer for Knowledge Tracing ( http://arxiv.org/abs/2304.05257v3 )

ライセンス: Link先を確認
Tong Zhou(参考訳) 本稿では,標準化試験における学生のパフォーマンス予測のためのトランスフォーマーアーキテクチャを提案する。 具体的には、過去のテストスコア、学習習慣、その他の関連情報を含む学生の履歴データを活用して、各学生にパーソナライズされたモデルを作成します。 次に、これらのモデルを使用して、将来のパフォーマンスを所定のテストで予測します。 このモデルをriiidデータセットに適用することにより,デコーダ入力として時間的特徴に複数の粒度を用いることで,モデル性能が大幅に向上することを示す。 また,本手法の有効性を示すとともに,LightGBM法よりも大幅に改善した。 我々の研究は、教育におけるAIの分野の成長に貢献し、学生の成果を予測するスケーラブルで正確なツールを提供する。

In this paper, we present a transformer architecture for predicting student performance on standardized tests. Specifically, we leverage students historical data, including their past test scores, study habits, and other relevant information, to create a personalized model for each student. We then use these models to predict their future performance on a given test. Applying this model to the RIIID dataset, we demonstrate that using multiple granularities for temporal features as the decoder input significantly improve model performance. Our results also show the effectiveness of our approach, with substantial improvements over the LightGBM method. Our work contributes to the growing field of AI in education, providing a scalable and accurate tool for predicting student outcomes.
翻訳日:2023-09-13 17:21:04 公開日:2023-09-12
# 位相絶縁層成層球のdyadic greens関数

Dyadic Greens function for a topological insulator stratified sphere ( http://arxiv.org/abs/2304.04572v4 )

ライセンス: Link先を確認
Huai-Yi Xie(参考訳) 電磁気学の枠組みの中で, 位相絶縁体(TI)成層球に対してDGF(Dyadic Greens function)を構築する。 これらのDGFに対して、アキシオンカップリング効果を考慮した追加膨張係数を含む。 これらのDGFの適用により、TI成層球近傍の双極子からの光散乱の定式化が導かれる。 数値解析では, 金属被覆TI球, 金属被覆TI球, 金属被覆TI球, 交互金属めっきTI球) の3種類の構成を与え, TI球のトポロジカル磁力(TME) 応答が金属殻の多極プラズマ共鳴に与える影響について検討した。 これらのタイプについて、TME効果はTI成層球近傍の発光双極子に対する崩壊速度スペクトルのいくつかの変化を引き起こすことを示した。 金属シェルの多極性共鳴では,TMEにより誘導されるボンディングモードと低次アンチボンディングモードの赤方偏移がみられたが,高次アンチボンディングモードのものは重要でない。 また、金属被覆ti球面の場合、誘電関数がバルクまたは5つのクインタプル層(5ql)スラブの形に選択されたtiコアの損失の影響を考慮に入れ、tme誘起減衰率スペクトルのいくつかの修正が明らかに抑制される。 これらの現象学的特徴は、分子蛍光実験によるTME効果の探索に有用である。

We construct the dyadic Greens functions (DGFs) for a topological insulator (TI) stratified sphere within the framework of axion electrodynamics. For these DGFs, the additional expansion coefficients are included to account for the axion coupling effect. With the application of these DGFs, we derive the formulation of light scattering from a dipole near a TI stratified sphere. In our numerical studies, we give three types of configurations (a metal-coated TI sphere, a metal-TI-metal-coated TI sphere and an alternating metal-TI stratified sphere) to investigate how the topological magneto-electric (TME) response of the TI sphere (shells) influences on the multipolar plasmonic resonance of the metal shells. For these types, the results show that the TME effect causes some modifications of the decay rate spectrum for an emitting dipole near a TI stratified sphere. For the multipolar resonances of the metal shells, it is observed that the TME-induced red-shifts for the bonding and lower order antibonding modes are found but those for the higher order antibonding modes are insignificant. In addition, for a metal-coated TI sphere, we take into account the effects of losses in the TI core of which the dielectric function is chosen to be the form of the bulk or five quintuple layers (5QL) slab and then the some modifications of the TME-induced decay rate spectrum are obviously suppressed. These phenomenological characteristics provide useful guidance to probing the TME effect via molecular fluorescence experiments.
翻訳日:2023-09-13 17:20:53 公開日:2023-09-12
# point-slam:密集したニューラルポイントクラウドベースのslam

Point-SLAM: Dense Neural Point Cloud-based SLAM ( http://arxiv.org/abs/2304.04278v3 )

ライセンス: Link先を確認
Erik Sandstr\"om and Yue Li and Luc Van Gool and Martin R. Oswald(参考訳) 本稿では,入力に依存したデータ駆動方式で反復生成される点クラウドにおいて,神経シーン表現の特徴をアンカーする単眼型rgbd入力のための高密度ニューラルネットワーク同時局在マッピング(slam)手法を提案する。 rgbdベースの再レンダリングロスを最小化することで、トラッキングとマッピングの両方を同じポイントベースのニューラルネットワークシーン表現で実行できることを実証する。 スパースグリッドのシーン特徴を固定する近年の高密度ニューラルネットワークSLAM法とは対照的に,我々のポイントベースアプローチは,アンカー点密度を入力の情報密度に動的に適応させることができる。 この戦略は、ディテールの少ないリージョンでのランタイムとメモリ使用量を削減し、詳細を解決するために高いポイント密度を捧げる。 我々の手法は、Replica、TUM-RGBD、ScanNetデータセット上での追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGBD SLAM法により良い、あるいは競合する。 ソースコードはhttps://github.com/eriksandstroem/point-slamで入手できる。

We propose a dense neural simultaneous localization and mapping (SLAM) approach for monocular RGBD input which anchors the features of a neural scene representation in a point cloud that is iteratively generated in an input-dependent data-driven manner. We demonstrate that both tracking and mapping can be performed with the same point-based neural scene representation by minimizing an RGBD-based re-rendering loss. In contrast to recent dense neural SLAM methods which anchor the scene features in a sparse grid, our point-based approach allows dynamically adapting the anchor point density to the information density of the input. This strategy reduces runtime and memory usage in regions with fewer details and dedicates higher point density to resolve fine details. Our approach performs either better or competitive to existing dense neural RGBD SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code is available at https://github.com/eriksandstroem/Point-SLAM.
翻訳日:2023-09-13 17:20:24 公開日:2023-09-12
# 統合失調症診断と側方化解析のための時間的動的同期機能脳ネットワーク

Temporal Dynamic Synchronous Functional Brain Network for Schizophrenia Diagnosis and Lateralization Analysis ( http://arxiv.org/abs/2304.01347v4 )

ライセンス: Link先を確認
Cheng Zhu, Ying Tan, Shuqi Yang, Jiaqing Miao, Jiayi Zhu, Huan Huang, Dezhong Yao, and Cheng Luo(参考訳) 利用可能な証拠は、動的機能接続(dfc)は静止状態脳機能磁気共鳴画像(rs-fmri)データにおいて脳活動の時間的異常を捉えることができ、統合失調症(sz)患者の脳活動異常のメカニズムを明らかにするのに自然な利点があることを示唆している。 そこで、時間的脳カテゴリグラフ畳み込みネットワーク(temporal-bcgcn)と呼ばれる高度な動的脳ネットワーク解析モデルを用いた。 まず、動的な同期機能を構築するために、ユニークな動的脳ネットワーク解析モジュールdsf-brainnetが設計された。 その後、特徴の同期時間特性に基づいて、革命的グラフ畳み込み法であるTemporalConvが提案された。 最後に, RS-fMRIデータに基づく深層学習における最初のモジュール状異常半球側方化試験ツール, CategoryPoolを提案する。 この研究はCOBREとUCLAのデータセットで検証され、それぞれ83.62%と89.71%の平均精度を達成した。 アブレーションの結果は,従来のエッジ特徴グラフ畳み込みアプローチに対するTemporalConvの利点と,古典的なグラフプーリングアプローチに対するCataggoryPoolの改善を示す。 本研究は,SZの右半球より左半球の低次知覚系と高次ネットワーク領域が高度に機能し,SZの左内側上前頭回の重要性を再確認した。 私たちのコアコードは、https://github.com/swfen/Temporal-BCGCN.comで利用可能です。

The available evidence suggests that dynamic functional connectivity (dFC) can capture time-varying abnormalities in brain activity in resting-state cerebral functional magnetic resonance imaging (rs-fMRI) data and has a natural advantage in uncovering mechanisms of abnormal brain activity in schizophrenia(SZ) patients. Hence, an advanced dynamic brain network analysis model called the temporal brain category graph convolutional network (Temporal-BCGCN) was employed. Firstly, a unique dynamic brain network analysis module, DSF-BrainNet, was designed to construct dynamic synchronization features. Subsequently, a revolutionary graph convolution method, TemporalConv, was proposed, based on the synchronous temporal properties of feature. Finally, the first modular abnormal hemispherical lateralization test tool in deep learning based on rs-fMRI data, named CategoryPool, was proposed. This study was validated on COBRE and UCLA datasets and achieved 83.62% and 89.71% average accuracies, respectively, outperforming the baseline model and other state-of-the-art methods. The ablation results also demonstrate the advantages of TemporalConv over the traditional edge feature graph convolution approach and the improvement of CategoryPool over the classical graph pooling approach. Interestingly, this study showed that the lower order perceptual system and higher order network regions in the left hemisphere are more severely dysfunctional than in the right hemisphere in SZ and reaffirms the importance of the left medial superior frontal gyrus in SZ. Our core code is available at: https://github.com/swfen/Temporal-BCGCN.
翻訳日:2023-09-13 17:20:03 公開日:2023-09-12
# BOLT:コモディティCPUハードウェア上での大規模検索とレコメンデーションモデルのトレーニングとデプロイのためのディープラーニングフレームワーク

BOLT: An Automated Deep Learning Framework for Training and Deploying Large-Scale Search and Recommendation Models on Commodity CPU Hardware ( http://arxiv.org/abs/2303.17727v4 )

ライセンス: Link先を確認
Nicholas Meisburger, Vihan Lakshman, Benito Geordie, Joshua Engels, David Torres Ramos, Pratik Pranav, Benjamin Coleman, Benjamin Meisburger, Shubh Gupta, Yashwanth Adunukota, Tharun Medini, Anshumali Shrivastava(参考訳) コモディティCPUハードウェア上での大規模なニューラルネットワークトレーニングと推論は、ディープラーニング(DL)機能を民主化する上で、極めて実践的な重要性を持つ。 現在、数十億から数十億のパラメータからなる大規模モデルをトレーニングするプロセスでは、GPUのような特別なハードウェアアクセラレータを広範囲に使用する必要がある。 さらに、これらのモデルのトレーニングとデプロイに関連するカーボンフットプリントが懸念されることが多い。 本稿では,標準的なCPUハードウェア上で大規模検索とレコメンデーションモデルをトレーニングする,疎いディープラーニングライブラリBOLTを導入することにより,これらの課題に対処する。 boltは、既存の人気のあるdlフレームワークのユーザになじみのあるモデルを構築するための、柔軟でハイレベルなapiを提供する。 特殊なハイパーパラメータを自動的にチューニングすることで、BOLTはスパースネットワークトレーニングのアルゴリズムの詳細を抽象化する。 製品レコメンデーションやテキスト分類,グラフニューラルネットワーク,パーソナライゼーションなど,さまざまな情報検索タスクにおいてBOLTを評価する。 提案システムは,コストとエネルギー消費のごく一部で最先端技術と競合する性能と,より高速な推定時間を実現する。 BOLTはまた、重要な問題に対処するために複数の企業によってうまくデプロイされており、Eコマースの分野における1つの顧客ケーススタディを強調している。

Efficient large-scale neural network training and inference on commodity CPU hardware is of immense practical significance in democratizing deep learning (DL) capabilities. Presently, the process of training massive models consisting of hundreds of millions to billions of parameters requires the extensive use of specialized hardware accelerators, such as GPUs, which are only accessible to a limited number of institutions with considerable financial resources. Moreover, there is often an alarming carbon footprint associated with training and deploying these models. In this paper, we take a step towards addressing these challenges by introducing BOLT, a sparse deep learning library for training large-scale search and recommendation models on standard CPU hardware. BOLT provides a flexible, high-level API for constructing models that will be familiar to users of existing popular DL frameworks. By automatically tuning specialized hyperparameters, BOLT also abstracts away the algorithmic details of sparse network training. We evaluate BOLT on a number of information retrieval tasks including product recommendations, text classification, graph neural networks, and personalization. We find that our proposed system achieves competitive performance with state-of-the-art techniques at a fraction of the cost and energy consumption and an order-of-magnitude faster inference time. BOLT has also been successfully deployed by multiple businesses to address critical problems, and we highlight one customer case study in the field of e-commerce.
翻訳日:2023-09-13 17:19:30 公開日:2023-09-12
# 多言語大言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として

Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages ( http://arxiv.org/abs/2303.13592v4 )

ライセンス: Link先を確認
Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Arjun Subramonian, Holy Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Lintang Sutawika, Jan Christian Blaise Cruz, Yin Lin Tan, Long Phan, Rowena Garcia, Thamar Solorio, Alham Fikri Aji(参考訳) コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。 大規模な言語モデル(llms)が最近普及したことにより,次のような疑問が生まれています。 本稿では,東南アジアの7カ国語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,タミル語,シングリッシュ語)のコードミキシングデータを生成するため,ゼロショット方式で多言語 LLM を作成することを検討する。 BLOOMZ や Flan-T5-XXL のような多言語命令調整モデルでは,異なる言語から句や節を生成できないことがわかった。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示し、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。 例えば、chatgptは英語ベースのクレオール(英語版)でシンガポールで話されている)が、英語とタミル語のペアでは、文法的に不正確または意味的に意味のない発話を生成することが多い。 さらに、プロンプトで指定されていない言語を誤って導入することもできる。 本研究により,既存の多言語 LLM は,SEA 言語用コード混合データ生成の幅広い習熟度を示す。 したがって、この文脈でのLSMの使用は、広範囲の人的チェックを伴わないようアドバイスする。

While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The recent proliferation of Large Language Models (LLMs) compels one to ask: how capable are these systems in generating code-mixed data? In this paper, we explore prompting multilingual LLMs in a zero-shot manner to generate code-mixed data for seven languages in South East Asia (SEA), namely Indonesian, Malay, Chinese, Tagalog, Vietnamese, Tamil, and Singlish. We find that publicly available multilingual instruction-tuned models such as BLOOMZ and Flan-T5-XXL are incapable of producing texts with phrases or clauses from different languages. ChatGPT exhibits inconsistent capabilities in generating code-mixed texts, wherein its performance varies depending on the prompt template and language pairing. For instance, ChatGPT generates fluent and natural Singlish texts (an English-based creole spoken in Singapore), but for English-Tamil language pair, the system mostly produces grammatically incorrect or semantically meaningless utterances. Furthermore, it may erroneously introduce languages not specified in the prompt. Based on our investigation, existing multilingual LLMs exhibit a wide range of proficiency in code-mixed data generation for SEA languages. As such, we advise against using LLMs in this context without extensive human checks.
翻訳日:2023-09-13 17:18:15 公開日:2023-09-12
# rescuespeech: search and rescue domainにおけるドイツ語音声認識コーパス

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain ( http://arxiv.org/abs/2306.04054v2 )

ライセンス: Link先を確認
Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith(参考訳) 近年の音声認識の進歩にもかかわらず、雑音環境や残響環境において、会話音声や感情音声の正確な書き起こしはいまだに困難である。 これは、救助チームメンバー間の会話を翻訳することが、リアルタイムの意思決定をサポートするために不可欠である、検索と救助(SAR)ドメインにおいて、特に課題となる。 SARシナリオにおける音声データの不足と背景雑音により,ロバスト音声認識システムの展開が困難になる。 この問題に対処するため、RescueSpeechというドイツの音声データセットを作成し公開しました。 本データセットは、模擬救助演習からの実際の音声記録を含む。 さらに、競争力のあるトレーニングレシピと事前トレーニングモデルをリリースしました。 我々の研究は、この困難なシナリオにおいて最先端のメソッドによって達成されたパフォーマンスは、まだ許容できるレベルには程遠いことを強調している。

Despite the recent advancements in speech recognition, there are still difficulties in accurately transcribing conversational and emotional speech in noisy and reverberant acoustic environments. This poses a particular challenge in the search and rescue (SAR) domain, where transcribing conversations among rescue team members is crucial to support real-time decision-making. The scarcity of speech data and associated background noise in SAR scenarios make it difficult to deploy robust speech recognition systems. To address this issue, we have created and made publicly available a German speech dataset called RescueSpeech. This dataset includes real speech recordings from simulated rescue exercises. Additionally, we have released competitive training recipes and pre-trained models. Our study highlights that the performance attained by state-of-the-art methods in this challenging scenario is still far from reaching an acceptable level.
翻訳日:2023-09-13 17:11:45 公開日:2023-09-12
# 準静的近似を超えた時間依存ハミルトニアンの量子シミュレーション

Quantum simulations of time-dependent Hamiltonians beyond the quasi-static approximation ( http://arxiv.org/abs/2305.17097v2 )

ライセンス: Link先を確認
Boyuan Shi and Florian Mintert(参考訳) 時間依存量子システムの量子シミュレーションをアナログ化する既存のアプローチは、シミュレーションされるシステムの時間依存に対する摂動的補正に依存している。 摂動的アプローチに対するこの制限を克服し、ラムダ系の教育的例と有限時間におけるクエンチを駆動ハバード系におけるチャーン絶縁体の量子相転移を通じて実現可能な量子シミュレーションの可能性を示す。

Existing approaches to analogue quantum simulations of time-dependent quantum systems rely on perturbative corrections to the time-independence of the systems to be simulated. We overcome this restriction to perturbative approaches and demonstrate the potential of achievable quantum simulations with the pedagogical example of a Lambda-system and the quench in finite time through a quantum phase transition of a Chern insulator in a driven Hubbard system.
翻訳日:2023-09-13 17:11:32 公開日:2023-09-12
# コントラスト学習と深いモジュール化に基づく音声分離

Speech Separation based on Contrastive Learning and Deep Modularization ( http://arxiv.org/abs/2305.10652v3 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 音声分離のための技術ツールの現況は教師付き学習に依存している。 これは、置換問題に対処する必要があることを意味しており、トレーニングや推論で使用する話者数にミスマッチの影響を受けている。 さらに、その性能は高品質なラベル付きデータの存在に大きく依存している。 これらの問題は、完全に教師なしの音声分離技術を用いることで効果的に解決できる。 本稿では,コントラスト学習を用いてフレームの表現を確立し,下流のディープモジュール化タスクで学習表現を使用する。 具体的には、音声分離において、話者の異なるフレームを、その話者の隠れた標準フレームの強化と見なすことができることを実験的に示す。 話者のフレームは、音声分離の鍵となる十分な韻律情報の重複を含む。 そこで本研究では,与えられた話者に属するフレーム間の距離を最小化するために,自己教師付き学習を実現する。 学習された表現は、下流の深いモジュール化タスクで、話者のアイデンティティに基づいたクラスタフレームに使用される。 WSJ0-2mix と WSJ0-3mix において, SI-SNRi と SDRi を 20.8 と 21.0 でそれぞれ達成した。 WSJ0-3mix では、SI-SNRi と SDRi はそれぞれ 20.7 と 20.7 を WSJ0-2mix で得る。 最大の強みは、話者数が増えるにつれて、その性能が著しく低下しないことである。

The current monaural state of the art tools for speech separation relies on supervised learning. This means that they must deal with permutation problem, they are impacted by the mismatch on the number of speakers used in training and inference. Moreover, their performance heavily relies on the presence of high-quality labelled data. These problems can be effectively addressed by employing a fully unsupervised technique for speech separation. In this paper, we use contrastive learning to establish the representations of frames then use the learned representations in the downstream deep modularization task. Concretely, we demonstrate experimentally that in speech separation, different frames of a speaker can be viewed as augmentations of a given hidden standard frame of that speaker. The frames of a speaker contain enough prosodic information overlap which is key in speech separation. Based on this, we implement a self-supervised learning to learn to minimize the distance between frames belonging to a given speaker. The learned representations are used in a downstream deep modularization task to cluster frames based on speaker identity. Evaluation of the developed technique on WSJ0-2mix and WSJ0-3mix shows that the technique attains SI-SNRi and SDRi of 20.8 and 21.0 respectively in WSJ0-2mix. In WSJ0-3mix, it attains SI-SNRi and SDRi of 20.7 and 20.7 respectively in WSJ0-2mix. Its greatest strength being that as the number of speakers increase, its performance does not degrade significantly.
翻訳日:2023-09-13 17:10:55 公開日:2023-09-12
# 深層強化学習を用いた電子健康記録からの診断経路抽出

Extracting Diagnosis Pathways from Electronic Health Records Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.06295v2 )

ライセンス: Link先を確認
Lillian Muyama, Antoine Neuraz and Adrien Coulet(参考訳) 臨床診断ガイドラインは、診断につながるステップを特定することを目的としている。 ガイドラインに着想を得て,電子健康記録から適切な診断を得るために,実行すべき行動の最適なシーケンスを学習することを目的とした。 本課題は,様々な深層強化学習アルゴリズムを応用し,貧血とそのサブタイプを鑑別的に診断する合成的かつ現実的なデータセットを実験し,ノイズや欠如データに対する様々なアプローチの頑健性を評価する。 実験結果から, 深層強化学習アルゴリズムは, 最先端の手法と比較して競争性能が向上し, 提案した診断経路を段階的に生成し, 決定過程をガイドし, 説明することができるという利点が示された。

Clinical diagnosis guidelines aim at specifying the steps that may lead to a diagnosis. Inspired by guidelines, we aim to learn the optimal sequence of actions to perform in order to obtain a correct diagnosis from electronic health records. We apply various deep reinforcement learning algorithms to this task and experiment on a synthetic but realistic dataset to differentially diagnose anemia and its subtypes and particularly evaluate the robustness of various approaches to noise and missing data. Experimental results show that the deep reinforcement learning algorithms show competitive performance compared to the state-of-the-art methods with the added advantage that they enable the progressive generation of a pathway to the suggested diagnosis, which can both guide and explain the decision process.
翻訳日:2023-09-13 17:09:56 公開日:2023-09-12
# アバターフィンガープリントによる音声合成ビデオの利用

Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos ( http://arxiv.org/abs/2305.03713v2 )

ライセンス: Link先を確認
Ekta Prashnani, Koki Nagano, Shalini De Mello, David Luebke, Orazio Gallo(参考訳) 現代のジェネレータは、ビデオ会議のような新しいユーザー体験を制約付き帯域幅予算で利用し、印象的なフォトリアリズムでトーキングヘッドビデオをレンダリングする。 しかし、彼らの安全な採用には、レンダリングされたビデオが信頼できるかどうかを検証するメカニズムが必要である。 例えば、ビデオ会議では、合成ビデオのポートレートが、同意なしに個人の外観を使用するケースを識別しなければならない。 これをアバターフィンガープリントと呼ぶ。 具体的には、一つのアイデンティティの動作シグネチャがグループ化され、他のアイデンティティのシグネチャから切り離された埋め込みを学習する。 これにより、顔の外観に関わらず、合成ビデオと動画内の表現を駆動するアイデンティティをリンクすることができる。 アバターの指紋認証アルゴリズムは、対話ヘッドジェネレータがよりユビキタスになるにつれて重要になるが、この新しいタスクには大規模なデータセットは存在しない。 そこで,本研究では,台本や即興の短いモノローグを制作する人たちの膨大なデータセットと,他者の顔の表情を用いて映像をレンダリングする合成動画をコントリビュートした。 プロジェクトページ: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/

Modern generators render talking-head videos with impressive photorealism, ushering in new user experiences such as videoconferencing under constrained bandwidth budgets. Their safe adoption, however, requires a mechanism to verify if the rendered video is trustworthy. For instance, for videoconferencing we must identify cases in which a synthetic video portrait uses the appearance of an individual without their consent. We term this task avatar fingerprinting. Specifically, we learn an embedding in which the motion signatures of one identity are grouped together, and pushed away from those of the other identities. This allows us to link the synthetic video to the identity driving the expressions in the video, regardless of the facial appearance shown. Avatar fingerprinting algorithms will be critical as talking head generators become more ubiquitous, and yet no large scale datasets exist for this new task. Therefore, we contribute a large dataset of people delivering scripted and improvised short monologues, accompanied by synthetic videos in which we render videos of one person using the facial appearance of another. Project page: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
翻訳日:2023-09-13 17:09:41 公開日:2023-09-12
# 量子クエンチ後の安定化エントロピーダイナミクス

Stabilizer entropy dynamics after a quantum quench ( http://arxiv.org/abs/2304.13768v3 )

ライセンス: Link先を確認
Davide Rattacaso, Lorenzo Leone, Salvatore F.E. Oliviero, Alioscia Hamma(参考訳) 安定化器エントロピー(SE)は安定化器資源からの偏差を測定し、量子的優位性の基礎となる要素である。 特に、SEと絡み合いの相互作用は、古典的にシミュレートされた量子多体系の複雑さの根底にある。 本稿では,可積分系における量子クエンチ後の平衡から離れた量子多体系におけるseのダイナミクスについて検討する。 主な結果が2つあります (i)SEは,L-過大量であるにもかかわらず,サブシステムサイズとほぼ線形にスケールする時間に平衡することを示す。 (ii)時間的に線形に増加するse長が相関や絡み合いに類似していることを示す。

Stabilizer entropies (SE) measure deviations from stabilizer resources and as such are a fundamental ingredient for quantum advantage. In particular, the interplay of SE and entanglement is at the root of the complexity of classically simulating quantum many-body systems. In this paper, we study the dynamics of SE in a quantum many-body system away from the equilibrium after a quantum quench in an integrable system. We obtain two main results: (i) we show that SE, despite being an L-extensive quantity, equilibrates in a time that scales at most linearly with the subsystem size; and (ii) we show that there is a SE length increasing linearly in time, akin to correlations and entanglement spreading.
翻訳日:2023-09-13 17:09:19 公開日:2023-09-12
# 可変原子ミラーを用いた非エルミート導波路キャビティQED

Non-Hermitian Waveguide Cavity QED with Tunable Atomic Mirrors ( http://arxiv.org/abs/2304.12897v2 )

ライセンス: Link先を確認
Wei Nie, Tao Shi, Yu-xi Liu, Franco Nori(参考訳) 光鏡は光反射により空洞特性を決定する。 不完全な反射は光子損失を伴う開空洞を引き起こす。 可変反射スペクトルを持つ原子-二量体ミラーからなる開空洞について検討した。 原子空洞は反$\mathcal{PT}$対称性を示す。 鏡内の原子カップリングによって制御される反$\mathcal{PT}$相転移は、2つの退化キャビティスーパーモデムの出現を示す。 興味深いことに、強いコヒーレントな空洞-原子結合を実現するためにミラー反射のしきい値が同定される。 この反射閾値は、良好なキャビティを生み出すために原子鏡の基準を明らかにする。 さらに、プローブ原子を持つキャビティ量子電磁力学は、キャビティとプローブ原子によって形成される反射依存性のポーラリトンを含むミラーチューニング特性を示す。 我々の研究は、反$\mathcal{PT}$原子空洞の非エルミート理論を示し、量子光学や量子計算に応用できるかもしれない。

Optical mirrors determine cavity properties by means of light reflection. Imperfect reflection gives rise to open cavities with photon loss. We study an open cavity made of atom-dimer mirrors with a tunable reflection spectrum. We find that the atomic cavity shows anti-$\mathcal{PT}$ symmetry. The anti-$\mathcal{PT}$ phase transition controlled by atomic couplings in mirrors indicates the emergence of two degenerate cavity supermodes. Interestingly, a threshold of mirror reflection is identified for realizing strong coherent cavity-atom coupling. This reflection threshold reveals the criterion of atomic mirrors to produce a good cavity. Moreover, cavity quantum electrodynamics with a probe atom shows mirror-tuned properties, including reflection-dependent polaritons formed by the cavity and probe atom. Our work presents a non-Hermitian theory of an anti-$\mathcal{PT}$ atomic cavity, which may have applications in quantum optics and quantum computation.
翻訳日:2023-09-13 17:09:09 公開日:2023-09-12
# 拡張への学習: ドメイン一般化セグメンテーションのための幻覚的データ

Learning to Augment: Hallucinating Data for Domain Generalized Segmentation ( http://arxiv.org/abs/2307.01703v2 )

ライセンス: Link先を確認
Qiyu Sun, Pavlo Melnyk, Michael Felsberg, Yang Tang(参考訳) ドメイン一般化セマンティックセグメンテーション(dgss)は必須だが、非常に難しいタスクであり、モデルがソースデータのみに基づいてトレーニングされ、ターゲットデータも利用できない。 既存のDGSSメソッドは主に機能の分散を標準化するか、拡張のために追加のドメインデータを利用する。 しかし、前者は貴重な情報を犠牲にし、後者はドメインバイアスを導入する。 したがって、補助データなしで多彩なソースデータを生成することは魅力的な戦略である。 これを踏まえて,特徴生成器で意味的内容を保存しつつ,特徴マップのスタイライゼーションを行うgan-based feature augmentation (gbfa)を提案する。 GANの印象的な生成能力により、GBFAはエンドツーエンドフレームワークでチャネル間およびトレーニング可能な機能合成を実行することができる。 gbfaの学習を可能にするために、トレーニング中にソースイメージにさまざまなバリエーションを追加するランダム画像色拡張(rica)を導入する。 これらの拡張画像は、GBFAトレーニングに適した特徴を得るために、特徴抽出器に渡される。 GBFAとRICAはいずれもソースドメイン内でのみ動作するため、補助的なデータセットは不要である。 我々は広範な実験を行い,合成gtavとシンセサイアから実際の都市景観,bdd,mapillaryデータセットへの一般化結果から,dgssにおける最先端性能を実現することを示す。

Domain generalized semantic segmentation (DGSS) is an essential but highly challenging task, in which the model is trained only on source data and any target data is not available. Existing DGSS methods primarily standardize the feature distribution or utilize extra domain data for augmentation. However, the former sacrifices valuable information and the latter introduces domain biases. Therefore, generating diverse-style source data without auxiliary data emerges as an attractive strategy. In light of this, we propose GAN-based feature augmentation (GBFA) that hallucinates stylized feature maps while preserving their semantic contents with a feature generator. The impressive generative capability of GANs enables GBFA to perform inter-channel and trainable feature synthesis in an end-to-end framework. To enable learning GBFA, we introduce random image color augmentation (RICA), which adds a diverse range of variations to source images during training. These augmented images are then passed through a feature extractor to obtain features tailored for GBFA training. Both GBFA and RICA operate exclusively within the source domain, eliminating the need for auxiliary datasets. We conduct extensive experiments, and the generalization results from the synthetic GTAV and SYNTHIA to the real Cityscapes, BDDS, and Mapillary datasets show that our method achieves state-of-the-art performance in DGSS.
翻訳日:2023-09-13 17:01:51 公開日:2023-09-12
# probvlm:vison言語モデルに対する確率的アダプタ

ProbVLM: Probabilistic Adapter for Frozen Vison-Language Models ( http://arxiv.org/abs/2307.00398v2 )

ライセンス: Link先を確認
Uddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata(参考訳) CLIPのような大規模視覚言語モデル(VLM)は、画像とテキストの対応を見つけることに成功した。 標準決定論的マッピングプロセスにより、埋め込み空間内の1つのベクトルに画像またはテキストサンプルをマッピングする。 複数のサンプル(画像やテキスト)が物理世界で同じ概念を抽象化できるため、決定論的埋め込みは埋め込み空間に固有の曖昧さを反映しない。 本稿では,大規模データセットや計算を必要とせず,時間外アライメントによる事前学習VLMの埋め込みの確率分布を推定する確率的アダプタProbVLMを提案する。 我々は,COCO,Flickr,CUB,オックスフォードフラワーの4つの挑戦的データセットにおいて,CLIPとBLIPの2つのVLMに対するマルチモーダル埋め込み不確かさを推定し,検索タスクにおける埋め込み不確かさのキャリブレーションを定量化し,ProbVLMが他の手法より優れていることを示す。 さらに,VLMにおける2つの実世界の下流タスクとして,能動的学習とモデル選択を提案する。 最後に,大規模な事前学習潜在拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。 コードはhttps://github.com/ExplainableML/ProbVLMで入手できる。

Large-scale vision-language models (VLMs) like CLIP successfully find correspondences between images and text. Through the standard deterministic mapping process, an image or a text sample is mapped to a single vector in the embedding space. This is problematic: as multiple samples (images or text) can abstract the same concept in the physical world, deterministic embeddings do not reflect the inherent ambiguity in the embedding space. We propose ProbVLM, a probabilistic adapter that estimates probability distributions for the embeddings of pre-trained VLMs via inter/intra-modal alignment in a post-hoc manner without needing large-scale datasets or computing. On four challenging datasets, i.e., COCO, Flickr, CUB, and Oxford-flowers, we estimate the multi-modal embedding uncertainties for two VLMs, i.e., CLIP and BLIP, quantify the calibration of embedding uncertainties in retrieval tasks and show that ProbVLM outperforms other methods. Furthermore, we propose active learning and model selection as two real-world downstream tasks for VLMs and show that the estimated uncertainty aids both tasks. Lastly, we present a novel technique for visualizing the embedding distributions using a large-scale pre-trained latent diffusion model. Code is available at https://github.com/ExplainableML/ProbVLM.
翻訳日:2023-09-13 17:01:27 公開日:2023-09-12
# 線形制約をもつバンディットの純粋探査

Pure Exploration in Bandits with Linear Constraints ( http://arxiv.org/abs/2306.12774v3 )

ライセンス: Link先を確認
Emil Carlsson, Debabrota Basu, Fredrik D. Johansson, Devdatt Dubhashi(参考訳) 我々は,多腕バンディット設定における最適ポリシーを一定の信頼度で識別する問題に, 'emph{the arms' が線形制約を受ける際に対処する。 良く研究されている標準的な最良の腕識別問題とは異なり、この場合の最適方針は決定論的ではなく、複数の腕の間で混合することができる。 これは、情報理論の下界によって特徴づけられる問題の幾何学を変える。 本稿では,この設定に対して,トラック・アンド・ストップ法とゲーム理論に基づく2つの漸近的最適アルゴリズムを提案する。 これらのアルゴリズムは、下界に基づいて最適な割り当てを追跡し、通常の円錐の境界への重み付き投影によって計算する。 最後に,限界を検証し,制約が問題の硬さを変える様子を可視化する実験結果を提供する。

We address the problem of identifying the optimal policy with a fixed confidence level in a multi-armed bandit setup, when \emph{the arms are subject to linear constraints}. Unlike the standard best-arm identification problem which is well studied, the optimal policy in this case may not be deterministic and could mix between several arms. This changes the geometry of the problem which we characterize via an information-theoretic lower bound. We introduce two asymptotically optimal algorithms for this setting, one based on the Track-and-Stop method and the other based on a game-theoretic approach. Both these algorithms try to track an optimal allocation based on the lower bound and computed by a weighted projection onto the boundary of a normal cone. Finally, we provide empirical results that validate our bounds and visualize how constraints change the hardness of the problem.
翻訳日:2023-09-13 17:00:43 公開日:2023-09-12
# デバイス上でのトレーニングメモリウォールの破壊:システム的調査

Breaking On-device Training Memory Wall: A Systematic Survey ( http://arxiv.org/abs/2306.10388v2 )

ライセンス: Link先を確認
Shitian Li and Chunlin Tian and Kahou Tam and Rui Ma and Li Li(参考訳) デバイス上でのトレーニングは、マシンラーニングに対する一般的なアプローチとなり、モデルをモバイルやエッジデバイスで直接トレーニングすることが可能になっている。 しかしながら、この領域における大きな課題は、これらのデバイスで利用可能なメモリの制限であり、トレーニング可能なモデルのサイズと複雑さを厳しく制限することができる。 本稿では,デバイス上でのメモリウォールの破壊に関する最新の技術を探究し,リソース制約のあるデバイスで大規模で複雑なモデルをトレーニングできる手法に注目した。 具体的には,デバイス上でのトレーニング中に発生するメモリ壁の現象に寄与する重要な要因を最初に分析する。 次に、メモリ制限の問題に対処するオンデバイストレーニングに関する総合的な文献レビューを示す。 最後に、デバイス上でのトレーニングを要約し、今後の研究におけるオープンな問題を強調する。 これらの技術の概要とメモリウォールの破壊効果を概観することにより、この分野の研究者や実践者がデバイス上でのトレーニングの急速な発展の展望をナビゲートしたいと考えている。

On-device training has become an increasingly popular approach to machine learning, enabling models to be trained directly on mobile and edge devices. However, a major challenge in this area is the limited memory available on these devices, which can severely restrict the size and complexity of the models that can be trained. In this systematic survey, we aim to explore the current state-of-the-art techniques for breaking on-device training memory walls, focusing on methods that can enable larger and more complex models to be trained on resource-constrained devices. Specifically, we first analyze the key factors that contribute to the phenomenon of memory walls encountered during on-device training. Then, we present a comprehensive literature review of on-device training, which addresses the issue of memory limitations. Finally, we summarize on-device training and highlight the open problems for future research. By providing a comprehensive overview of these techniques and their effectiveness in breaking memory walls, we hope to help researchers and practitioners in this field navigate the rapidly evolving landscape of on-device training.
翻訳日:2023-09-13 17:00:18 公開日:2023-09-12
# 医用画像解析のための連合学習:調査

Federated Learning for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2306.05980v3 )

ライセンス: Link先を確認
Hao Guan, Pew-Thian Yap, Andrea Bozoki, Mingxia Liu(参考訳) 医療画像における機械学習は、しばしば基本的なジレンマ、すなわち小さなサンプルサイズ問題に直面している。 最近の多くの研究は、異なる取得サイトやデータセットからプールされたマルチドメインデータを用いて、統計力を改善することを示唆している。 しかし、プライバシー保護の理由から、異なるサイトからの医療画像を簡単に共有することはできず、モデルトレーニング用の大規模なデータセットを構築することができる。 有望なソリューションとして,複数サイト間のデータ共有を必要とせず,異なるサイトのデータに基づく機械学習モデルの協調学習を可能にするフェデレーション学習が注目されている。 本稿では,医療画像解析におけるフェデレート学習手法の最近の開発について,総合的な調査を行う。 まず,医療画像におけるプライバシー保護と協調学習問題に対する連合学習の背景とモチベーションについて紹介する。 次に、医用画像解析のための連合学習手法の最近の進歩を概観する。 具体的には、クライアントエンド、サーバエンド、通信技術を含む連合学習システムの3つの重要な側面に基づいて、既存の手法を分類する。 各カテゴリにおいて、医用画像解析における特定の研究課題に応じて既存の連合学習手法を要約し、異なるアプローチのモチベーションに関する洞察を提供する。 さらに,現状の連合学習研究のための既存のベンチマーク医用画像データセットとソフトウェアプラットフォームについてレビューする。 また,医療画像解析のための典型的な連合学習法を実証的に評価する実験を行った。 この調査は、この有望な研究分野における現在の研究状況、課題、潜在的研究機会の理解を深める助けとなる。

Machine learning in medical imaging often faces a fundamental dilemma, namely the small sample size problem. Many recent studies suggest using multi-domain data pooled from different acquisition sites/datasets to improve statistical power. However, medical images from different sites cannot be easily shared to build large datasets for model training due to privacy protection reasons. As a promising solution, federated learning, which enables collaborative training of machine learning models based on data from different sites without cross-site data sharing, has attracted considerable attention recently. In this paper, we conduct a comprehensive survey of the recent development of federated learning methods in medical image analysis. We first introduce the background and motivation of federated learning for dealing with privacy protection and collaborative learning issues in medical imaging. We then present a comprehensive review of recent advances in federated learning methods for medical image analysis. Specifically, existing methods are categorized based on three critical aspects of a federated learning system, including client end, server end, and communication techniques. In each category, we summarize the existing federated learning methods according to specific research problems in medical image analysis and also provide insights into the motivations of different approaches. In addition, we provide a review of existing benchmark medical imaging datasets and software platforms for current federated learning research. We also conduct an experimental study to empirically evaluate typical federated learning methods for medical image analysis. This survey can help to better understand the current research status, challenges and potential research opportunities in this promising research field.
翻訳日:2023-09-13 16:59:09 公開日:2023-09-12
# あらゆるものを一度に追跡する

Tracking Everything Everywhere All at Once ( http://arxiv.org/abs/2306.05422v2 )

ライセンス: Link先を確認
Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely(参考訳) ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。 従来の光学フローまたは粒子ビデオ追跡アルゴリズムは、通常、限られた時間窓内で動作し、オクルージョンを追尾し、推定された運動軌跡のグローバルな一貫性を維持するのに苦労する。 ビデオ中の全画素の正確な全長モーション推定を可能にする,omnimotionと呼ばれる完全かつグローバルに一貫したモーション表現を提案する。 OmniMotionは、準3Dカノニカルボリュームを使用して動画を表現し、局所空間とカノニカル空間の間の複射によるピクセルワイドトラッキングを行う。 この表現は、グローバルに一貫性を確保し、オクルージョンを追跡し、カメラとオブジェクトの動きの組み合わせをモデル化できます。 TAP-Vidベンチマークと実世界の映像の大規模な評価は、我々の手法が従来の最先端手法よりも定量的にも質的にも優れていることを示している。 さらなる結果については、プロジェクトページを参照してください。

We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
翻訳日:2023-09-13 16:58:45 公開日:2023-09-12
# 医用画像登録における深層学習に関する調査:新しい技術、不確実性、評価指標など

A survey on deep learning in medical image registration: new technologies, uncertainty, evaluation metrics, and beyond ( http://arxiv.org/abs/2307.15615v2 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Shuwen Wei, Zhangxing Bian, Shalini Subramanian, Aaron Carass, Jerry L. Prince, Yong Du(参考訳) 深層学習技術は、過去10年間に医療画像登録の分野を劇的に変えてきた。 resnetベースのネットワークやu-netベースのネットワークといった初期の開発は、画像登録におけるディープラーニングの基礎を築いた。 その後、類似度測定、変形正則化、不確実性推定など、深層学習に基づく登録の様々な面で進展が見られた。 これらの進歩は、画像登録の分野を豊かにしただけでなく、アトラス構築、マルチアトラスセグメンテーション、モーション推定、および2D-3D登録など、幅広いタスクにも応用した。 本稿では,ディープラーニングに基づく画像登録の最近の進歩を総合的に概観する。 まず、深層学習に基づく画像登録のコアコンセプトの簡潔な紹介から始める。 次に,革新的なネットワークアーキテクチャ,登録に特有の損失関数,登録の不確かさを推定する手法について考察する。 さらに,登録タスクにおけるディープラーニングモデルの性能を評価するための適切な評価指標について検討する。 最後に,これらの新しい医療画像技術の実践的応用を強調し,深層学習に基づく画像登録の今後の展望について考察する。

Deep learning technologies have dramatically reshaped the field of medical image registration over the past decade. The initial developments, such as ResNet-based and U-Net-based networks, established the foundation for deep learning in image registration. Subsequent progress has been made in various aspects of deep learning-based registration, including similarity measures, deformation regularizations, and uncertainty estimation. These advancements have not only enriched the field of image registration but have also facilitated its application in a wide range of tasks, including atlas construction, multi-atlas segmentation, motion estimation, and 2D-3D registration. In this paper, we present a comprehensive overview of the most recent advancements in deep learning-based image registration. We begin with a concise introduction to the core concepts of deep learning-based image registration. Then, we delve into innovative network architectures, loss functions specific to registration, and methods for estimating registration uncertainty. Additionally, this paper explores appropriate evaluation metrics for assessing the performance of deep learning models in registration tasks. Finally, we highlight the practical applications of these novel techniques in medical imaging and discuss the future prospects of deep learning-based image registration.
翻訳日:2023-09-13 16:52:19 公開日:2023-09-12
# インテリジェントリモートセンシング画像品質検査システム

An Intelligent Remote Sensing Image Quality Inspection System ( http://arxiv.org/abs/2307.11965v2 )

ライセンス: Link先を確認
Yijiong Yu, Tao Wang, Kang Ran, Chang Li and Hao Wu(参考訳) 品質問題の存在が避けられないため、リモートセンシング画像の品質検査は、リモートセンシング画像の取得と適用の間には必然的なステップである。 しかし、従来の手動検査は低効率である。 そこで我々は,まず画像分類を行い,次にセマンティックセグメンテーションなどの最も適切な手法を用いて品質問題をローカライズする,複数の先進的なコンピュータビジョンモデルからなる,新しい深層学習ベースの2段階知能システムを提案する。 その結果,提案手法は従来の手法よりも優れた性能と効率性を示した。 さらに,リモートセンシング画像品質検査にマルチモーダルモデルを適用した最初の調査を行った。

Due to the inevitable presence of quality problems, remote sensing image quality inspection is indeed an indispensable step between the acquisition and the application of remote sensing images. However, traditional manual inspection suffers from low efficiency. Hence, we propose a novel deep learning-based two-step intelligent system consisting of multiple advanced computer vision models, which first performs image classification and then accordingly adopts the most appropriate method, such as semantic segmentation, to localize the quality problems. Results demonstrate that the proposed method exhibits excellent performance and efficiency, surpassing traditional methods. Furthermore, we conduct an initial exploration of applying multimodal models to remote sensing image quality inspection.
翻訳日:2023-09-13 16:51:21 公開日:2023-09-12
# TwinLiteNet:自動運転車における走行可能エリアとレーンセグメンテーションのための効率的軽量モデル

TwinLiteNet: An Efficient and Lightweight Model for Driveable Area and Lane Segmentation in Self-Driving Cars ( http://arxiv.org/abs/2307.10705v4 )

ライセンス: Link先を確認
Quang Huy Che and Dinh Phuc Nguyen and Minh Quan Pham and Duc Khai Lam(参考訳) セマンティックセグメンテーションは、周囲の環境を理解するための自律運転において一般的な課題である。 運転可能なエリアセグメンテーションとレーン検出は、道路上の安全かつ効率的なナビゲーションに特に重要である。 しかし、オリジナルのセマンティクスセグメンテーションモデルは計算コストが高く、ハイエンドハードウェアを必要とするため、自動運転車の組み込みシステムでは実現不可能である。 本稿では,運転可能領域と車線区分の軽量モデルを提案する。 TwinLiteNetは安価に設計されているが、正確で効率的なセグメンテーション結果が得られる。 bdd100kデータセット上でtwinlitenetを評価し,現代的なモデルと比較する。 実験の結果,twinlitenetは既存の手法と同様に動作し,計算資源が大幅に少ないことがわかった。 具体的には、twinlitenet はdrivable area task の91.3%、レーン検出タスクの31.08% iou を 0.4 million のパラメータで達成し、gpu rtx a5000 で 415 fps を達成した。 さらにtwinlitenetは、jetson xavier nxで60fpsを達成したため、計算能力に制限のある組み込みデバイス上でリアルタイムに動作し、自動運転車にとって理想的なソリューションとなる。 コードは url{https://github.com/chequanghuy/TwinLiteNet} で入手できる。

Semantic segmentation is a common task in autonomous driving to understand the surrounding environment. Driveable Area Segmentation and Lane Detection are particularly important for safe and efficient navigation on the road. However, original semantic segmentation models are computationally expensive and require high-end hardware, which is not feasible for embedded systems in autonomous vehicles. This paper proposes a lightweight model for the driveable area and lane line segmentation. TwinLiteNet is designed cheaply but achieves accurate and efficient segmentation results. We evaluate TwinLiteNet on the BDD100K dataset and compare it with modern models. Experimental results show that our TwinLiteNet performs similarly to existing approaches, requiring significantly fewer computational resources. Specifically, TwinLiteNet achieves a mIoU score of 91.3% for the Drivable Area task and 31.08% IoU for the Lane Detection task with only 0.4 million parameters and achieves 415 FPS on GPU RTX A5000. Furthermore, TwinLiteNet can run in real-time on embedded devices with limited computing power, especially since it achieves 60FPS on Jetson Xavier NX, making it an ideal solution for self-driving vehicles. Code is available: url{https://github.com/chequanghuy/TwinLiteNet}.
翻訳日:2023-09-13 16:51:12 公開日:2023-09-12
# ペナルティ化およびしきい値化推定におけるパターン回復とその形状

Pattern Recovery in Penalized and Thresholded Estimation and its Geometry ( http://arxiv.org/abs/2307.10158v2 )

ライセンス: Link先を確認
Piotr Graczyk, Ulrike Schneider, Tomasz Skalski, Patrick Tardivel(参考訳) ペナルティ項が実数値多面体ゲージによって与えられるペナルティ化推定の枠組みについて考察し,lasso(および一般化lassoなどの多くの変種を含む),slide,osos,pacsなどの手法について考察する。 これらの推定子は、未知のパラメータベクトルの異なる構造や 'パターン' を明らかにすることができる。 我々は,部分微分に基づくパターンの一般概念を定義し,その複雑性を測るアプローチを定式化する。 パターン回復のためには,正の確率で検出すべき特定のパターン,いわゆるアクセシビリティ条件を最小限に設定する。 また,本手法を用いて,より強いノイズレス回復条件を導入する。 LASSOの場合,1/2$以上の確率でパターン復元を行うためには非表現性条件が必要であることがよく知られており,ノイズのない回復が全く同じ役割を果たすことを示し,それによってLASSOの不表現性条件を広範囲のペナル化推定器に拡張・統一する。 我々は、閾値付きペナル化推定器に切り替えると、ノイズレス回復条件が緩和され、しきい値付きLASSOの概念が拡張されることを示し、そのパターンの信号が十分に大きいことを条件として、閾値付きペナル化推定によるパターン回復が確実であることを示す。 論文全体を通して、我々の発見が幾何学的レンズを通してどのように解釈できるかを実証する。

We consider the framework of penalized estimation where the penalty term is given by a real-valued polyhedral gauge, which encompasses methods such as LASSO (and many variants thereof such as the generalized LASSO), SLOPE, OSCAR, PACS and others. Each of these estimators can uncover a different structure or ``pattern'' of the unknown parameter vector. We define a general notion of patterns based on subdifferentials and formalize an approach to measure their complexity. For pattern recovery, we provide a minimal condition for a particular pattern to be detected by the procedure with positive probability, the so-called accessibility condition. Using our approach, we also introduce the stronger noiseless recovery condition. For the LASSO, it is well known that the irrepresentability condition is necessary for pattern recovery with probability larger than $1/2$ and we show that the noiseless recovery plays exactly the same role, thereby extending and unifying the irrepresentability condition of the LASSO to a broad class of penalized estimators. We show that the noiseless recovery condition can be relaxed when turning to thresholded penalized estimators, extending the idea of the thresholded LASSO: we prove that the accessibility condition is already sufficient (and necessary) for sure pattern recovery by thresholded penalized estimation provided that the signal of the pattern is large enough. Throughout the article, we demonstrate how our findings can be interpreted through a geometrical lens.
翻訳日:2023-09-13 16:50:50 公開日:2023-09-12
# 昼頭市場における仮想発電所の戦略的入札のための安全強化学習

Safe Reinforcement Learning for Strategic Bidding of Virtual Power Plants in Day-Ahead Markets ( http://arxiv.org/abs/2307.05812v2 )

ライセンス: Link先を確認
Ognjen Stanojev, Lesia Mitridati, Riccardo de Nardis di Prata, Gabriela Hug(参考訳) 本稿では,電力市場における仮想発電プラント(vpps)の戦略的入札のための安全強化学習アルゴリズムを提案する。 提案アルゴリズムは,Deep Deterministic Policy Gradient (DDPG) 法を用いて,正確な市場モデルを必要としない競争入札政策を学習する。 さらに,vppsの複雑な内部物理的制約を考慮し,ddpg法の2つの拡張を導入する。 第一に、エージェントの動作を非線形の電力フロー方程式と分散エネルギー資源の運転制約によって定義される実現可能な空間に制限するプロジェクションベースの安全シールドを導出する。 次に、より安全なポリシーを学ぶためにエージェントにインセンティブを与える報酬機能におけるシールドアクティベーションに対するペナルティを導入する。 IEEE 13バスネットワークに基づくケーススタディでは、エージェントが高度に競争力のある安全な戦略方針を学習できるようにするための提案手法の有効性が示されている。

This paper presents a novel safe reinforcement learning algorithm for strategic bidding of Virtual Power Plants (VPPs) in day-ahead electricity markets. The proposed algorithm utilizes the Deep Deterministic Policy Gradient (DDPG) method to learn competitive bidding policies without requiring an accurate market model. Furthermore, to account for the complex internal physical constraints of VPPs we introduce two enhancements to the DDPG method. Firstly, a projection-based safety shield that restricts the agent's actions to the feasible space defined by the non-linear power flow equations and operating constraints of distributed energy resources is derived. Secondly, a penalty for the shield activation in the reward function that incentivizes the agent to learn a safer policy is introduced. A case study based on the IEEE 13-bus network demonstrates the effectiveness of the proposed approach in enabling the agent to learn a highly competitive, safe strategic policy.
翻訳日:2023-09-13 16:50:23 公開日:2023-09-12
# 年齢推定のための評価手法を振り返る--最新技術と統一ベンチマークの比較分析

A Call to Reflect on Evaluation Practices for Age Estimation: Comparative Analysis of the State-of-the-Art and a Unified Benchmark ( http://arxiv.org/abs/2307.04570v2 )

ライセンス: Link先を確認
Jakub Paplham and Vojtech Franc(参考訳) 異なる年齢推定法を比較することは、ベンチマークプロセスの不整合に起因する結果の信頼性の欠如による課題となる。 過去10年間に専門的な手法を用いて連続的なパフォーマンス改善を報告してきたが、これらの主張に異議を唱えた。 本稿では,現在使用されている評価プロトコルの2つの自明だが永続的な問題を特定し,その解決法について述べる。 評価プロトコルを詳細に記述し、そのプロトコルの使用方法について具体例を示す。 本プロトコルを用いて,最先端顔年齢推定手法の広範な比較分析を行う。 驚くべきことに、これらの手法のパフォーマンスの違いは、顔のアライメント、顔のカバレッジ、画像の解像度、モデルアーキテクチャ、事前トレーニングに使用するデータ量など、他の要因の影響と比較して無視できる。 得られた知見を用いて、FaRLをバックボーンモデルとして使用し、その効率性を実証する。 その結果、信頼性と意味のある比較のための一貫性のあるデータ前処理プラクティスの重要性を強調した。 ソースコードはhttps://github.com/paplhjak/Facial-Age-Estimation-Benchmarkで公開しています。

Comparing different age estimation methods poses a challenge due to the unreliability of published results stemming from inconsistencies in the benchmarking process. Previous studies have reported continuous performance improvements over the past decade using specialized methods; however, our findings challenge these claims. This paper identifies two trivial, yet persistent issues with the currently used evaluation protocol and describes how to resolve them. We describe our evaluation protocol in detail and provide specific examples of how the protocol should be used. We utilize the protocol to offer an extensive comparative analysis for state-of-the-art facial age estimation methods. Surprisingly, we find that the performance differences between the methods are negligible compared to the effect of other factors, such as facial alignment, facial coverage, image resolution, model architecture, or the amount of data used for pretraining. We use the gained insights to propose using FaRL as the backbone model and demonstrate its efficiency. The results emphasize the importance of consistent data preprocessing practices for reliable and meaningful comparisons. We make our source code public at https://github.com/paplhjak/Facial-Age-Estimation-Benchmark.
翻訳日:2023-09-13 16:50:07 公開日:2023-09-12
# 3次元シミュレーションアンサンブルにおける統計依存性のインタラクティブ可視化のためのニューラルフィールド

Neural Fields for Interactive Visualization of Statistical Dependencies in 3D Simulation Ensembles ( http://arxiv.org/abs/2307.02203v4 )

ライセンス: Link先を確認
Fatemeh Farokhmanesh, Kevin H\"ohlein, Christoph Neuhauser, and R\"udiger Westermann(参考訳) 大規模な3次元シミュレーションアンサンブルにおいて,物理変数の値間の統計的依存関係をコンパクトに表現し,効率的に再構築することのできる,最初のニューラルネットワークを提案する。 線形依存を超えて、我々は相互情報を非線形依存の尺度とみなす。 我々は,複数の物理変数を250 x 352 x 20シミュレーショングリッドに格納した,1000人からなる大天気予報アンサンブルを用いて,学習と再構築を実証する。 計算集約型統計推定器を実行時に回避することにより、主要な依存構造を再構築するためのメモリと計算要求を著しく低減することを示した。 これにより、etimatorをgpuによる直接ボリュームレンダラに組み込み、選択したドメインポイントに対するすべての相互依存関係をインタラクティブに可視化することができる。

We present the first neural network that has learned to compactly represent and can efficiently reconstruct the statistical dependencies between the values of physical variables at different spatial locations in large 3D simulation ensembles. Going beyond linear dependencies, we consider mutual information as a measure of non-linear dependence. We demonstrate learning and reconstruction with a large weather forecast ensemble comprising 1000 members, each storing multiple physical variables at a 250 x 352 x 20 simulation grid. By circumventing compute-intensive statistical estimators at runtime, we demonstrate significantly reduced memory and computation requirements for reconstructing the major dependence structures. This enables embedding the estimator into a GPU-accelerated direct volume renderer and interactively visualizing all mutual dependencies for a selected domain point.
翻訳日:2023-09-13 16:49:21 公開日:2023-09-12
# ホロデッキ型シミュレーションゲームに向けて

Towards a Holodeck-style Simulation Game ( http://arxiv.org/abs/2308.13548v2 )

ライセンス: Link先を確認
Ahad Shams, Douglas Summers-Stay, Arpan Tripathi, Vsevolod Metelsky, Alexandros Titonis, Karan Malhotra(参考訳) Infinitiaは、再生時に生成画像と言語モデルを用いて、プレイヤーからの短い説明に基づいて設定とNPCの全ての側面を再構成するシミュレーションゲームシステムである。 生成エージェント(Generative Agents)論文のアイデアを生かした本システムでは,無限生成ファンタジーワールド,NPC行動の制御性,ユーモラス対話,コストと時間効率,プレイヤー間のコラボレーション,ゲーム内イベント間の非決定性要素などのゲームプレイ要素を導入している。 InfinitiaはサーバベースのアーキテクチャでUnityエンジンに実装されており、将来はコミュニティ開発者によるエキサイティングな機能追加を促進する。 さらに、マルチプレイヤーフレームワークを使用して、シミュレーションに人間が参加し、相互作用できるようにする。 シミュレーションは、https://infinitia.ai/で間もなくオープンソースとして公開される予定だ。

We introduce Infinitia, a simulation game system that uses generative image and language models at play time to reshape all aspects of the setting and NPCs based on a short description from the player, in a way similar to how settings are created on the fictional Holodeck. Building off the ideas of the Generative Agents paper, our system introduces gameplay elements, such as infinite generated fantasy worlds, controllability of NPC behavior, humorous dialogue, cost & time efficiency, collaboration between players and elements of non-determinism among in-game events. Infinitia is implemented in the Unity engine with a server-client architecture, facilitating the addition of exciting features by community developers in the future. Furthermore, it uses a multiplayer framework to allow humans to be present and interact in the simulation. The simulation will be available in open-alpha shortly at https://infinitia.ai/ and we are looking forward to building upon it with the community.
翻訳日:2023-09-13 16:41:16 公開日:2023-09-12
# 等変拡散モデルによる形状条件付き3次元分子生成

Shape-conditioned 3D Molecule Generation via Equivariant Diffusion Models ( http://arxiv.org/abs/2308.11890v2 )

ライセンス: Link先を確認
Ziqi Chen, Bo Peng, Srinivasan Parthasarathy, Xia Ning(参考訳) リガンドベースの薬物設計は、既知の活性分子と類似した形状の新しい薬物候補を特定することを目的としている。 本稿では, シリカ形状条件分子生成問題を定式化し, 与えられた分子の形状を条件とした3次元分子構造を生成する。 この問題に対処するために, 変換および回転同変形状誘導生成モデル shapemol を開発した。 ShapeMolは、分子表面形状を潜在埋め込みにマッピングする同変形状エンコーダと、これらの埋め込みに基づいて3次元分子を生成する同変拡散モデルからなる。 実験の結果、shapemolは、与えられた形状条件に類似した3d分子形状を保持する、新しい多様な薬物様分子を生成できることが示されている。 これらの結果は、タンパク質標的ポケットに結合する所望の3d形状の薬物候補の設計におけるshapemolの可能性を示している。

Ligand-based drug design aims to identify novel drug candidates of similar shapes with known active molecules. In this paper, we formulated an in silico shape-conditioned molecule generation problem to generate 3D molecule structures conditioned on the shape of a given molecule. To address this problem, we developed a translation- and rotation-equivariant shape-guided generative model ShapeMol. ShapeMol consists of an equivariant shape encoder that maps molecular surface shapes into latent embeddings, and an equivariant diffusion model that generates 3D molecules based on these embeddings. Experimental results show that ShapeMol can generate novel, diverse, drug-like molecules that retain 3D molecular shapes similar to the given shape condition. These results demonstrate the potential of ShapeMol in designing drug candidates of desired 3D shapes binding to protein target pockets.
翻訳日:2023-09-13 16:40:58 公開日:2023-09-12
# ソフトウェア工学のための大規模言語モデル:体系的文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v4 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学(se)を含む多くのドメインに大きな影響を与えてきた。 最近の多くの出版物は様々なSEタスクに適用されたLSMを探索している。 それでも、SE 上の LLM の応用、効果、および可能な制限に関する包括的な理解はまだ初期段階にある。 このギャップを埋めるために,我々は LLM4SE の体系的な文献レビューを行い,プロセスと成果を最適化するために LLM をどのように活用できるかを理解することに焦点をあてた。 我々は2017年から2023年までの229の研究論文を収集し分析し、4つの重要な研究質問(RQ)に答える。 RQ1では、SEタスクに採用された異なるLLMを分類し、その特徴と用途を特徴付ける。 RQ2では、データ収集、前処理、アプリケーションで使われる手法を分析し、SE 実装における LLM を成功させるために、よく計算されたデータセットの役割を強調します。 RQ3 では,SE における LLM の性能を最適化し,評価するための戦略について検討している。 最後に、RQ4は、LLMがこれまで成功してきた特定のSEタスクを調べ、その分野への実践的な貢献を説明する。 これらのRQに対する回答から、現状とトレンド、既存の研究のギャップの特定、今後の研究に期待できる領域のフラグ付けなどについて議論する。

Large Language Models (LLMs) have significantly impacted numerous domains, including Software Engineering (SE). Many recent publications have explored LLMs applied to various SE tasks. Nevertheless, a comprehensive understanding of the application, effects, and possible limitations of LLMs on SE is still in its early stages. To bridge this gap, we conducted a systematic literature review on LLM4SE, with a particular focus on understanding how LLMs can be exploited to optimize processes and outcomes. We collect and analyze 229 research papers from 2017 to 2023 to answer four key research questions (RQs). In RQ1, we categorize different LLMs that have been employed in SE tasks, characterizing their distinctive features and uses. In RQ2, we analyze the methods used in data collection, preprocessing, and application highlighting the role of well-curated datasets for successful LLM for SE implementation. RQ3 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE. Finally, RQ4 examines the specific SE tasks where LLMs have shown success to date, illustrating their practical contributions to the field. From the answers to these RQs, we discuss the current state-of-the-art and trends, identifying gaps in existing research, and flagging promising areas for future study.
翻訳日:2023-09-13 16:40:43 公開日:2023-09-12
# ThermRad: 混在条件下でのロバスト3次元物体検出のためのマルチモーダルデータセット

ThermRad: A Multi-modal Dataset for Robust 3D Object Detection under Challenging Conditions ( http://arxiv.org/abs/2308.10161v3 )

ライセンス: Link先を確認
Qiao Yan, Yihan Wang(参考訳) 極度の天候と照明条件下でのロバストな3D物体検出は難しい課題である。 レーダーとサーマルカメラはこれらの条件に対する弾力性で知られているが、対応するデータセットがないため、レーダー熱融合の研究はほとんど行われていない。 このギャップに対処するために、まず3D LiDAR、4Dレーダー、RGBカメラ、サーマルカメラを含む、ThermRadと呼ばれる新しいマルチモーダルデータセットを提示する。 このデータセットは、極度の気象条件下で4つのセンサー全てからのデータを含んでいるため、この領域における将来の研究に貴重なリソースを提供する。 そこで本研究では, RTDF-RCNNと呼ばれる, 4次元レーダとサーマルカメラの相補的強度を利用して, 物体検出性能を向上させるマルチモーダル融合法を提案する。 提案手法の有効性をさらに証明するため, 評価のためのベンチマークとして, データセット上にSOTA(State-of-the-art)3D検出器を再実装した。 提案手法は,車,歩行者,自転車の検知において,それぞれ7.98%,24.27%,27.15%以上の改善を達成し,LiDARによるアプローチと同等の結果を得た。 ThermRadデータセットと新しいマルチモーダル融合法への我々の貢献は、悪天候や照明条件下での堅牢な3次元物体検出に新しいアプローチを提供する。 ThermRadデータセットがリリースされる。

Robust 3D object detection in extreme weather and illumination conditions is a challenging task. While radars and thermal cameras are known for their resilience to these conditions, few studies have been conducted on radar-thermal fusion due to the lack of corresponding datasets. To address this gap, we first present a new multi-modal dataset called ThermRad, which includes a 3D LiDAR, a 4D radar, an RGB camera and a thermal camera. This dataset is unique because it includes data from all four sensors in extreme weather conditions, providing a valuable resource for future research in this area. To validate the robustness of 4D radars and thermal cameras for 3D object detection in challenging weather conditions, we propose a new multi-modal fusion method called RTDF-RCNN, which leverages the complementary strengths of 4D radars and thermal cameras to boost object detection performance. To further prove the effectiveness of our proposed framework, we re-implement state-of-the-art (SOTA) 3D detectors on our dataset as benchmarks for evaluation. Our method achieves significant enhancements in detecting cars, pedestrians, and cyclists, with improvements of over 7.98%, 24.27%, and 27.15%, respectively, while achieving comparable results to LiDAR-based approaches. Our contributions in both the ThermRad dataset and the new multi-modal fusion method provide a new approach to robust 3D object detection in adverse weather and illumination conditions. The ThermRad dataset will be released.
翻訳日:2023-09-13 16:40:21 公開日:2023-09-12
# 教師に適応する: 模範のない連続学習のための知識蒸留の改善

Adapt Your Teacher: Improving Knowledge Distillation for Exemplar-free Continual Learning ( http://arxiv.org/abs/2308.09544v2 )

ライセンス: Link先を確認
Filip Szatkowski, Mateusz Pyla, Marcin Przewi\k{e}\'zlikowski, Sebastian Cygert, Bart{\l}omiej Twardowski, Tomasz Trzci\'nski(参考訳) 本研究では, 知識蒸留(KD)を正規化戦略とし, 忘れることの防止を目的とした, 模範的自由クラスインクリメンタルラーニング(CIL)について検討する。 KDベースの手法はCILでうまく使われているが、以前のタスクからトレーニングデータの例にアクセスできることなくモデルを規則化するのに苦労することが多い。 分析の結果,この問題は教師ネットワークにおける配布外データを扱う場合の表現変化に起因していることがわかった。 これにより、KD損失成分に大きなエラーが発生し、CILモデルのパフォーマンスが低下する。 近年の試験時間適応法に触発されて,インクリメンタルトレーニング中に教師と主要モデルを同時に更新する手法であるTeacher Adaptation (TA)を紹介した。 提案手法は KD ベースの CIL アプローチとシームレスに統合し,その性能を複数の例のない CIL ベンチマークで一貫した向上を可能にする。

In this work, we investigate exemplar-free class incremental learning (CIL) with knowledge distillation (KD) as a regularization strategy, aiming to prevent forgetting. KD-based methods are successfully used in CIL, but they often struggle to regularize the model without access to exemplars of the training data from previous tasks. Our analysis reveals that this issue originates from substantial representation shifts in the teacher network when dealing with out-of-distribution data. This causes large errors in the KD loss component, leading to performance degradation in CIL models. Inspired by recent test-time adaptation methods, we introduce Teacher Adaptation (TA), a method that concurrently updates the teacher and the main models during incremental training. Our method seamlessly integrates with KD-based CIL approaches and allows for consistent enhancement of their performance across multiple exemplar-free CIL benchmarks.
翻訳日:2023-09-13 16:39:55 公開日:2023-09-12
# フレームレート非感受性マルチオブジェクトトラッキングのための協調トラッキング学習

Collaborative Tracking Learning for Frame-Rate-Insensitive Multi-Object Tracking ( http://arxiv.org/abs/2308.05911v2 )

ライセンス: Link先を確認
Yiheng Liu, Junta Wu, Yi Fu(参考訳) 低フレームレートのマルチオブジェクトトラッキング(MOT)は、エッジデバイスの制約を満たすため、計算、ストレージ、電力オーバーヘッドを低減することができる。 既存のMOT法の多くは、隣接フレーム間の位置や外観の変化により、低フレームレートビデオの性能が著しく低下する。 そこで本研究では,コラボレーティブ・トラッキング・ラーニング(ColTrack)によるフレームレート非感受性MOTの問合せに基づくエンドツーエンド手法を提案する。 同じターゲットの複数の履歴クエリが、よりリッチな時間記述でそれを共同で追跡する。 一方,2つの時間的ブロッキングデコーダ間で情報リファインメントモジュールを挿入し,時間的手がかりの融合と特徴の洗練を図る。 さらに,過去のクエリ間のインタラクションを導くために,オブジェクト一貫性の損失を追跡する手法を提案する。 広範な実験結果から,高フレームレートビデオでは,大規模データセットのdancetrackやbdd100kにおいて,coltrackが最先端のメソッドよりも高いパフォーマンスを得られ,既存のmot17のエンドツーエンドメソッドよりも優れていることが示されている。 さらに重要なことに、coltrackは低フレームレートビデオにおける最先端のメソッドよりも大きなアドバンテージがあり、高いパフォーマンスを維持しながらフレームレート要件を削減し、より高速な処理速度を得ることができる。 コードはhttps://github.com/yolomax/ColTrackでリリースされる。

Multi-object tracking (MOT) at low frame rates can reduce computational, storage and power overhead to better meet the constraints of edge devices. Many existing MOT methods suffer from significant performance degradation in low-frame-rate videos due to significant location and appearance changes between adjacent frames. To this end, we propose to explore collaborative tracking learning (ColTrack) for frame-rate-insensitive MOT in a query-based end-to-end manner. Multiple historical queries of the same target jointly track it with richer temporal descriptions. Meanwhile, we insert an information refinement module between every two temporal blocking decoders to better fuse temporal clues and refine features. Moreover, a tracking object consistency loss is proposed to guide the interaction between historical queries. Extensive experimental results demonstrate that in high-frame-rate videos, ColTrack obtains higher performance than state-of-the-art methods on large-scale datasets Dancetrack and BDD100K, and outperforms the existing end-to-end methods on MOT17. More importantly, ColTrack has a significant advantage over state-of-the-art methods in low-frame-rate videos, which allows it to obtain faster processing speeds by reducing frame-rate requirements while maintaining higher performance. Code will be released at https://github.com/yolomax/ColTrack
翻訳日:2023-09-13 16:39:20 公開日:2023-09-12
# 実用的なアナロジーをモデル化するにはなぜニューロシンボリックAIが必要なのか?

Why Do We Need Neuro-symbolic AI to Model Pragmatic Analogies? ( http://arxiv.org/abs/2308.01936v2 )

ライセンス: Link先を確認
Thilini Wijesiriwardene and Amit Sheth and Valerie L. Shalin and Amitava Das(参考訳) 知性の要点は、親しみやすいドメインを使って、親しみないドメイン(アナロジー推論として知られる)を推論する能力である。 本稿では,非構造化テキストで表される漸進的に複雑な類似語を扱うために,Large Language Models(LLMs)の性能について検討する。 語彙の類似点,構文的類似点,意味的類似点,実用的類似点の4つの異なるレベルでの類似点について考察する。 類似語がより複雑になるにつれて、テキストの内容を超えてより広範囲で多様な知識が必要となり、llmを駆動する語彙共起統計には見当たらない。 そこで本稿では,統計とシンボルAIを組み合わせたニューロシンボリックAI技術の導入の必要性を論じ,非構造化テキストの表現によって関連コンテンツを強調・拡張し,抽象化とマッピングプロセスのガイドを行う。 我々の知識インフォームドアプローチはLLMの効率を維持しつつ、教育的応用のアナロジーを説明する能力を維持している。

A hallmark of intelligence is the ability to use a familiar domain to make inferences about a less familiar domain, known as analogical reasoning. In this article, we delve into the performance of Large Language Models (LLMs) in dealing with progressively complex analogies expressed in unstructured text. We discuss analogies at four distinct levels of complexity: lexical analogies, syntactic analogies, semantic analogies, and pragmatic analogies. As the analogies become more complex, they require increasingly extensive, diverse knowledge beyond the textual content, unlikely to be found in the lexical co-occurrence statistics that power LLMs. To address this, we discuss the necessity of employing Neuro-symbolic AI techniques that combine statistical and symbolic AI, informing the representation of unstructured text to highlight and augment relevant content, provide abstraction and guide the mapping process. Our knowledge-informed approach maintains the efficiency of LLMs while preserving the ability to explain analogies for pedagogical applications.
翻訳日:2023-09-13 16:38:56 公開日:2023-09-12
# 人間の顔に対する高忠実眼アニマタブル神経放射場

High-Fidelity Eye Animatable Neural Radiance Fields for Human Face ( http://arxiv.org/abs/2308.00773v3 )

ライセンス: Link先を確認
Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang(参考訳) neural radiance fields (nerf) はコンピュータビジョンの分野で急速に発展している研究分野である。 近年の手法は主にアイデンティティや表現などの顔属性の制御に重点を置いているが、様々な下流タスクにおいて重要である眼球回転をモデル化する重要な側面を見落としていることが多い。 本稿では,多視点画像から眼球運動に敏感な顔NeRFモデルを学習することを目的とする。 我々は、眼球回転を効果的に捉える方法と、眼球回転を表す多様体を構築する方法の2つの課題に対処する。 そこで我々はまず,マルチビューの整合性を考慮した多視点画像に,よく確立されたパラメトリック顔モデルFLAMEを適合させる。 その後、新しいダイナミックアイ対応NeRF(DeNeRF)を導入する。 DeNeRFは3Dポイントを異なる視点から標準空間に変換し、統一された顔NeRFモデルを学ぶ。 我々は、剛性変換、例えば、眼球回転、非剛性変換を含む変形のための眼変形場を設計する。 eth-xgazeデータセットを用いた実験により,新しい視野角でも正確な眼球回転と非剛性眼球変形を伴う高忠実度画像を生成することができることを実証した。 さらに、レンダリング画像を利用することで、視線推定性能を効果的に向上できることを示す。

Face rendering using neural radiance fields (NeRF) is a rapidly developing research area in computer vision. While recent methods primarily focus on controlling facial attributes such as identity and expression, they often overlook the crucial aspect of modeling eyeball rotation, which holds importance for various downstream tasks. In this paper, we aim to learn a face NeRF model that is sensitive to eye movements from multi-view images. We address two key challenges in eye-aware face NeRF learning: how to effectively capture eyeball rotation for training and how to construct a manifold for representing eyeball rotation. To accomplish this, we first fit FLAME, a well-established parametric face model, to the multi-view images considering multi-view consistency. Subsequently, we introduce a new Dynamic Eye-aware NeRF (DeNeRF). DeNeRF transforms 3D points from different views into a canonical space to learn a unified face NeRF model. We design an eye deformation field for the transformation, including rigid transformation, e.g., eyeball rotation, and non-rigid transformation. Through experiments conducted on the ETH-XGaze dataset, we demonstrate that our model is capable of generating high-fidelity images with accurate eyeball rotation and non-rigid periocular deformation, even under novel viewing angles. Furthermore, we show that utilizing the rendered images can effectively enhance gaze estimation performance.
翻訳日:2023-09-13 16:38:38 公開日:2023-09-12
# マルチモダリティマルチロス融合ネットワーク

Multi-Modality Multi-Loss Fusion Network ( http://arxiv.org/abs/2308.00264v2 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Jaywon Koo, Julia Hirschberg(参考訳) 本研究では,複数のモダリティにまたがる特徴の最適選択と融合について検討し,これらをニューラルネットワークで組み合わせ,感情検出を改善する。 異なる融合法を比較し,マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響を調べ,サブネット性能に関する有用な知見を明らかにした。 我々の最良のモデルは3つのデータセット(CMU-MOSI、CMU-MOSEI、CH-SIMS)の最先端性能を達成し、ほとんどの指標において他の手法よりも優れています。 マルチモーダル機能のトレーニングにより、単一のモダリティテストが改善され、データセットアノテーションスキーマに基づいた融合メソッドの設計がモデルパフォーマンスを向上させることが判明した。 これらの結果は、ニューラルネットワークにおける感情検出を強化するための最適化された特徴選択および融合アプローチへのロードマップを示唆する。

In this work we investigate the optimal selection and fusion of features across multiple modalities and combine these in a neural network to improve emotion detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying useful findings relating to subnet performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS), and outperforms the other methods in most metrics. We have found that training on multimodal features improves single modality testing and designing fusion methods based on dataset annotation schema enhances model performance. These results suggest a roadmap towards an optimized feature selection and fusion approach for enhancing emotion detection in neural networks.
翻訳日:2023-09-13 16:38:15 公開日:2023-09-12
# 非エルミート準結晶中の絡み合い相転移

Entanglement phase transitions in non-Hermitian quasicrystals ( http://arxiv.org/abs/2309.00924v2 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 絡み合いエントロピーのスケーリング法則は、量子多体系の非単位進化の間に定性的変化を起こす可能性がある。 本研究では,そのような絡み合い相転移を一次元非エルミート準結晶(nhqcs)で解明する。 非エルミート効果と準周期ポテンシャルの相互作用により、異なるスケーリング法則と臨界挙動を持つ2種類の絡み合い遷移を同定する。 最初のタイプは典型的な体積法則から面積法則遷移を表し、PT対称性の破れと局所化遷移と共に起こる。 第2のタイプは、定常的絡み合いエントロピーにおけるボリュームロースケーリングを伴う臨界相によって媒介される、異常なログロー対領域ロー遷移である。 これらのエンタングリング相と遷移は、NHQCの2つの代表モデルで示される。 その結果,非エルミート乱数系の絡み合い遷移の研究が進み,さらにNHQCの絡み合いパターンが明らかにされた。

The scaling law of entanglement entropy could undergo qualitative changes during the nonunitary evolution of a quantum many-body system. In this work, we uncover such entanglement phase transitions in one-dimensional non-Hermitian quasicrystals (NHQCs). We identify two types of entanglement transitions with different scaling laws and critical behaviors due to the interplay between non-Hermitian effects and quasiperiodic potentials. The first type represents a typical volume-law to area-law transition, which happens together with a PT-symmetry breaking and a localization transition. The second type features an abnormal log-law to area-law transition, which is mediated by a critical phase with a volume-law scaling in the steady-state entanglement entropy. These entangling phases and transitions are demonstrated in two representative models of NHQCs. Our results thus advanced the study of entanglement transitions in non-Hermitian disordered systems and further disclosed the rich entanglement patterns in NHQCs.
翻訳日:2023-09-13 16:32:52 公開日:2023-09-12
# キーポイント検出学習による変形可能な物体のマッチング改善

Improving the matching of deformable objects by learning to detect keypoints ( http://arxiv.org/abs/2309.00434v2 )

ライセンス: Link先を確認
Felipe Cadar and Welerson Melo and Vaishnavi Kanagasabapathi and Guilherme Potje and Renato Martins and Erickson R. Nascimento(参考訳) 本研究では,非剛性画像対応タスクにおける正しいマッチング数を増やすための新しい学習キーポイント検出手法を提案する。 注釈付き画像対と特定のディスクリプタ抽出器とのマッチングによって得られた真の対応を利用して、エンド・ツー・エンドの畳み込みニューラルネットワーク(CNN)をトレーニングし、検討されたディスクリプタにより適したキーポイント位置を見つける。 そこで,画像に幾何学的および測光的ワーピングを適用し,監視信号を生成し,検出器の最適化を可能にする。 実験により,本手法は,検出手法と併用して多数の記述子の平均マッチング精度を向上させるとともに,非剛体物体の実像における最先端のキーポイント検出器の性能を20p以上で向上させ,また,この課題に現在利用可能な最も優れたキーポイント検出器と同等に動作するオブジェクト検索の複雑な実世界のタスクにも適用できることを示した。 ソースコードとトレーニングされたモデルはhttps://github.com/verlab/LearningToDetect_PRL_2023で公開されている。

We propose a novel learned keypoint detection method to increase the number of correct matches for the task of non-rigid image correspondence. By leveraging true correspondences acquired by matching annotated image pairs with a specified descriptor extractor, we train an end-to-end convolutional neural network (CNN) to find keypoint locations that are more appropriate to the considered descriptor. For that, we apply geometric and photometric warpings to images to generate a supervisory signal, allowing the optimization of the detector. Experiments demonstrate that our method enhances the Mean Matching Accuracy of numerous descriptors when used in conjunction with our detection method, while outperforming the state-of-the-art keypoint detectors on real images of non-rigid objects by 20 p.p. We also apply our method on the complex real-world task of object retrieval where our detector performs on par with the finest keypoint detectors currently available for this task. The source code and trained models are publicly available at https://github.com/verlab/LearningToDetect_PRL_2023
翻訳日:2023-09-13 16:31:50 公開日:2023-09-12
# Affective Visual Dialog:ビジュアル接地会話に基づく感情推論のための大規模ベンチマーク

Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations ( http://arxiv.org/abs/2308.16349v2 )

ライセンス: Link先を確認
Kilichbek Haydarov, Xiaoqian Shen, Avinash Madasu, Mahmoud Salem, Li-Jia Li, Gamaleldin Elsayed, Mohamed Elhoseiny(参考訳) 視覚の接地会話における感情の形成を理解するためのテストベッドとして,感情説明と推論タスクである情緒的視覚ダイアログを導入した。 課題は,(1)対話に基づく質問応答,(2)対話に基づく感情予測,(3)対話に基づく感情説明生成の3つのスキルである。 私たちの重要な貢献は、AffectVisDialと呼ばれる大規模なデータセットの収集です。50Kの10ターンの視覚的接地ダイアログと、感情の属性とダイアログのインフォームド感情の説明をまとめ、合計27180時間の作業時間になります。 データセット収集における設計判断について説明し,会話の参加者に関連付けられた質問者および回答者タスクについて紹介する。 我々は,最先端モデルから適応した視覚ダイアログベースラインを訓練し,実演する。 注目すべきことに、我々のモデルが生成した反応は、視覚的に接地された会話に応答して、有望な感情的推論能力を示す。 プロジェクトのページはhttps://affective-visual-dialog.github.ioで閲覧できます。

We introduce Affective Visual Dialog, an emotion explanation and reasoning task as a testbed for research on understanding the formation of emotions in visually grounded conversations. The task involves three skills: (1) Dialog-based Question Answering (2) Dialog-based Emotion Prediction and (3) Affective emotion explanation generation based on the dialog. Our key contribution is the collection of a large-scale dataset, dubbed AffectVisDial, consisting of 50K 10-turn visually grounded dialogs as well as concluding emotion attributions and dialog-informed textual emotion explanations, resulting in a total of 27,180 working hours. We explain our design decisions in collecting the dataset and introduce the questioner and answerer tasks that are associated with the participants in the conversation. We train and demonstrate solid Affective Visual Dialog baselines adapted from state-of-the-art models. Remarkably, the responses generated by our models show promising emotional reasoning abilities in response to visually grounded conversations. Our project page is available at https://affective-visual-dialog.github.io.
翻訳日:2023-09-13 16:31:30 公開日:2023-09-12
# トレンドフィルタリングによる時間空間モデル

Temporal-spatial model via Trend Filtering ( http://arxiv.org/abs/2308.16172v3 )

ライセンス: Link先を確認
Carlos Misael Madrid Padilla, Oscar Hernan Madrid Padilla, Daren Wang(参考訳) 本研究では,同時時間と空間依存性を考慮した非パラメトリック回帰関数の推定に着目する。 このような文脈で、Trend Filteringは、 \cite{mammen 1997locally} と \cite{rudin 1992nonlinear} によって導入された非パラメトリック推定器である。 不平等な設定の場合、我々が考慮する信号は、有界な全変動を持つkth弱微分を持つと仮定され、一般的な滑らかさの程度を許容する。 多変量解析のシナリオでは,一括リプシッツ連続性基準に準拠した有界変動を持つ信号に適合するADMMアルゴリズムを用いて,$K$-Nearest Neighbor fused lasso estimator を \cite{padilla2018adaptive} で検討する。 下界に合わせることにより、推定器の最小最適度が検証される。 傾向フィルタリング研究に従来未記載であった一意な相転移現象が,本解析によって明らかにされる。 シミュレーション研究と実データ応用はどちらも,既存の文献で確立された手法と比較して,本手法の優れた性能を示している。

This research focuses on the estimation of a non-parametric regression function designed for data with simultaneous time and space dependencies. In such a context, we study the Trend Filtering, a nonparametric estimator introduced by \cite{mammen1997locally} and \cite{rudin1992nonlinear}. For univariate settings, the signals we consider are assumed to have a kth weak derivative with bounded total variation, allowing for a general degree of smoothness. In the multivariate scenario, we study a $K$-Nearest Neighbor fused lasso estimator as in \cite{padilla2018adaptive}, employing an ADMM algorithm, suitable for signals with bounded variation that adhere to a piecewise Lipschitz continuity criterion. By aligning with lower bounds, the minimax optimality of our estimators is validated. A unique phase transition phenomenon, previously uncharted in Trend Filtering studies, emerges through our analysis. Both Simulation studies and real data applications underscore the superior performance of our method when compared with established techniques in the existing literature.
翻訳日:2023-09-13 16:31:08 公開日:2023-09-12
# MedShapeNet - コンピュータビジョンのための3D医療形状の大規模データセット

MedShapeNet -- A Large-Scale Dataset of 3D Medical Shapes for Computer Vision ( http://arxiv.org/abs/2308.16139v3 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Gijs Luijten, Yuan Jin, Narmada Ambigapathy, Enrico Nasca, Naida Solak, Gian Marco Melito, Viet Duc Vu, Afaque R. Memon, Xiaojun Chen, Jan Stefan Kirschke, Ezequiel de la Rosa, Patrick Ferdinand Christ, Hongwei Bran Li, David G. Ellis, Michele R. Aizenberg, Sergios Gatidis, Thomas K\"ustner, Nadya Shusharina, Nicholas Heller, Vincent Andrearczyk, Adrien Depeursinge, Mathieu Hatt, Anjany Sekuboyina, Maximilian L\"offler, Hans Liebl, Reuben Dorent, Tom Vercauteren, Jonathan Shapey, Aaron Kujawa, Stefan Cornelissen, Patrick Langenhuizen, Achraf Ben-Hamadou, Ahmed Rekik, Sergi Pujades, Edmond Boyer, Federico Bolelli, Costantino Grana, Luca Lumetti, Hamidreza Salehi, Jun Ma, Yao Zhang, Ramtin Gharleghi, Susann Beier, Arcot Sowmya, Eduardo A. Garza-Villarreal, Thania Balducci, Diego Angeles-Valdez, Roberto Souza, Leticia Rittner, Richard Frayne, Yuanfeng Ji, Soumick Chatterjee, Florian Dubost, Stefanie Schreiber, Hendrik Mattern, Oliver Speck, Daniel Haehn, Christoph John, Andreas N\"urnberger, Jo\~ao Pedrosa, Carlos Ferreira, Guilherme Aresta, Ant\'onio Cunha, Aur\'elio Campilho, Yannick Suter, Jose Garcia, Alain Lalande, Emmanuel Audenaert, Claudia Krebs, Timo Van Leeuwen, Evie Vereecke, Rainer R\"ohrig, Frank H\"olzle, Vahid Badeli, Kathrin Krieger, Matthias Gunzer, Jianxu Chen, Amin Dada, Miriam Balzer, Jana Fragemann, Frederic Jonske, Moritz Rempe, Stanislav Malorodov, Fin H. Bahnsen, Constantin Seibold, Alexander Jaus, Ana Sofia Santos, Mariana Lindo, Andr\'e Ferreira, Victor Alves, Michael Kamp, Amr Abourayya, Felix Nensa, Fabian H\"orst, Alexander Brehmer, Lukas Heine, Lars E. Podleska, Matthias A. Fink, Julius Keyl, Konstantinos Tserpes, Moon-Sung Kim, Shireen Elhabian, Hans Lamecker, D\v{z}enan Zuki\'c, Beatriz Paniagua, Christian Wachinger, Martin Urschler, Luc Duong, Jakob Wasserthal, Peter F. Hoyer, Oliver Basu, Thomas Maal, Max J. H. Witjes, Ti-chiun Chang, Seyed-Ahmad Ahmadi, Ping Luo, Bjoern Menze, Mauricio Reyes, Christos Davatzikos, Behrus Puladi, Jens Kleesiek, Jan Egger(参考訳) 今回我々は,解剖学的形状(骨,臓器,血管など)と3次元手術器具モデルからなるmedshapenetを提案する。 深層学習に先立ち、医学画像解析における統計的形状モデル(SSM)の幅広い応用は、形状が医学データを記述するために一般的に用いられている証拠である。 しかし今日では、医療画像における最先端(SOTA)ディープラーニングアルゴリズムは、主にボキセルベースである。 コンピュータビジョンでは、コンピュータビジョン研究においてShapeNet(約51,300モデル)やプリンストンモデルNet(約127,915モデル)が増加し、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)のような主要なビジョンカンファレンスにおける多くの形状関連出版物から見られるように、形状(ボクセル占有グリッド、メッシュ、点雲、暗示表面モデルを含む)が3Dにおけるデータ表現として好ましい。 MedShapeNetは、データ駆動型ビジョンアルゴリズムの医療アプリケーションへの翻訳を容易にするために、これらの一般的な形状ベンチマークの代替として作成されており、重要な医療問題を解決するためにSOTAビジョンアルゴリズムを適用する機会を広げている。 さらに、MedShapeNetの医療用形状の大部分は、実際の患者の画像データに基づいて直接モデル化されており、コンピュータ支援設計(CAD)モデルからなる既存の形状ベンチマークを補完する。 現在MedShapeNetには10万以上の医療用形状が含まれており、ペアデータ形式でアノテーションを提供している。 そのため、拡張現実(virtual reality - vr, augmented reality - ar, mixed reality - mr)と医療用3dプリンティングのための3dモデルの無料リポジトリでもある。 このホワイトペーパーでは、medshapenetの背景にある動機、形状取得手順、ユースケース、オンラインシェイプ検索ポータルの使用について詳細に説明している。

We present MedShapeNet, a large collection of anatomical shapes (e.g., bones, organs, vessels) and 3D surgical instrument models. Prior to the deep learning era, the broad application of statistical shape models (SSMs) in medical image analysis is evidence that shapes have been commonly used to describe medical data. Nowadays, however, state-of-the-art (SOTA) deep learning algorithms in medical imaging are predominantly voxel-based. In computer vision, on the contrary, shapes (including, voxel occupancy grids, meshes, point clouds and implicit surface models) are preferred data representations in 3D, as seen from the numerous shape-related publications in premier vision conferences, such as the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), as well as the increasing popularity of ShapeNet (about 51,300 models) and Princeton ModelNet (127,915 models) in computer vision research. MedShapeNet is created as an alternative to these commonly used shape benchmarks to facilitate the translation of data-driven vision algorithms to medical applications, and it extends the opportunities to adapt SOTA vision algorithms to solve critical medical problems. Besides, the majority of the medical shapes in MedShapeNet are modeled directly on the imaging data of real patients, and therefore it complements well existing shape benchmarks comprising of computer-aided design (CAD) models. MedShapeNet currently includes more than 100,000 medical shapes, and provides annotations in the form of paired data. It is therefore also a freely available repository of 3D models for extended reality (virtual reality - VR, augmented reality - AR, mixed reality - MR) and medical 3D printing. This white paper describes in detail the motivations behind MedShapeNet, the shape acquisition procedures, the use cases, as well as the usage of the online shape search portal: https://medshapenet.ikim.nrw/
翻訳日:2023-09-13 16:30:49 公開日:2023-09-12
# LLaSM:大規模言語と音声モデル

LLaSM: Large Language and Speech Model ( http://arxiv.org/abs/2308.15930v2 )

ライセンス: Link先を確認
Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi(参考訳) 近年,マルチモーダル大規模言語モデルが注目されている。 しかし、ほとんどの作品は視覚言語のマルチモーダルモデルに焦点を合わせており、視覚と言語命令に従う強力な能力を提供している。 しかし、音声は人間が世界と相互作用する重要なモダリティでもあると主張する。 したがって、汎用アシスタントがマルチモーダル音声・言語指示を追従できることは不可欠である。 本研究では,Large Language and Speech Model (LLaSM)を提案する。 LLaSMは、多モーダルな多モーダル言語モデルで、多モーダルな会話能力を持ち、音声と音声の指示に従うことができる。 初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。 具体的には,LLaSM-Audio-Instructionsデータセットを大規模にリリースする。 コードとデモはhttps://github.com/LinkSoul-AI/LLaSMとhttps://huggingface.co/spaces/LinkSoul/LLaSMで公開されている。 LLaSM-Audio-Instructionsデータセットはhttps://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructionsで公開されている。

Multi-modal large language models have garnered significant interest recently. Though, most of the works focus on vision-language multi-modal models providing strong capabilities in following vision-and-language instructions. However, we claim that speech is also an important modality through which humans interact with the world. Hence, it is crucial for a general-purpose assistant to be able to follow multi-modal speech-and-language instructions. In this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an end-to-end trained large multi-modal speech-language model with cross-modal conversational abilities, capable of following speech-and-language instructions. Our early experiments show that LLaSM demonstrates a more convenient and natural way for humans to interact with artificial intelligence. Specifically, we also release a large Speech Instruction Following dataset LLaSM-Audio-Instructions. Code and demo are available at https://github.com/LinkSoul-AI/LLaSM and https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions dataset is available at https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
翻訳日:2023-09-13 16:30:13 公開日:2023-09-12
# JL-lemmaによる識別辞書学習のための最適投影法

JL-lemma derived Optimal Projections for Discriminative Dictionary Learning ( http://arxiv.org/abs/2308.13991v2 )

ライセンス: Link先を確認
G.Madhuri, Atul Negi, Kaluri V.Rangarao(参考訳) 大規模次元データを多数のクラスで分類することの難しさを克服するため,JLSPCADLと呼ばれる新しい手法を提案する。 本稿では、ジョンソン・リンデンシュトラウス(JL)レンマを用いて、信号分類のために識別辞書を学習できる変換空間の次元性を選択する。 ランダムなプロジェクションによって次元を減少させる代わりに、JLでしばしば行われるように、修正スーパービジョンPC解析(M-SPCA)からJLで規定される次元に導かれる射影変換行列を用いる。 JLSPCADLは、最適特徴空間を導出するために、適切な歪みレベルと対応する辞書原子の適切な記述長(SDL)を導出するヒューリスティックを提供し、より良い分類のために辞書原子のSDLを提供する。 最先端の次元縮小に基づく辞書学習法とは異なり、m-spcaから単段導出する投影変換行列は、元のデータのクラスター構造を維持しながら変換空間の最大特徴ラベル一貫性を提供する。 混乱したペアにもかかわらず、変換空間の辞書はより少ないトレーニングサンプルで差別的なスパース係数を生成する。 実験により、JLSPCADLはクラス数や次元数の増加とともに拡張可能であることが示された。 M-SPCAによる特徴のラベル一貫性の改善は、よりよい分類に役立つ。 さらに、SDLを用いて識別辞書の訓練の複雑さを著しく低減する。 OCRおよび顔認識データセットの実験は、他の教師付き辞書学習アルゴリズムよりも比較的優れた分類性能を示す。

To overcome difficulties in classifying large dimensionality data with a large number of classes, we propose a novel approach called JLSPCADL. This paper uses the Johnson-Lindenstrauss (JL) Lemma to select the dimensionality of a transformed space in which a discriminative dictionary can be learned for signal classification. Rather than reducing dimensionality via random projections, as is often done with JL, we use a projection transformation matrix derived from Modified Supervised PC Analysis (M-SPCA) with the JL-prescribed dimension. JLSPCADL provides a heuristic to deduce suitable distortion levels and the corresponding Suitable Description Length (SDL) of dictionary atoms to derive an optimal feature space and thus the SDL of dictionary atoms for better classification. Unlike state-of-the-art dimensionality reduction-based dictionary learning methods, a projection transformation matrix derived in a single step from M-SPCA provides maximum feature-label consistency of the transformed space while preserving the cluster structure of the original data. Despite confusing pairs, the dictionary for the transformed space generates discriminative sparse coefficients, with fewer training samples. Experimentation demonstrates that JLSPCADL scales well with an increasing number of classes and dimensionality. Improved label consistency of features due to M-SPCA helps to classify better. Further, the complexity of training a discriminative dictionary is significantly reduced by using SDL. Experimentation on OCR and face recognition datasets shows relatively better classification performance than other supervised dictionary learning algorithms.
翻訳日:2023-09-13 16:29:32 公開日:2023-09-12
# RoDia: 音声からのルーマニア方言識別のための新しいデータセット

RoDia: A New Dataset for Romanian Dialect Identification from Speech ( http://arxiv.org/abs/2309.03378v2 )

ライセンス: Link先を確認
Codrut Rotaru, Nicolae-Catalin Ristea, Radu Tudor Ionescu(参考訳) 方言識別は,音声認識や話者検証など,様々な応用の強化など,音声処理や言語技術において重要な課題である。 ほとんどの研究は広範に話されている言語における方言識別に費やされてきたが、ルーマニアのような低資源言語における方言識別には限定的な注意が払われている。 この研究ギャップを解決するために,ルーマニア語の方言識別のための最初のデータセットであるRoDiaを紹介する。 RoDiaデータセットには、ルーマニアの5つの異なる地域の音声サンプルの様々なコンパイルが含まれており、都市環境と農村環境の両方をカバーする。 データセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。 上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。 そこで我々はロディアがルーマニア語の方言識別の課題に取り組む研究を刺激する貴重な資源であると信じている。 私たちはデータセットとコードをhttps://github.com/codrut2/rodiaで公開しています。

Dialect identification is a critical task in speech processing and language technology, enhancing various applications such as speech recognition, speaker verification, and many others. While most research studies have been dedicated to dialect identification in widely spoken languages, limited attention has been given to dialect identification in low-resource languages, such as Romanian. To address this research gap, we introduce RoDia, the first dataset for Romanian dialect identification from speech. The RoDia dataset includes a varied compilation of speech samples from five distinct regions of Romania, covering both urban and rural environments, totaling 2 hours of manually annotated speech data. Along with our dataset, we introduce a set of competitive models to be used as baselines for future research. The top scoring model achieves a macro F1 score of 59.83% and a micro F1 score of 62.08%, indicating that the task is challenging. We thus believe that RoDia is a valuable resource that will stimulate research aiming to address the challenges of Romanian dialect identification. We publicly release our dataset and code at https://github.com/codrut2/RoDia.
翻訳日:2023-09-13 16:21:29 公開日:2023-09-12
# GPTは計算機なしで数学的問題を解くことができる

GPT Can Solve Mathematical Problems Without a Calculator ( http://arxiv.org/abs/2309.03241v2 )

ライセンス: Link先を確認
Zhen Yang, Ming Ding, Qingsong Lv, Zhihuan Jiang, Zehai He, Yuyi Guo, Jinfeng Bai, Jie Tang(参考訳) 従来の研究では、大きな言語モデルは算術演算、特に8桁の乗算や十進数と分数を含む演算を計算機ツールを使わずに正確に行うことができないと推定されていた。 本稿ではこの誤解に挑戦することを目的とする。 十分なトレーニングデータを持つ20億パラメータの言語モデルでは、データの漏洩なしにほぼ100%の精度で、gpt-4(マルチ桁乗算精度はわずか4.3%)を大幅に上回って、正確にマルチ桁演算を実行できる。 また,マルチステップ演算やテキストに記述された数学問題を含むデータセットの glm-10b から微調整した mathglm が,5,000 例の中国数学問題テストセットで gpt-4 と同等の性能を実現することを実証した。 私たちのコードとデータはhttps://github.com/THUDM/MathGLM.comで公開されています。

Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set. Our code and data are public at https://github.com/THUDM/MathGLM.
翻訳日:2023-09-13 16:21:10 公開日:2023-09-12
# POIレベルの群流推論のための時空間コントラスト自己監督学習

Spatio-Temporal Contrastive Self-Supervised Learning for POI-level Crowd Flow Inference ( http://arxiv.org/abs/2309.03239v2 )

ライセンス: Link先を確認
Songyu Ke, Ting Li, Li Song, Yanping Sun, Qintian Sun, Junbo Zhang, Yu Zheng(参考訳) Points of Interest (POIs) におけるクラウドフローの正確な取得は、効果的な交通管理、公共サービス、都市計画において重要である。 この重要性にもかかわらず、都市センシング技術の限界により、ほとんどの情報源のデータ品質は、各POIにおける群衆の流れを監視するのに不十分である。 これにより、低品質データからの正確な群集フローの推測が重要かつ困難な課題となる。 複雑さは3つの要因によって高められる。 1)ラベル付きデータの希少さと希少さ。 2)POI間の複雑な時空間依存性,及び 3) 正確な群集流とGPSによる報告との間には無数の相関関係が認められた。 これらの課題に対処するため,クラウドフロー推論問題を自己教師付き属性グラフ表現学習タスクとして再検討し,空間時間データ(CSST)のための新しいコントラスト自己学習フレームワークを導入する。 提案手法は,POIとその距離に基づいて構築された空間隣接グラフの構築から始める。 次に,ラベルなし時空間データを多量に活用するために,コントラスト学習手法を用いる。 我々は、同様のインスタンスからターゲットのサブグラフの表現を予測するために、交換された予測手法を採用する。 事前学習フェーズの後、モデルは正確な群衆フローデータで微調整される。 実世界の2つのデータセットで行った実験は、csstがスクラッチからトレーニングされたモデルに一貫して勝っていることを示している。

Accurate acquisition of crowd flow at Points of Interest (POIs) is pivotal for effective traffic management, public service, and urban planning. Despite this importance, due to the limitations of urban sensing techniques, the data quality from most sources is inadequate for monitoring crowd flow at each POI. This renders the inference of accurate crowd flow from low-quality data a critical and challenging task. The complexity is heightened by three key factors: 1) The scarcity and rarity of labeled data, 2) The intricate spatio-temporal dependencies among POIs, and 3) The myriad correlations between precise crowd flow and GPS reports. To address these challenges, we recast the crowd flow inference problem as a self-supervised attributed graph representation learning task and introduce a novel Contrastive Self-learning framework for Spatio-Temporal data (CSST). Our approach initiates with the construction of a spatial adjacency graph founded on the POIs and their respective distances. We then employ a contrastive learning technique to exploit large volumes of unlabeled spatio-temporal data. We adopt a swapped prediction approach to anticipate the representation of the target subgraph from similar instances. Following the pre-training phase, the model is fine-tuned with accurate crowd flow data. Our experiments, conducted on two real-world datasets, demonstrate that the CSST pre-trained on extensive noisy data consistently outperforms models trained from scratch.
翻訳日:2023-09-13 16:20:51 公開日:2023-09-12
# 列車はまだ乗れない。 エネルギー関数によるモンテカルロ木探索による大規模言語モデルの非定常数学的推論

No Train Still Gain. Unleash Mathematical Reasoning of Large Language Models with Monte Carlo Tree Search Guided by Energy Function ( http://arxiv.org/abs/2309.03224v3 )

ライセンス: Link先を確認
Haotian Xu(参考訳) 大きな言語モデル(llm)は印象的な言語理解と文脈学習能力を示し、自然言語処理(nlp)タスクや複雑な数学的推論に適している。 しかしながら、数学的推論タスクに適用する場合、LLMは解の確率が高いにもかかわらず正しい推論ステップと解を生成するのに苦労することが多い。 この制限を克服し、追加の微調整ステップなしに微調整されたllmの数学的推論能力を高めるために、モンテカルロ木探索(mcts)と軽量エネルギー関数を組み込んだ決定ステップをランク付けし、即時反応と正確な推論を可能にする手法を提案する。 具体的には,微調整 LLM を残留エネルギーモデル (Residual-EBM) に再構成し,ノイズコントラスト推定を用いてエネルギー関数のパラメータを推定する。 次に、MCTSのエネルギー関数を経路検証器として利用し、出力空間を探索し、推論経路を評価する。 GSM8kとAQUA-RATの2つの数学的推論ベンチマークに関する広範な実験を通じて、人間のフィードバックアライメントによる微調整や強化学習を必要とせずに、微調整モデルのpass@1メトリックスを大幅に改善する手法の優れた能力を実証した。

Large language models (LLMs) demonstrate impressive language understanding and contextual learning abilities, making them suitable for natural language processing (NLP) tasks and complex mathematical reasoning. However, when applied to mathematical reasoning tasks, LLMs often struggle to generate correct reasoning steps and answers despite having high probabilities for the solutions. To overcome this limitation and enhance the mathematical reasoning capabilities of fine-tuned LLMs without additional fine-tuning steps, we propose a method that incorporates Monte Carlo Tree Search (MCTS) and a lightweight energy function to rank decision steps and enable immediate reaction and precise reasoning. Specifically, we re-formulate the fine-tuned LLMs into a Residual-based Energy Model (Residual-EBM) and employ noise contrastive estimation to estimate the energy function's parameters. We then utilize MCTS with the energy function as a path verifier to search the output space and evaluate the reasoning path. Through extensive experiments on two mathematical reasoning benchmarks, GSM8k and AQUA-RAT, we demonstrate the exceptional capabilities of our method, which significantly improves the pass@1 metric of the fine-tuned model without requiring additional fine-tuning or reinforcement learning with human feedback alignment.
翻訳日:2023-09-13 16:20:29 公開日:2023-09-12
# Stylebook: 音声データのみを用いた任意の音声変換のためのコンテンツ依存音声スタイルモデリング

Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any Voice Conversion using Only Speech Data ( http://arxiv.org/abs/2309.02730v2 )

ライセンス: Link先を確認
Hyungseob Lim, Kyungguen Byun, Sunkuk Moon, Erik Visser(参考訳) 最近の音声変換モデルの多くは、対象音声のスタイル情報を変換音声に転送することに成功したが、それでも対象話者の発話スタイルを忠実に再現する能力に欠けていた。 本研究では,対象発話からリッチなスタイル情報を抽出し,テキストの書き起こしや話者ラベリングを必要とせずにソース音声コンテンツに効率的に転送する手法を提案する。 提案手法では,音声内容の異なる話者の発話スタイルを収集するために,自己教師付き学習(ssl)モデルを用いた注意機構を導入する。 スタイルはスタイルブックと呼ばれる埋め込みのセットで表現される。 次のステップでは、スタイルブックにソース音声の音声コンテンツが添付され、ソースコンテンツ毎の最終ターゲットスタイルが決定される。 最後に、ソース音声から抽出されたコンテンツ情報とコンテンツ依存のターゲットスタイル埋め込みとを拡散型デコーダに入力し、変換された音声メルスペクトルを生成する。 実験結果から,提案手法と拡散型生成モデルを組み合わせることで,ベースラインモデルと比較して音声変換タスクの話者類似性が向上し,長い発話による計算複雑性の増大が抑制された。

While many recent any-to-any voice conversion models succeed in transferring some target speech's style information to the converted speech, they still lack the ability to faithfully reproduce the speaking style of the target speaker. In this work, we propose a novel method to extract rich style information from target utterances and to efficiently transfer it to source speech content without requiring text transcriptions or speaker labeling. Our proposed approach introduces an attention mechanism utilizing a self-supervised learning (SSL) model to collect the speaking styles of a target speaker each corresponding to the different phonetic content. The styles are represented with a set of embeddings called stylebook. In the next step, the stylebook is attended with the source speech's phonetic content to determine the final target style for each source content. Finally, content information extracted from the source speech and content-dependent target style embeddings are fed into a diffusion-based decoder to generate the converted speech mel-spectrogram. Experiment results show that our proposed method combined with a diffusion-based generative model can achieve better speaker similarity in any-to-any voice conversion tasks when compared to baseline models, while the increase in computational complexity with longer utterances is suppressed.
翻訳日:2023-09-13 16:20:03 公開日:2023-09-12
# 大規模言語モデルに対するゼロソース幻覚防止

Zero-Resource Hallucination Prevention for Large Language Models ( http://arxiv.org/abs/2309.02654v2 )

ライセンス: Link先を確認
Junyu Luo, Cao Xiao, Fenglong Ma(参考訳) 様々な領域における大規模言語モデル(LLM)の一般的な使用は、LLMが事実的不正確な情報を生成する事例である「幻覚」の問題に注意を向けている。 言語アシスタントにおける幻覚検出のための既存の技術は、複雑なファジィで特定の自由言語に基づく思考連鎖(cot)技術または解釈可能性の問題に苦しむパラメータベース手法に依存している。 また,幻覚を識別する手法は,その発生を防止できず,命令形式やモデルスタイルの影響により,一貫性に欠ける性能に支障をきたすことができた。 本稿では,入力命令に存在する概念に対するモデルの親密性を評価し,不慣れな概念の場合の応答生成を保留することに着目し,自己親密性と呼ばれる新しい自己評価手法を提案する。 このアプローチは、不慣れなトピックに反応する人間の能力をエミュレートし、幻覚を減らす。 4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。 以上の結果から, LLMアシスタントの幻覚予防戦略への大幅な転換, 信頼性, 適用性, 解釈性の向上が示唆された。

The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of "hallucination," which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as SELF-FAMILIARITY, which focuses on evaluating the model's familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate SELF-FAMILIARITY across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.
翻訳日:2023-09-13 16:19:40 公開日:2023-09-12
# 確率単純性に関する拡散

Diffusion on the Probability Simplex ( http://arxiv.org/abs/2309.02530v2 )

ライセンス: Link先を確認
Griffin Floto, Thorsteinn Jonsson, Mihai Nica, Scott Sanner, Eric Zhengyu Zhu(参考訳) 拡散モデルは、データ分布の進行的ノイズ化を逆転して生成モデルを生成する。 しかし、ノイズ発生過程の所望の連続性は離散データと矛盾することがある。 連続オブジェクトと離散オブジェクトのこの緊張に対処するために,確率単純度上で拡散を行う手法を提案する。 確率の単純性を用いて自然に、点がカテゴリの確率分布に対応するような解釈を作る。 本手法は,有名な確率微分方程式ornstein-unlenbeck法に適用したsoftmax関数を用いる。 また,本手法は,有界画像生成に適用可能な単位立方体上の拡散を含むように自然に拡張されている。

Diffusion models learn to reverse the progressive noising of a data distribution to create a generative model. However, the desired continuous nature of the noising process can be at odds with discrete data. To deal with this tension between continuous and discrete objects, we propose a method of performing diffusion on the probability simplex. Using the probability simplex naturally creates an interpretation where points correspond to categorical probability distributions. Our method uses the softmax function applied to an Ornstein-Unlenbeck Process, a well-known stochastic differential equation. We find that our methodology also naturally extends to include diffusion on the unit cube which has applications for bounded image generation.
翻訳日:2023-09-13 16:19:17 公開日:2023-09-12
# BEVTrack:鳥の視点で3Dオブジェクトを追跡できるシンプルなベースライン

BEVTrack: A Simple Baseline for 3D Single Object Tracking in Bird's-Eye View ( http://arxiv.org/abs/2309.02185v3 )

ライセンス: Link先を確認
Yuxiang Yang, Yingqi Deng, Jiahao Nie, Jing Zhang(参考訳) 点雲における3Dシングルオブジェクトトラッキング(SOT)は、外見のばらつき、イントラクタ、点雲の分散度が高いため、依然として難しい問題である。 特に自律走行のシナリオでは、ターゲットオブジェクトは通常、連続するフレーム間で空間的隣接性を維持し、主に水平方向に移動する。 この空間連続性は、ターゲットの局在に対する貴重な事前知識を提供する。 しかし、しばしばポイントワイズ表現を用いる既存のトラッカーは、そのような表現の不規則な形式のため、この知識を効率的に活用するのに苦労している。 そのため、空間対応を確立するために、精巧な設計と複数のサブタスクを解く必要がある。 本稿では,3次元SOTのためのシンプルながら強力なベースラインフレームワークであるBEVTrackを紹介する。 連続する点雲を共通のBird's-Eye View表現に変換した後、BEVTrackは本質的に空間的近接を符号化し、単純な要素ワイド操作と畳み込み層によるトラッキングのためのモーションキューを受信する。 さらに、多様なサイズと移動パターンを持つオブジェクトをよりうまく扱うために、bevtrackは、以前の作品のように固定ラプラシアンやガウス的仮定をするのではなく、基盤となる動き分布を直接学習する。 ベルとホイッスルなしで、BEVTrackは122FPSの高速な推論速度を維持しながら、KITTIとNuScenesデータセットの最先端のパフォーマンスを達成する。 コードはhttps://github.com/xmm-prio/bevtrackでリリースされる。

3D single object tracking (SOT) in point clouds is still a challenging problem due to appearance variation, distractors, and high sparsity of point clouds. Notably, in autonomous driving scenarios, the target object typically maintains spatial adjacency across consecutive frames, predominantly moving horizontally. This spatial continuity offers valuable prior knowledge for target localization. However, existing trackers, which often employ point-wise representations, struggle to efficiently utilize this knowledge owing to the irregular format of such representations. Consequently, they require elaborate designs and solving multiple subtasks to establish spatial correspondence. In this paper, we introduce BEVTrack, a simple yet strong baseline framework for 3D SOT. After converting consecutive point clouds into the common Bird's-Eye View representation, BEVTrack inherently encodes spatial proximity and adeptly captures motion cues for tracking via a simple element-wise operation and convolutional layers. Additionally, to better deal with objects having diverse sizes and moving patterns, BEVTrack directly learns the underlying motion distribution rather than making a fixed Laplacian or Gaussian assumption as in previous works. Without bells and whistles, BEVTrack achieves state-of-the-art performance on KITTI and NuScenes datasets while maintaining a high inference speed of 122 FPS. The code will be released at https://github.com/xmm-prio/BEVTrack.
翻訳日:2023-09-13 16:19:08 公開日:2023-09-12
# 強調的・混合的特徴再建による暗黙的神経画像縫合

Implicit Neural Image Stitching With Enhanced and Blended Feature Reconstruction ( http://arxiv.org/abs/2309.01409v3 )

ライセンス: Link先を確認
Minsu Kim, Jaewon Lee, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin(参考訳) 画像縫合のための既存のフレームワークは、しばしば視覚的に合理的な縫合を提供する。 しかし、照明や深さなどではぼやけた人工物や相違に悩まされている。 近年の学習に基づく縫合は、そのような相違を緩和するが、必要な方法は、縫合画像の高周波詳細を捉えない画像品質の犠牲を課す。 この問題に対処するために,任意のスケールの超解像を拡張可能な暗黙的ニューラルイメージスティッチ(NIS)を提案する。 画質向上のための画像のフーリエ係数を推定する。 提案したモデルでは,色ミスマッチと遅延空間のずれを混合し,その特徴を縫合画像のRGB値に復号する。 提案手法は, より高速な画像強調法により, 従来の深部画像縫合の低精細像の解消に有効であることを示す。 ソースコードはhttps://github.com/minshu-kim/nisで入手できます。

Existing frameworks for image stitching often provide visually reasonable stitchings. However, they suffer from blurry artifacts and disparities in illumination, depth level, etc. Although the recent learning-based stitchings relax such disparities, the required methods impose sacrifice of image qualities failing to capture high-frequency details for stitched images. To address the problem, we propose a novel approach, implicit Neural Image Stitching (NIS) that extends arbitrary-scale super-resolution. Our method estimates Fourier coefficients of images for quality-enhancing warps. Then, the suggested model blends color mismatches and misalignment in the latent space and decodes the features into RGB values of stitched images. Our experiments show that our approach achieves improvement in resolving the low-definition imaging of the previous deep image stitching with favorable accelerated image-enhancing methods. Our source code is available at https://github.com/minshu-kim/NIS.
翻訳日:2023-09-13 16:18:43 公開日:2023-09-12
# 測定専用量子回路におけるステアリング誘起相転移

Steering-induced phase transition in measurement-only quantum circuits ( http://arxiv.org/abs/2309.01315v2 )

ライセンス: Link先を確認
Dongheng Qian and Jing Wang(参考訳) 競合測定だけでは、エントロピーのエントロピー$\unicode{x2013}$のように、体積法相、対称性破れ(SB)相、対称性保護トポロジー(SPT)相$\unicode{x2013}$のような異なる位相が生じる。 別の研究領域では、最近の研究により、ステアリングが量子回路内の追加位相を引き起こすことが示されている。 本研究では, ステアリングを伴う測定専用量子回路に新しい位相が現れることを示す。 局所情報のみに依存する従来のステアリング方式とは異なり、我々が導入するステアリング方式では回路の構造を付加入力として要求する。 これらのステアリング誘導相は「インフォーマティブ」フェーズと呼ばれる。 それらは各回路で測定されたビット文字列の固有次元によって区別され、実験的なセットアップで検出するのがかなり容易である。 従来よく研究されていた3つの回路モデル、射影横場イジングモデル、格子ゲージヒッグスモデル、XZZXモデルにおいて、この相転移を数値シミュレーションにより明らかに示す。 情報相がSB相と一致する場合、我々の操舵機構は実質的に「予備選択」ルーチンとして機能し、SB相をより実験的に利用することができる。 さらに、絡み合いエントロピーによってキャプチャされた量子情報とビットストリングによって伝達される古典的情報との間に不一致が生じる中間相が現れることもある。 本研究は, ステアリングが理論的富性をもたらすだけでなく, 測定専用量子回路の研究において実用的優位性をもたらすことを示した。

Competing measurements alone can give rise to distinct phases characterized by entanglement entropy$\unicode{x2013}$such as the volume law phase, symmetry-breaking (SB) phase, and symmetry-protected topological (SPT) phase$\unicode{x2013}$that can only be discerned through quantum trajectories, making them challenging to observe experimentally. In another burgeoning area of research, recent studies have demonstrated that steering can give rise to additional phases within quantum circuits. In this work, we show that new phases can appear in measurement-only quantum circuit with steering. Unlike conventional steering methods that rely solely on local information, the steering scheme we introduce requires the circuit's structure as an additional input. These steering induced phases are termed as "informative" phases. They are distinguished by the intrinsic dimension of the bitstrings measured in each circuit run, making them substantially easier to detect in experimental setups. We explicitly show this phase transition by numerical simulation in three circuit models that are previously well-studied: projective transverse field Ising model, lattice gauge-Higgs model and XZZX model. When the informative phase coincides with the SB phase, our steering mechanism effectively serves as a "pre-selection" routine, making the SB phase more experimentally accessible. Additionally, an intermediate phase may manifest, where a discrepancy arises between the quantum information captured by entanglement entropy and the classical information conveyed by bitstrings. Our findings demonstrate that steering not only adds theoretical richness but also offers practical advantages in the study of measurement-only quantum circuits.
翻訳日:2023-09-13 16:18:26 公開日:2023-09-12
# TMComposites: 特殊なTsetlinマシン間のプラグインとプレイのコラボレーション

TMComposites: Plug-and-Play Collaboration Between Specialized Tsetlin Machines ( http://arxiv.org/abs/2309.04801v2 )

ライセンス: Link先を確認
Ole-Christoffer Granmo(参考訳) Tsetlin Machines (TM) は算術ベースから論理ベースの機械学習への根本的なシフトを提供する。 畳み込みをサポートするため、MNIST、Fashion-MNIST、CIFAR-2などの画像分類データセットにうまく対応している。 しかし、TMはCIFAR-10とCIFAR-100で最先端の性能を得るのに苦労し、より複雑なタスクを表現した。 本稿では、TMコンポジットと呼ばれる特殊なTM間のプラグアンドプレイコラボレーションを紹介する。 このコラボレーションは、学習中に専門化し、推論中にその能力を評価するTMの能力に依存している。 チームを組むとき、最も自信のあるtmsが決定を下し、不確かさを軽減します。 このようにして、TMコンポジットはメンバーよりも有能になり、その特殊化の恩恵を受ける。 コラボレーションはプラグイン・アンド・プレイであり、メンバーはいつでも微調整なしで任意の方法で組み合わせることができる。 我々は,グラデーションのヒストグラム,適応ガウスしきい値,色温度計の3つのtm特殊化を実装した。 その結果, Fashion-MNIST の精度は CIFAR-10 の12点, CIFAR-100 の9点に向上し, TM の最先端結果が得られた。 全体として、TMコンポジットは、より多くのタスクやデータセットに関する最先端のディープラーニングに対して、超低エネルギーで透明な代替手段を可能にすると期待しています。

Tsetlin Machines (TMs) provide a fundamental shift from arithmetic-based to logic-based machine learning. Supporting convolution, they deal successfully with image classification datasets like MNIST, Fashion-MNIST, and CIFAR-2. However, the TM struggles with getting state-of-the-art performance on CIFAR-10 and CIFAR-100, representing more complex tasks. This paper introduces plug-and-play collaboration between specialized TMs, referred to as TM Composites. The collaboration relies on a TM's ability to specialize during learning and to assess its competence during inference. When teaming up, the most confident TMs make the decisions, relieving the uncertain ones. In this manner, a TM Composite becomes more competent than its members, benefiting from their specializations. The collaboration is plug-and-play in that members can be combined in any way, at any time, without fine-tuning. We implement three TM specializations in our empirical evaluation: Histogram of Gradients, Adaptive Gaussian Thresholding, and Color Thermometers. The resulting TM Composite increases accuracy on Fashion-MNIST by two percentage points, CIFAR-10 by twelve points, and CIFAR-100 by nine points, yielding new state-of-the-art results for TMs. Overall, we envision that TM Composites will enable an ultra-low energy and transparent alternative to state-of-the-art deep learning on more tasks and datasets.
翻訳日:2023-09-13 16:13:09 公開日:2023-09-12
# 光格子における大規模原子配列の高精度検出

High-fidelity detection of large-scale atom arrays in an optical lattice ( http://arxiv.org/abs/2309.04717v2 )

ライセンス: Link先を確認
Renhao Tao, Maximilian Ammenwerth, Flavien Gyger, Immanuel Bloch, Johannes Zeiher(参考訳) 中性原子に基づく量子シミュレーションの最近の進歩は、高分解能単原子高感度イメージング技術の恩恵を受けている。 光格子や光ツイーザー中の原子を局所的に検出する様々な手法が開発されている。 アルカリ土類やアルカリ土類のような原子では、狭い光学遷移の存在は、トラップポテンシャルにおける微分光学レベルシフトを空間的に解決する能力に由来する新しいタイプのシシフス冷却を行う可能性を開く。 これまでのところ、地上状態のトラップ深さが冷却に関わる励起状態のそれを超える「反発型シシフス」構成で高忠実な画像が達成できるかどうかという未解決の問題があった。 ここでは,反発型シリフス冷却によるストロンチウム原子の高忠実度(99.9995(3)\%$)および高生存(99.80(5)\%$)画像を示す。 最大399ドルのtweezersを持つ大規模tweezerアレイの原子のピンニング電位として光格子を用い、繰り返し忠実な格子-tweezer-lattice転送を示す。 さらに、光格子の1面に10000ドル以上の原子を直接ロードすることで、プラットフォームのスケーラビリティを実証し、これは将来、光トウェザアレイの連続的な再充填のための局所アドレス可能かつソート可能な貯水池として使用できる。

Recent advances in quantum simulation based on neutral atoms have largely benefited from high-resolution, single-atom sensitive imaging techniques. A variety of approaches have been developed to achieve such local detection of atoms in optical lattices or optical tweezers. For alkaline-earth and alkaline-earth-like atoms, the presence of narrow optical transitions opens up the possibility of performing novel types of Sisyphus cooling, where the cooling mechanism originates from the capability to spatially resolve the differential optical level shifts in the trap potential. Up to now, it has been an open question whether high-fidelity imaging could be achieved in a "repulsive Sisyphus" configuration, where the trap depth of the ground state exceeds that of the excited state involved in cooling. Here, we demonstrate high-fidelity ($99.9995(3)\%$) and high-survival ($99.80(5)\%$) imaging of strontium atoms using repulsive Sisyphus cooling. We use an optical lattice as a pinning potential for atoms in a large-scale tweezer array with up to $399$ tweezers and show repeated, high-fidelity lattice-tweezer-lattice transfers. We furthermore demonstrate the scalability of the platform by directly loading more than $10000$ atoms in a single plane of the optical lattice, which can be used as a locally addressable and sortable reservoir for continuous refilling of optical tweezer arrays in the future.
翻訳日:2023-09-13 16:12:45 公開日:2023-09-12
# FIAT: 指導促進チューニングによる学習パラダイムの融合

FIAT: Fusing learning paradigms with Instruction-Accelerated Tuning ( http://arxiv.org/abs/2309.04663v2 )

ライセンス: Link先を確認
Xinyi Wang, John Wieting, Jonathan H. Clark(参考訳) 大規模言語モデル(LLM)の学習パラダイムは、現在、コンテキスト内学習(ICL)またはフル微調整のいずれかに該当する傾向にある。 これらのそれぞれには、利用可能なデータ、モデルサイズ、計算コスト、使いやすさ、最終的な品質に基づく独自のトレードオフがある。 本稿では、ICLと微調整のパラダイムを、それらの自然な関係を強調する形で最初に記述する。 これらの関係に基づいて,これらのパラダイムの長所を融合させるFIATという新たな学習パラダイムを提案し,非常に大きなモデルを用いた素早いエンジニアリング命令とチェーン・オブ・シント推論を実現するとともに,パラメータ効率の調整を伴う中小LLMのパラメータ更新に類似した手法を用いる。 本稿では,多言語タスクにおけるfiatの有効性を評価し,訓練例100~10,000例の尺度において,fiatがiclや微調整よりも優れた性能を示すことを確認した。 FIATは、学習パラダイム間の難しい選択をすることなく、LLMの潜在能力を最大限に活用する実用的な方法を提供することを願っている。

Learning paradigms for large language models (LLMs) currently tend to fall within either in-context learning (ICL) or full fine-tuning. Each of these comes with their own trade-offs based on available data, model size, compute cost, ease-of-use, and final quality with neither solution performing well across-the-board. In this article, we first describe ICL and fine-tuning paradigms in a way that highlights their natural connections. Based on these connections, we propose a new learning paradigm called FIAT that fuses the best of these paradigms together, enabling prompt-engineered instructions and chain-of-thought reasoning with the very largest models while also using similar methods to perform parameter updates on a modestly-sized LLM with parameter-efficient tuning. We evaluate FIAT's effectiveness on a variety of multilingual tasks and observe that FIAT performs better than both ICL and fine-tuning at scales ranging from 100-10,000 training examples. We hope that FIAT provides a practical way of harnessing the full potential of LLMs without needing to make a hard choice between learning paradigms.
翻訳日:2023-09-13 16:11:59 公開日:2023-09-12
# 知識蒸留による異常検出のためのデジタル双生児

Knowledge Distillation-Empowered Digital Twin for Anomaly Detection ( http://arxiv.org/abs/2309.04616v2 )

ライセンス: Link先を確認
Qinghua Xu, Shaukat Ali, Tao Yue, Zaimovic Nedim, and Inderjeet Singh(参考訳) 列車制御・管理システム(TCMS)のようなサイバー物理システム(CPS)は、重要なインフラにおいてユビキタスになりつつある。 安全性を重要視するシステムとしては,運用時の信頼性の確保が重要である。 デジタルツイン(dts)は、ランタイム監視と警告、異常の予測と検出などの能力により、この目的で研究されている。 しかし,TCMSにおける異常検出のためのDTの構築には十分なトレーニングデータが必要である。 そこで本研究では,TCMS異常検出のための新しいKDDT法を提案する。 KDDTは言語モデル(LM)と長期短期記憶(LSTM)ネットワークを利用して、それぞれコンテキストと時系列の特徴を抽出する。 データ量を高めるため、kddtは知識蒸留(kd)によるドメイン外データから恩恵を受ける。 我々は,KDDTを業界パートナーAlstomの2つのデータセットで評価し,それぞれ0.931と0.915のF1スコアを取得し,KDDTの有効性を実証した。 また,KDDTの総合的評価を通じて,DTモデル,LM,KDの個人的貢献についても検討し,平均F1得点改善率を12.4%,3%,6.05%とした。

Cyber-physical systems (CPSs), like train control and management systems (TCMS), are becoming ubiquitous in critical infrastructures. As safety-critical systems, ensuring their dependability during operation is crucial. Digital twins (DTs) have been increasingly studied for this purpose owing to their capability of runtime monitoring and warning, prediction and detection of anomalies, etc. However, constructing a DT for anomaly detection in TCMS necessitates sufficient training data and extracting both chronological and context features with high quality. Hence, in this paper, we propose a novel method named KDDT for TCMS anomaly detection. KDDT harnesses a language model (LM) and a long short-term memory (LSTM) network to extract contexts and chronological features, respectively. To enrich data volume, KDDT benefits from out-of-domain data with knowledge distillation (KD). We evaluated KDDT with two datasets from our industry partner Alstom and obtained the F1 scores of 0.931 and 0.915, respectively, demonstrating the effectiveness of KDDT. We also explored individual contributions of the DT model, LM, and KD to the overall performance of KDDT, via a comprehensive empirical study, and observed average F1 score improvements of 12.4%, 3%, and 6.05%, respectively.
翻訳日:2023-09-13 16:11:37 公開日:2023-09-12
# 共同視像設計における分離収差補正の優先性の検討

Revealing the preference for correcting separated aberrations in joint optic-image design ( http://arxiv.org/abs/2309.04342v2 )

ライセンス: Link先を確認
Jingwen Zhou, Shiqi Chen, Zheng Ren, Wenguan Zhang, Jiapu Yan, Huajun Feng, Qi Li, Yueting Chen(参考訳) 光システムと下流アルゴリズムの合同設計は、挑戦的で有望な課題である。 画像システムのグローバル最適化と物理シミュレーションの計算コストのバランスの要求のため、既存の手法ではスマートフォンやドローンのような複雑なシステムの効率的な共同設計は達成できない。 本研究では,光学設計の観点から,光の収差を分離した光学特性を特徴付ける。 さらに、グラデーションのないハードウェアとソフトウェアを橋渡しするために、レンズの真の撮像手順を大きな視野で再現する画像シミュレーションシステムを提案する。 収差補正については,空間的に変化する収差を知覚し,補正し,その優越性を検証するネットワークを提案する。 包括的実験により, 分割した収差の補正は, 縦色収差, 横色収差, 球状収差, フィールド曲率, コマの順で, アスティグマティズムが続くことが示唆された。 この嗜好から、消費者レベルの携帯電話レンズモジュールの総トラック長を10%削減する。 さらに、この手順は、製造のずれを緩和し、計算写真の極端に高品質な向上を実現する。 最適化パラダイムは、高度な光学系と後処理アルゴリズムの実用的な共同設計に関する革新的な洞察を提供する。

The joint design of the optical system and the downstream algorithm is a challenging and promising task. Due to the demand for balancing the global optimal of imaging systems and the computational cost of physical simulation, existing methods cannot achieve efficient joint design of complex systems such as smartphones and drones. In this work, starting from the perspective of the optical design, we characterize the optics with separated aberrations. Additionally, to bridge the hardware and software without gradients, an image simulation system is presented to reproduce the genuine imaging procedure of lenses with large field-of-views. As for aberration correction, we propose a network to perceive and correct the spatially varying aberrations and validate its superiority over state-of-the-art methods. Comprehensive experiments reveal that the preference for correcting separated aberrations in joint design is as follows: longitudinal chromatic aberration, lateral chromatic aberration, spherical aberration, field curvature, and coma, with astigmatism coming last. Drawing from the preference, a 10% reduction in the total track length of the consumer-level mobile phone lens module is accomplished. Moreover, this procedure spares more space for manufacturing deviations, realizing extreme-quality enhancement of computational photography. The optimization paradigm provides innovative insight into the practical joint design of sophisticated optical systems and post-processing algorithms.
翻訳日:2023-09-13 16:11:07 公開日:2023-09-12
# COVID-19におけるアウト・オブ・ディストリビューションの電力負荷予測:人間のモビリティを活用した継続的な学習アプローチ

Navigating Out-of-Distribution Electricity Load Forecasting during COVID-19: A Continual Learning Approach Leveraging Human Mobility ( http://arxiv.org/abs/2309.04296v2 )

ライセンス: Link先を確認
Arian Prabowo, Kaixuan Chen, Hao Xue, Subbu Sethuvenkatraman, Flora D. Salim(参考訳) 従来のディープラーニングアルゴリズムでは、トレーニングとデプロイメントの両方において、データ分布が一定である、という前提が鍵となる。 しかし、新型コロナウイルス(COVID-19)のロックダウンのようなアウト・オブ・ディストリビューション(Out-of-Distribution)の期間に直面すると、この仮定は問題になる。 本稿では,新たなデータを用いたモデル更新のための継続的学習手法と,建物の外にあるプライバシー保護歩行者カウンターから収集した人体移動データを活用するための2つの戦略を用いる。 新たに取得した知識が事前情報を消去することがしばしばあることから「破滅的な忘れ」に苦しむオンライン学習とは対照的に、継続学習は過去の洞察を保存し、新しいデータを統合するという全体論的アプローチを提供する。 この研究は、オーストラリアのメルボルンにある13の建物群から得られた実世界のデータに対して、強力な連続学習アルゴリズムFSNetを適用した。 結果は、正確なエネルギー予測、特に分布域外における連続学習の重要な役割を強調する。 モビリティや温度などの二次データは,一次予測モデルに補助的支援を与えた。 さらに重要なのは、従来の手法はロックダウン中に適応するのに苦労していたが、少なくともオンライン学習を特徴とするモデルはレジリエンスを示し、ロックダウン期間は適応学習技術で武装した場合の課題が少なくなった。 本研究は,今後のアウト・オブ・ディストリビューション期間におけるエネルギー負荷予測の改善に有効な方法論と洞察を提供する。

In traditional deep learning algorithms, one of the key assumptions is that the data distribution remains constant during both training and deployment. However, this assumption becomes problematic when faced with Out-of-Distribution periods, such as the COVID-19 lockdowns, where the data distribution significantly deviates from what the model has seen during training. This paper employs a two-fold strategy: utilizing continual learning techniques to update models with new data and harnessing human mobility data collected from privacy-preserving pedestrian counters located outside buildings. In contrast to online learning, which suffers from 'catastrophic forgetting' as newly acquired knowledge often erases prior information, continual learning offers a holistic approach by preserving past insights while integrating new data. This research applies FSNet, a powerful continual learning algorithm, to real-world data from 13 building complexes in Melbourne, Australia, a city which had the second longest total lockdown duration globally during the pandemic. Results underscore the crucial role of continual learning in accurate energy forecasting, particularly during Out-of-Distribution periods. Secondary data such as mobility and temperature provided ancillary support to the primary forecasting model. More importantly, while traditional methods struggled to adapt during lockdowns, models featuring at least online learning demonstrated resilience, with lockdown periods posing fewer challenges once armed with adaptive learning techniques. This study contributes valuable methodologies and insights to the ongoing effort to improve energy load forecasting during future Out-of-Distribution periods.
翻訳日:2023-09-13 16:10:42 公開日:2023-09-12
# UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media

UQ at #SMM4H 2023: ALEX for Public Health Analysis with Social Media ( http://arxiv.org/abs/2309.04213v2 )

ライセンス: Link先を確認
Yan Jiang, Ruihong Qiu, Yi Zhang, Zi Huang(参考訳) ソーシャルメディアの人気が高まるにつれ、公衆衛生に関する活動がますます増えていく。 公衆衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルを含んでいる。 しかし、公衆衛生のためのドメイン内LCMのトレーニングのコストは特に高い。 さらに、ソーシャルメディアからのそのようなドメイン内データセットは、一般的に不均衡である。 これらの課題に取り組むために、データの強化とバランスのとれたトレーニングによって、データの不均衡を克服できる。 また、モデルを適切に促すことで、llmの能力を有効に活用することができる。 本稿では, LLM の説明機構を採用することで, ソーシャルメディア上での公衆衛生分析の性能向上を図るための新しい ALEX フレームワークを提案する。 その結果,ALEXモデルでは第2タスクと第4タスクの両方で,第1タスクは第2023ソーシャルメディアマイニング(SMM4H)[1]で高いスコアを示した。 私たちのコードはhttps:// github.com/YanJiangJerry/ALEXでリリースされています。

As social media becomes increasingly popular, more and more activities related to public health emerge. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). However, the costs of training in-domain LLMs for public health are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally imbalanced. To tackle these challenges, the data imbalance issue can be overcome by data augmentation and balanced training. Moreover, the ability of the LLMs can be effectively utilized by prompting the model properly. In this paper, a novel ALEX framework is proposed to improve the performance of public health analysis on social media by adopting an LLMs explanation mechanism. Results show that our ALEX model got the best performance among all submissions in both Task 2 and Task 4 with a high score in Task 1 in Social Media Mining for Health 2023 (SMM4H)[1]. Our code has been released at https:// github.com/YanJiangJerry/ALEX.
翻訳日:2023-09-13 16:10:14 公開日:2023-09-12
# CALLAデータセット:中国医学からLLMの対話的知識獲得を探る

The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from Chinese Medical Literature ( http://arxiv.org/abs/2309.04198v2 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Muzhen Cai, Jianyu Chen, Haochun Wang, Yuhan Chen, Haoqiang Guo, Bing Qin(参考訳) 医学領域への大規模言語モデル(llm)の適用は研究者の関心を刺激している。 近年, LLMのインタラクティブな医療知識を充実させるために, 医用知識グラフを用いたIFTデータの構築に焦点が当てられている。 しかし、医学知識の豊富な情報源としての医学文献は未解明のままである。 我々の研究は、中国医学文献からLLMの対話的知識獲得を探索するCALLAデータセットを導入している。 フリーダイアログのファクトチェックタスクを通じて、医学知識を習得するLLMの能力を評価する。 我々は, LLMが疑問に言及した事実を肯定し, 異議を唱える反感を呈する, ‘fact-following response` と呼ばれる現象を同定する。 この現象による不正確な評価を排除するために、ゴールデン・ファクトのために、私たちは2つの視点から人工的にテストデータを構築します。 カルタデータセットの探索実験から,iftデータを医学文献コーパスと高度に相関させることで,llmの強力な触媒となり,対話型シナリオにおける事前学習段階で得られた医学知識を巧みに活用し,精度を向上させることができると結論づけた。 さらに,医学文献に基づくiftデータの自動構築のためのフレームワークを設計し,実世界の応用について考察する。

The application of Large Language Models (LLMs) to the medical domain has stimulated the interest of researchers. Recent studies have focused on constructing Instruction Fine-Tuning (IFT) data through medical knowledge graphs to enrich the interactive medical knowledge of LLMs. However, the medical literature serving as a rich source of medical knowledge remains unexplored. Our work introduces the CALLA dataset to probe LLMs' interactive knowledge acquisition from Chinese medical literature. It assesses the proficiency of LLMs in mastering medical knowledge through a free-dialogue fact-checking task. We identify a phenomenon called the ``fact-following response``, where LLMs tend to affirm facts mentioned in questions and display a reluctance to challenge them. To eliminate the inaccurate evaluation caused by this phenomenon, for the golden fact, we artificially construct test data from two perspectives: one consistent with the fact and one inconsistent with the fact. Drawing from the probing experiment on the CALLA dataset, we conclude that IFT data highly correlated with the medical literature corpus serves as a potent catalyst for LLMs, enabling themselves to skillfully employ the medical knowledge acquired during the pre-training phase within interactive scenarios, enhancing accuracy. Furthermore, we design a framework for automatically constructing IFT data based on medical literature and discuss some real-world applications.
翻訳日:2023-09-13 16:10:00 公開日:2023-09-12
# ロボットパークラーニング

Robot Parkour Learning ( http://arxiv.org/abs/2309.05665v2 )

ライセンス: Link先を確認
Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher Atkeson, Soeren Schwertfeger, Chelsea Finn, Hang Zhao(参考訳) Parkourは、複雑な環境でさまざまな障害物を素早く克服するロボットを必要とする、足の移動の大きな課題だ。 既存の手法は、基準動物データや複雑な報酬を用いて、多様だが盲目なロコモーションスキルまたは視覚に基づく専門的なスキルを生成することができる。 しかし、自律駐車では、ビジョンベースで多様なスキルを習得し、様々なシナリオを知覚し、対応する必要がある。 そこで本研究では,参照動作データのない単純な報酬を用いて,多様なパーキングスキルを持つ単一エンドツーエンドのパークールポリシーを学習するシステムを提案する。 本研究では, 直接衝突法にインスパイアされた強化学習手法を開発し, 高い障害物を乗り越え, 大きな障害物を乗り越え, 低障壁の下をクロールし, 薄いスリットをくぐり抜けて走るなど, パールスキルを創出する。 我々はこれらの技術を単一の視覚に基づくパーサーポリシーに抽出し、エゴセントリックな深度カメラを用いて四足歩行ロボットに転送する。 本システムでは,2つの異なる低コストロボットに,実環境に挑戦する適切な駐車スキルを自律的に選択し実行させることができることを実証する。

Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.
翻訳日:2023-09-13 16:00:49 公開日:2023-09-12
# 事前学習型大言語モデルのネットOps能力に関する実証的研究

An Empirical Study of NetOps Capability of Pre-Trained Large Language Models ( http://arxiv.org/abs/2309.05557v2 )

ライセンス: Link先を確認
Yukai Miao, Yu Bai, Li Chen, Dan Li, Haifeng Sun, Xizheng Wang, Ziqiu Luo, Dapeng Sun, Xiuting Xu, Qi Zhang, Chao Xiang, Xinchi Li(参考訳) 大規模言語モデル(LLM)は人間の言語クエリに応答でき、ネットワークオペレーション(NetOps)における強力な潜在的なアプリケーションを示している。 大量のコモンセンス知識のおかげで、LLMは従来のモデルよりもはるかに優れた推論精度を達成し、一般化、推論、コード生成において強力な能力を持つ。 これらの能力は、自動化されたインテリジェントなNetOpsに決定的な向上をもたらす可能性がある。 しかし、LLMが様々なNetOpsタスクでどれだけうまく機能するかは、まだ解明されていない。 本研究では,NetOps の分野で選択した LLM の機能,強度,限界を体系的に評価する。 評価はNetOpsに関する5,732の質問の収集に基づいて行われ、ChatGPT、LLaMA、Falconなど26のパブリックドメイン LLM が含まれている。 また、収集したnetopsコーパスでこれらのllmのいくつかを微調整し、結果モデルを評価する。 この評価法は、一般的なドメイン LLM に対して広く採用されているベンチマークに、Chain-of-Thought Prompts と Retrieval-Augmented Generation を併用する。 その結果, GPT-4のみがNetOps認定試験に合格したのに対して, 他のLLMは精度がはるかに低いことがわかった。 しかし、LLaMA 2のようないくつかのオープンモデルは大きな可能性を秘めている。 さらに,モデルパラメータやプロンプトエンジニアリング,インストラクションの微調整などの要因の影響を評価する。 本研究は,NetOpsにおけるLCMの体系的評価に向けた最初の取り組みとして扱われる。 将来の研究のために評価コードとデータセットがリリースされる予定だ。

Large language models (LLMs) can respond to human language queries and have shown powerful potential applications in network operations (NetOps). Thanks to the large amount of commonsense knowledge inherent, LLMs achieve much better inference accuracy than traditional models and emerge with strong abilities in generalization, reasoning, and code generation. These abilities may have a crucial boost to automated and intelligent NetOps. However, it remains under-explored how well LLMs perform in various NetOps tasks. In this work, we make a systematic assessment of the capabilities, strengths, and limitations of selected LLMs in the field of NetOps. The evaluation is conducted on a collection of 5,732 questions about NetOps, encompassing 26 publicly available general-domain LLMs, including ChatGPT, LLaMA, Falcon, etc. We also finetune some of these LLMs with our collected NetOps corpus and evaluate the resulting models. The evaluation method follows the widely adopted benchmarks for general-domain LLMs, combined with Chain-of-Thought Prompts and Retrieval-Augmented Generation. The results show that only GPT-4 achieves high accuracy equivalent to passing the NetOps certification exam for humans, while all the other LLMs have much lower accuracy. However, some open models like LLaMA 2 still demonstrate significant potential. Furthermore, we evaluate the impact of factors such as model parameters, prompt engineering, instruction fine-tuning etc. This work shall be treated as the initial effort to systematic evaluation of LLMs in NetOps, and a more rigorous study is required for production use. The evaluation code and dataset will be released to benefit future research.
翻訳日:2023-09-13 16:00:10 公開日:2023-09-12
# 経時的MRI生成とびまん性グリオーマ成長予測のための治療対応拡散確率モデル

Treatment-aware Diffusion Probabilistic Model for Longitudinal MRI Generation and Diffuse Glioma Growth Prediction ( http://arxiv.org/abs/2309.05406v2 )

ライセンス: Link先を確認
Qinghui Liu, Elies Fuster-Garcia, Ivar Thokle Hovden, Donatas Sederevicius, Karoline Skogen, Bradley J MacIntosh, Edvard Gr{\o}dem, Till Schellhorn, Petter Brandal, Atle Bj{\o}rnerud, and Kyrre Eeg Emblem(参考訳) びまん性グリオーマ(Diffuse glioma)は、悪性脳腫瘍である。 腫瘍細胞と正常組織との複雑な相互作用、および治療によって引き起こされる変化はグリオーマ腫瘍の成長を困難にする。 本稿では,今後腫瘍のマスクやmriを生成できる新しいエンド・ツー・エンドネットワークを提案する。 本モデルは,最先端拡散確率モデルとディープセグメンテーションニューラルネットワークに基づいている。 生成拡散過程を導くための条件入力として,逐次的マルチパラメトリックmriと治療情報を含む拡散モデルを拡張した。 これにより、任意の時点における腫瘍の成長を推定できる。 グリオーマ腫瘍成長軌跡を経時的に観察し, 術後の経時的MRIデータを用いて実験を行った。 このモデルは、腫瘍マスクを備えた高品質な合成MRIの生成、時系列の腫瘍セグメンテーション、不確実性推定など、様々なタスクで有望なパフォーマンスを示している。 腫瘍増殖予測と不確実性推定を組み合わせることで、臨床意思決定に有用な情報が得られる。

Diffuse gliomas are malignant brain tumors that grow widespread through the brain. The complex interactions between neoplastic cells and normal tissue, as well as the treatment-induced changes often encountered, make glioma tumor growth modeling challenging. In this paper, we present a novel end-to-end network capable of generating future tumor masks and realistic MRIs of how the tumor will look at any future time points for different treatment plans. Our model is built upon cutting-edge diffusion probabilistic models and deep-segmentation neural networks. We extended a diffusion model to include sequential multi-parametric MRI and treatment information as conditioning input to guide the generative diffusion process. This allows us to estimate tumor growth at any given time point. We trained the model using real-world postoperative longitudinal MRI data with glioma tumor growth trajectories represented as tumor segmentation maps over time. The model has demonstrated promising performance across a range of tasks, including the generation of high-quality synthetic MRIs with tumor masks, time-series tumor segmentations, and uncertainty estimation. Combined with the treatment-aware generated MRIs, the tumor growth predictions with uncertainty estimates can provide useful information for clinical decision-making.
翻訳日:2023-09-13 15:59:42 公開日:2023-09-12
# 単一フィルタbiphoton周波数コムにおける高次元時間周波数絡み合い

High-dimensional time-frequency entanglement in a singly-filtered biphoton frequency comb ( http://arxiv.org/abs/2309.05234v2 )

ライセンス: Link先を確認
Xiang Cheng, Kai-Chi Chang, Murat Can Sarihan, Andrew Mueller, Maria Spiropulu, Matthew D. Shaw, Boris Korzh, Andrei Faraon, Franco N. C. Wong, Jeffrey H. Shapiro, and Chee Wei Wong(参考訳) 高次元量子絡み合いは、大規模ノイズ耐性量子システム、フォールトトレラント量子コンピューティング、分散量子ネットワークを実現する高度な技術の基礎である。 最近開発されたbiphoton frequency comb(bfc)は、スペクトルおよび時間的量子モードにおける高次元量子情報処理のための強力なプラットフォームを提供する。 本稿では,Fabry-Perotキャビティを用いた信号光子のみをスペクトル形成することにより,自発的なパラメトリックダウンコンバージョンによる高次元BFCを提案する。 フランソン干渉再帰と低ジッタ検出器との時間相関により高次元エネルギー時間絡みを検証した。 単一フィルタBFCの周波数および時間的絡み合いをシュミットモード分解により定量化する。 その後,10km繊維リンク上に高次元単層フィルタBFC状態を分布させ,分布後の時間-ビン次元を少なくとも168以下とした。 高次元エンタングルメントとエンタングルメント分布の実証は、高効率量子情報処理と高容量量子ネットワークのための単一フィルタ量子周波数コムの能力を示している。

High-dimensional quantum entanglement is a cornerstone for advanced technology enabling large-scale noise-tolerant quantum systems, fault-tolerant quantum computing, and distributed quantum networks. The recently developed biphoton frequency comb (BFC) provides a powerful platform for high-dimensional quantum information processing in its spectral and temporal quantum modes. Here we propose and generate a singly-filtered high-dimensional BFC via spontaneous parametric down-conversion by spectrally shaping only the signal photons with a Fabry-Perot cavity. High-dimensional energy-time entanglement is verified through Franson-interference recurrences and temporal correlation with low-jitter detectors. Frequency- and temporal- entanglement of our singly-filtered BFC is then quantified by Schmidt mode decomposition. Subsequently, we distribute the high-dimensional singly-filtered BFC state over a 10 km fiber link with a post-distribution time-bin dimension lower bounded to be at least 168. Our demonstrations of high-dimensional entanglement and entanglement distribution show the capability of the singly-filtered quantum frequency comb for high-efficiency quantum information processing and high-capacity quantum networks.
翻訳日:2023-09-13 15:59:24 公開日:2023-09-12
# FreeMan: 野生での3D人物推定のベンチマークを目指す

FreeMan: Towards Benchmarking 3D Human Pose Estimation in the Wild ( http://arxiv.org/abs/2309.05073v2 )

ライセンス: Link先を確認
Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Ruimao Zhang(参考訳) 自然界から人体の3次元構造を推定することは視覚知覚の基本的な側面である。 このタスクはAIGCや人間-ロボットインタラクションといった分野において非常に重要である。 実際、現実の環境での3次元ポーズ推定は、この問題を解決するための重要な初期ステップである。 しかし、複雑なモーションキャプチャー装置と未知の背景を用いて制御された実験室条件下で収集される現在のデータセットは不十分である。 現実世界のデータセットがないため、この重要なタスクの進捗は停滞している。 3次元ポーズ推定の開発を容易にするために,最初の大規模実世界マルチビューデータセットであるfreemanを提案する。 freemanはさまざまなシナリオで8台のスマートフォンを同期させた。 8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。 これらのシーケンスは、それぞれ異なる照明条件を持つ10のシナリオにわたる40の被験者をカバーする。 また,大規模処理を効率的に行えるように,高精度なラベリングパイプラインも構築した。 さまざまなタスクに対する総合的な評価基準を提供し,freemanが抱える重要な課題を概説する。 標準的な屋内/屋外の人間のセンシングデータセットのさらなる評価は、FreeManが実シーンと複雑なシーンで堅牢な表現転送性を提供することを示している。 FreeManはhttps://wangjiongw.github.io/freeman.comで公開されている。

Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. This task carries great importance for fields like AIGC and human-robot interaction. In practice, 3D human pose estimation in real-world settings is a critical initial step in solving this problem. However, the current datasets, often collected under controlled laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of real-world datasets is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, real-world multi-view dataset. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an automated, precise labeling pipeline that allows for large-scale processing efficiently. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. FreeMan is now publicly available at https://wangjiongw.github.io/freeman.
翻訳日:2023-09-13 15:59:07 公開日:2023-09-12
# 多文書要約:比較評価

Multi-document Summarization: A Comparative Evaluation ( http://arxiv.org/abs/2309.04951v2 )

ライセンス: Link先を確認
Kushan Hewapathirana (1 and 2), Nisansa de Silva (1), C.D. Athuraliya (2) ((1) Department of Computer Science & Engineering, University of Moratuwa, Sri Lanka, (2) ConscientAI, Sri Lanka)(参考訳) 本論文は,多文書要約(MDS)のさまざまな分野のデータセットに対する最先端モデルの評価と,今後の研究方向を決定するための既存モデルの限界について検討することを目的とする。 このギャップに対処するため、我々は最先端のモデルとデータセットを特定するための広範な文献レビューを行った。 我々は,BigSurvey-MDSおよびMS$^2$データセット上でのPRIMERAおよびPEGASUSモデルの性能を解析した。 以上の結果から,汎用事前学習型LEDは,MS$^2$データセット上でPRIMERAとPEGASUSより優れていた。 我々は、ROUGEスコアをパフォーマンス指標として、異なるデータセット上で識別されたモデルを評価する。 本研究は,モデルの強みと弱み,および異なる領域における適用性に関する貴重な知見を提供する。 この研究は将来のMDS研究の参考として機能し、学術的および科学的に複雑なデータと一般化された比較的単純なデータセットの要求されたデータセットに利用できる正確で堅牢なモデルの開発に貢献する。

This paper is aimed at evaluating state-of-the-art models for Multi-document Summarization (MDS) on different types of datasets in various domains and investigating the limitations of existing models to determine future research directions. To address this gap, we conducted an extensive literature review to identify state-of-the-art models and datasets. We analyzed the performance of PRIMERA and PEGASUS models on BigSurvey-MDS and MS$^2$ datasets, which posed unique challenges due to their varied domains. Our findings show that the General-Purpose Pre-trained Model LED outperforms PRIMERA and PEGASUS on the MS$^2$ dataset. We used the ROUGE score as a performance metric to evaluate the identified models on different datasets. Our study provides valuable insights into the models' strengths and weaknesses, as well as their applicability in different domains. This work serves as a reference for future MDS research and contributes to the development of accurate and robust models which can be utilized on demanding datasets with academically and/or scientifically complex data as well as generalized, relatively simple datasets.
翻訳日:2023-09-13 15:58:49 公開日:2023-09-12
# mfpnet:軽量セマンティックセグメンテーションのためのマルチスケール特徴伝達ネットワーク

MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic Segmentation ( http://arxiv.org/abs/2309.04914v2 )

ライセンス: Link先を確認
Guoan Xu, Wenjing Jia, Tao Wu, Ligeng Chen(参考訳) 大規模モデルに焦点を当てた豊富な研究とは対照的に、軽量セマンティックセグメンテーションの進歩は比較的遅いペースで進んでいるようである。 しかし、既存のコンパクトメソッドは、ネットワークの浅さのため、機能表現能力が限られることが多い。 本稿では,マルチスケール特徴伝達ネットワーク (MFPNet) と呼ばれる,このジレンマに対処するための軽量セグメンテーションアーキテクチャを提案する。 具体的には,フレキシブル・ボトルネック残差モジュール(brm)からなる対称残差ブロックを特徴とするロバストなエンコーダ・デコーダ構造を設計し,深く,かつリッチなミューティスケール意味コンテキストを探索する。 さらに,潜在的な長期的文脈関係をモデル化する能力から,グラフ畳み込みネットワーク(gcns)を活用して,brmブロック間のマルチスケール特徴伝達を容易にする。 ベンチマークデータセットを用いて評価すると,提案手法はより優れたセグメンテーション結果を示す。

In contrast to the abundant research focusing on large-scale models, the progress in lightweight semantic segmentation appears to be advancing at a comparatively slower pace. However, existing compact methods often suffer from limited feature representation capability due to the shallowness of their networks. In this paper, we propose a novel lightweight segmentation architecture, called Multi-scale Feature Propagation Network (MFPNet), to address the dilemma. Specifically, we design a robust Encoder-Decoder structure featuring symmetrical residual blocks that consist of flexible bottleneck residual modules (BRMs) to explore deep and rich muti-scale semantic context. Furthermore, taking benefit from their capacity to model latent long-range contextual relationships, we leverage Graph Convolutional Networks (GCNs) to facilitate multi-scale feature propagation between the BRM blocks. When evaluated on benchmark datasets, our proposed approach shows superior segmentation results.
翻訳日:2023-09-13 15:58:24 公開日:2023-09-12
# ASR不確実性を爆発させる大規模言語モデルを活用する

Leveraging Large Language Models for Exploiting ASR Uncertainty ( http://arxiv.org/abs/2309.04842v2 )

ライセンス: Link先を確認
Pranay Dighe, Yi Su, Shangshang Zheng, Yunshu Liu, Vineet Garg, Xiaochuan Niu, Ahmed Tewfik(参考訳) 大きな言語モデルは、様々な自然言語処理(NLP)タスクに優れており、音声言語理解(SLU)タスクでうまく機能するためには、オフ・ザ・シェルフ自動音声認識(ASR)システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。 本研究は、SLUタスクにおけるLLMの精度が、音声入力における固定ASRシステムの精度によって制約される以前のシナリオに焦点を当てる。 具体的には、高い単語誤り率でLLMが発話意図を理解する能力を制限できる音声意図分類タスクに取り組む。 デプロイメントコストに関わらず、複雑なアーキテクチャや特殊なアーキテクチャを設計することで、高い精度を追求する代わりに、複数の非関連タスクで共有可能な、基盤となるASRとLLMを大きく変えることなく、どこまで進めるかを問う。 そこで本研究では, 誤り発生確率1-best仮説に代えて, n-best の ASR 仮説のリストを用いた LLM の提案を行う。 我々は,LLMにおけるn-bestリストの概念を説明するためにプロンプトエンジニアリングを検討し,続いて下流タスクにおける低ランク適応器の微調整を行った。 n-best list を用いたアプローチは,n-best list を用いたシステムが 1-best asr 仮説 を用いたものよりも優れており,それによって llms を用いた音声認識における asr の不確かさを効果的に活用するための方法が確立されている。

While large language models excel in a variety of natural language processing (NLP) tasks, to perform well on spoken language understanding (SLU) tasks, they must either rely on off-the-shelf automatic speech recognition (ASR) systems for transcription, or be equipped with an in-built speech modality. This work focuses on the former scenario, where LLM's accuracy on SLU tasks is constrained by the accuracy of a fixed ASR system on the spoken input. Specifically, we tackle speech-intent classification task, where a high word-error-rate can limit the LLM's ability to understand the spoken intent. Instead of chasing a high accuracy by designing complex or specialized architectures regardless of deployment costs, we seek to answer how far we can go without substantially changing the underlying ASR and LLM, which can potentially be shared by multiple unrelated tasks. To this end, we propose prompting the LLM with an n-best list of ASR hypotheses instead of only the error-prone 1-best hypothesis. We explore prompt-engineering to explain the concept of n-best lists to the LLM; followed by the finetuning of Low-Rank Adapters on the downstream tasks. Our approach using n-best lists proves to be effective on a device-directed speech detection task as well as on a keyword spotting task, where systems using n-best list prompts outperform those using 1-best ASR hypothesis; thus paving the way for an efficient method to exploit ASR uncertainty via LLMs for speech-based applications.
翻訳日:2023-09-13 15:58:06 公開日:2023-09-12
# シンボリック・ラーニングによるsalient object detectionのadversarial attack評価

Adversarial Attacks Assessment of Salient Object Detection via Symbolic Learning ( http://arxiv.org/abs/2309.05900v1 )

ライセンス: Link先を確認
Gustavo Olague, Roberto Pineda, Gerardo Ibarra-Vazquez, Matthieu Olague, Axel Martinez, Sambit Bakshi, Jonathan Vargas and Isnardo Reducindo(参考訳) 機械学習は主流技術の中心であり、手作りの機能設計に対する古典的なアプローチよりも優れています。 人工的特徴抽出の学習プロセスとは別に、入力から出力までのエンドツーエンドパラダイムを持ち、極めて正確な結果が得られる。 しかし、悪質で不可避な摂動に対する堅牢性に対するセキュリティ上の懸念は、その予測を完全に変更できるため注目されている。 salient object detectionは、深い畳み込みニューラルネットワークが効果的であることが証明されているが、その信頼性はハッカーの攻撃に対する分析と解決策を必要とする重要な問題である。 脳プログラミングは、古き良き人工知能の分野における象徴的な学習である。 この研究は、最も激しい摂動にも耐えうるため、信頼できる視覚的注意システムの設計において、象徴的な学習の堅牢性が不可欠であることを示す。 我々は,この進化的計算手法を,標準的なデータベースとSnowy Ploverと呼ばれる海岸鳥の現実問題を用いて,視覚的注意課題を表現したいくつかの敵攻撃とノイズ摂動に対して検証した。 提案手法を5つの異なるディープラーニングアプローチと比較し,ロバスト性に関する象徴的パラダイムと一致しないことを示す。 すべてのニューラルネットワークは大きなパフォーマンス損失を被るが、脳プログラミングはその基盤であり、影響を受けない。 また,Snowy Ploverの研究により,野生生物保護・保全に関する監視活動におけるセキュリティの重要性について述べる。

Machine learning is at the center of mainstream technology and outperforms classical approaches to handcrafted feature design. Aside from its learning process for artificial feature extraction, it has an end-to-end paradigm from input to output, reaching outstandingly accurate results. However, security concerns about its robustness to malicious and imperceptible perturbations have drawn attention since its prediction can be changed entirely. Salient object detection is a research area where deep convolutional neural networks have proven effective but whose trustworthiness represents a significant issue requiring analysis and solutions to hackers' attacks. Brain programming is a kind of symbolic learning in the vein of good old-fashioned artificial intelligence. This work provides evidence that symbolic learning robustness is crucial in designing reliable visual attention systems since it can withstand even the most intense perturbations. We test this evolutionary computation methodology against several adversarial attacks and noise perturbations using standard databases and a real-world problem of a shorebird called the Snowy Plover portraying a visual attention task. We compare our methodology with five different deep learning approaches, proving that they do not match the symbolic paradigm regarding robustness. All neural networks suffer significant performance losses, while brain programming stands its ground and remains unaffected. Also, by studying the Snowy Plover, we remark on the importance of security in surveillance activities regarding wildlife protection and conservation.
翻訳日:2023-09-13 14:53:02 公開日:2023-09-12
# 大規模言語モデルの戦略的行動--ゲーム構造と文脈フレーミング

Strategic Behavior of Large Language Models: Game Structure vs. Contextual Framing ( http://arxiv.org/abs/2309.05898v1 )

ライセンス: Link先を確認
Nunzio Lor\`e, Babak Heydari(参考訳) 本稿では,ゲーム理論の枠組みの中で,GPT-3.5,GPT-4,LLaMa-2の3つの大規模言語モデル(LLM)の戦略的意思決定能力について検討する。 囚人のジレンマ、スタッグハント、スノードリフト、囚人の喜びという4つの標準的な2人プレイゲームを利用して、これらのモデルがどのように社会的ジレンマをナビゲートするかを調べます。 本研究は,外交関係やカジュアルな友情といった文脈的フレーミングが,モデルの決定を形作る上で果たす役割について検討するために,分析を拡張した。 GPT-3.5は文脈的フレーミングに非常に敏感であるが,抽象的な戦略的推論を行う能力は限られている。 GPT-4とLLaMa-2はゲームの構造とコンテキストに基づいて戦略を調整するが、LLaMa-2はゲームの基礎となるメカニズムをより微妙に理解している。 これらの結果は、戦略的意思決定におけるLLMの現在の限界と様々な能力を強調し、複雑な戦略的推論を必要とするタスクにおける不適格な使用に対して警告する。

This paper investigates the strategic decision-making capabilities of three Large Language Models (LLMs): GPT-3.5, GPT-4, and LLaMa-2, within the framework of game theory. Utilizing four canonical two-player games -- Prisoner's Dilemma, Stag Hunt, Snowdrift, and Prisoner's Delight -- we explore how these models navigate social dilemmas, situations where players can either cooperate for a collective benefit or defect for individual gain. Crucially, we extend our analysis to examine the role of contextual framing, such as diplomatic relations or casual friendships, in shaping the models' decisions. Our findings reveal a complex landscape: while GPT-3.5 is highly sensitive to contextual framing, it shows limited ability to engage in abstract strategic reasoning. Both GPT-4 and LLaMa-2 adjust their strategies based on game structure and context, but LLaMa-2 exhibits a more nuanced understanding of the games' underlying mechanics. These results highlight the current limitations and varied proficiencies of LLMs in strategic decision-making, cautioning against their unqualified use in tasks requiring complex strategic reasoning.
翻訳日:2023-09-13 14:52:40 公開日:2023-09-12
# 対称性に基づくハミルトン変換を用いたマルチキュービット系の量子最適制御の高速化

Accelerating Quantum Optimal Control of Multi-Qubit Systems with Symmetry-Based Hamiltonian Transformations ( http://arxiv.org/abs/2309.05884v1 )

ライセンス: Link先を確認
Xian Wang, Mahmut Sait Okyay, Anshuman Kumar, Bryan M. Wong(参考訳) 様々な量子コンピューティングアプリケーションで使用される大規模マルチキュービットシステムの量子最適制御計算を高速化する,新しい計算効率の高い手法を提案する。 有限群の内在対称性を利用することでヒルベルト空間を分解し、ハミルトニアンはブロック対角化して超高速な量子最適制御計算を可能にする。 我々のアプローチは、Sn あるいは Dn 対称性の下で、$n$-qubit 系のハミルトニアンサイズを 2^n × 2^n から O(n by n) または O((2^n / n) から (2^n / n)) に減少させる。 最も重要なことに、このアプローチは、元の方法と同じ精度を維持しながら、量子ビット最適制御計算の計算ランタイムを桁違いに削減する。 その結果,(1)対称性が保護された部分空間は他の量子ハミルトニアンの量子誤差抑制とシミュレーションの潜在的な基盤となりうること,(2)リートロッター・スズキ分解アプローチは,この手法を様々なマルチ量子ビット系に一般化できることを示した。

We present a new, computationally efficient approach to accelerate quantum optimal control calculations of large multi-qubit systems used in a variety of quantum computing applications. By leveraging the intrinsic symmetry of finite groups, the Hilbert space can be decomposed and the Hamiltonians block-diagonalized to enable extremely fast quantum optimal control calculations. Our approach reduces the Hamiltonian size of an $n$-qubit system from 2^n by 2^n to O(n by n) or O((2^n / n) by (2^n / n)) under Sn or Dn symmetry, respectively. Most importantly, this approach reduces the computational runtime of qubit optimal control calculations by orders of magnitude while maintaining the same accuracy as the original method. As prospective applications, we show that (1) symmetry-protected subspaces can be potential platforms for quantum error suppression and simulation of other quantum Hamiltonians, and (2) Lie-Trotter-Suzuki decomposition approaches can generalize our method to a general variety of multi-qubit systems.
翻訳日:2023-09-13 14:52:16 公開日:2023-09-12
# ショッピングサイトにおけるマルチタスク画像誤り訂正のための階層的条件付き半ペア画像変換

Hierarchical Conditional Semi-Paired Image-to-Image Translation For Multi-Task Image Defect Correction On Shopping Websites ( http://arxiv.org/abs/2309.05883v1 )

ライセンス: Link先を確認
Moyan Li, Jinmiao Fu, Shaoyuan Xu, Huidong Liu, Jia Liu, Bryan Wang(参考訳) ショッピングウェブサイトでは、品質の低い製品イメージは顧客エクスペリエンスに悪影響を及ぼす。 異なる欠陥のある画像を検出する作業はたくさんありますが、大規模な欠陥を修正するための努力はほとんどありません。 大きな課題は、何千もの製品タイプがあり、それぞれに特定の欠陥があることです。 本稿では,異なる製品タイプにまたがる複数の欠陥を補正する統合イメージ・ツー・イメージ(I2I)翻訳モデルを提案する。 本モデルでは,高レベル欠陥群と特定の欠陥タイプを階層的に組み込んだ注意機構を用いて,欠陥関連画像領域をネットワークに誘導する。 8つの公開データセットで評価し,frechetインセプション距離(fid)を平均24.6%削減した。 パブリックデータとは異なり、ショッピングサイトにおけるもうひとつの現実的な課題は、ペア画像が低品質であることである。 そこで本研究では,ペアデータのL1損失とペアデータのサイクル損失を組み合わせた半ペア化設計を行う。 3つの画像欠陥を修正するために、ショッピングウェブサイトのデータセットでテストした結果、ws-i2iと比較して平均で(fid)を63.2%削減した。

On shopping websites, product images of low quality negatively affect customer experience. Although there are plenty of work in detecting images with different defects, few efforts have been dedicated to correct those defects at scale. A major challenge is that there are thousands of product types and each has specific defects, therefore building defect specific models is unscalable. In this paper, we propose a unified Image-to-Image (I2I) translation model to correct multiple defects across different product types. Our model leverages an attention mechanism to hierarchically incorporate high-level defect groups and specific defect types to guide the network to focus on defect-related image regions. Evaluated on eight public datasets, our model reduces the Frechet Inception Distance (FID) by 24.6% in average compared with MoNCE, the state-of-the-art I2I method. Unlike public data, another practical challenge on shopping websites is that some paired images are of low quality. Therefore we design our model to be semi-paired by combining the L1 loss of paired data with the cycle loss of unpaired data. Tested on a shopping website dataset to correct three image defects, our model reduces (FID) by 63.2% in average compared with WS-I2I, the state-of-the art semi-paired I2I method.
翻訳日:2023-09-13 14:51:50 公開日:2023-09-12
# 顔認証システムにおける一般化攻撃

Generalized Attacks on Face Verification Systems ( http://arxiv.org/abs/2309.05879v1 )

ライセンス: Link先を確認
Ehsan Nazari, Paula Branco, Guy-Vincent Jourdan(参考訳) ディープニューラルネットワークモデルを用いた顔検証(FV)は近年,人間の正確性を超え,バウンダリコントロールやスマートフォンのアンロックなど,さまざまなアプリケーションに展開されている。 しかし、FVシステムは、通常人間に知られない方法でこれらのシステムを騙すために入力画像を操作する敵攻撃に対して脆弱である。 本稿では,fvシステムに対する攻撃に関する詳細な研究を行う。 同一人物を同一視する顔画像の作成を定式化し,同一人物を別個の不一致集合で同一人物と認識しないようにするダジソフィケーション攻撃を提案する。 ドッジアタック、偽装攻撃、マスター・フェイスアタックなど、FVシステムに対する様々な種類の敵攻撃の統一ビューを提供するために分類法が提案されている。 最後に、よく知られたシナリオ(マスター・フェイス・アタック)における最先端のパフォーマンスを備えたDodgePersonation Attackを実装した'One Face to Rule Them All'アタックを提案し、この論文で導入された新しいシナリオにも使用できる。 最先端のマスターフェイス攻撃は、彼らのテストデータベースのアイデンティティの43.82%をカバーする9つのイメージを生成できるが、9つのイメージにより、攻撃者はこれらの識別の57.27%から58.5%をカバーでき、攻撃者は偽装を作成するために使用するアイデンティティを選択することができる。 さらに、発生した9つの攻撃画像は、カジュアルなオブザーバと同一に見える。

Face verification (FV) using deep neural network models has made tremendous progress in recent years, surpassing human accuracy and seeing deployment in various applications such as border control and smartphone unlocking. However, FV systems are vulnerable to Adversarial Attacks, which manipulate input images to deceive these systems in ways usually unnoticeable to humans. This paper provides an in-depth study of attacks on FV systems. We introduce the DodgePersonation Attack that formulates the creation of face images that impersonate a set of given identities while avoiding being identified as any of the identities in a separate, disjoint set. A taxonomy is proposed to provide a unified view of different types of Adversarial Attacks against FV systems, including Dodging Attacks, Impersonation Attacks, and Master Face Attacks. Finally, we propose the ''One Face to Rule Them All'' Attack which implements the DodgePersonation Attack with state-of-the-art performance on a well-known scenario (Master Face Attack) and which can also be used for the new scenarios introduced in this paper. While the state-of-the-art Master Face Attack can produce a set of 9 images to cover 43.82% of the identities in their test database, with 9 images our attack can cover 57.27% to 58.5% of these identifies while giving the attacker the choice of the identity to use to create the impersonation. Moreover, the 9 generated attack images appear identical to a casual observer.
翻訳日:2023-09-13 14:51:25 公開日:2023-09-12
# 正規化スパースロジスティック回帰について

On Regularized Sparse Logistic Regression ( http://arxiv.org/abs/2309.05925v1 )

ライセンス: Link先を確認
Mengyuan Zhang and Kai Liu(参考訳) スパースロジスティック回帰は、高次元データに対して、分類と特徴選択を同時に行うことを目的としている。 $\ell_1$-正規化ロジスティック回帰を解くために多くの研究がなされているが、非凸ペナルティに関連するスパースロジスティック回帰を解くという、同等に豊富な文献は存在しない。 本稿では,非凸ペナルティがいくつかの前提条件を満たす場合の,$\ell_1$-regularized sparse logistic regressionと,非凸ペナルティ-regularized sparse logistic regressionを類似の最適化フレームワークで解くことを提案する。 提案する最適化フレームワークでは,正規化条件の整合性を保証するために,異なる線探索基準を利用する。 実世界のデータセットを用いた二項分類タスクの実証実験により,提案アルゴリズムはより少ない計算コストで効果的に分類と特徴選択を行うことができることを示した。

Sparse logistic regression aims to perform classification and feature selection simultaneously for high-dimensional data. Although many studies have been done to solve $\ell_1$-regularized logistic regression, there is no equivalently abundant literature about solving sparse logistic regression associated with nonconvex penalties. In this paper, we propose to solve $\ell_1$-regularized sparse logistic regression and some nonconvex penalties-regularized sparse logistic regression, when the nonconvex penalties satisfy some prerequisites, with similar optimization frameworks. In the proposed optimization frameworks, we utilize different line search criteria to guarantee good convergence performance for different regularization terms. Empirical experiments on binary classification tasks with real-world datasets demonstrate our proposed algorithms are capable of performing classification and feature selection effectively with a lower computational cost.
翻訳日:2023-09-13 14:41:50 公開日:2023-09-12
# 変分量子探索のための量子シミュレータの比較:ベンチマークによる検討

Comparison of Quantum Simulators for Variational Quantum Search: A Benchmark Study ( http://arxiv.org/abs/2309.05924v1 )

ライセンス: Link先を確認
Mohammadreza Soltaninia, Junpeng Zhan(参考訳) 古典的コンピュータを用いた量子回路のシミュレーションは、量子アルゴリズムの開発と検証を加速することができる。 新たに開発された変分量子探索(VQS)アルゴリズムは,回路深度の観点からGroverのアルゴリズムに対して,非構造化データベースの探索において,5から26キュービットの範囲で指数関数的に優位性を示した。 26キュービット以上のvqsをさらに検証する必要があります。 多くのシミュレータが開発されている。 しかし、多くのキュービットでVQSを実行するのにどのシミュレータが最適かは明らかでない。 この問題を解決するために、VQSで使用される典型的な量子回路を8つの主流シミュレータ上で実装する。 その結果,ほとんどのシミュレータで要求される時間とメモリはキュービット数とともに指数関数的に増加し,GPUとQulacを用いたペニーレーンはVQSを効率的に実行するのに最適なシミュレータであることがわかった。 本研究は, 実装の徹底を必要とせず, 研究者が適切な量子シミュレータを選択するのに役立ち, コミュニティコントリビューションのためにコードを利用できるようにした。

Simulating quantum circuits using classical computers can accelerate the development and validation of quantum algorithms. Our newly developed algorithm, variational quantum search (VQS), has shown an exponential advantage over Grover's algorithm in the range from 5 to 26 qubits, in terms of circuit depth, for searching unstructured databases. We need to further validate the VQS for more than 26 qubits. Numerous simulators have been developed. However, it is not clear which simulator is most suitable for executing VQS with many qubits. To solve this issue, we implement a typical quantum circuit used in VQS on eight mainstream simulators. Results show that the time and memory required by most simulators increase exponentially with the number of qubits and that Pennylane with GPU and Qulacs are the most suitable simulators for executing VQS efficiently. Our results aid researchers in selecting suitable quantum simulators without the need for exhaustive implementation, and we have made our codes available for community contributions.
翻訳日:2023-09-13 14:41:33 公開日:2023-09-12
# 大規模基礎モデルにおける幻覚調査

A Survey of Hallucination in Large Foundation Models ( http://arxiv.org/abs/2309.05922v1 )

ライセンス: Link先を確認
Vipula Rawte, Amit Sheth, Amitava Das(参考訳) ファウンデーションモデル(fm)における幻覚とは、事実の現実から逸脱したり、情報を含むコンテンツの生成を指す。 本稿では,「大規模」基礎モデル(lfms)に着目し,幻覚の問題を特定し,解明し,取り組むことを目的とした最近の取り組みの概要について述べる。 本稿は, LFM特有の幻覚現象の種類を分類し, 幻覚の程度を評価するための評価基準を確立する。 また, LFMにおける幻覚の緩和戦略について検討し, 今後の研究の方向性について検討する。 本論文は, LFMにおける幻覚に関する課題と解決策を包括的に検討する。

Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.
翻訳日:2023-09-13 14:41:14 公開日:2023-09-12
# SAGE: 数十億ドル規模の製品カタログのための構造化属性価値生成

SAGE: Structured Attribute Value Generation for Billion-Scale Product Catalogs ( http://arxiv.org/abs/2309.05920v1 )

ライセンス: Link先を確認
Athanasios N. Nikolakopoulos, Swati Kaul, Siva Karthik Gade, Bella Dubrov, Umit Batur, Suleiman Ali Khan(参考訳) 我々は,世界規模のeコマースカタログにまたがって商品の属性値を推定するジェネレーティブLLMであるSAGEを紹介する。 本稿では,Seq2Seq要約タスクとして,言語,製品タイプ,対象属性にまたがる属性値予測問題を新たに定式化する。 提案手法は,属性値の予測の制約を,事前に指定した選択セット内で解除するだけでなく,要求される属性値をテキスト内で明示的に記述する必要があるという制約を緩和するものである。 SAGEは、周辺言語を使って暗黙的にそのような値が言及されている場合でも、属性値を推論することができる。 さらに、SAGEは、手元にある製品に属性が適用できないか、または利用可能な情報から利用できないかを予測できる。 SAGEは、eコマースカタログの実践的な設定で生じる属性値予測タスクのすべての側面に取り組むことができる最初の方法である。 包括的な実験は、提案手法の有効性と、最先端の競合する代替案に対する優位性を示す。 さらに,本実験では,ゼロショット設定における属性値の予測タスクにSAGEが取り組む能力を強調し,学習に必要なラベル付きサンプルの総数を大幅に削減する機会を開放した。

We introduce SAGE; a Generative LLM for inferring attribute values for products across world-wide e-Commerce catalogs. We introduce a novel formulation of the attribute-value prediction problem as a Seq2Seq summarization task, across languages, product types and target attributes. Our novel modeling approach lifts the restriction of predicting attribute values within a pre-specified set of choices, as well as, the requirement that the sought attribute values need to be explicitly mentioned in the text. SAGE can infer attribute values even when such values are mentioned implicitly using periphrastic language, or not-at-all-as is the case for common-sense defaults. Additionally, SAGE is capable of predicting whether an attribute is inapplicable for the product at hand, or non-obtainable from the available information. SAGE is the first method able to tackle all aspects of the attribute-value-prediction task as they arise in practical settings in e-Commerce catalogs. A comprehensive set of experiments demonstrates the effectiveness of the proposed approach, as well as, its superiority against state-of-the-art competing alternatives. Moreover, our experiments highlight SAGE's ability to tackle the task of predicting attribute values in zero-shot setting; thereby, opening up opportunities for significantly reducing the overall number of labeled examples required for training.
翻訳日:2023-09-13 14:41:04 公開日:2023-09-12
# マルチモーダル画像分割のための不確実性定量化と文脈割引による深部明細融合

Deep evidential fusion with uncertainty quantification and contextual discounting for multimodal medical image segmentation ( http://arxiv.org/abs/2309.05919v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux(参考訳) 単一のモダリティの医療画像は、一般的に正確で信頼できる診断に到達できる十分な情報を持っていない。 このため、医師は一般的にPET/CTなどのマルチモーダルな医療画像に基づいて疾患を診断する。 マルチモーダル情報の効果的な融合は、信頼できる決定に到達し、その決定の方法を説明するために不可欠である。 本稿では,深層学習とデンプスター・シェーファー証拠理論に基づくマルチモーダル医用画像分割のための融合フレームワークを提案する。 このフレームワークでは、異なるオブジェクトをセグメンテーションするときの各単一のモダリティイメージの信頼性を、コンテクストディスカウント操作によって考慮する。 それぞれのモダリティから取り除かれた証拠は、最終決定に達するためのデンプスターの規則によってまとめられる。 脳腫瘍を伴うPET-CTデータセットとマルチMRIデータセットによる実験結果から,本手法は精度と信頼性において最先端の手法よりも優れていることが示された。

Single-modality medical images generally do not contain enough information to reach an accurate and reliable diagnosis. For this reason, physicians generally diagnose diseases based on multimodal medical images such as, e.g., PET/CT. The effective fusion of multimodal information is essential to reach a reliable decision and explain how the decision is made as well. In this paper, we propose a fusion framework for multimodal medical image segmentation based on deep learning and the Dempster-Shafer theory of evidence. In this framework, the reliability of each single modality image when segmenting different objects is taken into account by a contextual discounting operation. The discounted pieces of evidence from each modality are then combined by Dempster's rule to reach a final decision. Experimental results with a PET-CT dataset with lymphomas and a multi-MRI dataset with brain tumors show that our method outperforms the state-of-the-art methods in accuracy and reliability.
翻訳日:2023-09-13 14:40:37 公開日:2023-09-12
# 確率的LLMは言語を理解しない:記号的・説明可能・オントロジー的LLMを目指して

Stochastic LLMs do not Understand Language: Towards Symbolic, Explainable and Ontologically Based LLMs ( http://arxiv.org/abs/2309.05918v1 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 我々の意見では、データ駆動型大規模言語モデル(LLM)の相対的な成功を巡って、若干の誤解があり、いくつかの理由がある。 i) LLMは,すべての摂取されたテキスト(実物又は非実物)が平等に作成されたため,事実情報に頼ってはならない。 (二)その副記号的ナチュアにより、これらのモデルが言語について獲得する「知識」が何であれ、常に何十億ものマイクロ特徴(重み)に埋もれ、それ自体には意味がない。 (iii)LLMは、いくつかの言語文脈(例:名目化合物、述語、量化子スコープの曖昧さ、無緊張な文脈)において正しい推論に失敗することが多い。 データ駆動型大規模言語モデル(LLM)の相対的な成功は、記号的対準記号的議論の反映ではなく、大規模にボトムアップのリバースエンジニアリングを成功させるためのリフレクションであると信じているので、本論文では、シンボル的、説明可能な、そして存在論的基礎付けられた言語モデルをもたらす効果的なボトムアップ戦略を適用することを提案する。

In our opinion the exuberance surrounding the relative success of data-driven large language models (LLMs) is slightly misguided and for several reasons (i) LLMs cannot be relied upon for factual information since for LLMs all ingested text (factual or non-factual) was created equal; (ii) due to their subsymbolic na-ture, whatever 'knowledge' these models acquire about language will always be buried in billions of microfeatures (weights), none of which is meaningful on its own; and (iii) LLMs will often fail to make the correct inferences in several linguistic contexts (e.g., nominal compounds, copredication, quantifier scope ambi-guities, intensional contexts. Since we believe the relative success of data-driven large language models (LLMs) is not a reflection on the symbolic vs. subsymbol-ic debate but a reflection on applying the successful strategy of a bottom-up reverse engineering of language at scale, we suggest in this paper applying the effective bottom-up strategy in a symbolic setting resulting in symbolic, explainable, and ontologically grounded language models.
翻訳日:2023-09-13 14:40:22 公開日:2023-09-12
# ACT: アドバンテージ・コンディショニングによる動的プログラミングによる決定変換器の強化

ACT: Empowering Decision Transformer with Dynamic Programming via Advantage Conditioning ( http://arxiv.org/abs/2309.05915v1 )

ライセンス: Link先を確認
Chenxiao Gao, Chenyang Wu, Mingjun Cao, Rui Kong, Zongzhang Zhang, Yang Yu(参考訳) 動作生成に表現的シーケンスモデリング技術を用いる決定変換器 (DT) は, オフラインポリシー最適化への有望なアプローチとして登場した。 しかし、DTは、望まれる将来のリターンに条件づけられたアクションを生成し、環境確率性への感受性などの弱点を負うことが知られている。 DTの弱点を克服するために、動的プログラミングによるDTの強化を提案する。 この方法は3つのステップからなる。 まず,mdp構造上の動的プログラミングを含む近似値関数を得るために,サンプル値反復を用いる。 第2に,行動の質を推定的な利点で評価する。 我々は,異なるタスクに適した2種類の利点推定器,IAEとGAEを導入する。 第3に,推定したアドバンテージに基づくアクションを生成するために,アドバンテージコンディショルドトランスフォーマ(act)をトレーニングする。 最後に、テスト中にACTは、望ましい優位性で条件付けられたアクションを生成する。 本評価の結果から,actは動的プログラミングのパワーを活用し,環境的確率性にも拘わらず,効果的な軌道ステッチングとロバストなアクション生成を実証し,様々なベンチマークでベースライン法を上回った。 さらに,ACTの様々な設計選択をアブレーション研究を通じて詳細に分析する。

Decision Transformer (DT), which employs expressive sequence modeling techniques to perform action generation, has emerged as a promising approach to offline policy optimization. However, DT generates actions conditioned on a desired future return, which is known to bear some weaknesses such as the susceptibility to environmental stochasticity. To overcome DT's weaknesses, we propose to empower DT with dynamic programming. Our method comprises three steps. First, we employ in-sample value iteration to obtain approximated value functions, which involves dynamic programming over the MDP structure. Second, we evaluate action quality in context with estimated advantages. We introduce two types of advantage estimators, IAE and GAE, which are suitable for different tasks. Third, we train an Advantage-Conditioned Transformer (ACT) to generate actions conditioned on the estimated advantages. Finally, during testing, ACT generates actions conditioned on a desired advantage. Our evaluation results validate that, by leveraging the power of dynamic programming, ACT demonstrates effective trajectory stitching and robust action generation in spite of the environmental stochasticity, outperforming baseline methods across various benchmarks. Additionally, we conduct an in-depth analysis of ACT's various design choices through ablation studies.
翻訳日:2023-09-13 14:39:53 公開日:2023-09-12
# 信念関数理論とディープラーニングを用いた医用画像分割

Medical Image Segmentation with Belief Function Theory and Deep Learning ( http://arxiv.org/abs/2309.05914v1 )

ライセンス: Link先を確認
Ling Huang(参考訳) 深層学習は、強力な学習と特徴表現能力を備えた医療画像セグメンテーションに有望な貢献を示している。 しかし、不完全(不正確、不確実、部分的な)情報との推論と組み合わせに制限がある。 本論文では,信条関数理論と深層学習による医用画像分割手法について検討し,不確かな証拠に基づく情報モデリングと融合に着目した。 まず,既存の信念関数理論に基づく医用画像分割法について検討し,その利点と課題について考察する。 次に,半教師付き医用画像セグメンテーションフレームワークを提案し,証拠セグメンテーションとエビデンス融合によるアノテーションの欠如による不確実性を低減する。 第3に,証拠的ニューラルネットワークと放射状基底関数ネットワークの2つの証拠的分類器を比較し,不確実性定量化における信念関数理論の有効性を示す。 第4に、マス関数とコンテクストディスカウントを用いて異なるセグメンテーションタスクを行う際の各mr画像の信頼性を考慮したマルチモーダル医用画像融合フレームワークを提案する。

Deep learning has shown promising contributions in medical image segmentation with powerful learning and feature representation abilities. However, it has limitations for reasoning with and combining imperfect (imprecise, uncertain, and partial) information. In this thesis, we study medical image segmentation approaches with belief function theory and deep learning, specifically focusing on information modeling and fusion based on uncertain evidence. First, we review existing belief function theory-based medical image segmentation methods and discuss their advantages and challenges. Second, we present a semi-supervised medical image segmentation framework to decrease the uncertainty caused by the lack of annotations with evidential segmentation and evidence fusion. Third, we compare two evidential classifiers, evidential neural network and radial basis function network, and show the effectiveness of belief function theory in uncertainty quantification; we use the two evidential classifiers with deep neural networks to construct deep evidential models for lymphoma segmentation. Fourth, we present a multimodal medical image fusion framework taking into account the reliability of each MR image source when performing different segmentation tasks using mass functions and contextual discounting.
翻訳日:2023-09-13 14:39:31 公開日:2023-09-12
# モデル内協調学習による品質非依存なディープフェイク検出

Quality-Agnostic Deepfake Detection with Intra-model Collaborative Learning ( http://arxiv.org/abs/2309.05911v1 )

ライセンス: Link先を確認
Binh M. Le and Simon S. Woo(参考訳) Deepfakeは最近、セキュリティ上の脅威と偽情報の拡散に関して、多くの社会的懸念を提起した。 ディープフェイク検出に関する多くの研究が行われている。 しかし、低品質の検出とディープフェイクの異なる品質の同時検出は依然として大きな課題である。 多くのSOTAアプローチは、特定のディープフェイクビデオ品質タイプを検出するために単一の特定モデルを使用することによって制限される。 ビデオ品質に関する事前情報を持つ複数のモデルを構築する場合、この種の戦略は、モデルとトレーニングデータのオーバーヘッドだけでなく、かなりの計算コストを伴います。 さらに、現実世界の環境でのデプロイは、スケーラブルで実用的なものではない。 本研究では,異なる品質のディープフェイクを効果的かつ同時検出できる汎用的なモデル内協調学習フレームワークを提案する。 すなわち,本手法はQADと呼ばれる品質に依存しないディープフェイク検出法である。 特に、一般的な誤差期待値の上限を観測することにより、Hilbert-Schmidt Independence Criterionを介して異なる品質レベルの画像の中間表現間の依存性を最大化する。 さらに、Adversarial Weight Perturbationモジュールを慎重に設計し、モデル全体のパフォーマンスを高めながら、画像の破損に対してより堅牢なモデルを可能にする。 人気のある7つのdeepfakeデータセットに関する広範な実験は、以前のsomaベンチマークよりもqadモデルの優れていることを示している。

Deepfake has recently raised a plethora of societal concerns over its possible security threats and dissemination of fake information. Much research on deepfake detection has been undertaken. However, detecting low quality as well as simultaneously detecting different qualities of deepfakes still remains a grave challenge. Most SOTA approaches are limited by using a single specific model for detecting certain deepfake video quality type. When constructing multiple models with prior information about video quality, this kind of strategy incurs significant computational cost, as well as model and training data overhead. Further, it cannot be scalable and practical to deploy in real-world settings. In this work, we propose a universal intra-model collaborative learning framework to enable the effective and simultaneous detection of different quality of deepfakes. That is, our approach is the quality-agnostic deepfake detection method, dubbed QAD . In particular, by observing the upper bound of general error expectation, we maximize the dependency between intermediate representations of images from different quality levels via Hilbert-Schmidt Independence Criterion. In addition, an Adversarial Weight Perturbation module is carefully devised to enable the model to be more robust against image corruption while boosting the overall model's performance. Extensive experiments over seven popular deepfake datasets demonstrate the superiority of our QAD model over prior SOTA benchmarks.
翻訳日:2023-09-13 14:39:11 公開日:2023-09-12
# radiography-reports foundation modelにおける表現の強化 : masked contrastive learningを用いた粒状アライメントアルゴリズム

Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning ( http://arxiv.org/abs/2309.05904v1 )

ライセンス: Link先を確認
Weijian Huang and Hongyu Zhou and Cheng Li and Hao Yang and Jiarun Liu and Shanshan Wang(参考訳) 近年,医療分野では多モード視覚言語基盤モデルが注目されている。 これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、多くの課題に直面している。 本研究では,マルチモーダルな医療基盤モデルであるMaCoについて述べる。マスク付きコントラスト学習を用いて,様々な医用画像処理タスクに対して,微粒化とゼロショット学習を実現する。 MaCoには相関重み付け機構が組み込まれており、マスク画像パッチとその対応レポートの相関を調整し、表現学習能力を向上させる。 我々は,オープンソースのx線データセット6種についてmacoを評価し,その結果,分類,セグメンテーション,ゼロショット位相法における7つの最先端手法を上回っており,医療画像解析タスクを広範に促進する大きな可能性を示している。

Recently, multi-modal vision-language foundation models have gained significant attention in the medical field. While these models offer great opportunities, they still face a number of challenges, such as the requirement for fine-grained knowledge understanding in computer-aided diagnosis and capability of utilizing very limited or no task-specific labeled data in real-world clinical applications. In this study, we present MaCo, a novel multi-modal medical foundation model that explores masked contrastive learning to achieve granular alignment and zero-shot learning for a variety of medical imaging tasks. MaCo incorporates a correlation weighting mechanism to adjust the correlation between masked image patches and their corresponding reports, thereby enhancing the representation learning capabilities. We evaluate MaCo on six well-known open-source X-ray datasets, and the experimental results show it outperforms seven state-of-the-art approaches for classification, segmentation, and zero-shot phase grounding, demonstrating its great potential to promote a wide range of medical image analysis tasks.
翻訳日:2023-09-13 14:38:50 公開日:2023-09-12
# 視覚言語モデルのためのブラックボックスオプティマイザとしての言語モデル

Language Models as Black-Box Optimizers for Vision-Language Models ( http://arxiv.org/abs/2309.05950v1 )

ライセンス: Link先を確認
Samuel Yu and Shihong Liu and Zhiqiu Lin and Deepak Pathak and Deva Ramanan(参考訳) Webスケールデータセットで事前訓練された視覚言語モデル(VLM)は、様々な視覚とマルチモーダルタスクにまたがる顕著な能力を示している。 現在、VLMの微調整法は主にホワイトボックスで動作しており、バックプロパゲーションのためにモデルパラメータにアクセスする必要がある。 しかしながら、多くのVLMはプロプライエタリなデータに依存しており、オープンソースではない。 chatgptのような一般的なプライベートな大規模言語モデル(llms)が依然として言語ベースのユーザインターフェースを提供していることを考えると、自然言語プロンプトによるvlmの新たな微調整アプローチの開発を目標としています。 そこで本稿では,CLIP を用いた少数の画像分類において,最高のテキストプロンプトを検索するために,チャットベースの LLM をブラックボックスオプティマイザとして採用することを提案する。 具体的には、現在のプロンプトの正確さを評価し、LLMにテキストフィードバックに基づいてそれらを洗練するよう求めることで、効果的なプロンプトに収束する自動「ヒルクライミング」手順を、すべて人間を介さずに会話プロセス内に導入する。 難易度の高い1ショット学習セットアップでは、imagenetを含む11のデータセットで、ホワイトボックス連続プロンプトメソッドcoopを平均1.5%上回っています。 当社のアプローチは,OpenAIの手作業によるプロンプトよりも優れており,反復APEのような他のブラックボックスメソッドよりも効率的です。 さらに,肯定的および否定的両方のプロンプトを取り入れた会話フィードバックの利点を強調し,LLMがテキストフィードバックの「緩やかな」方向をより効率的な検索に活用できることを示唆した。 最後に、我々の戦略によって生成されたテキストプロンプトは、解釈可能であるだけでなく、ブラックボックス方式で異なるCLIPアーキテクチャ間でうまく転送されている。

Vision-language models (VLMs) pre-trained on web-scale datasets have demonstrated remarkable capabilities across a variety of vision and multimodal tasks. Currently, fine-tuning methods for VLMs mainly operate in a white-box setting, requiring access to model parameters for backpropagation. However, many VLMs rely on proprietary data and are not open-source, which restricts the use of white-box approaches for fine-tuning. Given that popular private large language models (LLMs) like ChatGPT still offer a language-based user interface, we aim to develop a novel fine-tuning approach for VLMs through natural language prompts, thereby avoiding the need to access model parameters, feature embeddings, or output logits. In this setup, we propose employing chat-based LLMs as black-box optimizers to search for the best text prompt on the illustrative task of few-shot image classification using CLIP. Specifically, we adopt an automatic "hill-climbing" procedure that converges on an effective prompt by evaluating the accuracy of current prompts and asking LLMs to refine them based on textual feedback, all within a conversational process without human-in-the-loop. In a challenging 1-shot learning setup, our simple approach surpasses the white-box continuous prompting method CoOp by an average of 1.5% across 11 datasets including ImageNet. Our approach also outperforms OpenAI's manually crafted prompts and is more efficient than other black-box methods like iterative APE. Additionally, we highlight the advantage of conversational feedback incorporating both positive and negative prompts, suggesting that LLMs can utilize the implicit "gradient" direction in textual feedback for a more efficient search. Lastly, we find that the text prompts generated through our strategy are not only more interpretable but also transfer well across different CLIP architectures in a black-box manner.
翻訳日:2023-09-13 14:34:32 公開日:2023-09-12
# 腫瘍血管新生最適化 : 新しいバイオインスパイアされたメタヒューリスティック

Tumoral Angiogenic Optimizer: A new bio-inspired based metaheuristic ( http://arxiv.org/abs/2309.05947v1 )

ライセンス: Link先を確認
Hern\'andez Rodr\'iguez, Mat\'ias Ezequiel(参考訳) 本稿では,腫瘍血管新生過程中に発生する血管内皮細胞(ecs)の形態形成細胞運動に着想を得た新しいメタヒューリスティックを提案する。 このアルゴリズムはランダムな初期集団から始まる。 各反復において、最も優れた候補が腫瘍として選択され、人口の他の個体は、先端と追従心電図の間の空間的関係を通して、調整されたダイナミクスに従って腫瘍の方向に移動するECとして扱われる。 血管新生形態形成におけるEC運動の数学的モデルについて,本論文で詳述する。 このアルゴリズムは、他の類似の最適化メタヒューリスティックと比較して利点がある: モデルパラメータは、既に腫瘍血管形成現象モデリングに従って設定されており、研究者が任意の値で初期化することを妨げている。 その後、このアルゴリズムをよく知られたベンチマーク関数と比較し、PSO(Particle Swarm Optimization)との比較研究により結果を検証する。 その結果,アルゴリズムは競争力の高い結果が得られることが示された。 また,提案アルゴリズムを実世界の問題に適用する。 その結果,提案アルゴリズムは制約付き最適化問題の解法に有効であることが判明した。

In this article, we propose a new metaheuristic inspired by the morphogenetic cellular movements of endothelial cells (ECs) that occur during the tumor angiogenesis process. This algorithm starts with a random initial population. In each iteration, the best candidate selected as the tumor, while the other individuals in the population are treated as ECs migrating toward the tumor's direction following a coordinated dynamics through a spatial relationship between tip and follower ECs. EC movements mathematical model in angiogenic morphogenesis are detailed in the article. This algorithm has an advantage compared to other similar optimization metaheuristics: the model parameters are already configured according to the tumor angiogenesis phenomenon modeling, preventing researchers from initializing them with arbitrary values. Subsequently, the algorithm is compared against well-known benchmark functions, and the results are validated through a comparative study with Particle Swarm Optimization (PSO). The results demonstrate that the algorithm is capable of providing highly competitive outcomes. Also the proposed algorithm is applied to a real-world problem. The results showed that the proposed algorithm performed effective in solving constrained optimization problems, surpassing other known algorithms.
翻訳日:2023-09-13 14:34:00 公開日:2023-09-12
# 人間中心のビデオにおける知識誘導型短文脈行動予測

Knowledge-Guided Short-Context Action Anticipation in Human-Centric Videos ( http://arxiv.org/abs/2309.05943v1 )

ライセンス: Link先を確認
Sarthak Bhagat, Simon Stepputtis, Joseph Campbell, Katia Sycara(参考訳) この研究は、長期の人間の行動、特に短いビデオセグメントの使用を予測し、より優れた提案を通じて編集ワークフローをスピードアップし、物語を提示することで創造性を育むことに焦点を当てている。 そこで本研究では,映像セグメントにおける動作予測のための記号的知識グラフを備えたトランスフォーマネットワークを,トランスフォーマの注意機構の特定の側面を実行時に高めることにより実現する。 Breakfastと50Saladsの2つのベンチマークデータセットを実証し、短いビデオコンテキストを使用した長期的なアクション予測のための最先端の手法を最大9%向上させた。

This work focuses on anticipating long-term human actions, particularly using short video segments, which can speed up editing workflows through improved suggestions while fostering creativity by suggesting narratives. To this end, we imbue a transformer network with a symbolic knowledge graph for action anticipation in video segments by boosting certain aspects of the transformer's attention mechanism at run-time. Demonstrated on two benchmark datasets, Breakfast and 50Salads, our approach outperforms current state-of-the-art methods for long-term action anticipation using short video context by up to 9%.
翻訳日:2023-09-13 14:33:41 公開日:2023-09-12
# マルチソース多視点知識の要約による製品に対する主観的誘導質問への回答

Answering Subjective Induction Questions on Products by Summarizing Multi-sources Multi-viewpoints Knowledge ( http://arxiv.org/abs/2309.05938v1 )

ライセンス: Link先を確認
Yufeng Zhang (1 and 2), Meng-xiang Wang (3), and Jianxing Yu (1, 2 and 4) ((1) School of Artificial Intelligence, Sun Yat-sen University, Zhuhai 519082 (2) Guangdong Key Laboratory of Big Data Analysis and Processing, 510006, China (3) China National Institute of Standardization, 100088, China (4) Pazhou Lab, Guangzhou, 510330, China)(参考訳) 本稿では,製品に対する主観的帰納的質問(subjpqa)に回答する新しい課題を提案する。 この種の質問に対する答えは非統一的だが、多くの観点から解釈できる。 例えば、「電話が重いかどうか」に対する答えには、様々な視点がある。 満足した回答は、これらの主観的な意見を複数の情報源から要約し、電話の重みなど客観的な知識を提供することができるべきである。 これは、ファクトイドの質問に対する回答がユニークで、単一のデータソースから見つけることができる従来のQAタスクとはかなり異なる。 この課題に対処するために,3段階の手法を提案する。 まず、事実や意見に関する複数の知識ソースから、回答に関連するすべての手がかりを抽出する。 暗黙のコモンセンス事実も、必要だが欠落した文脈を補うために収集される。 そして、対話的な注意による質問との関係を捉えます。 次に,これらの知識を集約する強化型要約器を設計する。 テンプレート制御デコーダに基づいて,包括的かつマルチパースペクティブな回答を出力できる。 新しいタスクに関連性のある評価ベンチマークセットがないため、15のプロダクトドメインにわたる48,352のサンプルからなる大規模データセットであるSupQAを構築した。 評価結果は,我々のアプローチの有効性を示している。

This paper proposes a new task in the field of Answering Subjective Induction Question on Products (SUBJPQA). The answer to this kind of question is non-unique, but can be interpreted from many perspectives. For example, the answer to 'whether the phone is heavy' has a variety of different viewpoints. A satisfied answer should be able to summarize these subjective opinions from multiple sources and provide objective knowledge, such as the weight of a phone. That is quite different from the traditional QA task, in which the answer to a factoid question is unique and can be found from a single data source. To address this new task, we propose a three-steps method. We first retrieve all answer-related clues from multiple knowledge sources on facts and opinions. The implicit commonsense facts are also collected to supplement the necessary but missing contexts. We then capture their relevance with the questions by interactive attention. Next, we design a reinforcement-based summarizer to aggregate all these knowledgeable clues. Based on a template-controlled decoder, we can output a comprehensive and multi-perspective answer. Due to the lack of a relevant evaluated benchmark set for the new task, we construct a large-scale dataset, named SupQA, consisting of 48,352 samples across 15 product domains. Evaluation results show the effectiveness of our approach.
翻訳日:2023-09-13 14:33:31 公開日:2023-09-12
# PLMはオントロジーの知識を知って理解しているか?

Do PLMs Know and Understand Ontological Knowledge? ( http://arxiv.org/abs/2309.05936v1 )

ライセンス: Link先を確認
Weiqi Wu, Chengyue Jiang, Yong Jiang, Pengjun Xie, Kewei Tu(参考訳) クラスと特性とその関係を含むオントロジー知識は、世界知識に不可欠なものである。 このような知識をPLM(Pretrained Language Models)が理解し理解しているかどうかを検討することは重要である。 しかし、既存の PLM 探索研究は主に事実知識に焦点を合わせており、オントロジ的知識の体系的な探索が欠如している。 本稿では, PLM が存在論的知識を格納し, 表面形状のロート記憶よりも知識を意味的に理解するかどうかを考察する。 plmが存在論的知識を知っているかどうかを調べるため、plmがいかによく記憶されているかを調査する。(1) エンティティの種類、(2) クラスとプロパティの階層的関係、例えば、動物とスポーツチームのメンバー間の階層的関係、(3) プロパティのドメインと範囲の制約、例えば、スポーツチームのメンバーの主題は人であり、対象はスポーツチームであるべきである。 さらに, PLM が暗記以上の存在論的知識を真に理解しているかどうかを調査するため, 与えられた知識に基づいて論理的推論を確実に行うことができるかどうかを, 包括的に検討した。 調査の結果,plmは存在論的知識を記憶し,推論に暗黙的知識を活用できることがわかった。 しかし、記憶力と推論能力はいずれも完璧に満たず、不完全な知識と理解を示している。

Ontological knowledge, which comprises classes and properties and their relationships, is integral to world knowledge. It is significant to explore whether Pretrained Language Models (PLMs) know and understand such knowledge. However, existing PLM-probing studies focus mainly on factual knowledge, lacking a systematic probing of ontological knowledge. In this paper, we focus on probing whether PLMs store ontological knowledge and have a semantic understanding of the knowledge rather than rote memorization of the surface form. To probe whether PLMs know ontological knowledge, we investigate how well PLMs memorize: (1) types of entities; (2) hierarchical relationships among classes and properties, e.g., Person is a subclass of Animal and Member of Sports Team is a subproperty of Member of ; (3) domain and range constraints of properties, e.g., the subject of Member of Sports Team should be a Person and the object should be a Sports Team. To further probe whether PLMs truly understand ontological knowledge beyond memorization, we comprehensively study whether they can reliably perform logical reasoning with given knowledge according to ontological entailment rules. Our probing results show that PLMs can memorize certain ontological knowledge and utilize implicit knowledge in reasoning. However, both the memorizing and reasoning performances are less than perfect, indicating incomplete knowledge and understanding.
翻訳日:2023-09-13 14:33:13 公開日:2023-09-12
# MatSciML: 固体材料モデリングのための多タスクベンチマーク

MatSciML: A Broad, Multi-Task Benchmark for Solid-State Materials Modeling ( http://arxiv.org/abs/2309.05934v1 )

ライセンス: Link先を確認
Kin Long Kelvin Lee, Carmelo Gonzales, Marcel Nassar, Matthew Spellings, Mikhail Galkin, Santiago Miret(参考訳) 本稿では,周期的結晶構造を有する固体材料に着目した機械学習(matsci ml)を用いた材料科学のモデリングベンチマークであるmatsci mlを提案する。 固相材料に機械学習手法を適用することは、機械学習モデルを開発するために使用される多種多様なデータセットによって大きく断片化され、生まれたばかりの分野である。 この断片化により、異なる手法の性能と一般化性の比較が困難になり、この分野における全体的な研究の進展を妨げる。 opencatalyst, oqmd, nomad, carolina materials database, and materials projectのような大規模なデータセットを含むオープンソースのデータセットの上に構築されたmatsci mlベンチマークは、シミュレーションエネルギー、原子力、物質バンドギャップ、および宇宙グループによる結晶対称性の分類データを含む、モデルトレーニングと評価のための多様な材料システムと特性データを提供する。 MatSci MLのプロパティの多様性は、固体材料に対するマルチタスク学習アルゴリズムの実装と評価を可能にし、データセットの多様性は、複数のデータセットにまたがる新しいより一般化されたアルゴリズムとメソッドの開発を促進する。 マルチデータセットの学習環境では、MatchSci MLは研究者が複数のデータセットからの観測を組み合わせることで、エネルギーや力などの共通特性を共同で予測することを可能にする。 matsci mlを用いて,単一タスク,マルチタスク,マルチデータ学習シナリオにまたがるベンチマークタスクにおいて,異なるグラフニューラルネットワークと等変点クラウドネットワークの性能を評価する。 当社のオープンソースコードはhttps://github.com/intellabs/matscimlで利用可能です。

We propose MatSci ML, a novel benchmark for modeling MATerials SCIence using Machine Learning (MatSci ML) methods focused on solid-state materials with periodic crystal structures. Applying machine learning methods to solid-state materials is a nascent field with substantial fragmentation largely driven by the great variety of datasets used to develop machine learning models. This fragmentation makes comparing the performance and generalizability of different methods difficult, thereby hindering overall research progress in the field. Building on top of open-source datasets, including large-scale datasets like the OpenCatalyst, OQMD, NOMAD, the Carolina Materials Database, and Materials Project, the MatSci ML benchmark provides a diverse set of materials systems and properties data for model training and evaluation, including simulated energies, atomic forces, material bandgaps, as well as classification data for crystal symmetries via space groups. The diversity of properties in MatSci ML makes the implementation and evaluation of multi-task learning algorithms for solid-state materials possible, while the diversity of datasets facilitates the development of new, more generalized algorithms and methods across multiple datasets. In the multi-dataset learning setting, MatSci ML enables researchers to combine observations from multiple datasets to perform joint prediction of common properties, such as energy and forces. Using MatSci ML, we evaluate the performance of different graph neural networks and equivariant point cloud networks on several benchmark tasks spanning single task, multitask, and multi-data learning scenarios. Our open-source code is available at https://github.com/IntelLabs/matsciml.
翻訳日:2023-09-13 14:32:41 公開日:2023-09-12
# 深層学習とストリートビューの併用による小作種の地図化

Combining deep learning and street view imagery to map smallholder crop types ( http://arxiv.org/abs/2309.05930v1 )

ライセンス: Link先を確認
Jordi Laguarta, Thomas Friedel, Sherrie Wang(参考訳) 正確な作物型地図は、大規模生産における収量進捗の監視、地球規模の作物生産の予測、効果的な政策の立案に欠かせない情報源である。 しかしこれまでは、機械学習モデルのトレーニングのための根拠のラベルがないため、低所得国や中所得国では、作物タイプの地図の作成が難しいままだった。 フィールドサーベイは正確性の点では金の標準であるが、時間、お金、統計能力が頻繁に必要である。 近年、Googleストリートビュー、KartaView、Mapillaryなどのストリートレベルの画像が世界中で利用可能になっている。 このような画像には、特定の場所や時代に栽培された作物の種類に関する豊富な情報が含まれている。 本研究では,深層学習とGoogleストリートビュー画像を用いた作物型土壌参照の自動生成システムを開発した。 作物畑を含む一組のストリートビュー画像を効率的にキュレートし、異なる領域外からの弱ラベル画像を利用して作物種を予測し、予測ラベルとリモートセンシング時系列を組み合わせることで、壁から壁までの作物種別地図を作成する。 タイでは,米,キャッサバ,トウモロコシ,サトウキビの全国分布図が93%の精度で得られた。 道路沿いの画像が拡大するにつれて、私たちのパイプラインは世界中の作物のタイプを地図化する方法を提供しています。

Accurate crop type maps are an essential source of information for monitoring yield progress at scale, projecting global crop production, and planning effective policies. To date, however, crop type maps remain challenging to create in low and middle-income countries due to a lack of ground truth labels for training machine learning models. Field surveys are the gold standard in terms of accuracy but require an often-prohibitively large amount of time, money, and statistical capacity. In recent years, street-level imagery, such as Google Street View, KartaView, and Mapillary, has become available around the world. Such imagery contains rich information about crop types grown at particular locations and times. In this work, we develop an automated system to generate crop type ground references using deep learning and Google Street View imagery. The method efficiently curates a set of street view images containing crop fields, trains a model to predict crop type by utilizing weakly-labelled images from disparate out-of-domain sources, and combines predicted labels with remote sensing time series to create a wall-to-wall crop type map. We show that, in Thailand, the resulting country-wide map of rice, cassava, maize, and sugarcane achieves an accuracy of 93%. As the availability of roadside imagery expands, our pipeline provides a way to map crop types at scale around the globe, especially in underserved smallholder regions.
翻訳日:2023-09-13 14:32:11 公開日:2023-09-12
# 医用画像分割拡散モデルにおける形状先行モジュールの導入

Introducing Shape Prior Module in Diffusion Model for Medical Image Segmentation ( http://arxiv.org/abs/2309.05929v1 )

ライセンス: Link先を確認
Zhiqing Zhang, Guojia Fan, Tianyong Liu, Nan Li, Yuyang Liu, Ziyu Liu, Canwei Dong, Shoujun Zhou(参考訳) 画像分割は脊髄疾患の診断と治療に重要である。 しかし、高騒音、曖昧さ、不確実性の存在は、この課題を非常に困難にしている。 解剖学的境界、クラス間類似性、不合理アノテーションなどの要因がこの課題に寄与する。 放射線科医を臨床で支援するためには, 正確かつ多様なセグメンテーションテンプレートの獲得が不可欠である。 近年,拡散確率モデル (DDPM) がコンピュータビジョンにおける顕著な研究トピックとして登場している。 画像の劣化、超解像、異常検出、さらにはピクセルレベルでの意味表現生成など、様々な視覚タスクにおいて有効性を示す。 視覚生成タスクにおける既存の拡散モデルの頑健さにもかかわらず、彼らは依然として離散的なマスクとその様々な効果に苦しむ。 高精度で多様な脊椎医用画像セグメンテーションテンプレートの必要性に対処するために,denoising diffusion probabilistic model (ddpm) を利用した versediff-unet と呼ばれるエンドツーエンドフレームワークを提案する。 我々のアプローチは拡散モデルを標準のU字型アーキテクチャに統合する。 各ステップにおいて、ノイズ付加画像とラベル付きマスクを組み合わせることで、拡散方向をターゲット領域へ正確に誘導する。 さらに, 医用画像から特定の解剖学的先駆情報を抽出するために, 形状を先駆モジュールとして組み込んだ。 このモジュールは、入力脊椎画像から構造的意味情報を効率よく抽出する。 本手法は,x線イメージングにより得られた脊椎画像の単一のデータセット上で評価する。 以上の結果から,VerseDiff-UNetは,解剖学の自然的特徴やバリエーションを保ちながら,他の最先端手法よりも精度が高いことがわかった。

Medical image segmentation is critical for diagnosing and treating spinal disorders. However, the presence of high noise, ambiguity, and uncertainty makes this task highly challenging. Factors such as unclear anatomical boundaries, inter-class similarities, and irrational annotations contribute to this challenge. Achieving both accurate and diverse segmentation templates is essential to support radiologists in clinical practice. In recent years, denoising diffusion probabilistic modeling (DDPM) has emerged as a prominent research topic in computer vision. It has demonstrated effectiveness in various vision tasks, including image deblurring, super-resolution, anomaly detection, and even semantic representation generation at the pixel level. Despite the robustness of existing diffusion models in visual generation tasks, they still struggle with discrete masks and their various effects. To address the need for accurate and diverse spine medical image segmentation templates, we propose an end-to-end framework called VerseDiff-UNet, which leverages the denoising diffusion probabilistic model (DDPM). Our approach integrates the diffusion model into a standard U-shaped architecture. At each step, we combine the noise-added image with the labeled mask to guide the diffusion direction accurately towards the target region. Furthermore, to capture specific anatomical a priori information in medical images, we incorporate a shape a priori module. This module efficiently extracts structural semantic information from the input spine images. We evaluate our method on a single dataset of spine images acquired through X-ray imaging. Our results demonstrate that VerseDiff-UNet significantly outperforms other state-of-the-art methods in terms of accuracy while preserving the natural features and variations of anatomy.
翻訳日:2023-09-13 14:31:48 公開日:2023-09-12
# 生体信号におけるマルチモーダルプリトレーニングのための周波数アウェアマスクオートエンコーダ

Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals ( http://arxiv.org/abs/2309.05927v1 )

ライセンス: Link先を確認
Ran Liu, Ellen L. Zippi, Hadi Pouransari, Chris Sandino, Jingping Nie, Hanlin Goh, Erdrin Azemi, Ali Moin(参考訳) 生体信号からのマルチモーダル情報を活用することは、人々の身体状態と精神状態の包括的表現を構築する上で不可欠である。 しかしながら、マルチモーダルバイオシグナールは、タスク仕様の変更やモダリティ構成の変化に起因する、事前学習と推論データセットの間のかなりの分布シフトを示すことが多い。 分布シフトが存在する場合に効果的な事前学習を実現するために,周波数空間における生体信号表現のパラメータ化を学習する周波数対応マスクオートエンコーダ(\textt{bio}$fame)を提案する。 $\texttt{bio}$FAMEは、大域的なトークンの混合に固定サイズのフーリエ演算子を利用する周波数認識変換器を組み込んでいる。 各入力チャネル内の周波数成分を維持するために、潜在空間でマスキングオートエンコーディングを行う周波数維持プリトレーニング戦略も採用する。 得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、入力サイズや順序に関わらず、テスト時に様々なタスクやモダリティにシームレスに適応することができる。 我々は、単調な時系列上での様々な転送実験に対するアプローチを評価し、以前の最先端技術よりも平均$$5.5%の分類精度の向上を実現した。 さらに,我々のアーキテクチャは,予測不能なモーダリティドロップアウトや置換を含むモダリティミスマッチシナリオにおいて堅牢であり,実世界のアプリケーションで実用性が証明できることを示した。 コードはもうすぐ入手できる。

Leveraging multimodal information from biosignals is vital for building a comprehensive representation of people's physical and mental states. However, multimodal biosignals often exhibit substantial distributional shifts between pretraining and inference datasets, stemming from changes in task specification or variations in modality compositions. To achieve effective pretraining in the presence of potential distributional shifts, we propose a frequency-aware masked autoencoder ($\texttt{bio}$FAME) that learns to parameterize the representation of biosignals in the frequency space. $\texttt{bio}$FAME incorporates a frequency-aware transformer, which leverages a fixed-size Fourier-based operator for global token mixing, independent of the length and sampling rate of inputs. To maintain the frequency components within each input channel, we further employ a frequency-maintain pretraining strategy that performs masked autoencoding in the latent space. The resulting architecture effectively utilizes multimodal information during pretraining, and can be seamlessly adapted to diverse tasks and modalities at test time, regardless of input size and order. We evaluated our approach on a diverse set of transfer experiments on unimodal time series, achieving an average of $\uparrow$5.5% improvement in classification accuracy over the previous state-of-the-art. Furthermore, we demonstrated that our architecture is robust in modality mismatch scenarios, including unpredicted modality dropout or substitution, proving its practical utility in real-world applications. Code will be available soon.
翻訳日:2023-09-13 14:31:06 公開日:2023-09-12
# SCOP: ゴールベースウェルスマネジメントのためのシュロディンガー制御最適計画

SCOP: Schrodinger Control Optimal Planning for Goal-Based Wealth Management ( http://arxiv.org/abs/2309.05926v1 )

ライセンス: Link先を確認
Igor Halperin(参考訳) 我々は、退職等の財務目標に向けて働く個人等の財務計画立案者の貢献の最適化の問題を考える。 プランナーの目的は、目標に向けて設定された投資ポートフォリオに定期的な設置の最適かつ実現可能なスケジュールを見つけることである。 ポートフォリオリターンはランダムであるため、問題の実用的なバージョンは、与えられた信頼レベルで目標が満たされる最適な貢献スキームを見つけるのに等しい。 本稿では,この問題の連続時間バージョンに対する半解析的アプローチとして,貢献政策が与えられた端末富のテール確率を記述した制御後向きコルモゴロフ方程式(bke)を提案する。 制御されたBKEは、制御されたシュロディンガー方程式に還元し、代数的手法で後者を解くことで半解析的に解かれる。 数値計算では, 制御パラメータの全ての値に対して, 同時に半解析解を求めるとともに, 標準2次元スプライン補間法を用いて, 元の計画最適化問題の全ての満足解を同時に表現する。 制御変数の空間の点である代わりに、満足できる解はこの空間における連続的な輪郭線(効率的なフロンティア)を形成する。

We consider the problem of optimization of contributions of a financial planner such as a working individual towards a financial goal such as retirement. The objective of the planner is to find an optimal and feasible schedule of periodic installments to an investment portfolio set up towards the goal. Because portfolio returns are random, the practical version of the problem amounts to finding an optimal contribution scheme such that the goal is satisfied at a given confidence level. This paper suggests a semi-analytical approach to a continuous-time version of this problem based on a controlled backward Kolmogorov equation (BKE) which describes the tail probability of the terminal wealth given a contribution policy. The controlled BKE is solved semi-analytically by reducing it to a controlled Schrodinger equation and solving the latter using an algebraic method. Numerically, our approach amounts to finding semi-analytical solutions simultaneously for all values of control parameters on a small grid, and then using the standard two-dimensional spline interpolation to simultaneously represent all satisficing solutions of the original plan optimization problem. Rather than being a point in the space of control variables, satisficing solutions form continuous contour lines (efficient frontiers) in this space.
翻訳日:2023-09-13 14:30:00 公開日:2023-09-12
# 曖昧なニュース記事表現の学習 : 知識を融合したアプローチ

Learning Unbiased News Article Representations: A Knowledge-Infused Approach ( http://arxiv.org/abs/2309.05981v1 )

ライセンス: Link先を確認
Sadia Kamal, Jimmy Hartford, Jeremy Willis, Arunkumar Bagavathi(参考訳) オンラインニュース記事の政治的傾倒の定量化は、社会集団における政治イデオロギーのダイナミクスを理解するのに役立つ。 しかし、機械学習モデルによるニュース記事の正確な政治的傾きを予測することは難しい課題である。 これは 一 ニュース記事の政治イデオロギーは、いくつかの要因により定義される。 (ii)既存の学習モデルの生来の性質は、モデルトレーニング中にニュース発行者の政治的偏見に偏る。 新たなニュース発行者が発行するニュース記事の政治的傾倒を予測するために、機械学習モデルの一般化を低下させるアルゴリズム的政治的バイアスを考慮しない、ニュース記事の政治的傾倒を研究する方法は限られている。 本研究では,比較的信頼性の高い外部データ資源を用いて,ニュース記事の偏りのない表現をグローバル・ローカルの文脈を用いて学習する,知識を融合した深層学習モデルを提案する。 テストセット内のニュースドメインやニュースパブリッシャが、トレーニング期間中に完全に見えなくなるような方法で、データを設定することにより、提案モデルを評価する。 この設定により,提案手法はアルゴリズム的政治的バイアスを軽減し,73%の精度でニュース記事の政治的傾倒を予測できるベースライン手法を上回った。

Quantification of the political leaning of online news articles can aid in understanding the dynamics of political ideology in social groups and measures to mitigating them. However, predicting the accurate political leaning of a news article with machine learning models is a challenging task. This is due to (i) the political ideology of a news article is defined by several factors, and (ii) the innate nature of existing learning models to be biased with the political bias of the news publisher during the model training. There is only a limited number of methods to study the political leaning of news articles which also do not consider the algorithmic political bias which lowers the generalization of machine learning models to predict the political leaning of news articles published by any new news publishers. In this work, we propose a knowledge-infused deep learning model that utilizes relatively reliable external data resources to learn unbiased representations of news articles using their global and local contexts. We evaluate the proposed model by setting the data in such a way that news domains or news publishers in the test set are completely unseen during the training phase. With this setup we show that the proposed model mitigates algorithmic political bias and outperforms baseline methods to predict the political leaning of news articles with up to 73% accuracy.
翻訳日:2023-09-13 14:21:26 公開日:2023-09-12
# CleanUNet 2: 波形とスペクトログラムに基づくハイブリッド音声認識モデル

CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram ( http://arxiv.org/abs/2309.05975v1 )

ライセンス: Link先を確認
Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro(参考訳) 本研究では,波形デノイザーとスペクトログラムデノイザーの長所を組み合わせた音声デノイジングモデルであるcleanunet 2を提案する。 cleanunet 2は波形モデルとスペクトログラムモデルからなる一般的な音声合成法に触発された2段階のフレームワークを使用している。 具体的には、cleanunet 2は最先端の波形デノイザーであるcleanunetの上に構築され、スペクトログラムデノイザーから予測されたスペクトログラムを入力としてその性能をさらに向上させる。 cleanunet 2は, 様々な客観的評価, 主観評価において, 従来の手法を上回っている。

In this work, we present CleanUNet 2, a speech denoising model that combines the advantages of waveform denoiser and spectrogram denoiser and achieves the best of both worlds. CleanUNet 2 uses a two-stage framework inspired by popular speech synthesis methods that consist of a waveform model and a spectrogram model. Specifically, CleanUNet 2 builds upon CleanUNet, the state-of-the-art waveform denoiser, and further boosts its performance by taking predicted spectrograms from a spectrogram denoiser as the input. We demonstrate that CleanUNet 2 outperforms previous methods in terms of various objective and subjective evaluations.
翻訳日:2023-09-13 14:21:03 公開日:2023-09-12
# サーキットブレーキング:ターゲットアブレーションによるモデル挙動の除去

Circuit Breaking: Removing Model Behaviors with Targeted Ablation ( http://arxiv.org/abs/2309.05973v1 )

ライセンス: Link先を確認
Maximilian Li, Xander Davies, Max Nadeau(参考訳) 言語モデルは、訓練済みの目的においてパフォーマンスを改善する行動を示すが、下流のタスクではパフォーマンスを損なう。 モデルコンポーネント間の少数の因果経路をアブレーションし,悪行の原因となる計算回路を無効にすることを意図して,好ましくない振る舞いを除去する新しい手法を提案する。 モデルの動作が不十分な入力の小さなデータセットを考えると、少数の重要な因果経路をアブレーションすることを学ぶ。 GPT-2の有害な言語生成を減少させる設定では、11.6Kの因果縁のうち12個だけが、他の入力の性能低下を最小限に抑えられる。

Language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We propose a novel approach to removing undesirable behaviors by ablating a small number of causal pathways between model components, with the intention of disabling the computational circuit responsible for the bad behavior. Given a small dataset of inputs where the model behaves poorly, we learn to ablate a small number of important causal pathways. In the setting of reducing GPT-2 toxic language generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic generation with minimal degradation of performance on other inputs.
翻訳日:2023-09-13 14:20:50 公開日:2023-09-12
# フレームワイド離散特徴を用いた人体運動構造の自己教師的抽出

Self-supervised Extraction of Human Motion Structures via Frame-wise Discrete Features ( http://arxiv.org/abs/2309.05972v1 )

ライセンス: Link先を確認
Tetsuya Abe, Ryusuke Sagawa, Ko Ayusawa, Wataru Takano(参考訳) 本稿では,フレーム単位の離散特徴によって表現される人間の動きの構造を自己監督的に抽出するエンコーダ・デコーダモデルを提案する。 提案手法では,人間の知識を使わずに動作コードブックのコードとして特徴を抽出し,これらのコード間の関係をグラフ上で可視化する。 取得したフレームレートと時間的に疎外されることが期待され、複数のシーケンスで共有できるため、提案するネットワークモデルは、トレーニング制約の必要性にも対処する。 具体的には、自己アテンション層とベクトルクラスタリングブロックで構成される。 注意層は、疎いキーフレームと離散的な特徴をモーションコードとして見つけ、ベクトルクラスタリングによって抽出する。 制約はトレーニング損失として実現され、同一の動作符号を可能な限り連続し、複数のシーケンスで共有できる。 また,多数のフレームからなる長い列に対する注意度を計算する手法として,因果的自己着想の利用を提案する。 実験では,動き符号のスパース構造を用いて,符号間の関係とシーケンス間の差異の可視化を容易にするグラフをコンパイルした。 次に,複数の認識タスクに適用することにより,抽出した動作符号の有効性を評価し,線形探索によりタスク最適化手法に匹敵する性能レベルが達成できることを見出した。

The present paper proposes an encoder-decoder model for extracting the structures of human motions represented by frame-wise discrete features in a self-supervised manner. In the proposed method, features are extracted as codes in a motion codebook without the use of human knowledge, and the relationship between these codes can be visualized on a graph. Since the codes are expected to be temporally sparse compared to the captured frame rate and can be shared by multiple sequences, the proposed network model also addresses the need for training constraints. Specifically, the model consists of self-attention layers and a vector clustering block. The attention layers contribute to finding sparse keyframes and discrete features as motion codes, which are then extracted by vector clustering. The constraints are realized as training losses so that the same motion codes can be as contiguous as possible and can be shared by multiple sequences. In addition, we propose the use of causal self-attention as a method by which to calculate attention for long sequences consisting of numerous frames. In our experiments, the sparse structures of motion codes were used to compile a graph that facilitates visualization of the relationship between the codes and the differences between sequences. We then evaluated the effectiveness of the extracted motion codes by applying them to multiple recognition tasks and found that performance levels comparable to task-optimized methods could be achieved by linear probing.
翻訳日:2023-09-13 14:20:36 公開日:2023-09-12
# ニューラルネットワーク層行列分解による潜時マニフォールド符号化とメモリ容量の解明

Neural Network Layer Matrix Decomposition reveals Latent Manifold Encoding and Memory Capacity ( http://arxiv.org/abs/2309.05968v1 )

ライセンス: Link先を確認
Ng Shyh-Chang, A-Li Luo, Bo Qiu(参考訳) 普遍近似定理、すなわち、連続活性化関数のすべての安定収束したnnに対して、その重み行列は実際に、そのトレーニングデータセットを有限個の領域上の誤差のマージン内に近似する連続関数を符号化することを示すニューラルネットワーク(nn)符号化定理の逆を証明する。 さらに,各NN層に対する重み行列の特異値分解に対するエッカート・ヤングの定理を用いて,各NN層で符号化・表現されたトレーニングデータセットの潜在空間多様体の性質と,各NN層で実行される数学的演算の幾何学的性質を照らし出すことができることを示した。 本研究の結果は, NNがメモリ容量を表現力に活用することで, 次元の呪いをいかに破るかを理解すること, 両者が相補的であることを示唆している。 この階層行列分解(lmd)はさらに、nn層の固有分解とホップフィールドネットワークとトランスフォーマーnnモデルの概念化の最新の進歩との関係を示唆している。

We prove the converse of the universal approximation theorem, i.e. a neural network (NN) encoding theorem which shows that for every stably converged NN of continuous activation functions, its weight matrix actually encodes a continuous function that approximates its training dataset to within a finite margin of error over a bounded domain. We further show that using the Eckart-Young theorem for truncated singular value decomposition of the weight matrix for every NN layer, we can illuminate the nature of the latent space manifold of the training dataset encoded and represented by every NN layer, and the geometric nature of the mathematical operations performed by each NN layer. Our results have implications for understanding how NNs break the curse of dimensionality by harnessing memory capacity for expressivity, and that the two are complementary. This Layer Matrix Decomposition (LMD) further suggests a close relationship between eigen-decomposition of NN layers and the latest advances in conceptualizations of Hopfield networks and Transformer NN models.
翻訳日:2023-09-13 14:20:15 公開日:2023-09-12
# ebbとフローの評価:多様なプラットフォームにわたる質問応答トレンドの詳細な分析

Evaluating the Ebb and Flow: An In-depth Analysis of Question-Answering Trends across Diverse Platforms ( http://arxiv.org/abs/2309.05961v1 )

ライセンス: Link先を確認
Rima Hazra, Agnik Saha, Somnath Banerjee and Animesh Mukherjee(参考訳) コミュニティ質問回答(Community Question Answering, CQA)プラットフォームは,クエリに対する迅速な応答をユーザに提供することで,着実に人気を集めている。 これらの応答の迅速性は、クエリ固有要素とユーザ関連要素の混合に起因している。 本稿では,これらの要因を,人気の高い6つのCQAプラットフォームのコンテキスト内で調査する。 本研究は,質問に対する最初の回答を得るのに要する時間と,複数の変数(メタデータ,質問の定式化,ユーザ間のインタラクションのレベル)との相関関係を明らかにする。 さらに、従来の機械学習モデルを用いてこれらのメタデータとユーザインタラクションのパターンを分析し、どのクエリがすぐに最初のレスポンスを受け取るかを予測する。

Community Question Answering (CQA) platforms steadily gain popularity as they provide users with fast responses to their queries. The swiftness of these responses is contingent on a mixture of query-specific and user-related elements. This paper scrutinizes these contributing factors within the context of six highly popular CQA platforms, identified through their standout answering speed. Our investigation reveals a correlation between the time taken to yield the first response to a question and several variables: the metadata, the formulation of the questions, and the level of interaction among users. Additionally, by employing conventional machine learning models to analyze these metadata and patterns of user interaction, we endeavor to predict which queries will receive their initial responses promptly.
翻訳日:2023-09-13 14:19:55 公開日:2023-09-12
# 大規模言語モデルにおけるモラルマシン実験

The Moral Machine Experiment on Large Language Models ( http://arxiv.org/abs/2309.05958v1 )

ライセンス: Link先を確認
Kazuhiro Takemoto(参考訳) 大規模言語モデル(llm)が様々な分野に深く統合されるにつれて、モラル判断の方法を理解することが、特に自動運転の領域において重要になっている。 本研究は,GPT-3.5,GPT-4,PaLM 2,Llama 2などの著名なLCMの倫理的意思決定傾向を,人間の嗜好に対する反応と比較するために,Moral Machineフレームワークを利用した。 ペットよりも人間を優先し、より多くの命を救うことを好むというLLMや人間の嗜好は広く一致しているが、特にPaLM 2とLlama 2は相違を示す。 加えて、LLMと人間の嗜好の質的な類似性にも拘わらず、有意な量的な相違があり、LLMは人間の軽度の傾きに比べて、より非妥協的な決定に傾く可能性があることを示唆している。 これらの知見は、LLMの倫理的枠組みと、その自律運転への潜在的影響を解明する。

As large language models (LLMs) become more deeply integrated into various sectors, understanding how they make moral judgments has become crucial, particularly in the realm of autonomous driving. This study utilized the Moral Machine framework to investigate the ethical decision-making tendencies of prominent LLMs, including GPT-3.5, GPT-4, PaLM 2, and Llama 2, comparing their responses to human preferences. While LLMs' and humans' preferences such as prioritizing humans over pets and favoring saving more lives are broadly aligned, PaLM 2 and Llama 2, especially, evidence distinct deviations. Additionally, despite the qualitative similarities between the LLM and human preferences, there are significant quantitative disparities, suggesting that LLMs might lean toward more uncompromising decisions, compared to the milder inclinations of humans. These insights elucidate the ethical frameworks of LLMs and their potential implications for autonomous driving.
翻訳日:2023-09-13 14:19:42 公開日:2023-09-12
# beyond generation: テキストを画像モデルに活用してオブジェクトの検出とセグメンテーションを行う

Beyond Generation: Harnessing Text to Image Models for Object Detection and Segmentation ( http://arxiv.org/abs/2309.05956v1 )

ライセンス: Link先を確認
Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Neel Joshi, Laurent Itti, Vibhav Vineet(参考訳) テキストと画像の合成フレームワーク(DALL-E, 安定拡散など)を用いて, 精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。 提案するアプローチ1は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的にコヒーレントなバックグラウンド生成に分離する。 前景オブジェクトを生成するには、入力プロンプトとしてオブジェクトクラス名を取り入れた単純なテキストテンプレートを用いる。 これはテキストから画像への合成フレームワークに供給され、孤立した背景に対して様々なフォアグラウンドイメージを生成する。 前景背景分割アルゴリズムを用いて前景オブジェクトマスクを生成する。 文脈画像を生成するために、まず文脈の言語記述を作成する。 これは、所望のコンテキストを表す画像の小さなセットに画像キャプション法を適用することで実現される。 これらのテキスト記述は、テキストから画像への合成フレームワークを通じて、さまざまなコンテキストイメージに変換される。 続いて,前景の被写体マスクを初期段階に合成し,カット・アンド・ペースト法を用いてトレーニングデータを定式化する。 我々は、Pascal VOCやCOCOを含む5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。 その結果,本手法で生成した合成データのみを学習した検出器は実データと同等の性能を発揮することがわかった(第1報)。 さらに、実データと合成データの組み合わせにより、さらに優れた結果が得られる。 さらに分析した結果, 合成データ分布は実データ分布を効率的に補完することがわかった。 さらに,アウトオブディストリビューションおよびゼロショットデータ生成シナリオにおけるデータ生成アプローチの構成的性質についても強調する。 私たちはhttps://github.com/gyhandy/Text2Image-for-detectionでコードをオープンソース化しました。

We propose a new paradigm to automatically generate training data with accurate labels at scale using the text-to-image synthesis frameworks (e.g., DALL-E, Stable Diffusion, etc.). The proposed approach1 decouples training data generation into foreground object generation, and contextually coherent background generation. To generate foreground objects, we employ a straightforward textual template, incorporating the object class name as input prompts. This is fed into a text-to-image synthesis framework, producing various foreground images set against isolated backgrounds. A foreground-background segmentation algorithm is then used to generate foreground object masks. To generate context images, we begin by creating language descriptions of the context. This is achieved by applying an image captioning method to a small set of images representing the desired context. These textual descriptions are then transformed into a diverse array of context images via a text-to-image synthesis framework. Subsequently, we composite these with the foreground object masks produced in the initial step, utilizing a cut-and-paste method, to formulate the training data. We demonstrate the advantages of our approach on five object detection and segmentation datasets, including Pascal VOC and COCO. We found that detectors trained solely on synthetic data produced by our method achieve performance comparable to those trained on real data (Fig. 1). Moreover, a combination of real and synthetic data yields even much better results. Further analysis indicates that the synthetic data distribution complements the real data distribution effectively. Additionally, we emphasize the compositional nature of our data generation approach in out-of-distribution and zero-shot data generation scenarios. We open-source our code at https://github.com/gyhandy/Text2Image-for-Detection
翻訳日:2023-09-13 14:19:23 公開日:2023-09-12
# GLAD:ログ異常検出のためのコンテンツ認識動的グラフ

GLAD: Content-aware Dynamic Graphs For Log Anomaly Detection ( http://arxiv.org/abs/2309.05953v1 )

ライセンス: Link先を確認
Yufei Li, Yanchi Liu, Haoyu Wang, Zhengzhang Chen, Wei Cheng, Yuncong Chen, Wenchao Yu, Haifeng Chen, Cong Liu(参考訳) ログは、イベントや状態を含む貴重なシステム情報を記録することによって、システムの監視とデバッグにおいて重要な役割を果たす。 ログシーケンスの異常を検出するために様々な方法が提案されているが、ログの内容から識別できるサービスやユーザなど、システムコンポーネント間の関係を考慮する重要性をしばしば見逃している。 これらの関係を理解することは、異常とその原因を検出するのに不可欠である。 この問題に対処するために,システムログのリレーショナル異常を検出するために設計されたグラフベースのログ異常検出フレームワークgreyを紹介する。 gladはログセマンティクス、リレーショナルパターン、シーケンシャルパターンを、異常検出のための統一フレームワークに組み込んでいる。 具体的には、最初にGLADは、プロンプトベースの少数ショット学習を利用してログコンテンツから必須フィールドを識別するフィールド抽出モジュールを導入する。 次に、GLADは、抽出したフィールドとログイベントをログパーサから解析することで、スライドウィンドウのための動的ロググラフを構築する。 これらのグラフはイベントとフィールドをノードとして表現し、それらの関係をエッジとして表現する。 その後、GLADは時間的アテンテートグラフエッジ異常検出モデルを用いて、これらの動的ロググラフの異常関係を同定する。 このモデルでは、グラフニューラルネットワーク(GNN)ベースのエンコーダを使用して、コンテント、構造、時間的特徴をキャプチャする。 提案手法を3つのデータセットで評価し, 異なる関係パターンで示される異常の検出におけるGLADの有効性を示した。

Logs play a crucial role in system monitoring and debugging by recording valuable system information, including events and states. Although various methods have been proposed to detect anomalies in log sequences, they often overlook the significance of considering relations among system components, such as services and users, which can be identified from log contents. Understanding these relations is vital for detecting anomalies and their underlying causes. To address this issue, we introduce GLAD, a Graph-based Log Anomaly Detection framework designed to detect relational anomalies in system logs. GLAD incorporates log semantics, relational patterns, and sequential patterns into a unified framework for anomaly detection. Specifically, GLAD first introduces a field extraction module that utilizes prompt-based few-shot learning to identify essential fields from log contents. Then GLAD constructs dynamic log graphs for sliding windows by interconnecting extracted fields and log events parsed from the log parser. These graphs represent events and fields as nodes and their relations as edges. Subsequently, GLAD utilizes a temporal-attentive graph edge anomaly detection model for identifying anomalous relations in these dynamic log graphs. This model employs a Graph Neural Network (GNN)-based encoder enhanced with transformers to capture content, structural and temporal features. We evaluate our proposed method on three datasets, and the results demonstrate the effectiveness of GLAD in detecting anomalies indicated by varying relational patterns.
翻訳日:2023-09-13 14:18:57 公開日:2023-09-12
# 大規模言語モデルを用いた公衆衛生のためのバランスと説明可能なソーシャルメディア分析

Balanced and Explainable Social Media Analysis for Public Health with Large Language Models ( http://arxiv.org/abs/2309.05951v1 )

ライセンス: Link先を確認
Yan Jiang, Ruihong Qiu, Yi Zhang, Peng-Fei Zhang(参考訳) ソーシャルメディアの人気が高まるにつれ、公衆衛生活動がますます増え、パンデミックの監視や政府の意思決定にも注目に値する。 公衆衛生分析の現在の技術は、BERTや大規模言語モデル(LLM)のような一般的なモデルを含んでいる。 LLMの最近の進歩は、特定のドメインデータセットを微調整することで、知識を理解する強力な能力を示しているが、特定の公衆衛生タスクごとにドメイン内LSMをトレーニングするコストは特に高い。 さらに、ソーシャルメディアからのそのようなドメイン内データセットは一般に高度に不均衡であり、LCMのチューニング効率を損なう。 これらの課題に対処するために、ソーシャルメディアデータセットの高度なデータ拡張手法によって、データの不均衡を克服することができる。 さらに、モデルを適切に促すことで、llmの能力を有効に利用することができる。 本稿では,上記の議論を踏まえて,ソーシャルメディアによる公衆衛生分析のための新しいalexフレームワークを提案する。 具体的には,データ不均衡問題を解決するために拡張パイプラインを開発した。 さらに, BERT モデルから予測結果を LLM に誘導することで LLM の説明機構を提案する。 ソーシャル・メディア・マイニング・フォー・ヘルス2023(SMM4H)コンペティションにおいて,2つのタスクにランクインした3つのタスクを対象とした大規模な実験を行った。 私たちのコードはhttps://github.com/YanJiangJerry/ALEXで公開されています。

As social media becomes increasingly popular, more and more public health activities emerge, which is worth noting for pandemic monitoring and government decision-making. Current techniques for public health analysis involve popular models such as BERT and large language models (LLMs). Although recent progress in LLMs has shown a strong ability to comprehend knowledge by being fine-tuned on specific domain datasets, the costs of training an in-domain LLM for every specific public health task are especially expensive. Furthermore, such kinds of in-domain datasets from social media are generally highly imbalanced, which will hinder the efficiency of LLMs tuning. To tackle these challenges, the data imbalance issue can be overcome by sophisticated data augmentation methods for social media datasets. In addition, the ability of the LLMs can be effectively utilised by prompting the model properly. In light of the above discussion, in this paper, a novel ALEX framework is proposed for social media analysis on public health. Specifically, an augmentation pipeline is developed to resolve the data imbalance issue. Furthermore, an LLMs explanation mechanism is proposed by prompting an LLM with the predicted results from BERT models. Extensive experiments conducted on three tasks at the Social Media Mining for Health 2023 (SMM4H) competition with the first ranking in two tasks demonstrate the superior performance of the proposed ALEX method. Our code has been released in https://github.com/YanJiangJerry/ALEX.
翻訳日:2023-09-13 14:18:36 公開日:2023-09-12
# 高分解能リモートセンシング画像からの建物抽出のための特徴集約ネットワーク

Feature Aggregation Network for Building Extraction from High-resolution Remote Sensing Images ( http://arxiv.org/abs/2309.06017v1 )

ライセンス: Link先を確認
Xuan Zhou, Xuefeng Wei(参考訳) 高解像度衛星リモートセンシングデータ取得の急速な進歩、特にサブメータ精度の向上は、表面構造の特徴を詳細に抽出する可能性を見出している。 しかし、表面分布の多様性と複雑さは、表面特徴の局所化情報にのみ焦点を絞る現在の手法にしばしばつながる。 これはしばしば境界認識と建物間におけるクラス内変動をもたらす。 そのため,高解像度衛星画像から表面像を微細に抽出する作業は,リモートセンシング画像処理において重要な課題となっている。 本研究では,衛星リモートセンシング画像からのランドマークの抽出を可能にするため,地球的特徴と局所的特徴の抽出に重点を置いた特徴集約ネットワーク(fanet)を提案する。 ピラミッドビジョントランスフォーマーはこれらのグローバル機能をキャプチャし、その後特徴集約モジュールによって洗練され、差分除去モジュールによって凝集表現にマージされる。 さらに,包括的特徴マップを実現するために,受容的場ブロックと2重注意モジュールを導入し,受容的場を拡大し,空間的およびチャネル的次元にまたがって注意力を強めた。 複数のデータセットに対する大規模な実験は、高解像度衛星画像から特徴を抽出する際のFANetの際立った能力を検証する。 これはリモートセンシング画像処理の分野での大きなブレークスルーを意味する。 私たちはすぐにコードをリリースします。

The rapid advancement in high-resolution satellite remote sensing data acquisition, particularly those achieving submeter precision, has uncovered the potential for detailed extraction of surface architectural features. However, the diversity and complexity of surface distributions frequently lead to current methods focusing exclusively on localized information of surface features. This often results in significant intraclass variability in boundary recognition and between buildings. Therefore, the task of fine-grained extraction of surface features from high-resolution satellite imagery has emerged as a critical challenge in remote sensing image processing. In this work, we propose the Feature Aggregation Network (FANet), concentrating on extracting both global and local features, thereby enabling the refined extraction of landmark buildings from high-resolution satellite remote sensing imagery. The Pyramid Vision Transformer captures these global features, which are subsequently refined by the Feature Aggregation Module and merged into a cohesive representation by the Difference Elimination Module. In addition, to ensure a comprehensive feature map, we have incorporated the Receptive Field Block and Dual Attention Module, expanding the receptive field and intensifying attention across spatial and channel dimensions. Extensive experiments on multiple datasets have validated the outstanding capability of FANet in extracting features from high-resolution satellite images. This signifies a major breakthrough in the field of remote sensing image processing. We will release our code soon.
翻訳日:2023-09-13 14:12:43 公開日:2023-09-12
# ディープニューラルネットワークの補間・近似・制御性

Interpolation, Approximation and Controllability of Deep Neural Networks ( http://arxiv.org/abs/2309.06015v1 )

ライセンス: Link先を確認
Jingpu Cheng, Qianxiao Li, Ting Lin, Zuowei Shen(参考訳) 制御理論により連続力学系として理想化された深部ニューラルネットワークの表現力について検討する。 具体的には、任意の入力と目標のトレーニングサンプルにマッチするユニバーサル補間(universal interpolation)と、フローマップを介して入力とターゲットの機能的関係を近似するユニバーサル近似(universal approximation)という、教師あり学習から生じる2つの特性について考察する。 制御ファミリのアフィン不変性の仮定の下では、普遍補間の特徴を与え、非線型性を持つ任意のアーキテクチャに対して本質的に成り立つことを示す。 さらに,一般制御系における普遍補間と普遍近似の関係を解明し,この2つの性質は互いに推論できないことを示した。 同時に、制御ファミリーの条件と2つの概念の同値性を保証する対象関数を同定する。

We investigate the expressive power of deep residual neural networks idealized as continuous dynamical systems through control theory. Specifically, we consider two properties that arise from supervised learning, namely universal interpolation - the ability to match arbitrary input and target training samples - and the closely related notion of universal approximation - the ability to approximate input-target functional relationships via flow maps. Under the assumption of affine invariance of the control family, we give a characterisation of universal interpolation, showing that it holds for essentially any architecture with non-linearity. Furthermore, we elucidate the relationship between universal interpolation and universal approximation in the context of general control systems, showing that the two properties cannot be deduced from each other. At the same time, we identify conditions on the control family and the target function that ensures the equivalence of the two notions.
翻訳日:2023-09-13 14:12:24 公開日:2023-09-12
# 最適パルス駆動を用いた耐障害スワップゲート

High-tolerance antiblockade SWAP gates using optimal pulse drivings ( http://arxiv.org/abs/2309.06013v1 )

ライセンス: Link先を確認
Wan-Xia Li, Jin-Lei Wu, Shi-Lei Su, and Jing Qian(参考訳) 位置誤差は、2つの原子間の相対的な動きの変動が反ブロッケード条件を無効にするため、レイドベルクの反ブロッケードゲートが実験的に実現できない主要な障害として扱われる。 本研究は, 改良型抗ブロッケード条件とレーザーパルスを併用した高耐用抗ブロッケードを用いたライドバーグSWAPゲートの進展を報告する。 多様なパルス形状の最適化により、このプロトコルは、二重リドベルク状態の時間間隔を70%以下に短縮できることを示し、位置誤差を著しく低減する。 さらに,原子熱運動によるドップラーの劣化,レーザ強度とレーザー位相の変動,強度不均一性といった技術ノイズを考慮に入れて,ゲートのロバスト性を評価する。 他の既存のアンチブロッケードゲートのスキームと比較して、予測ゲートの忠実度は様々な実験的欠陥を非常に保守的に見積もった後に0.91以上維持でき、特にT$\sim$20$\mu$Kで$\delta$V /V $\approx$5.92%の現実的な相互作用偏差を考慮に入れられる。 私たちの研究は、近い将来、rydberg antiblockade gatesの実験的なデモンストレーションへの道を開くものです。

Position error is treated as the leading obstacle that prevents Rydberg antiblockade gates from being experimentally realizable, because of the inevitable fluctuations in the relative motion between two atoms invalidating the antiblockade condition. In this work we report progress towards a high-tolerance antiblockade-based Rydberg SWAP gate enabled by the use of modified antiblockade condition combined with carefully-optimized laser pulses. Depending on the optimization of diverse pulse shapes our protocol shows that the time-spent in the double Rydberg state can be shortened by a factor of > 70%, which significantly reduces the position error. Moreover, we benchmark the robustness of the gate via taking account of the technical noises, such as the Doppler dephasing due to atomic thermal motion, the fluctuations in laser intensity and laser phase and the intensity inhomogeneity. As compared with other existing antiblockade-gate schemes the predicted gate fidelity is able to maintain at above 0.91 after a very conservative estimation of various experimental imperfections,ns, especially considered for realistic interaction deviation of $\delta$V /V $\approx$ 5.92% at T $\sim$ 20$\mu$K. Our work paves the way to the experimental demonstration of Rydberg antiblockade gates in the near future.
翻訳日:2023-09-13 14:12:08 公開日:2023-09-12
# 長期文書のコンテンツ削減, 予備的, 情報密度推定

Content Reduction, Surprisal and Information Density Estimation for Long Documents ( http://arxiv.org/abs/2309.06009v1 )

ライセンス: Link先を確認
Shaoxiong Ji and Wei Sun and Pekka Marttinen(参考訳) 言語の情報内容を研究するために多くの計算言語的手法が提案されている。 2つの興味深い研究課題を考えます 1) 長期文書上での情報はどのように分配されているか。 2)トークン選択やテキスト要約といったコンテンツ削減は,長い文書の情報密度にどのように影響するか。 本稿では,超越性,エントロピー,一様情報密度,語彙密度の4つの長文情報密度推定基準を提案する。 これらの基準のうち、第1の3つは情報理論の尺度である。 臨床ノートのための注意に基づく単語選択手法を提案し,複数ドメイン文書を対象とした機械要約について検討する。 本研究では,各領域における長文情報密度の系統的差異を明らかにする。 長い臨床ノートから自動医療コーディングを行った結果,注意に基づく単語選択法の有効性が示された。

Many computational linguistic methods have been proposed to study the information content of languages. We consider two interesting research questions: 1) how is information distributed over long documents, and 2) how does content reduction, such as token selection and text summarization, affect the information density in long documents. We present four criteria for information density estimation for long documents, including surprisal, entropy, uniform information density, and lexical density. Among those criteria, the first three adopt the measures from information theory. We propose an attention-based word selection method for clinical notes and study machine summarization for multiple-domain documents. Our findings reveal the systematic difference in information density of long text in various domains. Empirical results on automated medical coding from long clinical notes show the effectiveness of the attention-based word selection method.
翻訳日:2023-09-13 14:11:42 公開日:2023-09-12
# SoccerNet 2023の結果に挑戦

SoccerNet 2023 Challenges Results ( http://arxiv.org/abs/2309.06006v1 )

ライセンス: Link先を確認
Anthony Cioppa and Silvio Giancola and Vladimir Somers and Floriane Magera and Xin Zhou and Hassan Mkhallati and Adrien Deli\`ege and Jan Held and Carlos Hinojosa and Amir M. Mansourian and Pierre Miralles and Olivier Barnich and Christophe De Vleeschouwer and Alexandre Alahi and Bernard Ghanem and Marc Van Droogenbroeck and Abdullah Kamal and Adrien Maglo and Albert Clap\'es and Amr Abdelaziz and Artur Xarles and Astrid Orcesi and Atom Scott and Bin Liu and Byoungkwon Lim and Chen Chen and Fabian Deuser and Feng Yan and Fufu Yu and Gal Shitrit and Guanshuo Wang and Gyusik Choi and Hankyul Kim and Hao Guo and Hasby Fahrudin and Hidenari Koguchi and H{\aa}kan Ard\"o and Ibrahim Salah and Ido Yerushalmy and Iftikar Muhammad and Ikuma Uchida and Ishay Be'ery and Jaonary Rabarisoa and Jeongae Lee and Jiajun Fu and Jianqin Yin and Jinghang Xu and Jongho Nang and Julien Denize and Junjie Li and Junpei Zhang and Juntae Kim and Kamil Synowiec and Kenji Kobayashi and Kexin Zhang and Konrad Habel and Kota Nakajima and Licheng Jiao and Lin Ma and Lizhi Wang and Luping Wang and Menglong Li and Mengying Zhou and Mohamed Nasr and Mohamed Abdelwahed and Mykola Liashuha and Nikolay Falaleev and Norbert Oswald and Qiong Jia and Quoc-Cuong Pham and Ran Song and Romain H\'erault and Rui Peng and Ruilong Chen and Ruixuan Liu and Ruslan Baikulov and Ryuto Fukushima and Sergio Escalera and Seungcheon Lee and Shimin Chen and Shouhong Ding and Taiga Someya and Thomas B. Moeslund and Tianjiao Li and Wei Shen and Wei Zhang and Wei Li and Wei Dai and Weixin Luo and Wending Zhao and Wenjie Zhang and Xinquan Yang and Yanbiao Ma and Yeeun Joo and Yingsen Zeng and Yiyang Gan and Yongqiang Zhu and Yujie Zhong and Zheng Ruan and Zhiheng Li and Zhijian Huang and Ziyu Meng(参考訳) SoccerNet 2023チャレンジは、サッカーネットチームが主催した3回目のビデオ理解チャレンジである。 この第3版では、課題は7つの視覚に基づくタスクから成っていた。 第1のテーマは,映像放送における出来事を記述した3つのハイレベルなタスクから構成される。(1) アクションスポッティング,サッカーにおけるグローバルアクションに関連するすべてのタイムスタンプの検索,(2) ボールアクションスポッティング,状態の変化に関連するすべてのタイムスタンプの検索,(3) 濃密なビデオキャプション,(3) 自然言語とアンカー付きタイムスタンプによる放送の表現。 第2のテーマであるフィールド理解は、画像から固有のカメラパラメータと外部カメラパラメータを取得することに焦点を当て、(4)カメラキャリブレーションの単一タスクに関連する。 3番目と最後のテーマであるプレイヤー理解は、プレイヤーに関する情報の抽出に関連する3つの低レベルタスクで構成されている: (5) 再識別、複数のビューにわたる同一プレイヤーの検索、(6) 複数のオブジェクト追跡、(7) 未編集のビデオストリームによるプレーヤーとボールの追跡、(7) ジャージ番号の認識、トラックレットからのプレイヤーのジャージ番号の認識。 SoccerNetの以前のバージョンと比較すると、新しいアノテーションやデータを含むタスク(2-3-7)、より多くのデータやアノテーションによってタスク(4)が強化され、タスク(6)はエンドツーエンドアプローチにフォーカスしている。 タスク、課題、およびリーダーボードに関する詳細は、https://www.soccer-net.org.com/で確認できる。 ベースラインと開発キットはhttps://github.com/SoccerNet.comにある。

The SoccerNet 2023 challenges were the third annual video understanding challenges organized by the SoccerNet team. For this third edition, the challenges were composed of seven vision-based tasks split into three main themes. The first theme, broadcast video understanding, is composed of three high-level tasks related to describing events occurring in the video broadcasts: (1) action spotting, focusing on retrieving all timestamps related to global actions in soccer, (2) ball action spotting, focusing on retrieving all timestamps related to the soccer ball change of state, and (3) dense video captioning, focusing on describing the broadcast with natural language and anchored timestamps. The second theme, field understanding, relates to the single task of (4) camera calibration, focusing on retrieving the intrinsic and extrinsic camera parameters from images. The third and last theme, player understanding, is composed of three low-level tasks related to extracting information about the players: (5) re-identification, focusing on retrieving the same players across multiple views, (6) multiple object tracking, focusing on tracking players and the ball through unedited video streams, and (7) jersey number recognition, focusing on recognizing the jersey number of players from tracklets. Compared to the previous editions of the SoccerNet challenges, tasks (2-3-7) are novel, including new annotations and data, task (4) was enhanced with more data and annotations, and task (6) now focuses on end-to-end approaches. More information on the tasks, challenges, and leaderboards are available on https://www.soccer-net.org. Baselines and development kits can be found on https://github.com/SoccerNet.
翻訳日:2023-09-13 14:11:32 公開日:2023-09-12
# ノイズと時間最適化を考慮した量子回路の分散スケジューリング

Distributed Scheduling of Quantum Circuits with Noise and Time Optimization ( http://arxiv.org/abs/2309.06005v1 )

ライセンス: Link先を確認
Debasmita Bhoumik, Ritajit Majumdar, Amit Saha, Susmita Sur-Kolay(参考訳) 現在、量子コンピュータは誤り訂正と耐故障性がないためノイズが多い。 エラー抑制や緩和といった暫定的な手法は、幅広い適用性を見いだす。 他のエラー抑制や緩和とは独立に、システム内のノイズをさらに低減するためにそれらと併用することができる別の方法は、回路切断である。 本稿では,利用可能なハードウェアセット上で回路切断により得られるサブ回路の最適スケジュールを求めるスケジューラを提案する。 (i)全体の忠実度を最大化し、 (ii)各ハードウェアの事前定義された最大実行時間が超過しないことを保証する。 種々のベンチマーク回路上で得られた忠実度は、最もノイズが少ないデバイスで実行されるアンカット回路よりも大幅に向上する。 本手法では,10ビットベンチマーク回路において,各ハードウェアが最小実行時間を許された場合でも,測定誤差を緩和することなく,それぞれ平均12.3%,約21%の忠実度が得られた。 このノイズと時間に最適化された分散スケジューラは、ユーザが量子ハードウェアへのアクセスを制限した現在のシナリオにおいて、最適なパフォーマンスを提供するための最初のステップである。

Quantum computers are noisy at present in the absence of error correction and fault tolerance. Interim methods such as error suppression and mitigation find wide applicability. Another method, which is independent of other error suppression and mitigation, and can be applied in conjunction with them to further lower the noise in the system, is circuit cutting. In this paper, we propose a scheduler that finds the optimum schedule for the subcircuits obtained by circuit cutting on the available set of hardware to (i) maximize the overall fidelity, and (ii) ensure that the predefined maximum execution time for each hardware is not exceeded. The fidelity obtained by this method on various benchmark circuits is significantly better than that of the uncut circuit executed on the least noisy device. The average increase in the fidelity obtained by our method are respectively ~12.3% and ~21% for 10-qubit benchmark circuits without and with measurement error mitigation, even when each hardware was allowed the minimum possible execution time. This noise and time optimized distributed scheduler is an initial step towards providing the optimal performance in the current scenario where the users may have limited access to quantum hardware.
翻訳日:2023-09-13 14:10:57 公開日:2023-09-12
# TSSAT: 2段階統計-アートスタイルの変換

TSSAT: Two-Stage Statistics-Aware Transformation for Artistic Style Transfer ( http://arxiv.org/abs/2309.06004v1 )

ライセンス: Link先を確認
Haibo Chen, Lei Zhao, Jun Li, and Jian Yang(参考訳) 芸術的スタイル転送は、対象の芸術的スタイルで所定の写真をレンダリングすることで、新しい芸術的イメージを作成することを目的としている。 既存の手法は、単にグローバル統計や局所パッチに基づいてスタイルを学習し、実際の描画過程を慎重に考慮していない。 その結果、スタイライゼーションの結果は、豊富かつ多様化したローカルスタイルパターンを捉えられなかったり、スタイルイメージの望ましくない意味情報を含んでいたり、グローバルスタイル分布から逸脱したりする。 この問題を解決するために,我々は,人間の描画プロセスを模倣し,まずコンテンツとスタイルの特徴のグローバル統計を整合させ,次に局所統計(局所特徴ではなく)をパッチ的に置き換え,スタイライゼーション効果を大幅に改善する,グローバルスタイル基盤を構築する2段階統計認識変換(tssat)モジュールを提案する。 また、コンテンツとスタイル表現の両方をさらに強化するため、スタイル化時に保持するコンテンツ画像の意味関係を強制することにより、注意に基づくコンテンツロスとパッチベースのスタイルロスの2つの新たな損失を導入するとともに、スタイルとスタイル化された画像とのローカルスタイル類似性の向上に重点を置いている。 広範囲な質的定量的実験を行い,本手法の有効性を検証した。

Artistic style transfer aims to create new artistic images by rendering a given photograph with the target artistic style. Existing methods learn styles simply based on global statistics or local patches, lacking careful consideration of the drawing process in practice. Consequently, the stylization results either fail to capture abundant and diversified local style patterns, or contain undesired semantic information of the style image and deviate from the global style distribution. To address this issue, we imitate the drawing process of humans and propose a Two-Stage Statistics-Aware Transformation (TSSAT) module, which first builds the global style foundation by aligning the global statistics of content and style features and then further enriches local style details by swapping the local statistics (instead of local features) in a patch-wise manner, significantly improving the stylization effects. Moreover, to further enhance both content and style representations, we introduce two novel losses: an attention-based content loss and a patch-based style loss, where the former enables better content preservation by enforcing the semantic relation in the content image to be retained during stylization, and the latter focuses on increasing the local style similarity between the style and stylized images. Extensive qualitative and quantitative experiments verify the effectiveness of our method.
翻訳日:2023-09-13 14:10:41 公開日:2023-09-12
# 自律的・適応的エージェントのためのライフインスパイアされた相互受容型人工知能

Life-inspired Interoceptive Artificial Intelligence for Autonomous and Adaptive Agents ( http://arxiv.org/abs/2309.05999v1 )

ライセンス: Link先を確認
Sungwoo Lee, Younghyun Oh, Hyunhoe An, Hyebhin Yoon, Karl J. Friston, Seok Jun Hong, Choong-Wan Woo(参考訳) 自律的な -- すなわち、ニーズに基づいて目標を選択する -- と適応性 -- 、すなわち、絶えず変化する環境で生き残る — の構築は、人工知能(AI)の聖杯である。 生物はそのようなエージェントの主要な例であり、適応的自律性に関する重要な教訓を提供する。 ここでは, 内環境を一定の範囲内に維持するプロセスであるインターセプション(interoception)に注目し, 生物の生存を基盤とする。 インターセプションを用いたAIを開発するためには、内部環境を表す状態変数を外部環境から分解し、内部環境状態のライフインスパイアされた数学的特性を採用する必要がある。 本稿では, サイバネティクスの遺産と生命理論, 強化学習, 神経科学の最近の進歩を統合することで, インターセプションが自律的かつ適応的なエージェント構築にどのように役立つか, 新たな視点を提供する。

Building autonomous --- i.e., choosing goals based on one's needs -- and adaptive -- i.e., surviving in ever-changing environments -- agents has been a holy grail of artificial intelligence (AI). A living organism is a prime example of such an agent, offering important lessons about adaptive autonomy. Here, we focus on interoception, a process of monitoring one's internal environment to keep it within certain bounds, which underwrites the survival of an organism. To develop AI with interoception, we need to factorize the state variables representing internal environments from external environments and adopt life-inspired mathematical properties of internal environment states. This paper offers a new perspective on how interoception can help build autonomous and adaptive agents by integrating the legacy of cybernetics with recent advances in theories of life, reinforcement learning, and neuroscience.
翻訳日:2023-09-13 14:10:14 公開日:2023-09-12
# ATTA:セグメンテーションにおけるアウト・オブ・ディストリビューション検出のための異常認識テスト時間適応

ATTA: Anomaly-aware Test-Time Adaptation for Out-of-Distribution Detection in Segmentation ( http://arxiv.org/abs/2309.05994v1 )

ライセンス: Link先を確認
Zhitong Gao, Shipeng Yan, Xuming He(参考訳) 密集型アウト・オブ・ディストリビューション(OOD)検出の最近の進歩は、トレーニングとテストデータセットが同様のドメインを共有するシナリオに主に焦点を合わせており、ドメイン間のシフトが存在しないことを前提としている。 しかし、現実の状況では、ドメインシフトはしばしばアウト・オブ・ディストリビューション(OOD)検出モデルの精度に大きく影響する。 本稿では,ドメインシフトとセマンティックシフトを共同で処理する2レベルood検出フレームワークを提案する。 第1レベルは、グローバル低レベル機能を利用することで画像に領域シフトが存在するかどうかを区別し、第2レベルは、高密度高レベル特徴マップを用いて意味的シフトを持つ画素を識別する。 このようにして、モデルを未認識領域に選択的に適応させ、新しいクラスを検出するモデルの能力を高めることができる。 提案手法の有効性を検証するため,様々なベースラインモデルで一貫した性能改善を観測し,有意な領域シフトを持つものを含む複数のoodセグメンテーションベンチマークを検証した。

Recent advancements in dense out-of-distribution (OOD) detection have primarily focused on scenarios where the training and testing datasets share a similar domain, with the assumption that no domain shift exists between them. However, in real-world situations, domain shift often exits and significantly affects the accuracy of existing out-of-distribution (OOD) detection models. In this work, we propose a dual-level OOD detection framework to handle domain shift and semantic shift jointly. The first level distinguishes whether domain shift exists in the image by leveraging global low-level features, while the second level identifies pixels with semantic shift by utilizing dense high-level feature maps. In this way, we can selectively adapt the model to unseen domains as well as enhance model's capacity in detecting novel classes. We validate the efficacy of our proposed method on several OOD segmentation benchmarks, including those with significant domain shifts and those without, observing consistent performance improvements across various baseline models.
翻訳日:2023-09-13 14:09:55 公開日:2023-09-12
# FLDNet: 長距離依存を活用したポリプセグメンテーションのためのフォアグラウンドアウェアネットワーク

FLDNet: A Foreground-Aware Network for Polyp Segmentation Leveraging Long-Distance Dependencies ( http://arxiv.org/abs/2309.05987v1 )

ライセンス: Link先を確認
Xuefeng Wei, Xuan Zhou(参考訳) 大腸癌とポリープの密接な関係を考えると,大腸ポリープの診断と同定は大腸癌の検出と外科的介入において重要な役割を担っている。 このような状況下では,様々な大腸内視鏡像からのポリープの自動検出とセグメンテーションが重要な問題として現れ,注目されている。 ポリープと粘膜の境界は通常曖昧であり、既存の研究では、ポリープの局所的な特徴を学習しながら、特徴の長距離的依存関係を無視し、また、局所的なコンテキストや、組み合わせた特徴のグローバルな文脈情報を無視している。 これらの課題に対処するために、トランスフォーマーベースのニューラルネットワークであるFLDNet(Foreground-Long-Distance Network)を提案する。 具体的には、ピラミッドベースのTransformerエンコーダ、ローカルコンテキストモジュール、フォアグラウンド・アウェアモジュールの3つの主要なモジュールで構成されている。 長距離依存情報を持つマルチレベル機能は、ピラミッドベースのトランスフォーマーエンコーダによって最初にキャプチャされる。 ハイレベルな特徴について、ローカルコンテキストモジュールは、異なるローカルコンテキスト情報を構築して、ポリプに関連するローカル特性を得る。 再構成された最高レベル特徴のデコードにより得られた粗い地図は、高レベル特徴のフォアグラウンドアウェアモジュールにおける特徴融合プロセスを導くことにより、ポリプのフォアグラウンド強化を実現する。 提案手法であるfldnetは,共通データセットの7つの指標を用いて評価し,広く用いられている評価尺度において最先端手法よりも優れていることを示した。

Given the close association between colorectal cancer and polyps, the diagnosis and identification of colorectal polyps play a critical role in the detection and surgical intervention of colorectal cancer. In this context, the automatic detection and segmentation of polyps from various colonoscopy images has emerged as a significant problem that has attracted broad attention. Current polyp segmentation techniques face several challenges: firstly, polyps vary in size, texture, color, and pattern; secondly, the boundaries between polyps and mucosa are usually blurred, existing studies have focused on learning the local features of polyps while ignoring the long-range dependencies of the features, and also ignoring the local context and global contextual information of the combined features. To address these challenges, we propose FLDNet (Foreground-Long-Distance Network), a Transformer-based neural network that captures long-distance dependencies for accurate polyp segmentation. Specifically, the proposed model consists of three main modules: a pyramid-based Transformer encoder, a local context module, and a foreground-Aware module. Multilevel features with long-distance dependency information are first captured by the pyramid-based transformer encoder. On the high-level features, the local context module obtains the local characteristics related to the polyps by constructing different local context information. The coarse map obtained by decoding the reconstructed highest-level features guides the feature fusion process in the foreground-Aware module of the high-level features to achieve foreground enhancement of the polyps. Our proposed method, FLDNet, was evaluated using seven metrics on common datasets and demonstrated superiority over state-of-the-art methods on widely-used evaluation measures.
翻訳日:2023-09-13 14:09:36 公開日:2023-09-12
# 人力支援型デクサラスグラフプのためのスコアベースグラフププリミティブの学習

Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping ( http://arxiv.org/abs/2309.06038v1 )

ライセンス: Link先を確認
Tianhao Wu, Mingdong Wu, Jiyao Zhang, Yunchong Gan, Hao Dong(参考訳) 人間の手が使用できない、あるいは不適当な状況において、個人を支援するための人為的なロボットハンドの使用が重要視されている。 本稿では,ロボットハンドの指制御方針を学習し,対象物の把握を支援することを目的とした,人間支援のデクスタース把持という新しいタスクを提案する。 従来の厳密な把握とは異なり、このタスクは、オブジェクトの幾何学に加えて、ポリシーが多様なユーザ意図に適応する必要があるため、より複雑な課題を示す。 この課題は、2つのサブモジュールからなるアプローチを提案することで解決される: ハンドオブジェクト-条件把握プリミティブであるGrasping Gradient Field~(GraspGF)と履歴条件残余ポリシー。 grabgfは、成功把握例セットから勾配を推定して「どのように」把握するかを学習し、残留ポリシーは、軌道履歴に基づいて、どの速度で「いつ」及びどの速度で把握動作を実行するべきかを決定する。 実験の結果,本手法がベースラインに比べて優れていることを示し,実世界のアプリケーションにおけるユーザ認識と実用性を強調した。 コードとデモは"https://sites.google.com/view/graspgf"で見ることができる。

The use of anthropomorphic robotic hands for assisting individuals in situations where human hands may be unavailable or unsuitable has gained significant importance. In this paper, we propose a novel task called human-assisting dexterous grasping that aims to train a policy for controlling a robotic hand's fingers to assist users in grasping objects. Unlike conventional dexterous grasping, this task presents a more complex challenge as the policy needs to adapt to diverse user intentions, in addition to the object's geometry. We address this challenge by proposing an approach consisting of two sub-modules: a hand-object-conditional grasping primitive called Grasping Gradient Field~(GraspGF), and a history-conditional residual policy. GraspGF learns `how' to grasp by estimating the gradient from a success grasping example set, while the residual policy determines `when' and at what speed the grasping action should be executed based on the trajectory history. Experimental results demonstrate the superiority of our proposed method compared to baselines, highlighting the user-awareness and practicality in real-world applications. The codes and demonstrations can be viewed at "https://sites.google.com/view/graspgf".
翻訳日:2023-09-13 14:01:46 公開日:2023-09-12
# マルチスケールコントラスト学習による正規性学習に基づくグラフ異常検出

Normality Learning-based Graph Anomaly Detection via Multi-Scale Contrastive Learning ( http://arxiv.org/abs/2309.06034v1 )

ライセンス: Link先を確認
Jingcan Duan, Pei Zhang, Siwei Wang, Jingtao Hu, Hu Jin, Jiaxin Zhang, Haifang Zhou, Haifang Zhou(参考訳) グラフ異常検出(gad)は、機械学習とデータマイニングで注目を集めている。 最近の研究は、gadのノード埋め込みの品質を改善するために、よりリッチな情報をキャプチャする方法に重点を置いている。 検出性能の大幅な進歩にもかかわらず、タスクの特性に関する相対的な研究はいまだに続いている。 GADは、ほとんどのノードから逸脱する異常を識別することを目的としている。 しかし、このモデルは、多くのサンプルを構成する正常なサンプルのパターンを学ぶ傾向があります。 一方、異常は、行動が正常と異なる場合に容易に検出できる。 したがって、通常のパターンを学習する能力を高めることで、さらに性能を向上させることができる。 そこで本稿では,マルチスケールコントラスト学習ネットワーク(NLGAD)を用いた正規性学習に基づくGADフレームワークを提案する。 具体的には、まず異なるスケールのコントラストネットワークでモデルを初期化する。 正規性学習のための十分かつ信頼性の高い正規ノードを提供するため、正規性選択のための効果的なハイブリッド戦略を設計する。 最後に、モデルは信頼できる正規ノードの唯一の入力で洗練され、異常ノードをより容易に区別できるように、より正確な正規性を推定する。 最後に、6つのベンチマークグラフデータセットに関する広範な実験が、gadにおける正規性学習に基づくスキームの有効性を示しています。 特に,提案アルゴリズムは,最先端手法と比較して検出性能(最大5.89%のAUCゲイン)を向上させる。 ソースコードはhttps://github.com/FelixDJC/NLGADで公開されている。

Graph anomaly detection (GAD) has attracted increasing attention in machine learning and data mining. Recent works have mainly focused on how to capture richer information to improve the quality of node embeddings for GAD. Despite their significant advances in detection performance, there is still a relative dearth of research on the properties of the task. GAD aims to discern the anomalies that deviate from most nodes. However, the model is prone to learn the pattern of normal samples which make up the majority of samples. Meanwhile, anomalies can be easily detected when their behaviors differ from normality. Therefore, the performance can be further improved by enhancing the ability to learn the normal pattern. To this end, we propose a normality learning-based GAD framework via multi-scale contrastive learning networks (NLGAD for abbreviation). Specifically, we first initialize the model with the contrastive networks on different scales. To provide sufficient and reliable normal nodes for normality learning, we design an effective hybrid strategy for normality selection. Finally, the model is refined with the only input of reliable normal nodes and learns a more accurate estimate of normality so that anomalous nodes can be more easily distinguished. Eventually, extensive experiments on six benchmark graph datasets demonstrate the effectiveness of our normality learning-based scheme on GAD. Notably, the proposed algorithm improves the detection performance (up to 5.89% AUC gain) compared with the state-of-the-art methods. The source code is released at https://github.com/FelixDJC/NLGAD.
翻訳日:2023-09-13 14:01:24 公開日:2023-09-12
# 分散型ユーザサンプリングとマルチチャネルアロハを用いたエネルギアウェアフェデレート学習

Energy-Aware Federated Learning with Distributed User Sampling and Multichannel ALOHA ( http://arxiv.org/abs/2309.06033v1 )

ライセンス: Link先を確認
Rafael Valente da Silva, Onel L. Alcaraz L\'opez, and Richard Demo Souza(参考訳) エッジデバイス上での分散学習は、フェデレーション学習(fl)の出現によって注目を集めている。 特に、エッジデバイスはバッテリと異種エネルギーの可用性が限られることが多いが、flではコンバージェンスのために複数のラウンドが必要であり、エネルギー効率の必要性が増す。 エネルギーの枯渇は、トレーニングプロセスとトレーニングモデルの効率的な利用を妨げる可能性がある。 これらの問題を解決するために、この書簡では、低エネルギー停止確率と将来のタスクの実行を成功させる手法を提案しながら、エネルギ収穫装置(EH)をマルチチャネルALOHAとFLネットワークに統合することを検討する。 数値計算の結果,特に平均エネルギー収入が反復コストをカバーできない臨界設定において,本手法の有効性が示された。 この方法は収束時間とバッテリレベルの観点からノルムベースの解より優れる。

Distributed learning on edge devices has attracted increased attention with the advent of federated learning (FL). Notably, edge devices often have limited battery and heterogeneous energy availability, while multiple rounds are required in FL for convergence, intensifying the need for energy efficiency. Energy depletion may hinder the training process and the efficient utilization of the trained model. To solve these problems, this letter considers the integration of energy harvesting (EH) devices into a FL network with multi-channel ALOHA, while proposing a method to ensure both low energy outage probability and successful execution of future tasks. Numerical results demonstrate the effectiveness of this method, particularly in critical setups where the average energy income fails to cover the iteration cost. The method outperforms a norm based solution in terms of convergence time and battery level.
翻訳日:2023-09-13 14:01:05 公開日:2023-09-12
# 短絡-断熱による高忠実度マクロ微視的重ね合わせ状態

High fidelity macroscopic superposition states via shortcut to adiabaticity ( http://arxiv.org/abs/2309.06031v1 )

ライセンス: Link先を確認
Mehdi Aslani and Vahid Salari and Mehdi Abdi(参考訳) 巨視的空間重畳状態の大規模物体を調製するための近距離断熱方式を提案する。 本方式では,パラボラから二重井戸へトラップポテンシャルをチューニングしながら,その瞬間的ハミルトニアンの基底状態を維持するために対断駆動を採用することを提案する。 これは、制御パラメータを適切に傾斜させて行われる。 いくつかの反断熱ドライブは、ほとんどのケースで十分であることを示す。 この実装のために超伝導回路のハイブリッド電気機械構成を提案する。 提案手法の効率性は,ノイズや不完全な場合のシステムダイナミクスを数値的に解くことで評価できる。 その結果, 空間分離が可能な高忠実度猫状態が, プロトコルを用いて調製できることが示唆された。 さらに、このプロトコルはノイズや欠陥に対して堅牢である。 また,結合回路の電気力学キャビティモードの分光による最終状態の検証方法についても検討する。

A shortcut to adiabatic scheme is proposed for preparing a massive object in a macroscopic spatial superposition state. In this scheme we propose to employ counterdiabatic driving to maintain the system in the groundstate of its instantaneous Hamiltonian while the trap potential is tuned from a parabola to a double well. This, in turn, is performed by properly ramping a control parameter. We show that a few counterdiabatic drives are enough for most practical cases. A hybrid electromechanical setup in superconducting circuits is proposed for the implementation. The efficiency of our scheme is benchmarked by numerically solving the system dynamics in the presence of noises and imperfections. The results show that very high fidelity cat states with distinguishable spatial separations can be prepared with our protocol. Furthermore, the protocol is robust against noises and imperfections. We also discuss a method for verifying the final state via spectroscopy of a coupled circuit electrodynamical cavity mode.
翻訳日:2023-09-13 14:00:49 公開日:2023-09-12
# ニューラルネットワークを用いた大規模シーンモデリングのためのフェデレートラーニング

Federated Learning for Large-Scale Scene Modeling with Neural Radiance Fields ( http://arxiv.org/abs/2309.06030v1 )

ライセンス: Link先を確認
Teppei Suzuki(参考訳) 我々は、車両やドローンから収集したデータを用いて、地球規模神経放射野(nerf)に基づく地図を生涯学習的に構築・維持するシステムを提案する。 しかし、NeRFによる既存の大規模モデリングでは、地球規模の環境をモデル化する際のスケーラビリティと保守性に問題がある。 そこで本研究では,NeRFを用いた大規模モデリングのためのフェデレート学習パイプラインを提案する。 我々は、NeRFのフェデレーション学習におけるモデル集約パイプラインを調整し、NeRFの局所的な更新を可能にする。 集約ステップでは、クライアントのグローバルなポーズの正確さが重要です。 また,集約前にクライアントのノイズの多いグローバルなポーズを調整するために,グローバルなポーズアライメントを提案する。 実験では,大規模シーンデータセット mill19 におけるポーズアライメントとフェデレーション学習パイプラインの有効性を示す。

We envision a system to continuously build and maintain a map based on earth-scale neural radiance fields (NeRF) using data collected from vehicles and drones in a lifelong learning manner. However, existing large-scale modeling by NeRF has problems in terms of scalability and maintainability when modeling earth-scale environments. Therefore, to address these problems, we propose a federated learning pipeline for large-scale modeling with NeRF. We tailor the model aggregation pipeline in federated learning for NeRF, thereby allowing local updates of NeRF. In the aggregation step, the accuracy of the clients' global pose is critical. Thus, we also propose global pose alignment to align the noisy global pose of clients before the aggregation step. In experiments, we show the effectiveness of the proposed pose alignment and the federated learning pipeline on the large-scale scene dataset, Mill19.
翻訳日:2023-09-13 14:00:33 公開日:2023-09-12
# カメラ動作にロバストな新しい流星検出法

A new meteor detection application robust to camera movements ( http://arxiv.org/abs/2309.06027v1 )

ライセンス: Link先を確認
Clara Ciocan (ALSOC), Mathuran Kandeepan (ALSOC), Adrien Cassagne (ALSOC), Jeremie Vaubaillon (IMCCE), Fabian Zander (USQ), Lionel Lacassagne (ALSOC)(参考訳) 本稿では,流星の自動検出のための新しいツールを提案する。 FMDT(Fast Meteor Detection Toolbox)は、気象気球上のカメラや飛行機内で撮影したビデオを分析して、気象観測を安定させる。 この課題は、ビデオの高ゆらぎに頑健で、消費電力(10W)とリアルタイム処理(毎秒25フレーム)の制約を満たす単純なアルゴリズムからなる処理チェーンを設計することである。

This article presents a new tool for the automatic detection of meteors. Fast Meteor Detection Toolbox (FMDT) is able to detect meteor sightings by analyzing videos acquired by cameras onboard weather balloons or within airplane with stabilization. The challenge consists in designing a processing chain composed of simple algorithms, that are robust to the high fluctuation of the videos and that satisfy the constraints on power consumption (10 W) and real-time processing (25 frames per second).
翻訳日:2023-09-13 14:00:18 公開日:2023-09-12
# 歴史から学ぶ:画像復元のためのタスク非依存モデルコントラスト学習

Learning from History: Task-agnostic Model Contrastive Learning for Image Restoration ( http://arxiv.org/abs/2309.06023v1 )

ライセンス: Link先を確認
Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu(参考訳) コントラスト学習は、適切な負のサンプルを導入することで、その不適切な性質を考慮に入れたコンパクトな最適化空間を実現するために、低レベルの視覚タスクにも活用されている。 しかし、既存の手法は手動で定義されたタスク指向のネガティブに依存しており、しばしばタスク固有のバイアスが顕著に現れる。 本稿では,対象モデル自体から直接負のサンプルを適応的に生成する「歴史からの学習」という,革新的な手法を提案する。 本稿では,画像復元のための自己選択型負の損失(SPNIR)を導入する。 我々のアプローチはタスク非依存で汎用的で、既存の画像復元メソッドやタスクと互換性がある。 既存のモデルをSPNIRで再学習することで,提案手法の有効性を示す。 その結果,様々なタスクやアーキテクチャにおける画像復元の大幅な改善が示された。 例えば、SPNIRで再訓練されたモデルは、オリジナルのFFANetとDehazeFormerを3.41dB、0.57dBで上回っている。 同様に、SPA-Data の 0.47 dB と IDT の 0.12 dB を、Manga109 の 0.12 dB を、それぞれ軽量の SwinIR よりも 4倍の解像度で改善した。 コードと再トレーニングされたモデルはhttps://github.com/Aitical/Task-agnostic_Model_Contrastive_Learning_Image_Restorationで利用可能だ。

Contrastive learning has emerged as a prevailing paradigm for high-level vision tasks, which, by introducing properly negative samples, has also been exploited for low-level vision tasks to achieve a compact optimization space to account for their ill-posed nature. However, existing methods rely on manually predefined, task-oriented negatives, which often exhibit pronounced task-specific biases. In this paper, we propose a innovative approach for the adaptive generation of negative samples directly from the target model itself, called ``learning from history``. We introduce the Self-Prior guided Negative loss for image restoration (SPNIR) to enable this approach. Our approach is task-agnostic and generic, making it compatible with any existing image restoration method or task. We demonstrate the effectiveness of our approach by retraining existing models with SPNIR. The results show significant improvements in image restoration across various tasks and architectures. For example, models retrained with SPNIR outperform the original FFANet and DehazeFormer by 3.41 dB and 0.57 dB on the RESIDE indoor dataset for image dehazing. Similarly, they achieve notable improvements of 0.47 dB on SPA-Data over IDT for image deraining and 0.12 dB on Manga109 for a 4x scale super-resolution over lightweight SwinIR, respectively. Code and retrained models are available at https://github.com/Aitical/Task-agnostic_Model_Contrastive_Learning_Image_Restoration.
翻訳日:2023-09-13 14:00:10 公開日:2023-09-12
# 次世代無線ネットワークのためのマルチエージェント強化学習における創発的コミュニケーション

Emergent Communication in Multi-Agent Reinforcement Learning for Future Wireless Networks ( http://arxiv.org/abs/2309.06021v1 )

ライセンス: Link先を確認
Marwa Chafii, Salmane Naoumi, Reda Alami, Ebtesam Almazrouei, Mehdi Bennis, Merouane Debbah(参考訳) 異なる無線ネットワークのシナリオでは、複数のネットワークエンティティが最小の遅延とエネルギー消費で共通のタスクを達成するために協力する必要がある。 将来の無線ネットワークでは、ダイナミックで不確定な環境で高次元データを交換することが必要となり、通信制御タスクの実装は困難かつ複雑になる。 創発的コミュニケーションを用いたマルチエージェント強化学習(EC-MARL)は、エージェントが複雑なタスクを解決するために創発的コミュニケーションプロトコルを構築する協調方式で、部分的に観測可能な状態を持つ高次元連続制御問題に対処するための有望なソリューションである。 本稿では, 自律走行, ロボットナビゲーション, 飛行基地局ネットワーク計画, スマートシティアプリケーションといった複雑な課題を解決するために, 自律的な意思決定能力をネットワークエンティティに組み込む6G無線ネットワークにおけるEC-MARLの重要性を述べる。 ec-marlアルゴリズムとその設計基準の概要は、この新たなトピックでユースケースと研究機会を提示しながら提供されている。

In different wireless network scenarios, multiple network entities need to cooperate in order to achieve a common task with minimum delay and energy consumption. Future wireless networks mandate exchanging high dimensional data in dynamic and uncertain environments, therefore implementing communication control tasks becomes challenging and highly complex. Multi-agent reinforcement learning with emergent communication (EC-MARL) is a promising solution to address high dimensional continuous control problems with partially observable states in a cooperative fashion where agents build an emergent communication protocol to solve complex tasks. This paper articulates the importance of EC-MARL within the context of future 6G wireless networks, which imbues autonomous decision-making capabilities into network entities to solve complex tasks such as autonomous driving, robot navigation, flying base stations network planning, and smart city applications. An overview of EC-MARL algorithms and their design criteria are provided while presenting use cases and research opportunities on this emerging topic.
翻訳日:2023-09-13 13:59:43 公開日:2023-09-12
# 自己申告技術的負債返済に必要な努力を自動的に見積もる

Automatically Estimating the Effort Required to Repay Self-Admitted Technical Debt ( http://arxiv.org/abs/2309.06020v1 )

ライセンス: Link先を確認
Yikun Li, Mohamed Soliman, Paris Avgeriou(参考訳) 技術的負債は、長期の保守性よりも短期的な利益を優先するソフトウェア開発中に下された最適の判断の結果を指す。 Self-Admitted Technical Debt (SATD)は特定の技術的負債であり、ソースコードコメントやコミットメッセージなどのソフトウェアアーチファクト内の開発者が明示的に文書化している。 SATDはソフトウェア開発とメンテナンスを妨げるため、効果的に対処し優先順位付けすることが重要です。 しかし、現在の手法では、テキスト記述に基づいてSATDの返済作業を自動的に見積もる能力がない。 この制限に対処するため,1,060のApacheリポジトリにわたる2,568,728のコミットから341,740のSATD項目からなる包括的データセットを用いてSATD返済作業を自動的に推定する手法を提案する。 その結果,様々な種類のsatdは,非satd項目と比較して高い労力を必要とするコード/設計,要件,テスト負債など,さまざまなレベルの返済努力を必要としていることがわかった。 本稿では,特にBERTやTextCNNなどの機械学習手法を導入,評価する。 さらに,SATD返済時に発生する様々な返済作業に関連するキーワードを要約する。 当社のコントリビューションは,satによる返済努力の優先順位付けとリソース割り当て効率の向上を目的としています。

Technical debt refers to the consequences of sub-optimal decisions made during software development that prioritize short-term benefits over long-term maintainability. Self-Admitted Technical Debt (SATD) is a specific form of technical debt, explicitly documented by developers within software artifacts such as source code comments and commit messages. As SATD can hinder software development and maintenance, it is crucial to address and prioritize it effectively. However, current methodologies lack the ability to automatically estimate the repayment effort of SATD based on its textual descriptions. To address this limitation, we propose a novel approach for automatically estimating SATD repayment effort, utilizing a comprehensive dataset comprising 341,740 SATD items from 2,568,728 commits across 1,060 Apache repositories. Our findings show that different types of SATD require varying levels of repayment effort, with code/design, requirement, and test debt demanding greater effort compared to non-SATD items, while documentation debt requires less. We introduce and evaluate machine learning methodologies, particularly BERT and TextCNN, which outperforms classic machine learning methods and the naive baseline in estimating repayment effort. Additionally, we summarize keywords associated with varying levels of repayment effort that occur during SATD repayment. Our contributions aim to enhance the prioritization of SATD repayment effort and resource allocation efficiency, ultimately benefiting software development and maintainability.
翻訳日:2023-09-13 13:59:23 公開日:2023-09-12
# DSLOT-NN: Digit-Serial left-to-Right Neural NetworkAccelerator

DSLOT-NN: Digit-Serial Left-to-Right Neural Network Accelerator ( http://arxiv.org/abs/2309.06019v1 )

ライセンス: Link先を確認
Muhammad Sohail Ibrahim, Muhammad Usman, Malik Zohaib Nisar, Jeong-A, Lee(参考訳) 本稿では,深部ニューラルネットワーク(DNN)における畳み込み操作の推論を高速化するために,DSLOT-NNという,Digital-Serialleft-tO-righT(DSLOT)演算に基づく処理手法を提案する。 提案手法は,膨大な電力と省エネルギーをもたらす非効率な畳み込みを評価・停止する能力を有する。 処理エンジンは低レイテンシの最も重要なデジタルファースト(MSDF)乗算器と、左から右へデータを処理する加算器で構成されており、その後の操作を桁のピペリン方式で実行することができる。 オンライン演算子の使用により、最大重み値の出力が最初に生成されるため、負のアクティベーションを識別する複雑なメカニズムの開発が不要になり、その結果の符号が最初のゼロ桁が生成されるとすぐに識別できる。 オンラインオペレータの精度は実行時に調整できるため、電力と省エネのために精度を損なうことができる状況では極めて有用である。 提案した設計はXilinx Virtex-7 FPGA上で実装されており、様々なパフォーマンス指標の最先端Stripeと比較されている。 その結果,提案設計では省電力化,サイクルタイムの短縮,ワット当たりの運用効率が約50%向上した。

We propose a Digit-Serial Left-tO-righT (DSLOT) arithmetic based processing technique called DSLOT-NN with aim to accelerate inference of the convolution operation in the deep neural networks (DNNs). The proposed work has the ability to assess and terminate the ineffective convolutions which results in massive power and energy savings. The processing engine is comprised of low-latency most-significant-digit-first (MSDF) (also called online) multipliers and adders that processes data from left-to-right, allowing the execution of subsequent operations in digit-pipelined manner. Use of online operators eliminates the need for the development of complex mechanism of identifying the negative activation, as the output with highest weight value is generated first, and the sign of the result can be identified as soon as first non-zero digit is generated. The precision of the online operators can be tuned at run-time, making them extremely useful in situations where accuracy can be compromised for power and energy savings. The proposed design has been implemented on Xilinx Virtex-7 FPGA and is compared with state-of-the-art Stripes on various performance metrics. The results show the proposed design presents power savings, has shorter cycle time, and approximately 50% higher OPS per watt.
翻訳日:2023-09-13 13:58:58 公開日:2023-09-12
# MRI並列再構成のためのバッチインプットニューラル表現法

Batch Implicit Neural Representation for MRI Parallel Reconstruction ( http://arxiv.org/abs/2309.06067v1 )

ライセンス: Link先を確認
Hao Li, Yusheng Zhou, Jianan Liu, Xiling Liu, Tao Huang, and Zhihan Lv(参考訳) 磁気共鳴画像(MRI)は常に長い取得時間の問題に悩まされている。 MRI再構成は、特定の位相符号化ラインをスキップし、アンダーサンプル測定から高品質なイメージを復元することでスキャン時間を短縮する1つの方法である。 近年,物体を空間座標の連続関数として表現する新しい深層学習法として暗黙的ニューラル表現(INR)が登場し,この関数は通常多層パーセプトロン(MLP)によってパラメータ化される。 本稿では,INRに基づく新しいMRI再構成手法を提案する。INRの一般化問題を克服するための画素座標とアンダーサンプル画像の先行特徴ベクトルの関数として,全サンプル画像を表現する。 具体的には,スケールの異なるmr画像からスケール非依存な画素特性を生成し,座標ベクトルと結合してmlpを介してフルサンプリングされたmr画像を復元し,任意のスケール再構成を実現するスケール埋め込みエンコーダを導入する。 提案手法の性能は,mriデータセット上で実験し,他の再構成法と比較することで評価した。 提案手法が代替手法よりも優れていることを示す定量的評価を行った。

Magnetic resonance imaging (MRI) always suffered from the problem of long acquisition time. MRI reconstruction is one solution to reduce scan time by skipping certain phase-encoding lines and then restoring high-quality images from undersampled measurements. Recently, implicit neural representation (INR) has emerged as a new deep learning method that represents an object as a continuous function of spatial coordinates, and this function is normally parameterized by a multilayer perceptron (MLP). In this paper, we propose a novel MRI reconstruction method based on INR, which represents the fully-sampled images as the function of pixel coordinates and prior feature vectors of undersampled images for overcoming the generalization problem of INR. Specifically, we introduce a scale-embedded encoder to produce scale-independent pixel-specific features from MR images with different undersampled scales and then concatenate with coordinates vectors to recover fully-sampled MR images via an MLP, thus achieving arbitrary scale reconstruction. The performance of the proposed method was assessed by experimenting on publicly available MRI datasets and compared with other reconstruction methods. Our quantitative evaluation demonstrates the superiority of the proposed method over alternative reconstruction methods.
翻訳日:2023-09-13 13:53:51 公開日:2023-09-12
# 機械学習と深層学習モデルを用いた地すべり感受性予測のための寄与要因の選択

Selection of contributing factors for predicting landslide susceptibility using machine learning and deep learning models ( http://arxiv.org/abs/2309.06062v1 )

ライセンス: Link先を確認
Cheng Chen and Lei Fan(参考訳) 地すべりは一般的な自然災害であり、損失、資産安全の脅威、経済的損失を引き起こす可能性がある。 したがって, 危険地における地すべり発生の可能性を把握し, 予測することが重要である。 一般的に用いられる手段は、地すべり在庫と地すべり寄与要因のセットに基づいて地すべり感受性評価を行うことである。 これは、ロジスティック回帰(LR)やサポートベクターマシン(SVM)、ランダムフォレスト(RF)、極端な勾配向上(Xgboost)、畳み込みニューラルネットワーク(CNN)や長短時間メモリ(LSTM)といったディープラーニング(DL)モデルなど、機械学習(ML)モデルで容易に実現できる。 これらのモデルの入力データとして,地すべり要因は地すべり発生に異なる影響を与える。 したがって、これらのモデルの予測精度を高めることを目的として、より重要な寄与要因を選択し、関連性の高い要素を排除できる。 しかし、より重要な要素を選択することは依然として難しい課題であり、一般に受け入れられる方法はない。 また,mlモデルとdlモデルの予測精度に及ぼす各種手法を用いた因子選択の影響は明らかでない。 本研究では, MLモデルとDLモデルを用いた地すべり感受性予測の精度に及ぼす寄与要因の選択の影響について検討した。 情報ゲイン比(IGR)、再帰的特徴除去(RFE)、パーティクルスワーム最適化(PSO)、絶対収縮・選択演算子(LASSO)、ハリスホーク最適化(HHO)の4つの要因を選択する方法を検討した。 また,DLモデルのオートエンコーダに基づく因子選択法についても検討した。 彼らのパフォーマンスを評価するために、徹底的なアプローチが採用された。

Landslides are a common natural disaster that can cause casualties, property safety threats and economic losses. Therefore, it is important to understand or predict the probability of landslide occurrence at potentially risky sites. A commonly used means is to carry out a landslide susceptibility assessment based on a landslide inventory and a set of landslide contributing factors. This can be readily achieved using machine learning (ML) models such as logistic regression (LR), support vector machine (SVM), random forest (RF), extreme gradient boosting (Xgboost), or deep learning (DL) models such as convolutional neural network (CNN) and long short time memory (LSTM). As the input data for these models, landslide contributing factors have varying influences on landslide occurrence. Therefore, it is logically feasible to select more important contributing factors and eliminate less relevant ones, with the aim of increasing the prediction accuracy of these models. However, selecting more important factors is still a challenging task and there is no generally accepted method. Furthermore, the effects of factor selection using various methods on the prediction accuracy of ML and DL models are unclear. In this study, the impact of the selection of contributing factors on the accuracy of landslide susceptibility predictions using ML and DL models was investigated. Four methods for selecting contributing factors were considered for all the aforementioned ML and DL models, which included Information Gain Ratio (IGR), Recursive Feature Elimination (RFE), Particle Swarm Optimization (PSO), Least Absolute Shrinkage and Selection Operators (LASSO) and Harris Hawk Optimization (HHO). In addition, autoencoder-based factor selection methods for DL models were also investigated. To assess their performances, an exhaustive approach was adopted,...
翻訳日:2023-09-13 13:53:30 公開日:2023-09-12
# 検証可能な公平性: マシンラーニングシステムにおける公平性のプライバシー保護計算

Verifiable Fairness: Privacy-preserving Computation of Fairness for Machine Learning Systems ( http://arxiv.org/abs/2309.06061v1 )

ライセンス: Link先を確認
Ehsan Toreini and Maryam Mehrnezhad and Aad van Moorsel(参考訳) 公正な機械学習は、繁栄し活気ある研究トピックである。 本稿では,Fairness as a Service(FaaS)を提案する。これはセキュアで検証可能なプライバシ保護プロトコルで,機械学習(ML)モデルの公正性を計算し,検証する。 FaaSでは、プライバシを確保するために、データと結果が暗号で表現される。 また、ゼロ知識証明は暗号文と基礎となるデータの整形性を保証する。 FaaSはモデルに依存しないため、さまざまなフェアネスメトリクスをサポートすることができるため、任意のMLモデルのフェアネスを監査するサービスとして使用できる。 私たちのソリューションでは、公正度メトリックの計算には信頼できるサードパーティやプライベートチャネルは必要ありません。 セキュリティ保証とコミットメントは、各ステップがプロセスの開始から終了までセキュアに透過的かつ検証可能な方法で実装されます。 すべての入力データの暗号は、監査人、社会活動家、専門家などすべての人に公開され、プロセスの正確性を検証する。 faasを実装して、パフォーマンスを調査し、数千のエントリを持つ公開データセットでfaasが成功したことを実証しました。

Fair machine learning is a thriving and vibrant research topic. In this paper, we propose Fairness as a Service (FaaS), a secure, verifiable and privacy-preserving protocol to computes and verify the fairness of any machine learning (ML) model. In the deisgn of FaaS, the data and outcomes are represented through cryptograms to ensure privacy. Also, zero knowledge proofs guarantee the well-formedness of the cryptograms and underlying data. FaaS is model--agnostic and can support various fairness metrics; hence, it can be used as a service to audit the fairness of any ML model. Our solution requires no trusted third party or private channels for the computation of the fairness metric. The security guarantees and commitments are implemented in a way that every step is securely transparent and verifiable from the start to the end of the process. The cryptograms of all input data are publicly available for everyone, e.g., auditors, social activists and experts, to verify the correctness of the process. We implemented FaaS to investigate performance and demonstrate the successful use of FaaS for a publicly available data set with thousands of entries.
翻訳日:2023-09-13 13:52:57 公開日:2023-09-12
# RAP-Gen: 自動プログラム修復のためのCodeT5による検索拡張パッチ生成

RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair ( http://arxiv.org/abs/2309.06057v1 )

ライセンス: Link先を確認
Weishi Wang, Yue Wang, Shafiq Joty, Steven C.H. Hoi(参考訳) 自動プログラム修復(APR)は、開発者の手作業によるデバッグ作業の削減と、ソフトウェアの信頼性向上に不可欠である。 従来の検索ベースの手法は、一般的にヒューリスティックなルールや冗長性の仮定をマイニングパターンに頼っているが、近年は、プログラムの修正プロセスをデータ駆動で自動化するためのディープラーニング(DL)ベースのアプローチが急増している。 しかし、それらの性能はAPRの非常に複雑な探索空間をモデル化するためのパラメータの固定セットによって制限されることが多い。 そこで本研究では,従来のバグフィックスペアのコードベースから取得した関連する修正パターンを明示的に活用して,新たなRAP-Gen(Retrieval-Augmented Patch Generation framework)を提案する。 具体的には、コード固有の機能に依存しない言語に依存しない、生のソースコードに基づく語彙的および意味的マッチングの両方を考慮し、ハイブリッドなパッチレトリバーを構築する。 さらに,コード認識型言語モデルであるcodet5を基盤モデルとして採用し,パッチ検索と生成タスクを統一的に支援した。 まず,パッチレトリバーが関連する外部のバグフィックスペアを検索して,修復パッチ候補のランク付けリストを合成するcodet5パッチジェネレータのバギー入力を増強する段階的アプローチを採用する。 特に、RAP-Genは、様々な種類のバグを修復するために異なるパッチレトリバーとジェネレータを柔軟に統合できる一般的なAPRフレームワークである。 我々は、JavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークを含む2つのプログラミング言語の3つのベンチマークで、RAP-Genを徹底的に評価した。 実験の結果、RAP-Genは818のDefects4Jバグの15以上のバグを修復するなど、すべてのベンチマークで従来の最先端のアプローチよりも大幅に優れていた。

Automatic program repair (APR) is crucial to reduce manual debugging efforts for developers and improve software reliability. While conventional search-based techniques typically rely on heuristic rules or a redundancy assumption to mine fix patterns, recent years have witnessed the surge of deep learning (DL) based approaches to automate the program repair process in a data-driven manner. However, their performance is often limited by a fixed set of parameters to model the highly complex search space of APR. To ease such burden on the parametric models, in this work, we propose a novel Retrieval-Augmented Patch Generation framework (RAP-Gen) by explicitly leveraging relevant fix patterns retrieved from a codebase of previous bug-fix pairs. Specifically, we build a hybrid patch retriever to account for both lexical and semantic matching based on the raw source code in a language-agnostic manner, which does not rely on any code-specific features. In addition, we adapt a code-aware language model CodeT5 as our foundation model to facilitate both patch retrieval and generation tasks in a unified manner. We adopt a stage-wise approach where the patch retriever first retrieves a relevant external bug-fix pair to augment the buggy input for the CodeT5 patch generator, which synthesizes a ranked list of repair patch candidates. Notably, RAP-Gen is a generic APR framework that can flexibly integrate different patch retrievers and generators to repair various types of bugs. We thoroughly evaluate RAP-Gen on three benchmarks in two programming languages, including the TFix benchmark in JavaScript, and Code Refinement and Defects4J benchmarks in Java, where the bug localization information may or may not be provided. Experimental results show that RAP-Gen significantly outperforms previous state-of-the-art approaches on all benchmarks, e.g., repairing 15 more bugs on 818 Defects4J bugs.
翻訳日:2023-09-13 13:52:41 公開日:2023-09-12
# 表現は文脈内学習にどのように影響するか--合成タスクの探索

How does representation impact in-context learning: A exploration on a synthetic task ( http://arxiv.org/abs/2309.06054v1 )

ライセンス: Link先を確認
Jingwen Fu, Tao Yang, Yuwang Wang, Yan Lu, Nanning Zheng(参考訳) インコンテキスト学習、すなわちインコンテキストサンプルから学ぶことは、Transformerの素晴らしい能力である。 しかし、コンテキスト内学習を駆動するメカニズムはまだ完全には理解されていない。 本研究では,表現学習の未熟な視点から検討することを目的とする。 この表現は、モデル重みとコンテキスト内サンプルの両方で表現に影響を与えることができる、文脈内学習セナリオではより複雑である。 上述の2つの概念的表現的側面をそれぞれ、in-weight componentとin-context componentと呼ぶ。 この2つのコンポーネントがインコンテキスト学習能力にどのように影響するかを調べるために,新しい合成タスクを構築し,インウェイトプローブとインコンテキストプローブという2つのプローブをそれぞれ装置化し,その2つのコンポーネントを評価する。 本研究では,テキスト内学習と表現学習の絡み合いを示すインコンテキスト学習性能に,インコンテキストコンポーネントの良さが強く関係していることを示す。 さらに,優れたin-weightsコンポーネントがコンテキスト内コンポーネントの学習に有効であることから,in-weights学習がコンテキスト内学習の基礎となることが示唆された。 そこで本研究では,テキスト内学習機構とインウェイトコンポーネントの重要性をより深く理解するために,パターンマッチングとコピーパスト機構を併用したシンプルなトランスフォーマーが,インウェイトコンポーネントの前提の下で,より複雑で最適に調整されたトランスフォーマーに適合できることを示す。 要するに、表現学習の観点からのこれらの発見は、コンテキスト内能力を改善するための新しいアプローチに光を当てた。

In-context learning, i.e., learning from in-context samples, is an impressive ability of Transformer. However, the mechanism driving the in-context learning is not yet fully understood. In this study, we aim to investigate from an underexplored perspective of representation learning. The representation is more complex for in-context learning senario, where the representation can be impacted by both model weights and in-context samples. We refer the above two conceptually aspects of representation as in-weight component and in-context component, respectively. To study how the two components affect in-context learning capabilities, we construct a novel synthetic task, making it possible to device two probes, in-weights probe and in-context probe, to evaluate the two components, respectively. We demonstrate that the goodness of in-context component is highly related to the in-context learning performance, which indicates the entanglement between in-context learning and representation learning. Furthermore, we find that a good in-weights component can actually benefit the learning of the in-context component, indicating that in-weights learning should be the foundation of in-context learning. To further understand the the in-context learning mechanism and importance of the in-weights component, we proof by construction that a simple Transformer, which uses pattern matching and copy-past mechanism to perform in-context learning, can match the in-context learning performance with more complex, best tuned Transformer under the perfect in-weights component assumption. In short, those discoveries from representation learning perspective shed light on new approaches to improve the in-context capacity.
翻訳日:2023-09-13 13:52:05 公開日:2023-09-12
# パーセプトロンを用いた線形分離の精密近似法

A Perceptron-based Fine Approximation Technique for Linear Separation ( http://arxiv.org/abs/2309.06049v1 )

ライセンス: Link先を確認
\'Akos Hajnal(参考訳) 本稿では,正あるいは負のラベル付きデータポイント間でセパレータ超平面を見つけることを目的とした,新しいオンライン学習手法を提案する。 人工ニューロンの重みとバイアスは高次元空間の超平面と直接関連付けられるため、この手法は機械学習においてパーセプトロンベースのバイナリ分類器の訓練に適用できる。 大規模または不均衡なデータセットの場合、解析的あるいは勾配に基づくソリューションの使用は禁止的で非現実的になりうる。 提案手法はパーセプトロンアルゴリズムに基づいているが、セパレータ超平面を探索する際に必要な程度にニューロンの重みをチューニングする。 初期データセットの適切な変換のため、バイアス項も必要とせず、データラベルを考慮する必要はない。 それぞれ、セパビリティを1クラスの分類問題に還元する。 実験の結果,特にデータセットのサイズがデータ次元を超える場合,Perceptronアルゴリズムよりも効率がよいことが示された。

This paper presents a novel online learning method that aims at finding a separator hyperplane between data points labelled as either positive or negative. Since weights and biases of artificial neurons can directly be related to hyperplanes in high-dimensional spaces, the technique is applicable to train perceptron-based binary classifiers in machine learning. In case of large or imbalanced data sets, use of analytical or gradient-based solutions can become prohibitive and impractical, where heuristics and approximation techniques are still applicable. The proposed method is based on the Perceptron algorithm, however, it tunes neuron weights in just the necessary extent during searching the separator hyperplane. Due to an appropriate transformation of the initial data set we need not to consider data labels, neither the bias term. respectively, reducing separability to a one-class classification problem. The presented method has proven converge; empirical results show that it can be more efficient than the Perceptron algorithm, especially, when the size of the data set exceeds data dimensionality.
翻訳日:2023-09-13 13:51:37 公開日:2023-09-12
# リアルタイムセマンティックセグメンテーション : リモートセンシングにおける簡単な調査と比較研究

Real-Time Semantic Segmentation: A Brief Survey & Comparative Study in Remote Sensing ( http://arxiv.org/abs/2309.06047v1 )

ライセンス: Link先を確認
Clifford Broni-Bediako, Junshi Xia, and Naoto Yokoya(参考訳) リモートセンシング画像のリアルタイムセマンティクスセグメンテーションは、有効性と効率のトレードオフを必要とする困難なタスクである。 森林火災の追跡、土地利用や土地被覆の変化の検知、作物の健康モニタリングなど、多くの応用がある。 コンピュータビジョンにおけるリアルタイム意味セマンティクスセグメンテーションのための効率的な深層学習手法(すなわち効率的な深層ニューラルネットワーク)の成功により、研究者はこれらの効率的な深層ニューラルネットワークをリモートセンシング画像解析に採用した。 本稿では、効率的な深層ニューラルネットワークを設計するための基本的な圧縮手法の要約から始まり、リモートセンシング画像のリアルタイムセマンティックセグメンテーションにおける最近の進歩の概要を概説する。 そこで本研究では,ネットワークアーキテクチャ設計のアプローチに基づいて,これらの手法を分類学に配置する。 さらに、利用可能なリモートセンシングセマンティックセグメンテーションベンチマークデータセットであるOpenEarthMap上で、既存の効率的なディープニューラルネットワークの品質と効率を評価する。 大規模な比較研究の結果、既存の効率的なディープニューラルネットワークのほとんどがセグメンテーション品質が良いが、それらは低い推論速度(すなわち高いレイテンシ率)に苦しんでおり、リモートセンシングイメージセグメンテーションのリアルタイムアプリケーションでのデプロイメント能力を制限する可能性がある。 リモートセンシング画像のリアルタイムセマンティックセグメンテーションの現在の動向と今後の研究方向性について考察する。

Real-time semantic segmentation of remote sensing imagery is a challenging task that requires a trade-off between effectiveness and efficiency. It has many applications including tracking forest fires, detecting changes in land use and land cover, crop health monitoring, and so on. With the success of efficient deep learning methods (i.e., efficient deep neural networks) for real-time semantic segmentation in computer vision, researchers have adopted these efficient deep neural networks in remote sensing image analysis. This paper begins with a summary of the fundamental compression methods for designing efficient deep neural networks and provides a brief but comprehensive survey, outlining the recent developments in real-time semantic segmentation of remote sensing imagery. We examine several seminal efficient deep learning methods, placing them in a taxonomy based on the network architecture design approach. Furthermore, we evaluate the quality and efficiency of some existing efficient deep neural networks on a publicly available remote sensing semantic segmentation benchmark dataset, the OpenEarthMap. The experimental results of an extensive comparative study demonstrate that most of the existing efficient deep neural networks have good segmentation quality, but they suffer low inference speed (i.e., high latency rate), which may limit their capability of deployment in real-time applications of remote sensing image segmentation. We provide some insights into the current trend and future research directions for real-time semantic segmentation of remote sensing imagery.
翻訳日:2023-09-13 13:51:18 公開日:2023-09-12
# BatMan-CLR:ラベルノイズに耐性のあるメタラーナーを作る

BatMan-CLR: Making Few-shots Meta-Learners Resilient Against Label Noise ( http://arxiv.org/abs/2309.06046v1 )

ライセンス: Link先を確認
Jeroen M. Galjaard, Robert Birke, Juan Perez, Lydia Y. Chen(参考訳) ラベルノイズのネガティブな影響は古典的教師付き学習においてよく研究されているが、メタラーニングにおけるオープンな研究課題である。 meta-learnerは、メタトレーニングで良い初期モデルを学び、メタテスト中に新しいタスクに従って連続的に微調整することで、目に見えない学習タスクに適応することを目指している。 本稿では,様々なレベルのラベルノイズが,最新メタ学習者,特に勾配に基づく$N$-way $K$-shot学習者のパフォーマンスに与える影響を,初めて広範囲に分析する。 メタトレーニングがラベルノイズの影響を受ければ,OmniglotおよびCifarFSデータセット上でReptile,iMAML,foMAMLの精度が最大42%低下することを示す。 ラベルノイズに対するレジリエンスを強化するために,ノイズ教師付き学習者を半教師付きに変換し,ノイズラベルの有用性を高めるための2つのサンプリング手法,man(man)とbatman(batman)を提案する。 まず,N$-way 2$-contrastive-shotタスクの多様体サンプルを構築し,メタトレーニングにおける対照的な損失を通じて埋め込みを学習し,メタテストにおける埋め込みをゼロにすることで分類を行う。 提案手法は,メタ学習ラベルノイズの影響を効果的に緩和できることを示す。 60%の間違ったラベル \batman と \man であっても、Omniglot、CifarFS、MiniImagenet データセットにまたがる既存のメタラーナーで、それぞれ${2.5}$、${9.4}$、${1.1}$パーセントの値にメタテストの精度の低下を制限できる。

The negative impact of label noise is well studied in classical supervised learning yet remains an open research question in meta-learning. Meta-learners aim to adapt to unseen learning tasks by learning a good initial model in meta-training and consecutively fine-tuning it according to new tasks during meta-testing. In this paper, we present the first extensive analysis of the impact of varying levels of label noise on the performance of state-of-the-art meta-learners, specifically gradient-based $N$-way $K$-shot learners. We show that the accuracy of Reptile, iMAML, and foMAML drops by up to 42% on the Omniglot and CifarFS datasets when meta-training is affected by label noise. To strengthen the resilience against label noise, we propose two sampling techniques, namely manifold (Man) and batch manifold (BatMan), which transform the noisy supervised learners into semi-supervised ones to increase the utility of noisy labels. We first construct manifold samples of $N$-way $2$-contrastive-shot tasks through augmentation, learning the embedding via a contrastive loss in meta-training, and then perform classification through zeroing on the embedding in meta-testing. We show that our approach can effectively mitigate the impact of meta-training label noise. Even with 60% wrong labels \batman and \man can limit the meta-testing accuracy drop to ${2.5}$, ${9.4}$, ${1.1}$ percent points, respectively, with existing meta-learners across the Omniglot, CifarFS, and MiniImagenet datasets.
翻訳日:2023-09-13 13:50:50 公開日:2023-09-12
# Update Monte Carlo Tree Search (UMCTS) アルゴリズムによるトラス構造におけるサイズ最適化問題のヒューリスティック大域探索

Update Monte Carlo tree search (UMCTS) algorithm for heuristic global search of sizing optimization problems for truss structures ( http://arxiv.org/abs/2309.06045v1 )

ライセンス: Link先を確認
Fu-Yao Ko, Katsuyuki Suzuki, Kazuo Yonekura(参考訳) トラス構造のサイズ最適化は複雑な計算問題であり、強化学習(rl)は勾配計算なしでマルチモーダル問題を扱うのに適している。 本稿では,更新モンテカルロ木探索 (UMCTS) と呼ばれる新しい効率的な最適化アルゴリズムを開発し,トラス構造の適切な設計を求める。 UMCTSは、新しい更新プロセスとモンテカルロ木探索(MCTS)と高信頼境界(UCB)を組み合わせたRLベースの手法である。 更新処理は、各ラウンドにおいて各メンバーの最適断面積が探索木によって決定され、その初期状態が前ラウンドの最終状態となることを意味する。 umctsアルゴリズムでは、計算時間を短縮するために、メンバ領域とイテレーション数の選択回数の加速器を導入する。 さらに、各状態において、最適解を決定するために、平均報酬をシミュレーションプロセスで収集した最高の報酬に置き換える。 離散サイズ変数を用いた平面および空間トラスのベンチマーク問題に対して, 提案手法を適用し, 効率と妥当性を検証した。 提案手法の計算時間はbranch and bound (bb) 法より少なくとも10倍高速であることを示した。 その結果,提案手法は従来の方法よりも安定して解が得られることがわかった。

Sizing optimization of truss structures is a complex computational problem, and the reinforcement learning (RL) is suitable for dealing with multimodal problems without gradient computations. In this paper, a new efficient optimization algorithm called update Monte Carlo tree search (UMCTS) is developed to obtain the appropriate design for truss structures. UMCTS is an RL-based method that combines the novel update process and Monte Carlo tree search (MCTS) with the upper confidence bound (UCB). Update process means that in each round, the optimal cross-sectional area of each member is determined by search tree, and its initial state is the final state in the previous round. In the UMCTS algorithm, an accelerator for the number of selections for member area and iteration number is introduced to reduce the computation time. Moreover, for each state, the average reward is replaced by the best reward collected on the simulation process to determine the optimal solution. The proposed optimization method is examined on some benchmark problems of planar and spatial trusses with discrete sizing variables to demonstrate the efficiency and validity. It is shown that the computation time for the proposed approach is at least ten times faster than the branch and bound (BB) method. The numerical results indicate that the proposed method stably achieves better solution than other conventional methods.
翻訳日:2023-09-13 13:50:11 公開日:2023-09-12
# リンドブラジアン開量子系における合同測定可能性

Joint measurability in Lindbladian open quantum systems ( http://arxiv.org/abs/2309.06040v1 )

ライセンス: Link先を確認
Jukka Kiukas, Pekka Lahti, Juha-Pekka Pellonp\"a\"a(参考訳) リンドブラッド形式のマスター方程式によって支配される開系における量子可観測物の合同測定可能性について検討する。 オープンシステムの歴史的視点と量子測定の概念的側面を概観し、その後量子デコヒーレンスの下での創発的古典性を記述することに焦点をあてる。 量子状態のデコヒーレンスは過去に広く研究されてきたが、測定の側面はよく分かっていない。

We study joint measurability of quantum observables in open systems governed by a master equation of Lindblad form. We briefly review the historical perspective of open systems and conceptual aspects of quantum measurements, focusing subsequently on describing emergent classicality under quantum decoherence. While decoherence in quantum states has been studied extensively in the past, the measurement side is much less understood - here we present and extend some recent results on this topic.
翻訳日:2023-09-13 13:49:48 公開日:2023-09-12
# ビデオストリーミングプラットフォームの最も再生されたデータを予測できますか?

Can we predict the Most Replayed data of video streaming platforms? ( http://arxiv.org/abs/2309.06102v1 )

ライセンス: Link先を確認
Alessandro Duico, Ombretta Strafforello, Jan van Gemert(参考訳) ビデオプラットフォームのターゲット広告配置やビデオクリエーターの支援など、ビデオユーザの特定の部分の再生を予測することは、いくつかのアプリケーションにとって重要である。 本研究では,youtubeビデオから最も再生された(mr)データを予測できるかどうかについて検討する。 この目的のために,大規模なビデオベンチマークであるytmr500データセットをキュレートした。 データセット上の複雑性の異なるディープラーニング(dl)モデルを評価し,広範なアブレーション研究を行う。 また,mrデータ予測におけるヒューマンパフォーマンスを推定するために,ユーザ調査を行った。 その結果, 評価されたDLモデルは, 差が狭いものの, ランダムな予測よりも優れていることがわかった。 また、人間レベルの精度を超えている。 これは、mrデータの予測はdlの助けを借りて強化できる難しいタスクであることを示唆している。 最後に,MRデータ予測におけるDL性能は,例えばマルチモーダル学習を用いてさらに向上できると考えている。 ベンチマークデータセットを使用して、mrデータの自動予測をさらに調査することを研究コミュニティに推奨します。

Predicting which specific parts of a video users will replay is important for several applications, including targeted advertisement placement on video platforms and assisting video creators. In this work, we explore whether it is possible to predict the Most Replayed (MR) data from YouTube videos. To this end, we curate a large video benchmark, the YTMR500 dataset, which comprises 500 YouTube videos with MR data annotations. We evaluate Deep Learning (DL) models of varying complexity on our dataset and perform an extensive ablation study. In addition, we conduct a user study to estimate the human performance on MR data prediction. Our results show that, although by a narrow margin, all the evaluated DL models outperform random predictions. Additionally, they exceed human-level accuracy. This suggests that predicting the MR data is a difficult task that can be enhanced through the assistance of DL. Finally, we believe that DL performance on MR data prediction can be further improved, for example, by using multi-modal learning. We encourage the research community to use our benchmark dataset to further investigate automatic MR data prediction.
翻訳日:2023-09-13 13:42:01 公開日:2023-09-12
# 強化学習のための忠実度による解釈可能なポリシー抽出

Fidelity-Induced Interpretable Policy Extraction for Reinforcement Learning ( http://arxiv.org/abs/2309.06097v1 )

ライセンス: Link先を確認
Xiao Liu, Wubing Chen, Mao Tan(参考訳) 深層強化学習(DRL)は、逐次意思決定問題において顕著な成功を収めた。 しかし、既存のDRLエージェントは不透明な方法で決定を下し、ユーザはエージェントの信頼性を確立し、弱点を精査するのを妨げる。 近年の研究では、エージェントがどのように行動を取るかを説明するための解釈可能なポリシー抽出(ipe)手法が開発されているが、その説明はしばしばエージェントの行動と一致せず、しばしば説明に失敗している。 この問題に取り組むために,忠実性誘導政策抽出(fipe)という新しい手法を提案する。 具体的には,既存のipp法の最適化機構を解析し,累積報酬を増加させながら一貫性を無視する問題を明らかにする。 次に,強化学習フィードバックに忠実度測定を統合することで忠実度誘導機構を設計する。 我々は,現在のipp法で一般的に回避されるstarcraft iiの複雑な制御環境で実験を行う。 実験の結果、FIPEは相互作用性能と一貫性の点でベースラインよりも優れており、理解し易いことがわかった。

Deep Reinforcement Learning (DRL) has achieved remarkable success in sequential decision-making problems. However, existing DRL agents make decisions in an opaque fashion, hindering the user from establishing trust and scrutinizing weaknesses of the agents. While recent research has developed Interpretable Policy Extraction (IPE) methods for explaining how an agent takes actions, their explanations are often inconsistent with the agent's behavior and thus, frequently fail to explain. To tackle this issue, we propose a novel method, Fidelity-Induced Policy Extraction (FIPE). Specifically, we start by analyzing the optimization mechanism of existing IPE methods, elaborating on the issue of ignoring consistency while increasing cumulative rewards. We then design a fidelity-induced mechanism by integrate a fidelity measurement into the reinforcement learning feedback. We conduct experiments in the complex control environment of StarCraft II, an arena typically avoided by current IPE methods. The experiment results demonstrate that FIPE outperforms the baselines in terms of interaction performance and consistency, meanwhile easy to understand.
翻訳日:2023-09-13 13:41:45 公開日:2023-09-12
# 熱画像からの運動誘発疲労の推定

Estimating exercise-induced fatigue from thermal facial images ( http://arxiv.org/abs/2309.06095v1 )

ライセンス: Link先を確認
Manuel Lage Ca\~nellas, Constantino \'Alvarez Casado, Le Nguyen, Miguel Bordallo L\'opez(参考訳) 身体活動によって引き起こされる運動性疲労は、オーバートレーニング、病気、その他の健康上の問題の早期の指標である。 本稿では,深層学習モデルを用いた熱画像および顔分析技術を用いて,運動負荷による疲労度を自動推定する手法を提案する。 休眠時および疲労時の40万以上の熱顔画像からなる新しいデータセットを用いて,運動負荷による疲労レベルは,平均誤差が15\%未満の1つの静的熱フレームで予測できることが示唆された。 以上の結果から, 熱画像と深層学習の併用により, 信頼性の高い運動誘発疲労推定が可能となった。

Exercise-induced fatigue resulting from physical activity can be an early indicator of overtraining, illness, or other health issues. In this article, we present an automated method for estimating exercise-induced fatigue levels through the use of thermal imaging and facial analysis techniques utilizing deep learning models. Leveraging a novel dataset comprising over 400,000 thermal facial images of rested and fatigued users, our results suggest that exercise-induced fatigue levels could be predicted with only one static thermal frame with an average error smaller than 15\%. The results emphasize the viability of using thermal imaging in conjunction with deep learning for reliable exercise-induced fatigue estimation.
翻訳日:2023-09-13 13:41:28 公開日:2023-09-12
# 証明書合成による動的・制御モデルの一般的な検証フレームワーク

A General Verification Framework for Dynamical and Control Models via Certificate Synthesis ( http://arxiv.org/abs/2309.06090v1 )

ライセンス: Link先を確認
Alec Edwards, Andrea Peruffo, Alessandro Abate(参考訳) 制御理論の新しい分野は、自律的または制御モデルに対する所望の(おそらく複雑な)システム動作の仕様に関する証明書学習を専門とし、関数ベースの証明によって分析的に検証される。 しかし、これらの複雑な要件を満たしたコントローラの合成は、一般的には非自明なタスクであり、最も熟練した制御エンジニアから遠ざかる可能性がある。 これにより、コントローラを設計し、広範囲の精巧な仕様を分析できる自動技術が必要である。 本稿では,システム仕様をエンコードし,対応する証明書を定義するための汎用フレームワークを提供し,コントローラと証明書を形式的に合成する自動アプローチを提案する。 提案手法は安全学習の幅広い分野に寄与し、ニューラルネットワークの柔軟性を活用して候補制御と証明機能を提供し、SMTソルバを用いて正当性を正式に保証する。 我々は,プロトタイプソフトウェアツールを開発し,大規模かつ多様なベンチマークスイート上での制御と証明書合成による検証の有効性を評価する。

An emerging branch of control theory specialises in certificate learning, concerning the specification of a desired (possibly complex) system behaviour for an autonomous or control model, which is then analytically verified by means of a function-based proof. However, the synthesis of controllers abiding by these complex requirements is in general a non-trivial task and may elude the most expert control engineers. This results in a need for automatic techniques that are able to design controllers and to analyse a wide range of elaborate specifications. In this paper, we provide a general framework to encode system specifications and define corresponding certificates, and we present an automated approach to formally synthesise controllers and certificates. Our approach contributes to the broad field of safe learning for control, exploiting the flexibility of neural networks to provide candidate control and certificate functions, whilst using SMT-solvers to offer a formal guarantee of correctness. We test our framework by developing a prototype software tool, and assess its efficacy at verification via control and certificate synthesis over a large and varied suite of benchmarks.
翻訳日:2023-09-13 13:41:16 公開日:2023-09-12
# 言語間移動パラダイムにおけるカタストロフィック・フォーミングの測定:チューニング戦略の探求

Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies ( http://arxiv.org/abs/2309.06089v1 )

ライセンス: Link先を確認
Boshko Koloski, Bla\v{z} \v{S}krlj, Marko Robnik-\v{S}ikonja, Senja Pollak(参考訳) 言語間トランスファーは、少ないリソース言語でタスクを解決する有望なテクニックである。 本研究では,大規模言語モデルに対するゼロショットとフルショットの学習手法を組み合わせた2つの微調整手法を,言語横断的に比較した。 微調整戦略として、パラメータ効率の良いアダプタメソッドと全てのパラメータの微調整を比較した。 言語間転送戦略として,各言語を逐次的に使用する中間学習(\textit{it})と,目標言語をすでに微調整の検証フェーズで使用する言語間検証(\textit{clv})を比較した。 異なる言語で新しい情報を学ぶと、言語間移動によるソース言語における伝達の成功と破滅的な記憶の程度、すなわち、以前に獲得した知識がどれだけ失われるかを評価する。 ヘイトスピーチ検出と製品レビューの2つの異なる分類問題(各言語にデータセットを含む)の結果から,対象言語の言語間戦略が目標言語に対してより優れていることが示された。 以上の結果から,多言語間移動における破滅的忘れ込みの評価において, 基本言語(英語)における知識の保持が, 基本言語(英語)における知識の保持に優れていることが示唆された。

The cross-lingual transfer is a promising technique to solve tasks in less-resourced languages. In this empirical study, we compare two fine-tuning approaches combined with zero-shot and full-shot learning approaches for large language models in a cross-lingual setting. As fine-tuning strategies, we compare parameter-efficient adapter methods with fine-tuning of all parameters. As cross-lingual transfer strategies, we compare the intermediate-training (\textit{IT}) that uses each language sequentially and cross-lingual validation (\textit{CLV}) that uses a target language already in the validation phase of fine-tuning. We assess the success of transfer and the extent of catastrophic forgetting in a source language due to cross-lingual transfer, i.e., how much previously acquired knowledge is lost when we learn new information in a different language. The results on two different classification problems, hate speech detection and product reviews, each containing datasets in several languages, show that the \textit{IT} cross-lingual strategy outperforms \textit{CLV} for the target language. Our findings indicate that, in the majority of cases, the \textit{CLV} strategy demonstrates superior retention of knowledge in the base language (English) compared to the \textit{IT} strategy, when evaluating catastrophic forgetting in multiple cross-lingual transfers.
翻訳日:2023-09-13 13:40:59 公開日:2023-09-12
# 非教師なし連続学習のための可塑性最適化相補ネットワーク

Plasticity-Optimized Complementary Networks for Unsupervised Continual Learning ( http://arxiv.org/abs/2309.06086v1 )

ライセンス: Link先を確認
Alex Gomez-Villa, Bartlomiej Twardowski, Kai Wang, Joost van de Weijer(参考訳) 連続教師なし表現学習(curl)研究は、自己教師なし学習(ssl)技術の改善から大きな恩恵を受けている。 その結果、SSLを使った既存のCURLメソッドは、ラベルなしで高品質な表現を学習できるが、マルチタスクのデータストリームで学ぶと顕著なパフォーマンス低下が発生する。 我々は、これは、忘れることを防ぐために課される正規化損失によって引き起こされるものであり、最適塑性-安定性のトレードオフにつながる:それらは、受信データ(低可塑性)に完全に適応しないか、新しいSSLプリテキストタスク(低安定性)に完全に適応することが許された場合に重大な忘れが生じる。 本研究では,これまでの知識を保ち,新たなタスク(可塑性の最適化)に最適な作業に集中できる専門家ネットワークを育成することを提案する。 第2フェーズでは,新たな知識と従来のネットワークとを組み合わせることで,新たな専門家の忘れを回避し,古いネットワークの知識を初期化する。 提案手法は,数段および多段の分割設定において,他のCURL例のない手法よりも優れていることを示す実験を行った。 さらに, 半教師付き連続学習(Semi-SCL)へのアプローチの適応方法を示し, 従来の半SCL手法の精度を超越し, 模範を用いたいくつかの結果に到達したことを示す。

Continuous unsupervised representation learning (CURL) research has greatly benefited from improvements in self-supervised learning (SSL) techniques. As a result, existing CURL methods using SSL can learn high-quality representations without any labels, but with a notable performance drop when learning on a many-tasks data stream. We hypothesize that this is caused by the regularization losses that are imposed to prevent forgetting, leading to a suboptimal plasticity-stability trade-off: they either do not adapt fully to the incoming data (low plasticity), or incur significant forgetting when allowed to fully adapt to a new SSL pretext-task (low stability). In this work, we propose to train an expert network that is relieved of the duty of keeping the previous knowledge and can focus on performing optimally on the new tasks (optimizing plasticity). In the second phase, we combine this new knowledge with the previous network in an adaptation-retrospection phase to avoid forgetting and initialize a new expert with the knowledge of the old network. We perform several experiments showing that our proposed approach outperforms other CURL exemplar-free methods in few- and many-task split settings. Furthermore, we show how to adapt our approach to semi-supervised continual learning (Semi-SCL) and show that we surpass the accuracy of other exemplar-free Semi-SCL methods and reach the results of some others that use exemplars.
翻訳日:2023-09-13 13:40:36 公開日:2023-09-12
# bhasa:大規模言語モデルのための総合的東南アジア言語・文化評価スイート

BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation Suite for Large Language Models ( http://arxiv.org/abs/2309.06085v1 )

ライセンス: Link先を確認
Wei Qi Leong, Jian Gang Ngui, Yosephine Susanto, Hamsawardhini Rengarajan, Kengatharaiyer Sarveswaran, William Chandra Tjhi(参考訳) 大規模言語モデル(LLM)の急速な発展とスケールによる新しい能力の出現は、HELMやBIG-benchといった総合的で多様で困難なベンチマークの構築を必要としている。 しかし現時点では、これらのベンチマークのほとんどは英語のパフォーマンスのみに焦点を当てており、東南アジア(SEA)言語を含む評価は少ない。 そこで我々は,SEA言語におけるLLMの総合的言語的・文化的評価スイートであるBHASAを提案する。 1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。 この予備的な取り組みのために、インドネシア、ベトナム、タイ、タミルでのみNLPベンチマークを実装し、LINDSEAと文化的診断データセットのためにインドネシアとタミルのみを含む。 GPT-4は、現時点で最も優れた多言語LLMの1つであり、SEA言語の文脈におけるLLMの能力を評価するためにヤードスティックとして使用しています。 GPT-4とBHASAの初期実験では,言語能力,文化的表現,センシティブなSEA言語が欠如していることが判明した。 BHASAは現在開発中で、今後も改善と拡張が続けられる予定である。

The rapid development of Large Language Models (LLMs) and the emergence of novel abilities with scale have necessitated the construction of holistic, diverse and challenging benchmarks such as HELM and BIG-bench. However, at the moment, most of these benchmarks focus only on performance in English and evaluations that include Southeast Asian (SEA) languages are few in number. We therefore propose BHASA, a holistic linguistic and cultural evaluation suite for LLMs in SEA languages. It comprises three components: (1) a NLP benchmark covering eight tasks across Natural Language Understanding (NLU), Generation (NLG) and Reasoning (NLR) tasks, (2) LINDSEA, a linguistic diagnostic toolkit that spans the gamut of linguistic phenomena including syntax, semantics and pragmatics, and (3) a cultural diagnostics dataset that probes for both cultural representation and sensitivity. For this preliminary effort, we implement the NLP benchmark only for Indonesian, Vietnamese, Thai and Tamil, and we only include Indonesian and Tamil for LINDSEA and the cultural diagnostics dataset. As GPT-4 is purportedly one of the best-performing multilingual LLMs at the moment, we use it as a yardstick to gauge the capabilities of LLMs in the context of SEA languages. Our initial experiments on GPT-4 with BHASA find it lacking in various aspects of linguistic capabilities, cultural representation and sensitivity in the targeted SEA languages. BHASA is a work in progress and will continue to be improved and expanded in the future.
翻訳日:2023-09-13 13:40:09 公開日:2023-09-12
# 電力市場価格イベントのプライマリドライバを分解する機械学習フレームワーク

A Machine Learning Framework to Deconstruct the Primary Drivers for Electricity Market Price Events ( http://arxiv.org/abs/2309.06082v1 )

ライセンス: Link先を確認
Milan Jain, Xueqing Sun, Sohom Datta and Abhishek Somani(参考訳) 電力網は100%再生可能エネルギー源バルク電力網に移行しており、電力系統の運用と電力市場全体のダイナミクスは変化している。 電力市場は、資源を経済的に供給するだけでなく、再生可能量削減、送電渋滞緩和、電力貯蔵の最適化といった様々な制御可能な行動も考慮している。 その結果、電力市場における価格形成は非常に複雑になった。 従来の根本原因分析と統計的アプローチは、現代のグリッドおよび可変再生エネルギー(VRE)市場における価格形成の背後にある主要な要因を分析し、推測するために適用できない。 本稿では,再生可能エネルギーの高い近代電力市場における価格急上昇イベントの原動力を分解する機械学習に基づく分析フレームワークを提案する。 この結果は、市場設計、再生可能ディスパッチと削減、運用、サイバーセキュリティアプリケーションにおける様々な重要な側面に利用することができる。 このフレームワークは、任意のisoデータや市場データに適用することができるが、本論文では、california independent system operator (caiso) とiso new england (iso-ne)の公開データセットをオープンソースとして適用する。

Power grids are moving towards 100% renewable energy source bulk power grids, and the overall dynamics of power system operations and electricity markets are changing. The electricity markets are not only dispatching resources economically but also taking into account various controllable actions like renewable curtailment, transmission congestion mitigation, and energy storage optimization to ensure grid reliability. As a result, price formations in electricity markets have become quite complex. Traditional root cause analysis and statistical approaches are rendered inapplicable to analyze and infer the main drivers behind price formation in the modern grid and markets with variable renewable energy (VRE). In this paper, we propose a machine learning-based analysis framework to deconstruct the primary drivers for price spike events in modern electricity markets with high renewable energy. The outcomes can be utilized for various critical aspects of market design, renewable dispatch and curtailment, operations, and cyber-security applications. The framework can be applied to any ISO or market data; however, in this paper, it is applied to open-source publicly available datasets from California Independent System Operator (CAISO) and ISO New England (ISO-NE).
翻訳日:2023-09-13 13:39:41 公開日:2023-09-12
# グラフニューラルネットワークにおける情報フロー:臨床トリアージ応用例

Information Flow in Graph Neural Networks: A Clinical Triage Use Case ( http://arxiv.org/abs/2309.06081v1 )

ライセンス: Link先を確認
V\'ictor Valls, Mykhaylo Zayats, Alessandra Pascale(参考訳) グラフニューラルネットワーク(GNN)は、マルチモーダルグラフとマルチリレーショナルグラフを処理する能力によって、医療やその他の領域で人気を集めている。 しかし、GNNの効率的な訓練は依然として困難であり、いくつかのオープンな研究課題がある。 本稿では,GNN内の埋め込み情報の流れが知識グラフ(KG)におけるリンクの予測にどのように影響するかを検討する。 具体的には、グラフデータの接続からGNN接続を分離する数学的モデルを提案し、臨床トリアージユースケースにおけるGNNの性能を評価する。 以上の結果から,ドメイン知識をGNN接続に組み込むことで,KGと同じ接続を使用する場合や,制約のない埋め込み伝搬を行う場合よりも優れた性能が得られることが示された。 さらに,予測精度の向上には負のエッジが重要な役割を担い,GNN層が多すぎると性能が低下することを示した。

Graph Neural Networks (GNNs) have gained popularity in healthcare and other domains due to their ability to process multi-modal and multi-relational graphs. However, efficient training of GNNs remains challenging, with several open research questions. In this paper, we investigate how the flow of embedding information within GNNs affects the prediction of links in Knowledge Graphs (KGs). Specifically, we propose a mathematical model that decouples the GNN connectivity from the connectivity of the graph data and evaluate the performance of GNNs in a clinical triage use case. Our results demonstrate that incorporating domain knowledge into the GNN connectivity leads to better performance than using the same connectivity as the KG or allowing unconstrained embedding propagation. Moreover, we show that negative edges play a crucial role in achieving good predictions, and that using too many GNN layers can degrade performance.
翻訳日:2023-09-13 13:39:18 公開日:2023-09-12
# a2v : 2相訓練アンギオグラフィーからベントグラフィーへの変換による脳血管セグメンテーションのための半教師付きドメイン適応フレームワーク

A2V: A Semi-Supervised Domain Adaptation Framework for Brain Vessel Segmentation via Two-Phase Training Angiography-to-Venography Translation ( http://arxiv.org/abs/2309.06075v1 )

ライセンス: Link先を確認
Francesco Galati, Daniele Falcetta, Rosa Cortese, Barbara Casolla, Ferran Prados, Ninon Burgos, Maria A. Zuluaga(参考訳) 画像の異なる脳血管セグメンテーションのための半教師付きドメイン適応フレームワークを提案する。 既存の最先端の手法は、脳血管イメージングの幅広い技術にもかかわらず、単一のモダリティに焦点を当てている。 これは、モダリティ間の一般化に悪影響を及ぼす大きな分布シフトをもたらす可能性がある。 アノテーション付血管造影と限られた数の血管造影に頼って画像から画像への翻訳とセマンティックセマンティックセグメンテーションを実現し、不均一なデータを表現し、ソースからターゲットドメインへの画像レベルの適応を行う。 さらに、サイクルベースアーキテクチャの典型的な複雑さを減らし、敵対的トレーニングの使用を最小限に抑え、安定したトレーニングを伴う効率的で直感的なモデルを構築することができる。 磁気共鳴血管造影法と血管造影法について検討した。 ソース領域で最先端のパフォーマンスを実現する一方で, 目標領域ではわずか8.9%のディススコア係数を達成し, 異なるモードにまたがるロバストな脳血管画像セグメンテーションの可能性を強調した。

We present a semi-supervised domain adaptation framework for brain vessel segmentation from different image modalities. Existing state-of-the-art methods focus on a single modality, despite the wide range of available cerebrovascular imaging techniques. This can lead to significant distribution shifts that negatively impact the generalization across modalities. By relying on annotated angiographies and a limited number of annotated venographies, our framework accomplishes image-to-image translation and semantic segmentation, leveraging a disentangled and semantically rich latent space to represent heterogeneous data and perform image-level adaptation from source to target domains. Moreover, we reduce the typical complexity of cycle-based architectures and minimize the use of adversarial training, which allows us to build an efficient and intuitive model with stable training. We evaluate our method on magnetic resonance angiographies and venographies. While achieving state-of-the-art performance in the source domain, our method attains a Dice score coefficient in the target domain that is only 8.9% lower, highlighting its promising potential for robust cerebrovascular image segmentation across different modalities.
翻訳日:2023-09-13 13:39:02 公開日:2023-09-12
# JOADAA:オンライン行動検出と行動予測の共同研究

JOADAA: joint online action detection and action anticipation ( http://arxiv.org/abs/2309.06130v1 )

ライセンス: Link先を確認
Mohammed Guermal, Francois Bremond, Rui Dai, Abid Ali(参考訳) 行動予測は、過去の出来事と将来の出来事を結びつけることによって将来の行動を予測する。 しかし、この推論は、過去、現在、未来という3つの主要部分からなると考えられるイベントの実生活階層を無視している。 これら3つの主要な部分とその依存関係を考慮すると、パフォーマンスが向上します。 その一方で、オンラインアクション検出は、アクションをストリーミング形式で予測するタスクである。 この場合、過去と現在の情報のみにアクセスすることができる。 したがって、オンラインアクション検出(OAD)では、既存のアプローチは、パフォーマンスを制限するセマンティクスや将来の情報を見逃している。 まとめると、これら2つのタスクでは、完全な知識セット(past-present-future)が欠落しているため、アクション依存性の推測が難しくなり、パフォーマンスが低下する。 この制限に対処するため、我々は両方のタスクを単一の統一アーキテクチャに融合することを提案する。 行動予測とオンライン行動検出を組み合わせることで、オンライン行動検出における未来の情報の欠如をカバーできる。 この方法はJOADAAと呼ばれ、行動予測とオンライン行動検出を共同で行う一様モデルを示す。 我々は提案したモデルを3つの挑戦的データセットに対して検証した。THUMOS'14は、より複雑なシナリオを持つ2つの厳密な注釈付きデータセットであるCARADESとMulti-THUMOSである。 JOADAAは両方のタスクのベンチマークでSOTA結果を達成する。

Action anticipation involves forecasting future actions by connecting past events to future ones. However, this reasoning ignores the real-life hierarchy of events which is considered to be composed of three main parts: past, present, and future. We argue that considering these three main parts and their dependencies could improve performance. On the other hand, online action detection is the task of predicting actions in a streaming manner. In this case, one has access only to the past and present information. Therefore, in online action detection (OAD) the existing approaches miss semantics or future information which limits their performance. To sum up, for both of these tasks, the complete set of knowledge (past-present-future) is missing, which makes it challenging to infer action dependencies, therefore having low performances. To address this limitation, we propose to fuse both tasks into a single uniform architecture. By combining action anticipation and online action detection, our approach can cover the missing dependencies of future information in online action detection. This method referred to as JOADAA, presents a uniform model that jointly performs action anticipation and online action detection. We validate our proposed model on three challenging datasets: THUMOS'14, which is a sparsely annotated dataset with one action per time step, CHARADES, and Multi-THUMOS, two densely annotated datasets with more complex scenarios. JOADAA achieves SOTA results on these benchmarks for both tasks.
翻訳日:2023-09-13 13:32:44 公開日:2023-09-12
# LEyes:合成眼画像を用いた深層学習眼球追跡のための軽量フレームワーク

LEyes: A Lightweight Framework for Deep Learning-Based Eye Tracking using Synthetic Eye Images ( http://arxiv.org/abs/2309.06129v1 )

ライセンス: Link先を確認
sean anthony byrne, virmarie maquiling, marcus nystr\"om, enkelejda kasneci, diederick c. niehorster(参考訳) ディープラーニングは視線推定技術を強化しているが、実際のデプロイメントは不適切なトレーニングデータセットによって妨げられている。 この問題は、ハードウェアによって引き起こされる眼像の変化と、記録された参加者間の固有の生物学的差異の両方によって悪化し、特定のデータセットで訓練されたモデルの一般化性を阻害する特徴レベルと画素レベルのばらつきが生じる。 合成データセットはソリューションであり得るが、その生成は時間とリソース集約の両方である。 この問題に対処するために、従来のフォトリアリスティック手法とは異なり、簡単な光分布を用いた映像ベースのアイトラッキングに必要な重要な特徴をモデル化するフレームワーク「ライトアイズ」や「リーズ」を提案する。 LEyesは、さまざまな視線推定タスクにわたるニューラルネットワークのトレーニングを容易にする。 LEyesを用いてトレーニングされたモデルは、よく知られたデータセットをまたいだ瞳孔およびCRローカライゼーションにおいて、他の最先端アルゴリズムよりも優れていることを示す。 さらにleyesがトレーニングしたモデルは、業界標準のアイトラッカーをはるかに高いコスト効率のハードウェアで上回っている。 今後、レイズは視線推定モデルのための合成データ生成に革命をもたらし、次世代のビデオベースのアイトラッカーの大幅な改善につながると確信しています。

Deep learning has bolstered gaze estimation techniques, but real-world deployment has been impeded by inadequate training datasets. This problem is exacerbated by both hardware-induced variations in eye images and inherent biological differences across the recorded participants, leading to both feature and pixel-level variance that hinders the generalizability of models trained on specific datasets. While synthetic datasets can be a solution, their creation is both time and resource-intensive. To address this problem, we present a framework called Light Eyes or "LEyes" which, unlike conventional photorealistic methods, only models key image features required for video-based eye tracking using simple light distributions. LEyes facilitates easy configuration for training neural networks across diverse gaze-estimation tasks. We demonstrate that models trained using LEyes outperform other state-of-the-art algorithms in terms of pupil and CR localization across well-known datasets. In addition, a LEyes trained model outperforms the industry standard eye tracker using significantly more cost-effective hardware. Going forward, we are confident that LEyes will revolutionize synthetic data generation for gaze estimation models, and lead to significant improvements of the next generation video-based eye trackers.
翻訳日:2023-09-13 13:32:22 公開日:2023-09-12
# MorpherによるエッジAIの高速化 - CGRAのための統合設計、コンパイル、シミュレーションフレームワーク

Accelerating Edge AI with Morpher: An Integrated Design, Compilation and Simulation Framework for CGRAs ( http://arxiv.org/abs/2309.06127v1 )

ライセンス: Link先を確認
Dhananjaya Wijerathne, Zhaoying Li, Tulika Mitra(参考訳) Coarse-Grained Reconfigurable Arrays (CGRA)は、電力効率の高いエッジアクセラレータとして大きな可能性を秘めており、AIアプリケーション以外の汎用性を提供します。 Morpherはオープンソースのアーキテクチャ適応型CGRA設計フレームワークであり、CGRAの広大なデザイン空間を探求するために特別に設計された。 morpherの包括的なエコシステムには、カスタマイズされたコンパイラ、シミュレータ、アクセラレーション合成、バリデーションフレームワークが含まれる。 本稿では,aiアプリケーションカーネルをユーザ定義cgraアーキテクチャに自動コンパイルし,その機能を検証したmorpherの概要を紹介する。 Morpherフレームワークを通じて、CGRAの汎用性は、エッジAIアプリケーションの効率的なコンパイルと検証を容易にするために利用され、幅広い組み込みAIワークロードを代表する重要なカーネルをカバーする。 morpherはhttps://github.com/ecolab-nus/morpher-v2で入手できる。

Coarse-Grained Reconfigurable Arrays (CGRAs) hold great promise as power-efficient edge accelerator, offering versatility beyond AI applications. Morpher, an open-source, architecture-adaptive CGRA design framework, is specifically designed to explore the vast design space of CGRAs. The comprehensive ecosystem of Morpher includes a tailored compiler, simulator, accelerator synthesis, and validation framework. This study provides an overview of Morpher, highlighting its capabilities in automatically compiling AI application kernels onto user-defined CGRA architectures and verifying their functionality. Through the Morpher framework, the versatility of CGRAs is harnessed to facilitate efficient compilation and verification of edge AI applications, covering important kernels representative of a wide range of embedded AI workloads. Morpher is available online at https://github.com/ecolab-nus/morpher-v2.
翻訳日:2023-09-13 13:32:03 公開日:2023-09-12
# AstroLLaMA:天文学における特別な基礎モデルを目指して

AstroLLaMA: Towards Specialized Foundation Models in Astronomy ( http://arxiv.org/abs/2309.06126v1 )

ライセンス: Link先を確認
Tuan Dung Nguyen, Yuan-Sen Ting, Ioana Ciuc\u{a}, Charlie O'Neill, Ze-Chang Sun, Maja Jab{\l}o\'nska, Sandor Kruk, Ernest Perkowski, Jack Miller, Jason Li, Josh Peek, Kartheik Iyer, Tomasz R\'o\.za\'nski, Pranav Khetarpal, Sharaf Zaman, David Brodrick, Sergio J. Rodr\'iguez M\'endez, Thang Bui, Alyssa Goodman, Alberto Accomazzi, Jill Naiman, Jesse Cranney, Kevin Schawinski, UniverseTBD(参考訳) 大規模な言語モデルは、多くの人間の言語課題において優れているが、学術天文学のような高度に専門的な領域でしばしば崩れる。 このギャップを埋めるために、arXivから30万以上の天文学的抽象化を用いてLLaMA-2から微調整された7ビリオンパラメータモデルAstroLLaMAを導入する。 従来の因果言語モデリングに最適化されたAstroLLaMAは、Llama-2よりも30%低いパープレキシティを実現し、ドメイン適応が顕著である。 我々のモデルは、パラメータが著しく少ないにもかかわらず、より洞察力が高く科学的に関係のあるテキスト補完と組込み抽出を生成する。 AstroLLaMAは、幅広い微調整ポテンシャルを持つ堅牢なドメイン固有モデルとして機能する。 その公開リリースは、自動要約や会話エージェントの開発を含む天文学的な研究を促進することを目的としている。

Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.
翻訳日:2023-09-13 13:31:46 公開日:2023-09-12
# パラメータ高効率転送学習のための動的視覚プロンプトチューニング

Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning ( http://arxiv.org/abs/2309.06123v1 )

ライセンス: Link先を確認
Chunqing Ruan, Hongjian Wang(参考訳) パラメータ効率的な伝達学習(PETL)は,大規模事前学習モデルの下流タスクへの適応を目的とした,新たな研究分野である。 近年の進歩はストレージと計算コストの削減に大きな成功を収めている。 しかし、これらのメソッドは、視覚的タスクのインスタンス固有の視覚的手掛かりを考慮していない。 本稿では,各画像に対して動的インスタンス単位のトークンを生成する動的ビジュアルプロンプトチューニングフレームワーク(DVPT)を提案する。 このようにして、各画像のユニークな視覚的特徴をキャプチャし、より下流の視覚的タスクに適している。 各画像に基づいて学習可能なプロンプトを生成し,動的インスタンス毎の視覚的特徴をキャプチャするメタネットモジュールを設計した。 広範囲な下流認識タスクに対する広範囲な実験により、DVPTは他のPETL法よりも優れた性能を発揮することが示された。 さらに重要なことに、dvptは、19のダウンストリームタスク中17の完全な微調整を上回り、高いパラメータ効率を維持している。 私たちのコードはまもなくリリースされます。

Parameter efficient transfer learning (PETL) is an emerging research spot that aims to adapt large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage and computation costs. However, these methods do not take into account instance-specific visual clues for visual tasks. In this paper, we propose a Dynamic Visual Prompt Tuning framework (DVPT), which can generate a dynamic instance-wise token for each image. In this way, it can capture the unique visual feature of each image, which can be more suitable for downstream visual tasks. We designed a Meta-Net module that can generate learnable prompts based on each image, thereby capturing dynamic instance-wise visual features. Extensive experiments on a wide range of downstream recognition tasks show that DVPT achieves superior performance than other PETL methods. More importantly, DVPT even outperforms full fine-tuning on 17 out of 19 downstream tasks while maintaining high parameter efficiency. Our code will be released soon.
翻訳日:2023-09-13 13:31:32 公開日:2023-09-12
# 高分解能透過電子顕微鏡(HRTEM)における機械学習のための堅牢な合成データ生成フレームワーク

A robust synthetic data generation framework for machine learning in High-Resolution Transmission Electron Microscopy (HRTEM) ( http://arxiv.org/abs/2309.06122v1 )

ライセンス: Link先を確認
Luis Rangel DaCosta, Katherine Sytwu, Catherine Groschner, Mary Scott(参考訳) 機械学習技術は、高分解能透過電子顕微鏡(hrtem)を含むナノ材料キャラクタリゼーションのための高精度な自動分析ツールを開発するための魅力的な選択肢である。 しかし,実験から十分な大規模で高品質なトレーニングデータセットを取得することの難しさから,このような機械学習ツールをうまく実装することは困難である。 本稿では,複雑なナノスケール原子構造を迅速に生成するpythonパッケージであるconstruction zoneを紹介し,ニューラルネットワークをトレーニングするための大規模シミュレーションデータベースを作成するためのエンドツーエンドワークフローを開発する。 建設ゾーンは、現実的なナノマテリアル構造の高速で体系的なサンプリングを可能にし、大規模で多様な合成データセットを生成するのに重要なシミュレーションデータベースのランダム構造生成器として使用できる。 hrtemイメージングを例に,シミュレーションデータベースの各種サブセット上で一連のニューラルネットワークを訓練し,ナノ粒子を分割し,データキュレーション過程を段階的に研究し,シミュレーション忠実性,原子構造分布,イメージング条件の分布など,キュレートされたシミュレーションデータのさまざまな側面が,いくつかの実験ベンチマークでモデル性能に与える影響を理解する。 実験結果から, ナノ粒子のHRTEM画像上での最先端のセグメンテーション性能を実現し, さらに, 純粋合成データを用いた実験環境下での機械学習による高性能化を継続的に行うための頑健な戦略について考察した。

Machine learning techniques are attractive options for developing highly-accurate automated analysis tools for nanomaterials characterization, including high-resolution transmission electron microscopy (HRTEM). However, successfully implementing such machine learning tools can be difficult due to the challenges in procuring sufficiently large, high-quality training datasets from experiments. In this work, we introduce Construction Zone, a Python package for rapidly generating complex nanoscale atomic structures, and develop an end-to-end workflow for creating large simulated databases for training neural networks. Construction Zone enables fast, systematic sampling of realistic nanomaterial structures, and can be used as a random structure generator for simulated databases, which is important for generating large, diverse synthetic datasets. Using HRTEM imaging as an example, we train a series of neural networks on various subsets of our simulated databases to segment nanoparticles and holistically study the data curation process to understand how various aspects of the curated simulated data -- including simulation fidelity, the distribution of atomic structures, and the distribution of imaging conditions -- affect model performance across several experimental benchmarks. Using our results, we are able to achieve state-of-the-art segmentation performance on experimental HRTEM images of nanoparticles from several experimental benchmarks and, further, we discuss robust strategies for consistently achieving high performance with machine learning in experimental settings using purely synthetic data.
翻訳日:2023-09-13 13:31:17 公開日:2023-09-12
# c-ritnet: 補完的情報マイニングのない赤外線および可視画像融合

C-RITNet: Set Infrared and Visible Image Fusion Free from Complementary Information Mining ( http://arxiv.org/abs/2309.06118v1 )

ライセンス: Link先を確認
Yafei Zhang, Keying Du, Huafeng Li, Zhengtao Yu, Yu Liu(参考訳) 赤外線および可視画像融合(ivif)は、2つの異なるモードの補完情報を抽出・統合し、優れたターゲットと豊富なテクスチャ詳細を持つ高品質な融合画像を生成することを目的としている。 しかし、現在の画像融合法は相補的な特徴を発掘するために非常に長い時間を要するため、一般的には2つの努力によって達成される。 一方、特徴抽出ネットワークは、補完的情報抽出において優れた性能を有することが期待される。 一方、複雑な融合戦略は相補的な情報を集約するためにしばしば設計される。 言い換えれば、ネットワークが補完的な情報を知覚し抽出できるようにすることは極めて困難である。 複雑な融合戦略は効果的ではあるが、依然として弱いエッジの詳細を失うリスクを負っている。 そこで本稿では,IVIFを箱の外に再考し,補完的冗長情報伝達ネットワーク(C-RITNet)を提案する。 相補的情報を冗長なものに合理的に転送し、2つのモードから相補的特徴と相補的特徴の両方を統合する。 そこで,提案手法は,相補的な情報抽出による課題を緩和し,高度な融合戦略への依存を減らすことができる。 具体的には,まず相互情報伝達(mit)モジュールの設計を行い,その特徴を2つのモダリティから相互に表現し,補完情報を冗長なものに大まかに置き換える。 そして、ソース画像(RIASSI)モジュールによって管理される冗長情報取得を考案し、MIT以降の補間情報転送をさらに確実にする。 また,ソース画像のエッジ構造情報を融合結果に転送可能であることを保証する構造情報保存(sip)モジュールを提案する。

Infrared and visible image fusion (IVIF) aims to extract and integrate the complementary information in two different modalities to generate high-quality fused images with salient targets and abundant texture details. However, current image fusion methods go to great lengths to excavate complementary features, which is generally achieved through two efforts. On the one hand, the feature extraction network is expected to have excellent performance in extracting complementary information. On the other hand, complex fusion strategies are often designed to aggregate the complementary information. In other words, enabling the network to perceive and extract complementary information is extremely challenging. Complicated fusion strategies, while effective, still run the risk of losing weak edge details. To this end, this paper rethinks the IVIF outside the box, proposing a complementary-redundant information transfer network (C-RITNet). It reasonably transfers complementary information into redundant one, which integrates both the shared and complementary features from two modalities. Hence, the proposed method is able to alleviate the challenges posed by the complementary information extraction and reduce the reliance on sophisticated fusion strategies. Specifically, to skillfully sidestep aggregating complementary information in IVIF, we first design the mutual information transfer (MIT) module to mutually represent features from two modalities, roughly transferring complementary information into redundant one. Then, a redundant information acquisition supervised by source image (RIASSI) module is devised to further ensure the complementary-redundant information transfer after MIT. Meanwhile, we also propose a structure information preservation (SIP) module to guarantee that the edge structure information of the source images can be transferred to the fusion results.
翻訳日:2023-09-13 13:30:50 公開日:2023-09-12
# メディアハウスの潜在視点を公人に向けて特徴づける

Characterizing Latent Perspectives of Media Houses Towards Public Figures ( http://arxiv.org/abs/2309.06112v1 )

ライセンス: Link先を確認
Sharath Srivatsa, Srinath Srinivasa(参考訳) メディアハウスは公共の人物を報告しており、しばしばそれぞれの世界観から生じる独自の偏見を伴っている。 これらの基礎となるパターンの特徴づけは、ニュースストーリーをよりよく理解し解釈するのに役立ちます。 そのためには多様あるいは主観的な要約が必要であり、事前に定義されたクラスラベルの分類には適さないかもしれない。 本研究は,GPT-2を用いたコーパスからの人物の非抽出的・生成的特徴評価のためのゼロショットアプローチを提案する。 私たちは、このアプローチの健全な議論を構築するために、いくつかの有名なニュースメディアハウスからのよく知られた記事をコーパスとして使用します。 まず、GPT-2事前学習言語モデルに、特定の人物を特徴付けるコーパスを付与する。 第二に、プログラムで構築された特徴のコーパスから作成された人物エンティティ特性のデモンストレーションにより、さらにこれを微調整する。 この2つの微調整されたモデルは、第2の微調整で以前に遭遇しなかったエンティティ名からなる手動のプロンプトでプライミングされ、エンティティに関する簡単な文を生成する。 結果は、コーパスの実際の特徴と比較すると、励まされた。

Media houses reporting on public figures, often come with their own biases stemming from their respective worldviews. A characterization of these underlying patterns helps us in better understanding and interpreting news stories. For this, we need diverse or subjective summarizations, which may not be amenable for classifying into predefined class labels. This work proposes a zero-shot approach for non-extractive or generative characterizations of person entities from a corpus using GPT-2. We use well-articulated articles from several well-known news media houses as a corpus to build a sound argument for this approach. First, we fine-tune a GPT-2 pre-trained language model with a corpus where specific person entities are characterized. Second, we further fine-tune this with demonstrations of person entity characterizations, created from a corpus of programmatically constructed characterizations. This twice fine-tuned model is primed with manual prompts consisting of entity names that were not previously encountered in the second fine-tuning, to generate a simple sentence about the entity. The results were encouraging, when compared against actual characterizations from the corpus.
翻訳日:2023-09-13 13:30:21 公開日:2023-09-12
# HOC-Search: RGB-Dの効率的なCADモデルと詩検索

HOC-Search: Efficient CAD Model and Pose Retrieval from RGB-D Scans ( http://arxiv.org/abs/2309.06107v1 )

ライセンス: Link先を確認
Stefan Ainetter, Sinisa Stekovic, Friedrich Fraundorfer, Vincent Lepetit(参考訳) 移動RGB-Dカメラで撮影するシーンにおいて,オブジェクトの高品質CADモデルとそのポーズを自動かつ効率的に検索する手法を提案する。 まず,候補CADオブジェクトモデルと利用可能なデータとの類似性を測定するための様々な目的関数について検討し,最良目的関数は深度とマスクレンダリングを比較する「render-and-compare」手法であると考えられる。 そこで本研究では,オブジェクトカテゴリ,CADモデル,および近似3次元バウンディングボックスが与えられたオブジェクトのポーズを同時に検索するために,この目的関数に基づいて全探索を近似する高速探索手法を提案する。 本手法は,オブジェクトカテゴリを含むCADモデルとオブジェクト特性を整理し,高速検索を行う探索木と,この木を効率的に検索するモンテカルロ木探索にインスパイアされたアルゴリズムを含む。 本手法では, 実物体に適合するCADモデルを, 徹底探索と比較して10倍から120倍の高速化率で検索する。

We present an automated and efficient approach for retrieving high-quality CAD models of objects and their poses in a scene captured by a moving RGB-D camera. We first investigate various objective functions to measure similarity between a candidate CAD object model and the available data, and the best objective function appears to be a "render-and-compare" method comparing depth and mask rendering. We thus introduce a fast-search method that approximates an exhaustive search based on this objective function for simultaneously retrieving the object category, a CAD model, and the pose of an object given an approximate 3D bounding box. This method involves a search tree that organizes the CAD models and object properties including object category and pose for fast retrieval and an algorithm inspired by Monte Carlo Tree Search, that efficiently searches this tree. We show that this method retrieves CAD models that fit the real objects very well, with a speed-up factor of 10x to 120x compared to exhaustive search.
翻訳日:2023-09-13 13:30:04 公開日:2023-09-12
# 視覚分類学の拡大に向けて

Towards Visual Taxonomy Expansion ( http://arxiv.org/abs/2309.06105v1 )

ライセンス: Link先を確認
Tinghui Zhu, Jingping Liu, Jiaqing Liang, Haiyun Jiang, Yanghua Xiao, Zongyu Wang, Rui Xie, Yunsen Xian(参考訳) 分類学の拡大課題は、新しい概念を既存の分類体系にまとめるのに不可欠である。 既存のほとんどの手法はテキストセマンティクスの使用にのみ焦点をあてており、未確認用語や「プロトタイプのハイパーネム問題」に一般化できない。 本稿では,分類拡張タスクに視覚的特徴を導入した視覚的分類拡張(VTE)を提案する。 テキストと視覚のセマンティクスをクラスタ化するためのテキストハイパーニーミー学習タスクとビジュアルプロトタイプ学習タスクを提案する。 それぞれのモーダル性に関するタスクに加えて,テキストと視覚のセマンティクスを統合し,きめ細かい視覚的セマンティクスを生成するハイパープロト制約を導入する。 提案手法を2つのデータセットで評価し,有意な結果を得た。 特に,中国の分類データセットでは,精度が8.75%向上した。 さらに,中国の分類データセットでは,chatgptよりも優れた手法である。

Taxonomy expansion task is essential in organizing the ever-increasing volume of new concepts into existing taxonomies. Most existing methods focus exclusively on using textual semantics, leading to an inability to generalize to unseen terms and the "Prototypical Hypernym Problem." In this paper, we propose Visual Taxonomy Expansion (VTE), introducing visual features into the taxonomy expansion task. We propose a textual hypernymy learning task and a visual prototype learning task to cluster textual and visual semantics. In addition to the tasks on respective modalities, we introduce a hyper-proto constraint that integrates textual and visual semantics to produce fine-grained visual semantics. Our method is evaluated on two datasets, where we obtain compelling results. Specifically, on the Chinese taxonomy dataset, our method significantly improves accuracy by 8.75 %. Additionally, our approach performs better than ChatGPT on the Chinese taxonomy dataset.
翻訳日:2023-09-13 13:29:46 公開日:2023-09-12
# 衛星画像のセマンティックセグメンテーションのためのアクティブラベルリファインメント

Active Label Refinement for Semantic Segmentation of Satellite Images ( http://arxiv.org/abs/2309.06159v1 )

ライセンス: Link先を確認
Tuan Pham Minh, Jayan Wijesingha, Daniel Kottke, Marek Herde, Denis Huseljic, Bernhard Sick, Michael Wachendorf, Thomas Esch(参考訳) 衛星画像のセマンティクスセグメンテーションによるリモートセンシングは、地球表面の理解と利用に寄与している。 この目的のために、セマンティックセグメンテーションネットワークは通常、ラベル付き衛星画像の大規模なセットで訓練される。 しかし、これらの画像の専門的なラベルを得るにはコストがかかる。 そこで,まず,クラウドソーシングや事前学習したネットワークなど,低コストな手法を用いて画像のラベル付けを行うことを提案する。 これらの初期ラベルは部分的に誤っているため、能動的学習戦略を用いて第2段階のコスト効率向上を図る。 本研究では,インドにおけるベンガルルの衛星画像を用いて,土地被覆ラベルと土地利用ラベルを付与したアクティブラーニング戦略を評価する。 実験結果から,セマンティックセグメンテーションネットワークの性能向上のためのアクティブラベル改良が有用であることが示唆された。

Remote sensing through semantic segmentation of satellite images contributes to the understanding and utilisation of the earth's surface. For this purpose, semantic segmentation networks are typically trained on large sets of labelled satellite images. However, obtaining expert labels for these images is costly. Therefore, we propose to rely on a low-cost approach, e.g. crowdsourcing or pretrained networks, to label the images in the first step. Since these initial labels are partially erroneous, we use active learning strategies to cost-efficiently refine the labels in the second step. We evaluate the active learning strategies using satellite images of Bengaluru in India, labelled with land cover and land use labels. Our experimental results suggest that an active label refinement to improve the semantic segmentation network's performance is beneficial.
翻訳日:2023-09-13 13:21:57 公開日:2023-09-12
# robust-mbdl:ロバストなマルチブランチ深層学習モデルによる回転機械の寿命予測と運転条件同定

Robust-MBDL: A Robust Multi-branch Deep Learning Based Model for Remaining Useful Life Prediction and Operational Condition Identification of Rotating Machines ( http://arxiv.org/abs/2309.06157v1 )

ライセンス: Link先を確認
Khoa Tran, Hai-Canh Vu, Lam Pham, Nassim Boudaoud(参考訳) 本稿では,回転機械の寿命予測と状態操作(CO)を継続するロバスト多分岐深層学習システムを提案する。 特に、(1)振動データを無声化するためのlstm自動符号化装置、(2)無声データから時間領域、周波数領域、時間周波数に基づく特徴を生成する特徴抽出、(3)多機能を利用するための新規でロバストなマルチブランチ深層学習ネットワークアーキテクチャである。 提案システムの性能を,XJTU-SY と PRONOSTIA の2つのベンチマークデータセットの最先端システムと比較した。 実験の結果,提案システムは最先端システムよりも優れており,軸受マシン上での現実的な応用の可能性を示している。

In this paper, a Robust Multi-branch Deep learning-based system for remaining useful life (RUL) prediction and condition operations (CO) identification of rotating machines is proposed. In particular, the proposed system comprises main components: (1) an LSTM-Autoencoder to denoise the vibration data; (2) a feature extraction to generate time-domain, frequency-domain, and time-frequency based features from the denoised data; (3) a novel and robust multi-branch deep learning network architecture to exploit the multiple features. The performance of our proposed system was evaluated and compared to the state-of-the-art systems on two benchmark datasets of XJTU-SY and PRONOSTIA. The experimental results prove that our proposed system outperforms the state-of-the-art systems and presents potential for real-life applications on bearing machines.
翻訳日:2023-09-13 13:21:45 公開日:2023-09-12
# 量子力学からのミンコフスキー空間

Minkowski space from quantum mechanics ( http://arxiv.org/abs/2309.06150v1 )

ライセンス: Link先を確認
L\'aszl\'o B. Szabados(参考訳) ペンローズのスピン幾何学理論はさらに拡張され、$SU(2)$と$E(3)$(ユークリッド)から$E(1,3)$(Poincar\'e)不変量子力学系へと拡張される。 ミンコフスキー空間の任意の2つの非平行時間のような直線の間のローレンツ空間距離は、質量の中心世界線であると考えられ、E(1,3)$-不変な基本的古典力学系は、系の4-モーメントとパウリ-ルバンスキースピンベクトルの「emph{$E(1,3)$-不変な基本観測可能量」で表される。 emph{$e(1,3)$-invariant basic quantum mechanical systems} の類似表現は、量子力学の抽象的、代数的定式化における \emph{basic quantum observables} の項で与えられ、古典的極限において、ミンコフスキー空間の時間的直線間の空間距離を漸近的に消滅する不確かさで再現することが示されている。 したがって、ミンコフスキー空間の \emph{metric structure} は、抽象量子システムの観測可能量のみを用いて古典極限の量子力学から回復することができる。

Penrose's Spin Geometry Theorem is extended further, from $SU(2)$ and $E(3)$ (Euclidean) to $E(1,3)$ (Poincar\'e) invariant elementary quantum mechanical systems. The Lorentzian spatial distance between any two non-parallel timelike straight lines of Minkowski space, considered to be the centre-of-mass world lines of $E(1,3)$-invariant elementary classical mechanical systems with positive rest mass, is expressed in terms of \emph{$E(1,3)$-invariant basic observables}, viz. the 4-momentum and the Pauli--Lubanski spin vectors of the systems. An analogous expression for \emph{$E(1,3)$-invariant elementary quantum mechanical systems} in terms of the \emph{basic quantum observables} in an abstract, algebraic formulation of quantum mechanics is given, and it is shown that, in the classical limit, it reproduces the Lorentzian spatial distance between the timelike straight lines of Minkowski space with asymptotically vanishing uncertainty. Thus, the \emph{metric structure} of Minkowski space can be recovered from quantum mechanics in the classical limit using only the observables of abstract quantum systems.
翻訳日:2023-09-13 13:21:29 公開日:2023-09-12
# 非決定性列車時間と決定性試験時間の正規化による深層学習に基づくヌクレイインスタンスセグメンテーションの一般化能力の向上

Improving Generalization Capability of Deep Learning-Based Nuclei Instance Segmentation by Non-deterministic Train Time and Deterministic Test Time Stain Normalization ( http://arxiv.org/abs/2309.06143v1 )

ライセンス: Link先を確認
Amirreza Mahbod, Georg Dorffner, Isabella Ellinger, Ramona Woitek, Sepideh Hatamikia(参考訳) デジタル病理と顕微鏡が出現し、スライドの組織像全体を自動でスキャンし保存できるようになり、取得した画像を分析するためにコンピュータ化手法を使う傾向が高まっている。 様々な病理画像解析タスクの中で、核のインスタンスセグメンテーションは幅広い臨床および研究応用において基本的な役割を果たす。 多くの半自動および完全自動のコンピュータ化手法が核インスタンス分割のために提案されているが、ディープラーニング(DL)ベースのアプローチは最高の性能をもたらすことが示されている。 しかし、そのようなアプローチのパフォーマンスは通常、未発見のデータセットでテストされると劣化する。 本研究では,DLに基づく自動セグメンテーション手法の一般化能力向上のための新しい手法を提案する。 本手法は,最先端のdlベースモデルの一つをベースラインとして利用するだけでなく,非決定論的トレイン時間と決定論的テスト時間染色正規化を組み込んだものである。 1つのトレーニングセットでモデルをトレーニングし、7つのテストデータセットでセグメンテーション性能を評価した。 その結果, 本手法は, ベースラインセグメンテーションモデルと比較して, Dice スコア, 集約ジャカード指数, パン光学品質スコアに基づいて, セグメンテーション核の性能を最大5.77%, 5.36%, 5.27%向上させることがわかった。

With the advent of digital pathology and microscopic systems that can scan and save whole slide histological images automatically, there is a growing trend to use computerized methods to analyze acquired images. Among different histopathological image analysis tasks, nuclei instance segmentation plays a fundamental role in a wide range of clinical and research applications. While many semi- and fully-automatic computerized methods have been proposed for nuclei instance segmentation, deep learning (DL)-based approaches have been shown to deliver the best performances. However, the performance of such approaches usually degrades when tested on unseen datasets. In this work, we propose a novel approach to improve the generalization capability of a DL-based automatic segmentation approach. Besides utilizing one of the state-of-the-art DL-based models as a baseline, our method incorporates non-deterministic train time and deterministic test time stain normalization. We trained the model with one single training set and evaluated its segmentation performance on seven test datasets. Our results show that the proposed method provides up to 5.77%, 5.36%, and 5.27% better performance in segmenting nuclei based on Dice score, aggregated Jaccard index, and panoptic quality score, respectively, compared to the baseline segmentation model.
翻訳日:2023-09-13 13:21:03 公開日:2023-09-12
# 信頼性の高いドメインの一般化に向けて:新しいデータセットと評価

Towards Reliable Domain Generalization: A New Dataset and Evaluations ( http://arxiv.org/abs/2309.06142v1 )

ライセンス: Link先を確認
Jiao Zhang, Xu-Yao Zhang, Cheng-Lin Liu(参考訳) 現実世界には至るところで分布の変化がある。 しかし、ディープニューラルネットワーク(DNN)はトレーニングセットに偏りやすいため、アウト・オブ・ディストリビューションデータを受け取るとパフォーマンスが大幅に低下する。 ドメイン一般化(dg)の文献において、様々な分布シフトの下で一般化するモデルを訓練するために多くの方法が研究されている。 しかし、最近のDomainBedおよびWILDSベンチマークはこれらの手法の有効性に挑戦した。 既存の研究の問題点を念頭に,手書き漢字認識(hccr)のための新たなドメイン一般化タスクを提案する。 提案したPaHCC(Printed and Handwriting Chinese Characters)データセット上で18のDG手法を評価し,既存の手法の性能がまだ満足できないことを示す。 さらに、設計された動的DG設定の下で、DGメソッドのより多くの特性を明らかにし、残余のドメインアウトプロトコルだけが信頼できないと主張する。 我々は,DGコミュニティの研究者が,より包括的で信頼性の高い評価のための手法の動的性能を参照することを提唱する。 データセットと評価はコミュニティに新たな視点をもたらし、さらなる進歩をもたらします。 ドメインの一般化の研究を促進するために、我々のデータセットを公開します。

There are ubiquitous distribution shifts in the real world. However, deep neural networks (DNNs) are easily biased towards the training set, which causes severe performance degradation when they receive out-of-distribution data. Many methods are studied to train models that generalize under various distribution shifts in the literature of domain generalization (DG). However, the recent DomainBed and WILDS benchmarks challenged the effectiveness of these methods. Aiming at the problems in the existing research, we propose a new domain generalization task for handwritten Chinese character recognition (HCCR) to enrich the application scenarios of DG method research. We evaluate eighteen DG methods on the proposed PaHCC (Printed and Handwritten Chinese Characters) dataset and show that the performance of existing methods on this dataset is still unsatisfactory. Besides, under a designed dynamic DG setting, we reveal more properties of DG methods and argue that only the leave-one-domain-out protocol is unreliable. We advocate that researchers in the DG community refer to dynamic performance of methods for more comprehensive and reliable evaluation. Our dataset and evaluations bring new perspectives to the community for more substantial progress. We will make our dataset public with the article published to facilitate the study of domain generalization.
翻訳日:2023-09-13 13:20:39 公開日:2023-09-12
# 楕円ブルズアイ共振器における通信波長量子ドット遷移の偏光選択強調

Polarization-selective enhancement of telecom wavelength quantum dot transitions in an elliptical bullseye resonator ( http://arxiv.org/abs/2309.06140v1 )

ライセンス: Link先を確認
Andrea Barbiero, Ginny Shooter, Tina M\"uller, Joanna Skiba-Szymanska, R. Mark Stevenson, Lucy E. Goff, David A. Ritchie and Andrew J. Shields(参考訳) 半導体量子ドットは非古典光の発生に有望な候補である。 量子ドットを光遷移の分極選択性を高めることができるデバイスに結合することは、効率的な共振駆動スキームや光周期性に基づく応用といった高度な機能に非常に有用である。 本稿では,通信Oバンドの量子ドットを楕円型ブルゼー共振器に結合することにより,ブロードバンド偏光選択性向上を示す。 我々は、直線偏光度96%、パーセル係数3.9、カウントレート3mhzの明るい単一光子放射を報告した。 さらに, 外部偏光フィルタを使わずに2光子干渉の測定を行い, 40Kまでの温度で装置を動作させることにより, 小型スターリング冷凍機との互換性を示す。

Semiconductor quantum dots are promising candidates for the generation of nonclassical light. Coupling a quantum dot to a device capable of providing polarization-selective enhancement of optical transitions is highly beneficial for advanced functionalities such as efficient resonant driving schemes or applications based on optical cyclicity. Here, we demonstrate broadband polarization-selective enhancement by coupling a quantum dot emitting in the telecom O-band to an elliptical bullseye resonator. We report bright single-photon emission with a degree of linear polarization of 96%, Purcell factor of 3.9, and count rates up to 3 MHz. Furthermore, we present a measurement of two-photon interference without any external polarization filtering and demonstrate compatibility with compact Stirling cryocoolers by operating the device at temperatures up to 40 K. These results represent an important step towards practical integration of optimal quantum dot photon sources in deployment-ready setups.
翻訳日:2023-09-13 13:20:20 公開日:2023-09-12
# Prompting4デバッギング:問題検出によるテキストと画像の拡散モデルの再結合

Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts ( http://arxiv.org/abs/2309.06135v1 )

ライセンス: Link先を確認
Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen Chiu(参考訳) テキストから画像への拡散モデル、例えば安定拡散(sd)は最近、高品質なコンテンツ生成において顕著な能力を示し、最近のトランスフォーメーションaiの波の代表的存在となっている。 にもかかわらず、このような進歩は、この生成技術の誤用、特に著作権付きまたはNSFW(つまり職場では安全ではない)画像の制作に対する懸念が強まっている。 不適切なイメージやプロンプトをフィルタリングしたり、モデルファインチューニングによって望ましくない概念やスタイルを除去する努力が続けられてきたが、これらの安全メカニズムの信頼性は未解明のままである。 本研究では,デプロイされた安全機構の信頼性をテストするために拡散モデルに問題のあるプロンプトを自動的に検出するデバッグツールとして,Prompting4Debugging (P4D)を提案する。 安全機構を持つSDモデルの新たな脆弱性を明らかにする上で,我々のP4Dツールの有効性を実証する。 特に,従来の安全プロンプトベンチマークの約半数は,概念除去,否定的プロンプト,安全ガイダンスなど,多数のデプロイされた安全メカニズムを回避して,実際に操作可能であることを示す。 以上の結果から, 包括的テストがなければ, 限られた安全なプロンプトベンチマークの評価は, テキスト・ツー・イメージ・モデルの安全性を誤ったものにする可能性が示唆された。

Text-to-image diffusion models, e.g. Stable Diffusion (SD), lately have shown remarkable ability in high-quality content generation, and become one of the representatives for the recent wave of transformative AI. Nevertheless, such advance comes with an intensifying concern about the misuse of this generative technology, especially for producing copyrighted or NSFW (i.e. not safe for work) images. Although efforts have been made to filter inappropriate images/prompts or remove undesirable concepts/styles via model fine-tuning, the reliability of these safety mechanisms against diversified problematic prompts remains largely unexplored. In this work, we propose Prompting4Debugging (P4D) as a debugging and red-teaming tool that automatically finds problematic prompts for diffusion models to test the reliability of a deployed safety mechanism. We demonstrate the efficacy of our P4D tool in uncovering new vulnerabilities of SD models with safety mechanisms. Particularly, our result shows that around half of prompts in existing safe prompting benchmarks which were originally considered "safe" can actually be manipulated to bypass many deployed safety mechanisms, including concept removal, negative prompt, and safety guidance. Our findings suggest that, without comprehensive testing, the evaluations on limited safe prompting benchmarks can lead to a false sense of safety for text-to-image models.
翻訳日:2023-09-13 13:20:05 公開日:2023-09-12
# 非マルコフ雑音下での弱測定による負量子状態の量子相関の保護

Protecting quantum correlations of negative quantum states using weak measurement under non-Markovian noise ( http://arxiv.org/abs/2309.06134v1 )

ライセンス: Link先を確認
Jai Lalita and Subhashish Banerjee(参考訳) 弱い測定(WM)と量子測度反転(QMR)は、量子状態の崩壊を保護するために重要である。 近年、量子相関と普遍量子テレポーテーション(UQT)プロトコルの保護と強化にWMとQMRの考え方が用いられている。 本研究では,離散ウィグナー関数 (dwfs) を用いた2量子ビット負の量子状態の量子相関, 最大忠実性, 忠実性偏差について検討した。 雑音環境の影響を考慮するため、非マルコフ振幅減衰(AD)とランダム電信ノイズ(RTN)量子チャネルを用いて状態を進化させる。 負の量子状態のパフォーマンスをベンチマークするために、2量子ビットの最大絡み合うベル状態と比較する。 興味深いことに、いくつかの負の量子状態はベル状態よりもWMやQMRの方がノイズの多い量子チャネルを介して進化している。

The weak measurement (WM) and quantum measurement reversal (QMR) are crucial in protecting the collapse of quantum states. Recently, the idea of WM and QMR has been used to protect and enhance quantum correlations and universal quantum teleportation (UQT) protocol. Here, we study the quantum correlations, maximal fidelity, and fidelity deviation of the two-qubit negative quantum states developed using discrete Wigner functions (DWFs) with (without) WM and QMR. To take into account the effect of a noisy environment, we evolve the states via non-Markovian amplitude damping (AD) and random telegraph noise (RTN) quantum channels. To benchmark the performance of negative quantum states, we compare our results with the two-qubit maximally entangled Bell state. Interestingly, we observe that some of the negative quantum states perform better with WM and QMR than the Bell state for different cases under evolution via noisy quantum channels.
翻訳日:2023-09-13 13:19:40 公開日:2023-09-12
# テキストの曖昧さと主観性の測定:象徴的から神経迷走神経へ

Measuring vagueness and subjectivity in texts: from symbolic to neural VAGO ( http://arxiv.org/abs/2309.06132v1 )

ライセンス: Link先を確認
Benjamin Icard, Vincent Claveau, Ghislain Atemezing and Paul \'Egr\'e(参考訳) テキストにおける曖昧さと主観性の自動測定に対するハイブリッド手法を提案する。 まず、専門家システムVAGOを紹介し、それを事実対意見文の小さなベンチマークで説明し、次に、より大きいフランスのプレスコーパスFreSaDaでテストし、風刺と通常のテキストにおける主観的マーカーの高頻度性を確認する。 VAGO のニューラルクローンを BERT のようなアーキテクチャで構築し,FreSaDa 上で得られた記号的VAGO スコアに基づいて学習する。 説明可能性ツール(LIME)を用いて、シンボル版の語彙を豊かにし、他の言語でバージョンを作成するために、このニューラルバージョンの興味を示す。

We present a hybrid approach to the automated measurement of vagueness and subjectivity in texts. We first introduce the expert system VAGO, we illustrate it on a small benchmark of fact vs. opinion sentences, and then test it on the larger French press corpus FreSaDa to confirm the higher prevalence of subjective markers in satirical vs. regular texts. We then build a neural clone of VAGO, based on a BERT-like architecture, trained on the symbolic VAGO scores obtained on FreSaDa. Using explainability tools (LIME), we show the interest of this neural version for the enrichment of the lexicons of the symbolic version, and for the production of versions in other languages.
翻訳日:2023-09-13 13:19:21 公開日:2023-09-12
# ニューラルランカの微調整のためのアノテートデータ? 現在のアクティブ学習戦略はランダム選択よりも優れている

Annotating Data for Fine-Tuning a Neural Ranker? Current Active Learning Strategies are not Better than Random Selection ( http://arxiv.org/abs/2309.06131v1 )

ライセンス: Link先を確認
Sophia Althammer, Guido Zuccon, Sebastian Hofst\"atter, Suzan Verberne, Allan Hanbury(参考訳) 事前学習言語モデル (plm) に基づく探索法は, 統計的, 初期の神経格付けモデルと比較して有意な有効性を示した。 しかし、微調整のPLMベースのランキングは大量の注釈付きトレーニングデータを必要とする。 データのアノテートには大きな手作業が必要であり、特にドメイン固有のタスクでは高価である。 本稿では,限られたトレーニングデータと予算下での微調整 PLM によるランク付けについて検討する。 我々は、スクラッチからランカの微調整と、一般的なデータに基づいて既に微調整されたランカから始まるドメイン適応と、ターゲットデータセットの微調整の継続という2つのシナリオを調査した。 異なるランダムに選択されたトレーニングデータのサブセットを微調整する際の有効性に大きなばらつきを観測する。 これは,学習データのサブセットを積極的に選択し,ランク付け者に対して最もポジティブな効果を与えることにより,有効性の向上を図ることができることを示唆する。 これにより、効果的なPLMローダをアノテーション予算の削減で微調整することが可能となる。 そこで我々は,既存のアクティブラーニング(AL)戦略を微調整 PLM ランサーのタスクに適用し,アノテーションや計算コストを考慮し,その効果を検討する。 広範な分析の結果,al戦略はトレーニングサブセットのランダム選択を有効性の観点から大きく上回らないことがわかった。 さらに,al戦略が提供する利益は,一定のアノテーションコストによる効果を比較する際に,より多くの評価(アノテーションコストが高くなる)とal戦略がランダム選択を損なうことの犠牲になることがわかった。 その結果, アノテーションコストが低く, 高い有効性を提供する訓練データの `optimal'' サブセットは存在するが, 現在の主流al戦略はplmランカでは識別できないことがわかった。

Search methods based on Pretrained Language Models (PLM) have demonstrated great effectiveness gains compared to statistical and early neural ranking models. However, fine-tuning PLM-based rankers requires a great amount of annotated training data. Annotating data involves a large manual effort and thus is expensive, especially in domain specific tasks. In this paper we investigate fine-tuning PLM-based rankers under limited training data and budget. We investigate two scenarios: fine-tuning a ranker from scratch, and domain adaptation starting with a ranker already fine-tuned on general data, and continuing fine-tuning on a target dataset. We observe a great variability in effectiveness when fine-tuning on different randomly selected subsets of training data. This suggests that it is possible to achieve effectiveness gains by actively selecting a subset of the training data that has the most positive effect on the rankers. This way, it would be possible to fine-tune effective PLM rankers at a reduced annotation budget. To investigate this, we adapt existing Active Learning (AL) strategies to the task of fine-tuning PLM rankers and investigate their effectiveness, also considering annotation and computational costs. Our extensive analysis shows that AL strategies do not significantly outperform random selection of training subsets in terms of effectiveness. We further find that gains provided by AL strategies come at the expense of more assessments (thus higher annotation costs) and AL strategies underperform random selection when comparing effectiveness given a fixed annotation cost. Our results highlight that ``optimal'' subsets of training data that provide high effectiveness at low annotation cost do exist, but current mainstream AL strategies applied to PLM rankers are not capable of identifying them.
翻訳日:2023-09-13 13:19:06 公開日:2023-09-12
# PagedAttention を用いた大規模言語モデルの効率的なメモリ管理

Efficient Memory Management for Large Language Model Serving with PagedAttention ( http://arxiv.org/abs/2309.06180v1 )

ライセンス: Link先を確認
Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica(参考訳) 大きな言語モデル(LLM)の高スループットサービスには、一度に十分な数のリクエストをバッチする必要がある。 しかし,各要求に対するキーバリューキャッシュ(KVキャッシュ)メモリは巨大で,動的に増大・縮小するため,既存のシステムでは困難である。 非効率に管理されると、このメモリは断片化と冗長な重複によって著しく無駄になり、バッチサイズが制限される。 そこで本研究では,古典的仮想記憶とオペレーティングシステムのパージング技術に触発された注意アルゴリズムpagedattentionを提案する。 さらに,(1)KVキャッシュメモリのほぼゼロの無駄を解消し,(2)KVキャッシュの要求内および要求間のフレキシブルな共有を実現し,メモリ使用量をさらに削減するLLMサービスシステムであるvLLMを構築した。 評価の結果、vllmは、fasttransformerやorcaのような最先端システムと同等のレイテンシで、人気のあるllmのスループットを2-4$\times$向上させることがわかった。 改良はより長いシーケンス、より大きなモデル、より複雑な復号アルゴリズムでより顕著である。 vLLMのソースコードはhttps://github.com/vllm-project/vllmで公開されている。

High throughput serving of large language models (LLMs) requires batching sufficiently many requests at a time. However, existing systems struggle because the key-value cache (KV cache) memory for each request is huge and grows and shrinks dynamically. When managed inefficiently, this memory can be significantly wasted by fragmentation and redundant duplication, limiting the batch size. To address this problem, we propose PagedAttention, an attention algorithm inspired by the classical virtual memory and paging techniques in operating systems. On top of it, we build vLLM, an LLM serving system that achieves (1) near-zero waste in KV cache memory and (2) flexible sharing of KV cache within and across requests to further reduce memory usage. Our evaluations show that vLLM improves the throughput of popular LLMs by 2-4$\times$ with the same level of latency compared to the state-of-the-art systems, such as FasterTransformer and Orca. The improvement is more pronounced with longer sequences, larger models, and more complex decoding algorithms. vLLM's source code is publicly available at https://github.com/vllm-project/vllm
翻訳日:2023-09-13 13:13:59 公開日:2023-09-12
# 同時機械翻訳のグライシングの未来

Glancing Future for Simultaneous Machine Translation ( http://arxiv.org/abs/2309.06179v1 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(SiMT)は、原文を読みながら翻訳を出力する。 従来のsequence-to-sequence(seq2seq)トレーニングとは異なり、既存のsimtメソッドはprefix-to-prefix(prefix2prefix)トレーニングを採用している。 しかし、プレフィックス2プリフィックストレーニングは、モデルがグローバル情報をキャプチャする能力を減らし、本質的な情報源情報がないために強制的な予測を導入する。 その結果, SiMTモデルの翻訳能力を高めるためにプレフィックス2プレフィックストレーニングとセq2seqトレーニングのギャップを埋めることが重要である。 本稿では,Seq2seqトレーニングからプレフィックストレーニングへの移行を実現するために,カリキュラム学習の未来を垣間見る新しい手法を提案する。 具体的には、利用可能なソース情報を文全体からその遅延に対応するプレフィックスに徐々に削減する。 提案手法は多種多様なSiMT法に適用可能であり, 実験により本手法が強いベースラインより優れていることを示す。

Simultaneous machine translation (SiMT) outputs translation while reading the source sentence. Unlike conventional sequence-to-sequence (seq2seq) training, existing SiMT methods adopt the prefix-to-prefix (prefix2prefix) training, where the model predicts target tokens based on partial source tokens. However, the prefix2prefix training diminishes the ability of the model to capture global information and introduces forced predictions due to the absence of essential source information. Consequently, it is crucial to bridge the gap between the prefix2prefix training and seq2seq training to enhance the translation capability of the SiMT model. In this paper, we propose a novel method that glances future in curriculum learning to achieve the transition from the seq2seq training to prefix2prefix training. Specifically, we gradually reduce the available source information from the whole sentence to the prefix corresponding to that latency. Our method is applicable to a wide range of SiMT methods and experiments demonstrate that our method outperforms strong baselines.
翻訳日:2023-09-13 13:13:24 公開日:2023-09-12
# ボソニック・キタエフ鎖の量子シミュレーション

Quantum Simulation of the Bosonic Kitaev Chain ( http://arxiv.org/abs/2309.06178v1 )

ライセンス: Link先を確認
J.H. Busnaina, Z. Shi, A. McDonald, D. Dubyna, I. Nsanzineza, Jimmy S.C. Hung, C.W. Sandbo Chang, A.A. Clerk, and C.M. Wilson(参考訳) 超伝導量子回路は、凝縮物と高エネルギー物理学にまたがる位相現象を記述する様々な重要な格子モデルの量子シミュレーションの自然なプラットフォームである。 そのようなモデルの1つは、よく知られたフェルミオン・キタエフ鎖のボソニック類似であり、最も近いホッピングとペアの項を持つ1次元強結合モデルである。 完全にエルミート的であるにもかかわらず、ボソニック・キタエフ連鎖は非エルミート系に関連する多くの特徴を示しており、キラル輸送や非エルミート皮膚効果として知られる境界条件に対する劇的な感度がある。 ここでは、多モード超伝導パラメトリックキャビティを用いて、ボソニック・キタエフ鎖を合成次元で実装する。 格子の部位はキャビティの周波数モードにマッピングされ、$\textit{in situ}$ tunable complex hoppingとペアリング項はそれぞれモード差分とモードサム周波数でのパラメトリックパンピングによって生成される。 我々は, キラル輸送, 四次波動関数の局在, 境界条件に対する感度など, ボソニック・キタエフ鎖における非自明なトポロジーと非エルミート的皮膚効果の重要な前駆体を実験的に示す。 我々の実験は、真の多体非エルミート量子力学を探求するための重要な第一歩である。

Superconducting quantum circuits are a natural platform for quantum simulations of a wide variety of important lattice models describing topological phenomena, spanning condensed matter and high-energy physics. One such model is the bosonic analogue of the well-known fermionic Kitaev chain, a 1D tight-binding model with both nearest-neighbor hopping and pairing terms. Despite being fully Hermitian, the bosonic Kitaev chain exhibits a number of striking features associated with non-Hermitian systems, including chiral transport and a dramatic sensitivity to boundary conditions known as the non-Hermitian skin effect. Here, using a multimode superconducting parametric cavity, we implement the bosonic Kitaev chain in synthetic dimensions. The lattice sites are mapped to frequency modes of the cavity, and the $\textit{in situ}$ tunable complex hopping and pairing terms are created by parametric pumping at the mode-difference and mode-sum frequencies, respectively. We experimentally demonstrate important precursors of nontrivial topology and the non-Hermitian skin effect in the bosonic Kitaev chain, including chiral transport, quadrature wavefunction localization, and sensitivity to boundary conditions. Our experiment is an important first step towards exploring genuine many-body non-Hermitian quantum dynamics.
翻訳日:2023-09-13 13:12:54 公開日:2023-09-12
# 時空間ビデオグラウンド作成のためのデュアルパス時間マップ最適化

Dual-Path Temporal Map Optimization for Make-up Temporal Video Grounding ( http://arxiv.org/abs/2309.06176v1 )

ライセンス: Link先を確認
Jiaxiu Li, Kun Li, Jia Li, Guoliang Chen, Dan Guo, Meng Wang(参考訳) メイクアップ時間的ビデオグラウンドティング(MTVG)は、長いビデオが与えられた場合、メイクアップ活動を記述する文に意味的に関連のあるターゲットビデオセグメントをローカライズすることを目的としている。 一般的なビデオグラウンドタスクと比較して、MTVGは繊細な行動と顔の変化に焦点を当てている。 通常、製品と顔領域の詳細な違いを含むメイクアップ指導手順は、一般的な活動(調理活動や家具組み立てなど)よりもきめ細かいものである。 したがって、既存の一般的なアプローチでは、効果的にターゲットアクティビティを見つけることはできない。 より具体的には、既存の提案生成モジュールは、よりきめ細かいメイクアップ意味理解のための意味的手がかりを提供するためにまだ完全には開発されていない。 この問題に対処するため,DPTMO(Dual-Path Temporal Map Optimization Network)と呼ばれる効果的な提案ベースのフレームワークを提案する。 dptmoは2つの提案セットを構築するためにクエリ非依存機能とクエリ誘導機能の両方を抽出し、2つのセットの特定の評価方法を使用する。 従来の手法と異なり、我々のデュアルパス構造は、メイクアップビデオでより多くの意味情報をマイニングし、きめ細かいアクションを識別することができる。 これら2つの候補セットは、相互に相補的なビデオテキスト類似性とマルチモーダル融合関係を表す。 各セットはそれぞれの最適化視点に対応し、その共同予測はビデオタイムスタンプ予測の精度を高める。 YouMakeupデータセットの包括的実験により,提案した2つの構造がよりきめ細かな意味的理解において優れていることを示す。

Make-up temporal video grounding (MTVG) aims to localize the target video segment which is semantically related to a sentence describing a make-up activity, given a long video. Compared with the general video grounding task, MTVG focuses on meticulous actions and changes on the face. The make-up instruction step, usually involving detailed differences in products and facial areas, is more fine-grained than general activities (e.g, cooking activity and furniture assembly). Thus, existing general approaches cannot locate the target activity effectually. More specifically, existing proposal generation modules are not yet fully developed in providing semantic cues for the more fine-grained make-up semantic comprehension. To tackle this issue, we propose an effective proposal-based framework named Dual-Path Temporal Map Optimization Network (DPTMO) to capture fine-grained multimodal semantic details of make-up activities. DPTMO extracts both query-agnostic and query-guided features to construct two proposal sets and uses specific evaluation methods for the two sets. Different from the commonly used single structure in previous methods, our dual-path structure can mine more semantic information in make-up videos and distinguish fine-grained actions well. These two candidate sets represent the cross-modal makeup video-text similarity and multi-modal fusion relationship, complementing each other. Each set corresponds to its respective optimization perspective, and their joint prediction enhances the accuracy of video timestamp prediction. Comprehensive experiments on the YouMakeup dataset demonstrate our proposed dual structure excels in fine-grained semantic comprehension.
翻訳日:2023-09-13 13:12:04 公開日:2023-09-12
# AKEM:エンティティ認識とリンクのためのアンサンブルモデルによるクエリの知識ベース調整

AKEM: Aligning Knowledge Base to Queries with Ensemble Model for Entity Recognition and Linking ( http://arxiv.org/abs/2309.06175v1 )

ライセンス: Link先を確認
Di Lu and Zhongping Liang and Caixia Yuan and Xiaojie Wang(参考訳) 本稿では,NLPCC 2015におけるエンティティ認識とリンク問題に対する新しいアプローチを提案する。 このタスクは、短い検索クエリから名前付きエンティティ参照を抽出し、参照中国の知識ベース内のエンティティにリンクする。 この問題に対処するために,まず既存の知識ベースを拡張し,外部知識を用いて候補エンティティを識別し,リコール率を向上させる。 次に、候補エンティティから特徴を抽出し、結果をフィルタリングするスコアリング機能として、サポートベクトル回帰と多重付加回帰木を利用する。 さらに,結果の精細化と精度向上にルールを適用した。 本手法は計算効率が高く,F1スコアは0.535。

This paper presents a novel approach to address the Entity Recognition and Linking Challenge at NLPCC 2015. The task involves extracting named entity mentions from short search queries and linking them to entities within a reference Chinese knowledge base. To tackle this problem, we first expand the existing knowledge base and utilize external knowledge to identify candidate entities, thereby improving the recall rate. Next, we extract features from the candidate entities and utilize Support Vector Regression and Multiple Additive Regression Tree as scoring functions to filter the results. Additionally, we apply rules to further refine the results and enhance precision. Our method is computationally efficient and achieves an F1 score of 0.535.
翻訳日:2023-09-13 13:11:26 公開日:2023-09-12
# 拡散モデルに対する拡張逆時間SDEの解空間の解明

Elucidating the solution space of extended reverse-time SDE for diffusion models ( http://arxiv.org/abs/2309.06169v1 )

ライセンス: Link先を確認
Qinpeng Cui, Xinyi Zhang, Zongqing Lu and Qingmin Liao(参考訳) 拡散モデル(DM)は、様々な生成モデルタスクにおいて強力な画像生成能力を示す。 それでも、その主な制限はサンプリング速度の遅いことであり、高品質な画像を生成するために、大規模なニューラルネットワークを通じて数百から数千のシーケンシャルな機能評価を必要とする。 DMからのサンプリングは、対応する確率微分方程式 (SDE) や通常の微分方程式 (ODE) を解くことができる。 本研究では,提案手法を拡張逆時間SDE(ER SDE)として定式化し,従来のODEとSDEの探索を統一する。 ER SDE解の半線形構造を利用して、我々はそれぞれVP SDE と VE SDE の厳密な解と任意の高次近似解を提供する。 ER SDEの解空間に基づいて、高速サンプリングの観点から、SDEソルバよりもODEソルバの優れた性能を推定する数学的洞察を得る。 さらに,VP SDEソルバがVE SDEと同等であることも明らかにした。 最後に, ER-SDEソルバー(ER-SDE Solvers)を考案し, 確率的サンプリング器の効率を前例のないレベルまで高める。 実験の結果、ImageNet 64$\times$64データセット上で、20の関数評価で3.45 FID、50の関数評価で2.24 FIDを達成した。

Diffusion models (DMs) demonstrate potent image generation capabilities in various generative modeling tasks. Nevertheless, their primary limitation lies in slow sampling speed, requiring hundreds or thousands of sequential function evaluations through large neural networks to generate high-quality images. Sampling from DMs can be seen as solving corresponding stochastic differential equations (SDEs) or ordinary differential equations (ODEs). In this work, we formulate the sampling process as an extended reverse-time SDE (ER SDE), unifying prior explorations into ODEs and SDEs. Leveraging the semi-linear structure of ER SDE solutions, we offer exact solutions and arbitrarily high-order approximate solutions for VP SDE and VE SDE, respectively. Based on the solution space of the ER SDE, we yield mathematical insights elucidating the superior performance of ODE solvers over SDE solvers in terms of fast sampling. Additionally, we unveil that VP SDE solvers stand on par with their VE SDE counterparts. Finally, we devise fast and training-free samplers, ER-SDE Solvers, elevating the efficiency of stochastic samplers to unprecedented levels. Experimental results demonstrate achieving 3.45 FID in 20 function evaluations and 2.24 FID in 50 function evaluations on the ImageNet 64$\times$64 dataset.
翻訳日:2023-09-13 13:11:04 公開日:2023-09-12
# 量子加速器と高性能コンピューティングの融合$\unicode{x2013}$ 量子プログラミングツールのレビュー

Integration of Quantum Accelerators with High Performance Computing $\unicode{x2013}$ A Review of Quantum Programming Tools ( http://arxiv.org/abs/2309.06167v1 )

ライセンス: Link先を確認
Amr Elsharkawy, Xiao-Ting Michelle To, Philipp Seitz, Yanbin Chen, Yannick Stade, Manuel Geiger, Qunsheng Huang, Xiaorang Guo, Muhammad Arslan Ansari, Christian B. Mendl, Dieter Kranzlm\"uller, and Martin Schulz(参考訳) 量子コンピューティング(QC)は、ハイパフォーマンスコンピューティング(HPC)アプリケーションにエキサイティングな機会を提供するために、$\unicode{x2013}$を使わなければならないより大きな計算能力を持つ新しい計算モードを導入する。 しかし、近年の分野の発展により、QCは従来のHPCに取って代わらず、むしろ現在の異種HPCインフラに付加的な加速器として組み込むことができ、両方のパラダイムの最適利用を可能にしている。 このような統合の欲求は量子コンピュータ用ソフトウェアの開発に大きく影響し、それによって必要なソフトウェア基盤に影響を及ぼす。 これまでのレビューでは、様々な量子プログラミングツール(言語、ライブラリ、フレームワークなど)を、量子回路をプログラムし、コンパイルし、実行する能力について研究してきた。 しかし、古典的なHPCフレームワークやシステムとの統合は解決されていない。 本研究は,hpcの観点から既存のqptを特徴付けることを目的としており,既存のqptが古典的計算モデルと効率的に統合できる可能性を検証し,作業がいまだに必要である場所を決定する。 この研究は、一連の基準を分析ブループリントに構造化し、HPC科学者が量子加速古典的応用にQPTが適しているかどうかを判断できるようにする。

Quantum computing (QC) introduces a novel mode of computation with the possibility of greater computational power that remains to be exploited $\unicode{x2013}$ presenting exciting opportunities for high performance computing (HPC) applications. However, recent advancements in the field have made clear that QC does not supplant conventional HPC, but can rather be incorporated into current heterogeneous HPC infrastructures as an additional accelerator, thereby enabling the optimal utilization of both paradigms. The desire for such integration significantly affects the development of software for quantum computers, which in turn influences the necessary software infrastructure. To date, previous review papers have investigated various quantum programming tools (QPTs) (such as languages, libraries, frameworks) in their ability to program, compile, and execute quantum circuits. However, the integration effort with classical HPC frameworks or systems has not been addressed. This study aims to characterize existing QPTs from an HPC perspective, investigating if existing QPTs have the potential to be efficiently integrated with classical computing models and determining where work is still required. This work structures a set of criteria into an analysis blueprint that enables HPC scientists to assess whether a QPT is suitable for the quantum-accelerated classical application at hand.
翻訳日:2023-09-13 13:10:42 公開日:2023-09-12
# Slack制御と大きなリプシッツ定数を持つ認証ロバストモデル

Certified Robust Models with Slack Control and Large Lipschitz Constants ( http://arxiv.org/abs/2309.06166v1 )

ライセンス: Link先を確認
Max Losch, David Stutz, Bernt Schiele, Mario Fritz(参考訳) 最近の成功にもかかわらず、最先端の学習ベースのモデルは、敵の例のような入力変更に対して非常に脆弱である。 このような摂動に対する証明可能なロバスト性を得るために、近年の研究では、予測マージンを増加させながら、リプシッツベースの正則化あるいは制約を考える。 残念ながら、これは精度を大幅に下げるコストがかかる。 本稿では、この問題に対処し、2つの問題に対処することにより、証明されたロバスト性を向上するCalibrated Lipschitz-Margin Loss (CLL)を提案する。 第二に、そして最も重要なことは、$K$ の最小化が過度に滑らかな決定関数をもたらすことを観察する。 これによりモデルの複雑さが制限され、精度が低下する。 我々のCLLは、損失w.r.t.マージンとリプシッツ定数を明示的に調整することでこれらの問題に対処し、スラックの完全な制御を確立し、より大きなリプシッツ定数であっても堅牢性証明を改善する。 CIFAR-10、CIFAR-100、Tiny-ImageNetでは、我々のモデルは常に損失を上回り、絶え間ない結果を残している。 CIFAR-100とTiny-ImageNetでは、CLLは最先端の決定論的$L_2$堅牢な精度を改善している。 現在の傾向とは対照的に、より小さなモデルのポテンシャルをK=1$制約なしで解放する。

Despite recent success, state-of-the-art learning-based models remain highly vulnerable to input changes such as adversarial examples. In order to obtain certifiable robustness against such perturbations, recent work considers Lipschitz-based regularizers or constraints while at the same time increasing prediction margin. Unfortunately, this comes at the cost of significantly decreased accuracy. In this paper, we propose a Calibrated Lipschitz-Margin Loss (CLL) that addresses this issue and improves certified robustness by tackling two problems: Firstly, commonly used margin losses do not adjust the penalties to the shrinking output distribution; caused by minimizing the Lipschitz constant $K$. Secondly, and most importantly, we observe that minimization of $K$ can lead to overly smooth decision functions. This limits the model's complexity and thus reduces accuracy. Our CLL addresses these issues by explicitly calibrating the loss w.r.t. margin and Lipschitz constant, thereby establishing full control over slack and improving robustness certificates even with larger Lipschitz constants. On CIFAR-10, CIFAR-100 and Tiny-ImageNet, our models consistently outperform losses that leave the constant unattended. On CIFAR-100 and Tiny-ImageNet, CLL improves upon state-of-the-art deterministic $L_2$ robust accuracies. In contrast to current trends, we unlock potential of much smaller models without $K=1$ constraints.
翻訳日:2023-09-13 13:10:17 公開日:2023-09-12
# IberleF 2023におけるGUA-SPAの概要:グアラニ・スペインのコードスイッチング分析

Overview of GUA-SPA at IberLEF 2023: Guarani-Spanish Code Switching Analysis ( http://arxiv.org/abs/2309.06163v1 )

ライセンス: Link先を確認
Luis Chiruzzo, Marvin Ag\"uero-Torales, Gustavo Gim\'enez-Lugo, Aldo Alvarez, Yliana Rodr\'iguez, Santiago G\'ongora, Thamar Solorio(参考訳) IberLEF 2023において、グアラニとスペイン語でコードスイッチングを検出し解析するための最初の共有タスク、GUA-SPAを提案する。 この課題は3つのタスクで構成された。トークンの言語、NER、コードスイッチングのコンテキストでスペイン語のスパンの使い方を分類する新しいタスクである。 我々は,ニュース記事やつぶやきから抽出した1500のテキストのコーパス,約25万のトークン,タスクに関する情報を注釈付けした。 3つのチームが評価フェーズに参加し、タスク1の一般的な良い結果とタスク2とタスク3のより複雑な結果を得た。

We present the first shared task for detecting and analyzing code-switching in Guarani and Spanish, GUA-SPA at IberLEF 2023. The challenge consisted of three tasks: identifying the language of a token, NER, and a novel task of classifying the way a Spanish span is used in the code-switched context. We annotated a corpus of 1500 texts extracted from news articles and tweets, around 25 thousand tokens, with the information for the tasks. Three teams took part in the evaluation phase, obtaining in general good results for Task 1, and more mixed results for Tasks 2 and 3.
翻訳日:2023-09-13 13:09:54 公開日:2023-09-12
# 線形非エルミート系のハミルトン定式化

Hamiltonian formulation of linear non-Hermitian systems ( http://arxiv.org/abs/2309.06162v1 )

ライセンス: Link先を確認
Qi Zhang(参考訳) 線形非エルミート系に対して、私は非エルミート方程式をハミルトンの正準方程式の形に正確に表現できるようにハミルトニアンを構成できることを証明できる。 これはまず離散系に現れ、その後連続系に拡張される。 このハミルトンの定式化により、ネーターの定理を適用して断熱不変量を認識することによって保存電荷を特定できる。 エルミート系に適用すると、すべての結果はシュリンガー方程式に付随する馴染みのあるものへと減少する。

For a linear non-Hermitian system, I demonstrate that a Hamiltonian can be constructed such that the non-Hermitian equations can be expressed exactly in the form of Hamilton's canonical equations. This is first shown for discrete systems and then extended to continuous systems. With this Hamiltonian formulation, I am able to identify a conserved charge by applying Noether's theorem and recognize adiabatic invariants. When applied to Hermitian systems, all the results reduce to the familiar ones associated with the Schr\"odinger equation.
翻訳日:2023-09-13 13:09:41 公開日:2023-09-12
# SCP: 3次元物体検出のためのシーン補完事前学習

SCP: Scene Completion Pre-training for 3D Object Detection ( http://arxiv.org/abs/2309.06199v1 )

ライセンス: Link先を確認
Yiming Shan, Yan Xia, Yuhong Chen, Daniel Cremers(参考訳) LiDARポイントクラウドを用いた3Dオブジェクト検出は、コンピュータビジョン、ロボティクス、自律運転の分野における基本的なタスクである。 しかし、既存の3D検出器はアノテーション付きデータセットに大きく依存しており、3Dバウンディングボックスをラベル付けする過程でエラーが発生する。 本稿では,ラベルの少ない3次元物体検出器の性能を向上させるためのシーン補完プリトレーニング(scp)手法を提案する。 1)ポイントクラウドモデルの初期化の改善。 シーンポイント雲を完了させることで、SCPは都市環境内のオブジェクト間の空間的および意味的関係を効果的にキャプチャする。 (2)追加のデータセットの必要性の排除。 SCPは、3D検出器に追加の努力やデータ要求を課さない貴重な補助ネットワークとして機能する。 (3)検出のためのラベル付きデータの量を削減する。 SCPの助けを借りて、既存の最先端の3D検出器は20%のラベル付きデータに頼るだけで同等のパフォーマンスを達成できる。

3D object detection using LiDAR point clouds is a fundamental task in the fields of computer vision, robotics, and autonomous driving. However, existing 3D detectors heavily rely on annotated datasets, which are both time-consuming and prone to errors during the process of labeling 3D bounding boxes. In this paper, we propose a Scene Completion Pre-training (SCP) method to enhance the performance of 3D object detectors with less labeled data. SCP offers three key advantages: (1) Improved initialization of the point cloud model. By completing the scene point clouds, SCP effectively captures the spatial and semantic relationships among objects within urban environments. (2) Elimination of the need for additional datasets. SCP serves as a valuable auxiliary network that does not impose any additional efforts or data requirements on the 3D detectors. (3) Reduction of the amount of labeled data for detection. With the help of SCP, the existing state-of-the-art 3D detectors can achieve comparable performance while only relying on 20% labeled data.
翻訳日:2023-09-13 13:02:00 公開日:2023-09-12
# 1台のカメラから360$^\circ$:lidarセグメンテーションのための数発のアプローチ

360$^\circ$ from a Single Camera: A Few-Shot Approach for LiDAR Segmentation ( http://arxiv.org/abs/2309.06197v1 )

ライセンス: Link先を確認
Laurenz Reichardt, Nikolas Ebert, Oliver Wasenm\"uller(参考訳) LiDARデータのディープラーニングアプリケーションは、異なるセンサーやタスクに適用する場合、強いドメインギャップに悩まされる。 これらの手法が公開ベンチマークで報告された値と比較して異なるデータで同様の精度を得るためには、大規模な注釈付きデータセットが必要である。 しかし、実用的なアプリケーションでは、ラベル付きデータはコストがかかり、取得に時間がかかる。 このような要因はラベル効率の手法に関する様々な研究を引き起こしているが、完全に監督された手法には大きなギャップが残っている。 そこで我々は,ラベル効率のよいLiDARセグメンテーションに対して,効果的かつ合理化された数ショットアプローチであるImageTo360を提案する。 本手法は,画像教師ネットワークを用いて,単一カメラビュー内におけるLiDARデータのセマンティック予測を生成する。 教師は、360$^\circ$データでオプションで微調整する前に、LiDARセグメンテーション学生ネットワークを事前訓練するために使用される。 本手法は点レベルでモジュール方式で実装されており,異なるアーキテクチャに対して一般化可能である。 ラベル効率のよい手法で現在の最先端の結果を改良し、従来の完全教師付きセグメンテーションネットワークを上回ることさえある。

Deep learning applications on LiDAR data suffer from a strong domain gap when applied to different sensors or tasks. In order for these methods to obtain similar accuracy on different data in comparison to values reported on public benchmarks, a large scale annotated dataset is necessary. However, in practical applications labeled data is costly and time consuming to obtain. Such factors have triggered various research in label-efficient methods, but a large gap remains to their fully-supervised counterparts. Thus, we propose ImageTo360, an effective and streamlined few-shot approach to label-efficient LiDAR segmentation. Our method utilizes an image teacher network to generate semantic predictions for LiDAR data within a single camera view. The teacher is used to pretrain the LiDAR segmentation student network, prior to optional fine-tuning on 360$^\circ$ data. Our method is implemented in a modular manner on the point level and as such is generalizable to different architectures. We improve over the current state-of-the-art results for label-efficient methods and even surpass some traditional fully-supervised segmentation networks.
翻訳日:2023-09-13 13:01:47 公開日:2023-09-12
# Cookiescanner: Webサイト上でGDPR含有通知を検出し評価するための自動化ツール

Cookiescanner: An Automated Tool for Detecting and Evaluating GDPR Consent Notices on Websites ( http://arxiv.org/abs/2309.06196v1 )

ライセンス: Link先を確認
Ralf Gundelach and Dominik Herrmann(参考訳) GDPRの施行により、クッキーバナーとして知られる同意通知が広く採用された。 研究によると、多くのウェブサイトオペレーターは、同意通知と対話する前に法に従わず、ユーザーを追跡したり、ダークパターンを通じてユーザーを騙して同意させようとしている。 従来の研究では、ウェブサイトのサブセットに限られる手作業によるフィルタリストや自動検出手法に頼っていたため、GDPRの同意通知の遵守に関する調査は退屈なものや制限されている。 我々は,様々な手法で同意通知を検出し抽出する自動スキャンツールである \emph{cookiescanner} を提案する。 我々は、trancoがリストしたトップ10,000ウェブサイトのランダムサンプルでcookiescannerを評価した。 手動でキュレートしたフィルタリストが最も精度が高いが、キーワードベースのメソッドよりも同意の通知が少ないことが分かりました。 我々のBERTモデルは、以前の研究と一致しているが、候補抽出が不十分なためリコールの少ない英語の通知に対して高い精度を達成する。 多くのサイトの動的性質のため、自動的に下降オプションを検出することは困難であることが判明したが、ほとんどの場合、異なる色のボタンを検出できた。 様々な検出手法を体系的に評価するのに加えて,これまでに存在しなかった基盤線を提供するために,1000のウェブサイトを手動でアノテートした。 さらに、再現性と再現性を考慮して、コードと注釈付きデータセットをリリースします。

The enforcement of the GDPR led to the widespread adoption of consent notices, colloquially known as cookie banners. Studies have shown that many website operators do not comply with the law and track users prior to any interaction with the consent notice, or attempt to trick users into giving consent through dark patterns. Previous research has relied on manually curated filter lists or automated detection methods limited to a subset of websites, making research on GDPR compliance of consent notices tedious or limited. We present \emph{cookiescanner}, an automated scanning tool that detects and extracts consent notices via various methods and checks if they offer a decline option or use color diversion. We evaluated cookiescanner on a random sample of the top 10,000 websites listed by Tranco. We found that manually curated filter lists have the highest precision but recall fewer consent notices than our keyword-based methods. Our BERT model achieves high precision for English notices, which is in line with previous work, but suffers from low recall due to insufficient candidate extraction. While the automated detection of decline options proved to be challenging due to the dynamic nature of many sites, detecting instances of different colors of the buttons was successful in most cases. Besides systematically evaluating our various detection techniques, we have manually annotated 1,000 websites to provide a ground-truth baseline, which has not existed previously. Furthermore, we release our code and the annotated dataset in the interest of reproducibility and repeatability.
翻訳日:2023-09-13 13:01:26 公開日:2023-09-12
# Smooth Soft-ThresholdingによるISTAおよびADMMネットワークの最適化保証

Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding ( http://arxiv.org/abs/2309.06195v1 )

ライセンス: Link先を確認
Shaik Basheeruddin Shah, Pradyumna Pradhan, Wei Pu, Ramunaidu Randhi, Miguel R. D. Rodrigues, Yonina C. Eldar(参考訳) 線形逆問題の解法は多くの応用において重要な役割を果たす。 アルゴリズム展開ベースのモデル認識型データ駆動アプローチは、これらの問題を解決する上で大きな注目を集めている。 繰り返しソフトスレッショルドアルゴリズム (LISTA) と乗算器圧縮センシングネットワーク (ADMM-CSNet) の交互方向法 (交互方向法) はそれぞれISTAアルゴリズムとADMMアルゴリズムに基づいて広く利用されている。 本研究では,LISTA や ADMM-CSNet などの有限層アンフォールディングネットワークに対して,過度にパラメータ化された (OP) システムでスムーズなソフトスレッショニングを行う場合の,学習エポックの増加に伴うほぼゼロに近いトレーニング損失の保証について検討する。 我々はpolyak-lojasiewicz (pl$^*$, condition) の修正版を用いてこれを達成する。 損失ランドスケープの特定の領域におけるPL$^*$条件を満たすことは、勾配勾配に基づく手法を用いて初期化から大域的最小および指数収束の存在を保証する。 そこで我々は,pl$^*$条件に対して,ネットワーク幅とトレーニングサンプル数という観点で,これら展開されたネットワーク上の条件を提供する。 これらのネットワークのヘッセンスペクトルノルムを導出することでこれを実現できる。 さらに,ネットワーク幅の増加に伴い,トレーニングサンプル数に対するしきい値が増加することを示した。 さらに,展開ネットワークのトレーニングサンプルの閾値を,標準の完全接続フィードフォワードネットワーク(FFNN)とスムーズなソフトスレッディング非直線性と比較した。 展開されたネットワークはFFNNよりも高い閾値を持つことを示す。 その結果、FFNNよりもネットワークの展開に期待できるエラーが期待できる。

Solving linear inverse problems plays a crucial role in numerous applications. Algorithm unfolding based, model-aware data-driven approaches have gained significant attention for effectively addressing these problems. Learned iterative soft-thresholding algorithm (LISTA) and alternating direction method of multipliers compressive sensing network (ADMM-CSNet) are two widely used such approaches, based on ISTA and ADMM algorithms, respectively. In this work, we study optimization guarantees, i.e., achieving near-zero training loss with the increase in the number of learning epochs, for finite-layer unfolded networks such as LISTA and ADMM-CSNet with smooth soft-thresholding in an over-parameterized (OP) regime. We achieve this by leveraging a modified version of the Polyak-Lojasiewicz, denoted PL$^*$, condition. Satisfying the PL$^*$ condition within a specific region of the loss landscape ensures the existence of a global minimum and exponential convergence from initialization using gradient descent based methods. Hence, we provide conditions, in terms of the network width and the number of training samples, on these unfolded networks for the PL$^*$ condition to hold. We achieve this by deriving the Hessian spectral norm of these networks. Additionally, we show that the threshold on the number of training samples increases with the increase in the network width. Furthermore, we compare the threshold on training samples of unfolded networks with that of a standard fully-connected feed-forward network (FFNN) with smooth soft-thresholding non-linearity. We prove that unfolded networks have a higher threshold value than FFNN. Consequently, one can expect a better expected error for unfolded networks than FFNN.
翻訳日:2023-09-13 13:01:02 公開日:2023-09-12
# 3M-Hybridモデルによる一様巨原の復元 : ヨンレ宮殿の村を事例として

A 3M-Hybrid Model for the Restoration of Unique Giant Murals: A Case Study on the Murals of Yongle Palace ( http://arxiv.org/abs/2309.06194v1 )

ライセンス: Link先を確認
Jing Yang, Nur Intan Raihana Ruhaiyem, Chichun Zhou(参考訳) 貴重な文化財として、ヨンレ宮殿の壁画は様々な被害を受けており、その修復は重要な意味を持つ。 しかし、龍宮壁画の巨大なサイズとユニークなデータは、既存の深層学習に基づく復元手法の課題を呈している。 1) 従来の移動学習に基づく復元手法ではドメインバイアスが発生し, 壁画データの不足により適用性がさらに制限される。 2)これらの壁画の巨大なサイズは、より広い範囲の欠陥タイプとサイズをもたらし、より適応性のあるモデルが必要となる。 そのため、龍宮の独特な巨大な壁画の深層学習による復元方法に焦点が当てられていない。 ここでは,これらの課題に対処するために,3mハイブリッドモデルを提案する。 まず、壁画データ頻度が低頻度特徴と高頻度特徴の分布に顕著であることから、補足学習のために高頻度特徴と低周波数特徴を別々に抽象化する。 さらに,事前学習した視覚トランスフォーマモデル(vit)をcnnモジュールに統合することで,領域バイアスを軽減しつつ,大規模モデルのメリットを活用できる。 次に,データ分割や融合を含むマルチスケール・マルチパースペクティブ戦略を用いることで,大きな欠陥の修復に起因するシームや構造的歪みの問題を緩和する。 実験の結果,提案モデルの有効性が示された。 通常の壁画修復では、SSIMとPSNRをそれぞれ14.61%、PSNRは4.73%改善している。 また、巨大な壁画の復元に好意的な成果をあげている。

The Yongle Palace murals, as valuable cultural heritage, have suffered varying degrees of damage, making their restoration of significant importance. However, the giant size and unique data of Yongle Palace murals present challenges for existing deep-learning based restoration methods: 1) The distinctive style introduces domain bias in traditional transfer learning-based restoration methods, while the scarcity of mural data further limits the applicability of these methods. 2) Additionally, the giant size of these murals results in a wider range of defect types and sizes, necessitating models with greater adaptability. Consequently, there is a lack of focus on deep learning-based restoration methods for the unique giant murals of Yongle Palace. Here, a 3M-Hybrid model is proposed to address these challenges. Firstly, based on the characteristic that the mural data frequency is prominent in the distribution of low and high frequency features, high and low frequency features are separately abstracted for complementary learning. Furthermore, we integrate a pre-trained Vision Transformer model (VIT) into the CNN module, allowing us to leverage the benefits of a large model while mitigating domain bias. Secondly, we mitigate seam and structural distortion issues resulting from the restoration of large defects by employing a multi-scale and multi-perspective strategy, including data segmentation and fusion. Experimental results demonstrate the efficacy of our proposed model. In regular-sized mural restoration, it improves SSIM and PSNR by 14.61% and 4.73%, respectively, compared to the best model among four representative CNN models. Additionally, it achieves favorable results in the final restoration of giant murals.
翻訳日:2023-09-13 13:00:30 公開日:2023-09-12
# ニュースストーリーチェーンのクラスタリングによるニュースレコメンデーションにおけるフラグメンテーション検出の改善と評価

Improving and Evaluating the Detection of Fragmentation in News Recommendations with the Clustering of News Story Chains ( http://arxiv.org/abs/2309.06192v1 )

ライセンス: Link先を確認
Alessandra Polimeno and Myrthe Reuver and Sanne Vrijenhoek and Antske Fokkens(参考訳) ニュースレコメンデーターシステムは、民主社会における情報アクセスの形成において、ますます影響力を増している。 しかし、ユーザの特定の関心事にリコメンデーションを合わせると、情報ストリームが多様化する可能性がある。 情報への断片的なアクセスは、公共の領域の整合性に挑戦し、民主主義や世論に影響を与える。 フラグメンテーション指標は、ニュースレコメンデーションにおける情報ストリームの断片化の程度を定量化する。 このメトリクスの正確な測定には、異なるニュースイベント、ストーリー、タイムラインを特定するために自然言語処理(NLP)を適用する必要がある。 本稿では,ニュースレコメンデーションにおけるフラグメンテーションの定量化のための様々な手法について詳細に検討する。 これらの手法は、ニュースストーリーのクラスタリングにおける性能の測定と、異なるシミュレートされたニュースレコメンデータシナリオのフラグメンテーションスコアの評価の両方により、本質的に評価される。 その結果,集合的階層的クラスタリングとセンテンスBERTテキスト表現は,従来の実装よりもフラグメンテーションの検出に優れていた。 さらに、シミュレーションシナリオの分析は、断片化の測定と解釈に関するステークホルダーにとって貴重な洞察と推奨を与える。

News recommender systems play an increasingly influential role in shaping information access within democratic societies. However, tailoring recommendations to users' specific interests can result in the divergence of information streams. Fragmented access to information poses challenges to the integrity of the public sphere, thereby influencing democracy and public discourse. The Fragmentation metric quantifies the degree of fragmentation of information streams in news recommendations. Accurate measurement of this metric requires the application of Natural Language Processing (NLP) to identify distinct news events, stories, or timelines. This paper presents an extensive investigation of various approaches for quantifying Fragmentation in news recommendations. These approaches are evaluated both intrinsically, by measuring performance on news story clustering, and extrinsically, by assessing the Fragmentation scores of different simulated news recommender scenarios. Our findings demonstrate that agglomerative hierarchical clustering coupled with SentenceBERT text representation is substantially better at detecting Fragmentation than earlier implementations. Additionally, the analysis of simulated scenarios yields valuable insights and recommendations for stakeholders concerning the measurement and interpretation of Fragmentation.
翻訳日:2023-09-13 13:00:03 公開日:2023-09-12
# 可逆的確率的ステアリング蒸留の特性と基本限界

Characterisation and fundamental limitations of irreversible stochastic steering distillation ( http://arxiv.org/abs/2309.06191v1 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Huan-Yu Ku, Costantino Budroni(参考訳) 一方のデバイス非依存の量子情報タスクにおける量子アドバンテージの中心となるステアリングリソースは、ローカルフィルタを通じて拡張することができる。 近年,局所フィルタによる可逆的ステアリング変換が完全に特徴化されている。 ここでは非可逆的なシナリオでこの問題を解き、確率的ステアリング蒸留の完全な理解に繋がる。 この結果は、最大関係エントロピーを最適フィルタ成功確率として操作的解釈も提供する。 さらに, 一定の確率的ステアリング蒸留シナリオにおいて, いずれのステアリング手段も測定不適合性を定量化できることを示した。 最後に, 広い階層のステアリングロバストネス測度について, 確率的ステアリング蒸留におけるそれらの最大到達可能な値は, 異なるタイプの不整合ロバストネス測度によって常に上界していることを示す。 したがって、測定の不整合性は確率的ステアリング蒸留の基本的限界を定める。

Steering resources, central for quantum advantages in one-sided device-independent quantum information tasks, can be enhanced via local filters. Recently, reversible steering conversion under local filters has been fully characterised. Here, we solve the problem in the irreversible scenario, which leads to a complete understanding of stochastic steering distillation. This result also provides an operational interpretation of the max-relative entropy as the optimal filter success probability. We further show that all steering measures can be used to quantify measurement incompatibility in certain stochastic steering distillation scenarios. Finally, for a broad class of steering robustness measures, we show that their maximally achievable values in stochastic steering distillation are always upper bounded by different types of incompatibility robustness measures. Hence, measurement incompatibility sets the fundamental limitations for stochastic steering distillation.
翻訳日:2023-09-13 12:59:44 公開日:2023-09-12
# 南極krill自動解析のためのコンピュータビジョンパイプライン

Computer Vision Pipeline for Automated Antarctic Krill Analysis ( http://arxiv.org/abs/2309.06188v1 )

ライセンス: Link先を確認
Mazvydas Gudelis, Michal Mackiewicz, Julie Bremner, Sophie Fielding(参考訳) イギリス南極調査(bas)の研究者は、南極クリルのバイオマスを推定し、前年からの変化を評価するために、毎年南極に遠征を開始する。 これらの比較は、現在の環境が海洋食物連鎖のこの重要な構成要素に与える影響について洞察を与える。 本研究では,webベースの画像アノテーションツールとディープラーニング画像分類・回帰モデルを用いて,データ収集・分析プロセスの自動化を行うツールを開発した。 平均77.28%のapスコアで高精度なkrillインスタンスセグメンテーションを行い,62.99%の精度と9.6mmの誤差を有するkrill標本の成熟段階と長さ推定をそれぞれ分離した。

British Antarctic Survey (BAS) researchers launch annual expeditions to the Antarctic in order to estimate Antarctic Krill biomass and assess the change from previous years. These comparisons provide insight into the effects of the current environment on this key component of the marine food chain. In this work we have developed tools for automating the data collection and analysis process, using web-based image annotation tools and deep learning image classification and regression models. We achieve highly accurate krill instance segmentation results with an average 77.28% AP score, as well as separate maturity stage and length estimation of krill specimens with 62.99% accuracy and a 1.96 mm length error respectively.
翻訳日:2023-09-13 12:59:29 公開日:2023-09-12
# 雑音・残響環境における学習型音声強調システムの一般化ギャップの評価

Assessing the Generalization Gap of Learning-Based Speech Enhancement Systems in Noisy and Reverberant Environments ( http://arxiv.org/abs/2309.06183v1 )

ライセンス: Link先を確認
Philippe Gonzalez, Tommy Sonne Alstr{\o}m, Tobias May(参考訳) 話者のスペクトル時間特性や干渉雑音,信号対雑音比(SNR),室内特性など,雑音と残響の混合音の音響的変動は,複数の要因に影響される。 訓練条件とテスト条件のミスマッチがシステムの性能を大幅に低下させるので、この大きな変動は学習ベースの音声強調システムにとって大きな課題となる。 目に見えない条件への一般化は、訓練中に使用するものと異なる新しい音声、雑音、バイノーラルルームインパルス応答(BRIR)データベースでシステムをテストすることで評価される。 しかし、音声強調作業の難しさはデータベース間で変化し、結果に大きな影響を及ぼす可能性がある。 本研究は,テスト条件に基づいてトレーニングされた参照モデルを用いて,テスト条件の難易度をプロキシとして使用できる一般化評価フレームワークを提案する。 これにより、新しいデータを扱う効果からタスクの難易度の変化の影響を取り除き、一般化ギャップ(generalization gap)と呼ばれる新しい一般化性能尺度を定義することができる。 一般化ギャップを正確に推定するために、複数の音声、ノイズ、brirデータベースをサイクリングし、クロスバリデーション方式で繰り返す。 提案手法を用いて、フィードフォワードニューラルネットワーク(FFNN)、Conv-TasNet、DCCRN、MANNERの一般化ポテンシャルを評価する。 すべてのモデルにおいて、高いノイズと部屋の一般化は複数のデータベースでトレーニングすることで達成できるが、パフォーマンスは音声ミスマッチで最も劣化する。 さらに,近年のモデルでは一致条件では性能が向上するが,不一致条件では性能が著しく低下し,FFNN方式よりも劣る可能性がある。

The acoustic variability of noisy and reverberant speech mixtures is influenced by multiple factors, such as the spectro-temporal characteristics of the target speaker and the interfering noise, the signal-to-noise ratio (SNR) and the room characteristics. This large variability poses a major challenge for learning-based speech enhancement systems, since a mismatch between the training and testing conditions can substantially reduce the performance of the system. Generalization to unseen conditions is typically assessed by testing the system with a new speech, noise or binaural room impulse response (BRIR) database different from the one used during training. However, the difficulty of the speech enhancement task can change across databases, which can substantially influence the results. The present study introduces a generalization assessment framework that uses a reference model trained on the test condition, such that it can be used as a proxy for the difficulty of the test condition. This allows to disentangle the effect of the change in task difficulty from the effect of dealing with new data, and thus to define a new measure of generalization performance termed the generalization gap. The procedure is repeated in a cross-validation fashion by cycling through multiple speech, noise, and BRIR databases to accurately estimate the generalization gap. The proposed framework is applied to evaluate the generalization potential of a feedforward neural network (FFNN), Conv-TasNet, DCCRN and MANNER. We find that for all models, the performance degrades the most in speech mismatches, while good noise and room generalization can be achieved by training on multiple databases. Moreover, while recent models show higher performance in matched conditions, their performance substantially decreases in mismatched conditions and can become inferior to that of the FFNN-based system.
翻訳日:2023-09-13 12:59:16 公開日:2023-09-12
# 摂動qcd過程のシミュレーションのための量子アルゴリズム

Quantum algorithms for the simulation of perturbative QCD processes ( http://arxiv.org/abs/2309.06182v1 )

ライセンス: Link先を確認
Herschel A. Chawdhry and Mathieu Pellen(参考訳) 量子コンピュータは量子システムのシミュレーションのために大きなスピードアップを期待されている。 本稿では,摂動量子色力学(qcd)過程のシミュレーションのための量子アルゴリズムについて述べる。 特に、クォークとグルーオンの相互作用の色部分をシミュレートするための量子回路を記述する。 提案回路を無ノイズ量子コンピュータに実装し、ファインマン図の様々な例の色係数を計算して検証する。

Quantum computers are expected to give major speed-ups for the simulation of quantum systems. In these conference proceedings, we discuss quantum algorithms for the simulation of perturbative Quantum Chromodynamics (QCD) processes. In particular, we describe quantum circuits for simulating the colour part of the interactions of quarks and gluons. We implement our circuits on a simulated noiseless quantum computer and validate them by calculating colour factors for various examples of Feynman diagrams.
翻訳日:2023-09-13 12:58:46 公開日:2023-09-12
# 最初のステップは最も難しい: 大規模言語モデルのための時間データの表現とトークン化の落とし穴

The first step is the hardest: Pitfalls of Representing and Tokenizing Temporal Data for Large Language Models ( http://arxiv.org/abs/2309.06236v1 )

ライセンス: Link先を確認
Dimitris Spathis, Fahim Kawsar(参考訳) 大規模言語モデル(llm)は様々なタスクにまたがって著しく一般化し、個人がパーソナルアシスタントやユニバーサルコンピューティングエンジンとして使うようになった。 それでも、ウェアラブルや電子健康記録から得られたデータなど、数値的/時間的データをこれらのモデルに流すと、注目すべき障害が発生する。 LLMは入力にトークン化器を使用し、テキストを小さな単位に分割する。 しかし、トークン化器は数値を表すように設計されていず、繰り返しパターンや文脈を理解するのに苦労し、連続した値を別々のトークンとして扱い、時間的関係を無視する。 本稿では、モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じ、一般的なLLMが時間データを誤ってトークン化することを示すケーススタディを示す。 そこで我々は,この「モダリティギャップ」を埋める上で有効な,軽量な埋め込み層とマルチモーダルアダプタとの迅速なチューニングのような潜在的なソリューションを強調した。 最小あるいは最小の微調整なしで他のモダリティに一般化できる言語モデルの能力はエキサイティングであるが、入力ニュアンスを突破した場合、その出力が意味を成さないという事実を強調する。

Large Language Models (LLMs) have demonstrated remarkable generalization across diverse tasks, leading individuals to increasingly use them as personal assistants and universal computing engines. Nevertheless, a notable obstacle emerges when feeding numerical/temporal data into these models, such as data sourced from wearables or electronic health records. LLMs employ tokenizers in their input that break down text into smaller units. However, tokenizers are not designed to represent numerical values and might struggle to understand repetitive patterns and context, treating consecutive values as separate tokens and disregarding their temporal relationships. Here, we discuss recent works that employ LLMs for human-centric tasks such as in mobile health sensing and present a case study showing that popular LLMs tokenize temporal data incorrectly. To address that, we highlight potential solutions such as prompt tuning with lightweight embedding layers as well as multimodal adapters, that can help bridge this "modality gap". While the capability of language models to generalize to other modalities with minimal or no finetuning is exciting, this paper underscores the fact that their outputs cannot be meaningful if they stumble over input nuances.
翻訳日:2023-09-13 12:52:35 公開日:2023-09-12
# 単一指標モデルにおける最適サブセット選択のための一貫性とスケーラブルなアルゴリズム

A Consistent and Scalable Algorithm for Best Subset Selection in Single Index Models ( http://arxiv.org/abs/2309.06230v1 )

ライセンス: Link先を確認
Borui Tang, Jin Zhu, Junxian Zhu, Xueqin Wang, Heping Zhang(参考訳) 高次元データの解析は、シングルインデックスモデル(sims)とベストサブセット選択の両方への関心を高めた。 SIMは高次元データに対する解釈可能なフレキシブルなモデリングフレームワークを提供する一方、最適なサブセット選択は、大量の予測器からスパースモデルを見つけることを目的としている。 しかし、高次元モデルにおける最良の部分集合選択は計算的に難解であることが知られている。 既存のメソッドは選択を緩和する傾向があるが、最良のサブセットソリューションを与えない。 本稿では,高次元SIMにおける最良部分選択のための最初の証明可能な拡張性アルゴリズムを提案する。 私たちのアルゴリズムソリューションは、サブセット選択の一貫性を享受し、高い確率でoracleプロパティを持ちます。 このアルゴリズムは、回帰係数の支持サイズを決定するための一般化情報基準を含み、モデル選択チューニングを除去する。 さらに,本手法では,誤差分布や特定のリンク関数を仮定せず,適用が柔軟である。 広範なシミュレーション結果から,本手法は計算効率だけでなく,様々な設定(線形回帰,ポアソン回帰,ヘテロシドスティックモデルなど)において最適部分集合を正確に復元できることを示した。

Analysis of high-dimensional data has led to increased interest in both single index models (SIMs) and best subset selection. SIMs provide an interpretable and flexible modeling framework for high-dimensional data, while best subset selection aims to find a sparse model from a large set of predictors. However, best subset selection in high-dimensional models is known to be computationally intractable. Existing methods tend to relax the selection, but do not yield the best subset solution. In this paper, we directly tackle the intractability by proposing the first provably scalable algorithm for best subset selection in high-dimensional SIMs. Our algorithmic solution enjoys the subset selection consistency and has the oracle property with a high probability. The algorithm comprises a generalized information criterion to determine the support size of the regression coefficients, eliminating the model selection tuning. Moreover, our method does not assume an error distribution or a specific link function and hence is flexible to apply. Extensive simulation results demonstrate that our method is not only computationally efficient but also able to exactly recover the best subset in various settings (e.g., linear regression, Poisson regression, heteroscedastic models).
翻訳日:2023-09-13 12:52:12 公開日:2023-09-12
# XAIxArtの接合について

On the Injunction of XAIxArt ( http://arxiv.org/abs/2309.06227v1 )

ライセンス: Link先を確認
Cheshta Arora, Debarun Sarkar(参考訳) ポジションペーパーは、アートにおける説明可能な人工知能(XAIxArt)の差し迫った懸念の範囲を強調している。 一連の素早いサブクエストを通じて、「説明」に関する曖昧さと「関連する説明」というポストポジニストの伝統を指している。 論文は「説明」と「関連説明」の両方を否定し、XAIxArtは人類中心の芸術観念の不安全の症状であり、権威と人事の無秩序な概念に戻ろうとするノスタルジックな欲求であるとした。 このスタンスを正当化するために、論文は説明の装飾モデルと説明のモデルとをセンスメイキングとして区別する。

The position paper highlights the range of concerns that are engulfed in the injunction of explainable artificial intelligence in art (XAIxArt). Through a series of quick sub-questions, it points towards the ambiguities concerning 'explanation' and the postpositivist tradition of 'relevant explanation'. Rejecting both 'explanation' and 'relevant explanation', the paper takes a stance that XAIxArt is a symptom of insecurity of the anthropocentric notion of art and a nostalgic desire to return to outmoded notions of authorship and human agency. To justify this stance, the paper makes a distinction between an ornamentation model of explanation to a model of explanation as sense-making.
翻訳日:2023-09-13 12:51:51 公開日:2023-09-12
# DNN実行デバイス上でのシグナブルビットフリップ攻撃の解除

Unveiling Signle-Bit-Flip Attacks on DNN Executables ( http://arxiv.org/abs/2309.06223v1 )

ライセンス: Link先を確認
Yanzuo Chen (1), Zhibo Liu (1), Yuanyuan Yuan (1), Sihang Hu (2), Tianxiang Li (2), Shuai Wang (1) ((1) The Hong Kong University of Science and Technology, (2) Huawei Technologies)(参考訳) 近年の研究では、ビットフリップ攻撃(BFA)がDRAM Rowhammerによるディープニューラルネットワーク(DNN)を操作可能であることが示されている。 既存の攻撃は主にPyTorchやモデルウェイトファイルのフリップビットのような高レベルのDNNフレームワーク上で起動される。 それでも、DNNは低レベルのハードウェアプリミティブを完全に活用するために、ディープラーニング(DL)コンパイラによってしばしば低レベルの実行ファイルにコンパイルされる。 コンパイルされたコードは、通常高速で、ハイレベルなDNNフレームワークと劇的に異なる実行パラダイムを示す。 本稿では,DLコンパイラによってコンパイルされたDNN実行ファイルを対象とした,BFAの攻撃面に関する最初の体系的研究を行う。 我々は,DNN実行ファイルの脆弱なビットを識別する自動検索ツールを設計し,BFAを用いたDNN実行ファイルのモデル構造を利用する実用的な攻撃ベクトルを同定する。 DNN実行ファイルは、高レベルのDNNフレームワークのモデルよりも"不透明"に見える。 それでも、DNN実行可能ファイルには、高レベルなDNNモデルには存在せず、完全なモデルインテリジェンスと制御出力ラベルを損なうことができる、広範囲で厳しい(例えばシングルビットフリップ)攻撃面が含まれていることが分かる。 今後のDNNコンパイルツールチェーンにセキュリティメカニズムを組み込むことが求められます。

Recent research has shown that bit-flip attacks (BFAs) can manipulate deep neural networks (DNNs) via DRAM Rowhammer exploitations. Existing attacks are primarily launched over high-level DNN frameworks like PyTorch and flip bits in model weight files. Nevertheless, DNNs are frequently compiled into low-level executables by deep learning (DL) compilers to fully leverage low-level hardware primitives. The compiled code is usually high-speed and manifests dramatically distinct execution paradigms from high-level DNN frameworks. In this paper, we launch the first systematic study on the attack surface of BFA specifically for DNN executables compiled by DL compilers. We design an automated search tool to identify vulnerable bits in DNN executables and identify practical attack vectors that exploit the model structure in DNN executables with BFAs (whereas prior works make likely strong assumptions to attack model weights). DNN executables appear more "opaque" than models in high-level DNN frameworks. Nevertheless, we find that DNN executables contain extensive, severe (e.g., single-bit flip), and transferrable attack surfaces that are not present in high-level DNN models and can be exploited to deplete full model intelligence and control output labels. Our finding calls for incorporating security mechanisms in future DNN compilation toolchains.
翻訳日:2023-09-13 12:51:36 公開日:2023-09-12
# ニューラルネットワークを使って、学生の手書き文字と間違った記号を認識する

Use neural networks to recognize students' handwritten letters and incorrect symbols ( http://arxiv.org/abs/2309.06221v1 )

ライセンス: Link先を確認
JiaJun Zhu, Zichuan Yang, Binjie Hong, Jiacheng Song, Jiwei Wang, Tianhao Chen, Shuilan Yang, Zixun Lan, Fei Ma(参考訳) 学生の多重選択回答の修正は、イメージ多分類タスクと考えられる反復的かつ機械的なタスクである。 可能なオプションが'abcd'であり、正しいオプションが4つのうちの1つであると仮定すると、一部の学生は、存在しない間違ったシンボルやオプションを書くことができる。 本稿では,5つの分類を定式化した。4つは正しい選択肢,もう1つは不正確な書き方である。 このアプローチは、非標準の書き込みオプションの可能性を考慮している。

Correcting students' multiple-choice answers is a repetitive and mechanical task that can be considered an image multi-classification task. Assuming possible options are 'abcd' and the correct option is one of the four, some students may write incorrect symbols or options that do not exist. In this paper, five classifications were set up - four for possible correct options and one for other incorrect writing. This approach takes into account the possibility of non-standard writing options.
翻訳日:2023-09-13 12:51:14 公開日:2023-09-12
# グラフリンク予測を用いたライフスタイルVlogにおけるヒューマンアクション共起

Human Action Co-occurrence in Lifestyle Vlogs using Graph Link Prediction ( http://arxiv.org/abs/2309.06219v1 )

ライセンス: Link先を確認
Oana Ignat, Santiago Castro, Weiji Li, Rada Mihalcea(参考訳) 我々は,2つの人間の行動が同じ時間間隔で共起可能かどうかを判断する,自動的人間の行動共起識別タスクを導入する。 我々はACE(Action Co-occurrencE)データセットを公開し、約12kのビジュアルアクションとそれに対応するビデオクリップからなる巨大なグラフを作成し、公開する。 視覚情報とテキスト情報を利用して2つのアクションが共起しているかどうかを自動的に推測するグラフリンク予測モデルについて述べる。 グラフは人間の行動間の関係を捉えるのに特に適しており、学習したグラフ表現はタスクに有効であり、異なるデータ領域にまたがる新規および関連情報をキャプチャする。 この論文で導入されたACEデータセットとコードはhttps://github.com/MichiganNLP/vlog_action_co-occurrenceで公開されている。

We introduce the task of automatic human action co-occurrence identification, i.e., determine whether two human actions can co-occur in the same interval of time. We create and make publicly available the ACE (Action Co-occurrencE) dataset, consisting of a large graph of ~12k co-occurring pairs of visual actions and their corresponding video clips. We describe graph link prediction models that leverage visual and textual information to automatically infer if two actions are co-occurring. We show that graphs are particularly well suited to capture relations between human actions, and the learned graph representations are effective for our task and capture novel and relevant information across different data domains. The ACE dataset and the code introduced in this paper are publicly available at https://github.com/MichiganNLP/vlog_action_co-occurrence.
翻訳日:2023-09-13 12:51:05 公開日:2023-09-12
# 地理空間気象データに基づく深層ニューラルネットワークによる長期干ばつ予測

Long-term drought prediction using deep neural networks based on geospatial weather data ( http://arxiv.org/abs/2309.06212v1 )

ライセンス: Link先を確認
Vsevolod Grabar, Alexander Marusov, Alexey Zaytsev, Yury Maximov, Nazar Sotiriadi, Alexander Bulkin(参考訳) 特定の地域における干ばつ確率の正確な予測は,農業実践におけるインフォームド意思決定に不可欠である。 予測を1年先、特に長期的決定のために行うことが重要である。 しかし、この確率を予測することは、関心領域や近隣地域の様々な要因の複雑な相互作用による課題である。 本研究では,様々な時空間ニューラルネットワークに基づくエンドツーエンドソリューションを提案する。 これらのモデルは、パーマー干ばつ重症度指数(PDSI)に基づく干ばつ強度予測に焦点をあて、固有の要因と気候モデルからの洞察を活用して干ばつ予測を強化する。 コンボリューショナルLSTM(ConvLSTM)とトランスフォーマーモデルの精度は,ベースライン勾配向上とロジスティック回帰解と比較して優れている。 以前の2つのモデルは、予測地平線が1ヶ月から6ヶ月で0.90から0.70という印象的なROC AUCスコアを達成し、ベースラインモデルを上回った。 トランスは短い水平線に対して優れ、ConvLSTMは長い水平線に対して優れていた。 したがって,長期干ばつ予測にしたがってモデルを選択することを推奨する。 検討したモデルの広範な適用性を確保するため,様々な環境条件を考慮し,世界中にまたがる広範囲な検証を行う。 いくつかのアブレーションと感度の研究も行っており、この問題の解決方法に関する追加情報を提供しています。

The accurate prediction of drought probability in specific regions is crucial for informed decision-making in agricultural practices. It is important to make predictions one year in advance, particularly for long-term decisions. However, forecasting this probability presents challenges due to the complex interplay of various factors within the region of interest and neighboring areas. In this study, we propose an end-to-end solution to address this issue based on various spatiotemporal neural networks. The models considered focus on predicting the drought intensity based on the Palmer Drought Severity Index (PDSI) for subregions of interest, leveraging intrinsic factors and insights from climate models to enhance drought predictions. Comparative evaluations demonstrate the superior accuracy of Convolutional LSTM (ConvLSTM) and transformer models compared to baseline gradient boosting and logistic regression solutions. The two former models achieved impressive ROC AUC scores from 0.90 to 0.70 for forecast horizons from one to six months, outperforming baseline models. The transformer showed superiority for shorter horizons, while ConvLSTM did so for longer horizons. Thus, we recommend selecting the models accordingly for long-term drought forecasting. To ensure the broad applicability of the considered models, we conduct extensive validation across regions worldwide, considering different environmental conditions. We also run several ablation and sensitivity studies to challenge our findings and provide additional information on how to solve the problem.
翻訳日:2023-09-13 12:50:49 公開日:2023-09-12
# sgfeat:ポイントクラウド登録のための幾何学的特徴

SGFeat: Salient Geometric Feature for Point Cloud Registration ( http://arxiv.org/abs/2309.06207v1 )

ライセンス: Link先を確認
Qianliang Wu, Yaqing Ding, Lei Luo, Chuanwei Zhou, Jin Xie, Jian Yang(参考訳) ポイントクラウド登録(PCR)はコンピュータビジョンにおいて重要かつ困難なタスクである。 PCRの最大の難しさの1つは、様々なスキャンで一貫した意味的および幾何学的性質を示す有意義な点を特定することである。 従来の手法では、点群全体のパッチブロック間の類似性や、効率的なグローバルな幾何整合性に対する考慮の欠如が原因で、不明瞭なマッチングに遭遇した。 これらの課題に対処するため、我々はいくつかの新しい手法を含む新しい枠組みを提案する。 まず,オブジェクトレベルとパッチレベルのセマンティック情報を組み合わせた意味認識型幾何エンコーダを提案する。 このエンコーダはパッチレベルのスーパーポイントマッチングのあいまいさを低減し、登録リコールを大幅に改善する。 さらに本研究では,本質的な形状のシグネチャを用いて有能な点を同定する事前知識アプローチを導入する。 これにより、シーン内で最も有意義なスーパーポイントと有意義な密度ポイントを抽出できる。 次に,高次幾何学的特徴を符号化する革新的な変換器を提案する。 これらの特徴は、大域的な高次幾何整合性を考慮して、初期重なり合う領域内の有意点を特定するために重要である。 この高次変圧器をさらに最適化するために,アンカーノード選択戦略を導入する。 これらのアンカーノードに基づいてフレーム間三角形や多面体一貫性の特徴をエンコードすることで、高度超点の高次幾何学的特徴を効果的に学習することができる。 これらの高次特徴は密集点に伝播し、シンクホーンマッチングモジュールによってキー対応を識別して登録を成功させる。 3DMatch/3DLoMatchやKITTIといったよく知られたデータセットを用いて実験を行った結果,提案手法の有効性が示された。

Point Cloud Registration (PCR) is a critical and challenging task in computer vision. One of the primary difficulties in PCR is identifying salient and meaningful points that exhibit consistent semantic and geometric properties across different scans. Previous methods have encountered challenges with ambiguous matching due to the similarity among patch blocks throughout the entire point cloud and the lack of consideration for efficient global geometric consistency. To address these issues, we propose a new framework that includes several novel techniques. Firstly, we introduce a semantic-aware geometric encoder that combines object-level and patch-level semantic information. This encoder significantly improves registration recall by reducing ambiguity in patch-level superpoint matching. Additionally, we incorporate a prior knowledge approach that utilizes an intrinsic shape signature to identify salient points. This enables us to extract the most salient super points and meaningful dense points in the scene. Secondly, we introduce an innovative transformer that encodes High-Order (HO) geometric features. These features are crucial for identifying salient points within initial overlap regions while considering global high-order geometric consistency. To optimize this high-order transformer further, we introduce an anchor node selection strategy. By encoding inter-frame triangle or polyhedron consistency features based on these anchor nodes, we can effectively learn high-order geometric features of salient super points. These high-order features are then propagated to dense points and utilized by a Sinkhorn matching module to identify key correspondences for successful registration. In our experiments conducted on well-known datasets such as 3DMatch/3DLoMatch and KITTI, our approach has shown promising results, highlighting the effectiveness of our novel method.
翻訳日:2023-09-13 12:50:27 公開日:2023-09-12
# ダイヤモンド中の窒素空孔中心における広視野ラジオ波イメージングのためのRabi振動のモデル化

Modelling Rabi oscillations for widefield radiofrequency imaging in nitrogen-vacancy centers in diamond ( http://arxiv.org/abs/2309.06203v1 )

ライセンス: Link先を確認
Simone Magaletti, Ludovic Mayer, Jean-Fran\c{c}ois Roch, Thierry Debuisschert(参考訳) 本稿では,ダイヤモンド中の窒素空孔中心のアンサンブルのダイナミックスについて,広視野イメージングシステムを用いて発光を検出した場合に検討する。 我々は7レベルモデルを開発し,それを用いて,窒素空洞中心ラビ振動の広視野検出をシミュレートする。 シミュレーション結果は, 良好な一致を示す実験結果と比較した。 特に,ラビ振動の検出のために実装されたパルスシーケンスにおいて,窒素空洞中心の不完全再分極により検出されたラビ振動の非対称形状を説明するためにモデルを用いる。

In this paper we study the dynamics of an ensemble of nitrogen-vacancy centers in diamond when its photoluminescence is detected by means of a widefield imaging system. We develop a seven-level model and use it to simulate the widefield detection of nitrogen-vacancy centers Rabi oscillations. The simulation results are compared with experimental measurements showing a good agreement. In particular, we use the model to explain the asymmetric shape of the detected Rabi oscillations due to an incomplete repolarization of the nitrogen-vacancy center during the pulse sequence implemented for the detection of Rabi oscillations.
翻訳日:2023-09-13 12:50:00 公開日:2023-09-12
# 教師なし特徴選択のための正半定値投影による高速スパースPCA

Fast Sparse PCA via Positive Semidefinite Projection for Unsupervised Feature Selection ( http://arxiv.org/abs/2309.06202v1 )

ライセンス: Link先を確認
Junjing Zheng, Xinyu Zhang, Yongxiang Liu, Weidong Jiang, Kai Huo, Li Liu(参考訳) 教師なし特徴選択の分野では、スパース主成分分析(SPCA)手法が近年ますます注目を集めている。 スペクトルベースの手法と比較して、SPCA法は類似度行列の構築に頼らず、実世界のデータにより良い特徴選択能力を示す。 元のSPCAは非凸最適化問題を定式化している。 既存の凸SPCA法は, 再構成行列を最適化変数として, SPCAを凸モデルとして再構成する。 しかし、それらはSPCAの直交制限に相当する制約の欠如であり、より大きな解空間をもたらす。 本稿では, 凸SPCAモデルに対する最適解が正準有限円錐(PSD)に落ちることを証明した。 教師なし特徴選択のためのPSD制約付き標準凸SPCAモデルを提案する。 さらに,PSDプロジェクションを用いた2段階の高速最適化アルゴリズムを提案する。 2つの既存の凸SPCAモデルもPSDコーンに最適化されていることが証明されている。 したがって、これらの2モデルのPSD版も収束を加速するために提案されている。 また,提案手法に対する正規化パラメータ設定戦略を提案する。 合成および実世界のデータセット実験は,提案手法の有効性と有効性を示す。

In the field of unsupervised feature selection, sparse principal component analysis (SPCA) methods have attracted more and more attention recently. Compared to spectral-based methods, SPCA methods don't rely on the construction of a similarity matrix and show better feature selection ability on real-world data. The original SPCA formulates a nonconvex optimization problem. Existing convex SPCA methods reformulate SPCA as a convex model by regarding the reconstruction matrix as an optimization variable. However, they are lack of constraints equivalent to the orthogonality restriction in SPCA, leading to larger solution space. In this paper, it's proved that the optimal solution to a convex SPCA model falls onto the Positive Semidefinite (PSD) cone. A standard convex SPCA-based model with PSD constraint for unsupervised feature selection is proposed. Further, a two-step fast optimization algorithm via PSD projection is presented to solve the proposed model. Two other existing convex SPCA-based models are also proven to have their solutions optimized on the PSD cone in this paper. Therefore, the PSD versions of these two models are proposed to accelerate their convergence as well. We also provide a regularization parameter setting strategy for our proposed method. Experiments on synthetic and real-world datasets demonstrate the effectiveness and efficiency of the proposed methods.
翻訳日:2023-09-13 12:49:49 公開日:2023-09-12
# ELRA:指数学習率適応勾配勾配最適化法

ELRA: Exponential learning rate adaption gradient descent optimization method ( http://arxiv.org/abs/2309.06274v1 )

ライセンス: Link先を確認
Alexander Kleinsorge, Stefan Kupper, Alexander Fauck, Felix Rothe(参考訳) 本稿では, 高速(指数速度適応), ab initio(ハイパーパラメータフリー)勾配に基づく最適化アルゴリズムを提案する。 この方法の主なアイデアは、状況認識によって学習率$\alpha$を適応させることである。 この方法は高い成功率と高速収束率を持ち、より普遍性の高い手動パラメータに依存しない。 これは任意の次元 n の問題に適用でき、問題の次元を持つ(次数 o(n)) だけを線形にスケールすることができる。 ある種の勾配を提供する凸および非凸の連続景観を最適化する。 Ada- Family(AdaGrad、AdaMax、AdaDelta、Adamなど)とは対照的に、この方法は回転不変である。 この性能は、最先端オプティマイザに対するMNISTベンチマークデータセットの広範な実験によって実証されている。 この新しいクラスのオプティマイザは,そのコアアイデア指数的学習率適応 - elraにちなむものです。 わずかに異なる制御を持つ2つの変種c2minとp2minを示す。 著者らは、ELRAが勾配降下最適化のための全く新しい研究方向を開くと強く信じている。

We present a novel, fast (exponential rate adaption), ab initio (hyper-parameter-free) gradient based optimizer algorithm. The main idea of the method is to adapt the learning rate $\alpha$ by situational awareness, mainly striving for orthogonal neighboring gradients. The method has a high success and fast convergence rate and does not rely on hand-tuned parameters giving it greater universality. It can be applied to problems of any dimensions n and scales only linearly (of order O(n)) with the dimension of the problem. It optimizes convex and non-convex continuous landscapes providing some kind of gradient. In contrast to the Ada-family (AdaGrad, AdaMax, AdaDelta, Adam, etc.) the method is rotation invariant: optimization path and performance are independent of coordinate choices. The impressive performance is demonstrated by extensive experiments on the MNIST benchmark data-set against state-of-the-art optimizers. We name this new class of optimizers after its core idea Exponential Learning Rate Adaption - ELRA. We present it in two variants c2min and p2min with slightly different control. The authors strongly believe that ELRA will open a completely new research direction for gradient descent optimize.
翻訳日:2023-09-13 12:42:50 公開日:2023-09-12
# ssVERDICT: 自己監督型VERDICT-MRIによる前立腺腫瘍の診断

ssVERDICT: Self-Supervised VERDICT-MRI for Enhanced Prostate Tumour Characterisation ( http://arxiv.org/abs/2309.06268v1 )

ライセンス: Link先を確認
Snigdha Sen, Saurabh Singh, Hayley Pye, Caroline Moore, Hayley Whitaker, Shonit Punwani, David Atkinson, Eleftheria Panagiotaki, Paddy J. Slator(参考訳) 前立腺癌(PCa)の診断にはMRIがますます使われており、拡散MRI(dMRI)が重要な役割を担っている。 計算モデルと組み合わせると、dMRIは細胞の大きさなどの微細構造情報を推定することができる。 従来、そのようなモデルは、高い計算コストを伴う非線形最小二乗(nlls)曲線フィッティングアプローチに適合する。 教師付きディープニューラルネットワーク(DNN)は効率的な代替手段であるが、その性能は合成トレーニングデータの基盤となる分布に大きく影響される。 自己教師型学習は魅力的な代替手段であり、個別のトレーニングデータセットを使用する代わりに、ネットワークは入力データ自体の特徴を学習する。 このアプローチは、これまでは自明なdMRIモデルの適合にのみ適用されてきた。 本稿では,前立腺に対するVERDICT(Vascular, Extracellular and Restricted Diffusion for Cytometry in Tumours)モデルのパラメータを推定する自己教師型DNNを提案する。 明示的なトレーニングラベルを必要とせずに、複雑な3コンパートメント生物物理モデルと機械学習を初めて適合させることを実証する。 推定性能をベースラインNLLSと教師付きDNN法と比較し,地中真理値に対する推定精度の向上とバイアス低減を観察する。 また, 癌性前立腺組織と良性前立腺組織との鑑別に対する高い信頼度を20例の患者データと比較し, 正確な腫瘍の特徴化の可能性を示した。

MRI is increasingly being used in the diagnosis of prostate cancer (PCa), with diffusion MRI (dMRI) playing an integral role. When combined with computational models, dMRI can estimate microstructural information such as cell size. Conventionally, such models are fit with a nonlinear least squares (NLLS) curve fitting approach, associated with a high computational cost. Supervised deep neural networks (DNNs) are an efficient alternative, however their performance is significantly affected by the underlying distribution of the synthetic training data. Self-supervised learning is an attractive alternative, where instead of using a separate training dataset, the network learns the features of the input data itself. This approach has only been applied to fitting of trivial dMRI models thus far. Here, we introduce a self-supervised DNN to estimate the parameters of the VERDICT (Vascular, Extracellular and Restricted DIffusion for Cytometry in Tumours) model for prostate. We demonstrate, for the first time, fitting of a complex three-compartment biophysical model with machine learning without the requirement of explicit training labels. We compare the estimation performance to baseline NLLS and supervised DNN methods, observing improvement in estimation accuracy and reduction in bias with respect to ground truth values. Our approach also achieves a higher confidence level for discrimination between cancerous and benign prostate tissue in comparison to the other methods on a dataset of 20 PCa patients, indicating potential for accurate tumour characterisation.
翻訳日:2023-09-13 12:42:31 公開日:2023-09-12
# 可視赤外人物再同定のためのモダリティ統一ネットワーク

Modality Unifying Network for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2309.06262v1 )

ライセンス: Link先を確認
Hao Yu, Xu Cheng, Wei Peng, Weihao Liu, Guoying Zhao(参考訳) vi-reid (visible-infrared person re-identification) は大きなクロスモダリティの不一致とクラス内変異のため難しい課題である。 既存の方法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現の学習に焦点を当てている。 その結果、学習した特徴は、モダリティにまたがる共通パターンを強調しつつ、Re-IDに有用なモダリティ特化情報やアイデンティティ認識情報を抑圧する。 そこで本研究では,vi-reidのロバストな補助的モダリティを探索するための新しいモダリティ統一ネットワーク(mun)を提案する。 まず,提案したモダリティ学習者とモダリティ内学習者を組み合わせることで,モダリティ固有表現とモダリティ共有表現を動的にモデル化し,モダリティ内およびモダリティ内変動を緩和する。 第二に、3つのモードにまたがってアイデンティティセンターを整列させることにより、識別的特徴表現を発見するためにアイデンティティアライメント損失関数を提案する。 第3に、モダリティ・プロトタイプ・モデリングにより可視画像と赤外線画像の分布距離を一貫して減少させるモダリティアライメント損失を導入する。 複数の公開データセットに対する大規模な実験により、提案手法が現在の最先端手法をはるかに上回ることを示す。

Visible-infrared person re-identification (VI-ReID) is a challenging task due to large cross-modality discrepancies and intra-class variations. Existing methods mainly focus on learning modality-shared representations by embedding different modalities into the same feature space. As a result, the learned feature emphasizes the common patterns across modalities while suppressing modality-specific and identity-aware information that is valuable for Re-ID. To address these issues, we propose a novel Modality Unifying Network (MUN) to explore a robust auxiliary modality for VI-ReID. First, the auxiliary modality is generated by combining the proposed cross-modality learner and intra-modality learner, which can dynamically model the modality-specific and modality-shared representations to alleviate both cross-modality and intra-modality variations. Second, by aligning identity centres across the three modalities, an identity alignment loss function is proposed to discover the discriminative feature representations. Third, a modality alignment loss is introduced to consistently reduce the distribution distance of visible and infrared images by modality prototype modeling. Extensive experiments on multiple public datasets demonstrate that the proposed method surpasses the current state-of-the-art methods by a significant margin.
翻訳日:2023-09-13 12:42:05 公開日:2023-09-12
# 強化学習を用いた大規模渦シミュレーションのための離散化整合閉包スキームの提案

Toward Discretization-Consistent Closure Schemes for Large Eddy Simulation Using Reinforcement Learning ( http://arxiv.org/abs/2309.06260v1 )

ライセンス: Link先を確認
Andrea Beck and Marius Kurz(参考訳) 暗黙的にフィルタされた大渦シミュレーション(LES)のための離散化整合クロージャ手法を提案する。 暗黙的にフィルタされた les では、誘導フィルタカーネル(英語版)と閉包項は、グリッドと離散演算子の性質によって決定される。 したがって、LES閉鎖モデルの係数を適応させるタスクをマルコフ決定プロセスとして定式化し、強化学習(RL)を用いて後続的に解決する。 これにより、離散化とモデル自体とのインタラクションも組み込まれているため、実際の離散化に合わせてモデルを調整できる。 この最適化フレームワークは、明示的および暗黙的なクロージャモデルの両方に適用される。 要素局所渦粘度モデルを明示モデルとして最適化する。 暗黙的モデリングでは、RLを用いてハイブリッド不連続なガレルキン(DG)と有限体積スキームの最適ブレンディング戦略を特定する。 新たに派生したすべてのモデルは、異なる離散化と分解のための古典的最先端モデルに一致するか、より優れているか、正確で一貫した結果を得る。 さらに、明示的なモデルは、DG要素内の粘度の分布を作用素の不均一な離散化特性に適応させることが示される。 暗黙の場合には、最適化されたハイブリッドスキームは、圧縮可能な乱流のための新しい高次スキームのクラスを起動する実行可能なモデリング ansatz として自身をレンダリングする。 全体として、提案するrl最適化は、暗黙的にフィルタされたlesの不確かさを低減できる離散化一貫性のあるクロージャを提供することができることを示した。

We propose a novel method for developing discretization-consistent closure schemes for implicitly filtered Large Eddy Simulation (LES). In implicitly filtered LES, the induced filter kernel, and thus the closure terms, are determined by the properties of the grid and the discretization operator, leading to additional computational subgrid terms that are generally unknown in a priori analysis. Therefore, the task of adapting the coefficients of LES closure models is formulated as a Markov decision process and solved in an a posteriori manner with Reinforcement Learning (RL). This allows to adjust the model to the actual discretization as it also incorporates the interaction between the discretization and the model itself. This optimization framework is applied to both explicit and implicit closure models. An element-local eddy viscosity model is optimized as the explicit model. For the implicit modeling, RL is applied to identify an optimal blending strategy for a hybrid discontinuous Galerkin (DG) and finite volume scheme. All newly derived models achieve accurate and consistent results, either matching or outperforming classical state-of-the-art models for different discretizations and resolutions. Moreover, the explicit model is demonstrated to adapt its distribution of viscosity within the DG elements to the inhomogeneous discretization properties of the operator. In the implicit case, the optimized hybrid scheme renders itself as a viable modeling ansatz that could initiate a new class of high order schemes for compressible turbulence. Overall, the results demonstrate that the proposed RL optimization can provide discretization-consistent closures that could reduce the uncertainty in implicitly filtered LES.
翻訳日:2023-09-13 12:41:41 公開日:2023-09-12
# 非平衡多体理論における作業統計と断熱的仮定

Work Statistics and Adiabatic Assumption in Nonequilibrium Many-Body Theory ( http://arxiv.org/abs/2309.06258v1 )

ライセンス: Link先を確認
Yi Zuo, Qinghong Yang, Banggui Liu, Dong E Liu(参考訳) ケルディッシュ場理論は断熱的な仮定に基づくもので、非平衡多体系に対処するために広く使われている枠組みである。 それでも、相互作用するギブス状態に対処する際のそのような断続的な仮定の妥当性は論争の的のままである。 非平衡熱力学で発達した作業統計学の知識を用いてこの問題を研究する。 その結果、初期ギブス状態から別の状態へ遷移する進化の特徴を表す普遍的な定理を導出する。 この定理に基づき、断熱的進化が相互作用しないギブス状態から相互作用する状態へと遷移しないことを解析的に確認する。 しかし、この断熱的アプローチは、非断熱的アプローチと比較して優れた近似である。 我々の理論と予測を検証する数値も提供される。 さらに,量子計算領域におけるgibbs状態の生成に関する知見が得られた。

Keldysh field theory, based on adiabatic assumptions, serves as an widely used framework for addressing nonequilibrium many-body systems. Nonetheless, the validity of such adiabatic assumptions when addressing interacting Gibbs states remains a topic of contention. We use the knowledge of work statistics developed in nonequilibrium thermodynamics to study this problem. Consequently, we deduce a universal theorem delineating the characteristics of evolutions that transition an initial Gibbs state to another. Based on this theorem, we analytically ascertain that adiabatic evolutions fail to transition a non-interacting Gibbs state to its interacting counterpart. However, this adiabatic approach remains a superior approximation relative to its non-adiabatic counterpart. Numerics verifying our theory and predictions are also provided. Furthermore, our findings render insights into the preparation of Gibbs states within the domain of quantum computation.
翻訳日:2023-09-13 12:41:12 公開日:2023-09-12
# 特殊対一般性:微調整基礎モデルにおける破滅的忘れ方に関する実証的研究

Speciality vs Generality: An Empirical Study on Catastrophic Forgetting in Fine-tuning Foundation Models ( http://arxiv.org/abs/2309.06256v1 )

ライセンス: Link先を確認
Yong Lin, Lu Tan, Hangyu Lin, Zeming Zheng, Renjie Pi, Jipeng Zhang, Shizhe Diao, Haoxiang Wang, Han Zhao, Yuan Yao, and Tong Zhang(参考訳) Vision Language Models (VLM) やLarge Language Models (LLMs) を含む基礎モデルは、様々な分散やタスクを扱うために$ Generality$を持っている。 ファウンデーションモデルの微調整は、タスクパフォーマンスを高めたり、モデルの振る舞いを人間の期待と整合させ、$speciality$を得られるようにする一般的なプラクティスである。 しかし、微調整に使われる小さなデータセットは、事前トレーニング中に遭遇する多様な分布やタスクを適切にカバーしていない可能性がある。 その結果、微調整中の特殊性の追求は、ディープラーニングにおける破滅的忘れ(CF)に関連するモデルにおける一般性の喪失につながる可能性がある。 本研究では,この現象をVLMとLLMの両方で実証する。 例えば、ImageNet上のCLIPのような微調整のVLMは、多様な分布を扱う際の一般性の喪失を招き、医療領域におけるGalacticaのような微調整のLLMは、次の指示と常識の喪失をもたらす。 専門性と一般性のトレードオフに対処するために,連続学習からの複数の正規化法,事前学習モデルと微調整モデルのパラメータを補間するout-of-distributional(ood)一般化からの重み平均化法(wise-ft),低ランク適応(lora)などのパラメータ効率の良い微調整法について検討した。 本研究は,Wise-FTが専門性と一般性のバランスを保ち,継続学習とWise-ftの両手法が汎用性の喪失を効果的に軽減することを示した。

Foundation models, including Vision Language Models (VLMs) and Large Language Models (LLMs), possess the $generality$ to handle diverse distributions and tasks, which stems from their extensive pre-training datasets. The fine-tuning of foundation models is a common practice to enhance task performance or align the model's behavior with human expectations, allowing them to gain $speciality$. However, the small datasets used for fine-tuning may not adequately cover the diverse distributions and tasks encountered during pre-training. Consequently, the pursuit of speciality during fine-tuning can lead to a loss of {generality} in the model, which is related to catastrophic forgetting (CF) in deep learning. In this study, we demonstrate this phenomenon in both VLMs and LLMs. For instance, fine-tuning VLMs like CLIP on ImageNet results in a loss of generality in handling diverse distributions, and fine-tuning LLMs like Galactica in the medical domain leads to a loss in following instructions and common sense. To address the trade-off between the speciality and generality, we investigate multiple regularization methods from continual learning, the weight averaging method (Wise-FT) from out-of-distributional (OOD) generalization, which interpolates parameters between pre-trained and fine-tuned models, and parameter-efficient fine-tuning methods like Low-Rank Adaptation (LoRA). Our findings show that both continual learning and Wise-ft methods effectively mitigate the loss of generality, with Wise-FT exhibiting the strongest performance in balancing speciality and generality.
翻訳日:2023-09-13 12:41:00 公開日:2023-09-12
# 微細なモダリティ評価によるマルチモーダル協調の促進

Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation ( http://arxiv.org/abs/2309.06255v1 )

ライセンス: Link先を確認
Yake Wei, Ruoxuan Feng, Zihe Wang, Di Hu(参考訳) マルチモーダル学習の1つの主要なトピックは、異なるモダリティからの異種情報を統合することである。 しかし、ほとんどのモデルは不満足なマルチモーダル協調に悩まされ、全てのモダリティをうまく活用できなかった。 悪質な学習モダリティを識別し、強化するためにいくつかの手法が提案されているが、理論的な支援によりサンプルレベルでのマルチモーダル協調の細かな観察を提供するのは難しい。 したがって,モダリティのばらつきが異なる現実的なシナリオに直面した場合には,モダリティ間の細かな協調を合理的に観察し,改善することが不可欠である。 そこで本研究では,各モードの寄与度を評価するための細粒度モーダリティ評価指標を提案する。 モダリティ評価(modality valuation)を通じて、マルチモダリティモデルは1つの特定のモダリティに依存する傾向にあり、他のモダリティが低分配であることは残念である。 この問題をさらに分析し,低分散モダリティの識別能力を目標にすることで,モダリティ間の協調性を向上させる。 全体として,本手法は試料レベルでの微細なユニモーダル寄与を合理的に観察し,異なるマルチモーダルモデルに対する大幅な改善を実現する。

One primary topic of multi-modal learning is to jointly incorporate heterogeneous information from different modalities. However, most models often suffer from unsatisfactory multi-modal cooperation, which could not jointly utilize all modalities well. Some methods are proposed to identify and enhance the worse learnt modality, but are often hard to provide the fine-grained observation of multi-modal cooperation at sample-level with theoretical support. Hence, it is essential to reasonably observe and improve the fine-grained cooperation between modalities, especially when facing realistic scenarios where the modality discrepancy could vary across different samples. To this end, we introduce a fine-grained modality valuation metric to evaluate the contribution of each modality at sample-level. Via modality valuation, we regretfully observe that the multi-modal model tends to rely on one specific modality, resulting in other modalities being low-contributing. We further analyze this issue and improve cooperation between modalities by enhancing the discriminative ability of low-contributing modalities in a targeted manner. Overall, our methods reasonably observe the fine-grained uni-modal contribution at sample-level and achieve considerable improvement on different multi-modal models.
翻訳日:2023-09-13 12:40:27 公開日:2023-09-12
# esportsデータを用いた確率推定モデルの評価基準の再検討

Rethinking Evaluation Metric for Probability Estimation Models Using Esports Data ( http://arxiv.org/abs/2309.06248v1 )

ライセンス: Link先を確認
Euihyeon Choi, Jooyoung Kim, Wonkyung Lee(参考訳) 確率推定モデルは、天気予報、レコメンデーションシステム、スポーツ分析など様々な分野において重要な役割を果たす。 確率を推定するいくつかのモデルのうち、どのモデルが信頼できる確率を与えるかを評価することは困難である。 特定のゲーム状態下での勝利確率を計算するエスポートの勝利確率推定モデルは、確率推定において積極的に研究されている分野の1つである。 しかし、以前の作品のほとんどが、識別性能のみを測定する指標である精度を用いてモデルを評価した。 本研究では,eスポーツ分野における勝確率推定モデルの性能評価指標として用いられる精度の代替として,ブライアスコアと期待校正誤差(ece)について検討した。 この分析に基づき、確率推定基準が持つべき6つの良い特性の観点で、シンプルで効果的な計量であるバランススコアと呼ばれる新しい計量を提案する。 また, 一般的な条件下では, バイニング法を用いてECEによって不完全近似された真のキャリブレーション誤差を効果的に近似できることがわかった。 シミュレーション研究と実ゲームスナップショットデータを用いた大規模評価は,エスポートの勝利確率推定モデルだけでなく,一般確率推定モデルの評価にも有効であることを示す。

Probability estimation models play an important role in various fields, such as weather forecasting, recommendation systems, and sports analysis. Among several models estimating probabilities, it is difficult to evaluate which model gives reliable probabilities since the ground-truth probabilities are not available. The win probability estimation model for esports, which calculates the win probability under a certain game state, is also one of the fields being actively studied in probability estimation. However, most of the previous works evaluated their models using accuracy, a metric that only can measure the performance of discrimination. In this work, we firstly investigate the Brier score and the Expected Calibration Error (ECE) as a replacement of accuracy used as a performance evaluation metric for win probability estimation models in esports field. Based on the analysis, we propose a novel metric called Balance score which is a simple yet effective metric in terms of six good properties that probability estimation metric should have. Under the general condition, we also found that the Balance score can be an effective approximation of the true expected calibration error which has been imperfectly approximated by ECE using the binning technique. Extensive evaluations using simulation studies and real game snapshot data demonstrate the promising potential to adopt the proposed metric not only for the win probability estimation model for esports but also for evaluating general probability estimation models.
翻訳日:2023-09-13 12:40:04 公開日:2023-09-12
# 機械学習回帰タスクにおける分散に基づく不確実性定量化指標の検証のための相補的目標と適応性

Consistency and adaptivity are complementary targets for the validation of variance-based uncertainty quantification metrics in machine learning regression tasks ( http://arxiv.org/abs/2309.06240v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 機械学習(ML)回帰タスクにおける信頼性のある不確実性定量化(UQ)は、材料や化学科学における多くの研究の焦点となっている。 現在、平均キャリブレーションが不十分であることがよく理解されており、多くの研究は不確実性(すなわち一貫性)に関して条件キャリブレーションをテストする追加の手法を実装している。 一貫性は、主に信頼性図によって評価される。 しかし、平均キャリブレーション以外にも、入力特徴、すなわち適応性に関する条件付キャリブレーションという別の方法が存在する。 実際、適応性はML-UQ法の最終使用者の主な関心事であり、特徴空間の任意の点に対する予測と不確実性の信頼性を求める。 この記事では、一貫性と適応性は相補的な検証対象であり、一貫性が良い適応性を意味するものではないことを示す。 適応型バリデーション手法を提案し,代表的な例を示す。

Reliable uncertainty quantification (UQ) in machine learning (ML) regression tasks is becoming the focus of many studies in materials and chemical science. It is now well understood that average calibration is insufficient, and most studies implement additional methods testing the conditional calibration with respect to uncertainty, i.e. consistency. Consistency is assessed mostly by so-called reliability diagrams. There exists however another way beyond average calibration, which is conditional calibration with respect to input features, i.e. adaptivity. In practice, adaptivity is the main concern of the final users of a ML-UQ method, seeking for the reliability of predictions and uncertainties for any point in features space. This article aims to show that consistency and adaptivity are complementary validation targets, and that a good consistency does not imply a good adaptivity. Adapted validation methods are proposed and illustrated on a representative example.
翻訳日:2023-09-13 12:39:44 公開日:2023-09-12
# 最適輸送理論によるリスクアウェア強化学習

Risk-Aware Reinforcement Learning through Optimal Transport Theory ( http://arxiv.org/abs/2309.06239v1 )

ライセンス: Link先を確認
Ali Baheri(参考訳) 強化学習(rl)が機能する動的で不確定な環境では、リスク管理は信頼できる意思決定を確保する上で重要な要素となる。 従来のRLアプローチは報酬最適化に効果的だが、しばしば潜在的なリスクの展望を見落としている。 そこで本研究では,リスク対応フレームワークを構築するために,最適輸送(OT)理論をRLと統合した。 提案手法は目的関数を修正し,得られたポリシが期待される報酬を最大化するだけでなく,国家訪問分布と望ましいリスクプロファイルとのOT距離によって規定されるリスク制約を尊重する。 OTの数学的精度を活用することにより、従来のRL目標と並んでリスク考慮を高める定式化を提供する。 我々の貢献は、リスク分布、最適値関数、政策行動の間の関係をマッピングする一連の定理で裏付けられている。 OTのレンズを通して、この研究はRLの有望な方向を照らし、報酬追尾とリスク認識のバランスの取れた融合を保証する。

In the dynamic and uncertain environments where reinforcement learning (RL) operates, risk management becomes a crucial factor in ensuring reliable decision-making. Traditional RL approaches, while effective in reward optimization, often overlook the landscape of potential risks. In response, this paper pioneers the integration of Optimal Transport (OT) theory with RL to create a risk-aware framework. Our approach modifies the objective function, ensuring that the resulting policy not only maximizes expected rewards but also respects risk constraints dictated by OT distances between state visitation distributions and the desired risk profiles. By leveraging the mathematical precision of OT, we offer a formulation that elevates risk considerations alongside conventional RL objectives. Our contributions are substantiated with a series of theorems, mapping the relationships between risk distributions, optimal value functions, and policy behaviors. Through the lens of OT, this work illuminates a promising direction for RL, ensuring a balanced fusion of reward pursuit and risk awareness.
翻訳日:2023-09-13 12:39:29 公開日:2023-09-12
# 公共交通システムにおける需給のモデル化

Modeling Supply and Demand in Public Transportation Systems ( http://arxiv.org/abs/2309.06299v1 )

ライセンス: Link先を確認
Miranda Bihler, Hala Nelson, Erin Okey, Noe Reyes Rivas, John Webb, Anna White(参考訳) ハリソンバーグ公共交通局(HDPT)は、そのデータを活用して、事業の効率性と効率性を向上させることを目指している。 我々は、部門がサービスのギャップを特定するのに役立つ2つの供給需要モデルを構築します。 このモデルは、HDPTが連邦政府に報告する方法や、ハリソンバーグ市で最も脆弱な地域など、多くの変数を考慮に入れている。 予測にはデータ分析と機械学習技術を採用しています。

The Harrisonburg Department of Public Transportation (HDPT) aims to leverage their data to improve the efficiency and effectiveness of their operations. We construct two supply and demand models that help the department identify gaps in their service. The models take many variables into account, including the way that the HDPT reports to the federal government and the areas with the most vulnerable populations in Harrisonburg City. We employ data analysis and machine learning techniques to make our predictions.
翻訳日:2023-09-13 12:33:13 公開日:2023-09-12
# ホログラフィックエントロピーの不等式とマルチパートエンタングルメント

Holographic Entropy Inequalities and Multipartite Entanglement ( http://arxiv.org/abs/2309.06296v1 )

ライセンス: Link先を確認
Sergio Hern\'andez-Cuenca, Veronika E. Hubeny, Frederic Jia(参考訳) ホログラフィックエントロピーの不等式とその構造的性質を,特定の多成分情報量に巧みに分類することにより検討した。 これにより、難解なエントロピー表現を、興味深いほど硬い構造を共有する非常に単純な表現に再キャストすることができる。 これらの構造のいくつかを体系的に探索することで、6つの当事者に対して300以上の新しいエントロピー不等式を発見し、新たなホログラフィックエントロピー不等式を明らかにするための実りある生成技術を提供することができる。 相関測度として対応する符号定量を解釈しようとすると、ホログラフィックエントロピーの不等式の超平衡性は、部分的トレースの下での単調性を妨げる。 また,多成分情報量の幾何学的意義について考察し,それらの間の構造的関係について述べる。

We study holographic entropy inequalities and their structural properties by making use of a judicious grouping of terms into certain multipartite information quantities. This allows us to recast cumbersome entropic expressions into much simpler ones which share interestingly rigid structures. By performing a systematic search over some of these structures, we are able to discover more than 300 novel entropy inequalities for six parties, thereby demonstrating that these recastings provide a fruitful generating technique for uncovering new holographic entropy inequalities. In attempting to interpret the corresponding sign-definite quantities as correlation measures, we also obtain a no-go result: the superbalance property of holographic entropy inequalities turns out to preclude them from being monotonic under partial tracing. In the process, we also comment on the geometrical significance of multipartite information quantities and present various structural relations amongst them.
翻訳日:2023-09-13 12:33:06 公開日:2023-09-12
# ゼロレンジポテンシャルによる散乱の量子測定と遅延

Quantum measurements and delays in scattering by zero-range potentials ( http://arxiv.org/abs/2309.06289v1 )

ライセンス: Link先を確認
X. Guti\'errez de la Cal, M. Pons and D. Sokolovksi(参考訳) Eisenbud-Wigner-Smith delay と Larmor time は、量子散乱事象の持続時間について異なる推定値を与える。 この違いは、デブロイ波長が散乱器の大きさよりも大きい場合において最も顕著である。 量子測定理論の手法を用いて、両方のアプローチを分析し、もしある場合、粒子が散乱ポテンシャルを含む領域で消費する時間を記述する。 透過, 反射, 三次元弾性散乱の事例を詳細に論じる。

Eisenbud-Wigner-Smith delay and the Larmor time give different estimates for the duration of a quantum scattering event. The difference is most pronounced in the case where de-Broglie wavelength is large compared to the size of the scatterer. We use the methods of quantum measurement theory to analyse both approaches, and to decide which one of them, if any, describes the duration a particle spends in the region which contains the scattering potential. The cases of transmission, reflection and three-dimensional elastic scattering are discussed in some detail.
翻訳日:2023-09-13 12:32:49 公開日:2023-09-12
# 限られたデータに対する自己学習とマルチタスク学習:物体検出に関する評価研究

Self-Training and Multi-Task Learning for Limited Data: Evaluation Study on Object Detection ( http://arxiv.org/abs/2309.06288v1 )

ライセンス: Link先を確認
Ho\`ang-\^An L\^e and Minh-Tan Pham(参考訳) セルフトレーニングは、ネットワークがより複雑なモデルの予測から学ぶことを可能にするため、教師が訓練したモデルと教師が学習するデータの混合を必要とする場合が多く、マルチタスク学習は、異なるターゲットを協調して最適化し、サルエントな相互関係を学習し、各トレーニング例にマルチタスクアノテーションを必要とする。 これらのフレームワークは、特にデータ要求にもかかわらず、そのような仮定を緩和できるなら、データ搾取の可能性を持っている。 本稿では,教師による見知らぬ事例を学習する教師訓練データ不足下での自己学習対象検出と,一部注釈付きデータを用いたマルチタスク学習,すなわちトレーニング毎の単一タスクアノテーションとを比較した。 どちらのシナリオも独自の制限があるが、アノテーション付きデータに制限がある可能性がある。 実験結果から,マルチタスク学生の学習に不明瞭なデータを持つ弱教師を用いた場合のパフォーマンス向上が示された。 限られたセットアップにもかかわらず、実験結果はマルチタスクの知識の蒸留と自己学習の可能性を示しており、将来の研究に有益かもしれない。 ソースコードはhttps://lhoangan.github.io/multas。

Self-training allows a network to learn from the predictions of a more complicated model, thus often requires well-trained teacher models and mixture of teacher-student data while multi-task learning jointly optimizes different targets to learn salient interrelationship and requires multi-task annotations for each training example. These frameworks, despite being particularly data demanding have potentials for data exploitation if such assumptions can be relaxed. In this paper, we compare self-training object detection under the deficiency of teacher training data where students are trained on unseen examples by the teacher, and multi-task learning with partially annotated data, i.e. single-task annotation per training example. Both scenarios have their own limitation but potentially helpful with limited annotated data. Experimental results show the improvement of performance when using a weak teacher with unseen data for training a multi-task student. Despite the limited setup we believe the experimental results show the potential of multi-task knowledge distillation and self-training, which could be beneficial for future study. Source code is at https://lhoangan.github.io/multas.
翻訳日:2023-09-13 12:32:41 公開日:2023-09-12
# データ駆動付加物製造知識の伝達性分析:粉体層融合と有向エネルギー沈着を事例として

Transferability analysis of data-driven additive manufacturing knowledge: a case study between powder bed fusion and directed energy deposition ( http://arxiv.org/abs/2309.06286v1 )

ライセンス: Link先を確認
Mutahar Safdar, Jiarui Xie, Hyunwoong Ko, Yan Lu, Guy Lamouche, Yaoyao Fiona Zhao(参考訳) 添加物製造(am)におけるデータ駆動研究は近年大きな成功を収めている。 この結果、多くの科学文献が出現した。 これらの研究の知識は、採掘されていないAMとAI(AI)のコンテキストから成り、統合された方法で形式化されている。 さらに、あるコンテキストから別のコンテキストへのデータ駆動知識転送をサポートするツールやガイドラインは存在しない。 その結果、特定のAI技術を用いたデータ駆動ソリューションが開発され、特定のAMプロセス技術に対してのみ検証されている。 さまざまなAM技術にまたがる固有の類似性を利用して、Transfer LearningのようなAIを使用して、あるプロセスや問題から既存のソリューションを別のプロセスに適応する可能性がある。 データ駆動型AM知識伝達を支援するために,AMにおける3段階の知識伝達可能性解析フレームワークを提案する。 伝達可能性分析の前提条件として、am知識は特定された知識要素に実現される。 このフレームワークは、知識転送を達成するための事前転送、転送、および後転送ステップで構成されている。 フラッグシップメタルamプロセス間のケーススタディが実施された。 レーザー粉体融合(英: Laser Powder Bed Fusion, LPBF)は、AIをDED(Directed Energy Deposition)に置き換える際の相対的な成熟度によって動機付けられた知識の源泉である。 データ表現やモデルアーキテクチャ,モデルパラメータなど,データ駆動ソリューションのさまざまなレベルでの転送が成功しています。 AM知識伝達のパイプラインは将来的に自動化され、効率的なクロスコンテキストやプロセス間の知識交換が可能になる。

Data-driven research in Additive Manufacturing (AM) has gained significant success in recent years. This has led to a plethora of scientific literature to emerge. The knowledge in these works consists of AM and Artificial Intelligence (AI) contexts that have not been mined and formalized in an integrated way. Moreover, no tools or guidelines exist to support data-driven knowledge transfer from one context to another. As a result, data-driven solutions using specific AI techniques are being developed and validated only for specific AM process technologies. There is a potential to exploit the inherent similarities across various AM technologies and adapt the existing solutions from one process or problem to another using AI, such as Transfer Learning. We propose a three-step knowledge transferability analysis framework in AM to support data-driven AM knowledge transfer. As a prerequisite to transferability analysis, AM knowledge is featurized into identified knowledge components. The framework consists of pre-transfer, transfer, and post-transfer steps to accomplish knowledge transfer. A case study is conducted between flagship metal AM processes. Laser Powder Bed Fusion (LPBF) is the source of knowledge motivated by its relative matureness in applying AI over Directed Energy Deposition (DED), which drives the need for knowledge transfer as the less explored target process. We show successful transfer at different levels of the data-driven solution, including data representation, model architecture, and model parameters. The pipeline of AM knowledge transfer can be automated in the future to allow efficient cross-context or cross-process knowledge exchange.
翻訳日:2023-09-13 12:32:23 公開日:2023-09-12
# 低解像度放送映像からのキーフレーム識別を用いたジャージー番号認識

Jersey Number Recognition using Keyframe Identification from Low-Resolution Broadcast Videos ( http://arxiv.org/abs/2309.06285v1 )

ライセンス: Link先を確認
Bavesh Balaji, Jerrin Bright, Harish Prakash, Yuhao Chen, David A Clausi and John Zelek(参考訳) プレイヤー識別は、視覚駆動サッカー分析において重要な要素であり、プレイヤー評価、ゲーム内分析、ブロードキャスト生産など、様々な下流タスクを可能にする。 しかし、ビデオ中のプレーヤーのトラックレットからジャージ番号を自動的に検出すると、動きのぼやけ、低解像度、歪み、閉塞などの問題が発生する。 空間変換器ネットワーク、CNN、ビジョン変換器を利用する既存の手法は、画像データに成功しているが、ほとんどのフレームでジャージ番号が見えない実世界のビデオデータに苦戦している。 したがって、ジャージ番号を含むフレームの識別は、取り組むべき重要な副問題である。 これらの問題に対処するために,ジャージー番号に関する重要なハイレベル情報を含むフレームを抽出するロバストなキーフレーム識別モジュールを提案する。 次に時空間ネットワークを用いて、空間的・時間的文脈をモデル化し、ビデオ内のジャージ番号の確率を予測する。 さらに、各桁の確率分布を別々に予測するために、マルチタスク損失関数を採用する。 soccernetデータセットの広範な評価は、提案するキーフレーム識別モジュールを組み込むことで、ドメインギャップを持つ2つの異なるテストセットの精度が37.81%と37.70%向上することを示している。 これらの結果は,スポーツビデオにおける自動ジャージ数検出の課題に対処するためのアプローチの有効性と重要性を強調した。

Player identification is a crucial component in vision-driven soccer analytics, enabling various downstream tasks such as player assessment, in-game analysis, and broadcast production. However, automatically detecting jersey numbers from player tracklets in videos presents challenges due to motion blur, low resolution, distortions, and occlusions. Existing methods, utilizing Spatial Transformer Networks, CNNs, and Vision Transformers, have shown success in image data but struggle with real-world video data, where jersey numbers are not visible in most of the frames. Hence, identifying frames that contain the jersey number is a key sub-problem to tackle. To address these issues, we propose a robust keyframe identification module that extracts frames containing essential high-level information about the jersey number. A spatio-temporal network is then employed to model spatial and temporal context and predict the probabilities of jersey numbers in the video. Additionally, we adopt a multi-task loss function to predict the probability distribution of each digit separately. Extensive evaluations on the SoccerNet dataset demonstrate that incorporating our proposed keyframe identification module results in a significant 37.81% and 37.70% increase in the accuracies of 2 different test sets with domain gaps. These results highlight the effectiveness and importance of our approach in tackling the challenges of automatic jersey number detection in sports videos.
翻訳日:2023-09-13 12:31:56 公開日:2023-09-12
# Fg-T2M:拡散モデルによる微粒テキスト駆動型人体運動生成

Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion Model ( http://arxiv.org/abs/2309.06284v1 )

ライセンス: Link先を確認
Yin Wang, Zhiying Leng, Frederick W. B. Li, Shun-Cheng Wu, Xiaohui Liang(参考訳) コンピュータビジョンにおけるテキスト駆動型モーション生成は重要かつ困難である。 しかし、現在の手法は決定論的または不正確な動作列を生成することに限定されており、与えられたテキスト記述に従うために必要な時間的および空間的関係を効果的に制御できない。 本研究では,高精度なテキスト記述を支援する高品質な条件付き人間の動作系列を生成するための微細な手法を提案する。 私たちのアプローチは2つの重要なコンポーネントで構成されています。 1) テキスト情報を完全に活用するための正確で完全な言語特徴を構成する言語構造補助モジュール 2)浅層および深層グラフニューラルネットワークから近傍および全体的意味論的特徴を学習し,多段階推論を実現するコンテキスト認識型プログレッシブ推論モジュール。 実験により,本手法はHumanML3DおよびKITテストセット上でのテキスト駆動動作生成法よりも優れ,テキスト条件に対する視覚的に確認された動作をより良く生成することが示された。

Text-driven human motion generation in computer vision is both significant and challenging. However, current methods are limited to producing either deterministic or imprecise motion sequences, failing to effectively control the temporal and spatial relationships required to conform to a given text description. In this work, we propose a fine-grained method for generating high-quality, conditional human motion sequences supporting precise text description. Our approach consists of two key components: 1) a linguistics-structure assisted module that constructs accurate and complete language feature to fully utilize text information; and 2) a context-aware progressive reasoning module that learns neighborhood and overall semantic linguistics features from shallow and deep graph neural networks to achieve a multi-step inference. Experiments show that our approach outperforms text-driven motion generation methods on HumanML3D and KIT test sets and generates better visually confirmed motion to the text conditions.
翻訳日:2023-09-13 12:31:32 公開日:2023-09-12
# ibaformer:ドメイン一般化意味セグメンテーションのためのバッチ内注意トランスフォーマ

IBAFormer: Intra-batch Attention Transformer for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2309.06282v1 )

ライセンス: Link先を確認
Qiyu Sun, Huilin Chen, Meng Zheng, Ziyan Wu, Michael Felsberg, Yang Tang(参考訳) ドメイン一般化セマンティックセグメンテーション(dgss)は批判的だが困難なタスクであり、モデルは対象のデータにアクセスせずにソースデータのみに基づいてトレーニングされる。 多くのDGSS戦略の提案にもかかわらず、一般化能力はCNNアーキテクチャに限られている。 一部のTransformerベースのセグメンテーションモデルは、有望なパフォーマンスを示しているが、主にサンプル内の注意関係を捉え、DGSSに利益をもたらす可能性のあるサンプル間の相関を無視している。 そこで我々は,トランスフォーマーネットワークのアテンションモジュールを強化し,DGSSを改善するために,他の独立したサンプル情報を同一バッチに組み込んで,コンテキスト情報を強化し,各アテンションブロックのトレーニングデータを多様化する。 具体的には,異なるサンプル間の相関を捉え,特徴表現と一般化能力を高めるために,平均的バッチ内注意(miba)と要素間バッチ内注意(eiba)という2つの代替的なバッチ内注意機構を提案する。 IBAFormerは,DGSSの自己注意モジュールとバッチ内注目モジュールを統合している。 IBAFormer は DGSS において SOTA 性能を達成し, アブレーション実験により, 導入成分の有効性をさらに検証した。

Domain generalized semantic segmentation (DGSS) is a critical yet challenging task, where the model is trained only on source data without access to any target data. Despite the proposal of numerous DGSS strategies, the generalization capability remains limited in CNN architectures. Though some Transformer-based segmentation models show promising performance, they primarily focus on capturing intra-sample attentive relationships, disregarding inter-sample correlations which can potentially benefit DGSS. To this end, we enhance the attention modules in Transformer networks for improving DGSS by incorporating information from other independent samples in the same batch, enriching contextual information, and diversifying the training data for each attention block. Specifically, we propose two alternative intra-batch attention mechanisms, namely mean-based intra-batch attention (MIBA) and element-wise intra-batch attention (EIBA), to capture correlations between different samples, enhancing feature representation and generalization capabilities. Building upon intra-batch attention, we introduce IBAFormer, which integrates self-attention modules with the proposed intra-batch attention for DGSS. Extensive experiments demonstrate that IBAFormer achieves SOTA performance in DGSS, and ablation studies further confirm the effectiveness of each introduced component.
翻訳日:2023-09-13 12:31:14 公開日:2023-09-12
# OTAS: オブジェクト中心の時間的行動セグメンテーションのための教師なし境界検出

OTAS: Unsupervised Boundary Detection for Object-Centric Temporal Action Segmentation ( http://arxiv.org/abs/2309.06276v1 )

ライセンス: Link先を確認
Yuerong Li, Zhengrong Xue, Huazhe Xu(参考訳) 時間的アクションセグメンテーションは、一般的に、グローバルな視覚的記述子の劇的なばらつきを発見することで達成される。 本稿では,オブジェクト中心の時間的行動セグメンテーション(OTAS)の教師なしフレームワークを提案することにより,局所的特徴の利点を考察する。 OTASは、グローバルおよびローカルな特徴抽出モジュールと、特徴を融合させ、アクションセグメンテーションのための健全な境界を検出する境界選択モジュールで構成されている。 第2の貢献として、既存のフレームレベルおよび境界レベルの評価指標の長所と短所について論じる。 広範な実験により, OTAS は従来の最先端手法よりも F1 を推奨する点において, 平均 411 % で優れていることがわかった。 意外なことに、OTASはユーザー研究において、地味な人間のアノテーションよりも優れています。 さらに、OTASはリアルタイム推論を可能にするのに十分な効率である。

Temporal action segmentation is typically achieved by discovering the dramatic variances in global visual descriptors. In this paper, we explore the merits of local features by proposing the unsupervised framework of Object-centric Temporal Action Segmentation (OTAS). Broadly speaking, OTAS consists of self-supervised global and local feature extraction modules as well as a boundary selection module that fuses the features and detects salient boundaries for action segmentation. As a second contribution, we discuss the pros and cons of existing frame-level and boundary-level evaluation metrics. Through extensive experiments, we find OTAS is superior to the previous state-of-the-art method by $41\%$ on average in terms of our recommended F1 score. Surprisingly, OTAS even outperforms the ground-truth human annotations in the user study. Moreover, OTAS is efficient enough to allow real-time inference.
翻訳日:2023-09-13 12:30:49 公開日:2023-09-12
# 言語モデルの推論を改善する再読法

Re-Reading Improves Reasoning in Language Models ( http://arxiv.org/abs/2309.06275v1 )

ライセンス: Link先を確認
Xiaohan Xu, Chongyang Tao, Tao Shen, Can Xu, Hongbo Xu, Guodong Long, Jian-guang Lou(参考訳) 推論は大規模言語モデル(llm)にとって重要かつ困難な問題である。 研究の主な焦点は、LSMの推論プロセスのガイドと構造化のための多様なプロンプト戦略の開発である。 しかしながら、これらのアプローチはデコーダのみに基づく因果関係言語モデルに基づいており、人間の推論に固有のリッチでバック・アンド・フォースな相互作用を欠いている可能性がある。 わずかな注意が批判的な次元、すなわち入力質問自体がプロンプトに埋め込まれている。 これに対し,本研究では,「再読解」とよばれる,極めて単純かつ効果的なプロンプト戦略を導入する。 人間の学習と問題解決からインスピレーションを得るには、入力プロンプトに埋め込まれた質問情報を再考する必要がある。 このアプローチは強化の認知原理とシームレスに一致し、LLMは深い洞察を抽出し、複雑なパターンを特定し、よりニュアンスなつながりを確立し、最終的には様々なタスクにわたる推論能力を高めることができる。 一連の推論ベンチマークで行った実験は,本手法の有効性と一般性を明らかにするのに役立つ。 さらに,提案手法が様々な言語モデルとシームレスに統合され,提案手法はプロンプト手法やアンサンブル技法をも含み,llmの領域における汎用性と互換性をさらに強調することを示した。

Reasoning presents a significant and challenging issue for Large Language Models (LLMs). The predominant focus of research has revolved around developing diverse prompting strategies to guide and structure the reasoning processes of LLMs. However, these approaches based on decoder-only causal language models often operate the input question in a single forward pass, potentially missing the rich, back-and-forth interactions inherent in human reasoning. Scant attention has been paid to a critical dimension, i.e., the input question itself embedded within the prompts. In response, we introduce a deceptively simple yet highly effective prompting strategy, termed question "re-reading". Drawing inspiration from human learning and problem-solving, re-reading entails revisiting the question information embedded within input prompts. This approach aligns seamlessly with the cognitive principle of reinforcement, enabling LLMs to extract deeper insights, identify intricate patterns, establish more nuanced connections, and ultimately enhance their reasoning capabilities across various tasks. Experiments conducted on a series of reasoning benchmarks serve to underscore the effectiveness and generality of our method. Moreover, our findings demonstrate that our approach seamlessly integrates with various language models, though-eliciting prompting methods, and ensemble techniques, further underscoring its versatility and compatibility in the realm of LLMs.
翻訳日:2023-09-13 12:30:34 公開日:2023-09-12
# トラクタ原子干渉法による回転センシング

Rotation Sensing using Tractor Atom Interferometry ( http://arxiv.org/abs/2309.06324v1 )

ライセンス: Link先を確認
Bineet Dash, Michael H Goerz, Alisher Duspayev, Sebastian C. Carrasco, Vladimir S. Malinovsky, Georg Raithel(参考訳) 近年提案されているトラクタ原子干渉計(TAI)に基づく超低温原子回転センサの実現の可能性を検討する。 ラゲア・ガウシアンビームベースの"ピンホイール"光学格子とマルチループ干渉サイクルの生成を含む実験設計について考察した。 提案方式の数値シミュレーションにより, 現代の物質波干渉計に匹敵するTAI回転感度を示す。 我々は,非断熱効果がシステム性能を阻害する可能性のあるTAI回転センサの機構を解析した。 量子最適制御を応用して,この非線形性に対処するための方法論を考案する。 本研究は,小型でロバストな物質波回転センサの実現や,taiの基本物理応用に注目されている。

We investigate a possible realization of an ultracold-atom rotation sensor that is based on recently proposed tractor atom interferometry (TAI). An experimental design that includes generation of a Laguerre-Gaussian-beam-based "pinwheel" optical lattice and multi-loop interferometric cycles is discussed. Numerical simulations of the proposed system demonstrate TAI rotation sensitivity comparable to that of contemporary matter-wave interferometers. We analyze a regime of TAI rotation sensors in which nonadiabatic effects may hinder the system's performance. We apply quantum optimal control to devise a methodology suitable to address this nonadiabaticity. Our studies are of interest for current efforts to realize compact and robust matter-wave rotation sensors, as well as in fundamental-physics applications of TAI.
翻訳日:2023-09-13 12:23:40 公開日:2023-09-12
# サンプリング:単一画像からの新たなビュー合成のためのシーン適応型階層型マルチプレーン画像表現

SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2309.06323v1 )

ライセンス: Link先を確認
Xiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang(参考訳) 最近の新しいビュー合成手法は、室内環境やいくつかのオブジェクトを持つシーンなど、比較的小さなシーンに対して有望な結果が得られるが、単一のイメージを入力として、境界のない屋外シーンでは失敗する傾向にある。 本稿では,改良された多面体画像(MPI)に基づく単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。 屋外の無界シーンでは深度分布が著しく異なることを観察し,各シーン画像に応じてmpiの適応ビン戦略を用いて平面配置を行った。 複雑な幾何学と多元的詳細を表現するために、さらに階層的洗練分枝を導入し、高品質な合成新奇なビューを導出する。 提案手法は,KITTIデータセット上の単一画像を用いて大規模非有界屋外シーンを合成し,未知のタンクとテンプルのデータセットによく対応できることを示す。 コードとモデルは公開される予定だ。

Recent novel view synthesis methods obtain promising results for relatively small scenes, e.g., indoor environments and scenes with a few objects, but tend to fail for unbounded outdoor scenes with a single image as input. In this paper, we introduce SAMPLING, a Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single Image based on improved multiplane images (MPI). Observing that depth distribution varies significantly for unbounded outdoor scenes, we employ an adaptive-bins strategy for MPI to arrange planes in accordance with each scene image. To represent intricate geometry and multi-scale details, we further introduce a hierarchical refinement branch, which results in high-quality synthesized novel views. Our method demonstrates considerable performance gains in synthesizing large-scale unbounded outdoor scenes using a single image on the KITTI dataset and generalizes well to the unseen Tanks and Temples dataset. The code and models will be made public.
翻訳日:2023-09-13 12:23:29 公開日:2023-09-12
# SMiSh感受性の米国デモグラフィー解析による予備結果

Preliminary Results from a U.S. Demographic Analysis of SMiSh Susceptibility ( http://arxiv.org/abs/2309.06322v1 )

ライセンス: Link先を確認
Cori Faklaris, Heather Richter Lipford, Sarah Tabassum(参考訳) 携帯電話の普及が急上昇し、詐欺行為も起きている。 このテキストメソッドはsmishing(smshing、smishing)と呼ばれ、詐欺師がショートメッセージサービス(sms)テキストを介してフィッシングリンクを電話に送信する。 しかし、SMiShingに最も脆弱な人物に関するデータは存在しない。 フィッシング(電子メールの従兄弟)での以前の研究によると、これは人口統計や状況要因によって異なる可能性が高い。 本研究は,米国の成人携帯電話利用者1007名から収集したデータである。 このサンプルには若い人や大学生が最も脆弱な人物として現れます。 参加者は、正当なメッセージの正確な識別に苦労し、偽のメッセージエンティティのアカウントを持っていると知って、簡単に誤解された。 対意的に、より高いレベルのセキュリティトレーニングと意識を持つ被験者は、SMiSHの格付けが低い。 研究者、規制当局、通信事業者に次のステップを勧めます。

As adoption of mobile phones has skyrocketed, so have scams involving them. The text method is called SMiShing, (aka SMShing, or smishing) in which a fraudster sends a phishing link via Short Message Service (SMS) text to a phone. However, no data exists on who is most vulnerable to SMiShing. Prior work in phishing (its e-mail cousin) indicates that this is likely to vary by demographic and contextual factors. In our study, we collect this data from N=1007 U.S. adult mobile phone users. Younger people and college students emerge in this sample as the most vulnerable. Participants struggled to correctly identify legitimate messages and were easily misled when they knew they had an account with the faked message entity. Counterintuitively, participants with higher levels of security training and awareness were less correct in rating possible SMiSH. We recommend next steps for researchers, regulators and telecom providers.
翻訳日:2023-09-13 12:23:12 公開日:2023-09-12
# マルコフ境界誘導プルーニングによる最小限のTsetlinマシンクローズの学習

Learning Minimalistic Tsetlin Machine Clauses with Markov Boundary-Guided Pruning ( http://arxiv.org/abs/2309.06315v1 )

ライセンス: Link先を確認
Ole-Christoffer Granmo and Per-Arne Andersen and Lei Jiao and Xuan Zhang and Christian Blakely and Tor Tveit(参考訳) 変数の集合がランダム変数のマルコフ毛布であり、変数を予測するのに必要な情報をすべて含んでいる場合である。 有用な情報を失うことなく毛布を小さくすることができなければ、マルコフ境界と呼ばれる。 ランダム変数のマルコフ境界の同定は、境界外にある全ての変数が過剰であるため有利である。 したがって、マルコフ境界は最適な特徴集合を提供する。 しかし、データからマルコフ境界を学ぶことは2つの理由から難しい。 マルコフ境界から1つ以上の変数が削除されると、境界外の変数が情報を提供し始める。 逆に、境界内の変数は情報の提供を止めることができる。 各候補変数の真の役割は、マルコフ境界が特定されたときにのみ現れる。 本稿では,タイプIとタイプIIのフィードバックを補完する新しいTsetlin Machine (TM) フィードバックスキームを提案する。 このスキームは、コンテキスト固有の独立オートマトンである新しい有限状態オートマトンを導入する。 オートマトンは、ターゲットのマルコフ境界の外側にあるどの特徴を学習し、学習中にtmから刈り取ることができる。 新たな手法を実証的に検討し,コンテキスト固有の独立性を活用し,マルコフ境界を求める方法を示した。 さらに,収束の理論的解析を行う。 提案手法はベイジアンネットワーク(BN)の分野とTMを結びつけるもので,TM生成ベイジアン知識ベースやTMベースベイジアン推論など,推論や学習において相乗効果が期待できる。

A set of variables is the Markov blanket of a random variable if it contains all the information needed for predicting the variable. If the blanket cannot be reduced without losing useful information, it is called a Markov boundary. Identifying the Markov boundary of a random variable is advantageous because all variables outside the boundary are superfluous. Hence, the Markov boundary provides an optimal feature set. However, learning the Markov boundary from data is challenging for two reasons. If one or more variables are removed from the Markov boundary, variables outside the boundary may start providing information. Conversely, variables within the boundary may stop providing information. The true role of each candidate variable is only manifesting when the Markov boundary has been identified. In this paper, we propose a new Tsetlin Machine (TM) feedback scheme that supplements Type I and Type II feedback. The scheme introduces a novel Finite State Automaton - a Context-Specific Independence Automaton. The automaton learns which features are outside the Markov boundary of the target, allowing them to be pruned from the TM during learning. We investigate the new scheme empirically, showing how it is capable of exploiting context-specific independence to find Markov boundaries. Further, we provide a theoretical analysis of convergence. Our approach thus connects the field of Bayesian networks (BN) with TMs, potentially opening up for synergies when it comes to inference and learning, including TM-produced Bayesian knowledge bases and TM-based Bayesian inference.
翻訳日:2023-09-13 12:22:57 公開日:2023-09-12
# セマンティック・アーティキュレートされた歩行者の移動車両搭載

Semantic and Articulated Pedestrian Sensing Onboard a Moving Vehicle ( http://arxiv.org/abs/2309.06313v1 )

ライセンス: Link先を確認
Maria Priisalu(参考訳) 車両の前方運動が大きいため,車載映像からの3次元再構成は困難である。 オブジェクト検出モデルやヒューマンセンシングモデルでさえ、標準のベンチマークと比較すると、標準のオブジェクト検出モデルに比べて、カメラから遠くに物体が現れることが多いため、動画上では映像の画質が著しく低下し、咬合が頻繁に発生する。 これにより、トラフィックデータ固有のベンチマークが普及した。 近年,3次元再構成を必要とせずに直接深度を推定できるLiDAR(Light Detection And Ranging)センサが普及している。 しかし、LiDARに基づく手法は、画像に基づく手法と比較して、遠くにいる人間の関節による検出に欠ける。 lidarのデータから人工的な人間のセンシングをターゲットとしたベンチマークは、人間のセンシングと交通予測の研究を増加させ、歩行者の交通安全向上につながると仮定した。

It is difficult to perform 3D reconstruction from on-vehicle gathered video due to the large forward motion of the vehicle. Even object detection and human sensing models perform significantly worse on onboard videos when compared to standard benchmarks because objects often appear far away from the camera compared to the standard object detection benchmarks, image quality is often decreased by motion blur and occlusions occur often. This has led to the popularisation of traffic data-specific benchmarks. Recently Light Detection And Ranging (LiDAR) sensors have become popular to directly estimate depths without the need to perform 3D reconstructions. However, LiDAR-based methods still lack in articulated human detection at a distance when compared to image-based methods. We hypothesize that benchmarks targeted at articulated human sensing from LiDAR data could bring about increased research in human sensing and prediction in traffic and could lead to improved traffic safety for pedestrians.
翻訳日:2023-09-13 12:22:34 公開日:2023-09-12
# AI4Food-NutritionFW:食行動の自動合成と分析のための新しいフレームワーク

AI4Food-NutritionFW: A Novel Framework for the Automatic Synthesis and Analysis of Eating Behaviours ( http://arxiv.org/abs/2309.06308v1 )

ライセンス: Link先を確認
Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Isabel Espinosa-Salinas, Gala Freixer, Julian Fierrez, Ruben Vera-Rodriguez, Enrique Carrillo de Santa Pau, Ana Ram\'irez de Molina and Javier Ortega-Garcia(参考訳) 現在、何百万もの画像がソーシャルメディアやウェブプラットフォームで共有されている。 特に、多くは時間とともにスマートフォンから撮影された食事画像であり、個人の食事に関する情報を提供する。 一方、摂食行動は世界で最も多い疾患のいくつかと直接関係している。 画像処理と人工知能(AI)の最近の進歩により、このシナリオは素晴らしい機会となる。 一 食べるものから個人の健康を解析する新しい方法を作成すること、及び 二 特定の状況(肥満又はcovid-19等)において栄養及び食生活を改善するための個人化された勧告を開発すること。 両方の行の研究を容易にする、食品画像データセットを作成するための調整可能なツールを持つことは、非常に必要です。 本稿では,食品画像データセット作成のためのフレームワークであるai4food-nutritionfwを提案する。 AI4Food-NutritionFWは、スマートフォンで画像を撮影するユーザフレンドリで広範なシナリオをシミュレートする。 このフレームワークに加えて、15の異なるプロファイルと1200の被験者から4,800の異なる毎週の食事行動を含む、ユニークな食品画像データセットも提供し、記述する。 具体的には、健康な食事行動(確立した知識による)、変動プロファイル(例えば、外食、休日)から不健康なもの(例えば、ファーストフードや菓子の過剰)まで、実際の生活習慣に従うプロファイルを検討する。 最後に,国際機関が提案する健康食に関するガイドラインに基づく多次元指標を用いて,被験者の摂食行動の健康指標を自動評価し,有望な結果を得た(それぞれ99.53%,99.60%)。 また,提案するai4food-nutritionfwとそれを用いた食品イメージデータセットのソフトウェア実装を研究コミュニティに公開しています。

Nowadays millions of images are shared on social media and web platforms. In particular, many of them are food images taken from a smartphone over time, providing information related to the individual's diet. On the other hand, eating behaviours are directly related to some of the most prevalent diseases in the world. Exploiting recent advances in image processing and Artificial Intelligence (AI), this scenario represents an excellent opportunity to: i) create new methods that analyse the individuals' health from what they eat, and ii) develop personalised recommendations to improve nutrition and diet under specific circumstances (e.g., obesity or COVID). Having tunable tools for creating food image datasets that facilitate research in both lines is very much needed. This paper proposes AI4Food-NutritionFW, a framework for the creation of food image datasets according to configurable eating behaviours. AI4Food-NutritionFW simulates a user-friendly and widespread scenario where images are taken using a smartphone. In addition to the framework, we also provide and describe a unique food image dataset that includes 4,800 different weekly eating behaviours from 15 different profiles and 1,200 subjects. Specifically, we consider profiles that comply with actual lifestyles from healthy eating behaviours (according to established knowledge), variable profiles (e.g., eating out, holidays), to unhealthy ones (e.g., excess of fast food or sweets). Finally, we automatically evaluate a healthy index of the subject's eating behaviours using multidimensional metrics based on guidelines for healthy diets proposed by international organisations, achieving promising results (99.53% and 99.60% accuracy and sensitivity, respectively). We also release to the research community a software implementation of our proposed AI4Food-NutritionFW and the mentioned food image dataset created with it.
翻訳日:2023-09-13 12:22:16 公開日:2023-09-12
# 量子相関の境界とデバイス非依存応用に関する研究

Investigations of the boundary of quantum correlations and device-independent applications ( http://arxiv.org/abs/2309.06304v1 )

ライセンス: Link先を確認
Yuan Liu, Ho Yiu Chung and Ravishankar Ramanathan(参考訳) ベル試験における分離した参加者による測定結果の相関関係は、デバイス独立情報処理において極めて重要である。 しかし、この一連の量子相関を特徴づけることは難しい問題であり、多くのオープンな疑問がある。 ここでは、ベルシナリオにおけるこの集合を任意の数のプレイヤー、設定、結果で近似する量子ベルの不等式の族を示し、デバイスに依存しない情報処理への応用について研究する。 第一に、非信号境界上の量子相関が弱い音源からのDIランダムネス抽出のタスクにおいて重要であることが知られている。 2つの$k$-outcome測定を持つ2人のプレイヤーのベルのシナリオでは、非局所性蒸留と通信複雑性の崩壊から前の結果を延ばす、次元$\leq 4k-4$の非局所性ポリトープのクラスから量子境界の分離を示す不等式が導かれる。 第二に、$m$二分法を持つ2人のプレイヤーのシナリオでは、Tsirelson-Landau-Masanesによって発見された$m=2$の境界を一般化する量子境界の非自明な部分を考える。 この一般化境界上のすべての点が、2量子一重項と対応する$m$測定の自己テストに役立つことが証明される。 このシナリオでは、古典的相関の集合の境界と一致する量子境界の低次元領域も導き出す。 最後に、オープン量子に二元数 $(3,3)$-inputs, $(2,3)$-outputs pseudo-telepathy game が存在するかどうかを答えることで、量子境界の研究を終える。

The set of correlations between measurement outcomes observed by separated parties in a Bell test is of vital importance in Device-Independent (DI) information processing. However, characterising this set of quantum correlations is a hard problem, with a number of open questions. Here, we present families of quantum Bell inequalities that approximate this set in Bell scenarios with an arbitrary number of players, settings and outcomes, and study their applications to device-independent information processing. Firstly, it is known that quantum correlations on the non-signaling boundary are of crucial importance in the task of DI randomness extraction from weak sources. In the Bell scenario of two players with two $k$-outcome measurements, we derive inequalities that show a separation of the quantum boundary from classes of non-local faces of the non-signaling polytope of dimension $\leq 4k-4$, extending previous results from nonlocality distillation and the collapse of communication complexity. Secondly, in the scenario of two players with $m$ binary measurements, we consider a non-trivial portion of the quantum boundary that generalizes the boundary that for $m=2$ discovered by Tsirelson-Landau-Masanes. We prove that all points on this generalized boundary serve to self-test the two-qubit singlet and the corresponding $m$ measurements. In this scenario, we also derive a low-dimensional region of the quantum boundary that coincides with the boundary of the set of classical correlations. Finally, we conclude our investigation of the quantum boundary by answering the open quantum whether there exists a bipartite $(3,3)$-inputs, $(2,3)$-outputs pseudo-telepathy game in the negative.
翻訳日:2023-09-13 12:21:46 公開日:2023-09-12
# エルミートから非エルミート量子多体物理学への転移学習

Transfer learning from Hermitian to non-Hermitian quantum many-body physics ( http://arxiv.org/abs/2309.06303v1 )

ライセンス: Link先を確認
Sharareh Sayyad and Jose L. Lado(参考訳) 相互作用系の位相境界の同定は、量子多体モデルを理解するための重要なステップの1つである。 様々な数値および解析手法の開発により、多くのエルミート相互作用系の位相図の探索が可能となった。 しかし、解析解の数値的な挑戦と不足は、非エルミート多体モデルにおける位相境界の獲得を妨げる。 近年の機械学習手法は、多体波動関数に完全にアクセスすることなく、様々な観測対象から位相境界を学習するための潜在的戦略として浮上している。 本稿では,エルミート相関関数のみを学習する機械学習手法により,非エルミート相互作用モデルの位相境界を同定できることを示す。 これらの結果は、非エルミート位相図を明らかにするためにさらなるトレーニングを必要とすることなく、エルミート機械学習アルゴリズムを非エルミートモデルに再デプロイできることを示している。 本研究は、エルミート物理学を機械学習の非エルミート現象に活用するための多目的戦略としてトランスファーラーニングを確立した。

Identifying phase boundaries of interacting systems is one of the key steps to understanding quantum many-body models. The development of various numerical and analytical methods has allowed exploring the phase diagrams of many Hermitian interacting systems. However, numerical challenges and scarcity of analytical solutions hinder obtaining phase boundaries in non-Hermitian many-body models. Recent machine learning methods have emerged as a potential strategy to learn phase boundaries from various observables without having access to the full many-body wavefunction. Here, we show that a machine learning methodology trained solely on Hermitian correlation functions allows identifying phase boundaries of non-Hermitian interacting models. These results demonstrate that Hermitian machine learning algorithms can be redeployed to non-Hermitian models without requiring further training to reveal non-Hermitian phase diagrams. Our findings establish transfer learning as a versatile strategy to leverage Hermitian physics to machine learning non-Hermitian phenomena.
翻訳日:2023-09-13 12:20:52 公開日:2023-09-12
# 大規模合成データを利用した高品質光除去に向けて

Towards High-Quality Specular Highlight Removal by Leveraging Large-Scale Synthetic Data ( http://arxiv.org/abs/2309.06302v1 )

ライセンス: Link先を確認
Gang Fu, Qing Zhang, Lei Zhu, Chunxia Xiao, Ping Li(参考訳) 本稿では,1つのオブジェクトレベルの画像から特異なハイライトを取り除くことを目的とする。 従来の手法では若干の進歩があったが、特に複雑な特異なハイライトを持つ実画像の場合、性能は若干制限されている。 そこで本研究では,これらに対処する3段階ネットワークを提案する。 具体的には、入力画像が与えられたとき、まずそれをアルベド、シェーディング、スペクティカル残基成分に分解し、粗いスペクティラーフリー画像を推定する。 そして,その粗い結果をさらに洗練し,色歪などの視覚成果を緩和する。 最後に、洗練された結果のトーンを調整することで、入力のトーンを可能な限り密接に一致させる。 さらに,ネットワークトレーニングと定量的評価を容易にするため,多様な物体と照明条件を網羅した大規模合成データセットを提案する。 広範にわたる実験により、我々のネットワークは、実際のオブジェクトレベルの画像が見えないように一般化でき、複数の背景オブジェクトと複雑な照明を持つシーンレベルの画像に対して良い結果を得ることができることを示した。

This paper aims to remove specular highlights from a single object-level image. Although previous methods have made some progresses, their performance remains somewhat limited, particularly for real images with complex specular highlights. To this end, we propose a three-stage network to address them. Specifically, given an input image, we first decompose it into the albedo, shading, and specular residue components to estimate a coarse specular-free image. Then, we further refine the coarse result to alleviate its visual artifacts such as color distortion. Finally, we adjust the tone of the refined result to match that of the input as closely as possible. In addition, to facilitate network training and quantitative evaluation, we present a large-scale synthetic dataset of object-level images, covering diverse objects and illumination conditions. Extensive experiments illustrate that our network is able to generalize well to unseen real object-level images, and even produce good results for scene-level images with multiple background objects and complex lighting.
翻訳日:2023-09-13 12:20:03 公開日:2023-09-12
# 駆動散逸非線形発振器における圧縮およびコヒーレント重ね合わせの量子メモリ

Quantum memories for squeezed and coherent superpositions in a driven-dissipative nonlinear oscillator ( http://arxiv.org/abs/2309.06300v1 )

ライセンス: Link先を確認
Adri\`a Labay-Mora, Roberta Zambrini, Gian Luca Giorgi(参考訳) 非線形駆動と散逸項を持つ量子振動子は、普遍量子計算のためのキャット状態の安定化能力により、大きな注目を集めている。 近年,コヒーレント状態にある長寿命量子ビットを実現するために超伝導回路が採用されている。 これらの振動子の一般化はコヒーレントな状態に限らず、駆動や散逸において異なる非線形性が存在し、異なる次数について探索する。 具体的には, 漸近的動的特徴の広範な解析と, 圧縮状態の保存について述べる。 本研究では, 圧縮状態のコヒーレント重ね合わせが, 強い対称性の存在下で達成可能であることを示し, 圧縮状態の保存を可能にした。 線形散逸を考慮した弱対称性理論において、これらの非線形駆動散逸共振器の量子計算および量子連想メモリへの応用について検討し、スクイーズが性能に与える影響を解析した。

Quantum oscillators with nonlinear driving and dissipative terms have gained significant attention due to their ability to stabilize cat-states for universal quantum computation. Recently, superconducting circuits have been employed to realize such long-lived qubits stored in coherent states. We present a generalization of these oscillators, which are not limited to coherent states, in the presence of different nonlinearities in driving and dissipation, exploring different degrees. Specifically, we present an extensive analysis of the asymptotic dynamical features and of the storage of squeezed states. We demonstrate that coherent superpositions of squeezed states are achievable in the presence of a strong symmetry, thereby allowing for the storage of squeezed cat-states. In the weak symmetry regime, accounting for linear dissipation, we investigate the potential application of these nonlinear driven-dissipative resonators for quantum computing and quantum associative memory and analyze the impact of squeezing on their performance.
翻訳日:2023-09-13 12:19:40 公開日:2023-09-12
# 核の微分特性の保存に基づくパディングフリー畳み込み

Padding-free Convolution based on Preservation of Differential Characteristics of Kernels ( http://arxiv.org/abs/2309.06370v1 )

ライセンス: Link先を確認
Kuangdai Leng and Jeyan Thiyagalingam(参考訳) 畳み込みは画像処理と機械学習の基本的な操作である。 主に画像サイズを維持するため、パディングは畳み込みの重要な要素であるが、望ましくない境界効果をもたらす可能性がある。 本稿では,カーネルの差分特性の保存に基づくサイズ保持畳み込み法を提案する。 主なアイデアは、不完全なスライディングウィンドウ "collapse" 上の畳み込みを、その中央ピクセルで局所的に評価された線形微分演算子にすることである。 基礎となる理論は厳密なものであるが、最終的な公式は単純であることが判明し、不完全ウィンドウ上の畳み込みは、最も近い完全ウィンドウを変換されたカーネルと結び付けることによって達成される。 この公式は計算量的に軽量であり、補間も外挿も画像サイズやカーネルサイズへの制限も含まない。 提案手法は,高解像度画像や物理分野などのスムーズな境界を持つデータを好む。 私たちの実験には 一 計算物理学から解析分野及び非解析分野をフィルタリングすること及び 二 画像分類、セマンティックセグメンテーション及び超解像再構成のタスクのための畳み込みニューラルネットワーク(CNN)を訓練すること。 これらすべての実験において,本手法は比較実験よりも可視的優越性を示した。

Convolution is a fundamental operation in image processing and machine learning. Aimed primarily at maintaining image size, padding is a key ingredient of convolution, which, however, can introduce undesirable boundary effects. We present a non-padding-based method for size-keeping convolution based on the preservation of differential characteristics of kernels. The main idea is to make convolution over an incomplete sliding window "collapse" to a linear differential operator evaluated locally at its central pixel, which no longer requires information from the neighbouring missing pixels. While the underlying theory is rigorous, our final formula turns out to be simple: the convolution over an incomplete window is achieved by convolving its nearest complete window with a transformed kernel. This formula is computationally lightweight, involving neither interpolation or extrapolation nor restrictions on image and kernel sizes. Our method favours data with smooth boundaries, such as high-resolution images and fields from physics. Our experiments include: i) filtering analytical and non-analytical fields from computational physics and, ii) training convolutional neural networks (CNNs) for the tasks of image classification, semantic segmentation and super-resolution reconstruction. In all these experiments, our method has exhibited visible superiority over the compared ones.
翻訳日:2023-09-13 12:14:14 公開日:2023-09-12
# 引用テキスト生成のための引用テキストスパン

Cited Text Spans for Citation Text Generation ( http://arxiv.org/abs/2309.06365v1 )

ライセンス: Link先を確認
Xiangci Li, Yi-Hui Lee, Jessica Ouyang(参考訳) 自動的な関連作業生成は、引用された論文の内容に基づいて、非事実的な幻覚を避ける必要があるが、科学的文書の長さのため、既存の抽象的アプローチは引用された論文にのみ条件付けされている。 我々は、抽象概念が引用生成の最も適切な入力であるとは限らないことを示し、この方法で訓練されたモデルは幻覚を学習する。 我々は、抽象文の代替として、代わりに \textit{cited text span} (CTS) を条件として提案する。 手動のctsアノテーションは非常に時間と労力がかかるため、候補のcts文の自動ラベリングを実験し、高価な人間のアノテーションの代わりに十分に強力な性能を実現し、引用された論文の全文に基礎を置く引用テキストを生成するためのキーワードベースのcts検索手法を提案する。

Automatic related work generation must ground their outputs to the content of the cited papers to avoid non-factual hallucinations, but due to the length of scientific documents, existing abstractive approaches have conditioned only on the cited paper \textit{abstracts}. We demonstrate that the abstract is not always the most appropriate input for citation generation and that models trained in this way learn to hallucinate. We propose to condition instead on the \textit{cited text span} (CTS) as an alternative to the abstract. Because manual CTS annotation is extremely time- and labor-intensive, we experiment with automatic, ROUGE-based labeling of candidate CTS sentences, achieving sufficiently strong performance to substitute for expensive human annotations, and we propose a human-in-the-loop, keyword-based CTS retrieval approach that makes generating citation texts grounded in the full text of cited papers both promising and practical.
翻訳日:2023-09-13 12:13:52 公開日:2023-09-12
# 常識生成のための概念順序予測の学習

Learning to Predict Concept Ordering for Common Sense Generation ( http://arxiv.org/abs/2309.06363v1 )

ライセンス: Link先を確認
Tianhui Zhang, Danushka Bollegala, Bei Peng(参考訳) 先行研究では、概念がコモンセンス生成器に示される順序が重要な役割を果たすことが示され、生成された文の品質に影響を及ぼす。 しかし、すべての概念をカバーする自然文が事前学習された生成元から生成できるような、与えられた概念集合の最適順序を決定することは依然として課題である。 入力概念の順序付けと生成文の品質の関係を理解するために,複数の言語モデル(lms)と概念順序付け戦略を考慮した体系的な研究を行う。 複数の評価指標を用いて測定したコモンゲントレーニングデータに現れる概念の順序を微調整した場合,bart-largeモデルは,本研究で検討した全てのlmsを一貫して上回っていることがわかった。 さらに、より大きな gpt3 ベースの large language model (llms) は、タスク固有のトレーニングデータで微調整された場合でも、必ずしもこのタスクの lms をはるかに小さくするものではない。 興味深いことに、人間のアノテータは、これらの概念をカバーする文章を手書きするときに入力概念セットを著しく順序付けし、この順序付けは、生成に使用するLMとは独立して最高の文を生成し、ベースラインの確率論的概念よりも優れている。

Prior work has shown that the ordering in which concepts are shown to a commonsense generator plays an important role, affecting the quality of the generated sentence. However, it remains a challenge to determine the optimal ordering of a given set of concepts such that a natural sentence covering all the concepts could be generated from a pretrained generator. To understand the relationship between the ordering of the input concepts and the quality of the generated sentences, we conduct a systematic study considering multiple language models (LMs) and concept ordering strategies. We find that BART-large model consistently outperforms all other LMs considered in this study when fine-tuned using the ordering of concepts as they appear in CommonGen training data as measured using multiple evaluation metrics. Moreover, the larger GPT3-based large language models (LLMs) variants do not necessarily outperform much smaller LMs on this task, even when fine-tuned on task-specific training data. Interestingly, human annotators significantly reorder input concept sets when manually writing sentences covering those concepts, and this ordering provides the best sentence generations independently of the LM used for the generation, outperforming a probabilistic concept ordering baseline
翻訳日:2023-09-13 12:13:33 公開日:2023-09-12
# Reed-Muller Codes を用いたリジェクションとリカバリによる分類

Using Reed-Muller Codes for Classification with Rejection and Recovery ( http://arxiv.org/abs/2309.06359v1 )

ライセンス: Link先を確認
Daniel Fentham (1), David Parker (2), Mark Ryan (1) ((1) University of Birmingham, (2) University of Oxford)(参考訳) 現実世界に分類器をデプロイする場合、ユーザは入力に対して適切な応答を期待する。 しかし、従来の分類器では、訓練された分布から遠く離れた入力を扱うことができない。 悪意あるアクターは、分類器に誤った出力を与えるよう設計された敵の摂動を作れば、この欠陥を利用することができる。 分類排除法は、ネットワークが信頼度の低い入力を分類することを拒否することで、この問題を解決しようとする。 これは強い敵対的な例には有効であるが、直感的に分類できる弱摂動画像の拒絶にも繋がる。 そこで本研究では,reed-mullerエラー訂正符号にインスパイアされた分類器であるreed-muller aggregation network (rmaggnet)を提案する。 本稿では,rmaggnetは,分類過程において誤りを訂正する能力を利用して,異なる摂動予算で複数の敵攻撃に対して適切な正確性を維持しつつ,誤りを最小化できることを示す。 これは、少ない数の誤分類が許容される状況において、追加処理の量を削減できる代替分類法を提供する。

When deploying classifiers in the real world, users expect them to respond to inputs appropriately. However, traditional classifiers are not equipped to handle inputs which lie far from the distribution they were trained on. Malicious actors can exploit this defect by making adversarial perturbations designed to cause the classifier to give an incorrect output. Classification-with-rejection methods attempt to solve this problem by allowing networks to refuse to classify an input in which they have low confidence. This works well for strongly adversarial examples, but also leads to the rejection of weakly perturbed images, which intuitively could be correctly classified. To address these issues, we propose Reed-Muller Aggregation Networks (RMAggNet), a classifier inspired by Reed-Muller error-correction codes which can correct and reject inputs. This paper shows that RMAggNet can minimise incorrectness while maintaining good correctness over multiple adversarial attacks at different perturbation budgets by leveraging the ability to correct errors in the classification process. This provides an alternative classification-with-rejection method which can reduce the amount of additional processing in situations where a small number of incorrect classifications are permissible.
翻訳日:2023-09-13 12:13:10 公開日:2023-09-12
# 分節後部を用いたトンプソンサンプリングの一般化レグレト解析

Generalized Regret Analysis of Thompson Sampling using Fractional Posteriors ( http://arxiv.org/abs/2309.06349v1 )

ライセンス: Link先を確認
Prateek Jaiswal, Debdeep Pati, Anirban Bhattacharya, Bani K. Mallick(参考訳) トンプソンサンプリング(ts)は、確率的多腕バンディット問題を解決する最もポピュラーで初期のアルゴリズムの一つである。 我々は、標準の後方分布の代わりに、分数または$\alpha$-posterior (\alpha\in(0,1)$) を使用する、$\alpha$-ts という ts の変種を考える。 alpha$-posterior を計算するために、標準後方の定義の確率は$\alpha$ という係数でテンダリングされる。 インスタンスに依存しない$\mathcal{o}\left(\sum_{k \neq i^*} \delta_k\left(\frac{\log(t)}{c(\alpha)\delta_k^2} + \frac{1}{2} \right)\right)$ およびインスタンスに依存しない$\mathcal{o}(\sqrt{kt\log k})$ プリミティブ分布における非常に穏やかな条件下での頻発的後悔境界、ただし$\delta_k$は$k^{th}$と最高のアームの間の真の平均報酬の差であり、$c(\alpha)$は既知の定数である。 ガウス級および指数族モデルの両方が、報酬分布の一般条件を満たす。 事前分布の条件は、その密度が正、連続、有界である必要があるだけである。 また、改善された UCB [Auer and Ortner, 2010] の値と(定数まで)一致する別のインスタンス依存後悔の上界も確立する。 我々の後悔分析は、非漸近濃度分析における最近の理論的発展と、$\alpha$-posterior distributionに対するBernstein-von Mises型の結果とを慎重に組み合わせている。 さらに,本解析では,クローズドフォーム後部や共役前駆体などの構造的性質は必要としない。

Thompson sampling (TS) is one of the most popular and earliest algorithms to solve stochastic multi-armed bandit problems. We consider a variant of TS, named $\alpha$-TS, where we use a fractional or $\alpha$-posterior ($\alpha\in(0,1)$) instead of the standard posterior distribution. To compute an $\alpha$-posterior, the likelihood in the definition of the standard posterior is tempered with a factor $\alpha$. For $\alpha$-TS we obtain both instance-dependent $\mathcal{O}\left(\sum_{k \neq i^*} \Delta_k\left(\frac{\log(T)}{C(\alpha)\Delta_k^2} + \frac{1}{2} \right)\right)$ and instance-independent $\mathcal{O}(\sqrt{KT\log K})$ frequentist regret bounds under very mild conditions on the prior and reward distributions, where $\Delta_k$ is the gap between the true mean rewards of the $k^{th}$ and the best arms, and $C(\alpha)$ is a known constant. Both the sub-Gaussian and exponential family models satisfy our general conditions on the reward distribution. Our conditions on the prior distribution just require its density to be positive, continuous, and bounded. We also establish another instance-dependent regret upper bound that matches (up to constants) to that of improved UCB [Auer and Ortner, 2010]. Our regret analysis carefully combines recent theoretical developments in the non-asymptotic concentration analysis and Bernstein-von Mises type results for the $\alpha$-posterior distribution. Moreover, our analysis does not require additional structural properties such as closed-form posteriors or conjugate priors.
翻訳日:2023-09-13 12:12:48 公開日:2023-09-12
# アーキテクチャ最適化メッセージパッシングニューラルネットワークを用いたバンドギャップ回帰

Band-gap regression with architecture-optimized message-passing neural networks ( http://arxiv.org/abs/2309.06348v1 )

ライセンス: Link先を確認
Tim Bechtel, Daniel T. Speckhard, Jonathan Godwin, Claudia Draxl(参考訳) グラフベースのニューラルネットワーク、特にメッセージパスニューラルネットワーク(MPNN)は、固体の物理的特性を予測する大きな可能性を示している。 本研究では, AFLOWデータベースからの密度汎関数理論データから材料を金属的, 半導体的, 絶縁的に分類するMPNNを訓練する。 次に,MPNNのモデルアーキテクチャとハイパーパラメータ空間を探索し,非金属と同定された材料のバンドギャップを予測する。 検索のパラメータには、メッセージパッシングステップの数、潜時サイズ、アクティベーション機能などが含まれる。 検索から得られるトップパフォーマンスのモデルは、文献から既存のモデルを大きく上回るアンサンブルにプールされる。 不確かさの定量化はモンテカルロ・ドロップアウトとアンサンブルで評価され、アンサンブル法は優れていた。 アンサンブルモデルの適用性の領域は,結晶系,密度汎関数計算におけるハバードパラメータの含み,材料を構成する原子種について分析する。

Graph-based neural networks and, specifically, message-passing neural networks (MPNNs) have shown great potential in predicting physical properties of solids. In this work, we train an MPNN to first classify materials through density functional theory data from the AFLOW database as being metallic or semiconducting/insulating. We then perform a neural-architecture search to explore the model architecture and hyperparameter space of MPNNs to predict the band gaps of the materials identified as non-metals. The parameters in the search include the number of message-passing steps, latent size, and activation-function, among others. The top-performing models from the search are pooled into an ensemble that significantly outperforms existing models from the literature. Uncertainty quantification is evaluated with Monte-Carlo Dropout and ensembling, with the ensemble method proving superior. The domain of applicability of the ensemble model is analyzed with respect to the crystal systems, the inclusion of a Hubbard parameter in the density functional calculations, and the atomic species building up the materials.
翻訳日:2023-09-13 12:12:03 公開日:2023-09-12
# 学習率の高い領域一般化のためのフラットミニマ探索

Exploring Flat Minima for Domain Generalization with Large Learning Rates ( http://arxiv.org/abs/2309.06337v1 )

ライセンス: Link先を確認
Jian Zhang, Lei Qi, Yinghuan Shi, Yang Gao(参考訳) domain generalization (dg) は任意の未発見領域に一般化することを目的としている。 dgのモデル一般化を改善するための有望なアプローチは、フラットミニマの同定である。 このタスクの典型的な方法はSWADであり、トレーニング軌道に沿って重みを平均化する。 しかし、体重平均化の成功は、少ない学習率でトレーニングする場合に制限される重みの多様性に依存する。 代わりに、大きな学習率を活用することで、重量の多様性を同時に促進し、損失景観における平坦な領域の識別を容易にすることが観察された。 しかし、大きな学習率を採用することは収束問題に悩まされ、単にトレーニング重量を平均化するだけでは解決できない。 この問題に対処するために,我々は,速さと低速さの間において平均ではなく,重み補間を伴うlookaheadと呼ばれるトレーニング戦略を導入する。 速い重みは、大きな学習率で重み空間を探索するが、これは収束しないが、遅い重みは収束を保証するためにそれを補間する。 さらに、重み補間は、平坦性を測定する局所エントロピー損失を暗黙的に最適化することで、平坦な極小さを特定するのに役立つ。 さらに,トレーニング中の過剰フィットを防止するため,重み付け平均重量または累積履歴重量でトレーニング重量を定式化する2つの変種を提案する。 この新たな視点を生かして,本手法は分類とセマンティックセグメンテーション領域の一般化ベンチマークにおいて最先端の性能を達成する。 コードはhttps://github.com/koncle/DG-with-Large-LRで入手できる。

Domain Generalization (DG) aims to generalize to arbitrary unseen domains. A promising approach to improve model generalization in DG is the identification of flat minima. One typical method for this task is SWAD, which involves averaging weights along the training trajectory. However, the success of weight averaging depends on the diversity of weights, which is limited when training with a small learning rate. Instead, we observe that leveraging a large learning rate can simultaneously promote weight diversity and facilitate the identification of flat regions in the loss landscape. However, employing a large learning rate suffers from the convergence problem, which cannot be resolved by simply averaging the training weights. To address this issue, we introduce a training strategy called Lookahead which involves the weight interpolation, instead of average, between fast and slow weights. The fast weight explores the weight space with a large learning rate, which is not converged while the slow weight interpolates with it to ensure the convergence. Besides, weight interpolation also helps identify flat minima by implicitly optimizing the local entropy loss that measures flatness. To further prevent overfitting during training, we propose two variants to regularize the training weight with weighted averaged weight or with accumulated history weight. Taking advantage of this new perspective, our methods achieve state-of-the-art performance on both classification and semantic segmentation domain generalization benchmarks. The code is available at https://github.com/koncle/DG-with-Large-LR.
翻訳日:2023-09-13 12:11:48 公開日:2023-09-12
# 物体画像と行動画像からの接地言語獲得

Grounded Language Acquisition From Object and Action Imagery ( http://arxiv.org/abs/2309.06335v1 )

ライセンス: Link先を確認
James Robert Kubricht and Zhaoyuan Yang and Jianwei Qiu and Peter Henry Tu(参考訳) 自然言語処理への深層学習アプローチは近年大きな進歩を遂げている。 これらのモデルは、膨大な量の多様な知識を伝達するシンボルを生成するが、そのようなシンボルがどのように世界からのデータに根ざされているかは不明である。 本稿では,創発的言語(EL)エンコーダ/デコーダの訓練による視覚データ表現のためのプライベート言語の開発について検討する。 一 伝統的な参照ゲーム環境及び 二 クラス内マッチング学習パラダイムを利用したコントラスト学習環境。 ニューラルネットワーク翻訳とランダムフォレスト分類を利用した付加的な分類層を用いて,記号表現(整数記号列)をクラスラベルに変換する。 これらの手法を物体認識と行動認識に焦点を当てた2つの実験に応用した。 物体認識には,実画像から人間参加者が作成したスケッチセット(sketchy dataset)を用い,動作認識には3次元モーションキャプチャシステム(movi dataset)から2次元トラジェクタを生成する。 各実験で生成したシンボルを解析するために,勾配重み付きクラスアクティベーションマッピング(Grad-CAM)法を用いて,学習言語におけるシンボルに対する証拠となる意味的特徴を示す画素領域を同定した。 さらに,t-distributed stochastic neighbor embedded (t-sne) 法を用いてcnn特徴抽出器で学習した埋め込みについて検討した。

Deep learning approaches to natural language processing have made great strides in recent years. While these models produce symbols that convey vast amounts of diverse knowledge, it is unclear how such symbols are grounded in data from the world. In this paper, we explore the development of a private language for visual data representation by training emergent language (EL) encoders/decoders in both i) a traditional referential game environment and ii) a contrastive learning environment utilizing a within-class matching training paradigm. An additional classification layer utilizing neural machine translation and random forest classification was used to transform symbolic representations (sequences of integer symbols) to class labels. These methods were applied in two experiments focusing on object recognition and action recognition. For object recognition, a set of sketches produced by human participants from real imagery was used (Sketchy dataset) and for action recognition, 2D trajectories were generated from 3D motion capture systems (MOVI dataset). In order to interpret the symbols produced for data in each experiment, gradient-weighted class activation mapping (Grad-CAM) methods were used to identify pixel regions indicating semantic features which contribute evidence towards symbols in learned languages. Additionally, a t-distributed stochastic neighbor embedding (t-SNE) method was used to investigate embeddings learned by CNN feature extractors.
翻訳日:2023-09-13 12:11:22 公開日:2023-09-12
# 効率的なその場校正による不安定デバイスにおける一貫した高忠実量子学習に向けて

Toward Consistent High-fidelity Quantum Learning on Unstable Devices via Efficient In-situ Calibration ( http://arxiv.org/abs/2309.06327v1 )

ライセンス: Link先を確認
Zhirui Hu, Robert Wolle, Mingzhen Tian, Qiang Guan, Travis Humble, Weiwen Jiang(参考訳) 近未来の雑音型中間スケール量子(NISQ)時代には、高ノイズは量子コンピューティングの忠実度を著しく低下させる。 さらに、量子デバイスのノイズは安定していない。 実行時に、不安定なデバイス上で一貫した高忠実な量子システムを効率的に達成する方法はあるだろうか? この問題を研究するために、組合せ最適化や機械学習といった量子学習(つまり変分量子アルゴリズム)を車両として扱う。 簡単なアプローチは、ターゲットの量子デバイス上でパラメータシフトアプローチでCircuitを最適化することであるが、この最適化は非常に高コストであり、実行時に実用的ではない。 プレス問題に対処するため,我々は量子パルスに基づく新しい雑音適応フレームワークQuPADを提案した。 提案手法では,まずcnotゲートが従来のvqcの忠実性ボトルネックであることを確認し,より頑健なパラメータ化されたマルチクイットゲート(すなわちrzxゲート)を用いてcnotゲートを置き換える。 第2に、Rzxゲートを異なるパラメータでベンチマークすることにより、Rzxゲートの理論出力とデバイス上の出力とのずれを、所定のパルス振幅と持続時間で効率的に予測できるように、各結合量子ビット対に対する適合関数を構築する。 これに加えて、各rzxゲートのパルス振幅と持続時間(すなわちキャリブレーション)を同定し、高い忠実度を持つ量子回路を見つけるための進化的アルゴリズムが考案されている。 実験によると、8-10量子ビットのqupadの量子デバイス上でのランタイムは15分未満であり、パラメータシフトアプローチよりも最大270倍高速である。 さらに、バニラVQCをベースラインとすると、QuPADは分類タスクで59.33%の精度を獲得し、分子シミュレーションでは平均66.34%の接地状態エネルギーを達成できる。

In the near-term noisy intermediate-scale quantum (NISQ) era, high noise will significantly reduce the fidelity of quantum computing. Besides, the noise on quantum devices is not stable. This leads to a challenging problem: At run-time, is there a way to efficiently achieve a consistent high-fidelity quantum system on unstable devices? To study this problem, we take quantum learning (a.k.a., variational quantum algorithm) as a vehicle, such as combinatorial optimization and machine learning. A straightforward approach is to optimize a Circuit with a parameter-shift approach on the target quantum device before using it; however, the optimization has an extremely high time cost, which is not practical at run-time. To address the pressing issue, in this paper, we proposed a novel quantum pulse-based noise adaptation framework, namely QuPAD. In the proposed framework, first, we identify that the CNOT gate is the fidelity bottleneck of the conventional VQC, and we employ a more robust parameterized multi-quit gate (i.e., Rzx gate) to replace the CNOT gate. Second, by benchmarking the Rzx gate with different parameters, we build a fitting function for each coupling qubit pair, such that the deviation between the theoretic output of the Rzx gate and its on-device output under a given pulse amplitude and duration can be efficiently predicted. On top of this, an evolutionary algorithm is devised to identify the pulse amplitude and duration of each Rzx gate (i.e., calibration) and find the quantum circuits with high fidelity. Experiments show that the runtime on quantum devices of QuPAD with 8-10 qubits is less than 15 minutes, which is up to 270x faster than the parameter-shift approach. In addition, compared to the vanilla VQC as a baseline, QuPAD can achieve 59.33% accuracy gain on a classification task, and average 66.34% closer to ground state energy for molecular simulation.
翻訳日:2023-09-13 12:10:59 公開日:2023-09-12
# マスクネットワークのアンサンブル

Ensemble Mask Networks ( http://arxiv.org/abs/2309.06382v1 )

ライセンス: Link先を確認
Jonny Luntzel(参考訳) $\mathbb{R}^n\rightarrow \mathbb{R}^n$ feedforward network learn matrix-vector multiplication? 本研究では,マトリックス入力を取るためのフレキシブルマスキングと,マスクの依存性構造を尊重するユニークなネットワークプルーニングという2つのメカニズムを導入する。 ネットワークは行列ベクトル乗法 $\phi(A,x) \rightarrow Ax$ のような固定演算を近似することができ、リトマステストの依存関係やグラフベースのモデルでの相互作用順序に対する応用によって導入されたメカニズムを動機付ける。

Can an $\mathbb{R}^n\rightarrow \mathbb{R}^n$ feedforward network learn matrix-vector multiplication? This study introduces two mechanisms - flexible masking to take matrix inputs, and a unique network pruning to respect the mask's dependency structure. Networks can approximate fixed operations such as matrix-vector multiplication $\phi(A,x) \rightarrow Ax$, motivating the mechanisms introduced with applications towards litmus-testing dependencies or interaction order in graph-based models.
翻訳日:2023-09-13 12:00:45 公開日:2023-09-12
# 非調和発振器とヌルブートストラップ

Anharmonic oscillators and the null bootstrap ( http://arxiv.org/abs/2309.06381v1 )

ライセンス: Link先を確認
Renjan Rajan John and Krishna Priya R(参考訳) 本稿では,最近開発されたnullブートストラップの手法を用いて,結合のエネルギー固有値とセクティックアンハーモニック発振器のラダー演算子を得る。 我々は従来の摂動理論から同じことを導出した結果を確認する。 さらに、シフト調和振動子と立方体理論に焦点をあて、非エルミート対称ハミルトニアンに解析をさらに拡張する。

We employ the recently developed technique of null bootstrap to obtain the energy eigenvalues and the ladder operators of the sextic anharmonic oscillator up to second order in the coupling. We confirm our results by deriving the same from traditional perturbation theory. We further extend the analysis to non-Hermitian PT symmetric Hamiltonians, focusing on the shifted harmonic oscillator and the cubic theory.
翻訳日:2023-09-13 12:00:35 公開日:2023-09-12
# InstaFlow: 高品質な拡散ベースのテキスト-画像生成のための一歩

InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation ( http://arxiv.org/abs/2309.06380v1 )

ライセンス: Link先を確認
Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu(参考訳) 拡散モデルは、その例外的な品質と創造性によって、テキストから画像生成に革命をもたらした。 しかし、その多段階サンプリングプロセスは遅く、良好な結果を得るためには数十の推論ステップが必要になることが知られている。 従来の蒸留によるサンプリング速度の向上と計算コスト削減の試みは,機能的なワンステップモデルの実現には成功しなかった。 本稿では,これまで小さなデータセットにのみ適用されてきたRectified Flowという手法について検討する。 Rectified Flowのコアは、確率フローの軌跡を直線化し、ノイズと画像の結合を洗練し、学生モデルによる蒸留プロセスを容易にする、 \emph{reflow} プロセスにある。 本研究では,安定拡散(sd)を超高速ワンステップモデルに変換し,ノイズと画像の割り当てを改善する上で,リフローが重要な役割を果たすことを示す。 新しいパイプラインを活用して、私たちの知る限り、SDレベルの画質を持つ最初の1ステップの拡散ベースのテキスト・ツー・イメージジェネレータを作り、以前の最先端技術であるプログレッシブ蒸留を抜いて23.3ドルのFID(Frechet Inception Distance)をMS COCO 2017-5kで達成した(Frechet Inception Distance)。 1.7Bパラメータを持つ拡張ネットワークを利用することで、FIDをさらに22.4$に改善する。 我々はワンステップモデル \emph{instaflow} と呼ぶ。 MS COCO 2014-30kでは、InstaFlowのFIDは$13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime、最近のStyleGAN-T (13.9$ in $0.1$ second)を上回っている。 特に、InstaFlowのトレーニングには199 A100 GPU日しかかからない。 プロジェクトページ:~\url{https://github.com/gnobitab/InstaFlow}。

Diffusion models have revolutionized text-to-image generation with its exceptional quality and creativity. However, its multi-step sampling process is known to be slow, often requiring tens of inference steps to obtain satisfactory results. Previous attempts to improve its sampling speed and reduce computational costs through distillation have been unsuccessful in achieving a functional one-step model. In this paper, we explore a recent method called Rectified Flow, which, thus far, has only been applied to small datasets. The core of Rectified Flow lies in its \emph{reflow} procedure, which straightens the trajectories of probability flows, refines the coupling between noises and images, and facilitates the distillation process with student models. We propose a novel text-conditioned pipeline to turn Stable Diffusion (SD) into an ultra-fast one-step model, in which we find reflow plays a critical role in improving the assignment between noise and images. Leveraging our new pipeline, we create, to the best of our knowledge, the first one-step diffusion-based text-to-image generator with SD-level image quality, achieving an FID (Frechet Inception Distance) of $23.3$ on MS COCO 2017-5k, surpassing the previous state-of-the-art technique, progressive distillation, by a significant margin ($37.2$ $\rightarrow$ $23.3$ in FID). By utilizing an expanded network with 1.7B parameters, we further improve the FID to $22.4$. We call our one-step models \emph{InstaFlow}. On MS COCO 2014-30k, InstaFlow yields an FID of $13.1$ in just $0.09$ second, the best in $\leq 0.1$ second regime, outperforming the recent StyleGAN-T ($13.9$ in $0.1$ second). Notably, the training of InstaFlow only costs 199 A100 GPU days. Project page:~\url{https://github.com/gnobitab/InstaFlow}.
翻訳日:2023-09-13 12:00:28 公開日:2023-09-12
# style2fab: 生成aiでパーソナライズされた3dモデルを作成するための機能対応セグメンテーション

Style2Fab: Functionality-Aware Segmentation for Fabricating Personalized 3D Models with Generative AI ( http://arxiv.org/abs/2309.06379v1 )

ライセンス: Link先を確認
Faraz Faruqi, Ahmed Katary, Tarik Hasic, Amira Abdel-Rahman, Nayeemur Rahman, Leandra Tejedor, Mackenzie Leake, Megan Hofmann, Stefanie Mueller(参考訳) Generative AIの最近の進歩により、自動的に3Dモデルを操作しやすくなる。 しかし、現在の手法は世界中のモデルに編集を適用する傾向にあり、物理世界で作られた3Dモデルの意図した機能を妥協するリスクがある。 例えば、vaseのベースのような3dモデルにおける機能セグメントの変更は、モデルの元の機能を損なう可能性があるため、vaseが崩壊する可能性がある。 3dモデルを機能的および美的要素に自動的に分割する方法を提案する。 機能セグメントに影響を与えることなく、3次元モデルの美的セグメントを選択的に修正することができる。 この手法を開発するために,人気のある3DプリンティングレポジトリであるThingiverseから得られた1000のモデルを質的に解析することにより,まず3Dモデルにおける機能分類を作成する。 この分類法により、3次元モデルを機能的および審美的要素に分解する半自動分類法を開発した。 本稿では,ユーザが機能を損なうことなく3dモデルを選択的にスタイライゼーションできるstyle2fabというシステムを提案する。 人間の注釈付きデータと比較して分類手法の有効性を評価し,Style2Fabの有用性をユーザスタディで検証し,機能を考慮したセグメンテーションがモデル機能の維持に役立つことを示す。

With recent advances in Generative AI, it is becoming easier to automatically manipulate 3D models. However, current methods tend to apply edits to models globally, which risks compromising the intended functionality of the 3D model when fabricated in the physical world. For example, modifying functional segments in 3D models, such as the base of a vase, could break the original functionality of the model, thus causing the vase to fall over. We introduce a method for automatically segmenting 3D models into functional and aesthetic elements. This method allows users to selectively modify aesthetic segments of 3D models, without affecting the functional segments. To develop this method we first create a taxonomy of functionality in 3D models by qualitatively analyzing 1000 models sourced from a popular 3D printing repository, Thingiverse. With this taxonomy, we develop a semi-automatic classification method to decompose 3D models into functional and aesthetic elements. We propose a system called Style2Fab that allows users to selectively stylize 3D models without compromising their functionality. We evaluate the effectiveness of our classification method compared to human-annotated data, and demonstrate the utility of Style2Fab with a user study to show that functionality-aware segmentation helps preserve model functionality.
翻訳日:2023-09-13 11:59:50 公開日:2023-09-12
# ハイブリッド3次元表現による異方性アバターの学習

Learning Disentangled Avatars with Hybrid 3D Representations ( http://arxiv.org/abs/2309.06441v1 )

ライセンス: Link先を確認
Yao Feng, Weiyang Liu, Timo Bolkart, Jinlong Yang, Marc Pollefeys, Michael J. Black(参考訳) アニマタブルでフォトリアリスティックな人間のアバターを学ぶための多大な努力がなされている。 この目的に向けて、明示的および暗黙的な3D表現は、人間全体(例えば、体、衣服、顔、毛髪)を包括的にモデル化し、捕えるために深く研究されているが、人間のアバターの異なる部分が異なるモデリングデシダータを持つため、表現効率の観点からは、どちらの表現も最適な選択ではない。 例えば、メッシュは一般的に衣服や髪のモデリングには適していない。 そこで我々は,ハイブリッドな明示的3d表現を持つ人間をモデル化する不連続アバター~(デルタ)を提案する。 DELTAは単眼のRGB動画を入力として、別の体と衣服/髪の層を持つ人間のアバターを生成する。 具体的には,DELTAの2つの重要な応用例を示す。 第一に、人体と衣服の絡み合い、第二に顔と髪の絡み合いについて考える。 そのためにdeltaは、体や顔を明示的なメッシュベースのパラメトリック3dモデルで表現し、服や髪は暗黙の神経放射野で表現する。 これを実現するために,メッシュをボリュームレンダリングに統合したエンドツーエンドの微分可能なレンダラを設計し,DELTAが3D監督なしでモノクロビデオから直接学習できるようにする。 最後に, これら2つの応用が, 髪, 顔, 体, 衣服を完全に切り離すことができるような, フルボディアバターのモデル化にどのように組み合わせられるかを示す。 このような絡み合いにより、髪や衣服を任意の体型に移すことができる。 デルタのジエンタングルメントの有効性を実証的に検証し,ジエンタングルドリコンストラクション,仮想衣料試着,ヘアスタイルトランスファーの有望な性能を実証した。 今後の研究を促進するため,我々は,ハイブリッドヒトアバターモデリング研究のためのオープンソースのパイプラインもリリースしている。

Tremendous efforts have been made to learn animatable and photorealistic human avatars. Towards this end, both explicit and implicit 3D representations are heavily studied for a holistic modeling and capture of the whole human (e.g., body, clothing, face and hair), but neither representation is an optimal choice in terms of representation efficacy since different parts of the human avatar have different modeling desiderata. For example, meshes are generally not suitable for modeling clothing and hair. Motivated by this, we present Disentangled Avatars~(DELTA), which models humans with hybrid explicit-implicit 3D representations. DELTA takes a monocular RGB video as input, and produces a human avatar with separate body and clothing/hair layers. Specifically, we demonstrate two important applications for DELTA. For the first one, we consider the disentanglement of the human body and clothing and in the second, we disentangle the face and hair. To do so, DELTA represents the body or face with an explicit mesh-based parametric 3D model and the clothing or hair with an implicit neural radiance field. To make this possible, we design an end-to-end differentiable renderer that integrates meshes into volumetric rendering, enabling DELTA to learn directly from monocular videos without any 3D supervision. Finally, we show that how these two applications can be easily combined to model full-body avatars, such that the hair, face, body and clothing can be fully disentangled yet jointly rendered. Such a disentanglement enables hair and clothing transfer to arbitrary body shapes. We empirically validate the effectiveness of DELTA's disentanglement by demonstrating its promising performance on disentangled reconstruction, virtual clothing try-on and hairstyle transfer. To facilitate future research, we also release an open-sourced pipeline for the study of hybrid human avatar modeling.
翻訳日:2023-09-13 11:53:46 公開日:2023-09-12
# LEAPハンド:ロボット学習のための低コスト、効率的、人型ハンド

LEAP Hand: Low-Cost, Efficient, and Anthropomorphic Hand for Robot Learning ( http://arxiv.org/abs/2309.06440v1 )

ライセンス: Link先を確認
Kenneth Shaw, Ananye Agarwal, Deepak Pathak(参考訳) 高度な操作はロボティクスにおいて長年の課題だった。 機械学習技術は将来性を示しているが、その結果はシミュレーションに限られている。 これは主に、適切なハードウェアが不足しているためである。 本稿では,機械学習研究のための低コストで人為的な手であるLEAP Handについて述べる。 従来の手とは対照的に、LEAP Handは指のポーズに関係なく最大デキスタリティを許容する新しいキネマティック構造を持つ。 LEAP Handは低コストで4時間で組み立てることができる。 長時間にわたって大きなトルクを連続的に発揮することができる。 LEAP Handは、視覚的遠隔操作から受動的ビデオデータからの学習、sim2realに至るまで、現実世界でいくつかの操作タスクを実行するために使用できることを示す。 LEAP Handは、我々のすべての実験において、最も近いライバルであるAllegro Handをはるかに上回り、コストの1/8である。 詳細なアセンブリ命令、Sim2Realパイプライン、Webサイト(https://leap-hand.github.io/)で有用なAPIを備えた開発プラットフォームをリリースしています。

Dexterous manipulation has been a long-standing challenge in robotics. While machine learning techniques have shown some promise, results have largely been currently limited to simulation. This can be mostly attributed to the lack of suitable hardware. In this paper, we present LEAP Hand, a low-cost dexterous and anthropomorphic hand for machine learning research. In contrast to previous hands, LEAP Hand has a novel kinematic structure that allows maximal dexterity regardless of finger pose. LEAP Hand is low-cost and can be assembled in 4 hours at a cost of 2000 USD from readily available parts. It is capable of consistently exerting large torques over long durations of time. We show that LEAP Hand can be used to perform several manipulation tasks in the real world -- from visual teleoperation to learning from passive video data and sim2real. LEAP Hand significantly outperforms its closest competitor Allegro Hand in all our experiments while being 1/8th of the cost. We release detailed assembly instructions, the Sim2Real pipeline and a development platform with useful APIs on our website at https://leap-hand.github.io/
翻訳日:2023-09-13 11:53:11 公開日:2023-09-12
# 注意の分離:デジタル病理表現学習における多様性の誘発

Attention De-sparsification Matters: Inducing Diversity in Digital Pathology Representation Learning ( http://arxiv.org/abs/2309.06439v1 )

ライセンス: Link先を確認
Saarthak Kapse, Srijan Das, Jingwei Zhang, Rajarsi R. Gupta, Joel Saltz, Dimitris Samaras, Prateek Prasanna(参考訳) 病理画像診断のための多様性誘導表現学習手法であるDiRLを提案する。 コントラスト的および非コントラスト的アプローチのような自己監督型学習技術は、限られた病理医監督でデジタル化された組織サンプルの豊かで効果的な表現を学習することが示されている。 注意のスパーシティ(sparsity in attention) すなわち、モデルがイメージ内のいくつかの顕著なパターンに注意を集中させる傾向があります。 これは自然画像とは異なり、デジタル病理スキャンはオブジェクト中心ではなく、むしろ様々な空間的混合生物学的成分の複雑な表現型であるためである。 これらの複雑な画像における注意の多様化の不十分さは、重要な情報損失をもたらす可能性がある。 これを解決するために,我々はセルセグメンテーションを活用して,複数の病理組織特異的な表現を密に抽出し,ビュー間の複数の対応する表現にマッチするように設計したSSLの事前誘導密接なプリテキストタスクを提案する。 これにより、モデルは、より緊密かつ均一に様々なコンポーネントに参加することを学習し、コンテキストリッチな表現をキャプチャするための適切な多様化を促す。 がんの種類をまたいだ複数のタスクの定量的および質的分析を通じて,本手法の有効性を実証し,注目がよりグローバルに分布していることを確認する。

We propose DiRL, a Diversity-inducing Representation Learning technique for histopathology imaging. Self-supervised learning techniques, such as contrastive and non-contrastive approaches, have been shown to learn rich and effective representations of digitized tissue samples with limited pathologist supervision. Our analysis of vanilla SSL-pretrained models' attention distribution reveals an insightful observation: sparsity in attention, i.e, models tends to localize most of their attention to some prominent patterns in the image. Although attention sparsity can be beneficial in natural images due to these prominent patterns being the object of interest itself, this can be sub-optimal in digital pathology; this is because, unlike natural images, digital pathology scans are not object-centric, but rather a complex phenotype of various spatially intermixed biological components. Inadequate diversification of attention in these complex images could result in crucial information loss. To address this, we leverage cell segmentation to densely extract multiple histopathology-specific representations, and then propose a prior-guided dense pretext task for SSL, designed to match the multiple corresponding representations between the views. Through this, the model learns to attend to various components more closely and evenly, thus inducing adequate diversification in attention for capturing context rich representations. Through quantitative and qualitative analysis on multiple tasks across cancer types, we demonstrate the efficacy of our method and observe that the attention is more globally distributed.
翻訳日:2023-09-13 11:52:58 公開日:2023-09-12
# クエリベースのブラックボックス攻撃に対するViTの非付加的ランダム性探索

Exploring Non-additive Randomness on ViT against Query-Based Black-Box Attacks ( http://arxiv.org/abs/2309.06438v1 )

ライセンス: Link先を確認
Jindong Gu, Fangyun Wei, Philip Torr, Han Hu(参考訳) ディープニューラルネットワークは、小さくて知覚できない摂動によって容易に騙される。 クエリベースのブラックボックス攻撃(QBBA)は、基盤となるモデルへのアクセスを必要としない画像クエリのモデル出力確率を使って摂動を生成することができる。 QBBAは現実世界のアプリケーションに現実的な脅威をもたらす。 近年,QBBA対策として各種のロバスト性の調査が行われている。 本研究ではまず,QBBAに対する確率的防衛戦略を分類する。 そこで本研究では,QBBA対策モデルにおける非付加的ランダム性について検討する。 具体的には、そのフレキシブルなアーキテクチャに基づいて、未熟なビジョントランスフォーマーにフォーカスします。 大規模な実験により、提案した防御アプローチは、性能の犠牲を伴わずに効果的な防御を実現することが示された。

Deep Neural Networks can be easily fooled by small and imperceptible perturbations. The query-based black-box attack (QBBA) is able to create the perturbations using model output probabilities of image queries requiring no access to the underlying models. QBBA poses realistic threats to real-world applications. Recently, various types of robustness have been explored to defend against QBBA. In this work, we first taxonomize the stochastic defense strategies against QBBA. Following our taxonomy, we propose to explore non-additive randomness in models to defend against QBBA. Specifically, we focus on underexplored Vision Transformers based on their flexible architectures. Extensive experiments show that the proposed defense approach achieves effective defense, without much sacrifice in performance.
翻訳日:2023-09-13 11:52:34 公開日:2023-09-12
# 意味的・言語横断的クローン生成における大規模言語モデルの可能性

Unveiling the potential of large language models in generating semantic and cross-language clones ( http://arxiv.org/abs/2309.06424v1 )

ライセンス: Link先を確認
Palash R. Roy, Ajmain I. Alam, Farouq Al-omari, Banani Roy, Chanchal K. Roy, Kevin A. Schneider(参考訳) セマンティックおよびクロス言語コードクローン生成は、コードの再利用、コードの理解、リファクタリング、ベンチマークに有用である。 OpenAIのGPTモデルは、テキスト生成に使用されるGPTのようなクローン生成の可能性を秘めている。 開発者がStack Overflow(SO)あるいはシステム内でコードをコピー/ペーストする場合、予期しない動作につながる一貫性のない変更が発生する可能性がある。 Similarly, if someone possesses a code snippet in a particular programming language but seeks equivalent functionality in a different language, a semantic cross-language code clone generation approach could provide valuable assistance.In this study, using SemanticCloneBench as a vehicle, we evaluated how well the GPT-3 model could help generate semantic and cross-language clone variants for a given fragment.We have comprised a diverse set of code fragments and assessed GPT-3s performance in generating code variants.Through extensive experimentation and analysis, where 9 judges spent 158 hours to validate, we investigate the model's ability to produce accurate and semantically correct variants. 我々の発見は、コード生成におけるGPT-3の強みに光を当て、ソフトウェア開発で高度な言語モデルを使用することの潜在的な応用と課題に関する洞察を与えました。 我々の定量分析は説得力のある結果をもたらす。 セマンティッククローンの分野では、GPT-3の精度は62.14%と0.55 BLEUで、数発のプロンプトエンジニアリングによって達成されている。 さらに、このモデルは超越する言語圏において輝き、言語間クローンの生成において例外的な91.25%の精度を誇っている。

Semantic and Cross-language code clone generation may be useful for code reuse, code comprehension, refactoring and benchmarking. OpenAI's GPT model has potential in such clone generation as GPT is used for text generation. When developers copy/paste codes from Stack Overflow (SO) or within a system, there might be inconsistent changes leading to unexpected behaviours. Similarly, if someone possesses a code snippet in a particular programming language but seeks equivalent functionality in a different language, a semantic cross-language code clone generation approach could provide valuable assistance.In this study, using SemanticCloneBench as a vehicle, we evaluated how well the GPT-3 model could help generate semantic and cross-language clone variants for a given fragment.We have comprised a diverse set of code fragments and assessed GPT-3s performance in generating code variants.Through extensive experimentation and analysis, where 9 judges spent 158 hours to validate, we investigate the model's ability to produce accurate and semantically correct variants. Our findings shed light on GPT-3's strengths in code generation, offering insights into the potential applications and challenges of using advanced language models in software development. Our quantitative analysis yields compelling results. In the realm of semantic clones, GPT-3 attains an impressive accuracy of 62.14% and 0.55 BLEU score, achieved through few-shot prompt engineering. Furthermore, the model shines in transcending linguistic confines, boasting an exceptional 91.25% accuracy in generating cross-language clones
翻訳日:2023-09-13 11:52:22 公開日:2023-09-12
# AGMDT: 補助ガイド下多臓器移植による腎組織像の仮想染色

AGMDT: Virtual Staining of Renal Histology Images with Adjacency-Guided Multi-Domain Transfer ( http://arxiv.org/abs/2309.06421v1 )

ライセンス: Link先を確認
Tao Ma, Chao Zhang, Min Lu, Lin Luo(参考訳) 腎病理学は腎臓疾患の診断の標準として、医師がそれぞれH&E染色で染色された組織スライスと、Masson、PASM、PASなどの特殊な染色を分析する必要がある。 これらの特殊な染色法は費用がかかり、時間がかかり、特に初等病院で広く使われるように標準化が難しい。 教師付き学習手法の進歩により、H&E画像を特殊染色画像に変換することができるが、画素間のアライメントは訓練のためには困難である。 対照的に、異なるスタイル転送ドメインとして異なるステインに関する教師なし学習方法は、非ペアデータを用いることができるが、空間的ドメイン間相関を無視し、診断のための構造的詳細の信頼性を低下させる。 本稿では,ピクセルレベルのアライメントを回避し,隣接する組織スライス間の相関を利用して画像の他の領域への変換を行う,新しい仮想染色フレームワーク AGMDT を提案する。 まず, 種々の方法で染色した一連のスライス標本からなる, 高品位多ドメイン腎組織学的データセットを構築した。 提案するフレームワークであるAGMDTは,球状率検出と二部グラフマッチングにより,複数ドメインの連続スライスにまたがるパッチレベルのアライメントペアを検出し,そのような相関を利用してマルチドメイン染色変換のエンドツーエンドモデルを監督する。 実験の結果,多領域連続病的スライス間の相関を活用し,高精度な画素レベルアライメントと非ペアリングドメイン転送のバランスを良好に達成し,定量的な測定と形態学的詳細の両方において最先端の手法を上回った。

Renal pathology, as the gold standard of kidney disease diagnosis, requires doctors to analyze a serial of tissue slices stained by H\&E staining and special staining like Masson, PASM, and PAS, respectively. These special staining methods are costly, time-consuming, and hard to standardize for wide use especially in primary hospitals. Advances of supervised learning methods can virtually convert H\&E images into special staining images, but the pixel-to-pixel alignment is hard to achieve for training. As contrast, unsupervised learning methods regarding different stains as different style transferring domains can use unpaired data, but they ignore the spatial inter-domain correlations and thus decrease the trustworthiness of structural details for diagnosis. In this paper, we propose a novel virtual staining framework AGMDT to translate images into other domains by avoiding pixel-level alignment and meanwhile utilizing the correlations among adjacent tissue slices. We first build a high-quality multi-domain renal histological dataset where each specimen case comprises a series of slices stained in various ways. Based on it, the proposed framework AGMDT discovers patch-level aligned pairs across the serial slices of multi-domains through glomerulus detection and bipartite graph matching, and utilizes such correlations to supervise the end-to-end model for multi-domain staining transformation. Experimental results show that the proposed AGMDT achieves a good balance between the precise pixel-level alignment and unpaired domain transfer by exploiting correlations across multi-domain serial pathological slices, and outperforms the state-of-the-art methods in both quantitative measure and morphological details.
翻訳日:2023-09-13 11:51:59 公開日:2023-09-12
# 指数関数分布の計算効率のよい学習について

On Computationally Efficient Learning of Exponential Family Distributions ( http://arxiv.org/abs/2309.06413v1 )

ライセンス: Link先を確認
Abhin Shah, Devavrat Shah, Gregory W. Wornell(参考訳) 古典的な学習問題は、任意の精度で、計算的かつ統計的に効率的な方法でサンプルから$k$-parameter truncated \textit{minimal}指数族の自然なパラメータを考える。 我々は、サポートと自然なパラメータが適切に境界付けられた設定に焦点を当てる。 この指数関数族に対する従来の最大確率推定器は一貫性があり、漸近的に正規であり、漸近的に効率が良いが、計算学的に難しい。 本研究では,新しい損失関数と,温和な条件下での漸近的に正常かつ一貫した計算効率の高い推定器を提案する。 本手法は,個体群レベルでは,同じ指数関数族に属する再パラメータ分布の最大推定値と見なすことができる。 さらに、我々の推定器は、特定のブレグマンスコアを最小化する解として解釈でき、また \textit{surrogate} の確率を最小化する例を示す。 また、サンプル複雑性$O({\sf poly}(k)/\alpha^2)$のパラメータ推定において、$\alpha$の誤差($\ell_2$-norm)を達成するための有限サンプル保証を提供する。 本手法は,ノードワイズ・スパース・マルコフのランダムフィールドに適した場合,$O({\sf log}(k)/\alpha^2)$のオーダー最適サンプル複雑性を実現する。 最後に,数値実験により推定器の性能を実証する。

We consider the classical problem of learning, with arbitrary accuracy, the natural parameters of a $k$-parameter truncated \textit{minimal} exponential family from i.i.d. samples in a computationally and statistically efficient manner. We focus on the setting where the support as well as the natural parameters are appropriately bounded. While the traditional maximum likelihood estimator for this class of exponential family is consistent, asymptotically normal, and asymptotically efficient, evaluating it is computationally hard. In this work, we propose a novel loss function and a computationally efficient estimator that is consistent as well as asymptotically normal under mild conditions. We show that, at the population level, our method can be viewed as the maximum likelihood estimation of a re-parameterized distribution belonging to the same class of exponential family. Further, we show that our estimator can be interpreted as a solution to minimizing a particular Bregman score as well as an instance of minimizing the \textit{surrogate} likelihood. We also provide finite sample guarantees to achieve an error (in $\ell_2$-norm) of $\alpha$ in the parameter estimation with sample complexity $O({\sf poly}(k)/\alpha^2)$. Our method achives the order-optimal sample complexity of $O({\sf log}(k)/\alpha^2)$ when tailored for node-wise-sparse Markov random fields. Finally, we demonstrate the performance of our estimator via numerical experiments.
翻訳日:2023-09-13 11:50:44 公開日:2023-09-12
# 反ド・ジッター時空の境界に直交するブランの表面カシミール密度

Surface Casimir densities on branes orthogonal to the boundary of anti-de Sitter spacetime ( http://arxiv.org/abs/2309.06408v1 )

ライセンス: Link先を確認
A. A. Saharian(参考訳) 反ドジッター(AdS)時空の境界に直交する2つのブレーンの幾何学において、一般的な曲率結合を有するスカラー場に対する表面エネルギー-運動量テンソル(SEMT)の真空期待値について検討した。 ブレーン上のロビン境界条件では、SEMTはブレーンの自己エネルギーと第2ブレーンの存在によって誘導される部分に対応するコントリビューションに分解される。 第1部のみに再正規化が必要であり、対応する正則化には一般化ゼータ関数法を用いる。 誘導SEMTは有限であり、再正規化の曖昧さがない。 ブレーン上に住んでいる観測者にとって、対応する状態方程式は宇宙定数型である。 境界条件やブレーン間の分離によっては、表面エネルギー密度は正または負のいずれかである。 ブレーンに誘起されるエネルギー密度は、そのブレーン上のディリクレおよびノイマン境界条件の特別な場合において消失する。 誘導SEMTに対する重力の影響は、AdS時空の曲率半径よりも大きい順序のブレーン間の分離に不可欠である。 大きな分離限界において、semt の崩壊は、適切な分離の関数として、質量と質量の両方の場に対する力の法則に従う。 ミンコフスキーバルクの平行板や大規模フィールドの場合、対応する期待値の落差は指数的である。

We investigate the vacuum expectation value of the surface energy-momentum tensor (SEMT) for a scalar field with general curvature coupling in the geometry of two branes orthogonal to the boundary of anti-de Sitter (AdS) spacetime. For Robin boundary conditions on the branes, the SEMT is decomposed into the contributions corresponding to the self-energies of the branes and the parts induced by the presence of the second brane. The renormalization is required for the first parts only and for the corresponding regularization the generalized zeta function method is employed. The induced SEMT is finite and is free from renormalization umbiguities. For an observer living on the brane, the corresponding equation of state is of the cosmological constant type. Depending on the boundary conditions and on the separation between the branes, the surface energy densities can be either positive or negative. The energy density induced on the brane vanishes in special cases of Dirichlet and Neumann boundary conditions on that brane. The effect of gravity on the induced SEMT is essential at separations between the branes of the order or larger than the curvature radius for AdS spacetime. In the large separation limit the decay of the SEMT, as a function of the proper separation, follows a power law for both massless and massive fields. For parallel plates in Minkowski bulk and for massive fields the fall-off of the corresponding expectation value is exponential.
翻訳日:2023-09-13 11:50:18 公開日:2023-09-12