このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230921となっている論文です。

PDF登録状況(公開日: 20230921)

TitleAuthorsAbstract論文公表日・翻訳日
# バグのプログラミングから数百万ドル詐欺:分散取引所におけるトラップドアトークンの分析

From Programming Bugs to Multimillion-Dollar Scams: An Analysis of Trapdoor Tokens on Decentralized Exchanges ( http://arxiv.org/abs/2309.04700v3 )

ライセンス: Link先を確認
Phuong Duy Huynh, Thisal De Silva, Son Hoang Dau, Xiaodong Li, Iqbal Gondal, Emanuele Viterbo, (参考訳) 我々は、最近登場したTrapdoorと呼ばれる詐欺トークンを調査し、2020-2023年の間に投資家たちは何十億ドルもの資金を投入した。 簡単に言えば、論理的なバグや/または所有者のみの機能をスマートコントラクトコードに埋め込むことで、Trapdoorトークンを使用することで、ユーザは購入するが販売を阻止できる。 我々は,Trapdoorトークンの最初の体系的分類と,そのプログラミング手法の包括的リストを開発し,代表詐欺契約に関する詳細な分析を行った。 また、Unixwap上で手動で認証されたTrapdoorトークンの最初のデータセットを構築し、Random Forest、XGBoost、LightGBMといった一般的な機械学習分類器を使用して効果的なOpcodeベースの検出ツールを構築し、少なくとも0.98%の精度、精度、リコール、F1スコアを実現した。

We investigate in this work a recently emerging type of scam token called Trapdoor, which has caused the investors hundreds of millions of dollars in the period of 2020-2023. In a nutshell, by embedding logical bugs and/or owner-only features to the smart contract codes, a Trapdoor token allows users to buy but prevent them from selling. We develop the first systematic classification of Trapdoor tokens and a comprehensive list of their programming techniques, accompanied by a detailed analysis on representative scam contracts. We also construct the very first dataset of 1859 manually verified Trapdoor tokens on Uniswap and build effective opcode-based detection tools using popular machine learning classifiers such as Random Forest, XGBoost, and LightGBM, which achieve at least 0.98% accuracies, precisions, recalls, and F1-scores.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-21
# ソフトウェア比較化のトレードオフとハードウェア機能

Software Compartmentalization Trade-Offs with Hardware Capabilities ( http://arxiv.org/abs/2309.11332v2 )

ライセンス: Link先を確認
John Alistair Kressel, Hugo Lefeuvre, Pierre Olivier, (参考訳) 比較化(Compartmentalization)とは、アプリケーションが独立した通信コンポーネントに分割された、防御的なソフトウェア設計の一種である。 既存のアプリケーションに区画化を組み込むのは、エンジニアリングの取り組みとパフォーマンスのオーバーヘッドの観点から、コストがかかると考えられます。 しかし、近年では、低いエンジニアリング努力と性能への影響の低減を約束する分断化手法が提案されている。 ARM Morello は ARM プロセッサと Capability Hardware Enhanced RISC Instructions (CHERI) の実装を組み合わせて、効率的でセキュアなコンパートナライゼーションを提供する。 CHERIベースのコンパートメンタリゼーションを探求する過去の研究は、エミュレート/FPGAのプロトタイプに限られていた。 本稿では,モレロチップ上でのCHERIを用いたコンパートナライズ方式について検討する。 エンジニアリングの取り組み、セキュリティ、スケーラビリティ、パフォーマンスへの影響の観点から、異なるトレードオフを表す2つのアプローチを提案する。 そこで本研究では,Morelloチップ上でベアメタルを動作させるプロトタイプOS上で,これらのアプローチを記述し,実装し,性能上のオーバーヘッドについて検討する。 さらに,スケーラビリティとセキュリティを両立させたい場合のエンジニアリングコストが極めて低く,他のアドレス内空間分離機構と性能上のオーバーヘッドが類似していることを示す。

Compartmentalization is a form of defensive software design in which an application is broken down into isolated but communicating components. Retrofitting compartmentalization into existing applications is often thought to be expensive from the engineering effort and performance overhead points of view. Still, recent years have seen proposals of compartmentalization methods with promises of low engineering efforts and reduced performance impact. ARM Morello combines a modern ARM processor with an implementation of Capability Hardware Enhanced RISC Instructions (CHERI) aiming to provide efficient and secure compartmentalization. Past works exploring CHERI-based compartmentalization were restricted to emulated/FPGA prototypes. In this paper, we explore possible compartmentalization schemes with CHERI on the Morello chip. We propose two approaches representing different trade-offs in terms of engineering effort, security, scalability, and performance impact. We describe and implement these approaches on a prototype OS running bare metal on the Morello chip, compartmentalize two popular applications, and investigate the performance overheads. Furthermore, we show that compartmentalization can be achieved with an engineering cost that can be quite low if one is willing to trade off on scalability and security, and that performance overheads are similar to other intra-address space isolation mechanisms.
翻訳日:2024-03-19 04:10:47 公開日:2023-09-21
# MarkNerf:ニューラルラジアンスフィールドの透かし

MarkNerf:Watermarking for Neural Radiance Field ( http://arxiv.org/abs/2309.11747v1 )

ライセンス: Link先を確認
Lifeng Chen, Jia Liu, Yan Ke, Wenquan Sun, Weina Dong, Xiaozhong Pan, (参考訳) 本稿では,暗黙的な3Dモデルの著作権保護問題に対処するために,透かしアルゴリズムを提案する。 このアルゴリズムは、埋め込みネットワークを介してトレーニングセット内の画像に透かしを埋め込み、3DモデリングにNeRFモデルを利用する。 著作権検証装置を用いて、神経放射場への入力として秘密の視点を提供することにより、バックドア画像を生成する。 その後、ニューラルネットワークのハイパーパラメータ化法を用いて透かし抽出器を作成し、その観点から埋め込み透かし画像を抽出する。 ブラックボックスのシナリオでは、3Dモデルが許可なく使用されたという疑念がある場合、検証者は秘密の観点から透かしを抽出し、ネットワーク著作権を検証できる。 実験により,提案アルゴリズムは3次元モデルの著作権を効果的に保護することを示した。 さらに, 抽出した透かしは, 良好な視覚効果を示し, 各種騒音に対する耐性を示す。

A watermarking algorithm is proposed in this paper to address the copyright protection issue of implicit 3D models. The algorithm involves embedding watermarks into the images in the training set through an embedding network, and subsequently utilizing the NeRF model for 3D modeling. A copyright verifier is employed to generate a backdoor image by providing a secret perspective as input to the neural radiation field. Subsequently, a watermark extractor is devised using the hyperparameterization method of the neural network to extract the embedded watermark image from that perspective. In a black box scenario, if there is a suspicion that the 3D model has been used without authorization, the verifier can extract watermarks from a secret perspective to verify network copyright. Experimental results demonstrate that the proposed algorithm effectively safeguards the copyright of 3D models. Furthermore, the extracted watermarks exhibit favorable visual effects and demonstrate robust resistance against various types of noise attacks.
翻訳日:2024-03-19 04:10:47 公開日:2023-09-21
# 魚の暗号化によるセキュアなデータストレージのための2つのブロックチェーン技術

Two Fish Encryption Based Blockchain Technology for Secured Data Storage ( http://arxiv.org/abs/2309.11770v1 )

ライセンス: Link先を確認
Dinesh Kumar K, Duraimutharasan N, (参考訳) データセキュリティと共有は、ビジネスデータ、医療データ、銀行データなど、多くのアプリケーションにおいていまだに迷惑である。 本研究では,クラウドストレージにおける高レベルデータセキュリティのための暗号化アルゴリズムを用いて,ブロックチェーン技術を構築した。 医療データセキュリティは、患者の情報に敏感な点から重要視される。 医療データの不正アクセスは、患者にとって大きな問題となる。 本稿では,クラウドストレージにおけるブロックチェーンモデルに格納された医療データを保護するためのハイブリッド暗号化技術を用いたブロックチェーンを提案する。 RSA多重精度算術に基づく新しい2種類の魚の暗号モデルを実装した。 MPAはライブラリの概念を使って機能する。 この方法論を使用する目的は、より少ない実行時間でセキュリティパフォーマンスを向上させることである。 患者データは暗号化アルゴリズムによって処理され、暗号化キーを使用してブロックチェーンインフラストラクチャに格納される。 アクセス許可により、ユーザーはブロックチェーンフレームワークに添付された医療データを読み書きできる。 従来の暗号化技術のパフォーマンスは、セキュリティインフラストラクチャの提供において、非常に少ない。

Data security and sharing remains nuisance among many applications like business data, medical data, banking data etc. In this research, block chain technology is built with encryption algorithm for high level data security in cloud storage. Medical data security seems critical aspect due to sensitivity of patient information. Unauthorized access of medical data creates major issue to patients. This article proposed block chain with hybrid encryption technique for securing medical data stored in block chain model at cloud storage. New Two fish encryption model is implemented based on RSA Multiple Precision Arithmetic. MPA works by using library concept. The objective of using this methodology is to enhance security performance with less execution time. Patient data is processed by encryption algorithm and stored at blockchain infrastructure using encrypted key. Access permission allows user to read or write the medical data attached in block chain framework. The performance of traditional cryptographic techniques is very less in providing security infrastructure.
翻訳日:2024-03-19 04:10:47 公開日:2023-09-21
# Bitcoin取引の時空間スケーリング法則

The Spatiotemporal Scaling Laws of Bitcoin Transactions ( http://arxiv.org/abs/2309.11884v1 )

ライセンス: Link先を確認
Lajos Kelemen, István András Seres, Ágnes Backhausz, (参考訳) この研究は、私たちの知る限り、Bitcoin取引の時空間的ダイナミクスを初めて掘り下げ、その地理的利用を規制するスケーリング法則に光を当てた。 2013年10月から2013年12月まで、IPアドレスとBitcoinアドレスのデータセットを活用して、Bitcoin特有の地理空間パターンを調査した。 暗号通貨ビジネス、規制の明確性、ネットワーク科学の探求のニーズに感銘を受け、いくつかのコントリビューションを行います。 まず、Bitcoin取引の時空間スケーリングの法則を実証的に特徴付け、その支出行動に関する洞察を与えます。 第2に,Bitcoinエコシステムにおけるユーザグループ間の経済関係を明らかにするために,Bitcoinの時空間パターンを効果的に近似するマルコフモデルを導入する。 我々の測定とモデルはネットワークの不均一な構造に光を当てている:Bitcoinは分散化を意図しているが、ユーザーアクティビティの分布には地理的に大きな違いがある。

This study, to the best of our knowledge for the first time, delves into the spatiotemporal dynamics of Bitcoin transactions, shedding light on the scaling laws governing its geographic usage. Leveraging a dataset of IP addresses and Bitcoin addresses spanning from October 2013 to December 2013, we explore the geospatial patterns unique to Bitcoin. Motivated by the needs of cryptocurrency businesses, regulatory clarity, and network science inquiries, we make several contributions. Firstly, we empirically characterize Bitcoin transactions' spatiotemporal scaling laws, providing insights into its spending behaviours. Secondly, we introduce a Markovian model that effectively approximates Bitcoin's observed spatiotemporal patterns, revealing economic connections among user groups in the Bitcoin ecosystem. Our measurements and model shed light on the inhomogeneous structure of the network: although Bitcoin is designed to be decentralized, there are significant geographical differences in the distribution of user activity, which has consequences for all participants and possible (regulatory) control over the system.
翻訳日:2024-03-19 04:10:47 公開日:2023-09-21
# DeepTheft:パワーサイドチャネルを通じてDNNモデルアーキテクチャをステアリングする

DeepTheft: Stealing DNN Model Architectures through Power Side Channel ( http://arxiv.org/abs/2309.11894v1 )

ライセンス: Link先を確認
Yansong Gao, Huming Qiu, Zhi Zhang, Binghui Wang, Hua Ma, Alsharif Abuadbba, Minhui Xue, Anmin Fu, Surya Nepal, (参考訳) Deep Neural Network(DNN)モデルは、推論サービスを提供するためにMLaaS(Machine Learning as a Service)として、リソース共有クラウドにデプロイされることが多い。貴重な知的財産を持つモデルアーキテクチャを盗むために、さまざまなサイドチャネルリークを通じて攻撃のクラスが提案され、MLaaSに深刻なセキュリティ上の課題を提起している。 MLaaSも対象とし,RAPLベースのパワーサイドチャネルを介して,汎用プロセッサ上の複雑なDNNモデルアーキテクチャを正確に復元する,新たなエンドツーエンドアタックであるDeepTheftを提案する。 しかし、攻撃者はRAPLインタフェースから時系列エネルギートレースの低サンプリングレート(1KHz)しか取得できず、既存の技術は大規模で深いDNNモデルを盗むのに効果がない。 この目的のために、DeepTheftがResNet152を含むモデルファミリから多数のモデルアーキテクチャを復元する際の精度が高いメタモデルからなる、新規で汎用的な学習ベースのフレームワークを設計する。 特にDeepTheftは、ネットワーク構造の回復において99.75%のLevenshtein Distance精度を達成し、様々な層幅のハイパーパラメータの回復において、重み付き平均F1スコア99.60%を達成している。 さらに,提案する学習フレームワークは,他の時系列側チャネル信号に対して一般的である。 その一般化を検証するために、もう1つの既存のサイドチャネル、すなわちCPU周波数を利用する。 RAPLとは異なり、CPU周波数は、素金属OSの未使用ユーザに対してアクセス可能である。 CPU周波数トレースに対してトレーニングされた汎用的な学習フレームワークを使用することで、DeepTheftはモデルアーキテクチャを盗む際にも同様に高い攻撃性能を示した。

Deep Neural Network (DNN) models are often deployed in resource-sharing clouds as Machine Learning as a Service (MLaaS) to provide inference services.To steal model architectures that are of valuable intellectual properties, a class of attacks has been proposed via different side-channel leakage, posing a serious security challenge to MLaaS. Also targeting MLaaS, we propose a new end-to-end attack, DeepTheft, to accurately recover complex DNN model architectures on general processors via the RAPL-based power side channel. However, an attacker can acquire only a low sampling rate (1 KHz) of the time-series energy traces from the RAPL interface, rendering existing techniques ineffective in stealing large and deep DNN models. To this end, we design a novel and generic learning-based framework consisting of a set of meta-models, based on which DeepTheft is demonstrated to have high accuracy in recovering a large number (thousands) of models architectures from different model families including the deepest ResNet152. Particularly, DeepTheft has achieved a Levenshtein Distance Accuracy of 99.75% in recovering network structures, and a weighted average F1 score of 99.60% in recovering diverse layer-wise hyperparameters. Besides, our proposed learning framework is general to other time-series side-channel signals. To validate its generalization, another existing side channel is exploited, i.e., CPU frequency. Different from RAPL, CPU frequency is accessible to unprivileged users in bare-metal OSes. By using our generic learning framework trained against CPU frequency traces, DeepTheft has shown similarly high attack performance in stealing model architectures.
翻訳日:2024-03-19 04:10:47 公開日:2023-09-21
# 可変パラメータフル次元空間に基づくピア・ピア・グリッドトポロジーを用いたフルメッシュネットワーク技術

Full mesh networking technology with peer to peer grid topology based on variable parameter full dimensional space ( http://arxiv.org/abs/2309.11903v1 )

ライセンス: Link先を確認
Wenqiang Song, Chuan He, Zhaoyang Xie, Yuanyuan Chai, (参考訳) コンピュータネットワーク技術の継続的な開発は情報化のペースを加速させ、同時にネットワークセキュリティの問題もますます顕著になりつつある。 ネットワークトポロジの異なるネットワーク技術は、ネットワークセキュリティ問題を解決する重要な手段の1つである。 VPNのセキュリティは地理的境界の分割に基づいているが、粒度は比較的粗いため、セキュリティ状況の動的変化に対処することは困難である。 ゼロ信頼ネットワークはピアツーピア認証と継続的な検証を通じてVPN問題を解決するが、ほとんどのソリューションは中央プロキシデバイスを使用しており、中央ノードがネットワークのボトルネックとなる。 本稿では,NATトラバースの長年の問題を解決する,誕生日パラドックスに基づくハードナットトラバース公式を提案する。 可変パラメータの空間空間的ピアツーピアグリッドトポロジを用いたフルメッシュネットワーク機構が提案され,すべての種類のネットワークスキームを網羅し,方法論と工学の両レベルでピアツーピアリソースの相互接続を実現する。

The continuous development of computer network technology has accelerated the pace of informatization, and at the same time, network security issues are becoming increasingly prominent. Networking technology with different network topologies is one of the important means to solve network security problems. The security of VPN is based on the division of geographical boundaries, but the granularity is relatively coarse, which is difficult to cope with the dynamic changes of the security situation. Zero trust network solves the VPN problem through peer to peer authorization and continuous verification, but most of the solutions use a central proxy device, resulting in the central node becoming the bottleneck of the network. This paper put forward the hard-Nat traversal formula based on the birthday paradox, which solves the long-standing problem of hard NAT traversal. A full mesh networking mechanism with variable parameter full-dimensional spatial peer-to-peer grid topology was proposed, which covers all types of networking schemes and achieve peer-2-peer resource interconnection on both methodological and engineering level.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-21
# DAGプロトコルのためのジェネリックセルフリッシュマイニングMDP

Generic Selfish Mining MDP for DAG Protocols ( http://arxiv.org/abs/2309.11924v1 )

ライセンス: Link先を確認
Patrik Keller, George Bissias, (参考訳) Selfish Miningは、仕事の証明プロトコル[3]とMarkov Decision Processs(MDPs)の報酬を最大化するための戦略的ルール破滅であり、Bitcoin[4, 10]と同様のリニアチェーンプロトコル[12]で最適な戦略を見つけるツールとして好まれています。 プロトコルは、MDP分析がより関与する、非逐次連鎖構造[11]をますます採用している。 これまで研究者は、各プロトコル(2, 4, 5, 7, 10, 12]に対して、特定の攻撃空間を調整してきた。 仮定は異なり、結果の検証と比較は困難である。 そこで本研究では,ブロック[11]の総順序付けを行うDAGプロトコルの幅広いクラスをサポートする汎用的な攻撃空間を提案する。 G Ethereum、Fruitchains、Parallel Proof-Work。 それぞれのプロトコルをひとつのプログラムとして指定し、自動的に自家製マイニングMDPを導出します。

Selfish Mining is strategic rule-breaking to maximize rewards in proof-of-work protocols [3] and Markov Decision Processes (MDPs) are the preferred tool for finding optimal strategies in Bitcoin [4, 10] and similar linear chain protocols [12]. Protocols increasingly adopt non-sequential chain structures [11], for which MDP analysis is more involved [2]. To date, researchers have tailored specific attack spaces for each protocol [2, 4, 5, 7, 10, 12]. Assumptions differ, and validating and comparing results is difficult. To overcome this, we propose a generic attack space that supports the wide class of DAG protocols that provide a total ordering of blocks [11], e. g., Ethereum, Fruitchains, and Parallel Proof-of-Work. Our approach is modular: we specify each protocol as one program, and then derive the Selfish Mining MDPs automatically.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-21
# 唐代法典の四次的類推

A quaternary analogue of Tang-Ding codes ( http://arxiv.org/abs/2309.12003v1 )

ライセンス: Link先を確認
Minjia Shi, Sihui Tao, Jon-Lark Kim, Patrick Sole, (参考訳) 最近の論文では、TangとDingは、最小距離で設計された下界を持つ、半減期に近い二進循環符号のクラスを導入した。 この定義は、その定義集合における整数の基底2$拡張を含む。 本稿では,第4次符号の類似点を提案する。 さらに、サブフィールドサブコードとトレースコード(2つの2進巡回符号)の性能について検討した。

In a recent paper, Tang and Ding introduced a class of binary cyclic codes of rate close to one half with a designed lower bound on their minimum distance. The definition involves the base $2$ expansion of the integers in their defining set. In this paper we propose an analogue for quaternary codes. In addition, the performances of the subfield subcode and of the trace code (two binary cyclic codes) are investigated.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-21
# エッジデバイス上での分散アグリゲーションのプライバシ保護のためのツールチェーン

A Toolchain for Privacy-Preserving Distributed Aggregation on Edge-Devices ( http://arxiv.org/abs/2309.12483v1 )

ライセンス: Link先を確認
Johannes Liebenow, Timothy Imort, Yannick Fuchs, Marcel Heisel, Nadja Käding, Jan Rupp, Esfandiar Mohammadi, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックを受けて頻繁に訪れる環境など、重要な洞察は、スマートフォンのようなエッジデバイスにまたがる機密データを分析することで得られることが多い。 このような分析を容易にするために、エッジデバイスの限られたリソースを考慮に入れ、ローカルデータの分散したプライバシ保護アグリゲーションのためのツールチェーンを提案する。 分散アグリゲーションはセキュアな和に基づいており、同時に差分プライバシーの概念を満たす。 このようにして、他のパーティは、単一のクライアントの機密データや、最終的な結果に対する単一のクライアントの影響を学ぶことができません。 我々は,実環境における消費電力,走行時間,および帯域幅のオーバーヘッドの評価を行い,ヒストグラムの総和を分散クラスタリングに拡張することにより,ツールチェーンの柔軟性を実証する。

Valuable insights, such as frequently visited environments in the wake of the COVID-19 pandemic, can oftentimes only be gained by analyzing sensitive data spread across edge-devices like smartphones. To facilitate such an analysis, we present a toolchain for a distributed, privacy-preserving aggregation of local data by taking the limited resources of edge-devices into account. The distributed aggregation is based on secure summation and simultaneously satisfies the notion of differential privacy. In this way, other parties can neither learn the sensitive data of single clients nor a single client's influence on the final result. We perform an evaluation of the power consumption, the running time and the bandwidth overhead on real as well as simulated devices and demonstrate the flexibility of our toolchain by presenting an extension of the summation of histograms to distributed clustering.
翻訳日:2024-03-19 04:01:03 公開日:2023-09-21
# 超伝導単磁束量子を用いた深部ニューロモルフィックネットワーク

Deep Neuromorphic Networks with Superconducting Single Flux Quanta ( http://arxiv.org/abs/2311.10721v1 )

ライセンス: Link先を確認
Gleb Krylov, Alexander J. Edwards, Joseph S. Friedman, Eby G. Friedman(参考訳) 従来の半導体ベースの集積回路は、徐々に根本的なスケーリング限界に近づいている。 多くの先進的なソリューションが最近登場し、基本的なデバイスが構築される技術とデータ処理のアーキテクチャの両方を補完または置き換えている。 ニューロモルフィック回路は、高効率を達成するために脳が使用する技術を利用するコンピューティングへの有望なアプローチである。 既存の多くのニューロモルフィック回路は、脳の操作をより良く模倣するために、新しい技術の非伝統的で有用な性質に依存している。 そのような技術の一つが単一磁束量子(SFQ)論理(英語版)であり、これは誘導ループに埋め込まれたジョセフソン接合によって生成・処理された磁束(磁束)の量子によってデータが表現される低温超伝導技術である。 回路内のフラクトンの動きは、ニューロンのスパイク現象に似た量子化された電圧パルス(SFQパルス)を生成する。 これらの回路は数十から数百ギガヘルツのクロック周波数で通常動作し、SFQは高周波パルス列を処理する自然な技術である。 SFQニューラルネットワークの以前の提案は、しばしばエネルギーを消費するフラクトン変換、異種技術を含む、デバイスレベルの振る舞いにのみフォーカスする必要がある。 本稿では,ディープ単一フラックス量子ニューロモルフィックネットワークの設計手法について述べる。 SFQ技術に基づくシナプス回路およびニューロン回路を提示し、特徴付ける。 これらのプリミティブに基づいて、アーキテクチャレベルと回路レベルの両方において、深いニューロモルフィックXORネットワークをケーススタディとして評価し、広い分類マージンを達成する。 提案手法は、従来の超伝導デバイスや半導体トランジスタを使用しない。 得られたネットワークは外部電流で調整可能であり、このシステムはスケーラブルな低温ニューロモルフィックコンピューティングに有効なアプローチである。

Conventional semiconductor-based integrated circuits are gradually approaching fundamental scaling limits. Many prospective solutions have recently emerged to supplement or replace both the technology on which basic devices are built and the architecture of data processing. Neuromorphic circuits are a promising approach to computing where techniques used by the brain to achieve high efficiency are exploited. Many existing neuromorphic circuits rely on unconventional and useful properties of novel technologies to better mimic the operation of the brain. One such technology is single flux quantum (SFQ) logic -- a cryogenic superconductive technology in which the data are represented by quanta of magnetic flux (fluxons) produced and processed by Josephson junctions embedded within inductive loops. The movement of a fluxon within a circuit produces a quantized voltage pulse (SFQ pulse), resembling a neuronal spiking event. These circuits routinely operate at clock frequencies of tens to hundreds of gigahertz, making SFQ a natural technology for processing high frequency pulse trains. Prior proposals for SFQ neural networks often require energy-expensive fluxon conversions, involve heterogeneous technologies, or exclusively focus on device level behavior. In this paper, a design methodology for deep single flux quantum neuromorphic networks is presented. Synaptic and neuronal circuits based on SFQ technology are presented and characterized. Based on these primitives, a deep neuromorphic XOR network is evaluated as a case study, both at the architectural and circuit levels, achieving wide classification margins. The proposed methodology does not employ unconventional superconductive devices or semiconductor transistors. The resulting networks are tunable by an external current, making this proposed system an effective approach for scalable cryogenic neuromorphic computing.
翻訳日:2024-01-15 16:13:21 公開日:2023-09-21
# 神経心理学的デジタル精密健康介入を可能にする影響モデルのパーソナライズ : 可能性スタディ

Personalization of Affective Models to Enable Neuropsychiatric Digital Precision Health Interventions: A Feasibility Study ( http://arxiv.org/abs/2311.12812v1 )

ライセンス: Link先を確認
Ali Kargarandehkordi, Matti Kaisti, Peter Washington(参考訳) 自閉症スペクトラム障害(ASD)に対するモバイルデジタル治療は、しばしば感情認識と誘発を標的としている。 このようなモバイルアプリケーションは、しばしばコンピュータビジョン機械学習(ML)モデルを使用してデジタル介入の適応性を導くが、通常は1つのモデルがデプロイされ、すべての子供に適用される。 そこで本研究では,asd児のデジタルヘルス療法の指導に使用される感情認識モデルの性能を向上させるために,モデルパーソナライゼーションの可能性や,個人ひとりひとりの感情認識モデルのトレーニングについて検討する。 一連の感情を喚起する被験者の映像データセットであるEmognitionデータセットの実験を行った。 少なくとも2つのグランド・真実の感情ラベルを十分に表現したデータセット内の10人のサブセットに対して、各ビデオフレームから抽出された51の機能セット上で、3つの古典的なmlモデルのパーソナライズされたバージョンをトレーニングした。 本研究は,各顔の特徴が各パーソナライズされたモデルにおいて重要であることを測定し,モデルパーソナライゼーションの必要性を動機づけた。 次に、パーソナライズされたモデルと、10人全員のデータをトレーニングした一般化モデルを比較した。 パーソナライズされたモデルのF1スコアの平均は90.48%、92.66%、86.40%であった。 対照的に、異なる被験者で訓練された非個人モデルで到達した平均F1スコアは88.55%、91.78%、80.42%であった。 パーソナライズされたモデルは10人中7人の一般モデルを上回った。 残りの3名の被験者のpca分析では、各被験者の感情ラベル間の顔構成の差異がみられ、被験者データ内のデータポイント間のばらつきが小さすぎるとパーソナライズmlが失敗することが示唆された。

Mobile digital therapeutics for autism spectrum disorder (ASD) often target emotion recognition and evocation, which is a challenge for children with ASD. While such mobile applications often use computer vision machine learning (ML) models to guide the adaptive nature of the digital intervention, a single model is usually deployed and applied to all children. Here, we explore the potential of model personalization, or training a single emotion recognition model per person, to improve the performance of these underlying emotion recognition models used to guide digital health therapies for children with ASD. We conducted experiments on the Emognition dataset, a video dataset of human subjects evoking a series of emotions. For a subset of 10 individuals in the dataset with a sufficient representation of at least two ground truth emotion labels, we trained a personalized version of three classical ML models on a set of 51 features extracted from each video frame. We measured the importance of each facial feature for all personalized models and observed differing ranked lists of top features across subjects, motivating the need for model personalization. We then compared the personalized models against a generalized model trained using data from all 10 participants. The mean F1-scores achieved by the personalized models were 90.48%, 92.66%, and 86.40%, respectively. By contrast, the mean F1-scores reached by non-personalized models trained on different human subjects and evaluated using the same test set were 88.55%, 91.78%, and 80.42%, respectively. The personalized models outperformed the generalized models for 7 out of 10 participants. PCA analyses on the remaining 3 participants revealed relatively facial configuration differences between emotion labels within each subject, suggesting that personalized ML will fail when the variation among data points within a subjects data is too low.
翻訳日:2024-01-15 15:47:46 公開日:2023-09-21
# 現実的不完全データシナリオにおけるマルチモーダル感情認識のための学習ノイズロバスト結合表現

Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Realistic Incomplete Data Scenarios ( http://arxiv.org/abs/2311.16114v1 )

ライセンス: Link先を確認
Qi Fan (1), Haolin Zuo (1), Rui Liu (1), Zheng Lian (2) and Guanglai Gao (1) ((1) Inner Mongolia University, Hohhot, China, (2) Institute of Automation, Chinese Academy of Sciences, Beijing, China)(参考訳) 実践シナリオにおけるマルチモーダル感情認識(MER)は、欠落や騒々しいデータなど不完全なデータが存在するため、重大な課題となる。 従来の方法は、欠落したデータを捨てたり、ゼロベクターに置き換えたりして、ノイズの多いデータの可用性の問題を無視したりします。 その結果、これらのアプローチは、欠落したデータとノイズの多いデータが混在する現実的なシナリオに完全には適用できない。 この問題に対処するため,ノイズを含む不完全データから頑健なマルチモーダル関節表現を効果的に学習するNMERという新しいノイズロスモデルを提案する。 このアプローチには2つの重要なコンポーネントが組み込まれています。 まず,訓練データにおけるノイズの種類やレベルを調整し,現実的なシナリオにおける不完全なデータの特徴をエミュレートするノイズスケジューラを提案する。 次に,変分オートエンコーダ(VAE)に基づくNMERモデルを用いて,雑音データからロバストなマルチモーダルな関節表現を生成し,モダリティ不変性を利用する。 ベンチマークデータセットIEMOCAPの実験結果は、提案したNMERが最先端のMERシステムより優れていることを示している。 アブレーション結果は,VAE構造の有効性も確認した。 私たちはコードを \href{https://github.com/wooyoohl/noise-robust_merでリリースします。

Multimodal emotion recognition (MER) in practical scenarios presents a significant challenge due to the presence of incomplete data, such as missing or noisy data. Traditional methods often discard missing data or replace it with a zero vector, neglecting the availability issue of noisy data. Consequently, these approaches are not fully applicable to realistic scenarios, where both missing and noisy data are prevalent. To address this problem, we propose a novel noise-robust MER model, named NMER, which effectively learns robust multimodal joint representations from incomplete data containing noise. Our approach incorporates two key components. First, we introduce a noise scheduler that adjusts the type and level of noise in the training data, emulating the characteristics of incomplete data in realistic scenarios. Second, we employ a Variational AutoEncoder (VAE)-based NMER model to generate robust multimodal joint representations from the noisy data, leveraging the modality invariant feature. The experimental results on the benchmark dataset IEMOCAP indicate the proposed NMER outperforms state-of-the-art MER systems. The ablation results also confirm the effectiveness of the VAE structure. We release our code at \href{https://github.com/WooyoohL/Noise-robust_MER.
翻訳日:2024-01-15 15:24:01 公開日:2023-09-21
# 物理計算を用いた効率的なLDPCデコーディング

Efficient LDPC Decoding using Physical Computation ( http://arxiv.org/abs/2312.02161v1 )

ライセンス: Link先を確認
Uday Kumar Reddy Vengalam, Andrew Hahn, Yongchao Liu, Anshujit Sharma, Hui Wu, and Michael Huang(参考訳) 5Gのデプロイメントのため、LDPCのデコードには大きな関心がある。 多くの研究は、Belief Propagation (BP)に基づくアルゴリズムの効率的なハードウィリングに費やされているが、LDPC復号化は、Isingマシンのような物理計算機構の大幅な加速の恩恵を受ける、組合せ最適化問題として定式化できることが示されている。 このアプローチは、これまでのところパフォーマンスが劣っている。 本稿では,その理由は基本的ではなく,最適ハードウェアと定式化であることを示す。 共同設計のイジングマシンベースのシステムは、速度を3桁改善することができる。 その結果、物理計算手法はハードワイリングのアルゴリズムよりも優れている。 本稿では,このような拡張型イジングマシンについて,文献の最先端技術よりも4.4$\times$のエネルギー効率を示す。

Due to 5G deployment, there is significant interest in LDPC decoding. While much research is devoted on efficient hardwiring of algorithms based on Belief Propagation (BP), it has been shown that LDPC decoding can be formulated as a combinatorial optimization problem, which could benefit from significant acceleration of physical computation mechanisms such as Ising machines. This approach has so far resulted in poor performance. This paper shows that the reason is not fundamental but suboptimal hardware and formulation. A co-designed Ising machine-based system can improve speed by 3 orders of magnitude. As a result, a physical computation approach can outperform hardwiring state-of-the-art algorithms. In this paper, we show such an augmented Ising machine that is 4.4$\times$ more energy efficient than the state of the art in the literature.
翻訳日:2024-01-15 15:11:40 公開日:2023-09-21
# 分布外検出のためのクラス関連学習

Class Relevance Learning For Out-of-distribution Detection ( http://arxiv.org/abs/2401.01021v1 )

ライセンス: Link先を確認
Butian Xiong, Liguang Zhou, Tin Lun Lam, Yangsheng Xu(参考訳) 画像分類は、さまざまなアプリケーションで重要な役割を果たすが、モデルが現実世界のシナリオにデプロイされる場合、課題は持続する。 特に、これらのモデルは、分類器の訓練中に組み込まれていない不慣れなクラスを検出するのに失敗し、安全で効果的な実世界のモデル展開のハードルとなった。 最大ロジットのような既存のテクニックは、OOD識別にロジットを活用することを目指しているが、効果的な検出の基盤となる複雑なクラス間の関係を無視することが多い。 本稿では,OOD検出に適したクラス関連学習手法を提案する。 本手法は,OODパイプライン内のクラス間関係を戦略的に活用し,総合的なクラス関連学習フレームワークを確立する。 このフレームワークはOOD検出機能を著しく強化する。 汎用画像分類データセット(Near OODおよびFar OODデータセット)を含む多種多様なデータセットに対する大規模な実験は、OOD検出の最先端代替手段よりも、我々の手法が優れていることを示す。

Image classification plays a pivotal role across diverse applications, yet challenges persist when models are deployed in real-world scenarios. Notably, these models falter in detecting unfamiliar classes that were not incorporated during classifier training, a formidable hurdle for safe and effective real-world model deployment, commonly known as out-of-distribution (OOD) detection. While existing techniques, like max logits, aim to leverage logits for OOD identification, they often disregard the intricate interclass relationships that underlie effective detection. This paper presents an innovative class relevance learning method tailored for OOD detection. Our method establishes a comprehensive class relevance learning framework, strategically harnessing interclass relationships within the OOD pipeline. This framework significantly augments OOD detection capabilities. Extensive experimentation on diverse datasets, encompassing generic image classification datasets (Near OOD and Far OOD datasets), demonstrates the superiority of our method over state-of-the-art alternatives for OOD detection.
翻訳日:2024-01-15 10:06:41 公開日:2023-09-21
# 資源管理仕様の推論

Inference of Resource Management Specifications ( http://arxiv.org/abs/2306.11953v2 )

ライセンス: Link先を確認
Narges Shadab, Pritam Gharat, Shrey Tiwari, Michael D. Ernst, Martin Kellogg, Shuvendu Lahiri, Akash Lal, Manu Sridharan(参考訳) リソースリークは、プログラムが必要なくなると、一部の有限リソースを解放できない場合に発生する。 このようなリークは、現実世界のクラッシュとパフォーマンスの問題の重要な原因である。 近年の研究では、リソース管理仕様のチェックに基づくリソースリーク防止手法が提案されている。 リソース管理仕様(source management specification)は、プログラムがリソースをどのように割り当て、渡し、解放するかを表現する。 この特定と検証のアプローチは、以前のテクニックと比べていくつかの利点があるが、手動でアノテーションを書く必要性は、その実践的採用にとって大きな障壁となる。 本稿では,プログラムのリソース管理仕様を自動的に推測し,リソースリークの特定・チェック検証の適用範囲を広げる手法を提案する。 なぜなら、リソース管理の仕様は、ほとんどの推論技術がターゲットとするタイプと本質的に大きく異なるからです。 さらに,実効性については,コードがその仕様に完全に準拠していない場合でも,開発者が意図するリソース管理仕様を推論できる技術が望まれる。 実世界のコーディングパターンを捉えるために慎重に設計された一連の推論ルールを用いて,これらの課題に対処する。 我々は、javaとc#で書かれたプログラムをターゲットに、2つの異なるシステムで推論アルゴリズムを実装しました。 実験による評価では、ベンチマークのためにプログラマが手動で書いたアノテーションの85.5%を推定した。 さらに、検証者は手書きのアノテーションや自動推論のアノテーションとほぼ同じ速さで誤報を発した。

A resource leak occurs when a program fails to free some finite resource after it is no longer needed. Such leaks are a significant cause of real-world crashes and performance problems. Recent work proposed an approach to prevent resource leaks based on checking resource management specifications. A resource management specification expresses how the program allocates resources, passes them around, and releases them; it also tracks the ownership relationship between objects and resources, and aliasing relationships between objects. While this specify-and-verify approach has several advantages compared to prior techniques, the need to manually write annotations presents a significant barrier to its practical adoption. This paper presents a novel technique to automatically infer a resource management specification for a program, broadening the applicability of specify-and-check verification for resource leaks. Inference in this domain is challenging because resource management specifications differ significantly in nature from the types that most inference techniques target. Further, for practical effectiveness, we desire a technique that can infer the resource management specification intended by the developer, even in cases when the code does not fully adhere to that specification. We address these challenges through a set of inference rules carefully designed to capture real-world coding patterns, yielding an effective fixed-point-based inference algorithm. We have implemented our inference algorithm in two different systems, targeting programs written in Java and C#. In an experimental evaluation, our technique inferred 85.5% of the annotations that programmers had written manually for the benchmarks. Further, the verifier issued nearly the same rate of false alarms with the manually-written and automatically-inferred annotations.
翻訳日:2023-10-23 19:04:30 公開日:2023-09-21
# パブリックブロックチェーンによるデータの信頼性向上

Enabling Data Confidentiality with Public Blockchains ( http://arxiv.org/abs/2308.03791v4 )

ライセンス: Link先を確認
Edoardo Marangone and Claudio Di Ciccio and Daniele Friolo and Eugenio Nerio Nemmi and Daniele Venturi and Ingo Weber(参考訳) ブロックチェーン技術は、特に参加者間の信頼が制限された場合において、分散した環境で様々なプレイヤー間のマルチパーティ協力の自動化を容易にするのに適しています。 トランザクションは台帳に格納され、そのレプリカはブロックチェーンネットワークのすべてのノードに保持される。 これにより保存された操作は、公開アクセス可能である。 この側面は透明性、信頼性、永続性を高めるが、企業設定の典型的な機密性要件に違反するため、プロセス自動化にパブリックブロックチェーンを使用することを妨げる。 この問題を解決するために,MARTSIA(Multi-Authority Approach to Transaction Systems for Interoperating Applications)というアプローチを提案する。 Multi-Authority Attribute-Based Encryption (MA-ABE)に基づいて、MARTSIAはメッセージ部分のレベルで共有データの読み取りアクセス制御を可能にする。 ユーザ定義ポリシーは、認証者のコンソーシアムによって宣言されたアクタの属性に応じて、アクタが公開された情報を解釈できるかどうかを決定する。 それでもブロックチェーンネットワーク内のすべてのノードは、(暗号化された)データの公開を証明できる。 MARTSIAのセキュリティ保証を形式的に分析し、複数のブロックチェーンプラットフォーム上での概念実証実装について説明する。 相互運用性を示すために、私たちは、マルチパーティプロセス実行のための最先端のブロックチェーンベースのエンジンと、NFT市場、サプライチェーン、小売のコンテキストにおける3つの現実世界の分散アプリケーションをアンサンブルで示す。

Blockchain technology is apt to facilitate the automation of multi-party cooperations among various players in a decentralized setting, especially in cases where trust among participants is limited. Transactions are stored in a ledger, a replica of which is retained by every node of the blockchain network. The operations saved thereby are thus publicly accessible. While this aspect enhances transparency, reliability, and persistence, it hinders the utilization of public blockchains for process automation as it violates typical confidentiality requirements in corporate settings. To overcome this issue, we propose our approach named Multi-Authority Approach to Transaction Systems for Interoperating Applications (MARTSIA). Based on Multi-Authority Attribute-Based Encryption (MA-ABE), MARTSIA enables read-access control over shared data at the level of message parts. User-defined policies determine whether an actor can interpret the publicly stored information or not, depending on the actor's attributes declared by a consortium of certifiers. Still, all nodes in the blockchain network can attest to the publication of the (encrypted) data. We provide a formal analysis of the security guarantees of MARTSIA, and illustrate the proof-of-concept implementation over multiple blockchain platforms. To demonstrate its interoperability, we showcase its usage in ensemble with a state-of-the-art blockchain-based engine for multi-party process execution, and three real-world decentralized applications in the context of NFT markets, supply chain, and retail.
翻訳日:2023-10-23 15:11:48 公開日:2023-09-21
# 量子マイクロサービスの開発と展開

Quantum Microservices Development and Deployment ( http://arxiv.org/abs/2309.11926v1 )

ライセンス: Link先を確認
Enrique Moguel, Jose Garcia-Alonso, Majid Haghparast, Juan M. Murillo(参考訳) 量子コンピューティングの分野における初期の進歩は、数学、物理学、医療といった分野における複雑な問題に取り組む新たな機会となった。 しかし、量子と古典の異なるソフトウェアが協力するシステムを構築するために必要な技術は現在不足している。 そのため、量子サービス指向コンピューティングの大幅な進歩は、開発者が従来のものと同等の量子サービスとマイクロサービスを作成および運用できるようにするために必要である。 したがって,本研究の中心となる目的は,サービス指向コンピューティングから量子ソフトウェア工学の分野へのメリットと教訓の適用を可能にするために必要な技術基盤を確立することである。 そこで我々は,サービスの継続的デプロイのためのパイプラインを提案する。 さらに、OpenAPI仕様の変更、GitHub Actions、AWSを使用することで、提案を検証しました。

Early advances in the field of quantum computing have provided new opportunities to tackle intricate problems in areas as diverse as mathematics, physics, or healthcare. However, the technology required to construct such systems where different pieces of quantum and classical software collaborate is currently lacking. For this reason, significant advancements in quantum service-oriented computing are necessary to enable developers to create and operate quantum services and microservices comparable to their classical counterparts. Therefore, the core objective of this work is to establish the necessary technological infrastructure that enables the application of the benefits and lessons learned from service-oriented computing to the domain of quantum software engineering. To this end, we propose a pipeline for the continuous deployment of services. Additionally, we have validated the proposal by making use of a modification of the OpenAPI specification, the GitHub Actions, and AWS.
翻訳日:2023-10-23 07:10:22 公開日:2023-09-21
# 差分テストによるサーバーサイドWebAssemblyランタイムのパフォーマンス改善

Revealing Performance Issues in Server-side WebAssembly Runtimes via Differential Testing ( http://arxiv.org/abs/2309.12167v1 )

ライセンス: Link先を確認
Shuyao Jiang, Ruiying Zeng, Zihao Rao, Jiazhen Gu, Yangfan Zhou, Michael R. Lyu(参考訳) webassembly(wasm)は、もともとwebアプリケーションのコンパイルターゲットとして機能するバイトコードフォーマットである。 最近では、linuxコンテナよりも安全で、高速で、ポータブルな代替手段を提供するなど、サーバサイドでの利用が増えている。 サーバサイドwasmアプリケーションの人気により、wasmランタイムのパフォーマンス問題(すなわち遅延の異常)を研究することが不可欠であり、サーバサイドアプリケーションに大きな影響を与える可能性がある。 しかし、サーバーサイドwasmランタイムのパフォーマンス問題にはまだ注意が払われていない。 本稿では,サーバサイドのWasmランタイムの性能問題を特定するために,新しい差分テスト手法WarpDiffを設計する。 重要な洞察は、通常の場合、異なるWasmランタイム上で同じテストケースの実行時間は、オラクル比に従うべきであるということです。 我々は、実行時間比がオラクル比から著しくずれた異常なケースを特定し、パフォーマンス問題の原因となるWasmランタイムを特定する。 WarpDiffを使って、LLVMテストスイートから123のテストケースを使用して、一般的な5つのサーバーサイドWasmランタイムをテストする。 さらに,これらの異常症例の詳細な分析を行い,7つのパフォーマンス上の問題を要約した。 私たちの仕事がwasmランタイム実装の改善に関する今後の調査を刺激し、サーバサイドwasmアプリケーションの開発を促進することを願っています。

WebAssembly (Wasm) is a bytecode format originally serving as a compilation target for Web applications. It has recently been used increasingly on the server side, e.g., providing a safer, faster, and more portable alternative to Linux containers. With the popularity of server-side Wasm applications, it is essential to study performance issues (i.e., abnormal latency) in Wasm runtimes, as they may cause a significant impact on server-side applications. However, there is still a lack of attention to performance issues in server-side Wasm runtimes. In this paper, we design a novel differential testing approach WarpDiff to identify performance issues in server-side Wasm runtimes. The key insight is that in normal cases, the execution time of the same test case on different Wasm runtimes should follow an oracle ratio. We identify abnormal cases where the execution time ratio significantly deviates from the oracle ratio and subsequently locate the Wasm runtimes that cause the performance issues. We apply WarpDiff to test five popular server-side Wasm runtimes using 123 test cases from the LLVM test suite and demonstrate the top 10 abnormal cases we identified. We further conduct an in-depth analysis of these abnormal cases and summarize seven performance issues, all of which have been confirmed by the developers. We hope our work can inspire future investigation on improving Wasm runtime implementation and thus promoting the development of server-side Wasm applications.
翻訳日:2023-10-23 06:58:37 公開日:2023-09-21
# 仮想マシンの性能変動の多面的解析

A Multi-faceted Analysis of the Performance Variability of Virtual Machines ( http://arxiv.org/abs/2309.11959v1 )

ライセンス: Link先を確認
Luciano Baresi, Tommaso Dolci, Giovanni Quattrocchi, Nicholas Rasi(参考訳) クラウドコンピューティングと仮想化ソリューションにより、アプリケーションを実行するために必要な仮想マシン(VM)を有料でレンタルすることができるが、レンタルされたVMはパフォーマンスの保証を提供していない。 クラウドプラットフォームはパフォーマンスのばらつきに影響されていることが知られているが、より深い理解が必要である。 本稿では,VMの性能変動について,その方向に移動し,多面的考察を行う。 4つの有名なクラウドプロバイダからの16のvmタイプ、10のベンチマーク、28のさまざまなメトリクスです。 新しい貢献が4つあります。 まず、研究者や実践者が様々なパフォーマンスデータを体系的に収集できる新しいベンチマークスイート(VMBS)を導入する。 次に,変数インジケータ(Variability Indicator)と呼ばれる新しい指標を提案し,VMの性能の変動を測定する。 第3に,4つの異なる次元(リソース,分離,時間,コスト)にわたる収集データの分析について述べる。 第4に、将来の性能予測と時間パターン検出を目的とした機械学習に基づく複数の予測モデルを提案する。 我々の実験は、VMのリソースの多様性に関する重要な洞察を提供し、様々なクラウドプロバイダの違いと類似点を強調します。 私たちの知る限りでは、これはこのトピックで実施された最も広い分析です。

Cloud computing and virtualization solutions allow one to rent the virtual machines (VMs) needed to run applications on a pay-per-use basis, but rented VMs do not offer any guarantee on their performance. Cloud platforms are known to be affected by performance variability, but a better understanding is still required. This paper moves in that direction and presents an in-depth, multi-faceted study on the performance variability of VMs. Unlike previous studies, our assessment covers a wide range of factors: 16 VM types from 4 well-known cloud providers, 10 benchmarks, and 28 different metrics. We present four new contributions. First, we introduce a new benchmark suite (VMBS) that let researchers and practitioners systematically collect a diverse set of performance data. Second, we present a new indicator, called Variability Indicator, that allows for measuring variability in the performance of VMs. Third, we illustrate an analysis of the collected data across four different dimensions: resources, isolation, time, and cost. Fourth, we present multiple predictive models based on Machine Learning that aim to forecast future performance and detect time patterns. Our experiments provide important insights on the resource variability of VMs, highlighting differences and similarities between various cloud providers. To the best of our knowledge, this is the widest analysis ever conducted on the topic.
翻訳日:2023-10-23 06:58:14 公開日:2023-09-21
# CodePlan: LLMを使ったリポジトリレベルのコーディングと計画

CodePlan: Repository-level Coding using LLMs and Planning ( http://arxiv.org/abs/2309.12499v1 )

ライセンス: Link先を確認
Ramakrishna Bairi, Atharv Sonwane, Aditya Kanade, Vageesh D C, Arun Iyer, Suresh Parthasarathy, Sriram Rajamani, B. Ashok, Shashank Shet(参考訳) パッケージマイグレーション、静的解析やテストからのエラーレポートの修正、コードベースへの型アノテーションや他の仕様の追加といったソフトウェアエンジニアリング活動には、コードのリポジトリ全体を広く編集することが含まれる。 これらのアクティビティをリポジトリレベルのコーディングタスクとして定式化する。 大規模言語モデル(LLM)を活用したGitHub Copilotのような最近のツールは、ローカライズされたコーディング問題に対する高品質なソリューションの提供に成功している。 リポジトリ内のコードは相互依存しており、リポジトリ全体が大きすぎてプロンプトに収まらないため、リポジトリレベルのコーディングタスクはより複雑で、LSMを使って直接解決できない。 リポジトリレベルのコーディングを計画問題として構成し、それを解決するためにcodeplanと呼ばれるタスクに依存しないフレームワークを提示します。 CodePlanは複数ステップの編集(計画)の連鎖を合成し、各ステップはリポジトリ全体、以前のコード変更、タスク固有の命令から派生したコンテキストで、コードロケーション上のLCMへの呼び出しを出力する。 codeplanは、インクリメンタルな依存性分析、変更可能な影響分析、適応的計画アルゴリズムの新たな組み合わせに基づいている。 パッケージマイグレーション(C#)と時間コード編集(Python)の2つのリポジトリレベルタスクにおけるCodePlanの有効性を評価する。 各タスクは複数のコードリポジトリ上で評価され、各タスクは複数のファイル(2-97ファイル)に対する相互依存的な変更を必要とする。 このレベルの複雑さのコーディングタスクは、これまでLLMを使用して自動化されていなかった。 以上の結果から,CodePlanはベースラインよりも真実と一致していることがわかった。 codeplanは5/6のレポジトリに妥当性チェック(例えば、エラーなしでビルドし、正しいコード編集を行う)を渡すことができるが、ベースライン(計画がないが、codeplanと同じコンテキスト情報を持つ)は、リポジトリのどれかを渡すことができない。

Software engineering activities such as package migration, fixing errors reports from static analysis or testing, and adding type annotations or other specifications to a codebase, involve pervasively editing the entire repository of code. We formulate these activities as repository-level coding tasks. Recent tools like GitHub Copilot, which are powered by Large Language Models (LLMs), have succeeded in offering high-quality solutions to localized coding problems. Repository-level coding tasks are more involved and cannot be solved directly using LLMs, since code within a repository is inter-dependent and the entire repository may be too large to fit into the prompt. We frame repository-level coding as a planning problem and present a task-agnostic framework, called CodePlan to solve it. CodePlan synthesizes a multi-step chain of edits (plan), where each step results in a call to an LLM on a code location with context derived from the entire repository, previous code changes and task-specific instructions. CodePlan is based on a novel combination of an incremental dependency analysis, a change may-impact analysis and an adaptive planning algorithm. We evaluate the effectiveness of CodePlan on two repository-level tasks: package migration (C#) and temporal code edits (Python). Each task is evaluated on multiple code repositories, each of which requires inter-dependent changes to many files (between 2-97 files). Coding tasks of this level of complexity have not been automated using LLMs before. Our results show that CodePlan has better match with the ground truth compared to baselines. CodePlan is able to get 5/6 repositories to pass the validity checks (e.g., to build without errors and make correct code edits) whereas the baselines (without planning but with the same type of contextual information as CodePlan) cannot get any of the repositories to pass them.
翻訳日:2023-10-23 06:38:41 公開日:2023-09-21
# プロセス改善考古学:何が私たちを導いたのか、次に何が起こるのか?

Process Improvement Archaeology: What Led Us Here, and What's Next? ( http://arxiv.org/abs/2309.12439v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Tony Gorschek(参考訳) 企業文化や歴史は時間とともに変化するが、パフォーマンス問題を特定する意図的な取り組みは、組織の現在の状況を理解しようとする場合、特に興味深い。 過去の改善イニシアチブの結果は、組織の進化に光を当て、完全な後見を生かして、将来のプロセス改善のための学習機会を表現できる。 この前提を試す機会は、スウェーデンの長期鉄道、道路、船舶、航空インフラの計画、実施、維持を担当する政府機関であるスウェーデン運輸局(Swedish Transport Administration)との応用研究のコラボレーションで行われた。 この記事はプロセス改善に関するテーマ問題の一部です。

While in every organization corporate culture and history change over time, intentional efforts to identify performance problems are of particular interest when trying to understand the current state of an organization. The results of past improvement initiatives can shed light on the evolution of an organization and represent, with the advantage of perfect hindsight, a learning opportunity for future process improvements. The opportunity to test this premise occurred in an applied research collaboration with the Swedish Transport Administration, the government agency responsible for the planning, implementation, and maintenance of long-term rail, road, shipping, and aviation infrastructure in Sweden. This article is part of a theme issue on Process Improvement.
翻訳日:2023-10-23 06:37:54 公開日:2023-09-21
# スタートアップにおける技術的負債の探究

Exploration of technical debt in start-ups ( http://arxiv.org/abs/2309.12434v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Panagiota Chatzipetrou, Tony Gorschek, Rafael Prikladnicki, Nirnaya Tripathi, Leandro Bento Pompermaier(参考訳) コンテキスト: ソフトウェアスタートアップは、少ないリソースでソフトウェア集約製品の開発と販売を迅速に行おうとする若い企業です。 市場投入までの時間を早めるため、スタートアップはしばしばアドホックなエンジニアリングプラクティスを選択し、プロダクトエンジニアリングをショートカットし、技術的負債を蓄積する。 目的:本稿では,技術的負債に関連する前例,寸法,成果がスタートアップにどの程度浸透しているかを検討する。 方法: スタートアップにおけるエンジニアリングコンテキストを特徴付ける技術的負債やコンテキスト情報の側面を識別するためにケースサーベイ手法を適用する。 結果: 86のスタートアップ事例からの回答を分析することで、テストを自動化する試みにもかかわらず、スタートアップはテストの領域でほとんどの技術的負債を蓄積することが分かりました。 さらに、スタートアップチームのサイズと経験は、技術的負債を蓄積するための主要な前例であることも分かりました。 結論:本研究では,技術的負債のレベルを監視し,負債をコントロール下におくためのプラクティスを事前に導入する必要性を強調します。 すでにメンテナンスが難しい製品により多くの人を追加することは、リソース不足やコミュニケーションの問題など他の先例を増幅し、優れたエンジニアリングプラクティスの使用に関する決定に悪影響を及ぼす可能性がある。

Context: Software start-ups are young companies aiming to build and market software-intensive products fast with little resources. Aiming to accelerate time-to-market, start-ups often opt for ad-hoc engineering practices, make shortcuts in product engineering, and accumulate technical debt. Objective: In this paper we explore to what extent precedents, dimensions and outcomes associated with technical debt are prevalent in start-ups. Method: We apply a case survey method to identify aspects of technical debt and contextual information characterizing the engineering context in start-ups. Results: By analyzing responses from 86 start-up cases we found that start-ups accumulate most technical debt in the testing dimension, despite attempts to automate testing. Furthermore, we found that start-up team size and experience is a leading precedent for accumulating technical debt: larger teams face more challenges in keeping the debt under control. Conclusions: This study highlights the necessity to monitor levels of technical debt and to preemptively introduce practices to keep the debt under control. Adding more people to an already difficult to maintain product could amplify other precedents, such as resource shortages, communication issues and negatively affect decisions pertaining to the use of good engineering practices.
翻訳日:2023-10-23 06:37:42 公開日:2023-09-21
# データ分析と等価回路モデリングによるLiイオン電池の健康診断と回復

Health diagnosis and recuperation of aged Li-ion batteries with data analytics and equivalent circuit modeling ( http://arxiv.org/abs/2310.03750v1 )

ライセンス: Link先を確認
Riko I Made, Jing Lin, Jintao Zhang, Yu Zhang, Lionel C. H. Moh, Zhaolin Liu, Ning Ding, Sing Yang Chiam, Edwin Khoo, Xuesong Yin, Guangyuan Wesley Zheng(参考訳) 電池の健康評価と回復は第2次liイオン電池の利用において重要な役割を担っている。 しかし, 不明瞭な老化機構と回復効果と運転状態の相関関係の欠如により, 電池の健康状態を正確に推定し, セル再生のための明確な戦略を考案することは困難である。 本稿では,62個の市販高エネルギー型リチウムリン酸リチウム (LFP) セルの老化・再生実験を行い,既存の高出力LFPセルのデータセットを補完する。 比較的大規模なデータによって、機械学習モデルを使用してサイクルライフを予測し、回復可能なキャパシティの重要な指標を特定できます。 セル間不整合を考慮すると、最初の80サイクルから与えられた情報を勾配的に押し上げることで、サイクル寿命予測のための平均テスト誤差が16.84.% \pm 1.87\%$(絶対パーセンテージ誤差)となる。 さらに, 回収可能な損失容量のいくつかは, 電極内部のリチウム非均一性に起因することがわかった。 等価回路モデルを構築し、実験的に検証し、そのような不均一性がどのように蓄積され、回復可能な容量損失をもたらすかを示す。 shapley Additive exPlanations (SHAP) 分析により、バッテリーの動作履歴がキャパシティリカバリに大きく影響していることが明らかになった。

Battery health assessment and recuperation play a crucial role in the utilization of second-life Li-ion batteries. However, due to ambiguous aging mechanisms and lack of correlations between the recovery effects and operational states, it is challenging to accurately estimate battery health and devise a clear strategy for cell rejuvenation. This paper presents aging and reconditioning experiments of 62 commercial high-energy type lithium iron phosphate (LFP) cells, which supplement existing datasets of high-power LFP cells. The relatively large-scale data allow us to use machine learning models to predict cycle life and identify important indicators of recoverable capacity. Considering cell-to-cell inconsistencies, an average test error of $16.84\% \pm 1.87\%$ (mean absolute percentage error) for cycle life prediction is achieved by gradient boosting regressor given information from the first 80 cycles. In addition, it is found that some of the recoverable lost capacity is attributed to the lateral lithium non-uniformity within the electrodes. An equivalent circuit model is built and experimentally validated to demonstrate how such non-uniformity can be accumulated, and how it can give rise to recoverable capacity loss. SHapley Additive exPlanations (SHAP) analysis also reveals that battery operation history significantly affects the capacity recovery.
翻訳日:2023-10-23 04:37:13 公開日:2023-09-21
# 偽データインジェクション攻撃の検出と局所化のための測定値からの物理的因果関係の抽出

Extracting Physical Causality from Measurements to Detect and Localize False Data Injection Attacks ( http://arxiv.org/abs/2310.10666v1 )

ライセンス: Link先を確認
Shengyang Wu, Jingyu Wang, Dongyuan Shi(参考訳) FDIA(False Data Injection Attack)は、現代のサイバー物理電力システムにおいて、ますます関心が高まりつつある。 既存のほとんどのFDIA検出技術は、実測データを高次元の潜伏空間に投影し、正常サンプルと攻撃サンプルを分離する。 これらのアプローチは、データ値の統計的相関に重点を置いており、システム動作点の変化やFDIAのタイプや強度の変化、特にFDIAのローカライゼーションタスクによって引き起こされるデータ分布のドリフトに影響を受けやすい。 一方因果推論は、異なる測定値の座標変動の背後にある因果性を抽出する。 因果パターンは、オームの法則やキルヒホフの法則のような基本的な物理法則によって決定される。 それらはfdiaによって引き起こされる物理法則の違反に敏感であるが、システム運用ポイントの移動と共に安定し続ける傾向がある。 この利点を生かして、因果推論に基づくFDIA検出とローカライズのための共同フレームワークと、攻撃されたシステムノードを特定するためのグラフ注意ネットワーク(GAT)を提案する。 提案するフレームワークは2つのレベルから構成される。 低レベルはXラーナーアルゴリズムを用いて測定間の因果強度を推定し、測定因果グラフ(MCG)を生成する。 上層階は、MCGの異常パターンを特定するためにGATを適用する。 抽出した因果関係パターンは測定値と本質的に関連しているため,既存のFDIAローカライゼーションアプローチよりも,攻撃ノードの同定が上層部では容易である。 提案フレームワークの性能はieee 39-busシステムで評価されている。 実験の結果,因果性に基づくFDIA検出と位置決め機構は高い解釈性および堅牢性を示した。

False Data Injection Attack (FDIA) has become a growing concern in modern cyber-physical power systems. Most existing FDIA detection techniques project the raw measurement data into a high-dimensional latent space to separate normal and attacked samples. These approaches focus more on the statistical correlations of data values and are therefore susceptible to data distribution drifts induced by changes in system operating points or changes in FDIA types and strengths, especially for FDIA localization tasks. Causal inference, on the other hand, extracts the causality behind the coordinated fluctuations of different measurements. The causality patterns are determined by fundamental physical laws such as Ohm's Law and Kirchhoff's Law. They are sensitive to the violation of physical laws caused by FDIA, but tend to remain stable with the drift of system operating points. Leveraging this advantage, this paper proposes a joint FDIA detection and localization framework based on causal inference and the Graph Attention Network (GAT) to identify the attacked system nodes. The proposed framework consists of two levels. The lower level uses the X-learner algorithm to estimate the causality strength between measurements and generate Measurement Causality Graphs (MCGs). The upper level then applies a GAT to identify the anomaly patterns in the MCGs. Since the extracted causality patterns are intrinsically related to the measurements, it is easier for the upper level to figure out the attacked nodes than the existing FDIA localization approaches. The performance of the proposed framework is evaluated on the IEEE 39-bus system. Experimental results show that the causality-based FDIA detection and localization mechanism is highly interpretable and robust.
翻訳日:2023-10-23 02:18:50 公開日:2023-09-21
# SCVCNet: クロスタスクと個人間脳波に基づく認知負荷認識のためのクロスベクトル畳み込みネットワーク

SCVCNet: Sliding cross-vector convolution network for cross-task and inter-individual-set EEG-based cognitive workload recognition ( http://arxiv.org/abs/2310.03749v1 )

ライセンス: Link先を確認
Qi Wang, Li Chen, Zhiyuan Zhan, Jianhua Zhang, Zhong Yin(参考訳) 本稿では,人間-機械のタスクや個々のセットにまたがる共通脳波(eeg)パターンを活用し,認知作業負荷認識器を適用するための汎用的手法を提案する。 パワースペクトル密度の微細な周波数構造を解析することにより,脳波のタスクおよび個別セット関連干渉を除去するSCVCNetを提案する。 SCVCNetはスライディング・クロスベクター・コンボリューション(SCVC)演算を使用し、セタとアルファパワーを表すペア入力層が使用される。 カーネル行列の中央行と列から重みを抽出し、指定された頭皮位置の周りの2つのベクトルの重み付き和を計算する。 次に,scvc特徴マップを融合する周波数間特徴統合モジュールを提案する。 最後に、2つのモジュールを出力チャネルプーリングと分類層と組み合わせてモデルを構築した。 SCVCNetの学習には、尾根回帰と極学習機械理論を用いた正規化最小二乗法を用いる。 3つのデータベースを用いて、それぞれが独立した参加者グループによって実行される個別のタスクからなる性能を検証する。 平均精度 (0.6813 と 0.6229) と F1 スコア (0.6743 と 0.6076) は2つの異なる検証パラダイムで達成された。 すべての機能とアルゴリズムは、Webサイト(https://github.com/7ohnKeats/SCVCNet)で入手できる。

This paper presents a generic approach for applying the cognitive workload recognizer by exploiting common electroencephalogram (EEG) patterns across different human-machine tasks and individual sets. We propose a neural network called SCVCNet, which eliminates task- and individual-set-related interferences in EEGs by analyzing finer-grained frequency structures in the power spectral densities. The SCVCNet utilizes a sliding cross-vector convolution (SCVC) operation, where paired input layers representing the theta and alpha power are employed. By extracting the weights from a kernel matrix's central row and column, we compute the weighted sum of the two vectors around a specified scalp location. Next, we introduce an inter-frequency-point feature integration module to fuse the SCVC feature maps. Finally, we combined the two modules with the output-channel pooling and classification layers to construct the model. To train the SCVCNet, we employ the regularized least-square method with ridge regression and the extreme learning machine theory. We validate its performance using three databases, each consisting of distinct tasks performed by independent participant groups. The average accuracy (0.6813 and 0.6229) and F1 score (0.6743 and 0.6076) achieved in two different validation paradigms show partially higher performance than the previous works. All features and algorithms are available on website:https://github.com/7ohnKeats/SCVCNet.
翻訳日:2023-10-15 14:58:12 公開日:2023-09-21
# 脳波表現のための知識駆動クロスビューコントラスト学習

A Knowledge-Driven Cross-view Contrastive Learning for EEG Representation ( http://arxiv.org/abs/2310.03747v1 )

ライセンス: Link先を確認
Weining Weng, Yang Gu, Qihui Zhang, Yingying Huang, Chunyan Miao, and Yiqiang Chen(参考訳) 脳波(EEG)信号の豊富な神経生理学的情報により、深層学習と統合された脳波信号は多くの現実世界のタスクにおいて大きな牽引力を得ている。 しかし,脳波信号に基づく教師付き学習手法の開発は,大規模脳波データセットを手動でラベル付けするコストとラベルの相違によって妨げられている。 自己組織化フレームワークは、この問題を解決するために視覚と言語分野に採用されているが、EEG固有の理論基盤の欠如は、様々なタスクで適用性を損なう。 これらの課題を解決するために,脳波から有効な表現を限定ラベルで抽出するために神経学理論を統合する知識駆動型クロスビューコントラスト学習フレームワーク(KDC2)を提案する。 KDC2法は脳波信号の頭皮と神経のビューを生成し、脳活動の内部および外部の表現をシミュレートする。 次に、様々な拡張手法と組み合わせて、ビュー間およびクロスビューのコントラスト学習パイプラインを適用し、異なるビューからニューラル特徴をキャプチャする。 相同的神経情報一貫性理論に基づく先行的神経知識のモデル化により,提案手法は不変および相補的神経知識を抽出し,複合表現を生成する。 ダウンストリームタスクの異なる実験結果から,本手法は最先端の手法よりも優れており,様々な脳タスクにおける神経知識に基づく脳波表現の優れた一般化が示された。

Due to the abundant neurophysiological information in the electroencephalogram (EEG) signal, EEG signals integrated with deep learning methods have gained substantial traction across numerous real-world tasks. However, the development of supervised learning methods based on EEG signals has been hindered by the high cost and significant label discrepancies to manually label large-scale EEG datasets. Self-supervised frameworks are adopted in vision and language fields to solve this issue, but the lack of EEG-specific theoretical foundations hampers their applicability across various tasks. To solve these challenges, this paper proposes a knowledge-driven cross-view contrastive learning framework (KDC2), which integrates neurological theory to extract effective representations from EEG with limited labels. The KDC2 method creates scalp and neural views of EEG signals, simulating the internal and external representation of brain activity. Sequentially, inter-view and cross-view contrastive learning pipelines in combination with various augmentation methods are applied to capture neural features from different views. By modeling prior neural knowledge based on homologous neural information consistency theory, the proposed method extracts invariant and complementary neural knowledge to generate combined representations. Experimental results on different downstream tasks demonstrate that our method outperforms state-of-the-art methods, highlighting the superior generalization of neural knowledge-supported EEG representations across various brain tasks.
翻訳日:2023-10-15 14:57:48 公開日:2023-09-21
# ChatGPTのジェンダーバイアスはどの程度有効か? --ドイツ語と英語のChatGPT応答の探索

How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses ( http://arxiv.org/abs/2310.03031v1 )

ライセンス: Link先を確認
Stefanie Urchs and Veronika Thurner and Matthias A{\ss}enmacher and Christian Heumann and Stephanie Thiemichen(参考訳) ChatGPTの導入により、OpenAIは、限られたIT専門知識を持つユーザに対して、大きな言語モデル(LLM)をアクセスできるようにした。 しかし、自然言語処理(NLP)のバックグラウンドを持たないユーザは、LLMを適切に理解していないかもしれない。 したがって、それら固有の制限を認識し、従ってシステムの出力を顔の値で取る。 本稿では,システムの出力処理時にユーザが意識する必要がある性別バイアスに着目し,問題のある問題を特定するために,プロンプトと生成した応答を体系的に分析する。 英語とドイツ語のChatGPTの反応について,女性,男性,中立の観点からの回答を求める。 詳細な調査では,選択されたプロンプトを検証し,同じ方法で数回トリガーした場合の応答の程度を解析する。 この結果から,ChatGPTは非ITユーザが日々の作業のためにテキストをドラフトするのに役立つことがわかった。 しかし、システムの応答のバイアスと構文的および文法的誤りを徹底的にチェックすることは、絶対的に重要である。

With the introduction of ChatGPT, OpenAI made large language models (LLM) accessible to users with limited IT expertise. However, users with no background in natural language processing (NLP) might lack a proper understanding of LLMs. Thus the awareness of their inherent limitations, and therefore will take the systems' output at face value. In this paper, we systematically analyse prompts and the generated responses to identify possible problematic issues with a special focus on gender biases, which users need to be aware of when processing the system's output. We explore how ChatGPT reacts in English and German if prompted to answer from a female, male, or neutral perspective. In an in-depth investigation, we examine selected prompts and analyse to what extent responses differ if the system is prompted several times in an identical way. On this basis, we show that ChatGPT is indeed useful for helping non-IT users draft texts for their daily work. However, it is absolutely crucial to thoroughly check the system's responses for biases as well as for syntactic and grammatical mistakes.
翻訳日:2023-10-08 10:59:24 公開日:2023-09-21
# ペプチドからナノ構造へ:高速で安定な機械学習力場のためのユークリッド変換器

From Peptides to Nanostructures: A Euclidean Transformer for Fast and Stable Machine Learned Force Fields ( http://arxiv.org/abs/2309.15126v1 )

ライセンス: Link先を確認
J. Thorben Frank, Oliver T. Unke, Klaus-Robert M\"uller, Stefan Chmiela(参考訳) 近年,機械学習力場 (mlffs) の開発は,ab-initio reference calculations に基づく大きな進歩を遂げている。 低い試験誤差を達成したにもかかわらず、分子動力学(md)シミュレーションにおけるmlffsの適合性は不安定性に関する懸念からますます精査されている。 この結果から,MDシミュレーションの安定性とMLFFにおける同変表現の存在との間には潜在的な関連性があることが示唆された。 そこで本稿では,sparse equivariant representations (euclidean variable) と,invariant と equivariant 情報を分離し,高価なテンソル積の必要性をなくすセルフアテンション機構を組み合わせた so3krates と呼ばれるトランスフォーマーアーキテクチャを提案する。 so3kratesは精度、安定性、速度というユニークな組み合わせを実現し、前例のない時間とシステムサイズのスケールで物質の量子特性を洞察的に分析することができる。 この能力を示すために、柔軟なペプチドや数百個の原子を持つ超分子構造のための安定なMD軌道を生成する。 さらに, 中型鎖状分子(例えば小ペプチド)のpesトポロジーを数千のミニマを探索することにより検討した。 注目すべきは、SO3kratesは、相反する安定性の要求と、生物化学の分野における現実的な探索タスクにとって重要な、トレーニングデータを超えた新しい最小エネルギーコンフォメーションの出現の間にバランスをとる能力を示すことである。

Recent years have seen vast progress in the development of machine learned force fields (MLFFs) based on ab-initio reference calculations. Despite achieving low test errors, the suitability of MLFFs in molecular dynamics (MD) simulations is being increasingly scrutinized due to concerns about instability. Our findings suggest a potential connection between MD simulation stability and the presence of equivariant representations in MLFFs, but their computational cost can limit practical advantages they would otherwise bring. To address this, we propose a transformer architecture called SO3krates that combines sparse equivariant representations (Euclidean variables) with a self-attention mechanism that can separate invariant and equivariant information, eliminating the need for expensive tensor products. SO3krates achieves a unique combination of accuracy, stability, and speed that enables insightful analysis of quantum properties of matter on unprecedented time and system size scales. To showcase this capability, we generate stable MD trajectories for flexible peptides and supra-molecular structures with hundreds of atoms. Furthermore, we investigate the PES topology for medium-sized chainlike molecules (e.g., small peptides) by exploring thousands of minima. Remarkably, SO3krates demonstrates the ability to strike a balance between the conflicting demands of stability and the emergence of new minimum-energy conformations beyond the training data, which is crucial for realistic exploration tasks in the field of biochemistry.
翻訳日:2023-10-01 12:04:42 公開日:2023-09-21
# MATLABにおける量子光学

Quantum optics in MATLAB ( http://arxiv.org/abs/2309.14354v1 )

ライセンス: Link先を確認
Nilakantha Meher(参考訳) 我々は、理論量子光学の研究キャリアを始める学生を支援するためのMATLAB数値ガイドを初心者レベルで提供します。 これらの資源は、量子光学の分野における学期プロジェクトに取り組む大学生や大学院生にも有用である。

We provide a MATLAB numerical guide at the beginner level to support students starting their research career in theoretical quantum optics. These resources are also valuable for undergraduate and graduate students working on semester projects in the field of quantum optics.
翻訳日:2023-10-01 12:04:15 公開日:2023-09-21
# ディープ・アンフォールド分散admmによる通信分散最適化

Limited Communications Distributed Optimization via Deep Unfolded Distributed ADMM ( http://arxiv.org/abs/2309.14353v1 )

ライセンス: Link先を確認
Yoav Noah, Nir Shlezinger(参考訳) 分散最適化は分散マルチエージェントシステムにおける協調推論と意思決定の基本的なフレームワークである。 この操作は、通常各エージェントが局所的に収集した観測に依存する共有目的の共同最小化としてモデル化される。 D-ADMMのような分散最適化アルゴリズムは、局所的な計算とメッセージ交換を反復的に組み合わせることで、この課題に対処する。 分散最適化に関連する主な課題の1つとして、特にD-ADMMでは、エージェント間でやりとりされるメッセージがコンセンサスに達するのに大量の通信が必要である。 これにより、D-ADMMの電力、レイテンシ、チャネルリソースのコストがかかります。 本研究では,D-ADMMが各エージェントによって事前に定義された少数のメッセージで確実に動作できるようにするための,新たな深層展開手法に基づく展開D-ADMMを提案する。 展開されたD-ADMMは、D-ADMMの動作を完全に保存し、データを利用してアルゴリズムの各イテレーションのハイパーパラメータをチューニングする。 これらのハイパーパラメータはエージェント固有で、特定のネットワーク上の一定数のイテレーションで最高のパフォーマンスを達成するか、エージェント間で共有することで、異なるネットワーク上で分散最適化を学ぶことができる。 いずれの設定においても,D-ADMMアルゴリズムの解釈可能性と柔軟性を保ちながら,限られた通信で動作します。 分散推定タスク,スパースリカバリ設定を考慮した分散学習シナリオ,複数のエージェントが機械学習モデルの学習に協力する分散学習シナリオの2つの代表的な設定に対して,展開されたd-admmを特殊化する。 提案手法は,D-ADMMの通信性能を損なうことなく,D-ADMMの通信回数を大幅に削減することを示す。

Distributed optimization is a fundamental framework for collaborative inference and decision making in decentralized multi-agent systems. The operation is modeled as the joint minimization of a shared objective which typically depends on observations gathered locally by each agent. Distributed optimization algorithms, such as the common D-ADMM, tackle this task by iteratively combining local computations and message exchanges. One of the main challenges associated with distributed optimization, and particularly with D-ADMM, is that it requires a large number of communications, i.e., messages exchanged between the agents, to reach consensus. This can make D-ADMM costly in power, latency, and channel resources. In this work we propose unfolded D-ADMM, which follows the emerging deep unfolding methodology to enable D-ADMM to operate reliably with a predefined and small number of messages exchanged by each agent. Unfolded D-ADMM fully preserves the operation of D-ADMM, while leveraging data to tune the hyperparameters of each iteration of the algorithm. These hyperparameters can either be agent-specific, aiming at achieving the best performance within a fixed number of iterations over a given network, or shared among the agents, allowing to learn to distributedly optimize over different networks. For both settings, our unfolded D-ADMM operates with limited communications, while preserving the interpretability and flexibility of the original D-ADMM algorithm. We specialize unfolded D-ADMM for two representative settings: a distributed estimation task, considering a sparse recovery setup, and a distributed learning scenario, where multiple agents collaborate in learning a machine learning model. Our numerical results demonstrate that the proposed approach dramatically reduces the number of communications utilized by D-ADMM, without compromising on its performance.
翻訳日:2023-10-01 12:04:11 公開日:2023-09-21
# クロスモダリティニューロイメージ合成:調査

Cross-Modality Neuroimage Synthesis: A Survey ( http://arxiv.org/abs/2202.06997v7 )

ライセンス: Link先を確認
Guoyang Xie, Yawen Huang, Jinbao Wang, Jiayi Lyu, Feng Zheng, Yefeng Zheng, Yaochu Jin(参考訳) マルチモダリティイメージングは、疾患の診断を改善し、解剖学的特性を持つ組織の異なる偏差を明らかにする。 完全な整列とペアの多モードニューロイメージングデータの存在は、脳研究においてその効果を証明している。 しかし、完全な整列データとペアデータの収集は、コスト、長期取得時間、画像の破損、プライバシー問題など、多くの困難に直面しているため、コストや実用的ではない。 もう一つの解決策は、教師なしまたは弱教師付き学習手法を探索し、欠落した神経画像データを合成することである。 本稿では,弱教師付きおよび教師なしの設定,損失関数,評価指標,画像モダリティ,データセット,および合成に基づく下流アプリケーションの観点から,ニューロイメージのクロスモダリティ合成の包括的レビューを行う。 まず,交叉モダリティニューロイメージ合成におけるいくつかの課題を強調する。 次に,異なる監督下でのクロスモダリティ合成手法の代表的アーキテクチャについて論じる。 続いてステップワイズによる神経画像合成が下流タスクのパフォーマンスをどのように改善するかを詳細に分析する。 最後に,既存の研究成果を要約し,今後の研究方向性を指摘する。 すべてのリソースはhttps://github.com/M-3LAB/awesome-multimodal-brain-image-systhesisで利用可能である。

Multi-modality imaging improves disease diagnosis and reveals distinct deviations in tissues with anatomical properties. The existence of completely aligned and paired multi-modality neuroimaging data has proved its effectiveness in brain research. However, collecting fully aligned and paired data is expensive or even impractical, since it faces many difficulties, including high cost, long acquisition time, image corruption, and privacy issues. An alternative solution is to explore unsupervised or weakly supervised learning methods to synthesize the absent neuroimaging data. In this paper, we provide a comprehensive review of cross-modality synthesis for neuroimages, from the perspectives of weakly supervised and unsupervised settings, loss functions, evaluation metrics, imaging modalities, datasets, and downstream applications based on synthesis. We begin by highlighting several opening challenges for cross-modality neuroimage synthesis. Then, we discuss representative architectures of cross-modality synthesis methods under different supervisions. This is followed by a stepwise in-depth analysis to evaluate how cross-modality neuroimage synthesis improves the performance of its downstream tasks. Finally, we summarize the existing research findings and point out future research directions. All resources are available at https://github.com/M-3LAB/awesome-multimodal-brain-image-systhesis
翻訳日:2023-09-27 05:13:20 公開日:2023-09-21
# SATは排他的検索を必要とする

SAT Requires Exhaustive Search ( http://arxiv.org/abs/2302.09512v8 )

ライセンス: Link先を確認
Ke Xu, Guangyan Zhou(参考訳) 本稿では, CSP (大域領域) と SAT (長節) の非常に難しい例を構築することにより, P $\neq$ NP よりも強い徹底的な探索がなければ,そのような例は解決できないことを証明した。 計算複雑性理論で現在使われているものとは全く異なる(そして欠落している)が、クルト・G・"{o}del が彼の有名な論理的不合理結果を証明する際に用いたものと似ている。 g\"{o}delの数学における形式的証明不可能性を証明するという結果が示すように、この論文の結果は計算の困難さを証明することは数学では難しくないことを示している。 具体的には, 3SAT のような多くの問題に対する下位境界の証明は, 徹底的な探索を避けるために, 様々な効果的な方法が考えられるため困難である。 しかし、非常に難しい例の場合、徹底的な検索が唯一の選択肢となり、その必要性を証明するのがより簡単になる。 これにより、SAT(長い節を持つ)と3-SATの分離は、3-SATと2-SATの分離よりもずっと簡単になる。 最後に,本論文の主な結果は,g\"{o}delの結果が示す構文と意味論の根本的な違いがcspとsatにも存在していることを示す。

In this paper, by constructing extremely hard examples of CSP (with large domains) and SAT (with long clauses), we prove that such examples cannot be solved without exhaustive search, which is stronger than P $\neq$ NP. This constructive approach for proving impossibility results is very different (and missing) from those currently used in computational complexity theory, but is similar to that used by Kurt G\"{o}del in proving his famous logical impossibility results. Just as shown by G\"{o}del's results that proving formal unprovability is feasible in mathematics, the results of this paper show that proving computational hardness is not hard in mathematics. Specifically, proving lower bounds for many problems, such as 3-SAT, can be challenging because these problems have various effective strategies available for avoiding exhaustive search. However, in cases of extremely hard examples, exhaustive search may be the only viable option, and proving its necessity becomes more straightforward. Consequently, it makes the separation between SAT (with long clauses) and 3-SAT much easier than that between 3-SAT and 2-SAT. Finally, the main results of this paper demonstrate that the fundamental difference between the syntax and the semantics revealed by G\"{o}del's results also exists in CSP and SAT.
翻訳日:2023-09-27 03:52:10 公開日:2023-09-21
# オンラインビデオによる犬声の語彙分析に向けて

Towards Lexical Analysis of Dog Vocalizations via Online Videos ( http://arxiv.org/abs/2309.13086v1 )

ライセンス: Link先を確認
Yufei Wang, Chunhao Zhang, Jieyi Huang, Mengyue Wu, Kenny Zhu(参考訳) 動物言語のセマンティクスを解読することは大きな課題だった。 本研究では,犬声発声のセマンティクスについて,一貫したセマンティクスと異なる音型を関連付けてデータ駆動による検討を行う。 そこで我々はまず,よく構築されたパイプラインでYouTubeから収集した,芝犬音の新しいデータセットと,位置や活動などのコンテキスト情報を紹介する。 この枠組みは他の動物種にも適用できる。 犬の発声とそれに対応する位置と活動の条件付き確率の分析から,犬音の意味に関する過去のヒューリスティックな研究の裏付けとなる証拠を発見した。 例えば、グロールは相互作用を表わすことができる。 さらに,本研究では,既存の単語型を細粒度サブタイプに分割し,シバイヌの最小意味単位が単語関連であることを示す。 例えば、気まぐれは注意力と不快感の2つのタイプに分けられる。

Deciphering the semantics of animal language has been a grand challenge. This study presents a data-driven investigation into the semantics of dog vocalizations via correlating different sound types with consistent semantics. We first present a new dataset of Shiba Inu sounds, along with contextual information such as location and activity, collected from YouTube with a well-constructed pipeline. The framework is also applicable to other animal species. Based on the analysis of conditioned probability between dog vocalizations and corresponding location and activity, we discover supporting evidence for previous heuristic research on the semantic meaning of various dog sounds. For instance, growls can signify interactions. Furthermore, our study yields new insights that existing word types can be subdivided into finer-grained subtypes and minimal semantic unit for Shiba Inu is word-related. For example, whimper can be subdivided into two types, attention-seeking and discomfort.
翻訳日:2023-09-26 22:25:13 公開日:2023-09-21
# 私の犬は私を好きですか。 ペット犬と飼い主の音響的関係

Does My Dog ''Speak'' Like Me? The Acoustic Correlation between Pet Dogs and Their Human Owners ( http://arxiv.org/abs/2309.13085v1 )

ライセンス: Link先を確認
Jieyi Huang, Chunhao Zhang, Yufei Wang, Mengyue Wu, Kenny Zhu(参考訳) ホスト言語がペットの発声にどのように影響するかは、興味深いが未熟な問題である。 本稿では,飼い犬の発声表現とホストの言語環境との相関性について予備的な検討を行う。 まず,youtubeの柴犬犬犬ボーカルのデータセットを提示し,これらのボーカルのコンテキスト情報や飼い主の音声クリップを含む7500のクリーンな音声クリップを,注意深く設計されたデータ処理パイプラインで提供する。 文脈情報は、声が録音されたシーンカテゴリ、犬の位置と活動を含む。 分類課題と顕著な因子分析により,2言語環境における声道の音響的差異が顕著であることがわかった。 さらに,犬声の音響的特徴を,ホスト言語パターンと相関する可能性が示唆された。

How hosts language influence their pets' vocalization is an interesting yet underexplored problem. This paper presents a preliminary investigation into the possible correlation between domestic dog vocal expressions and their human host's language environment. We first present a new dataset of Shiba Inu dog vocals from YouTube, which provides 7500 clean sound clips, including their contextual information of these vocals and their owner's speech clips with a carefully-designed data processing pipeline. The contextual information includes the scene category in which the vocal was recorded, the dog's location and activity. With a classification task and prominent factor analysis, we discover significant acoustic differences in the dog vocals from the two language environments. We further identify some acoustic features from dog vocalizations that are potentially correlated to their host language patterns.
翻訳日:2023-09-26 22:24:57 公開日:2023-09-21
# デジタル・ジェネレーション・ケーススタディへの移行(日本のデジタル・ポイント研究:1993-2023)

Transitioning To The Digital Generation Case Studies (Previous Digital Point Studies In Japan Cases:1993-2023) ( http://arxiv.org/abs/2309.13081v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 本稿では,2023年10月26日から29日にかけてヴェネツィアで開催された第8回ビッグデータ計算社会科学応用国際ワークショップで論じる。 2019年12月に文部科学省初等中等教育局の初等中等教育計画部が提唱した「グローバル・イノベーション・ゲートウェイ・フォー・オール」(giga)イニシアチブ(2019年)の実現に向けて、情報通信技術(ict)を教育分野に活用する動きが浮上している。 日本におけるict教育の歴史は、ネットワークアクセス環境の提供を目的とした100学校プロジェクト(1994年)と、日本における本格的なict教育の始まりを告げる新しい100学校プロジェクト(1997年)にさかのぼる。 本稿では、若者(2020年1月から9月までのデータ分析)におけるスマートフォンベースの学習アプリケーションの利用状況とその現状について論じる。 さらに,結果を要約し,今後の研究課題と課題について論じる。 その結果、ICT学習環境を効果的に活用できる状況や、その研究にICTを利用しているデジタル学生とアナログ学生の違いにより、それらが不可能な状況が示され、現在、デジタルネイティブの世代への移行が進んでいることが示唆された。 ICT教育には長所と短所の両方があり,今後のICT教育の特徴を評価しつつ,従来の教育手法と組み合わせて活用されることが期待される。 もちろん、多くの課題があります。 私たちはこの点でどのようにアピールするかをワークショップで議論する予定です。

In this paper, we discuss at The 8th International Workshop on Application of Big Data for Computational Social Science, October 26-29, 2023, Venice, Italy. To achieve the realization of the Global and Innovation Gateway for All (GIGA) initiative (2019), proposed in December 2019 by the Primary and Secondary Education Planning Division of the Elementary and Secondary Education Bureau of the Ministry of Education, Culture, Sports, Science and Technology, a movement has emerged to utilize information and communication technology (ICT) in the field of education. The history of ICT education in Japan dates back to the 100 Schools Project (1994), which aimed to provide network access environments, and the New 100 Schools Project (1997), which marked the beginning of full-scale ICT education in Japan. In this paper, we discuss the usage dynamics of smartphone-based learning applications among young people (analyzing data from January to September 2020) and their current status. Further, the results are summarized and future research topics and issues are discussed. The results show that there are situations in which ICT learning environments can be effectively utilized and others in which they cannot, depending on the differences between digital students and analog students who utilize ICT in their studies; this indicates that we are currently in a transition to a generation of digital natives. ICT education has both advantages and disadvantages, and it is expected that it will be used in combination with conventional educational methods while assessing the characteristics of ICT education in the future. Of course, there are many challenges. We plan to discuss how to appeal in this regard at the Workshop.
翻訳日:2023-09-26 22:24:45 公開日:2023-09-21
# SPICED:複数のトピックと複雑度を持つニュース類似度検出データセット

SPICED: News Similarity Detection Dataset with Multiple Topics and Complexity Levels ( http://arxiv.org/abs/2309.13080v1 )

ライセンス: Link先を確認
Elena Shushkevich, Long Mai, Manuel V. Loureiro, Steven Derby, Tri Kurniawan Wijaya(参考訳) 近年,ニュース記事の冗長な情報を検出するインテリジェントシステムの利用が,ユーザエクスペリエンスを高めるため,ニュースメディアの普及に大きく寄与している。 一対のニュースが政治に関するものであるかどうかのような単純なヒューリスティックは、強いが欺きやすい下流のパフォーマンスを提供する。 ニュース類似性データセットをトピックに分割することで、より狭いドメイン下でのサルエント特性の識別方法を学ぶことによって、これらのモデルのトレーニングが向上する。 しかし、これは現在欠落しているトピック固有のデータセットの存在を必要とする。 本稿では,犯罪と法,文化と娯楽,災害と事故,経済とビジネス,政治と紛争,科学技術,スポーツという7つのトピックを含む,類似のニュースの新しいデータセットであるspicedを提案する。 さらに,ニュース類似度検出タスクに特化して設計されたデータセットの作成に使用される,ニュースペア生成のための4つのアプローチを提案する。 MinHash、BERT、SBERT、SimCSEモデルを使って生成されたデータセットをベンチマークしました。

Nowadays, the use of intelligent systems to detect redundant information in news articles has become especially prevalent with the proliferation of news media outlets in order to enhance user experience. However, the heterogeneous nature of news can lead to spurious findings in these systems: Simple heuristics such as whether a pair of news are both about politics can provide strong but deceptive downstream performance. Segmenting news similarity datasets into topics improves the training of these models by forcing them to learn how to distinguish salient characteristics under more narrow domains. However, this requires the existence of topic-specific datasets, which are currently lacking. In this article, we propose a new dataset of similar news, SPICED, which includes seven topics: Crime & Law, Culture & Entertainment, Disasters & Accidents, Economy & Business, Politics & Conflicts, Science & Technology, and Sports. Futhermore, we present four distinct approaches for generating news pairs, which are used in the creation of datasets specifically designed for news similarity detection task. We benchmarked the created datasets using MinHash, BERT, SBERT, and SimCSE models.
翻訳日:2023-09-26 22:24:16 公開日:2023-09-21
# MiChao-HuaFen 1.0:ドメイン固有の大規模モデルのための特別訓練済みコーパスデータセット

MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models ( http://arxiv.org/abs/2309.13079v1 )

ライセンス: Link先を確認
Yidong Liu, Conghui He, Conghui He, Wei Li, FuKai Shang, Jun Wang, Yao Li, Rui Xu(参考訳) ディープラーニング技術の進歩により、gpt-4のような汎用大規模モデルは様々な領域で例外的な能力を発揮した。 それでも、医療、法律、金融といった分野では、高品質でドメイン固有のアウトプットが要求されている。 本稿では,まず,既存の大規模モデルを専門領域で評価し,その限界について考察する。 特定のドメインの特定のニーズに対応するために,プリトレーニングされたコーパスデータセットである ‘michao-huafen 1.0' を導入する。 2022年に公開されたインターネットデータから引用されたデータセットは、一貫性と安定した更新のための規定とともに、高品質で信頼性の高い起源を保証するために、複数のクリーンシングと処理を行った。 このデータセットは、中国の垂直領域の大規模モデルの事前学習をサポートするだけでなく、関連する分野におけるディープラーニングの研究や応用を促進する助けとなる。

With the advancement of deep learning technologies, general-purpose large models such as GPT-4 have demonstrated exceptional capabilities across various domains. Nevertheless, there remains a demand for high-quality, domain-specific outputs in areas like healthcare, law, and finance. This paper first evaluates the existing large models for specialized domains and discusses their limitations. To cater to the specific needs of certain domains, we introduce the ``MiChao-HuaFen 1.0'' pre-trained corpus dataset, tailored for the news and governmental sectors. The dataset, sourced from publicly available internet data from 2022, underwent multiple rounds of cleansing and processing to ensure high quality and reliable origins, with provisions for consistent and stable updates. This dataset not only supports the pre-training of large models for Chinese vertical domains but also aids in propelling deep learning research and applications in related fields.
翻訳日:2023-09-26 22:23:56 公開日:2023-09-21
# LPML:数学的推論のためのLLMプロンプトマークアップ言語

LPML: LLM-Prompting Markup Language for Mathematical Reasoning ( http://arxiv.org/abs/2309.13078v1 )

ライセンス: Link先を確認
Ryutaro Yamauchi, Sho Sonoda, Akiyoshi Sannai, Wataru Kumagai(参考訳) 数学的推論に大規模言語モデル(LLM)を利用する場合、LLMが生成したテキストにある推論と計算の誤りに対処することが非常に難しい。 本稿では,CoT(Chain-of-Thought)メソッドを外部ツール(Python REPL)と統合する新しいフレームワークを提案する。 我々は、LLMにXMLのようなマークアップ言語で構造化テキストを生成するよう促すことで、CoTと外部ツールをシームレスに統合し、LLMの望ましくない動作を制御することができることがわかった。 我々のアプローチでは、LLMはPython計算を利用してCoT内のエラーを修正できる。 本手法をChatGPT (GPT-3.5) に適用し, マークアップ言語によるCoTとPython REPLの組み合わせは, LLMの推論能力を向上することを示した。 提案手法では,ゼロショットプロンプトのみを用いてマークアップ言語を記述し,高度な数学的推論を行う。

In utilizing large language models (LLMs) for mathematical reasoning, addressing the errors in the reasoning and calculation present in the generated text by LLMs is a crucial challenge. In this paper, we propose a novel framework that integrates the Chain-of-Thought (CoT) method with an external tool (Python REPL). We discovered that by prompting LLMs to generate structured text in XML-like markup language, we could seamlessly integrate CoT and the external tool and control the undesired behaviors of LLMs. With our approach, LLMs can utilize Python computation to rectify errors within CoT. We applied our method to ChatGPT (GPT-3.5) to solve challenging mathematical problems and demonstrated that combining CoT and Python REPL through the markup language enhances the reasoning capability of LLMs. Our approach enables LLMs to write the markup language and perform advanced mathematical reasoning using only zero-shot prompting.
翻訳日:2023-09-26 22:23:41 公開日:2023-09-21
# ハイブリッド圧縮のエンドツーエンド学習のための微分可能なフレームワーク

A Differentiable Framework for End-to-End Learning of Hybrid Structured Compression ( http://arxiv.org/abs/2309.13077v1 )

ライセンス: Link先を確認
Moonjung Eo, Suhyun Kang and Wonjong Rhee(参考訳) フィルタプルーニングと低ランク分解は構造化圧縮の基礎技術である。 近年,両手法の利点を統合するためのハイブリッドアプローチが検討されているが,その性能向上は概ね緩やかである。 本研究では,フィルタ選択,ランク選択,予算制約を単一の解析的定式化に表現できる \textit{differentiable framework~(df)} を開発した。 本フレームワークでは,フィルタ選択のためのDML-Sを導入し,スケジューリングを既存のマスク学習手法に統合する。 さらに,特異値しきい値演算子を用いてランク選択のためのdtl-sを提案する。 DML-SとDTL-Sのフレームワークは、勾配ベース最適化によるエンドツーエンドの学習を容易にするハイブリッドな構造化圧縮手法を提供する。 実験結果は,最先端構造圧縮法を超越したDFの有効性を示した。 我々の研究は構造化圧縮技術を進歩させるための堅牢で多用途な方法を確立している。

Filter pruning and low-rank decomposition are two of the foundational techniques for structured compression. Although recent efforts have explored hybrid approaches aiming to integrate the advantages of both techniques, their performance gains have been modest at best. In this study, we develop a \textit{Differentiable Framework~(DF)} that can express filter selection, rank selection, and budget constraint into a single analytical formulation. Within the framework, we introduce DML-S for filter selection, integrating scheduling into existing mask learning techniques. Additionally, we present DTL-S for rank selection, utilizing a singular value thresholding operator. The framework with DML-S and DTL-S offers a hybrid structured compression methodology that facilitates end-to-end learning through gradient-base optimization. Experimental results demonstrate the efficacy of DF, surpassing state-of-the-art structured compression methods. Our work establishes a robust and versatile avenue for advancing structured compression techniques.
翻訳日:2023-09-26 22:23:23 公開日:2023-09-21
# Pixyz: 深層生成モデルを開発するためのPythonライブラリ

Pixyz: a Python library for developing deep generative models ( http://arxiv.org/abs/2107.13109v3 )

ライセンス: Link先を確認
Masahiro Suzuki, Takaaki Kaneko, Yutaka Matsuo(参考訳) 近年, 深層生成モデル (DGM) の研究が急速に進展しているため, それらをシンプルかつ汎用的に実装できるフレームワークの必要性が指摘されている。 本研究では,(1)深層ニューラルネットワークは確率分布にカプセル化され,(2)モデルは目的関数に基づいて設計・学習される,という2つのdgmの特徴に注目した。 これらの機能を考慮すると、Pixyzと呼ばれるDGMを実装する新しいPythonライブラリを提案する。 このライブラリは3つのAPIによるステップバイステップの実装手法を採用しており、より簡潔かつ直感的に様々なDGMを実装できる。 さらに,dgmの重複計算コストを削減し,計算を高速化するためのメモ化も導入している。 我々は,このライブラリが既存の確率的プログラミング言語よりも高速であることを示す。

With the recent rapid progress in the study of deep generative models (DGMs), there is a need for a framework that can implement them in a simple and generic way. In this research, we focus on two features of DGMs: (1) deep neural networks are encapsulated by probability distributions, and (2) models are designed and learned based on an objective function. Taking these features into account, we propose a new Python library to implement DGMs called Pixyz. This library adopts a step-by-step implementation method with three APIs, which allows us to implement various DGMs more concisely and intuitively. In addition, the library introduces memoization to reduce the cost of duplicate computations in DGMs to speed up the computation. We demonstrate experimentally that this library is faster than existing probabilistic programming languages in training DGMs.
翻訳日:2023-09-25 19:55:03 公開日:2023-09-21
# 自動臨床言語簡易化のベンチマーク:データセット,アルゴリズム,評価

Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation ( http://arxiv.org/abs/2012.02420v2 )

ライセンス: Link先を確認
Junyu Luo, Zifei Zheng, Hanzhong Ye, Muchao Ye, Yaqing Wang, Quanzeng You, Cao Xiao and Fenglong Ma(参考訳) 医療リテラシーの低い患者は、医学用語や専門用語の複雑な構造を理解するのが難しい。 専門家言語を日常理解可能な言語に自動的に翻訳する研究が提案されているが、臨床領域における正確性と可読性の両方に焦点をあてる研究はほとんどない。 このように、臨床言語を単純化することは依然として困難な作業であるが、残念ながら以前の作業ではまだ完全には対処されていない。 このタスクをベンチマークするために, 臨床言語自動化手法の開発と評価を支援するために, medlane という新しいデータセットを構築した。 さらに,人間のアノテーションの手順に従って,8つの強いベースラインと比較して最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。 また,性能を評価するために,3つの評価指標を提案する。 実験により,注釈付きMedLaneデータセットの有用性と提案モデルDECLAREの有効性が示された。

Patients with low health literacy usually have difficulty understanding medical jargon and the complex structure of professional medical language. Although some studies are proposed to automatically translate expert language into layperson-understandable language, only a few of them focus on both accuracy and readability aspects simultaneously in the clinical domain. Thus, simplification of the clinical language is still a challenging task, but unfortunately, it is not yet fully addressed in previous work. To benchmark this task, we construct a new dataset named MedLane to support the development and evaluation of automated clinical language simplification approaches. Besides, we propose a new model called DECLARE that follows the human annotation procedure and achieves state-of-the-art performance compared with eight strong baselines. To fairly evaluate the performance, we also propose three specific evaluation metrics. Experimental results demonstrate the utility of the annotated MedLane dataset and the effectiveness of the proposed model DECLARE.
翻訳日:2023-09-25 19:54:47 公開日:2023-09-21
# 畳み込みニューラルネットワークを用いた宇宙論におけるニュートリノ効果の学習

Learning neutrino effects in Cosmology with Convolutional Neural Networks ( http://arxiv.org/abs/1910.04255v2 )

ライセンス: Link先を確認
Elena Giusarma, Mauricio Reyes Hurtado, Francisco Villaescusa-Navarro, Siyu He, Shirley Ho, ChangHoon Hahn(参考訳) 3つの活動ニュートリノ質量の合計である$M_\nu$は、現代の宇宙論において最も重要な課題の1つである。 質量ニュートリノは宇宙の大規模構造にいくつかの宇宙観測可能な特徴を刻み込む。 銀河調査から得られる情報を最大化するためには、非線形状態における正確な理論予測が必要である。 現在、これらの予測を達成する一つの方法は、宇宙論的数値シミュレーションを実行することである。 残念ながら、これらのシミュレーションを作成するには高い計算資源が必要であり、ニュートリノの質量ケースごとに数百から数千コア時間を必要とする。 本研究では,ニュートリノのない標準的な$\Lambda$CDMシミュレーションから,大規模ニュートリノを用いたシミュレーションを高速に生成する,ディープラーニングネットワークに基づく新しい手法を提案する。 深層学習生成シミュレーションの複数の関連する統計指標を計算し,従来のn-body手法の高精度な代替法であると結論づけた。 特にパワースペクトルは、k=0.7$~\rm h/mpcの非線形スケールまで、$\simeq 6\%$である。 最後に,本手法は従来の手法の1万倍高速で大規模なニュートリノシミュレーションを生成することができる。

Measuring the sum of the three active neutrino masses, $M_\nu$, is one of the most important challenges in modern cosmology. Massive neutrinos imprint characteristic signatures on several cosmological observables in particular on the large-scale structure of the Universe. In order to maximize the information that can be retrieved from galaxy surveys, accurate theoretical predictions in the non-linear regime are needed. Currently, one way to achieve those predictions is by running cosmological numerical simulations. Unfortunately, producing those simulations requires high computational resources -- several hundred to thousand core-hours for each neutrino mass case. In this work, we propose a new method, based on a deep learning network, to quickly generate simulations with massive neutrinos from standard $\Lambda$CDM simulations without neutrinos. We computed multiple relevant statistical measures of deep-learning generated simulations, and conclude that our approach is an accurate alternative to the traditional N-body techniques. In particular the power spectrum is within $\simeq 6\%$ down to non-linear scales $k=0.7$~\rm h/Mpc. Finally, our method allows us to generate massive neutrino simulations 10,000 times faster than the traditional methods.
翻訳日:2023-09-25 19:54:32 公開日:2023-09-21
# 観測可能な完全平衡

Observable Perfect Equilibrium ( http://arxiv.org/abs/2210.16506v8 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) ナッシュ均衡はゲーム理論の中心的な概念として現れてきたが、多くの重要なゲームにはナッシュ均衡がいくつか含まれており、実際の戦略エージェントを作成するためにそれらの間の選択方法を決定する必要がある。 いくつかのナッシュ均衡改善の概念が提案され、シーケンシャル不完全情報ゲームのために研究され、最も顕著なのはトレムリングハンド完全均衡、準完全均衡、そして最近の片側準完全均衡である。 これらの概念は、任意の小さな誤りに対して頑健であり、常に存在することが保証されているが、不完全な情報の連続的なゲームにおいて強力なエージェントを開発するための正しい概念ではないと主張する。 我々は、可観測完全均衡(observable perfect equilibrium)と呼ばれる拡張形式のゲームに対して、解が公然と観測可能な作用確率(相手プレイヤーによって観測できないかもしれない全ての作用確率)の反動に対して頑健であるような新しい平衡改善概念を定義する。 可観測完全均衡(Observable perfect equilibrium)は、相手が観測された誤りに対して可能な限り合理的にプレイしているという仮定を正しく捉える(ただし、以前の解の概念はそうではない)。 我々は観測可能な完全平衡が常に存在することを証明し、それが以前の無制限ポーカーの広範囲な改良とは異なる解決策をもたらすことを証明している。 観測可能な完全均衡は、人工知能に興味を持つ多くの重要な不完全情報ゲームをモデリングするための有用な均衡洗練概念であることを期待している。

While Nash equilibrium has emerged as the central game-theoretic solution concept, many important games contain several Nash equilibria and we must determine how to select between them in order to create real strategic agents. Several Nash equilibrium refinement concepts have been proposed and studied for sequential imperfect-information games, the most prominent being trembling-hand perfect equilibrium, quasi-perfect equilibrium, and recently one-sided quasi-perfect equilibrium. These concepts are robust to certain arbitrarily small mistakes, and are guaranteed to always exist; however, we argue that neither of these is the correct concept for developing strong agents in sequential games of imperfect information. We define a new equilibrium refinement concept for extensive-form games called observable perfect equilibrium in which the solution is robust over trembles in publicly-observable action probabilities (not necessarily over all action probabilities that may not be observable by opposing players). Observable perfect equilibrium correctly captures the assumption that the opponent is playing as rationally as possible given mistakes that have been observed (while previous solution concepts do not). We prove that observable perfect equilibrium is always guaranteed to exist, and demonstrate that it leads to a different solution than the prior extensive-form refinements in no-limit poker. We expect observable perfect equilibrium to be a useful equilibrium refinement concept for modeling many important imperfect-information games of interest in artificial intelligence.
翻訳日:2023-09-25 19:48:05 公開日:2023-09-21
# FALCON: ALCオントロジーに対する忠実なニューラルセマンティックエンターメント

FALCON: Faithful Neural Semantic Entailment over ALC Ontologies ( http://arxiv.org/abs/2208.07628v4 )

ライセンス: Link先を確認
Zhenwei Tang, Tilman Hinnerichs, Xi Peng, Xiangliang Zhang, Robert Hoehndorf(参考訳) 多くのオントロジー、すなわち記述論理(DL)知識ベースは、様々なドメインに関する豊富な知識を提供するために開発され、その多くがALC、すなわち原型的で表現力のあるDLまたはその拡張に基づいている。 ALCオントロジーを探索する主な課題はセマンティックエンターメントを計算することである。 我々はファジィ論理演算子を用いて任意のALCオントロジーのモデル構造を生成するファジィALCオントロジーニューラル推論器であるFALCONを開発し、忠実なセマンティックエンターメントを計算するために複数のモデル構造を用いる。 理論的には、FALCONはALCのオントロジよりもセマンティックエンターメントを忠実に近似し、それゆえ、ニューラルネットワークに世界モデルとそれらに対する推論能力を与える。 実験の結果、FALCONは近似推論、矛盾推論(矛盾推論)を可能にし、ALCで表現された知識を組み込むことで、バイオメディカル領域における機械学習を改善することが示された。

Many ontologies, i.e., Description Logic (DL) knowledge bases, have been developed to provide rich knowledge about various domains, and a lot of them are based on ALC, i.e., a prototypical and expressive DL, or its extensions. The main task that explores ALC ontologies is to compute semantic entailment. We developed FALCON, a Fuzzy ALC Ontology Neural reasoner, which uses fuzzy logic operators to generate model structures for arbitrary ALC ontologies, and uses multiple model structures to compute faithful semantic entailments. Theoretical results show that FALCON faithfully approximates semantic entailment over ALC ontologies and therefore endows neural networks with world models and the ability to reason over them. Experimental results show that FALCON enables approximate reasoning, paraconsistent reasoning (reasoning with inconsistencies), and improves machine learning in the biomedical domain by incorporating knowledge expressed in ALC.
翻訳日:2023-09-25 19:46:51 公開日:2023-09-21
# 言語モデルを用いたSmoothing Entailment Graphs

Smoothing Entailment Graphs with Language Models ( http://arxiv.org/abs/2208.00318v2 )

ライセンス: Link先を確認
Nick McKenna, Tianyi Li, Mark Johnson, Mark Steedman(参考訳) コーパスの自然言語述語における多様性とジップフィアン周波数分布は、オープン関係抽出(ore)によって構築された帰納グラフ(egs)のスパーシティをもたらす。 EGは計算的に効率的で説明可能な自然言語推論モデルであるが、記号モデルとして、新しい前提や仮説頂点がテスト時に失われると失敗する。 シンボリックモデルにおけるそのような疎結合を克服するための理論と方法論を提案する。 まず、遷移鎖を構成することにより、EGの最適平滑化の理論を導入する。 次に,既成の言語モデルを用いた効率良く,オープンで教師なしの平滑化手法を実演し,不足する前提述語を近似する手法を提案する。 これにより、2つの難しい方向包含データセットで25.1ポイントと16.3ポイントのリコールが改善され、平均精度とモデル説明性が向上した。 さらに、QAタスクでは、EGスムーシングが、より少ないサポートテキストで質問に答えるのに最も有用であることを示す。 最後に、wordnetを用いた制御実験により、仮説の平滑化は困難であるが原則として可能であることを示す。

The diversity and Zipfian frequency distribution of natural language predicates in corpora leads to sparsity in Entailment Graphs (EGs) built by Open Relation Extraction (ORE). EGs are computationally efficient and explainable models of natural language inference, but as symbolic models, they fail if a novel premise or hypothesis vertex is missing at test-time. We present theory and methodology for overcoming such sparsity in symbolic models. First, we introduce a theory of optimal smoothing of EGs by constructing transitive chains. We then demonstrate an efficient, open-domain, and unsupervised smoothing method using an off-the-shelf Language Model to find approximations of missing premise predicates. This improves recall by 25.1 and 16.3 percentage points on two difficult directional entailment datasets, while raising average precision and maintaining model explainability. Further, in a QA task we show that EG smoothing is most useful for answering questions with lesser supporting text, where missing premise predicates are more costly. Finally, controlled experiments with WordNet confirm our theory and show that hypothesis smoothing is difficult, but possible in principle.
翻訳日:2023-09-25 19:46:14 公開日:2023-09-21
# 共有量子エンタングルメントを用いた干渉イメージング

Interferometric imaging using shared quantum entanglement ( http://arxiv.org/abs/2212.07395v4 )

ライセンス: Link先を確認
Matthew R. Brown, Markus Allgaier, Val\'erian Thiel, John D. Monnier, Michael G. Raymer, and Brian J. Smith(参考訳) 量子エンタングルメントに基づくイメージングは、天文学と測地学のために非常に長いベースライン干渉法で使用される光学コレクション開口の空間的分離を拡張することで、分解能を著しく向上させる。 2つのエンタングルフィールドモードを2つのアパーチャ間の位相参照として利用する,テーブルトップエンタングルメントに基づく干渉画像技術について報告する。 各開口部で収集された光をエンタングルフィールドの1つで干渉させ、ジョイント測定することにより、シミュレーションされた熱光源の空間分布を決定する。 この実験は、干渉画像を実装するために絡み合う能力を示す。

Quantum entanglement-based imaging promises significantly increased resolution by extending the spatial separation of optical collection apertures used in very-long-baseline interferometry for astronomy and geodesy. We report a table-top entanglement-based interferometric imaging technique that utilizes two entangled field modes serving as a phase reference between two apertures. The spatial distribution of a simulated thermal light source is determined by interfering light collected at each aperture with one of the entangled fields and performing joint measurements. This experiment demonstrates the ability of entanglement to implement interferometric imaging.
翻訳日:2023-09-25 19:36:59 公開日:2023-09-21
# 未知のオブジェクトインスタンスセグメンテーションのための平均シフトマスク変換器

Mean Shift Mask Transformer for Unseen Object Instance Segmentation ( http://arxiv.org/abs/2211.11679v3 )

ライセンス: Link先を確認
Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang(参考訳) 画像から見えない物体をセグメンテーションすることは、ロボットが獲得する必要がある重要な知覚スキルである。 ロボット操作では、ロボットが見えない物体をつかんで操作するのに役立つ。 平均シフトクラスタリングは画像セグメンテーションタスクに広く用いられている手法である。 しかし、従来の平均シフトクラスタリングアルゴリズムは区別できないため、エンドツーエンドのニューラルネットワークトレーニングフレームワークに統合することは困難である。 本研究では,von mises-fisher (vmf)平均シフトクラスタリングアルゴリズムをシミュレートし,特徴抽出器とクラスタリングの合同トレーニングと推論を可能にする,新しいトランスフォーマティブアーキテクチャであるmean shift mask transformer (msmformer)を提案する。 その中心的なコンポーネントは、ハイパースフィア上のオブジェクトクエリを更新するハイパースフィアのアテンションメカニズムである。 提案手法の有効性を説明するために,MSMFormerを未確認のオブジェクトインスタンスセグメンテーションに適用する。 実験の結果,MSMFormerは未確認オブジェクトのインスタンスセグメンテーションの最先端手法と比較して,競争性能が向上していることがわかった。 プロジェクトページ、付録、ビデオ、およびコードはhttps://irvlutd.github.io/MSMFormer.comで入手できる。

Segmenting unseen objects from images is a critical perception skill that a robot needs to acquire. In robot manipulation, it can facilitate a robot to grasp and manipulate unseen objects. Mean shift clustering is a widely used method for image segmentation tasks. However, the traditional mean shift clustering algorithm is not differentiable, making it difficult to integrate it into an end-to-end neural network training framework. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to unseen object instance segmentation. Our experiments show that MSMFormer achieves competitive performance compared to state-of-the-art methods for unseen object instance segmentation. The project page, appendix, video, and code are available at https://irvlutd.github.io/MSMFormer
翻訳日:2023-09-25 19:35:55 公開日:2023-09-21
# redがディープニューラルネットワークと機能合成ツールで提携

Red Teaming Deep Neural Networks with Feature Synthesis Tools ( http://arxiv.org/abs/2302.10894v3 )

ライセンス: Link先を確認
Stephen Casper, Yuxiao Li, Jiawei Li, Tong Bu, Kevin Zhang, Kaivalya Hariharan, Dylan Hadfield-Menell(参考訳) 解釈可能なaiツールは、しばしばood(out-of-distribution)コンテキストにおけるモデルの振る舞いを理解するという目標によって動機づけられる。 この研究領域が注目されているにもかかわらず、これらのツールが以前に未知のバグを特定したケースは比較的少ない。 これは、ある特定のデータセットを使用してモデルの振る舞いを分析するという、多くの解釈可能性メソッドの一般的な特徴によるものだと論じています。 これにより、ユーザが事前にサンプリングできる機能のコンテキストにおけるモデルの研究のみが可能になる。 これに対処するために、データ集合に依存しない \emph{feature synthesis} メソッドを使ってモデルを解釈する研究が増えている。 本稿では,デバッグタスクにおける解釈ツールの有用性をベンチマークする。 私たちの重要な洞察は、人間の解釈可能なトロイの木馬をモデルに組み込んで、それらのツールが人間の発見を助けるかどうかに基づいて評価できるということです。 これはOODバグを見つけるのに似ていますが、基礎的な真実は分かっているので、解釈が正しいことを知ることができるのです。 我々は4つの貢献をした。 1) 解釈可能性ツールの評価課題としてトロイの木馬発見を提案し, 3種類のトロイの木馬12種を用いたベンチマークを導入する。 2)本ベンチマークの難易度を,16の機能帰属/提供ツールの予備評価で示す。 たとえ理想的な条件下でも、トロイの木馬のトリガーでデータに直接アクセスしても、これらのメソッドはバグを識別できないことが多い。 (3)7種類の特徴合成法をベンチマークで評価した。 (4) これまでの評価から, ベストパフォーマンス手法の2つの新しい変種を紹介し, 評価する。 この論文とそのコードはhttps://benchmarking-interpretability.csail.mit.edu/にある。

Interpretable AI tools are often motivated by the goal of understanding model behavior in out-of-distribution (OOD) contexts. Despite the attention this area of study receives, there are comparatively few cases where these tools have identified previously unknown bugs in models. We argue that this is due, in part, to a common feature of many interpretability methods: they analyze model behavior by using a particular dataset. This only allows for the study of the model in the context of features that the user can sample in advance. To address this, a growing body of research involves interpreting models using \emph{feature synthesis} methods that do not depend on a dataset. In this paper, we benchmark the usefulness of interpretability tools on debugging tasks. Our key insight is that we can implant human-interpretable trojans into models and then evaluate these tools based on whether they can help humans discover them. This is analogous to finding OOD bugs, except the ground truth is known, allowing us to know when an interpretation is correct. We make four contributions. (1) We propose trojan discovery as an evaluation task for interpretability tools and introduce a benchmark with 12 trojans of 3 different types. (2) We demonstrate the difficulty of this benchmark with a preliminary evaluation of 16 state-of-the-art feature attribution/saliency tools. Even under ideal conditions, given direct access to data with the trojan trigger, these methods still often fail to identify bugs. (3) We evaluate 7 feature-synthesis methods on our benchmark. (4) We introduce and evaluate 2 new variants of the best-performing method from the previous evaluation. A website for this paper and its code is at https://benchmarking-interpretability.csail.mit.edu/
翻訳日:2023-09-25 19:26:11 公開日:2023-09-21
# マイトショット学習を用いた会話スタイル伝達

Conversation Style Transfer using Few-Shot Learning ( http://arxiv.org/abs/2302.08362v2 )

ライセンス: Link先を確認
Shamik Roy, Raphael Shu, Nikolaos Pappas, Elman Mansimov, Yi Zhang, Saab Mansour and Dan Roth(参考訳) 従来のテキストスタイル転送アプローチでは、文脈情報を考慮せずに文レベルのスタイル転送に注目し、そのスタイルを属性(例えば形式性)で記述する。 タスク指向対話のような会話にスタイル転送を適用する場合、コンテキストが重要な役割を果たす可能性があるため、既存のアプローチはこれらの制限に悩まされる。 本稿では,目的とする対話をほんの数例だけ観察することで,モデルがスタイル伝達を行うように学習する,マイズショット学習問題として会話スタイル伝達を提案する。 本稿では,スタイルフリーな対話をピボットとして解くための,新しいインコンテキスト学習手法を提案する。 人的評価は、マルチターンコンテキストを組み込むことで、発話/文レベルのスタイル転送よりも適切な適切性と意味的正当性を保ちながら、ターゲットスタイルに適合できることを示している。 さらに,会話スタイル転送は下流タスクにも有用であることを示す。 例えば、マルチドメインの意図分類タスクでは、F1はテストデータのスタイルに合わせてトレーニングデータのスタイルを転送して改善する。

Conventional text style transfer approaches focus on sentence-level style transfer without considering contextual information, and the style is described with attributes (e.g., formality). When applying style transfer in conversations such as task-oriented dialogues, existing approaches suffer from these limitations as context can play an important role and the style attributes are often difficult to define in conversations. In this paper, we introduce conversation style transfer as a few-shot learning problem, where the model learns to perform style transfer by observing only a few example dialogues in the target style. We propose a novel in-context learning approach to solve the task with style-free dialogues as a pivot. Human evaluation shows that by incorporating multi-turn context, the model is able to match the target style while having better appropriateness and semantic correctness compared to utterance/sentence-level style transfer. Additionally, we show that conversation style transfer can also benefit downstream tasks. For example, in multi-domain intent classification tasks, the F1 scores improve after transferring the style of training data to match the style of the test data.
翻訳日:2023-09-25 19:25:45 公開日:2023-09-21
# 二元ガウスボソンサンプリングを用いたサンプル効率的なグラフ分類

Sample efficient graph classification using binary Gaussian boson sampling ( http://arxiv.org/abs/2301.01232v3 )

ライセンス: Link先を確認
Amanuel Anteneh and Olivier Pfister(参考訳) 本稿では,グラフ構造データを用いた分類の機械学習タスクのための量子アルゴリズムのバリエーションを提案する。 このアルゴリズムは、gaussian boson sampling (gbs) に基づく量子コンピューティングの短期モデルに基づく特徴抽出戦略を実装している。 しかし、この問題に対して現在提案されているアルゴリズムとは異なり、GBSセットアップは光子数解決検出器とは対照的にバイナリ(光/光)検出器のみを必要とする。 これらの検出器は技術的に単純であり、室温で動作するため、我々のアルゴリズムはより複雑で、物理的ハードウェアに実装するコストも少なくなる。 また,2値GBS検出イベントの確率を特徴付けるトロントニアンと呼ばれる行列関数とグラフ理論の関連性についても検討する。

We present a variation of a quantum algorithm for the machine learning task of classification with graph-structured data. The algorithm implements a feature extraction strategy that is based on Gaussian boson sampling (GBS) a near term model of quantum computing. However, unlike the currently proposed algorithms for this problem, our GBS setup only requires binary (light/no light) detectors, as opposed to photon number resolving detectors. These detectors are technologically simpler and can operate at room temperature, making our algorithm less complex and less costly to implement on the physical hardware. We also investigate the connection between graph theory and the matrix function called the Torontonian which characterizes the probabilities of binary GBS detection events.
翻訳日:2023-09-25 19:24:23 公開日:2023-09-21
# 実ディラック方程式

The Real Dirac Equation ( http://arxiv.org/abs/2212.13568v3 )

ライセンス: Link先を確認
Sokol Andoni(参考訳) ディラックは、正規化された反可換行列は時間空間シグネチャ {\eta}^{\mu}{\nu} と等しくなければならないという突発的な洞察は、彼の方程式の成功に決定的であった。 γ {\displaystyle {\gamma}^{\mu}-s は全てのローレンツフレームで同じであり、「電子内のいくつかの内部運動に属するいくつかの新しい自由度を記述する」。 したがって、 {\eta}^{\mu}{\nu} への強制的リンクは、ディラックの理論の別の仮定を構成する。 幾何アルゲブラの定式化を用いた古典的 4-モーメントベクトルの直接量子化から、明らかに共変第一次方程式を導出する。 ディラック電子とポジトロンの全ての性質は、方程式の「内部自由度」から導かれ、アドホックは署名と無関係な行列を課した。 斬新なスキームでは、ディラック作用素はフレームフリーで明らかなローレンツ不変量である。 ローレンツのフレームとは対照的に、古典的な時空のフレームベクトル e^{\mu} は {\gamma}^{\mu} 行列の代わりに現れる。 スピンと回転を定義する3次元方向空間の軸方向のフレームベクトル(クロス積なし)は、ポーリ行列の代わりに現れるが、3次元位置空間の極性フレームベクトルは、自然にブーストなどを定義する。 さらに、形式主義は行列よりも計算効率がかなり高いことを示している。

Dirac's leaping insight that the normalized anti-commutator of the {\gamma}^{\mu} matrices must equal the timespace signature {\eta}^{\mu}{\nu} was decisive for the success of his equation. The {\gamma}^{\mu}-s are the same in all Lorentz frames and "describe some new degrees of freedom, belonging to some internal motion in the electron". Therefore, the imposed link to {\eta}^{\mu}{\nu} constitutes a separate postulate of Dirac's theory. I derive a manifestly covariant first order equation from the direct quantization of the classical 4-momentum vector using the formalism of Geometric Algebra. All properties of the Dirac electron & positron follow from the equation - preconceived 'internal degrees of freedom', ad hoc imposed signature and matrices unneeded. In the novel scheme, the Dirac operator is frame-free and manifestly Lorentz invariant. Relative to a Lorentz frame, the classical spacetime frame vectors e^{\mu} appear instead of the {\gamma}^{\mu} matrices. Axial frame vectors (without cross product) of the 3D orientation space defining spin and rotations appear instead of the Pauli matrices; polar frame vectors of the 3D position space naturally define boosts, etc. Not the least, the formalism shows a significantly higher computational efficiency compared to matrices.
翻訳日:2023-09-25 19:23:42 公開日:2023-09-21
# 等価および拡張ニューラルネットワークの最適化ダイナミクス

Optimization Dynamics of Equivariant and Augmented Neural Networks ( http://arxiv.org/abs/2303.13458v2 )

ライセンス: Link先を確認
Axel Flinth and Fredrik Ohlsson(参考訳) 対称データに基づく多層パーセプトロンの最適化について検討する。 我々は、アーキテクチャの制約戦略を、拡張の使用戦略と同等に扱う戦略と比較する。 損失と非線形性に関する自然な仮定の下では、同変定常点の集合は2つの戦略と同一であり、同変層の集合は拡張モデルの勾配流れの下で不変であることを示した。 最後に,同変モデルでは安定ではあるが,拡張トレーニングでは定常点が不安定であることを示す。

We investigate the optimization of multilayer perceptrons on symmetric data. We compare the strategy of constraining the architecture to be equivariant to that of using augmentation. We show that, under natural assumptions on the loss and non-linearities, the sets of equivariant stationary points are identical for the two strategies, and that the set of equivariant layers is invariant under the gradient flow for augmented models. Finally, we show that stationary points may be unstable for augmented training although they are stable for the equivariant models.
翻訳日:2023-09-25 19:16:26 公開日:2023-09-21
# 散逸基底状態調製と散逸量子固有解法

Dissipative ground state preparation and the Dissipative Quantum Eigensolver ( http://arxiv.org/abs/2303.11962v2 )

ライセンス: Link先を確認
Toby S. Cubitt(参考訳) 任意の局所ハミルトン h に対して、私は局所cpt写像と停止条件を構築し、h の基底状態部分空間に収束する。 しかし、この散逸性量子固有解法には多くの興味深い特徴があり、これは以前の基底状態生成アルゴリズムよりも有利である。 -アルゴリズム全体は,同じ局所測定セットを反復的に繰り返し繰り返して構成する。 - 期待される基底状態部分空間との重なりは、このプロセスの実行が許される時間とともに単調に増加する。 -ハミルトニアンについての前提や事前の情報なしで、無条件で基底状態部分空間に収束する。 -アルゴリズムはパラメータに対する変動最適化を必要としない。 -実際は低回路深度で基底状態を見つけることができることが多い。 -特定の種類の量子ハードウェア、特にフォトニック量子コンピュータに簡単な実装がある。 -プロセスは初期状態のエラーに免疫する。 すなわち、アルゴリズムの実行中にエラーを発生させ、また、計算上のオーバーヘッドを発生させることなく、アルゴリズム自体の欠陥を発生させることである:基底状態のサブスペースとの出力の重複は、アルゴリズムの実行時間とは独立に、エラー率とスムーズに低下する。 上記の主張の厳密な証明を与え、いくつかの具体例でアルゴリズムを数値的にベンチマークする。

For any local Hamiltonian H, I construct a local CPT map and stopping condition which converges to the ground state subspace of H. Like any ground state preparation algorithm, this algorithm necessarily has exponential run-time in general (otherwise BQP=QMA), even for gapped, frustration-free Hamiltonians (otherwise BQP is in NP). However, this dissipative quantum eigensolver has a number of interesting characteristics, which give advantages over previous ground state preparation algorithms. - The entire algorithm consists simply of iterating the same set of local measurements repeatedly. - The expected overlap with the ground state subspace increases monotonically with the length of time this process is allowed to run. - It converges to the ground state subspace unconditionally, without any assumptions on or prior information about the Hamiltonian. - The algorithm does not require any variational optimisation over parameters. - It is often able to find the ground state in low circuit depth in practice. - It has a simple implementation on certain types of quantum hardware, in particular photonic quantum computers. - The process is immune to errors in the initial state. - It is inherently error- and noise-resilient, i.e. to errors during execution of the algorithm and also to faulty implementation of the algorithm itself, without incurring any computational overhead: the overlap of the output with the ground state subspace degrades smoothly with the error rate, independent of the algorithm's run-time. I give rigorous proofs of the above claims, and benchmark the algorithm on some concrete examples numerically.
翻訳日:2023-09-25 19:16:17 公開日:2023-09-21
# FireRisk: 監視および自己教師型学習を用いたベンチマークによる火災リスク評価のためのリモートセンシングデータセット

FireRisk: A Remote Sensing Dataset for Fire Risk Assessment with Benchmarks Using Supervised and Self-supervised Learning ( http://arxiv.org/abs/2303.07035v2 )

ライセンス: Link先を確認
Shuchang Shen, Sachith Seneviratne, Xinye Wanyan, Michael Kirley(参考訳) 近年の森林火災は、広範かつ極端に破壊的な自然災害として、膨大な財産の損失と死者をもたらし、森林生態系に大きな被害を与えた。 多くの火災リスク評価プロジェクトは、山火事を防ぐために提案されているが、GISに基づく手法は、データ収集や局地条件の変化により、本質的に異なる地域への拡張が困難である。 市販のリモートセンシングプロジェクトや,コンピュータビジョンにおける深層学習の発展に触発されて,リモートセンシング画像を用いた火災リスクの評価に焦点が当てられた。 本研究では,火災リスク評価のための計91872枚のラベル付き画像を含む7種類の火災リスククラスからなる,新しいリモートセンシングデータセットであるfireriskを提案する。 このリモートセンシングデータセットは、ワイルドファイアハザードポテンシャル(whp)ラスターデータセットから供給される火災リスククラスにラベル付けされ、高解像度リモートセンシングイメージプログラムであるnational agriculture image program(naip)を用いてリモートセンシングイメージを収集する。 FireRiskでは,ImageNet1k上で事前トレーニングされたMasked Autoencoders(MAE)を用いて,教師付きおよび自己教師型表現のベンチマーク性能を65.29%と高い分類精度で示す。 このリモートセンシングデータセットであるFireRiskは、火災リスク評価の新しい方向を提供しており、https://github.com/CharmonyShen/FireRisk.comで公開しています。

In recent decades, wildfires, as widespread and extremely destructive natural disasters, have caused tremendous property losses and fatalities, as well as extensive damage to forest ecosystems. Many fire risk assessment projects have been proposed to prevent wildfires, but GIS-based methods are inherently challenging to scale to different geographic areas due to variations in data collection and local conditions. Inspired by the abundance of publicly available remote sensing projects and the burgeoning development of deep learning in computer vision, our research focuses on assessing fire risk using remote sensing imagery. In this work, we propose a novel remote sensing dataset, FireRisk, consisting of 7 fire risk classes with a total of 91872 labelled images for fire risk assessment. This remote sensing dataset is labelled with the fire risk classes supplied by the Wildfire Hazard Potential (WHP) raster dataset, and remote sensing images are collected using the National Agriculture Imagery Program (NAIP), a high-resolution remote sensing imagery program. On FireRisk, we present benchmark performance for supervised and self-supervised representations, with Masked Autoencoders (MAE) pre-trained on ImageNet1k achieving the highest classification accuracy, 65.29%. This remote sensing dataset, FireRisk, provides a new direction for fire risk assessment, and we make it publicly available on https://github.com/CharmonyShen/FireRisk.
翻訳日:2023-09-25 19:15:10 公開日:2023-09-21
# 予習はやめないの? Promptベースのファインチューニングパワーフルラーニング

Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner ( http://arxiv.org/abs/2305.01711v3 )

ライセンス: Link先を確認
Zhengxiang Shi, Aldo Lipani(参考訳) 言語モデル (LM) は、膨大な量の未ラベルデータに基づいて訓練され、自然言語処理 (NLP) の分野を大きく進歩させた。 本研究では,タスク関連テキストの事前学習を継続するNLPにおける広く受け入れられている概念を再検討し,下流タスクにおける微調整(FT)の性能を向上させる。 8つの単文タスクと8つの文ペアタスクを半教師付きおよび完全教師付き設定の両方で実験した結果、従来の継続前訓練は必ずしも利点を提供しておらず、文ペアタスクやプロンプトベースのftを使用する場合にも有害であることがわかった。 これらの課題に対処するために,従来の継続事前学習とインストラクションチューニングのアイデアを組み合わせたPrompt-based Continued Pre-training (PCP)を提案する。 本手法は,目標タスクを微調整する前に教師なし事前学習目標により,タスク関連テキストとプロンプトテンプレートの両方をlmsに提示することにより,プロンプトベースftの性能を向上させることを目的としている。 21のベンチマークに対する実証的な評価では、PCPは、数百の未実装例であっても、半教師付きおよび完全教師付き設定の両方において、最先端のプロンプトベースのFTアプローチ(最大20.1%の絶対)の性能を一貫して改善することを示した。 さらに、PCPによるプロンプトベースのFTは、最先端の半教師付きアプローチをより単純さで上回り、反復処理や追加データ拡張の必要性を排除している。 さらに,PCPの性能低下を考察し,PCPの利点がモデルやデータセットの異なるサイズで持続していることを明らかにする。

Language models (LMs) trained on vast quantities of unlabelled data have greatly advanced the field of natural language processing (NLP). In this study, we re-visit the widely accepted notion in NLP that continued pre-training LMs on task-related texts improves the performance of fine-tuning (FT) in downstream tasks. Through experiments on eight single-sentence tasks and eight sentence-pair tasks in both semi-supervised and fully-supervised settings, we find that conventional continued pre-training does not consistently provide benefits and can even be detrimental for sentence-pair tasks or when prompt-based FT is used. To tackle these issues, we propose Prompt-based Continued Pre-training (PCP), which combines the idea of instruction tuning with conventional continued pre-training. Our approach aims to improve the performance of prompt-based FT by presenting both task-related texts and prompt templates to LMs through unsupervised pre-training objectives before fine-tuning for the target task. Our empirical evaluations on 21 benchmarks demonstrate that the PCP consistently improves the performance of state-of-the-art prompt-based FT approaches (up to 20.1% absolute) in both semi-supervised and fully-supervised settings, even with only hundreds of unlabelled examples. Additionally, prompt-based FT with the PCP outperforms state-of-the-art semi-supervised approaches with greater simplicity, eliminating the need for an iterative process and extra data augmentation. Our further analysis explores the performance lower bound of the PCP and reveals that the advantages of PCP persist across different sizes of models and datasets.
翻訳日:2023-09-25 19:05:51 公開日:2023-09-21
# CryCeleb:幼児のCry音に基づく話者検証データセット

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v5 )

ライセンス: Link先を確認
David Budaghyan, Charles C. Onu, Arsenii Gorin, Cem Subakan, Doina Precup(参考訳) 本稿では,幼児の泣き声をラベル付けしたUbenwa CryCelebデータセットと,それに付随するCryCeleb 2023タスクについて述べる。 乳児の涙分析研究を奨励するために,786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。 最初の公募では59人が参加し、11人がベースラインのパフォーマンスを改善した。 最高性能のシステムは25.8%の対等なエラー率で大幅な改善を達成したが、これはまだ最先端の成人話者認証システムのパフォーマンスには程遠い。 したがって、このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries - and the accompanying CryCeleb 2023 task, which is a public speaker verification challenge based on cry sounds. We released more than 6 hours of manually segmented cry sounds from 786 newborns for academic use, aiming to encourage research in infant cry analysis. The inaugural public competition attracted 59 participants, 11 of whom improved the baseline performance. The top-performing system achieved a significant improvement scoring 25.8% equal error rate, which is still far from the performance of state-of-the-art adult speaker verification systems. Therefore, we believe there is room for further research on this dataset, potentially extending beyond the verification task.
翻訳日:2023-09-25 19:05:20 公開日:2023-09-21
# 物理乱流リカレントニューラルネットワークエミュレータにおける時空間サブサンプリングの小型化

Temporal Subsampling Diminishes Small Spatial Scales in Recurrent Neural Network Emulators of Geophysical Turbulence ( http://arxiv.org/abs/2305.00100v2 )

ライセンス: Link先を確認
Timothy A. Smith, Stephen G. Penny, Jason A. Platt, Tse-Chun Chen(参考訳) 従来の数値気象モデルや気候モデルの膨大な計算コストが、機械学習(ml)ベースのエミュレータの開発を促した。 ML法はトレーニングデータの長い記録から恩恵を受けるため、微分方程式の数値積分に必要な時間ステップに対して時間的にサブサンプリングされたデータセットを使用することが一般的である。 本稿では,この処理ステップがエミュレータの予測品質に与える影響について検討する。 1)非線形ベクトル自己回帰(NVAR)の形式,(2)エコー状態ネットワーク(ESN)の2種類のMLアーキテクチャを実装した。 単純さにもかかわらず、これらのアーキテクチャが低次元カオスダイナミクスの予測に優れていることはよく記録されている。 したがって我々は、表面準地磁気力学で表される高次元の物理乱流を予測する理想的な設定でこれらのアーキテクチャをテストする動機づけられている。 いずれの場合も、トレーニングデータのサブサンプリングは、数値拡散に似た小さな空間スケールでのバイアスの増加につながる。 興味深いことに、時間分解能が増大するとNVARアーキテクチャは不安定になり、乱流の詳細な非線形性を捉えるには多項式ベースの相互作用が不十分であることを示す。 esnアーキテクチャはより堅牢であることが分かり、より高価ながより一般的な構造の利点を示唆する。 スペクトル誤差は、トレーニング中に運動エネルギー密度スペクトルにペナルティを加えることで減少するが、サブサンプリング関連エラーは持続する。 トレーニングデータの時間的解決が他のmlアーキテクチャに与える影響を理解するためには、今後の作業が不可欠である。

The immense computational cost of traditional numerical weather and climate models has sparked the development of machine learning (ML) based emulators. Because ML methods benefit from long records of training data, it is common to use datasets that are temporally subsampled relative to the time steps required for the numerical integration of differential equations. Here, we investigate how this often overlooked processing step affects the quality of an emulator's predictions. We implement two ML architectures from a class of methods called reservoir computing: (1) a form of Nonlinear Vector Autoregression (NVAR), and (2) an Echo State Network (ESN). Despite their simplicity, it is well documented that these architectures excel at predicting low dimensional chaotic dynamics. We are therefore motivated to test these architectures in an idealized setting of predicting high dimensional geophysical turbulence as represented by Surface Quasi-Geostrophic dynamics. In all cases, subsampling the training data consistently leads to an increased bias at small spatial scales that resembles numerical diffusion. Interestingly, the NVAR architecture becomes unstable when the temporal resolution is increased, indicating that the polynomial based interactions are insufficient at capturing the detailed nonlinearities of the turbulent flow. The ESN architecture is found to be more robust, suggesting a benefit to the more expensive but more general structure. Spectral errors are reduced by including a penalty on the kinetic energy density spectrum during training, although the subsampling related errors persist. Future work is warranted to understand how the temporal resolution of training data affects other ML architectures.
翻訳日:2023-09-25 19:04:47 公開日:2023-09-21
# オーディオ・ビジュアル深層学習を用いた実時間アイドリング車検出

Real-Time Idling Vehicles Detection using Combined Audio-Visual Deep Learning ( http://arxiv.org/abs/2305.14579v3 )

ライセンス: Link先を確認
Xiwen Li, Tristalee Mangin, Surojit Saha, Evan Blanchard, Dillon Tang, Henry Poppe, Nathan Searle, Ouk Choi, Kerry Kelly, and Ross Whitaker(参考訳) 燃焼車両の排出は空気の質が悪く、大気中に温室効果ガスを放出する要因となり、自動車の汚染は多くの有害な健康影響と関係している。 学校や病院の降車ゾーンなど、広範な待合室や乗客の降車を伴う道路は、アイドリング車両の発生率と密度を上昇させる可能性がある。 これにより自動車の大気汚染が増大する。 したがって、アイドリング車両の検出は不要なアイドリングの監視と対応に役立ち、結果として生じる汚染に対処するためにリアルタイムまたはオフラインのシステムに統合することができる。 本稿では,実時間,動的車両アイドリング検出アルゴリズムを提案する。 提案するアイドル検出アルゴリズムと通知は、これらのアイドル車両を検出するアルゴリズムに依存している。 提案手法は、マルチセンサー、オーディオビジュアル、機械学習ワークフローを使用して、移動、エンジンオンによる静的、エンジンオフによる静的の3つの条件下で、アイドル車両を視覚的に検出する。 視覚車両運動検出装置は第1段に構築され、次にコントラスト学習に基づく潜在空間を訓練して静的車両エンジン音の分類を行う。 我々はソルトレイクシティの病院の退院地点でリアルタイムでシステムをテストする。 このデータセットは収集され、注釈付けされ、さまざまなモデルとタイプを含む。 実験により, エンジンのオン/オフを瞬時に検出し, アイドル検出の平均精度を71.02, エンジンオフ検出を91.06とした。

Combustion vehicle emissions contribute to poor air quality and release greenhouse gases into the atmosphere, and vehicle pollution has been associated with numerous adverse health effects. Roadways with extensive waiting and/or passenger drop off, such as schools and hospital drop-off zones, can result in high incidence and density of idling vehicles. This can produce micro-climates of increased vehicle pollution. Thus, the detection of idling vehicles can be helpful in monitoring and responding to unnecessary idling and be integrated into real-time or off-line systems to address the resulting pollution. In this paper we present a real-time, dynamic vehicle idling detection algorithm. The proposed idle detection algorithm and notification rely on an algorithm to detect these idling vehicles. The proposed method relies on a multi-sensor, audio-visual, machine-learning workflow to detect idling vehicles visually under three conditions: moving, static with the engine on, and static with the engine off. The visual vehicle motion detector is built in the first stage, and then a contrastive-learning-based latent space is trained for classifying static vehicle engine sound. We test our system in real-time at a hospital drop-off point in Salt Lake City. This in-situ dataset was collected and annotated, and it includes vehicles of varying models and types. The experiments show that the method can detect engine switching on or off instantly and achieves 71.02 average precision (AP) for idle detections and 91.06 for engine off detections.
翻訳日:2023-09-25 18:56:01 公開日:2023-09-21
# 量子論の別の基礎

An alternative foundation of quantum theory ( http://arxiv.org/abs/2305.06727v8 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への新しいアプローチが本論文で提案されている。 基本はまず、理論変数、アクセス可能あるいはアクセス不能な変数、すなわち、アクターが任意に鋭い数値をそれらに割り当てることは可能であるか不可能であるかもしれない。 認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。 群作用はこれらの変数上で定義され、群表現論はここでヒルベルト空間形式論を展開する基礎である。 アクセス可能な理論変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であることが証明される。 論文の焦点は、提案された量子論の基礎を埋める数学的定理である。 ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。 ヒルベルト空間の定式化を再現するには、2つの相補変数の存在を仮定するのに十分である。 数学的変数よりも物理変数にのみ焦点を合わせるために、到達不能変数の概念は概念の概念に置き換えられ、この関係において圏論の側面は群論を部分的に置き換える。 ここで提案された基礎から推測される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。 この解釈の特別な例はQB主義であり、他のいくつかの解釈とも関係している。

A new approach to quantum theory is proposed in this paper. The basis is first taken to be theoretical variables, variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign arbitrarily sharp numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism here. Operators corresponding to accessible theoretical variables are derived, and in the discrete case, it is proved that the possible physical values are the eigenvalues of these operators. The focus of the paper is some mathematical theorems paving the ground for the proposed foundation of quantum theory. It is shown here that the groups and transformations needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably: To reproduce the Hilbert space formulation, it is enough to assume the existence of two complementary variables. To focus only on physical variables rather than mathematical variables, the concept of inaccessible variables is then replaced by the concept of notions, and in this connection, aspects of category theory partly replace group theory. The interpretation inferred from the proposed foundation here may be called a general epistemic interpretation of quantum theory. A special case of this interpretation is QBism; it also has a relationship to several other interpretations.
翻訳日:2023-09-25 18:54:31 公開日:2023-09-21
# 空間コヒーレントアーキテクチャによる神経解離

Neural Disaggregation via Spatially Coherent Architectures ( http://arxiv.org/abs/2306.07292v2 )

ライセンス: Link先を確認
Bin Han, Bill Howe(参考訳) オープンデータは、通常プライバシーポリシーに従うために、空間的および時間的に集約されることが多い。 変数集約レベル(例えば、ジップコード、国勢調査領域、都市ブロック)は、下流AI/MLシステムのための多変量トレーニングセットを提供するために必要な変数間の統合を複雑にする。 本研究では,低分解能不規則分割(zipコードなど)からs高分解能不規則分割(都市ブロックなど)へ関数を学習し,空間データを分解するモデルを検討する。 各地理的アグリゲーションレベルをネットワーク内のレイヤに整合させ,すべてのアグリゲーションレベルを,すべての中間レベルと最終出力の損失項を含むことによって同時に学習可能にする階層的アーキテクチャを提案する。 次に、再集計された出力と基底真理を比較する追加の損失項を検討し、パフォーマンスをさらに向上させる。 トレーニング時間と精度のトレードオフをバランスさせるため,学習時間を大幅に削減した競争予測を実現するレイヤ・バイ・レイヤプロセスを含む,3つのトレーニングレジームを検討する。 限られた歴史的訓練データが存在する状況に対しては, 移動学習シナリオを考察し, ある都市変数で事前学習したモデルを, 数百のサンプルのみを用いて, 都市変数に対して微調整できることを示し, 同一の環境と人口の変数間の共通ダイナミクスを強調した。 2つの都市、3つの変数、2つのアプリケーションドメインからなる4つのデータセット上でこれらの技術を評価することで、地理的に一貫性のあるアーキテクチャは、ベースラインモデルと典型的なヒューリスティックな手法よりも大幅に改善され、あらゆる場所で、任意の変数を任意の解像度で合成するという長期的な目標を前進させる。

Open data is frequently released spatially and temporally aggregated, usually to comply with privacy policies. Varying aggregation levels (e.g., zip code, census tract, city block) complicate the integration across variables needed to provide multi-variate training sets for downstream AI/ML systems. In this work, we consider models to disaggregate spatial data, learning a function from a low-resolution irregular partition (e.g., zip code) to s high-resolution irregular partition (e.g., city block). We propose a hierarchical architecture that aligns each geographic aggregation level with a layer in the network such that all aggregation levels can be learned simultaneously by including loss terms for all intermediate levels as well as the final output. We then consider additional loss terms that compare the re-aggregated output against ground truth to further improve performance. To balance the tradeoff between training time and accuracy, we consider three training regimes, including a layer-by-layer process that achieves competitive predictions with significantly reduced training time. For situations where limited historical training data is available, we study transfer learning scenarios and show that a model pre-trained on one city variable can be fine-tuned for another city variable using only a few hundred samples, highlighting the common dynamics among variables from the same built environment and underlying population. Evaluating these techniques on four datasets across two cities, three variables, and two application domains, we find that geographically coherent architectures provide a significant improvement over baseline models as well as typical heuristic methods, advancing our long-term goal of synthesizing any variable, at any location, at any resolution.
翻訳日:2023-09-25 18:46:54 公開日:2023-09-21
# ShiftAddViT:効率的な視覚変換器に向けた乗算プリミティブの混合

ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer ( http://arxiv.org/abs/2306.06446v2 )

ライセンス: Link先を確認
Haoran You, Huihong Shi, Yipin Guo, Yingyan (Celine) Lin(参考訳) 視覚トランスフォーマー(vits)は印象的なパフォーマンスを示し、複数の視覚タスクのための統一バックボーンとなった。 しかし、ViTの注意と多層知覚(MLP)は、濃密な乗算のために十分に効率が良くないため、訓練と推論にコストがかかる。 この目的のために我々は,プリミティブ(ビットワイズシフトや加算など)の混合による事前学習ViTの再パラメータ化を,スクラッチからトレーニングを必要とせずにGPU上でのエンドツーエンドの推論高速化を目的とした,$\textbf{ShiftAddViT}$と呼ばれる新しいタイプの乗算還元モデルに向けて提案する。 特に、クエリ、キー、値の$\texttt{matmuls}$は、クエリとキーをハミングスペースのバイナリコードにマッピングした後、加算カーネルによって再パラメータ化されます。 残りのMLPや線形層はシフトカーネルによって再パラメータ化される。 我々はTVMを利用して、GPU上でハードウェアを実際に展開するためのカスタマイズされたカーネルを実装し、最適化する。 このような再パラメータ化はモデルの精度を保ちつつも,MLPに適用した場合の精度低下を必然的に招きかねない。 両世界のベストを尽くすために、我々はさらに、乗算またはプリミティブをエキスパートとして取り上げ、例えば乗算とシフト、新しい遅延対応ロードバランシング損失を設計することで、MDPを再パラメータ化するための、新たな専門家(MoE)フレームワークを提案する。 このような損失は、遅延に応じて異なる専門家に動的に入力トークンを割り当てるための一般的なルータのトレーニングに役立つ。 原則として、より高速な専門家が実行すればするほど、大量の入力トークンが割り当てられる。 拡張実験は、提案したShiftAddViTの有効性を一貫して検証し、GPUのレイテンシ削減に$\textbf{5.18$\times$}、省エネに$\textbf{42.9%}を達成した。

Vision Transformers (ViTs) have shown impressive performance and have become a unified backbone for multiple vision tasks. But both attention and multi-layer perceptions (MLPs) in ViTs are not efficient enough due to dense multiplications, resulting in costly training and inference. To this end, we propose to reparameterize the pre-trained ViT with a mixture of multiplication primitives, e.g., bitwise shifts and additions, towards a new type of multiplication-reduced model, dubbed $\textbf{ShiftAddViT}$, which aims for end-to-end inference speedups on GPUs without the need of training from scratch. Specifically, all $\texttt{MatMuls}$ among queries, keys, and values are reparameterized by additive kernels, after mapping queries and keys to binary codes in Hamming space. The remaining MLPs or linear layers are then reparameterized by shift kernels. We utilize TVM to implement and optimize those customized kernels for practical hardware deployment on GPUs. We find that such a reparameterization on (quadratic or linear) attention maintains model accuracy, while inevitably leading to accuracy drops when being applied to MLPs. To marry the best of both worlds, we further propose a new mixture of experts (MoE) framework to reparameterize MLPs by taking multiplication or its primitives as experts, e.g., multiplication and shift, and designing a new latency-aware load-balancing loss. Such a loss helps to train a generic router for assigning a dynamic amount of input tokens to different experts according to their latency. In principle, the faster experts run, the larger amount of input tokens are assigned. Extensive experiments consistently validate the effectiveness of our proposed ShiftAddViT, achieving up to $\textbf{5.18$\times$}$ latency reductions on GPUs and $\textbf{42.9%}$ energy savings, while maintaining comparable accuracy as original or efficient ViTs.
翻訳日:2023-09-25 18:46:23 公開日:2023-09-21
# 推測時間干渉:言語モデルからの真理回答の除去

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model ( http://arxiv.org/abs/2306.03341v4 )

ライセンス: Link先を確認
Kenneth Li, Oam Patel, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) Inference-Time Intervention (ITI)は,大規模言語モデル(LLM)の真正性を高めるために設計された手法である。 ITIは、推論中にモデルのアクティベーションをシフトし、限られた数の注意ヘッドにまたがる一連の方向に従う。 この介入により、TruthfulQAベンチマークにおけるLLaMAモデルの性能が大幅に向上する。 アルパカ (Alpaca) と呼ばれる命令を微調整したLLaMAでは、ITIは真実性を32.5%から65.1%に改善している。 真理と有益さのトレードオフを特定し,介入力の調整によってバランスをとる方法を示す。 ITIは最小限の侵襲性と計算コストがかかる。 さらに、この手法はデータ効率が良い: RLHFのようなアプローチは広範なアノテーションを必要とするが、ITIは数百の例を使って真正な方向を見つける。 以上の結果から, LLMは表面の虚偽を生じるとしても, 真実の可能性を内部的に表現できる可能性が示唆された。

We introduce Inference-Time Intervention (ITI), a technique designed to enhance the truthfulness of large language models (LLMs). ITI operates by shifting model activations during inference, following a set of directions across a limited number of attention heads. This intervention significantly improves the performance of LLaMA models on the TruthfulQA benchmark. On an instruction-finetuned LLaMA called Alpaca, ITI improves its truthfulness from 32.5% to 65.1%. We identify a tradeoff between truthfulness and helpfulness and demonstrate how to balance it by tuning the intervention strength. ITI is minimally invasive and computationally inexpensive. Moreover, the technique is data efficient: while approaches like RLHF require extensive annotations, ITI locates truthful directions using only few hundred examples. Our findings suggest that LLMs may have an internal representation of the likelihood of something being true, even as they produce falsehoods on the surface.
翻訳日:2023-09-25 18:45:15 公開日:2023-09-21
# 潜在量子化による解離

Disentanglement via Latent Quantization ( http://arxiv.org/abs/2305.18378v3 )

ライセンス: Link先を確認
Kyle Hsu and Will Dorrell and James C. R. Whittington and Jiajun Wu and Chelsea Finn(参考訳) 乱れた表現学習では、モデルはデータセットの基盤となる変動源を区別し、互いに独立して表現するように要求される。 モデルにはこれらの情報源に関する基礎的な真理情報がないため、帰納的バイアスは遠絡を可能にする上で最重要である。 本研究では,組織化された潜在空間への符号化と復号に対する帰納的バイアスを構築する。 具体的には、これを行う。 (i)次元ごとに学習可能なスカラー符号帳を分離した離散符号ベクトルに潜在空間を定量化すること。 (ii)異常に高い重量減少による強モデル正則化の適用。 直感的には、潜在空間設計は、エンコーダに少数の異なるスカラー値から符号を組合せて構成させ、それによってデコーダは各値に一貫した意味を割り当てることができる。 正規化は、モデルをこの控えめな戦略へと導くのに役立ちます。 本稿では,基本データ再構成 (vanilla autoencoder) と潜在データ再構成 (InfoGAN) の両方に付加することで,このアプローチの適用性を示す。 信頼性の高い評価のために,我々は,情報理論において結合的に基礎を置き,先行する指標の確立された欠点を修正するための新しい指標セットであるinfomecを提案する。 正規化とともに、潜在量子化は、ベンチマークデータセットの代表スイートにおける学習された表現のモジュラリティと明示性を劇的に改善する。 特に、当社の量子化遅延オートエンコーダ(QLAE)は、データ再構成を損なうことなく、これらのキー不整合特性において、従来から強い手法よりも一貫して優れています。

In disentangled representation learning, a model is asked to tease apart a dataset's underlying sources of variation and represent them independently of one another. Since the model is provided with no ground truth information about these sources, inductive biases take a paramount role in enabling disentanglement. In this work, we construct an inductive bias towards encoding to and decoding from an organized latent space. Concretely, we do this by (i) quantizing the latent space into discrete code vectors with a separate learnable scalar codebook per dimension and (ii) applying strong model regularization via an unusually high weight decay. Intuitively, the latent space design forces the encoder to combinatorially construct codes from a small number of distinct scalar values, which in turn enables the decoder to assign a consistent meaning to each value. Regularization then serves to drive the model towards this parsimonious strategy. We demonstrate the broad applicability of this approach by adding it to both basic data-reconstructing (vanilla autoencoder) and latent-reconstructing (InfoGAN) generative models. For reliable evaluation, we also propose InfoMEC, a new set of metrics for disentanglement that is cohesively grounded in information theory and fixes well-established shortcomings in previous metrics. Together with regularization, latent quantization dramatically improves the modularity and explicitness of learned representations on a representative suite of benchmark datasets. In particular, our quantized-latent autoencoder (QLAE) consistently outperforms strong methods from prior work in these key disentanglement properties without compromising data reconstruction.
翻訳日:2023-09-25 18:44:03 公開日:2023-09-21
# コーン・シャム計算と密度汎関数論の双変量観

Kohn-Sham computation and the bivariate view of density functional theory ( http://arxiv.org/abs/2305.17795v2 )

ライセンス: Link先を確認
Paul E. Lammert(参考訳) KSマシンと呼ばれるコーン・シャム計算の抽象化により、密度汎関数論の数学的側面に基づいて関数解析的視点が発達する。 この機械の自然な意味論は二変量であり、基底密度と対になるポテンシャルの列からなる。 ksマシンがいつ解(ポテンシャル成分が指定された目標に一致する)に収束できるかという問題はここでは解決されないが、関連するものがいくつかある。 例えば、 マシンはソリューションに向かって前進できるのか? エネルギー的な意味では、おそらく例外的な状況を避けるが、通常の密度混合ではなくポテンシャル混合方式を用いる。 近接解のエネルギー的および関数的空間距離の概念は相容れないか? はい、かなりの程度です。 もし一連の接地対のポテンシャル成分が目標密度に収束した場合、その密度成分は接地密度に集合するだろうか? はい、無限に漂う粒子番号をバリングします。

Informed by an abstraction of Kohn-Sham computation called a KS machine, a functional analytic perspective is developed on mathematical aspects of density functional theory. A natural semantics for the machine is bivariate, consisting of a sequence of potentials paired with a ground density. Although the question of when the KS machine can converge to a solution (where the potential component matches a designated target) is not resolved here, a number of related ones are. For instance: Can the machine progress toward a solution? Barring presumably exceptional circumstances, yes in an energetic sense, but using a potential-mixing scheme rather than the usual density-mixing variety. Are energetic and function space distance notions of proximity-to-solution commensurate? Yes, to a significant degree. If the potential components of a sequence of ground pairs converges to a target density, do the density components cluster on ground densities thereof? Yes, barring particle number drifting to infinity.
翻訳日:2023-09-25 18:43:38 公開日:2023-09-21
# 大規模言語モデルにおける人格特性

Personality Traits in Large Language Models ( http://arxiv.org/abs/2307.00184v3 )

ライセンス: Link先を確認
Greg Serapio-Garc\'ia, Mustafa Safdari, Cl\'ement Crepy, Luning Sun, Stephen Fitz, Peter Romero, Marwa Abdulhai, Aleksandra Faust, Maja Matari\'c(参考訳) 大規模言語モデル(LLM)の出現は自然言語処理に革命をもたらし、一貫性と文脈に関連のある人間的なテキストの生成を可能にした。 llmが世界中の一般大衆が使う会話エージェントのパワーを増すにつれて、大量の人間のデータを訓練することで、これらのモデルに埋め込まれた合成パーソナリティはますます重要になっている。 コミュニケーションの有効性を判断する鍵となる要因として,広く利用されているLDM上でのパーソナリティテストの実施と検証,およびこのようなLCMの生成したテキストにおけるパーソナリティ形成のための総合的な手法を提案する。 この方法を適用してみると、 1)特定刺激条件下でのLCMの出力の性格測定は信頼性が高く有効である。 2 LLM人格の信頼性及び妥当性の証拠は、より大きく細調整されたモデルに強く、かつ、 3) LLM出力のパーソナリティは, 特定の人間のパーソナリティプロファイルを模倣するために, 所望の次元に沿って形成することができる。 本稿では,計測・形成手法の応用と倫理的意義,特に責任あるAIについて論じる。

The advent of large language models (LLMs) has revolutionized natural language processing, enabling the generation of coherent and contextually relevant human-like text. As LLMs increasingly power conversational agents used by the general public world-wide, the synthetic personality embedded in these models, by virtue of training on large amounts of human data, is becoming increasingly important. Since personality is a key factor determining the effectiveness of communication, we present a comprehensive method for administering and validating personality tests on widely-used LLMs, as well as for shaping personality in the generated text of such LLMs. Applying this method, we found: 1) personality measurements in the outputs of some LLMs under specific prompting configurations are reliable and valid; 2) evidence of reliability and validity of synthetic LLM personality is stronger for larger and instruction fine-tuned models; and 3) personality in LLM outputs can be shaped along desired dimensions to mimic specific human personality profiles. We discuss application and ethical implications of the measurement and shaping method, in particular regarding responsible AI.
翻訳日:2023-09-25 18:36:29 公開日:2023-09-21
# 近小ゲートセットトモグラフィ実験設計

Near-Minimal Gate Set Tomography Experiment Designs ( http://arxiv.org/abs/2308.08781v2 )

ライセンス: Link先を確認
Corey Ostrove, Kenneth Rudinger, Stefan Seritan, Kevin Young, Robin Blume-Kohout(参考訳) ゲートセットトモグラフィ(GST)は、量子プロセッサの論理ゲートの全てに対するノイズチャネルの正確で自己整合的な推定を提供する。 しかし、GST実験は大きなものであり、多くの異なる量子回路を含んでいる。 これにより、2キュービット以上のシステムでの使用が妨げられた。 ここでは,ほぼすべての冗長性を除去し,精度を損なうことなくより小さくスケーラブルな実験を実現することで,gst実験設計を合理化する方法を示す。 我々は、gst回路の中心にある「ガーム」サブルーチンを分析し、どのゲートセットパラメータに敏感であるかを正確に識別し、この情報を利用して他の回路の感度を複製する回路を除去する。 この手法を2量子gst実験に適用し、理論上の最小値よりもわずかに多くの回路を含むが、ハイゼンベルク的な精度のスケーリング(シミュレーションとフィッシャー情報を用いた理論解析によって示されるように)を達成する流線形な実験設計を生成する。 実用的には、新しい実験設計は以前のGST実験の精度と大幅に少ない回路で一致させることができる。 本稿では,GSTを3ビットシステムに拡張する可能性と可能性について議論する。

Gate set tomography (GST) provides precise, self-consistent estimates of the noise channels for all of a quantum processor's logic gates. But GST experiments are large, involving many distinct quantum circuits. This has prevented their use on systems larger than two qubits. Here, we show how to streamline GST experiment designs by removing almost all redundancy, creating smaller and more scalable experiments without losing precision. We do this by analyzing the "germ" subroutines at the heart of GST circuits, identifying exactly what gate set parameters they are sensitive to, and leveraging this information to remove circuits that duplicate other circuits' sensitivities. We apply this technique to two-qubit GST experiments, generating streamlined experiment designs that contain only slightly more circuits than the theoretical minimum bounds, but still achieve Heisenberg-like scaling in precision (as demonstrated via simulation and a theoretical analysis using Fisher information). In practical use, the new experiment designs can match the precision of previous GST experiments with significantly fewer circuits. We discuss the prospects and feasibility of extending GST to three-qubit systems using our techniques.
翻訳日:2023-09-25 18:16:05 公開日:2023-09-21
# 開発AIのブートストラップ:単純な能力から知能な人間互換AIへ

Bootstrapping Developmental AIs: From Simple Competences to Intelligent Human-Compatible AIs ( http://arxiv.org/abs/2308.04586v8 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) AIを作成するための主流のアプローチは、大きな言語モデル(LLM)を備えた生成的およびディープラーニングAIアプローチと、手作業で構築された従来型のシンボリックAIアプローチである。 手作業で構築されたAIは、概して周囲のドメインでも不安定である。 生成AIは奇妙な間違いを犯し、気づかない。 どちらのアプローチでもaiは容易に指示できず、常識を使わず、好奇心を欠いている。 抽象的な知識を持っているが、社会的に整合性がない。 開発AIには、もっと可能性があるかもしれない。 人間の子供のように能力が発達する。 彼らは本質的な能力から始まり、環境と対話し、その相互作用から学びます。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 発達aiは、視覚とマルチモーダルの知覚、オブジェクト認識と操作を含む能力を示している。 抽象発見、好奇心、模倣学習、初期の言語獲得のための計算モデルも実証されている。 その約束は、開発AIが、人びとのように自己開発で社会的に発達した能力を獲得することだ。 それらは、現在の主流のAIアプローチの欠点に対処し、最終的に批判的な読み出し、証明評価、仮説テストを含む洗練された学習形式へとつながる。 しかし、発達段階のAIプロジェクトは、スピーチが熟達するまでの約2年間、人間の発達に対応する幼児レベルの能力にはまだ達していない。 彼らは読書の障壁を橋渡しせず、巧みに、そして懐疑的にオンライン情報資源を描いている。 このポジションペーパーは、知的で人間と互換性のあるAIを作るために開発AIの実践を拡張するための論理、展望、ギャップ、課題を概説する。

The mainstream approaches for creating AIs are the generative and deep learning AI approaches with large language models (LLMs) and the traditional manually constructed symbolic AI approach. Manually constructed AIs are generally brittle even in circumscribed domains. Generative AIs make strange mistakes and do not notice them. In both approaches the AIs cannot be instructed easily, fail to use common sense, and lack curiosity. They have abstract knowledge but lack social alignment. Developmental AIs may have more potential. They develop competences like human children do. They start with innate competences, interact with the environment, and learn from their interactions. They interact and learn from people and establish perceptual, cognitive, and common grounding. Developmental AIs have demonstrated capabilities including visual and multimodal perception, and object recognition and manipulation. Computational models for abstraction discovery, curiosity, imitation learning, and early language acquisition have also been demonstrated. The promise is that developmental AIs will acquire self-developed and socially developed competences like people do. They would address the shortcomings of current mainstream AI approaches, and ultimately lead to sophisticated forms of learning involving critical reading, provenance evaluation, and hypothesis testing. However, developmental AI projects have not yet fully reached toddler level competencies corresponding to human development at about two years of age, before their speech is fluent. They do not bridge the Reading Barrier, to skillfully and skeptically draw on online information resources. This position paper lays out the logic, prospects, gaps, and challenges for extending the practice of developmental AIs to create intelligent, human-compatible AIs.
翻訳日:2023-09-25 18:14:21 公開日:2023-09-21
# 量子力学はより大きく複雑な量子理論を生み出すのか? 経験中心量子論と量子論の相互作用論のケース

Does Quantum Mechanics Breed Larger, More Intricate Quantum Theories? The Case for Experience-Centric Quantum Theory and the Interactome of Quantum Theories ( http://arxiv.org/abs/2308.02630v2 )

ライセンス: Link先を確認
Alireza Tavanfar, S. Alipour, A. T. Rezakhani(参考訳) 量子力学は、その内部構造と巨大な経験的成功によって知られており、内部の複雑さと現象学の汎用性を持つより大きな量子理論のゲノムを自身で持つかどうかという急進的な疑問に対処する。 つまり、クローズド量子システムの基本レベルと解釈的側面に関わらず、標準量子論(sqt)が文脈に基づく変形原理や構造を持つ量子理論を保ち、広い範囲において定性的予測力を持つかどうかである。 本稿では, 量子計算に基づく量子シミュレーションと, 情報理論, 基本的・機能的出現, 参加的エージェンシーの枠組みにおける, 抽象的論理学の原理から生じる, 補完的証拠と推論に従えば, 肯定的な疑問に答える。 この光が示すように、最近提案された経験中心量子論(ECQT)は、量子力学を劇的に一般化した量子挙動のより大きくよりリッチな理論である。 ECQTにより、閉量子系の発達した状態履歴の量子情報は、多体相互作用、ハミルトニアン、さらには内部要素や全体の「粒子」の定義に継続的に貢献することができる。 したがって、ユニタリ進化は継続的に影響を受け、エージェントシステムの経験によって誘導可能となる。 ECQTにおけるユニタリティと非マルコビアン性の固有の相互作用は、様々な行動相をもたらし、これは同時に閉かつ開量子系の特性を注入し、SQTにおける開系の理論を超越する。 より広い視点で見れば、我々の研究の要点は量子相互作用論の存在、--------共生的、独立的な文脈に基づく量子論の対話的景観--とその予測的現象論的有用性である。

We pose and address the radical question that whether quantum mechanics, known for its firm internal structure and enormous empirical success, carries in itself the genome of larger quantum theories which have higher internal intricacies and phenomenological versatilities. That is, on the basic level of closed quantum systems and regardless of interpretational aspects, whether standard quantum theory (SQT) harbors quantum theories with context-based deformed principles or structures, having definite predictive power within broader scopes. We answer the question in affirmative following complementary evidence and reasoning arising from quantum-computation-based quantum simulation and fundamental, general, abstract rationales in the frameworks of information theory, fundamental or functional emergence, and participatory agency. In this light, as we show, one is led to the recently proposed experience-centric quantum theory (ECQT), which is a larger and richer theory of quantum behaviors with drastically generalized quantum dynamics. ECQT allows the quantum information of the closed quantum system's developed state history to continually contribute to defining manybody interactions, Hamiltonians, and even internal elements and ``particles'' of the total system. Hence the unitary evolutions are continually impacted and become guidable by the agent-system's experience. The intrinsic interplay of unitarity and non-Markovianity in ECQT brings about a host of diverse behavioral phases, which concurrently infuse closed and open quantum system characteristics and even surpasses the theory of open systems in SQT. In the broader perspective, an upshot of our investigation is the existence of the quantum interactome--the interactive landscape of all coexisting, independent context-based quantum theories which emerge from inferential participatory agencies--and its predictive phenomenological utility.
翻訳日:2023-09-25 18:13:28 公開日:2023-09-21
# 低回路2ビットゲートセットトモグラフィ

Two-Qubit Gate Set Tomography with Fewer Circuits ( http://arxiv.org/abs/2307.15767v2 )

ライセンス: Link先を確認
Kenneth M. Rudinger, Corey I. Ostrove, Stefan K. Seritan, Matthew D. Grace, Erik Nielsen, Robin J. Blume-Kohout, Kevin C. Young(参考訳) ゲートセットトモグラフィ(GST)は、ゲート、状態準備、測定を含む量子情報処理装置の量子論理演算のトモグラフィ再構成のための、自己整合的で高精度な方法である。 しかし、GSTの実験コストはキュービット数とともに指数関数的に増加する。 わずか2量子ビットでも特徴付けるため、標準のGST実験には数万の回路がある可能性があるため、プラットフォームにとって違法なコストがかかる。 GST実験は非常に過完全であるため、多くの回路を破棄することができる。 これにより、GSTのハイゼンベルクのようなスケーリングを精度良く維持しながら、GSTの実験コストが劇的に削減される。 我々は、GST回路の構造を利用して、どの回路が過剰であるかを決定する方法を示す。 実験結果の有効性を数値シミュレーションとフィッシャー情報を用いて確認する。 また,これらの技術が3量子GSTの展望に与える影響についても検討する。

Gate set tomography (GST) is a self-consistent and highly accurate method for the tomographic reconstruction of a quantum information processor's quantum logic operations, including gates, state preparations, and measurements. However, GST's experimental cost grows exponentially with qubit number. For characterizing even just two qubits, a standard GST experiment may have tens of thousands of circuits, making it prohibitively expensive for platforms. We show that, because GST experiments are massively overcomplete, many circuits can be discarded. This dramatically reduces GST's experimental cost while still maintaining GST's Heisenberg-like scaling in accuracy. We show how to exploit the structure of GST circuits to determine which ones are superfluous. We confirm the efficacy of the resulting experiment designs both through numerical simulations and via the Fisher information for said designs. We also explore the impact of these techniques on the prospects of three-qubit GST.
翻訳日:2023-09-25 18:12:52 公開日:2023-09-21
# BridgeData V2: 大規模ロボット学習のためのデータセット

BridgeData V2: A Dataset for Robot Learning at Scale ( http://arxiv.org/abs/2308.12952v2 )

ライセンス: Link先を確認
Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine(参考訳) スケーラブルなロボット学習の研究を容易にするように設計されたロボット操作行動の大規模かつ多様なデータセットであるbridgedata v2を紹介する。 BridgeData V2には、24の環境にまたがる60,096のトラジェクトリが含まれている。 BridgeData V2は広範なタスクと環境の多様性を提供し、環境、ドメイン、機関をまたいで一般化できるスキルをもたらし、データセットを幅広い研究者にとって有用なリソースにする。 さらにデータセットは、ゴールイメージや自然言語命令を条件とした、さまざまなオープンボキャブラリなマルチタスク学習手法と互換性がある。 実験では,我々のデータセット上で6つの最先端模倣学習とオフライン強化学習法をトレーニングし,それらが様々な一般化を必要とする一連のタスクで成功することを確認した。 また,これらの手法の性能は,よりデータと高いキャパシティモデルにより向上し,より多様なスキルのトレーニングによって一般化が向上することを示した。 bridgedata v2とトレーニング済みモデルを公開することにより、スケーラブルなロボット学習手法の研究を加速することを目指している。 プロジェクトページ: https://rail-berkeley.github.io/bridgedata

We introduce BridgeData V2, a large and diverse dataset of robotic manipulation behaviors designed to facilitate research on scalable robot learning. BridgeData V2 contains 60,096 trajectories collected across 24 environments on a publicly available low-cost robot. BridgeData V2 provides extensive task and environment variability, leading to skills that can generalize across environments, domains, and institutions, making the dataset a useful resource for a broad range of researchers. Additionally, the dataset is compatible with a wide variety of open-vocabulary, multi-task learning methods conditioned on goal images or natural language instructions. In our experiments, we train 6 state-of-the-art imitation learning and offline reinforcement learning methods on our dataset, and find that they succeed on a suite of tasks requiring varying amounts of generalization. We also demonstrate that the performance of these methods improves with more data and higher capacity models, and that training on a greater variety of skills leads to improved generalization. By publicly sharing BridgeData V2 and our pre-trained models, we aim to accelerate research in scalable robot learning methods. Project page at https://rail-berkeley.github.io/bridgedata
翻訳日:2023-09-25 18:04:03 公開日:2023-09-21
# 無線ネットワーク上でのフェデレーション学習の計算とコミュニケーション

Computation and Communication Efficient Federated Learning over Wireless Networks ( http://arxiv.org/abs/2309.01816v2 )

ライセンス: Link先を確認
Xiaonan Liu and Tharmalingam Ratnarajah(参考訳) フェデレーション学習(fl)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。 しかし、デバイスのデータの多様性により学習精度が低下し、計算能力や無線リソースの制限されたデバイス上で大規模学習モデルを更新すると計算と通信の遅延が増加する。 我々は,これらの課題を克服するために,部分モデルプルーニングとパーソナライズを備えた新しいflフレームワークを検討する。 このフレームワークは、学習モデルを、データ表現を学ぶために、すべてのデバイスと共有されるモデルプルーニングと、特定のデバイス向けに微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。 次に,提案するflフレームワークの計算と通信レイテンシと収束解析を数学的に解析する。 収束率を最大化し、学習精度を保証するため、KKT(Karush Kuhn Tucker)条件を配置し、プルーニング比と帯域割り当てを最適化する。 最後に,提案するflフレームワークはモデルパーソナライズのみと比較して計算と通信の遅延を約50%削減できることを示す実験結果を得た。

Federated learning (FL) enables distributed learning across edge devices while protecting data privacy. However, the learning accuracy decreases due to the heterogeneity of devices' data, and the computation and communication latency increase when updating large-scale learning models on devices with limited computational capability and wireless resources. We consider a novel FL framework with partial model pruning and personalization to overcome these challenges. This framework splits the learning model into a global part with model pruning shared with all devices to learn data representations and a personalized part to be fine-tuned for a specific device, which adapts the model size during FL to reduce both computation and communication latency and increases the learning accuracy for the device with non-independent and identically distributed (non-IID) data. Then, the computation and communication latency and the convergence analysis of the proposed FL framework are mathematically analyzed. To maximize the convergence rate and guarantee learning accuracy, Karush Kuhn Tucker (KKT) conditions are deployed to jointly optimize the pruning ratio and bandwidth allocation. Finally, experimental results demonstrate that the proposed FL framework achieves a remarkable reduction of approximately 50 percents computation and communication latency compared with the scheme only with model personalization.
翻訳日:2023-09-25 17:55:16 公開日:2023-09-21
# フォールディング注意:オンデバイストランスを用いたストリーミング音声認識におけるメモリと電力最適化

Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition ( http://arxiv.org/abs/2309.07988v2 )

ライセンス: Link先を確認
Yang Li, Liangzhen Lai, Yuan Shangguan, Forrest N. Iandola, Ernie Chang, Yangyang Shi, Vikas Chandra(参考訳) トランスフォーマーベースのモデルは音声認識に優れている。 トランスフォーマー推論を最適化する既存の取り組みは、一般的には、注意スコアの計算を単純化することに集中している。 しかし、ストリーミング音声認識モデルは、通常、毎回限られた数のトークンを処理し、注目スコアの計算をボトルネックより少なくする。 その代わりに、ボトルネックはマルチヘッドの注意とフィードフォワードネットワークの線形投影層にあり、モデルサイズの大部分を占め、計算、メモリ、電力使用量に大きく貢献する。 このボトルネックに対処するため,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意を提案する。 オンデバイストランスフォーマーに基づくストリーミング音声認識モデルの実験では、折り畳み注意がモデルサイズ(および対応するメモリ消費)を最大24%削減し、消費電力を最大23%削減し、いずれもモデルの精度や計算オーバーヘッドを損なうことなく実現している。

Transformer-based models excel in speech recognition. Existing efforts to optimize Transformer inference, typically for long-context applications, center on simplifying attention score calculations. However, streaming speech recognition models usually process a limited number of tokens each time, making attention score calculation less of a bottleneck. Instead, the bottleneck lies in the linear projection layers of multi-head attention and feedforward networks, constituting a substantial portion of the model size and contributing significantly to computation, memory, and power usage. To address this bottleneck, we propose folding attention, a technique targeting these linear layers, significantly reducing model size and improving memory and power efficiency. Experiments on on-device Transformer-based streaming speech recognition models show that folding attention reduces model size (and corresponding memory consumption) by up to 24% and power consumption by up to 23%, all without compromising model accuracy or computation overhead.
翻訳日:2023-09-25 17:43:04 公開日:2023-09-21
# Virchow:100万ドルのデジタル病理モデル

Virchow: A Million-Slide Digital Pathology Foundation Model ( http://arxiv.org/abs/2309.07778v3 )

ライセンス: Link先を確認
Eugene Vorontsov, Alican Bozkurt, Adam Casson, George Shaikovski, Michal Zelechowski, Siqi Liu, Philippe Mathieu, Alexander van Eck, Donghun Lee, Julian Viret, Eric Robert, Yi Kan Wang, Jeremy D. Kunz, Matthew C. H. Lee, Jan Bernhard, Ran A. Godrich, Gerard Oakley, Ewan Millar, Matthew Hanna, Juan Retamero, William A. Moye, Razik Yousfi, Christopher Kanan, David Klimstra, Brandon Rothrock, Thomas J. Fuchs(参考訳) 計算病理学は人工知能を使用して、スライド画像全体の分析を通じて精密医療と意思決定支援システムを可能にする。 がんの診断と治療に革命をもたらす可能性がある。 しかし、この目的に対する大きな課題は、多くの特定の計算病理タスクにおいて、データの量は開発に不十分であることである。 この課題に対処するため、計算病理学のための6億2200万のパラメータディープニューラルネットワーク基盤モデルであるVirchowを開発した。 virchowは自己教師付き学習を用いて150万ヘマトキシリンとエオシンを訓練し、様々な組織群からスライド画像全体を染色した。 タイルレベルのパンカンサー検出やサブタイピング、スライドレベルのバイオマーカー予測などの下流タスクで評価されると、Virchowは、トレーニング済みデータと同じ人口から引き出された内部データセットと、外部の公開データセットの両方で、最先端のシステムよりも優れている。 Virchowは膵管タイル分類では93%の精度で,大腸微小静脈不安定症では0.983,乳癌では0.967であった。 パフォーマンスの向上は、大量の病理画像データセットの事前トレーニングの重要性を強調しており、さらに大きなデータセットの事前トレーニングは、薬物結果予測などの限られたトレーニングデータが利用できる多くの高インパクトアプリケーションの性能向上を継続する可能性があることを示唆している。

Computational pathology uses artificial intelligence to enable precision medicine and decision support systems through the analysis of whole slide images. It has the potential to revolutionize the diagnosis and treatment of cancer. However, a major challenge to this objective is that for many specific computational pathology tasks the amount of data is inadequate for development. To address this challenge, we created Virchow, a 632 million parameter deep neural network foundation model for computational pathology. Using self-supervised learning, Virchow is trained on 1.5 million hematoxylin and eosin stained whole slide images from diverse tissue groups, which is orders of magnitude more data than previous works. When evaluated on downstream tasks including tile-level pan-cancer detection and subtyping and slide-level biomarker prediction, Virchow outperforms state-of-the-art systems both on internal datasets drawn from the same population as the pretraining data as well as external public datasets. Virchow achieves 93% balanced accuracy for pancancer tile classification, and AUCs of 0.983 for colon microsatellite instability status prediction and 0.967 for breast CDH1 status prediction. The gains in performance highlight the importance of pretraining on massive pathology image datasets, suggesting pretraining on even larger datasets could continue improving performance for many high-impact applications where limited amounts of training data are available, such as drug outcome prediction.
翻訳日:2023-09-25 17:42:46 公開日:2023-09-21
# オンライン無限次元回帰:学習線形作用素

Online Infinite-Dimensional Regression: Learning Linear Operators ( http://arxiv.org/abs/2309.06548v2 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) オンライン環境における2つの無限次元ヒルベルト空間間の二乗損失下での線形作用素の学習問題を考察する。 一様有界な$p$-schattenノルムを持つ線型作用素のクラスは、任意の$p \in [1, \infty)$に対してオンライン学習可能である。 一方、作用素ノルムに関する一様有界線型作用素のクラスがオンライン学習可能であることを示すことによって、不可能な結果が証明される。 さらに,オンライン学習可能だが一様収束が成立しない有界線形作用素のクラスを識別することにより,オンライン一様収束とオンライン学習可能性の分離を示す。 最後に,不合理な結果と一様収束と学習可能性の分離が,無知のPAC設定にも有効であることを示す。

We consider the problem of learning linear operators under squared loss between two infinite-dimensional Hilbert spaces in the online setting. We show that the class of linear operators with uniformly bounded $p$-Schatten norm is online learnable for any $p \in [1, \infty)$. On the other hand, we prove an impossibility result by showing that the class of uniformly bounded linear operators with respect to the operator norm is \textit{not} online learnable. Moreover, we show a separation between online uniform convergence and online learnability by identifying a class of bounded linear operators that is online learnable but uniform convergence does not hold. Finally, we prove that the impossibility result and the separation between uniform convergence and learnability also hold in the agnostic PAC setting.
翻訳日:2023-09-25 17:42:03 公開日:2023-09-21
# 合成縦断患者データの生成と評価方法--体系的考察

Methods for generating and evaluating synthetic longitudinal patient data: a systematic review ( http://arxiv.org/abs/2309.12380v1 )

ライセンス: Link先を確認
Katariina Perkonoja and Kari Auranen and Joni Virta(参考訳) 近年のデータ拡散は, 様々な統計・深層学習技術の進歩と活用をもたらし, 研究・開発活動の迅速化につながっている。 しかし、データ利用の急増や医療などのプライバシー規制が法的に制限されているために、すべての業界がデータ利用の急増から平等に恩恵を受けているわけではない。 この問題に対処するために,合成データ生成法など,さまざまな統計開示法やプライバシー保護法が提案されている。 合成データは既存のデータに基づいて生成され、可能な限り密接に複製し、実際の機密データのためのプロキシとして機能する。 本稿では, 医学における一般的なデータ型である合成縦断患者データの生成と評価法について体系的に検討する。 レビューはPRISMAガイドラインに準拠し、2022年末まで5つのデータベースからの文献をカバーしている。 従来のシミュレーション手法から最新のディープラーニング手法まで,17の手法について述べる。 収集された情報は、メソッドタイプ、ソースコードの可用性、類似性、ユーティリティ、プライバシの評価に使用されるアプローチを含むが、制限されていない。 さらに, 合成縦型データ生成手法の開発のための実践的ガイドラインと要点について述べる。

The proliferation of data in recent years has led to the advancement and utilization of various statistical and deep learning techniques, thus expediting research and development activities. However, not all industries have benefited equally from the surge in data availability, partly due to legal restrictions on data usage and privacy regulations, such as in medicine. To address this issue, various statistical disclosure and privacy-preserving methods have been proposed, including the use of synthetic data generation. Synthetic data are generated based on some existing data, with the aim of replicating them as closely as possible and acting as a proxy for real sensitive data. This paper presents a systematic review of methods for generating and evaluating synthetic longitudinal patient data, a prevalent data type in medicine. The review adheres to the PRISMA guidelines and covers literature from five databases until the end of 2022. The paper describes 17 methods, ranging from traditional simulation techniques to modern deep learning methods. The collected information includes, but is not limited to, method type, source code availability, and approaches used to assess resemblance, utility, and privacy. Furthermore, the paper discusses practical guidelines and key considerations for developing synthetic longitudinal data generation methods.
翻訳日:2023-09-25 17:36:15 公開日:2023-09-21
# 深部インフォームドな特徴蒸留とサンプリングによる非教師付きセマンティックセマンティックセマンティックセグメンテーションの空間誘導

Spatially Guiding Unsupervised Semantic Segmentation Through Depth-Informed Feature Distillation and Sampling ( http://arxiv.org/abs/2309.12378v1 )

ライセンス: Link先を確認
Leon Sick, Dominik Engel, Pedro Hermosilla, Timo Ropinski(参考訳) 従来、セマンティックセグメンテーションを実行するためにニューラルネットワークをトレーニングするには、高価な人造アノテーションが必要だった。 しかし最近では、教師なし学習の分野での進歩は、この問題と教師付きアルゴリズムとのギャップを埋めるための大きな進歩をもたらした。 これを実現するために、データセット全体にわたって画像からランダムにサンプリングされた特徴を関連付ける学習によって意味知識を蒸留する。 本研究では、深度情報を用いて、シーンの構造に関する情報をトレーニングプロセスに組み込むことにより、これらの進歩の上に構築する。 本研究では,(1)特徴マップと深度マップを空間的に相関させて深度相関を学習してシーンの構造に関する知識を誘導し,(2)最遠点サンプリングを実装し,シーンの深度情報に対する3次元サンプリング技術を利用して,より効果的に特徴を抽出する。 最後に,複数のベンチマークデータセットにまたがる性能の大幅な向上を図示し,技術的貢献の有効性を実証する。

Traditionally, training neural networks to perform semantic segmentation required expensive human-made annotations. But more recently, advances in the field of unsupervised learning have made significant progress on this issue and towards closing the gap to supervised algorithms. To achieve this, semantic knowledge is distilled by learning to correlate randomly sampled features from images across an entire dataset. In this work, we build upon these advances by incorporating information about the structure of the scene into the training process through the use of depth information. We achieve this by (1) learning depth-feature correlation by spatially correlate the feature maps with the depth maps to induce knowledge about the structure of the scene and (2) implementing farthest-point sampling to more effectively select relevant features by utilizing 3D sampling techniques on depth information of the scene. Finally, we demonstrate the effectiveness of our technical contributions through extensive experimentation and present significant improvements in performance across multiple benchmark datasets.
翻訳日:2023-09-25 17:35:57 公開日:2023-09-21
# 紫外オリーブ油の時効に及ぼす遮蔽光:蛍光分光法と機械学習技術による温度の影響

Shedding Light on the Ageing of Extra Virgin Olive Oil: Probing the Impact of Temperature with Fluorescence Spectroscopy and Machine Learning Techniques ( http://arxiv.org/abs/2309.12377v1 )

ライセンス: Link先を確認
Francesca Venturini, Silvan Fluri, Manas Mejari, Michael Baumgartner, Dario Piga, Umberto Michelucci(参考訳) 本研究は,紫外線吸収および全蛍光分光による加速貯蔵条件下での付加ヴァージンオリーブ油 (EVOO) の酸化を系統的に検討する。 大量のデータを収集することにより,高集積データに適用した機械学習に基づいて,石油の品質をモニタリングする手法を提案する。 EVOOは高品質の野菜油であり、多くの健康上の利益と優れた味で世界的に評価されている。 EVOOは優れた品質にもかかわらず、酸化によって時間の経過とともに劣化し、健康と風味の両方に影響を及ぼす。 したがって、酸化がevooに与える影響を定量化し、専門的な研究室ではなく、フィールド条件下で容易に実施できる方法を開発することは非常に重要である。 以下の研究により, 蛍光分光法は, 高度に凝集した場合でも, 酸化効果を監視し, EVOOの品質を評価することができることを示した。 提案手法を用いて蛍光分光法を利用する必要はなく,非科学者が現場で使用可能なコスト効率の高い溶液によりEVOOの品質を簡易に評価できることが示唆された。

This work systematically investigates the oxidation of extra virgin olive oil (EVOO) under accelerated storage conditions with UV absorption and total fluorescence spectroscopy. With the large amount of data collected, it proposes a method to monitor the oil's quality based on machine learning applied to highly-aggregated data. EVOO is a high-quality vegetable oil that has earned worldwide reputation for its numerous health benefits and excellent taste. Despite its outstanding quality, EVOO degrades over time owing to oxidation, which can affect both its health qualities and flavour. Therefore, it is highly relevant to quantify the effects of oxidation on EVOO and develop methods to assess it that can be easily implemented under field conditions, rather than in specialized laboratories. The following study demonstrates that fluorescence spectroscopy has the capability to monitor the effect of oxidation and assess the quality of EVOO, even when the data are highly aggregated. It shows that complex laboratory equipment is not necessary to exploit fluorescence spectroscopy using the proposed method and that cost-effective solutions, which can be used in-field by non-scientists, could provide an easily-accessible assessment of the quality of EVOO.
翻訳日:2023-09-25 17:35:37 公開日:2023-09-21
# 安定化符号のための量子回路の系統設計と最適化

Systematic Design and Optimization of Quantum Circuits for Stabilizer Codes ( http://arxiv.org/abs/2309.12373v1 )

ライセンス: Link先を確認
Arijit Mondal, Keshab K. Parhi(参考訳) 量子コンピューティングは、従来のものよりも指数的なスピードアップを達成する可能性を持つ新興技術である。 量子優位性を達成するために、通信、情報処理、人工知能といった分野に量子原理が適用されている。 しかし、量子ビットは非常にうるさいため、量子コンピュータは根本的な問題に直面している。 量子ビットエラーを自由に保つことは、信頼できる量子コンピューティングへの最も重要なステップの1つである。 量子誤り訂正のための異なる安定化符号が過去数十年間提案され、古典的誤り訂正符号を量子領域にインポートするいくつかの方法が提案されている。 しかし、これらの量子エンコーダとデコーダのための回路の設計と最適化への公式なアプローチは今のところ提案されていない。 本稿では,一般安定化符号の符号化回路を体系的に構築するための形式的アルゴリズムを提案する。 このアルゴリズムは、8ビット符号の符号化回路と復号回路の設計に用いられる。 次に、設計したエンコーダ回路の最適化のための体系的手法を提案する。 提案手法を用いて,使用した2ビットゲートの数で符号化回路を最適化する。 提案した8ビットエンコーダは,前処理で14個のシングルキュービットゲート,33個の2キュービットゲート,6個のCCNOTゲートに対して,18個のCNOTゲートと4個のアダマールゲートを使用する。 エンコーダ回路とデコーダ回路はIBM Qiskitを用いて検証する。 また,steane符号に最適化されたエンコーダ回路と,使用するゲート数の観点から13量子ビット符号を提案する。

Quantum computing is an emerging technology that has the potential to achieve exponential speedups over their classical counterparts. To achieve quantum advantage, quantum principles are being applied to fields such as communications, information processing, and artificial intelligence. However, quantum computers face a fundamental issue since quantum bits are extremely noisy and prone to decoherence. Keeping qubits error free is one of the most important steps towards reliable quantum computing. Different stabilizer codes for quantum error correction have been proposed in past decades and several methods have been proposed to import classical error correcting codes to the quantum domain. However, formal approaches towards the design and optimization of circuits for these quantum encoders and decoders have so far not been proposed. In this paper, we propose a formal algorithm for systematic construction of encoding circuits for general stabilizer codes. This algorithm is used to design encoding and decoding circuits for an eight-qubit code. Next, we propose a systematic method for the optimization of the encoder circuit thus designed. Using the proposed method, we optimize the encoding circuit in terms of the number of 2-qubit gates used. The proposed optimized eight-qubit encoder uses 18 CNOT gates and 4 Hadamard gates, as compared to 14 single qubit gates, 33 2-qubit gates, and 6 CCNOT gates in a prior work. The encoder and decoder circuits are verified using IBM Qiskit. We also present optimized encoder circuits for Steane code and a 13-qubit code in terms of the number of gates used.
翻訳日:2023-09-25 17:35:17 公開日:2023-09-21
# ランダム合金GaBi$_{x}$As$_{1-x}$バリアのInAs量子ドット分子への導入:合金ひずみとトンネル強化への軌道効果

Incorporation of random alloy GaBi$_{x}$As$_{1-x}$ barriers in InAs quantum dot molecules: alloy strain and orbital effects towards enhanced tunneling ( http://arxiv.org/abs/2309.10115v2 )

ライセンス: Link先を確認
Arthur Lin, Matthew F. Doty, Garnett W. Bryant(参考訳) 長いホールスピンコヒーレンス時間を持ち、光学制御スキームに適する自己組み立てinas量子ドット(qds)は、長い間、キュービットアーキテクチャのビルディングブロックとして研究されてきた。 そのような設計の一つは、2つのQDを垂直に積み重ねて量子ドット分子(QDM)を作成することである。 2つのドットは共振的に調整され、各ドットに非局在化されたホール状態のハイブリダイゼーションから「分子様」結合穴状態を形成する。 さらに、ドットの積層方向に沿ってオフセットされたハイブリッド状態のスピンミキシングにより、クビット回転を光学的に駆動することができ、全光量子制御方式が可能である。 このスピン混合の大きさの増大は、光量子制御プロトコルにおいて重要である。 ドット間のトンネル結合とスピン混合を強化するため、GaAs間障壁にBiを導入する。 従来,InAs/GaBiAsを原子性強結合形式でモデル化する方法,および合金によるドットエネルギーレベルの影響について検討した。 本稿では, 7%の合金が存在する場合, 孔孔結合強度を3倍に増やすトンネルバリアの低下について検討する。 さらに, 合金による2点間の非対称ひずみが共鳴をいかにシフトさせるかを示す。 最後に、biの導入が最も有利なデバイスジオメトリについて論じる。

Self-assembled InAs quantum dots (QDs), which have long hole-spin coherence times and are amenable to optical control schemes, have long been explored as building blocks for qubit architectures. One such design consists of vertically stacking two QDs to create a quantum dot molecule (QDM). The two dots can be resonantly tuned to form "molecule-like" coupled hole states from the hybridization of hole states otherwise localized in each respective dot. Furthermore, spin-mixing of the hybridized states in dots offset along their stacking direction enables qubit rotation to be driven optically, allowing for an all-optical qubit control scheme. Increasing the magnitude of this spin mixing is important for optical quantum control protocols. To enhance the tunnel coupling and spin-mixing across the dots, we introduce Bi in the GaAs inter-dot barrier. Previously, we showed how to model InAs/GaBiAs in an atomistic tight-binding formalism, and how the dot energy levels are affected by the alloy. In this paper, we discuss the lowering of the tunnel barrier, which results in a three fold increase of hole tunnel coupling strength in the presence of a 7% alloy. Additionally, we show how an asymmetric strain between the two dots caused by the alloy shifts the resonance. Finally, we discuss device geometries for which the introduction of Bi is most advantageous.
翻訳日:2023-09-25 17:33:27 公開日:2023-09-21
# 1次元上の自由フェルミオンに対する測定誘起相転移

Measurement-induced phase transition for free fermions above one dimension ( http://arxiv.org/abs/2309.12405v1 )

ライセンス: Link先を確認
Igor Poboiko, Igor V. Gornyi, Alexander D. Mirlin(参考訳) 自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。 臨界点は、粒子数とエンタングルメントエントロピーの第二累積量である$\ell^{d-1} \ln \ell$スケーリングのギャップレス位相と、$\ell^{d-1}$スケーリングの領域ロー位相とを分離し、ここで$\ell$はサブシステムのサイズである。 この問題は、$R\to 1$を持つ$d+1$次元のSU($R$)レプリカ非線型シグマモデルにマッピングされる。 正規化群解析を用いて、1ループ近似における臨界指標を$d = 1+ \epsilon$と$\epsilon \ll 1$で計算する。 さらに、正方格子上の$d=2$モデルの遷移に関する数値的研究を行い、臨界点を数値的に決定し、相関長の臨界指数である$\nu \approx 1.82.2$を推定する。

A theory of the measurement-induced entanglement phase transition for free-fermion models in $d>1$ dimensions is developed. The critical point separates a gapless phase with $\ell^{d-1} \ln \ell$ scaling of the second cumulant of the particle number and of the entanglement entropy and an area-law phase with $\ell^{d-1}$ scaling, where $\ell$ is a size of the subsystem. The problem is mapped onto an SU($R$) replica non-linear sigma model in $d+1$ dimensions, with $R\to 1$. Using renormalization-group analysis, we calculate critical indices in one-loop approximation justified for $d = 1+ \epsilon$ with $\epsilon \ll 1$. Further, we carry out a numerical study of the transition for a $d=2$ model on a square lattice, determine numerically the critical point, and estimate the critical index of the correlation length, $\nu \approx 1.8 - 2.2$.
翻訳日:2023-09-25 17:24:29 公開日:2023-09-21
# 任意の整数次元における最大相互バイアスのない基底集合の正確なアルゴリズム的証明に向けて

Towards exact algorithmic proofs of maximal mutually unbiased bases sets in arbitrary integer dimension ( http://arxiv.org/abs/2309.12399v1 )

ライセンス: Link先を確認
Santiago Cifuentes, Nicol\'as Ciancaglini, Guido Bellomo, Santiago Figueira, Ariel Bendersky(参考訳) 本稿では,離散量子系におけるMUB(Mutually Unbiased Bases)の概念について考察する。 素数のべき数である次元 $d$ に対して、最大 $d+1$ の基底集合が存在し、それが mub 集合を形成することが知られている。 しかし、素数の和ではない次元における MUB の最大数は分かっていない。 この問題に対処するために,数値近似を使わずに MUB 集合の最大基底数を決定できる 1次論理に基づく3つのアルゴリズムを導入する。 我々のアルゴリズムはこの結果を有限時間で証明できるが、必要な時間は実用的ではない。 さらに、与えられた次元 $d$ に $k$ mub が存在するかどうかを判定する半決定問題を解くためのヒューリスティックなアプローチを提案する。 本研究の副産物として,任意の次元における MUB の最大個数は,定義可能な複素パラメータ,計算可能な複素パラメータ,その他の類似分野を用いて達成可能であることを示す。

In this paper, we explore the concept of Mutually Unbiased Bases (MUBs) in discrete quantum systems. It is known that for dimensions $d$ that are powers of prime numbers, there exists a set of up to $d+1$ bases that form an MUB set. However, the maximum number of MUBs in dimensions that are not powers of prime numbers is not known. To address this issue, we introduce three algorithms based on First-Order Logic that can determine the maximum number of bases in an MUB set without numerical approximation. Our algorithms can prove this result in finite time, although the required time is impractical. Additionally, we present a heuristic approach to solve the semi-decision problem of determining if there are $k$ MUBs in a given dimension $d$. As a byproduct of our research, we demonstrate that the maximum number of MUBs in any dimension can be achieved with definable complex parameters, computable complex parameters, and other similar fields.
翻訳日:2023-09-25 17:24:09 公開日:2023-09-21
# POLAR3D:データ駆動月面知覚とローバーシミュレーションのためのNASAのPOLARデータセットの拡張

POLAR3D: Augmenting NASA's POLAR Dataset for Data-Driven Lunar Perception and Rover Simulation ( http://arxiv.org/abs/2309.12397v1 )

ライセンス: Link先を確認
Bo-Hsun Chen, Peter Negrut, Thomas Liang, Nevindu Batagoda, Harry Zhang, Dan Negrut(参考訳) POLAR3Dは、NASAが生成したステレオ画像のPOLARデータセットを強化し、月の照明条件を模倣するデジタルアセットである。 私たちの貢献は2倍です。 まず、POLARデータセットに各写真に注釈を付け、岩とその影のラベルを約2万枚提供しました。 第2に、POLARデータセットで利用可能ないくつかの月面地形シナリオをデジタル化した。 具体的には、月の写真とPOLARのLiDAR点雲の両方を利用して、特定可能なすべての資産の詳細なobjファイルを構築した。 POLAR3Dは、月の地形シナリオのデジタルツインに関連する岩と陰のラベルとObjファイルからなるデジタル資産のセットである。 この新しいデータセットは、月探査のための知覚アルゴリズムのトレーニングや、オリジナルのPOLARコレクションを超えて光リアル画像の合成に使用することができる。 同様に、obj資産はシミュレーション環境に統合することができ、極性シナリオのデジタル双生児の現実的なローバー操作が容易になる。 POLAR3Dは認識アルゴリズムの開発、カメラシミュレーション、月面シミュレーションの演習を支援するために公開されており、https://github.com/uwsbel/POLAR-digital.comで公開されている。

We report on an effort that led to POLAR3D, a set of digital assets that enhance the POLAR dataset of stereo images generated by NASA to mimic lunar lighting conditions. Our contributions are twofold. First, we have annotated each photo in the POLAR dataset, providing approximately 23 000 labels for rocks and their shadows. Second, we digitized several lunar terrain scenarios available in the POLAR dataset. Specifically, by utilizing both the lunar photos and the POLAR's LiDAR point clouds, we constructed detailed obj files for all identifiable assets. POLAR3D is the set of digital assets comprising of rock/shadow labels and obj files associated with the digital twins of lunar terrain scenarios. This new dataset can be used for training perception algorithms for lunar exploration and synthesizing photorealistic images beyond the original POLAR collection. Likewise, the obj assets can be integrated into simulation environments to facilitate realistic rover operations in a digital twin of a POLAR scenario. POLAR3D is publicly available to aid perception algorithm development, camera simulation efforts, and lunar simulation exercises.POLAR3D is publicly available at https://github.com/uwsbel/POLAR-digital.
翻訳日:2023-09-25 17:23:52 公開日:2023-09-21
# 超伝導量子ビットの例外点を越えた非エルミート力学の制約的仕事変動

Constraining work fluctuations of non-Hermitian dynamics across the exceptional point of a superconducting qubit ( http://arxiv.org/abs/2309.12393v1 )

ライセンス: Link先を確認
Serra Erdamar, Maryam Abbasi, Byung Ha, Weijian Chen, Jacob Muldoon, Yogesh Joglekar, and Kater W. Murch(参考訳) 熱力学は、第一法則と第二法則を通じて、意図的かつランダムな系のエネルギーに変化を制約する。 系が平衡でない場合、ジャジンスキー等式のような揺らぎ定理は、意図された作業の分布をさらに制限する。 このようなゆらぎの定理は、ユニタリあるいはデコヒーリングダイナミクスの小さな非平衡量子系において実験的に検証されている。 しかしながら、非エルミートハミルトニアンが支配する系におけるそれらの妥当性は、力学とエネルギー学におけるハミルトンの双対および等価な役割の誤った前提のため、長い間議論されてきた。 ここで、非エルミート量子ビットにおける仕事のゆらぎは、ハミルトニアンがその複素あるいは純粋に想像上の固有値を持つ場合でもジャージンスキー等式に従うことを示す。 循環パラメータスイープを施した散逸性超伝導回路上でのポストセレクションにより、射影エネルギー測定を用いて作業分布を実験的に定量化し、ジャジンスキー平等の運命がパリティ時対称性によって決定されることを示す。 非エルミート力学とエネルギーを区別することにより、そのような開系の非平衡量子熱力学を研究するためのレシピを提供する。

Thermodynamics constrains changes to the energy of a system, both deliberate and random, via its first and second laws. When the system is not in equilibrium, fluctuation theorems such as the Jarzynski equality further restrict the distributions of deliberate work done. Such fluctuation theorems have been experimentally verified in small, non-equilibrium quantum systems undergoing unitary or decohering dynamics. Yet, their validity in systems governed by a non-Hermitian Hamiltonian has long been contentious, due to the false premise of the Hamiltonian's dual and equivalent roles in dynamics and energetics. Here we show that work fluctuations in a non-Hermitian qubit obey the Jarzynski equality even if its Hamiltonian has complex or purely imaginary eigenvalues. With post-selection on a dissipative superconducting circuit undergoing a cyclic parameter sweep, we experimentally quantify the work distribution using projective energy measurements and show that the fate of the Jarzynski equality is determined by the parity-time symmetry of, and the energetics that result from, the corresponding non-Hermitian, Floquet Hamiltonian. By distinguishing the energetics from non-Hermitian dynamics, our results provide the recipe for investigating the non-equilibrium quantum thermodynamics of such open systems.
翻訳日:2023-09-25 17:23:31 公開日:2023-09-21
# 非エルゴードカイラル量子力学のためのrydbergプラットフォーム

A Rydberg platform for non-ergodic chiral quantum dynamics ( http://arxiv.org/abs/2309.12392v1 )

ライセンス: Link先を確認
Riccardo J. Valencia-Tortora, Nicola Pancotti, Michael Fleischhauer, Hannes Bernien, Jamir Marino(参考訳) ライドベルク原子のキラルな相互作用を指向性遮断条件によって設計する機構を提案し,原子が右(または左)の原子が励起された場合にのみその状態を変更することができる。 提案手法のスケーラビリティにより,一方向キャラクタを有する動力学的制約モデルの多体ダイナミクスを探索できる。 我々は、原子に作用する2つの駆動場の強度を単に調整することで、傷跡、閉じ込め、あるいは局在化を通じて非エルゴード的挙動を観察する。 我々は,従来のノイズの存在下での我々のメカニズムと,相互作用におけるキラリティの程度を調整し,幅広いモデルを研究するための経路について論じる。

We propose a mechanism for engineering chiral interactions in Rydberg atoms via a directional antiblockade condition, where an atom can change its state only if an atom to its right (or left) is excited. The scalability of our scheme enables us to explore the many-body dynamics of kinetically constrained models with unidirectional character. We observe non-ergodic behavior via either scars, confinement, or localization, upon simply tuning the strength of two driving fields acting on the atoms. We discuss how our mechanism persists in the presence of classical noise and how the degree of chirality in the interactions can be tuned, providing paths for investigating a wide range of models.
翻訳日:2023-09-25 17:23:06 公開日:2023-09-21
# 2次元における監視自由フェルミオンの絡み合い相、局在および多重フラクタル性

Entanglement phases, localization and multifractality of monitored free fermions in two dimensions ( http://arxiv.org/abs/2309.12391v1 )

ライセンス: Link先を確認
K. Chahine, M. Buchhold(参考訳) 2次元(2次元)におけるU(1)$対称性を持つ連続監視自由フェルミオンの絡み合い構造と波動関数特性について検討する。 フェルミオンレプリカ・ケルディッシュ場理論とボソニック有効長波長作用を導出し、2次元の監視フェルミオンのエンタングルメント相転移と3次元のアンダーソン型局在遷移の相似性と差異について考察した。 次に、厳密な数値シミュレーションからエンタングルメントエントロピー、相互情報、波動関数の逆参加比を抽出し、2次元における監視フェルミオンの絡み合い遷移の現象を定式化する。 弱いモニタリングでは、特徴的な$L\log L$エンタングルメント成長と多フラクタル次元$D_q=2$が金属フェルミ液体を連想させる。 強いモニタリングのために、指数関数的に局所化された波動関数は、面積法則の絡み合いに対する飽和をもたらす。 その間、臨界点は、創発的共形不変性と強い多重フラクタル性と一致する絡み合いスケーリングの両方を表示する。 計算結果は平均場解析と一ループ再正規化群による場理論の扱いとよく一致している。 これは、絡み合いの内容における金属-絶縁体遷移のモニタリングのイメージを形作り、2次元モニターされたフェルミオンを新しいアリーナとして確立し、D$次元の非単位量子力学と$D+1$次元の量子統計力学のリンクを探索する。

We explore the entanglement structure and wave function properties of continuously monitored free fermions with $U(1)$-symmetry in two spatial dimensions (2D). Deriving the fermion replica-Keldysh field theory, and a bosonic effective long-wavelength action, we discuss similarities and differences between entanglement phase transitions of monitored fermions in two dimensions and Anderson-type localization transitions in three dimensions. We then establish the phenomenology of entanglement transitions of monitored fermions in 2D by extracting the entanglement entropy, mutual information, and wave function inverse participation ratio from exact numerical simulations. At weak monitoring, a characteristic $L\log L$ entanglement growth and a multifractal dimension $D_q=2$ are reminiscent of a metallic Fermi liquid. For strong monitoring, exponentially localized wave functions yield a saturation towards area law entanglement. In between, the critical point displays both an entanglement scaling consistent with an emergent conformal invariance and strong multifractality. The numerical results are in good agreement with a mean-field analysis and a one-loop renormalization group treatment of the field theory. This shapes the picture of a monitoring induced metal-to-insulator transition in the entanglement content and establishes 2D monitored fermions as a novel arena to explore the link between non-unitary quantum dynamics in $D$ dimensions and quantum statistical mechanics in $D+1$ dimensions.
翻訳日:2023-09-25 17:22:52 公開日:2023-09-21
# 配向保存壁紙群を有する相互作用型(2+1)Dトポロジカル結晶絶縁体の特性と分類

Characterization and classification of interacting (2+1)D topological crystalline insulators with orientation-preserving wallpaper groups ( http://arxiv.org/abs/2309.12389v1 )

ライセンス: Link先を確認
Naren Manjunath, Vladimir Calvera, and Maissam Barkeshli(参考訳) 自由フェルミオン位相結晶絶縁体は主に分類されているが、強相互作用の場合の類似問題は部分的にしか解決されていない。 本稿では,電荷保存,離散磁気変換,$m$-fold 点群回転対称性を持つ(2+1)次元の相互作用的,可逆的位相位相相の特徴と分類法を開発し,群 $g_f = \text{u}(1)^f \times_{\phi} [\mathbb{z}^2\rtimes \mathbb{z}_m]$ for $m=1,2,3,4,6$ を形成する。 $\phi$は単位セル当たりの磁束である。 背景結晶ゲージ場の観点から位相応答理論を導出し、異なる位相の完全な分類と対称性欠陥に対する量子化応答の物理的特徴付けを与える。 次に、適当な部分回転作用素の基底状態期待値から得られる実空間不変量の集合$\{\theta_{\text{o}}^\pm\}$で同じ分類を導出する。 これらの実空間不変量と位相応答理論の量子化係数を明示的に関連付け、可逆位相のキラル中心電荷 $c_-$ に対する不変量の依存性を見出す。 最後に、$\phi = 0$ の場合、自由分類と相互作用分類の間の明示的な写像を導出する。

While free fermion topological crystalline insulators have been largely classified, the analogous problem in the strongly interacting case has been only partially solved. In this paper, we develop a characterization and classification of interacting, invertible fermionic topological phases in (2+1) dimensions with charge conservation, discrete magnetic translation and $M$-fold point group rotation symmetries, which form the group $G_f = \text{U}(1)^f \times_{\phi} [\mathbb{Z}^2\rtimes \mathbb{Z}_M]$ for $M=1,2,3,4,6$. $\phi$ is the magnetic flux per unit cell. We derive a topological response theory in terms of background crystalline gauge fields, which gives a complete classification of different phases and a physical characterization in terms of quantized response to symmetry defects. We then derive the same classification in terms of a set of real space invariants $\{\Theta_{\text{o}}^\pm\}$ that can be obtained from ground state expectation values of suitable partial rotation operators. We explicitly relate these real space invariants to the quantized coefficients in the topological response theory, and find the dependence of the invariants on the chiral central charge $c_-$ of the invertible phase. Finally, when $\phi = 0$ we derive an explicit map between the free and interacting classifications.
翻訳日:2023-09-25 17:22:25 公開日:2023-09-21
# ダークセクタの同時共振と広帯域検出

Simultaneous Resonant and Broadband Detection for Dark Sectors ( http://arxiv.org/abs/2309.12387v1 )

ライセンス: Link先を確認
Yifan Chen, Chunlong Li, Yuxin Liu, Jing Shu, Yuting Yang, Yanjie Zeng(参考訳) キャビティやlc回路などの電磁共鳴系は、超光ボゾン暗黒物質や高周波重力波を検出する強力な検出器として登場した。 しかし、量子揺らぎによって課される従来の単一モード共振器の共振帯域の制限は、広範囲な未探索周波数領域をカバーするために多くの走査ステップを必要とする。 複数の補助モードを組み込むことで、実質的な信号応答を維持しながら広帯域検出器を実現することができる。 拡張された感度幅は共振周波数と同じ順で、背景キャビティモードが別のものに遷移するヘテロダイン検出のためのソース周波数の何桁かの順序を含むことができる。 その結果,単一モード検出に比べて,同一積分時間内のパラメータ空間の深い探索が可能となった。

Electromagnetic resonant systems, such as cavities or LC circuits, have emerged as powerful detectors for probing ultralight boson dark matter and high-frequency gravitational waves. However, the limited resonant bandwidth of conventional single-mode resonators, imposed by quantum fluctuations, necessitates numerous scan steps to cover broad unexplored frequency regions. The incorporation of multiple auxiliary modes can realize a broadband detector while maintaining a substantial signal response. The broadened sensitive width can be on the same order as the resonant frequency, encompassing several orders of the source frequency for heterodyne detection, where a background cavity mode transitions into another. Consequently, our approach enables significantly deeper exploration of the parameter space within the same integration time compared to single-mode detection.
翻訳日:2023-09-25 17:21:53 公開日:2023-09-21
# SCOB: ブリッジングドメインギャップのためのオンラインテキストレンダリングによる文字・教師付きコントラスト学習によるユニバーサルテキスト理解

SCOB: Universal Text Understanding via Character-wise Supervised Contrastive Learning with Online Text Rendering for Bridging Domain Gap ( http://arxiv.org/abs/2309.12382v1 )

ライセンス: Link先を確認
Daehee Kim, Yoonsik Kim, DongHyun Kim, Yumin Lim, Geewook Kim, Taeho Kil(参考訳) 言語モデル(LM)による事前学習の成功に触発された近年の視覚文書理解の研究は,文書画像中のテキストをモデル化するためのLMベースの事前学習手法を探求している。 その中でも、画像からすべてのテキストを読み取る事前学習は、約束が示されているが、しばしば不安定であり、視覚文書やシーンテキスト画像など、より広い領域に適用しても失敗する。 これは、さまざまなドメインにおけるテキスト画像入力の処理が不可欠である現実世界のシナリオにとって、かなりの制限である。 本稿では,より広い領域における効果的な事前学習タスクについて検討し,オンラインテキストレンダリングによる文字の教師付きコントラスト学習を利用したSCOBという新しい事前学習手法を提案する。 さらに、SCOBは弱い教師付き学習を可能にし、アノテーションのコストを大幅に削減する。 広範なベンチマークでは、SCOBは一般的にバニラ事前学習法を改善し、最先端の手法と同等のパフォーマンスを達成している。 以上の結果から,SCOBは読み取り型事前学習法に有効である可能性が示唆された。 コードはhttps://github.com/naver-ai/scobで入手できる。

Inspired by the great success of language model (LM)-based pre-training, recent studies in visual document understanding have explored LM-based pre-training methods for modeling text within document images. Among them, pre-training that reads all text from an image has shown promise, but often exhibits instability and even fails when applied to broader domains, such as those involving both visual documents and scene text images. This is a substantial limitation for real-world scenarios, where the processing of text image inputs in diverse domains is essential. In this paper, we investigate effective pre-training tasks in the broader domains and also propose a novel pre-training method called SCOB that leverages character-wise supervised contrastive learning with online text rendering to effectively pre-train document and scene text domains by bridging the domain gap. Moreover, SCOB enables weakly supervised learning, significantly reducing annotation costs. Extensive benchmarks demonstrate that SCOB generally improves vanilla pre-training methods and achieves comparable performance to state-of-the-art methods. Our findings suggest that SCOB can be served generally and effectively for read-type pre-training methods. The code will be available at https://github.com/naver-ai/scob.
翻訳日:2023-09-25 17:21:40 公開日:2023-09-21
# メモリ効率のよい混合精度オプティマイザ

Memory Efficient Mixed-Precision Optimizers ( http://arxiv.org/abs/2309.12381v1 )

ライセンス: Link先を確認
Basile Lewandowski and Atli Kosson(参考訳) 従来の最適化手法は単精度浮動小数点演算に頼っており、メモリサイズと計算能力の点でコストがかかる。 しかし、混合精度最適化技術では、単精度と半精度の浮動小数点演算を併用し、モデル精度を維持しながらメモリ要求を削減する。 ここでは、パラメータの浮動小数点コピーを取り除き、半精度数のみを事実上保持することにより、モデルのトレーニング中のメモリ使用量をさらに削減するアルゴリズムを提供する。 また,バックプロパゲーション中にオプティマイザステップを実行することで,勾配値を取り除くメリットについても検討する。 実際には、同じレベルの精度を維持しながら、最大25%のピークメモリ使用率、15%の高速トレーニングを実現しています。

Traditional optimization methods rely on the use of single-precision floating point arithmetic, which can be costly in terms of memory size and computing power. However, mixed precision optimization techniques leverage the use of both single and half-precision floating point arithmetic to reduce memory requirements while maintaining model accuracy. We provide here an algorithm to further reduce memory usage during the training of a model by getting rid of the floating point copy of the parameters, virtually keeping only half-precision numbers. We also explore the benefits of getting rid of the gradient's value by executing the optimizer step during the back-propagation. In practice, we achieve up to 25% lower peak memory use and 15% faster training while maintaining the same level of accuracy.
翻訳日:2023-09-25 17:21:17 公開日:2023-09-21
# 合成画像検出: IEEE Video and Image Processing Cup 2022学生コンペのハイライト

Synthetic Image Detection: Highlights from the IEEE Video and Image Processing Cup 2022 Student Competition ( http://arxiv.org/abs/2309.12428v1 )

ライセンス: Link先を確認
Davide Cozzolino and Koki Nagano and Lucas Thomaz and Angshul Majumdar and Luisa Verdoliva(参考訳) ビデオ・アンド・イメージ・プロセッシング・カップ(video and image processing cup, vip)は、ieee international conference on image processingで毎年開催される学生コンペティションである。 2022年のieee vipカップでは、大学生に、画像と生成された画像を区別できるシステムを開発するよう求めた。 この話題への関心は、aiベースのビジュアルデータ生成における信じられないほどの進歩と、高度にリアルな画像とビデオの合成を可能にするツールに起因している。 これは多くの新たな機会を開く一方で、メディアコンテンツの信頼性を損なうとともに、インターネット上での偽情報の拡散を促進する。 近年,拡散モデルに関する最近の技術を含むソフトウェアを編集することで,超現実的な画像の生成が懸念されている。 この文脈では、合成画像検出のための堅牢で自動的なツールを開発する必要がある。

The Video and Image Processing (VIP) Cup is a student competition that takes place each year at the IEEE International Conference on Image Processing. The 2022 IEEE VIP Cup asked undergraduate students to develop a system capable of distinguishing pristine images from generated ones. The interest in this topic stems from the incredible advances in the AI-based generation of visual data, with tools that allows the synthesis of highly realistic images and videos. While this opens up a large number of new opportunities, it also undermines the trustworthiness of media content and fosters the spread of disinformation on the internet. Recently there was strong concern about the generation of extremely realistic images by means of editing software that includes the recent technology on diffusion models. In this context, there is a need to develop robust and automatic tools for synthetic image detection.
翻訳日:2023-09-25 17:15:03 公開日:2023-09-21
# サドル点近似における交差特異点

Crossing singularities in the saddle point approximation ( http://arxiv.org/abs/2309.12427v1 )

ライセンス: Link先を確認
Job Feldbrugge, Dylan L. Jow, and Ue-Li Pen(参考訳) 実時間経路積分の研究において、複素古典パスがポテンシャルの特異点にぶつかり、境界値問題を解く空間を超えて解析的に継続する必要がある新しい現象を述べる。 この挙動は普遍的であり、量子トンネル問題の中心であることを示す。 これらの解析的に連続した古典的経路は、リアルタイムファインマン経路積分の研究を豊かにする。

We describe a new phenomenon in the study of the real-time path integral, where complex classical paths hit singularities of the potential and need to be analytically continued beyond the space for which they solve the boundary value problem. We show that the behavior is universal and central to the problem of quantum tunneling. These analytically continued complex classical paths enrich the study of real-time Feynman path integrals.
翻訳日:2023-09-25 17:14:48 公開日:2023-09-21
# LLMは低リソース読解データセットを拡張できるか? 機会と挑戦

Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges ( http://arxiv.org/abs/2309.12426v1 )

ライセンス: Link先を確認
Vinay Samuel, Houda Aynaou, Arijit Ghosh Chowdhury, Karthik Venkat Ramanan, Aman Chadha(参考訳) 大規模言語モデル(LLM)は、幅広いNLPタスクにおいて印象的なゼロショット性能を示し、常識を推論し適用する能力を示している。 関連するアプリケーションは、ダウンストリームタスク用の高品質な合成データセットを作成するためにそれらを使用する。 本研究は,GPT-4が既存の抽出読解データセットの増大に有効かどうかを考察する。 データアノテーションプロセスの自動化は、データセットを手動でラベル付けする際の膨大な時間、お金、労力を節約する可能性がある。 本稿では,微調整後の性能とアノテーションに関連するコストを比較することにより,低リソースの読解タスクに対する人間の注釈の代替としてgpt-4の性能を評価する。 この研究は、QAシステムのための合成データ拡張器としてLLMを初めて分析し、ユニークな機会と課題を強調した。 さらに、低リソースデータセットの強化バージョンをリリースし、研究コミュニティが生成されたデータセットを評価するためのさらなるベンチマークを作成できるようにします。

Large Language Models (LLMs) have demonstrated impressive zero shot performance on a wide range of NLP tasks, demonstrating the ability to reason and apply commonsense. A relevant application is to use them for creating high quality synthetic datasets for downstream tasks. In this work, we probe whether GPT-4 can be used to augment existing extractive reading comprehension datasets. Automating data annotation processes has the potential to save large amounts of time, money and effort that goes into manually labelling datasets. In this paper, we evaluate the performance of GPT-4 as a replacement for human annotators for low resource reading comprehension tasks, by comparing performance after fine tuning, and the cost associated with annotation. This work serves to be the first analysis of LLMs as synthetic data augmenters for QA systems, highlighting the unique opportunities and challenges. Additionally, we release augmented versions of low resource datasets, that will allow the research community to create further benchmarks for evaluation of generated datasets.
翻訳日:2023-09-25 17:14:42 公開日:2023-09-21
# Dual Token-ViT:Dual Token Fusionを用いた位置認識高能率視覚変換器

DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion ( http://arxiv.org/abs/2309.12424v1 )

ライセンス: Link先を確認
Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian(参考訳) vits(self-attention-based vision transformers)はコンピュータビジョンにおける競争性の高いアーキテクチャである。 畳み込みニューラルネットワーク(CNN)とは異なり、ViTはグローバルな情報共有が可能である。 vitの様々な構造が開発されると、vitは多くの視覚タスクに有利になる。 しかし、自己注意の二次的な複雑さは、ViTsを計算的に集約し、局所性や翻訳等価性の帰納的バイアスの欠如は、視覚的特徴を効果的に学習するためにCNNよりも大きなモデルサイズを要求する。 本稿では,CNNとViTの利点を生かしたDualToken-ViTと呼ばれる軽量かつ効率的なビジョントランスフォーマモデルを提案する。 dualtoken-vitは、畳み込み型構造で得られた局所情報と、自己着脱型構造で得られるグローバル情報とを効果的に融合させ、効率的な注意構造を実現する。 さらに,全段階にわたって位置認識型グローバルトークンを使用してグローバル情報を強化し,DualToken-ViTの効果をさらに強化する。 位置認識されたグローバルトークンは画像の位置情報も含んでいるため、視覚タスクではモデルがより良くなります。 画像分類,物体検出,意味セグメンテーションに関する広範な実験を行い,dualtoken-vitの有効性を実証した。 ImageNet-1Kデータセットでは,それぞれ0.5Gと1.0GのFLOPで75.4%,79.4%の精度を達成し,1.0GのFLOPでは0.7%のグローバルトークンでLightViT-Tを上回った。

Self-attention-based vision transformers (ViTs) have emerged as a highly competitive architecture in computer vision. Unlike convolutional neural networks (CNNs), ViTs are capable of global information sharing. With the development of various structures of ViTs, ViTs are increasingly advantageous for many vision tasks. However, the quadratic complexity of self-attention renders ViTs computationally intensive, and their lack of inductive biases of locality and translation equivariance demands larger model sizes compared to CNNs to effectively learn visual features. In this paper, we propose a light-weight and efficient vision transformer model called DualToken-ViT that leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the token with local information obtained by convolution-based structure and the token with global information obtained by self-attention-based structure to achieve an efficient attention structure. In addition, we use position-aware global tokens throughout all stages to enrich the global information, which further strengthening the effect of DualToken-ViT. Position-aware global tokens also contain the position information of the image, which makes our model better for vision tasks. We conducted extensive experiments on image classification, object detection and semantic segmentation tasks to demonstrate the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using global tokens by 0.7%.
翻訳日:2023-09-25 17:14:25 公開日:2023-09-21
# ケースベース推論による知識グラフ上の事象予測

Event Prediction using Case-Based Reasoning over Knowledge Graphs ( http://arxiv.org/abs/2309.12423v1 )

ライセンス: Link先を確認
Sola Shirai, Debarun Bhattacharjya, Oktie Hassanzadeh(参考訳) 因果事象予測などのタスクに対して,知識グラフ(KG)上でリンク予測(LP)手法を適用することは,エキサイティングな機会となる。 しかし、典型的なLPモデルは、新しい、見えないイベントエンティティに対して帰納的リンク予測を行うことができず、基礎となるKGで知識が加えられたり変更されたりするため、再訓練を必要とするため、このタスクには不適である。 ケースベース推論モデルであるEvCBRを導入し、KGに類似した原因影響事象に基づく新しい事象の特性を予測する。 EvCBRは、同様の事象を特定し、パスベースの予測を行うために統計測度を使用する。 私たちのメソッドをイベント予測の領域を超えて一般化するために、タスクを2-hop lpタスクとして構成します。1つ目のホップは原因イベントと新しいエフェクトイベントを結びつける因果関係、2番目のホップは予測したい新しいイベントに関する特性です。 本手法の有効性は,Wikidata からキュレートされた因果関係を持つニュース価値イベントの新たなデータセットを用いて実証され,EvCBR は翻訳距離ベース,GNNベース,ルールベースLPモデルなどのベースラインよりも優れていた。

Applying link prediction (LP) methods over knowledge graphs (KG) for tasks such as causal event prediction presents an exciting opportunity. However, typical LP models are ill-suited for this task as they are incapable of performing inductive link prediction for new, unseen event entities and they require retraining as knowledge is added or changed in the underlying KG. We introduce a case-based reasoning model, EvCBR, to predict properties about new consequent events based on similar cause-effect events present in the KG. EvCBR uses statistical measures to identify similar events and performs path-based predictions, requiring no training step. To generalize our methods beyond the domain of event prediction, we frame our task as a 2-hop LP task, where the first hop is a causal relation connecting a cause event to a new effect event and the second hop is a property about the new event which we wish to predict. The effectiveness of our method is demonstrated using a novel dataset of newsworthy events with causal relations curated from Wikidata, where EvCBR outperforms baselines including translational-distance-based, GNN-based, and rule-based LP models.
翻訳日:2023-09-25 17:13:55 公開日:2023-09-21
# ディジタル双生児における生成モデルを用いた変化管理

Change Management using Generative Modeling on Digital Twins ( http://arxiv.org/abs/2309.12421v1 )

ライセンス: Link先を確認
Nilanjana Das, Anantaa Kotal, Daniel Roseberry and Anupam Joshi(参考訳) 中小企業が直面する重要な課題は、ソフトウェアのアップデートと変更を安全に管理することだ。 特に、急速に進化するサイバーセキュリティの脅威において、ソフトウェアシステムの変更/更新/パッチは、新興の脅威に先立っていなければならない。 しかし、セキュリティパッチ/アップデートは本番システムにリリースする前にストレステストを必要とする。 運用環境でのストレステストはリスクが高く、セキュリティの脅威となる。 大企業は通常、そのような変更をプロダクションにリリースする前に作成、テストできる非プロダクション環境を持っています。 小規模企業にはそのような施設がない。 この研究では、特にITとIoTの混在する環境で、どのように“ディジタルツイン”をクラウド上で作成できるかを示します。 これらのデジタル双生児は、変更を適用可能な非生産環境として機能し、システムはパッチリリース前に安全にテストできる。 さらに、非生産のデジタル双生児は、手動と自動の両方でシステムデータを収集し、環境上でストレステストを実行するのに使うことができる。 本稿では、実際のデータ/インタラクションの小さなサンプルを使用して、生成型人工知能(ai)モデルを使用して、障害点をチェックするテストシナリオを生成する方法を示す。

A key challenge faced by small and medium-sized business entities is securely managing software updates and changes. Specifically, with rapidly evolving cybersecurity threats, changes/updates/patches to software systems are necessary to stay ahead of emerging threats and are often mandated by regulators or statutory authorities to counter these. However, security patches/updates require stress testing before they can be released in the production system. Stress testing in production environments is risky and poses security threats. Large businesses usually have a non-production environment where such changes can be made and tested before being released into production. Smaller businesses do not have such facilities. In this work, we show how "digital twins", especially for a mix of IT and IoT environments, can be created on the cloud. These digital twins act as a non-production environment where changes can be applied, and the system can be securely tested before patch release. Additionally, the non-production digital twin can be used to collect system data and run stress tests on the environment, both manually and automatically. In this paper, we show how using a small sample of real data/interactions, Generative Artificial Intelligence (AI) models can be used to generate testing scenarios to check for points of failure.
翻訳日:2023-09-25 17:13:35 公開日:2023-09-21
# 量子反射とトンネルにおける複素古典経路

Complex classical paths in quantum reflections and tunneling ( http://arxiv.org/abs/2309.12420v1 )

ライセンス: Link先を確認
Job Feldbrugge, Dylan L. Jow and Ue-Li Pen(参考訳) 対称修飾 P\"oschl-Teller" としても知られる対称ローゼン=モースの実時間プロパゲータは、実数および複素古典パスを用いてピカール・レフシェッツ経路積分形式主義で表される。 実時間プロパゲータとエネルギープロパゲータの干渉パターンが、因果関係とストーク現象によってどのように整理されるかを説明し、関連する実数経路と複素数経路を初期位置と最終位置の関数としてリストする。 複素古典経路の解析的継続が境界値問題にもはや満足せず、解析的に継続する必要がある特異点交差の発生を発見した。 さらに,これらの特異点交差が量子トンネルのリアルタイム記述において中心的な役割を果たすことを示す。

The real-time propagator of the symmetric Rosen-Morse, also known as the symmetric modified P\"oschl-Teller, barrier is expressed in the Picard-Lefschetz path integral formalism using real and complex classical paths. We explain how the interference pattern in the real-time propagator and energy propagator is organized by caustics and Stoke's phenomena, and list the relevant real and complex classical paths as a function of the initial and final position. We discover the occurrence of singularity crossings, where the analytic continuation of the complex classical path no longer satisfies the boundary value problem and needs to be analytically continued. Moreover, we demonstrate how these singularity crossings play a central role in the real-time description of quantum tunneling.
翻訳日:2023-09-25 17:13:16 公開日:2023-09-21
# 制約ファースト:制約の下で文を生成するMDDベースの新しいモデル

Constraints First: A New MDD-based Model to Generate Sentences Under Constraints ( http://arxiv.org/abs/2309.12415v1 )

ライセンス: Link先を確認
Alexandre Bonlarron, Aur\'elie Calabr\`ese, Pierre Kornprobst, Jean-Charles R\'egin(参考訳) 本稿では,強い制約のあるテキストを生成する新しい手法を提案する。 視覚スクリーニングの典型的応用として,標準文生成を考える。 この問題を解決するために、離散組合せ最適化問題として形式化し、制約に対処するためによく知られたデータ構造である多値決定図(MDD)を利用する。 我々の文脈では、MDDの重要な強みの1つは、探索を行わずに徹底的な解の集合を計算することである。 文が得られたら、最適な言語モデル(GPT-2)を適用します。 合意と共役規則がより複雑であることが知られている英語とフランス語についても詳述する。 最後に、GPT-2の助けを借りて、数百のボナファイド候補文を得る。 通常よく知られた視覚スクリーニングテスト(MNREAD)で利用できる数十の文と比較すると、これは標準化された文生成の分野で大きなブレークスルーをもたらす。 また、他の言語にも容易に適応できるので、MNREADテストをさらに価値あるものにし、使いやすくする可能性がある。 より一般的には、MDDは制約付きテキスト生成の説得力のある代替手段であり、特に制約を満たすのが困難である場合、他の多くの可能性についても強調する。

This paper introduces a new approach to generating strongly constrained texts. We consider standardized sentence generation for the typical application of vision screening. To solve this problem, we formalize it as a discrete combinatorial optimization problem and utilize multivalued decision diagrams (MDD), a well-known data structure to deal with constraints. In our context, one key strength of MDD is to compute an exhaustive set of solutions without performing any search. Once the sentences are obtained, we apply a language model (GPT-2) to keep the best ones. We detail this for English and also for French where the agreement and conjugation rules are known to be more complex. Finally, with the help of GPT-2, we get hundreds of bona-fide candidate sentences. When compared with the few dozen sentences usually available in the well-known vision screening test (MNREAD), this brings a major breakthrough in the field of standardized sentence generation. Also, as it can be easily adapted for other languages, it has the potential to make the MNREAD test even more valuable and usable. More generally, this paper highlights MDD as a convincing alternative for constrained text generation, especially when the constraints are hard to satisfy, but also for many other prospects.
翻訳日:2023-09-25 17:13:00 公開日:2023-09-21
# 層状低ランク分解によるResnetアーキテクチャの高速化

Speeding up Resnet Architecture with Layers Targeted Low Rank Decomposition ( http://arxiv.org/abs/2309.12412v1 )

ライセンス: Link先を確認
Walid Ahmed and Habib Hajimolahoseini and Austin Wen and Yang Liu(参考訳) ニューラルネットワークの圧縮は、トレーニングとネットワークの推論の両方を高速化するのに役立ちます。 本研究では,ネットワーク層に低階分解を用いた圧縮を適用する。 我々の研究は、圧縮手法を高速化するためには、どの層を圧縮するかを選択するために、基盤となるハードウェアに注意を向けるべきであることを示した。 提案手法の利点は,ResNet50の圧縮とImageNet-ILSVRC2012のフルトレーニングを事例として示す。 nvidia v100とhuawei ascend910の2つの異なるハードウェアシステムでテストしました。 Ascend910のハードウェア目標圧縮では、トレーニングのスピードアップが5.36%、Ascend310の推論速度が15.79%で、オリジナルの非圧縮モデルと比較して1%の精度で低下した。

Compression of a neural network can help in speeding up both the training and the inference of the network. In this research, we study applying compression using low rank decomposition on network layers. Our research demonstrates that to acquire a speed up, the compression methodology should be aware of the underlying hardware as analysis should be done to choose which layers to compress. The advantage of our approach is demonstrated via a case study of compressing ResNet50 and training on full ImageNet-ILSVRC2012. We tested on two different hardware systems Nvidia V100 and Huawei Ascend910. With hardware targeted compression, results on Ascend910 showed 5.36% training speedup and 15.79% inference speed on Ascend310 with only 1% drop in accuracy compared to the original uncompressed model
翻訳日:2023-09-25 17:12:38 公開日:2023-09-21
# 雑音量子メソロジーにおけるディッケ状態のハイゼンベルク極限の達成

Achieving the Heisenberg limit with Dicke States in noisy quantum meterology ( http://arxiv.org/abs/2309.12411v1 )

ライセンス: Link先を確認
Zain H. Saleem, Michael Perlin, Anil Shaji, Stephen K. Gray(参考訳) ノイズ量子メトロロジーにおける標準量子限界を超えることは、非常に難しい課題である。 ここでは、ディッケ状態を用いて標準量子極限を超え、開量子系においてハイゼンベルク極限を達成する方法を示す。 本研究では, 共振器と共振器を対称に結合し, 共振器と共振器の結合を推定するシステムを提案する。 結合に関する時間依存的な量子フィッシャー情報は、全ての量子ビット上で同じ減衰率が仮定されるオープン量子系に対して研究される。 系が最適励起数でディック状態に初期化されると、標準量子極限を超え、量子ビットと共振器上の崩壊の有限値に対してもハイゼンベルク極限を達成することができることを示す。 比較すると、非常に絡み合ったGHZ状態は、非常に良くない。 この結果から,初期プローブ状態の絡み合いの程度だけでなく,ノイズに対する抵抗性も考慮し,最適センシング性能を実現する必要があることがわかった。

Going beyond the standard quantum limit in noisy quantum metrology is a very challenging task. Here we show how Dicke states can be used to surpass the standard quantum limit and achieve the Heisenberg limit in open quantum systems. The system we study has qubits symmetrically coupled to a resonator and our objective is to estimate the coupling between the qubits and the resonator. The time-dependent quantum Fisher information with respect to the coupling is studied for this open quantum system where the same decay rates are assumed on all qubits. We show that when the system is initialized to a Dicke state with an optimal excitation number one can go beyond the standard quantum limit and achieve the Heisenberg limit even for finite values of the decays on the qubit and the resonator. For comparison, we find that the highly entangled GHZ state performs quite poorly. Our results show that one must consider not only the degree of entanglement of an initial probe state, but its resilience to noise in order to achieve optimum sensing performance.
翻訳日:2023-09-25 17:12:22 公開日:2023-09-21
# ネットワークにおける量子鍵分布のためのフレキシブルなモジュラー全ファイバー光子対源

A flexible modular all-fiber based photon pair source for quantum key distribution in a network ( http://arxiv.org/abs/2309.12447v1 )

ライセンス: Link先を確認
Maximilian Tippmann, Erik Fitzke, Oleg Nikiforov, Philipp Kleinpa{\ss}, Till Dolejsky, Maximilian Mengler and Thomas Walther(参考訳) 絡み合いに基づくQKDプロトコルは、例えばフィールドで操作する場合など、厳しい環境条件下であっても、高いシェラルディング効率や光子ペア生成率の観点から、堅牢で安定した光子ペアソースを必要とする。 本稿では,周期的極性結晶の自発的パラメトリックダウンコンバージョンに基づくフレキシブルで可変性,アライメントフリー,全ファイバー結合光子源について報告する。 連続波モードとパルスモードでそれぞれ操作できる。 そのラック互換でモジュラーなセットアップにより、インターフェロメーターのようなコーディングモジュールの直接のプラグアンドプレイ統合が可能になり、フェーズやフェーズタイムコーディングのような様々なqkdプロトコルを可能にする。 我々は,情報源の柔軟性を示すタイプIIとタイプ0のSPDCステージとして動作を示す。 さらに, SHGとSPDCを同一非線形結晶内の二重パス構成で同時動作させることにより, ソースのハードウェア要件をさらに単純化する。 モジュールの変換効率を評価するために,データ後処理を用いて検出器の余パルスやデッドタイムから人工物を除去する。 様々な反復率のソース性能について検討する。

Entanglement-based QKD protocols require robust and stable photon pair sources in terms of high heralding efficiencies or photon pair generation rates even under harsh environmental conditions, e.g. when operated in the field. In this paper, we report on a flexible, tunable, alignment-free, all-fiber coupled photon source based on spontaneous parametric down-conversion in periodically poled crystals. It can be operated in continuous-wave and pulsed modes, respectively. Its rack-compatible and modular setup allows a straight forward plug-and-play integration of coding-modules e.g. interferometers to enable various QKD protocols such as phase or phase-time coding. We demonstrate operation as a type-II and a type-0 SPDC stage proving the high flexibility of our source. Furthermore, we demonstrate simultaneous operation of SHG and SPDC in a double-pass configuration within the same nonlinear crystal further simplifying the hardware requirements of our source. To evaluate the conversion efficiencies of our modules, we employ data post-processing to remove artefacts from detector afterpulsing and deadtimes of the detectors. We investigate the source performance for various repetition rates.
翻訳日:2023-09-25 17:03:51 公開日:2023-09-21
# 境界光度」状態における超ラジアント双極子相のディッケモデル半古典力学

Dicke model semiclassical dynamics in superradiant dipolar phase in the 'bound luminosity' state ( http://arxiv.org/abs/2309.12446v1 )

ライセンス: Link先を確認
S. I. Mukhin, A. Mukherjee, S. S. Seidov(参考訳) 超放射状態におけるディックモデルの半古典力学方程式の解析解を示す。 マイクロ波共振器内の超ラジアントボソニック凝縮とコヒーレント2レベル原子配列の振幅の時間依存性は、リアルタイムのヤコビ楕円関数によって表され、強結合系における運動の断熱的不変性の存在が示される。 キャビティ内の「暗さ」の間に2レベル系に蓄えられたエネルギーが突然「暗さ」に再び「暗さ」に陥る前にキャビティを半年間「照らす」フォトニック凝縮物に変換されると、光子と原子のコヒーレント状態の振幅の周期的なビートが「バウンド光度」の効果を示す時間にシフトする。

Analytic solution of semiclassical dynamics equations of the Dicke model in a superradiant state is presented. The time dependences of the amplitudes of superradiant bosonic condensate and coherent two-level atomic array in the microwave cavity prove to be expressed via Jacobi elliptic functions of real time and manifest existence of an adiabatic invariant of motion in the strongly coupled system. The periodic beatings of the photonic and atomic coherent state amplitudes are shifted in time revealing an effect of 'bound luminosity', when energy stored in the two-level system during 'darkness' in the cavity is suddenly converted into photonic condensate that 'illuminates' the cavity for half a period, before it plunges into 'darkness' again.
翻訳日:2023-09-25 17:03:31 公開日:2023-09-21
# RUL(Remaining Useful Life)予測のためのエンサンブルニューラルネットワーク

Ensemble Neural Networks for Remaining Useful Life (RUL) Prediction ( http://arxiv.org/abs/2309.12445v1 )

ライセンス: Link先を確認
Ahbishek Srinivasan, Juan Carlos Andresen, Anders Holst(参考訳) メンテナンス計画の中核となる部分は、健康と劣化に関する優れた予後を提供する監視システムであり、しばしば有用寿命(RUL)として表される。 現在のRUL予測のためのデータ駆動アプローチのほとんどは、単一ポイント予測に重点を置いている。 これらの点予測アプローチは、失敗の確率的性質を含まない。 今日までのいくつかの確率的アプローチは、アレクタ的不確実性(系に由来するもの)や認識論的不確実性(モデルパラメータに由来するもの)、あるいは両方を同時に完全な不確実性として含む。 本稿では,不確実性を考慮した確率的rul予測のためのアンサンブルニューラルネットワークを提案する。 これらの分離された不確実性は、予測の信頼性を理解し、解釈するのに不可欠である。 この方法はNASAのターボファンジェットエンジンであるCMAPSSのデータセットで試験される。 以上の結果から,これらの不確実性がどのようにモデル化されうるか,また,認識的不確実性および認識的不確実性の寄与をいかに解消するかを示す。 さらに,提案手法は異なるメトリクスで評価され,現在の最先端手法と比較される。

A core part of maintenance planning is a monitoring system that provides a good prognosis on health and degradation, often expressed as remaining useful life (RUL). Most of the current data-driven approaches for RUL prediction focus on single-point prediction. These point prediction approaches do not include the probabilistic nature of the failure. The few probabilistic approaches to date either include the aleatoric uncertainty (which originates from the system), or the epistemic uncertainty (which originates from the model parameters), or both simultaneously as a total uncertainty. Here, we propose ensemble neural networks for probabilistic RUL predictions which considers both uncertainties and decouples these two uncertainties. These decoupled uncertainties are vital in knowing and interpreting the confidence of the predictions. This method is tested on NASA's turbofan jet engine CMAPSS data-set. Our results show how these uncertainties can be modeled and how to disentangle the contribution of aleatoric and epistemic uncertainty. Additionally, our approach is evaluated on different metrics and compared against the current state-of-the-art methods.
翻訳日:2023-09-25 17:03:12 公開日:2023-09-21
# Foundation Metrics: ジェネレーティブAIを活用したヘルスケア会話の有効性の定量化

Foundation Metrics: Quantifying Effectiveness of Healthcare Conversations powered by Generative AI ( http://arxiv.org/abs/2309.12444v1 )

ライセンス: Link先を確認
Mahyar Abbasian, Elahe Khatibi, Iman Azimi, David Oniani, Zahra Shakeri Hossein Abad, Alexander Thieme, Zhongqi Yang, Yanshan Wang, Bryant Lin, Olivier Gevaert, Li-Jia Li, Ramesh Jain, Amir M. Rahmani(参考訳) 生成型人工知能(generative artificial intelligence)は、従来の患者のケアをよりパーソナライズし、効率的で、積極的なプロセスに変えることで、医療提供に革命をもたらす。 対話型会話モデルとして機能するチャットボットは、この患者中心の医療変革を推進するだろう。 診断、パーソナライズされたライフスタイル・レコメンデーション、メンタルヘルスサポートなど、さまざまなサービスの提供を通じて、医療提供者のワークロード負担を軽減する一方で、患者の健康成果を大幅に増やすことが目的である。 医療アプリケーションのライフクリティカルな性質は、会話モデルのための統一的で包括的な評価指標を確立する必要がある。 様々な総合的大言語モデル(LLM)に提案されている既存の評価指標は、医療と健康の概念に関する理解の欠如と、患者の幸福を促進する上での意義を示している。 さらに、これらの指標は、信頼構築、倫理、パーソナライゼーション、共感、ユーザーの理解、感情的支援など、重要なユーザー中心の側面を無視している。 本研究の目的は,医療における対話型対話モデルの評価に特に適用可能な,最先端のLCMに基づく評価指標を検討することである。 次に、エンドユーザーの視点から医療チャットボットのパフォーマンスを徹底的に評価するための総合的な評価指標を提案する。 これらの指標は、言語処理能力の評価、実際の臨床タスクへの影響、ユーザ対話における有効性を含む。 最後に,これらの指標の定義と実装に関連する課題,特に対象オーディエンス,評価方法,評価プロセスに関わる迅速化手法といった要素の融合に重点を置く議論を行う。

Generative Artificial Intelligence is set to revolutionize healthcare delivery by transforming traditional patient care into a more personalized, efficient, and proactive process. Chatbots, serving as interactive conversational models, will probably drive this patient-centered transformation in healthcare. Through the provision of various services, including diagnosis, personalized lifestyle recommendations, and mental health support, the objective is to substantially augment patient health outcomes, all the while mitigating the workload burden on healthcare providers. The life-critical nature of healthcare applications necessitates establishing a unified and comprehensive set of evaluation metrics for conversational models. Existing evaluation metrics proposed for various generic large language models (LLMs) demonstrate a lack of comprehension regarding medical and health concepts and their significance in promoting patients' well-being. Moreover, these metrics neglect pivotal user-centered aspects, including trust-building, ethics, personalization, empathy, user comprehension, and emotional support. The purpose of this paper is to explore state-of-the-art LLM-based evaluation metrics that are specifically applicable to the assessment of interactive conversational models in healthcare. Subsequently, we present an comprehensive set of evaluation metrics designed to thoroughly assess the performance of healthcare chatbots from an end-user perspective. These metrics encompass an evaluation of language processing abilities, impact on real-world clinical tasks, and effectiveness in user-interactive conversations. Finally, we engage in a discussion concerning the challenges associated with defining and implementing these metrics, with particular emphasis on confounding factors such as the target audience, evaluation methods, and prompt techniques involved in the evaluation process.
翻訳日:2023-09-25 17:02:56 公開日:2023-09-21
# 多言語指節小体に対する能動的学習

Active Learning for Multilingual Fingerspelling Corpora ( http://arxiv.org/abs/2309.12443v1 )

ライセンス: Link先を確認
Shuai Wang, Eric Nalisnick(参考訳) 我々は手話におけるデータ不足問題を支援するために能動的学習を適用した。 特に,プレトレーニングの効果について,新しい分析を行った。 多くの手話言語はフランス語手話から派生した言語であり、手話構成を共有している。 この仮説をアメリカ、中国、ドイツ、アイルランドの指先でテストします。 私たちは事前トレーニングの利点を観察していますが、これは言語的な類似性ではなく、視覚によるものです。

We apply active learning to help with data scarcity problems in sign languages. In particular, we perform a novel analysis of the effect of pre-training. Since many sign languages are linguistic descendants of French sign language, they share hand configurations, which pre-training can hopefully exploit. We test this hypothesis on American, Chinese, German, and Irish fingerspelling corpora. We do observe a benefit from pre-training, but this may be due to visual rather than linguistic similarities
翻訳日:2023-09-25 17:02:27 公開日:2023-09-21
# 任意の大きさのマルチモードデバイスに大きなユニタリを分解する

Decomposing large unitaries into multimode devices of arbitrary size ( http://arxiv.org/abs/2309.12440v1 )

ライセンス: Link先を確認
Christian Arends, Lasse Wolf, Jasmin Meinecke, Sonja Barkhofen, Tobias Weich and Tim Bartley(参考訳) 複雑なユニタリ進化を一連の構成成分に分解することは、実用的な量子情報処理の基礎となる。 n\times n$ユニタリを$2\times2$のサブユニタリに分解することは十分に確立されている(線形光学におけるビームスプリッターや位相シフター)が、この分解がどのように一連の$m\times m$マルチモードデバイスに一般化され、$m>2$となるかを示す。 個々の$m\times m$ マルチモードデバイスを構築するコストが$\frac{m(m-1)}{2}$ 個々の$\times 2$ デバイスで構築するよりも低い場合、大きなユニタリを$m\times m$ サブマトリクスに分解することはリソース効率が高く、$2\times 2$ よりもエラーに対する耐性が高いことを示している。 これにより、大規模なユニタリを低いエラーで構築することができ、ボソンサンプリング、量子フーリエ変換、量子シミュレーションなど様々なタスクに必要となる。

Decomposing complex unitary evolution into a series of constituent components is a cornerstone of practical quantum information processing. While the decompostion of an $n\times n$ unitary into a series of $2\times2$ subunitaries is well established (i.e. beamsplitters and phase shifters in linear optics), we show how this decomposition can be generalised into a series of $m\times m$ multimode devices, where $m>2$. If the cost associated with building each $m\times m$ multimode device is less than constructing with $\frac{m(m-1)}{2}$ individual $2\times 2$ devices, we show that the decomposition of large unitaries into $m\times m$ submatrices is is more resource efficient and exhibits a higher tolerance to errors, than its $2\times 2$ counterpart. This allows larger-scale unitaries to be constructed with lower errors, which is necessary for various tasks, not least Boson sampling, the quantum Fourier transform and quantum simulations.
翻訳日:2023-09-25 17:02:20 公開日:2023-09-21
# 標準電子部品を用いたディジタルMemComputingの実装

Implementation of digital MemComputing using standard electronic components ( http://arxiv.org/abs/2309.12437v1 )

ライセンス: Link先を確認
Yuan-Hang Zhang and Massimiliano Di Ventra(参考訳) DMM(Digital MemComputing Machine)は、メモリを持つ非線形動的システム(時限非局所性)を用いており、様々な組合せ最適化問題を解決するための堅牢でスケーラブルな非伝統的な計算手法であることが証明されている。 しかし、これまでの研究の大部分は、DMMの運動方程式の数値シミュレーションに焦点を当てている。 これは必然的に離散化の時間であり、連続的に動作する実際の物理システムに欠落する独自の(数値的な)問題をもたらす。 DMMのハードウェア実現は以前から提案されていたが、その実装には従来の電子機器と簡単に統合できない材料や装置が必要である。 本研究では,従来の電子部品のみを活用するDMMのためのハードウェア設計を提案する。 以上の結果から, この設計は, 特殊材料や新しいデバイス概念を必要とせず, 既存の機械の実現と比較して, 性能が著しく向上することが示唆された。 さらに、数値ノイズの欠如により、機械の動作期間を延ばす安定性が向上し、さらに複雑な問題に対処する道が開かれた。

Digital MemComputing machines (DMMs), which employ nonlinear dynamical systems with memory (time non-locality), have proven to be a robust and scalable unconventional computing approach for solving a wide variety of combinatorial optimization problems. However, most of the research so far has focused on the numerical simulations of the equations of motion of DMMs. This inevitably subjects time to discretization, which brings its own (numerical) issues that would be absent in actual physical systems operating in continuous time. Although hardware realizations of DMMs have been previously suggested, their implementation would require materials and devices that are not so easy to integrate with traditional electronics. In this study, we propose a novel hardware design for DMMs that leverages only conventional electronic components. Our findings suggest that this design offers a marked improvement in speed compared to existing realizations of these machines, without requiring special materials or novel device concepts. Moreover, the absence of numerical noise promises enhanced stability over extended periods of the machines' operation, paving the way for addressing even more complex problems.
翻訳日:2023-09-25 17:01:57 公開日:2023-09-21
# 量子ディック電池の「バウンド光度」状態におけるスーパーチャージ

Quantum Dicke battery supercharging in the "bound luminocity" state ( http://arxiv.org/abs/2309.12433v1 )

ライセンス: Link先を確認
S.S. Seidov and S.I. Mukhin(参考訳) 量子電池は、エネルギーの貯蔵と変換に使用される量子システムであり、近年研究の関心を集めている。 彼らの研究の有望な候補はディッケモデルであり、共振器共振器内の単一モード電磁波と相互作用する2レベル系のアンサンブルを記述する。 電池を充電するためには、2レベルシステムのアンサンブルと共振器キャビティとの結合を一定時間にオフにする必要がある。 この時間モーメントは、エネルギーが2レベルシステムのアンサンブルに完全に格納されるような方法で選択される。 これまでの研究で、拡張ディックモデルの「有界光度」超放射状態を調査し、超放射率凝縮体と二層系のアンサンブル間のコヒーレントエネルギー移動のダイナミクスの解析式を発見した。 ここで、前回の結果を用いて、量子バッテリ充電パワー $p\sim n^{3/2}$ の超線形法則を、バッテリ内の2つのレベルシステムの数 n$ の関数として、また充電時間 $t_c\sim n^{-1/2}$ に対する$n$依存性として、解析的に導出した。 チャージパワーの$n$-exponent$/2$は、他の著者によって数値的に得られた最近の${1.541}$と定量的に一致している。 ディッケ量子バッテリ充電の物理は、詳細に検討されている。

Quantum batteries, which are quantum systems to be used for storage and transformation of energy, are attracting research interest recently. A promising candidate for their investigation is the Dicke model, which describes an ensemble of two-level systems interacting with a single-mode electromagnetic wave in a resonator cavity. In order to charge the battery, a coupling between the ensemble of two-level systems and resonator cavity should be turned off at a certain moment of time. This moment of time is chosen in such a way, that the energy gets fully stored in the ensemble of two-level systems. In our previous work we have investigated a "bound luminosity" superradiant state of the extended Dicke model and found analytical expressions for dynamics of coherent energy transfer between superradiant condensate and the ensemble of the two-level systems. Here, using our previous results, we have derived analytically the superlinear law for the quantum battery charging power $P\sim N^{3/2}$ as function of the number $N$ of the two-level systems in the battery, and also $N$-dependence for the charging time $t_c\sim N^{-1/2}$. The $N$-exponent $3/2$ of the charging power is in quantitative correspondence with the recent result ${1.541}$ obtained numerically by other authors. The physics of the Dicke quantum battery charging is considered in detail.
翻訳日:2023-09-25 17:01:38 公開日:2023-09-21
# 最小パルス列を持つ2量子量子ゲート

Two-qubit quantum gates with minimal pulse sequences ( http://arxiv.org/abs/2309.12432v1 )

ライセンス: Link先を確認
Ignacio R. Sola, Seokmin Shin, Bo Y. Chang(参考訳) 互いに近い距離で閉じ込められた原子で作業することで、量子ビット当たりの単一パルスまたは単一構造パルスを用いて非独立な量子ビットに基づくエンタングリングゲートを実装することができることを示す。 最適パラメータはディオファントス方程式の近似解に依存するため、有限性は理想的な条件下であっても完全ではない。 我々は、ゲートが動作する機構を完全に特徴付け、特に強いフィールドを使用するゲートの忠実度を損なうピーク強度の変動から、現実的な実装におけるエラーの主な原因が生じることを示す。 2パルスシーケンスで作業することで、複数の機構と幅広い最適なパラメータを選択でき、高忠実度ゲートを実現することができる。

Working with trapped atoms at close distance to each other, we show that one can implement entangling gates based on non-independent qubits using a single pulse per qubit, or a single structured pulse. The optimal parameters depend on approximate solutions of Diophantine equations, causing the fidelity to never be exactly perfect, even under ideal conditions, although the errors can be made arbitrarily smaller at the cost of stronger fields. We fully characterize the mechanism by which the gates operate, and show that the main source of error in realistic implementations comes from fluctuations in the peak intensity, which especially damages the fidelity of the gates that use stronger fields. Working with two-pulse sequences, instead of one, enables the use of a plethora of mechanisms and a broad range of optimal parameters to choose from, to achieve high-fidelity gates.
翻訳日:2023-09-25 17:01:12 公開日:2023-09-21
# DIOR: 屋内再同定のためのデータセット -- 長距離3D/2D 歩行収集パイプライン、半自動歩行キーポイントラベルおよびベースライン評価方法

DIOR: Dataset for Indoor-Outdoor Reidentification -- Long Range 3D/2D Skeleton Gait Collection Pipeline, Semi-Automated Gait Keypoint Labeling and Baseline Evaluation Methods ( http://arxiv.org/abs/2309.12429v1 )

ライセンス: Link先を確認
Yuyang Chen, Praveen Raj Masilamani, Bhavin Jawade, Srirangaraj Setlur, Karthik Dantu(参考訳) 近年では、屋上カメラ、UAVカメラ、街路カメラなど、遠距離の人々の識別と再識別への関心が高まっている。 このような認識は顔を超えて、歩行のような全身マーカーを使用する必要がある。 しかし、そのような認識アルゴリズムを訓練し、テストするデータセットは広く普及せず、ラベル付けされることも少ない。 本稿では、データ収集、半自動アノテーションのためのフレームワークであるDIORを紹介し、14の被験者と1.649万のRGBフレームと3D/2Dスケルトン歩行ラベルを備えたデータセットを提供する。 本手法は3次元コンピュータビジョン技術を利用して,モーションキャプチャシステムを用いた室内環境における画素レベルの精度を実現する。 さらに、屋外の長距離環境では、モーションキャプチャシステムへの依存を取り除き、低コストでハイブリッドな3Dコンピュータビジョンと学習パイプラインを4台のRGBカメラで採用し、RGBフレーム内のわずか20-25ピクセルに制限された場合であっても、遠方の被験者に正確なスケルトンラベルを付けることに成功した。 公開時には、他の人が利用できるようにパイプラインをオープンにします。

In recent times, there is an increased interest in the identification and re-identification of people at long distances, such as from rooftop cameras, UAV cameras, street cams, and others. Such recognition needs to go beyond face and use whole-body markers such as gait. However, datasets to train and test such recognition algorithms are not widely prevalent, and fewer are labeled. This paper introduces DIOR -- a framework for data collection, semi-automated annotation, and also provides a dataset with 14 subjects and 1.649 million RGB frames with 3D/2D skeleton gait labels, including 200 thousands frames from a long range camera. Our approach leverages advanced 3D computer vision techniques to attain pixel-level accuracy in indoor settings with motion capture systems. Additionally, for outdoor long-range settings, we remove the dependency on motion capture systems and adopt a low-cost, hybrid 3D computer vision and learning pipeline with only 4 low-cost RGB cameras, successfully achieving precise skeleton labeling on far-away subjects, even when their height is limited to a mere 20-25 pixels within an RGB frame. On publication, we will make our pipeline open for others to use.
翻訳日:2023-09-25 17:00:57 公開日:2023-09-21
# state2explanation: エージェント学習とユーザ理解に役立つ概念に基づく説明

State2Explanation: Concept-Based Explanations to Benefit Agent Learning and User Understanding ( http://arxiv.org/abs/2309.12482v1 )

ライセンス: Link先を確認
Devleena Das, Sonia Chernova, Been Kim(参考訳) 非AI専門家が日々のタスクを完了するために使用するより複雑なAIシステムによって、非AI専門家が理解可能なAI決定の説明を作成する方法の開発が進められている。 この取り組みに向けて、ハイレベルな概念の活用と概念に基づく説明の作成が一般的な方法となっている。 概念に基づくほとんどの説明は分類技術のために開発されており、逐次的意思決定の手法はスコープに限られていると仮定する。 本稿では,まず,逐次意思決定において「概念」を定義するためのデシデラタを提案する。 さらに,知識の説明が自己学習を補強する,というプロテジエフェクトに触発され,エージェント学習率の向上によるRLエージェントと,エージェント意思決定のエンドユーザ理解の向上によるエンドユーザーへの2つのメリットを提供する概念に基づく説明の有用性を検討する。 この目的のために、状態-動作ペアと概念-ベース説明の結合埋め込みモデルを学習し、(1)エージェントのトレーニング中に報酬形成を通知すること、(2)タスクパフォーマンスを改善するためにエンドユーザーに説明を提供する統合フレームワークState2Explanation(S2E)をコントリビュートする。 Connect 4 と Lunar Lander での実験的な検証を行ったところ、S2E は双対ベネフィットを実現し、報酬形成を成功させ、エージェント学習率を向上し、デプロイメント時のエンドユーザータスク性能を大幅に改善することに成功した。

With more complex AI systems used by non-AI experts to complete daily tasks, there is an increasing effort to develop methods that produce explanations of AI decision making understandable by non-AI experts. Towards this effort, leveraging higher-level concepts and producing concept-based explanations have become a popular method. Most concept-based explanations have been developed for classification techniques, and we posit that the few existing methods for sequential decision making are limited in scope. In this work, we first contribute a desiderata for defining "concepts" in sequential decision making settings. Additionally, inspired by the Protege Effect which states explaining knowledge often reinforces one's self-learning, we explore the utility of concept-based explanations providing a dual benefit to the RL agent by improving agent learning rate, and to the end-user by improving end-user understanding of agent decision making. To this end, we contribute a unified framework, State2Explanation (S2E), that involves learning a joint embedding model between state-action pairs and concept-based explanations, and leveraging such learned model to both (1) inform reward shaping during an agent's training, and (2) provide explanations to end-users at deployment for improved task performance. Our experimental validations, in Connect 4 and Lunar Lander, demonstrate the success of S2E in providing a dual-benefit, successfully informing reward shaping and improving agent learning rate, as well as significantly improving end user task performance at deployment time.
翻訳日:2023-09-25 16:56:09 公開日:2023-09-21
# HANS、あなたは賢いですか? 神経系の賢いハンス効果解析

HANS, are you clever? Clever Hans Effect Analysis of Neural Systems ( http://arxiv.org/abs/2309.12481v1 )

ライセンス: Link先を確認
Leonardo Ranaldi, Fabio Massimo Zanzotto(参考訳) インストラクション・チューニングされた大規模言語モデル( It-LLMs)は、認知状態、意図、反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。 実際、モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。 しかし、初期の研究はit-llmに固有の「順序バイアス」の存在を示しており、適切な評価に挑戦している。 本稿では4つのMCQベンチマークを用いて,I-LLMの一連の探索試験に対する弾力性について検討する。 敵の例を紹介することで,選択の順序を変化させる際に,選択バイアスを明らかにし,議論の推論能力をもたらすような,重要なパフォーマンスギャップが明らかになる。 位置バイアスによる第1位とモデル選択の相関から,I-LLMの意思決定過程における構造的ヒューリスティックスの存在を仮定し,いくつかのシナリオに顕著な例を含めることにより強化した。 最後に、Chain-of-Thought(CoT)技術を用いることで、より堅牢なモデルを得ることでバイアスを推論し緩和する。

Instruction-tuned Large Language Models (It-LLMs) have been exhibiting outstanding abilities to reason around cognitive states, intentions, and reactions of all people involved, letting humans guide and comprehend day-to-day social interactions effectively. In fact, several multiple-choice questions (MCQ) benchmarks have been proposed to construct solid assessments of the models' abilities. However, earlier works are demonstrating the presence of inherent "order bias" in It-LLMs, posing challenges to the appropriate evaluation. In this paper, we investigate It-LLMs' resilience abilities towards a series of probing tests using four MCQ benchmarks. Introducing adversarial examples, we show a significant performance gap, mainly when varying the order of the choices, which reveals a selection bias and brings into discussion reasoning abilities. Following a correlation between first positions and model choices due to positional bias, we hypothesized the presence of structural heuristics in the decision-making process of the It-LLMs, strengthened by including significant examples in few-shot scenarios. Finally, by using the Chain-of-Thought (CoT) technique, we elicit the model to reason and mitigate the bias by obtaining more robust models.
翻訳日:2023-09-25 16:55:36 公開日:2023-09-21
# SAVME:メタラーニングを用いた自律システムの効率的な安全性検証

SAVME: Efficient Safety Validation for Autonomous Systems Using Meta-Learning ( http://arxiv.org/abs/2309.12474v1 )

ライセンス: Link先を確認
Marc R. Schlichting, Nina V. Board, Anthony L. Corso, Mykel J. Kochenderfer(参考訳) 自律システムの潜在的な障害を発見することは、展開前に重要である。 改ざんに基づく手法は、しばしばシステムの安全性を評価するために用いられるが、多くの正確なシミュレーションを実行するコストが高い可能性がある。 テスト中のシステムの重要な障害シナリオを特定し、シミュレーションランタイムを小さくすることで、検証を高速化することができる。 本稿では,多腕バンディットフレームワークとメタラーニング戦略を統合するベイズアプローチを提案する。 提案手法は,テスト対象のシステムで障害を引き起こすおそれのあるシナリオパラメータの分布を学習するだけでなく,高速かつ正確なシミュレーションを可能にする忠実度設定上の分布を学習する。 メタ学習の精神では、学習された忠実度設定分布が、新しいシナリオのシナリオパラメータ分布の学習を高速化するかどうかも評価する。 カメラとlidarセンサーを備えた自動運転車スタックに16種類の忠実度設定を組み込んだ,最先端の3d運転シミュレータを用いた手法を紹介する。 自動運転車のプリクラッシュタイポロジーに基づいて,様々なシナリオを評価する。 その結果,高忠実度シミュレータのみに依存する従来の手法に比べて,最大18倍の高速化を実現することができた。

Discovering potential failures of an autonomous system is important prior to deployment. Falsification-based methods are often used to assess the safety of such systems, but the cost of running many accurate simulation can be high. The validation can be accelerated by identifying critical failure scenarios for the system under test and by reducing the simulation runtime. We propose a Bayesian approach that integrates meta-learning strategies with a multi-armed bandit framework. Our method involves learning distributions over scenario parameters that are prone to triggering failures in the system under test, as well as a distribution over fidelity settings that enable fast and accurate simulations. In the spirit of meta-learning, we also assess whether the learned fidelity settings distribution facilitates faster learning of the scenario parameter distributions for new scenarios. We showcase our methodology using a cutting-edge 3D driving simulator, incorporating 16 fidelity settings for an autonomous vehicle stack that includes camera and lidar sensors. We evaluate various scenarios based on an autonomous vehicle pre-crash typology. As a result, our approach achieves a significant speedup, up to 18 times faster compared to traditional methods that solely rely on a high-fidelity simulator.
翻訳日:2023-09-25 16:55:15 公開日:2023-09-21
# ディラック方程式の厳密な量子復元

Exact quantum revivals for the Dirac equation ( http://arxiv.org/abs/2309.12471v1 )

ライセンス: Link先を確認
Fernando Chamizo and Osvaldo P. Santill\'an(参考訳) 本研究では, トーラス上の相対論的フェルミオン波動関数の復活に関する[25]の結果を大きく拡大した。 実際、リバイバルを示す全ての可能な量子状態は、完全に特徴づけられる。 復活は、つまり、非相対論的なような特定の制限を取らずに、真の復活である。 この結果は、タルボット効果とシュル=オディンガー方程式を非零質量の相対論的状況に研究することで既に発見されている復活を一般化するので興味深い。 これにより、分散関係が変更され線型ではないため、問題は非自明である。 結果は、テキストに沿ってある程度詳細に記述された算術ツールを用いて得られる。

In the present work, the results obtained in [25] about the revivals of a relativistic fermion wave function on a torus are considerably enlarged. In fact, all the possible quantum states exhibiting revivals are fully characterized. The revivals are exact, that is, are true revivals without taking any particular limit such as the non relativistic one. The present results are of interest since they generalize the Talbot effect and the revivals already found by studying the Schr\"odinger equation to a relativistic situation with nonzero mass. This makes the problem nontrivial, as the dispersion relation is modified and is not linear. The results are obtained by the use of arithmetic tools which are described in certain detail along the text.
翻訳日:2023-09-25 16:54:44 公開日:2023-09-21
# generativism: 新しいハイブリッド

Generativism: the new hybrid ( http://arxiv.org/abs/2309.12468v1 )

ライセンス: Link先を確認
B. Mairead Pratschke(参考訳) 教育における生成人工知能(GenAI)は、数ヶ月間、投機的教育の将来に関する議論のトピックから、非常に具体的な現実へと移行してきた。 教育の未来は、あらゆる産業と同様に、GenAIとのコラボレーションであることは明らかである。 GenAI属性は、協調、コミュニティ、そしてアクティブな学習を通して知識とスキルの構築を価値あるものにすることを学ぶための社会的・建設主義的なアプローチに適している。 本稿では、このAI時代の新しいハイブリッドに適応したデジタル教育フレームワークに基づいて、GenAIと連携して教育を設計するアプローチを提案する。

Generative Artificial Intelligence (GenAI) in Education has in a few short months moved from being the topic of discussion around speculative education futures to a very concrete reality. It is clear that the future of education, as all industries, is collaboration with GenAI. GenAI attributes make it well suited for social and constructivist approaches to learning that value collaboration, community and the construction of knowledge and skills through active learning. This article presents an approach to designing education in collaboration with GenAI, based on digital education frameworks adapted for this new hybrid of the AI age.
翻訳日:2023-09-25 16:54:25 公開日:2023-09-21
# 多スペクトル深層ニューラルネットワークのロバスト性と解釈性に及ぼすアーキテクチャの影響

Impact of architecture on robustness and interpretability of multispectral deep neural networks ( http://arxiv.org/abs/2309.12463v1 )

ライセンス: Link先を確認
Charles Godfrey, Elise Bishoff, Myles McKay and Eleanor Byler(参考訳) 追加のスペクトルバンド(近赤外など)の情報を含むことで、多くの視覚指向タスクでディープラーニングモデルのパフォーマンスが向上する。 この追加情報をディープラーニングモデルに組み込む方法はたくさんあるが、最適な融合戦略はまだ決定されておらず、アプリケーションによって異なる可能性がある。 初期の融合」として知られる極端には、追加のバンドを余分なチャンネルとして積み重ねて、3つ以上のチャンネルを持つ入力画像を得る。 他方の極端では、RGBと非RGBバンドは、深層学習モデルの別々の分岐を通過し、最終分類層や分節層の直前にマージされる。 本研究では、異なる融合アプローチによる多スペクトル深層学習モデルの性能を特徴付け、異なる入力帯域に対する相対的依存を定量化し、1つ以上の入力チャネルに影響を及ぼす自然主義的な画像破壊に対する頑健さを評価する。

Including information from additional spectral bands (e.g., near-infrared) can improve deep learning model performance for many vision-oriented tasks. There are many possible ways to incorporate this additional information into a deep learning model, but the optimal fusion strategy has not yet been determined and can vary between applications. At one extreme, known as "early fusion," additional bands are stacked as extra channels to obtain an input image with more than three channels. At the other extreme, known as "late fusion," RGB and non-RGB bands are passed through separate branches of a deep learning model and merged immediately before a final classification or segmentation layer. In this work, we characterize the performance of a suite of multispectral deep learning models with different fusion approaches, quantify their relative reliance on different input bands and evaluate their robustness to naturalistic image corruptions affecting one or more input channels.
翻訳日:2023-09-25 16:54:06 公開日:2023-09-21
# 科学画像解釈のためのマルチモーダル深層学習

Multimodal Deep Learning for Scientific Imaging Interpretation ( http://arxiv.org/abs/2309.12460v1 )

ライセンス: Link先を確認
Abdulelah S. Alshehri, Franklin L. Lee, Shihu Wang(参考訳) 科学イメージングの分野では、視覚データの解釈は、しばしば人間の専門知識と被写体の深い理解の複雑な組み合わせを必要とする。 本研究では,SEM(Scanning Electron Microscopy)画像,特にガラス材料との人間的相互作用を言語的にエミュレートし,評価する新しい手法を提案する。 マルチモーダル・ディープラーニング・フレームワークを活用することで、ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出し、改良されたデータ合成と評価のためのGPT-4の機能によりさらに強化する。 ニュアンス解釈や特殊なデータセットの可用性の制限など、固有の課題にもかかわらず、正確な解釈、重要な特徴の特定、これまで目にしたことのないsem画像の欠陥の検出に優れています。 さらに,様々な科学的イメージング応用に適した多彩な評価指標を導入し,研究対象の回答に対するベンチマークを行う。 現代の大規模言語モデルの頑健さから、我々のモデルは研究論文の洞察と密接に一致している。 この進歩は、科学的画像における人間と機械の解釈のギャップを埋める上で大きな進歩を示すだけでなく、将来の研究と幅広い応用のための拡大の道のりを示唆している。

In the domain of scientific imaging, interpreting visual data often demands an intricate combination of human expertise and deep comprehension of the subject materials. This study presents a novel methodology to linguistically emulate and subsequently evaluate human-like interactions with Scanning Electron Microscopy (SEM) images, specifically of glass materials. Leveraging a multimodal deep learning framework, our approach distills insights from both textual and visual data harvested from peer-reviewed articles, further augmented by the capabilities of GPT-4 for refined data synthesis and evaluation. Despite inherent challenges--such as nuanced interpretations and the limited availability of specialized datasets--our model (GlassLLaVA) excels in crafting accurate interpretations, identifying key features, and detecting defects in previously unseen SEM images. Moreover, we introduce versatile evaluation metrics, suitable for an array of scientific imaging applications, which allows for benchmarking against research-grounded answers. Benefiting from the robustness of contemporary Large Language Models, our model adeptly aligns with insights from research papers. This advancement not only underscores considerable progress in bridging the gap between human and machine interpretation in scientific imaging, but also hints at expansive avenues for future research and broader application.
翻訳日:2023-09-25 16:53:22 公開日:2023-09-21
# マルチモーダル学習の理論

A Theory of Multimodal Learning ( http://arxiv.org/abs/2309.12458v1 )

ライセンス: Link先を確認
Zhou Lu(参考訳) 経験的世界に対する人間の知覚は、基礎となる物体の多様な外観や「モダリティ」を認識することを伴う。 哲学と認知科学におけるこの観点の長年の考察にもかかわらず、マルチモーダリティの研究は機械学習の分野において比較的過小評価されている。 しかし、現在のマルチモーダル機械学習の研究は経験的な実践に限られており、ヒューリスティックな議論以外の理論的な基礎を欠いている。 マルチモーダル学習の実践から興味深い発見は、複数のモーダルで訓練されたモデルが、単調なタスクであっても、微調整された単調なモデルよりも優れていることである。 本稿では,マルチモーダル学習アルゴリズムの一般化特性を研究することにより,この現象を説明する理論的枠組みを提案する。 マルチモーダル学習は、ユニモーダル学習に比べて優れた一般化が可能であり、最大で$o(\sqrt{n})$であり、ここでは$n$がサンプルサイズを表す。 このような利点は、モダリティ間の接続と不均一性の両方が存在するときに生じる。

Human perception of the empirical world involves recognizing the diverse appearances, or 'modalities', of underlying objects. Despite the longstanding consideration of this perspective in philosophy and cognitive science, the study of multimodality remains relatively under-explored within the field of machine learning. Nevertheless, current studies of multimodal machine learning are limited to empirical practices, lacking theoretical foundations beyond heuristic arguments. An intriguing finding from the practice of multimodal learning is that a model trained on multiple modalities can outperform a finely-tuned unimodal model, even on unimodal tasks. This paper provides a theoretical framework that explains this phenomenon, by studying generalization properties of multimodal learning algorithms. We demonstrate that multimodal learning allows for a superior generalization bound compared to unimodal learning, up to a factor of $O(\sqrt{n})$, where $n$ represents the sample size. Such advantage occurs when both connection and heterogeneity exist between the modalities.
翻訳日:2023-09-25 16:52:34 公開日:2023-09-21
# LongDocFACTScore:ロングドキュメント抽象要約の現実性を評価する

LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation ( http://arxiv.org/abs/2309.12455v1 )

ライセンス: Link先を確認
Jennifer A Bishop, Qianqian Xie, Sophia Ananiadou(参考訳) 事実整合性を維持することは抽象的なテキスト要約において重要な問題であるが、ROUGEスコアなどのテキスト要約を評価するために使用される従来の自動メトリクスでは評価できない。 近年,事前学習された言語モデルを用いた実測一貫性測定のための指標の開発が試みられているが,これらの指標は制限的なトークン制限があり,長文要約の評価には適していない。 また、長期文書データセットに適用した場合、既存の自動評価指標が目的に適合するかどうかを評価する研究が限られている。 本研究では,文書要約における事実整合性を評価するための自動メトリクスの有効性を評価し,新しい評価フレームワークであるLongDocFACTScoreを提案する。 このフレームワークはメトリクスをどんな長さのドキュメントにも拡張できる。 このフレームワークは、長い文書要約データセットを評価する際に、人間の実測値と相関する既存の最先端メトリクスよりも優れている。 さらに,LongDocFACTScoreは,短い文書データセット上での事実整合性の評価において,最先端の指標に匹敵する性能を示す。 コードと注釈付きデータを公開しています。 https://github.com/jbshp/LongDocFACTScore。

Maintaining factual consistency is a critical issue in abstractive text summarisation, however, it cannot be assessed by traditional automatic metrics used for evaluating text summarisation, such as ROUGE scoring. Recent efforts have been devoted to developing improved metrics for measuring factual consistency using pre-trained language models, but these metrics have restrictive token limits, and are therefore not suitable for evaluating long document text summarisation. Moreover, there is limited research evaluating whether existing automatic evaluation metrics are fit for purpose when applied to long document data sets. In this work, we evaluate the efficacy of automatic metrics at assessing factual consistency in long document text summarisation and propose a new evaluation framework LongDocFACTScore. This framework allows metrics to be extended to any length document. This framework outperforms existing state-of-the-art metrics in its ability to correlate with human measures of factuality when used to evaluate long document summarisation data sets. Furthermore, we show LongDocFACTScore has performance comparable to state-of-the-art metrics when evaluated against human measures of factual consistency on short document data sets. We make our code and annotated data publicly available: https://github.com/jbshp/LongDocFACTScore.
翻訳日:2023-09-25 16:52:17 公開日:2023-09-21
# ロバスト推論を補足するConvexフレームワーク

A Convex Framework for Confounding Robust Inference ( http://arxiv.org/abs/2309.12450v1 )

ライセンス: Link先を確認
Kei Ishikawa, Naio He, Takafumi Kanamori(参考訳) 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。 感度分析法は、与えられた不確実性セット上での最悪の場合のポリシー値の推定によく用いられる。 しかし、既存の作業はしばしば、トラクタビリティのために設定された不確実性の粗い緩和に頼り、政策価値を過度に保守的に見積もる。 本稿では,convexプログラミングを用いて,ポリシー値の鋭い下限を提供する一般的な推定器を提案する。 この推定器の汎用性は,f-divergenceによる感度解析,クロス検証と情報基準によるモデル選択,鋭い下限による強固なポリシ学習など,さまざまな拡張を可能にする。 さらに,本手法は,M推定手法を用いて提案した推定器の理論的確証を高い双対性により,経験的リスク最小化問題として再検討することができる。

We study policy evaluation of offline contextual bandits subject to unobserved confounders. Sensitivity analysis methods are commonly used to estimate the policy value under the worst-case confounding over a given uncertainty set. However, existing work often resorts to some coarse relaxation of the uncertainty set for the sake of tractability, leading to overly conservative estimation of the policy value. In this paper, we propose a general estimator that provides a sharp lower bound of the policy value using convex programming. The generality of our estimator enables various extensions such as sensitivity analysis with f-divergence, model selection with cross validation and information criterion, and robust policy learning with the sharp lower bound. Furthermore, our estimation method can be reformulated as an empirical risk minimization problem thanks to the strong duality, which enables us to provide strong theoretical guarantees of the proposed estimator using techniques of the M-estimation.
翻訳日:2023-09-25 16:51:56 公開日:2023-09-21
# 拡散モデルを用いたライセンスプレート超解像

License Plate Super-Resolution Using Diffusion Models ( http://arxiv.org/abs/2309.12506v1 )

ライセンス: Link先を確認
Sawsan AlHalawani, Bilel Benjdira, Adel Ammar, Anis Koubaa, Anas M. Ali(参考訳) 監視において、ライセンスプレートの正確な認識は、しばしば低い品質と小さな寸法によって妨げられ、認識精度を損なう。 AIベースの画像超解像の進歩にもかかわらず、畳み込みニューラルネットワーク(CNN)やGAN(Generative Adversarial Networks)といった手法は、ライセンスプレートイメージの強化に不足している。 本研究は,画像復元における他の深層学習技術より一貫して優れる最先端拡散モデルを活用する。 サウジアラビアのライセンスプレートのキュレートされたデータセットを用いて,低解像度と高解像度の両方でこのモデルを訓練することにより,拡散モデルの優れた有効性を見出した。 この方法は、SwinIRとESRGANに対してピーク信号対雑音比(PSNR)を12.55\%と37.32%改善する。 さらに,本手法は構造類似度指数(ssim)の点でこれらの手法を上回り,swiinirとesrganに対してそれぞれ4.89%,17.66%改善した。 さらに、人間の92%は、他のアルゴリズムのイメージよりも画像を好みました。 本研究は,監視システムにおいて有望な可能性を持つライセンスプレート超解法のための先駆的ソリューションを提案する。

In surveillance, accurately recognizing license plates is hindered by their often low quality and small dimensions, compromising recognition precision. Despite advancements in AI-based image super-resolution, methods like Convolutional Neural Networks (CNNs) and Generative Adversarial Networks (GANs) still fall short in enhancing license plate images. This study leverages the cutting-edge diffusion model, which has consistently outperformed other deep learning techniques in image restoration. By training this model using a curated dataset of Saudi license plates, both in low and high resolutions, we discovered the diffusion model's superior efficacy. The method achieves a 12.55\% and 37.32% improvement in Peak Signal-to-Noise Ratio (PSNR) over SwinIR and ESRGAN, respectively. Moreover, our method surpasses these techniques in terms of Structural Similarity Index (SSIM), registering a 4.89% and 17.66% improvement over SwinIR and ESRGAN, respectively. Furthermore, 92% of human evaluators preferred our images over those from other algorithms. In essence, this research presents a pioneering solution for license plate super-resolution, with tangible potential for surveillance systems.
翻訳日:2023-09-25 16:44:30 公開日:2023-09-21
# 長距離相互作用系におけるロバスト量子多体傷の理論

Theory of robust quantum many-body scars in long-range interacting systems ( http://arxiv.org/abs/2309.12504v1 )

ライセンス: Link先を確認
Alessio Lerose, Tommaso Parolini, Rosario Fazio, Dmitry A. Abanin, Silvia Pappalardi(参考訳) 量子多体傷(Quantum many-body scars、QMBS)は、特別な非平衡初期状態に対する熱化の違反に関連する量子多体系の例外的なエネルギー固有状態である。 彼らの様々な体系的構成は局所ハミルトニアンパラメータの微調整を必要とする。 本研究では、長距離相互作用する量子スピン系の設定が、一般に堅牢なQMBSをホストすることを示す。 我々は、可解な置換対称極限$\alpha=0$からスピンスピン相互作用のパワー-ロー減衰指数$\alpha$を上げる際のスペクトル特性を解析する。 まず、カオスのスペクトル符号が無限小$\alpha$に対して現れるにもかかわらず、大きな集合スピンを持つ$\alpha=0$エネルギー固有状態の塔は、$\alpha$の増加とともに滑らかに変形し、特徴的なQMBS特性を示すことを数値的に証明する。 より大きな系におけるこれらの状態の性質と運命を明らかにするために、スピンハミルトニアンを相対論的量子回転子に非線型結合した広範なボソニックモードにマッピングする解析的アプローチを導入する。 相互作用する不純物モデルの固有状態を正確に解き、原ハミルトニアンの大スピンセクターにおける自己整合局在を$0<\alpha<d$で示す。 本理論は, 任意の系サイズに対するqmbの安定性機構を明らかにし, 動的臨界点近傍や半古典的カオスの存在を予測し, 長距離量子イジングチェーンにおいて数値的に検証する。 副生成物として、Floquet-prethermalization定理を超えて、周期駆動下での加熱の有無の予測基準が$0<\alpha<d$である。 この作業のより広い視点は、ここで開発された技術ツールボックスの独立した応用から、実験ルートの通知から、メトロロジー的に有用なマルチパートの絡み合いまで幅広い。

Quantum many-body scars (QMBS) are exceptional energy eigenstates of quantum many-body systems associated with violations of thermalization for special non-equilibrium initial states. Their various systematic constructions require fine-tuning of local Hamiltonian parameters. In this work we demonstrate that the setting of long-range interacting quantum spin systems generically hosts robust QMBS. We analyze spectral properties upon raising the power-law decay exponent $\alpha$ of spin-spin interactions from the solvable permutationally-symmetric limit $\alpha=0$. First, we numerically establish that despite spectral signatures of chaos appear for infinitesimal $\alpha$, the towers of $\alpha=0$ energy eigenstates with large collective spin are smoothly deformed as $\alpha$ is increased, and exhibit characteristic QMBS features. To elucidate the nature and fate of these states in larger systems, we introduce an analytical approach based on mapping the spin Hamiltonian onto a relativistic quantum rotor non-linearly coupled to an extensive set of bosonic modes. We exactly solve for the eigenstates of this interacting impurity model, and show their self-consistent localization in large-spin sectors of the original Hamiltonian for $0<\alpha<d$. Our theory unveils the stability mechanism of such QMBS for arbitrary system size and predicts instances of its breakdown e.g. near dynamical critical points or in presence of semiclassical chaos, which we verify numerically in long-range quantum Ising chains. As a byproduct, we find a predictive criterion for presence or absence of heating under periodic driving for $0<\alpha<d$, beyond existing Floquet-prethermalization theorems. Broader perspectives of this work range from independent applications of the technical toolbox developed here to informing experimental routes to metrologically useful multipartite entanglement.
翻訳日:2023-09-25 16:44:08 公開日:2023-09-21
# 知識グラフの埋め込み: 概要

Knowledge Graph Embedding: An Overview ( http://arxiv.org/abs/2309.12501v1 )

ライセンス: Link先を確認
Xiou Ge, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo(参考訳) 多くの数学的モデルは、知識グラフ(KG)の実体とリンク予測と多くの下流タスクの関係を表現するために設計に活用されている。 これらの数学的にインスパイアされたモデルは、大きな kg での推論に高度にスケーラブルであるだけでなく、形式的証明と経験的結果の両方を通して検証可能な異なる関係パターンをモデル化する多くの説明可能な利点を持っている。 本稿では,kg完成における研究の現状を総合的に概観する。 特に、KG埋め込み(KGE)設計の2つの主要分野に焦点を当てる。 1)距離に基づく方法 2) 意味マッチングに基づく手法。 我々は最近提案されたモデル間の関係を発見し、研究者が新しくより効果的なモデルを発明するのに役立つ基礎となる傾向を示す。 次に,2次元および3次元アフィン操作からインスピレーションを得る複合Eと複合E3Dを探索する。 それらは、距離ベースおよび意味ベースメソッドを含む幅広いテクニックを包含する。 我々はまた、事前訓練された言語モデル(PLM)とエンティティと関係のテキスト記述を活用するKG完了に対する新たなアプローチについても論じ、KG完了のためのPLMとKGE埋め込みメソッドの統合に関する洞察を提供する。

Many mathematical models have been leveraged to design embeddings for representing Knowledge Graph (KG) entities and relations for link prediction and many downstream tasks. These mathematically-inspired models are not only highly scalable for inference in large KGs, but also have many explainable advantages in modeling different relation patterns that can be validated through both formal proofs and empirical results. In this paper, we make a comprehensive overview of the current state of research in KG completion. In particular, we focus on two main branches of KG embedding (KGE) design: 1) distance-based methods and 2) semantic matching-based methods. We discover the connections between recently proposed models and present an underlying trend that might help researchers invent novel and more effective models. Next, we delve into CompoundE and CompoundE3D, which draw inspiration from 2D and 3D affine operations, respectively. They encompass a broad spectrum of techniques including distance-based and semantic-based methods. We will also discuss an emerging approach for KG completion which leverages pre-trained language models (PLMs) and textual descriptions of entities and relations and offer insights into the integration of KGE embedding methods with PLMs for KG completion.
翻訳日:2023-09-25 16:43:32 公開日:2023-09-21
# ユーザレベルのディファレンシャルプライバシ : ユーザ毎の例はほとんどない

User-Level Differential Privacy With Few Examples Per User ( http://arxiv.org/abs/2309.12500v1 )

ライセンス: Link先を確認
Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Raghu Meka, Chiyuan Zhang(参考訳) ユーザレベルの差分プライバシー (DP) [Ghazi et al. NeurIPS 2021, Bun et al. STOC 2023] に関するこれまでの研究は、様々な学習タスクに使える汎用アルゴリズムを得た。 しかし、彼らの焦点は、ユーザ自身が問題を解決できるような多くの例がある、サンプル豊富な体制にある。 本研究では,各ユーザのサンプル数が少ない実例スカース方式を考察し,以下の結果を得た。 1. 近似DPでは,任意の項目レベルのDPアルゴリズムをユーザレベルのDPアルゴリズムに総称変換する。 大まかに言えば、後者は、同じユーティリティを達成するのに必要なユーザ数の観点から、$O_{\varepsilon,\delta}(\sqrt{m})$の(多重的な)貯蓄を与える。 このアルゴリズムは、特定の問題に対して最もよく知られた境界を復元する一方で、PAC学習のための新しい境界を与える。 2. 純粋DPでは, 指数的機構(McSherry, Talwar FOCS 2007)をユーザレベル設定に適用するための簡単な手法を提案する。 これにより、プライベートPAC学習、仮説選択、分散学習など、さまざまなタスクに新たな境界が与えられる。 これらの問題のいくつかについて、我々の境界がほぼ最適であることを示す。

Previous work on user-level differential privacy (DP) [Ghazi et al. NeurIPS 2021, Bun et al. STOC 2023] obtained generic algorithms that work for various learning tasks. However, their focus was on the example-rich regime, where the users have so many examples that each user could themselves solve the problem. In this work we consider the example-scarce regime, where each user has only a few examples, and obtain the following results: 1. For approximate-DP, we give a generic transformation of any item-level DP algorithm to a user-level DP algorithm. Roughly speaking, the latter gives a (multiplicative) savings of $O_{\varepsilon,\delta}(\sqrt{m})$ in terms of the number of users required for achieving the same utility, where $m$ is the number of examples per user. This algorithm, while recovering most known bounds for specific problems, also gives new bounds, e.g., for PAC learning. 2. For pure-DP, we present a simple technique for adapting the exponential mechanism [McSherry, Talwar FOCS 2007] to the user-level setting. This gives new bounds for a variety of tasks, such as private PAC learning, hypothesis selection, and distribution learning. For some of these problems, we show that our bounds are near-optimal.
翻訳日:2023-09-25 16:43:13 公開日:2023-09-21
# アクティブラーニングのためのリッチラベルの明らかな不確かさ

Evidential uncertainties on rich labels for active learning ( http://arxiv.org/abs/2309.12494v1 )

ライセンス: Link先を確認
Arthur Hoarau, Vincent Lemaire, Arnaud Martin, Jean-Christophe Dubois, Yolande Le Gall(参考訳) アクティブラーニングにおける最近の研究、およびより正確に不確実性サンプリングは、モデルの不確かさを還元可能で既約な不確実性に分解することに焦点を当てている。 本稿では,計算位相を単純化し,観測への依存を取り除くことを提案するが,もっと重要なのは,ラベルにすでに存在する不確実性,すなわち,オラクルの不確実性を考慮することである。 探索・爆発問題に対処するklir不確かさによるサンプリングと、信念関数の理論を用いて帰納的不確かさを実証的枠組みに拡張する実証的認識的不確実性によるサンプリングという2つの戦略が提案されている。

Recent research in active learning, and more precisely in uncertainty sampling, has focused on the decomposition of model uncertainty into reducible and irreducible uncertainties. In this paper, we propose to simplify the computational phase and remove the dependence on observations, but more importantly to take into account the uncertainty already present in the labels, \emph{i.e.} the uncertainty of the oracles. Two strategies are proposed, sampling by Klir uncertainty, which addresses the exploration-exploitation problem, and sampling by evidential epistemic uncertainty, which extends the reducible uncertainty to the evidential framework, both using the theory of belief functions.
翻訳日:2023-09-25 16:42:45 公開日:2023-09-21
# 冷磁化プラズマにおける電磁波伝播の量子コンピューティング的展望

Quantum Computing Perspective for Electromagnetic Wave Propagation in Cold Magnetized Plasmas ( http://arxiv.org/abs/2309.12492v1 )

ライセンス: Link先を確認
Efstratios Koukoutsis, Kyriakos Hizanidis, George Vahala, Min Soe, Linda Vahala and Abhay K. Ram(参考訳) 磁化プラズマにおける電磁波伝搬の研究は、天体物理学、核融合エネルギー、通信システムなど、様々な分野において最重要である。 電磁波とプラズマの間の過渡的な相互作用現象が全体的な閉じ込めを妨害する熱核融合実験では、プラズマの波動伝播の物理を掘り下げるための計算ツールである最先端の手法に頼る必要がある。 しかし、これらの洗練された計算手法でさえ、波-プラズマ相互作用で起こる全ての物理過程を捉えることを強いられるとき、メモリリソースと速度の面での課題に直面している。 同時に、急速に進歩する量子技術の分野は、計算ひずみの最小化を約束することで、計算研究におけるエキサイティングな新しいフロンティアを開拓した。 本稿では, マグネティックプラズマ内でのマクスウェル方程式の再概念化を理論的に検討し, 電磁波伝搬と非均一性からの散乱の量子シミュレーションに繋がることを示す。 プラズマ中のマクスウェル方程式の量子シュロディンガー表現を構築して一元的-エネルギー保存-進化を許容することで、量子ビット格子アルゴリズム(qla)または純粋量子コンピューティング実装の基盤を形成する作用素のユニタリ積列を定式化する。 QLAのパワーの図示として、異なる形状の非分散誘電体からの波束散乱のフルウェーブシミュレーションを示す。 完全ユニタリのQLAは、直接量子コンピュータにエンコードされ、その汎用性と能力を確立することができるが、より重要なのは、核融合プラズマにおける波動伝播の計算的研究において量子コンピュータが与える影響である。

The study of electromagnetic wave propagation in magnetized plasmas is of paramount importance in various fields, including astrophysics, fusion energy, and communication systems. In thermonuclear fusion experiments where transient interaction phenomena between electromagnetic waves and plasma can disrupt the overall confinement, we have to rely on the modern state of the art, computational tools to delve into the physics of wave propagation in plasma. However, even those sophisticated computational methods are facing challenges in terms of memory resources and speed when they are forced to capture all the physical processes that occur in wave-plasma interaction. Simultaneously, the rapidly advancing field of quantum technologies has opened up exciting new frontiers in the computational studies, by promising a minimization on the computational strain. In this paper we examine a theoretical quantum computing re-conceptualization of Maxwell equations inside a cold, inhomogeneous, magnetized plasma that can lead to quantum simulation of electromagnetic wave propagation and scattering from inhomogeneities. By constructing a quantum Schrodinger representation of Maxwell equations in plasma that admit unitary -- energy preserving -- evolution we formulate a unitary product sequence of operators that can form the basis of either a Qubit Lattice Algorithm (QLA) or a pure quantum computing implementation. As an illustration of the power of QLA, a full-wave simulation of wave-packet scattering from different shaped, non-dispersive dielectrics is presented. QLAs when they are fully unitary, they can be directly encoded into a quantum computer, further establishing their versatility and capabilities but more importantly, indicating the impact that quantum computers will have in the computational studies of wave propagation in a fusion plasma.
翻訳日:2023-09-25 16:42:32 公開日:2023-09-21
# 機械翻訳における学習データ分布と語尾トークン化が性別バイアスに及ぼす影響の検討

Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation ( http://arxiv.org/abs/2309.12491v1 )

ライセンス: Link先を確認
Bar Iluz, Tomasz Limisiewicz, Gabriel Stanovsky, David Mare\v{c}ek(参考訳) 本稿では,トークン化が機械翻訳における性別バイアスに与える影響について検討する。 具体的には、訓練データにおける性別付き職業名の頻度、サブワードトークンの語彙における表現、性別バイアスの相互作用に焦点を当てる。 我々は、職業名(スペイン語で「女性医師」を意味するdoctoraなど)の女性と非ステレオタイプ性差は、複数のサブワードトークンに分割される傾向があることを観察する。 以上の結果から,モデルのトレーニングコーパスにおけるジェンダーフォームの不均衡は,ジェンダーバイアスに寄与する主要な要因であり,サブワード分割よりも大きな影響があることが示唆された。 サブワード分割の分析は、トレーニングデータにおける性別形態の不均衡を適切に推定し、コーパスが公開されていない場合でも使用できることを示す。 また,トークン埋め込み層のみを微調整することで,翻訳品質を損なうことなく男女間の性別予測精度の差を低減できることを示した。

We study the effect of tokenization on gender bias in machine translation, an aspect that has been largely overlooked in previous works. Specifically, we focus on the interactions between the frequency of gendered profession names in training data, their representation in the subword tokenizer's vocabulary, and gender bias. We observe that female and non-stereotypical gender inflections of profession names (e.g., Spanish "doctora" for "female doctor") tend to be split into multiple subword tokens. Our results indicate that the imbalance of gender forms in the model's training corpus is a major factor contributing to gender bias and has a greater impact than subword splitting. We show that analyzing subword splits provides good estimates of gender-form imbalance in the training data and can be used even when the corpus is not publicly available. We also demonstrate that fine-tuning just the token embedding layer can decrease the gap in gender prediction accuracy between female and male forms without impairing the translation quality.
翻訳日:2023-09-25 16:42:00 公開日:2023-09-21
# シャープネス認識の最小化と安定性の限界

Sharpness-Aware Minimization and the Edge of Stability ( http://arxiv.org/abs/2309.12488v1 )

ライセンス: Link先を確認
Philip M. Long and Peter L. Bartlett(参考訳) 最近の実験では、ステップサイズ$\eta$の勾配降下(gd)を持つニューラルネットワークを訓練する場合、損失のヘッセンの演算子ノルムはおよそ2/\eta$に達するまで増加することが示されている。 2/\eta$の量は、損失の局所二次近似を考慮して「安定性の最先端」と呼ばれる。 我々は,GD の変種である SAM (Sharpness-Aware Minimization) の「安定性の端」に到達するための同様の計算を行う。 GDの場合とは異なり、結果のSAM-辺は勾配のノルムに依存する。 3つのディープラーニングトレーニングタスクを用いて、SAMは、この分析によって同定された安定性の端で動作していることを実証的に確認する。

Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size $\eta$, the operator norm of the Hessian of the loss grows until it approximately reaches $2/\eta$, after which it fluctuates around this value. The quantity $2/\eta$ has been called the "edge of stability" based on consideration of a local quadratic approximation of the loss. We perform a similar calculation to arrive at an "edge of stability" for Sharpness-Aware Minimization (SAM), a variant of GD which has been shown to improve its generalization. Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient. Using three deep learning training tasks, we see empirically that SAM operates on the edge of stability identified by this analysis.
翻訳日:2023-09-25 16:41:44 公開日:2023-09-21
# 人間と機械の推論の研究と改善

Studying and improving reasoning in humans and machines ( http://arxiv.org/abs/2309.12485v1 )

ライセンス: Link先を確認
Nicolas Yax, Hernan Anll\'o, Stefano Palminteri(参考訳) 本研究では,大規模言語モデル(LLM)と人間における推論を,伝統的に有界な有理性の研究に向けられた認知心理学的ツールの選択を用いて検討・比較する。 そこで,人間の被験者に対して,古典的認知実験の新しい変種を提示し,それらのパフォーマンスを比較検討した。 以上の結果から,多くのモデルでは,誤りの傾向やヒューリスティックに基づく推論に類似した推論誤差がみられた。 この表面的な類似性にもかかわらず、人間とllmの詳細な比較は人間のような推論との重要な違いを示し、モデル制限は最近のllmリリースでほぼ完全に消滅した。 さらに,性能向上のための戦略を考案することは可能であるが,人間と機械は同じプロンプト方式に等しく反応しないことを示す。 最後に,人工知能と認知心理学の両方において,人間と機械の行動を比較することの認識論的意義と課題について論じる。

In the present study, we investigate and compare reasoning in large language models (LLM) and humans using a selection of cognitive psychology tools traditionally dedicated to the study of (bounded) rationality. To do so, we presented to human participants and an array of pretrained LLMs new variants of classical cognitive experiments, and cross-compared their performances. Our results showed that most of the included models presented reasoning errors akin to those frequently ascribed to error-prone, heuristic-based human reasoning. Notwithstanding this superficial similarity, an in-depth comparison between humans and LLMs indicated important differences with human-like reasoning, with models limitations disappearing almost entirely in more recent LLMs releases. Moreover, we show that while it is possible to devise strategies to induce better performance, humans and machines are not equally-responsive to the same prompting schemes. We conclude by discussing the epistemological implications and challenges of comparing human and machine behavior for both artificial intelligence and cognitive psychology.
翻訳日:2023-09-25 16:41:28 公開日:2023-09-21
# モバイルアプリ開発におけるバリューレジリエントなメタヒューリスティックベースニューラルネットワークによるロバストエネルギー消費予測

Robust Energy Consumption Prediction with a Missing Value-Resilient Metaheuristic-based Neural Network in Mobile App Development ( http://arxiv.org/abs/2309.12484v1 )

ライセンス: Link先を確認
Seyed Jalaleddin Mousavirad, Lu\'is A. Alexandre(参考訳) エネルギー消費はモバイルアプリケーション開発における基本的な関心事であり、開発者とエンドユーザ双方にとって大きな意味を持つ。 また、スマートフォン購入を考慮すれば、消費者の意思決定プロセスにおいて重要な決定要因となる。 持続可能性の観点からは、何十億ものスマートフォンが広範囲に利用され、環境に大きな影響を与えることによる大きな世界的な影響を考えると、モバイルデバイスのエネルギー消費の緩和を目的としたアプローチを探求することが不可欠となる。 androidプラットフォームにさまざまなエネルギ効率の高いプログラミングプラクティスが存在するにも関わらず、モバイルアプリ開発のために明示的に調整された機械学習ベースのエネルギ予測アルゴリズムの必要性は残っている。 そこで本研究の目的は,メタヒューリスティックアプローチによって強化された新しいニューラルネットワークベースのフレームワークを提案し,モバイルアプリ開発における堅牢なエネルギー予測を実現することである。 ここでのメタヒューリスティックなアプローチは、適切な学習アルゴリズムとその対応するパラメータを識別するだけでなく、各層内の最適な層数とニューロンを決定する上で重要な役割を果たす。 我々の知る限りでは、これまでの研究ではこれらのハイパーパラメータを同時に扱うためにメタヒューリスティックなアルゴリズムは使われていない。 さらに、携帯電話の特定の側面へのアクセスに制限があるため、データセットに欠落したデータがあり、提案したフレームワークがこれを扱うことができる。 さらに,13のメタヒューリスティックアルゴリズムを用いた最適アルゴリズム選択手法を提案し,その精度と欠落値に対する耐性に基づいて最適なアルゴリズムを同定した。 包括的実験により,提案手法がエネルギー消費予測に有意な結果をもたらすことを実証した。

Energy consumption is a fundamental concern in mobile application development, bearing substantial significance for both developers and end-users. Moreover, it is a critical determinant in the consumer's decision-making process when considering a smartphone purchase. From the sustainability perspective, it becomes imperative to explore approaches aimed at mitigating the energy consumption of mobile devices, given the significant global consequences arising from the extensive utilisation of billions of smartphones, which imparts a profound environmental impact. Despite the existence of various energy-efficient programming practices within the Android platform, the dominant mobile ecosystem, there remains a need for documented machine learning-based energy prediction algorithms tailored explicitly for mobile app development. Hence, the main objective of this research is to propose a novel neural network-based framework, enhanced by a metaheuristic approach, to achieve robust energy prediction in the context of mobile app development. The metaheuristic approach here plays a crucial role in not only identifying suitable learning algorithms and their corresponding parameters but also determining the optimal number of layers and neurons within each layer. To the best of our knowledge, prior studies have yet to employ any metaheuristic algorithm to address all these hyperparameters simultaneously. Moreover, due to limitations in accessing certain aspects of a mobile phone, there might be missing data in the data set, and the proposed framework can handle this. In addition, we conducted an optimal algorithm selection strategy, employing 13 metaheuristic algorithms, to identify the best algorithm based on accuracy and resistance to missing values. The comprehensive experiments demonstrate that our proposed approach yields significant outcomes for energy consumption prediction.
翻訳日:2023-09-25 16:41:12 公開日:2023-09-21
# MOSスピン量子ビットにおけるノイズの時空間相関

Spatio-temporal correlations of noise in MOS spin qubits ( http://arxiv.org/abs/2309.12542v1 )

ライセンス: Link先を確認
Amanda E. Seedhouse, Nard Dumoulin Stuyck, Santiago Serrano, Tuomo Tanttu, Will Gilbert, Jonathan Yue Huang, Fay E. Hudson, Kohei M. Itoh, Arne Laucht, Wee Han Lim, Chih Hwan Yang, Andrew S. Dzurak, Andre Saraiva(参考訳) 量子コンピューティングにおいて、量子ビットの完全なノイズプロファイルの特徴付けは、システム内のノイズの種類に特有のエラー緩和技術を作成するか、あるいはノイズ源を完全に取り除くことによって、コヒーレンス時間とフィディリティの増大に寄与する。 MOS量子ドットのスピン量子ビットは、2レベルゆらぎ器の複雑なガラスの挙動から生じるノイズに曝され、空間と時間の両方で量子ビットの性質と非自明な相関が生じる。 近年の工学的な進歩により、典型的なスピンキュービットデバイス実験で大量のデータが収集されており、例えば天体物理学、金融学、気候科学など、大規模なデータセットの管理に経験した研究分野から着想を得たデータ分析の選択肢を探求することが望ましい。 本稿では,ウェーブレットを用いた信号の周波数成分と時間成分を分解し,ノイズの発生源を深く把握するための解析手法を提案する。 一対のSiMOS量子ドットにおける最先端2量子ビットシステム上での長いフィードバック実験に本解析を適用した。 観測された相関は、よりスケーラブルなフィードバックシステムによるマルチキュービット操作のための経路の解明と同様に、ノイズの一般的な顕微鏡的原因を特定するのに役立つ。

In quantum computing, characterising the full noise profile of qubits can aid the efforts towards increasing coherence times and fidelities by creating error mitigating techniques specific to the type of noise in the system, or by completely removing the sources of noise. Spin qubits in MOS quantum dots are exposed to noise originated from the complex glassy behaviour of two-level fluctuators, leading to non-trivial correlations between qubit properties both in space and time. With recent engineering progress, large amounts of data are being collected in typical spin qubit device experiments, and it is beneficiary to explore data analysis options inspired from fields of research that are experienced in managing large data sets, examples include astrophysics, finance and climate science. Here, we propose and demonstrate wavelet-based analysis techniques to decompose signals into both frequency and time components to gain a deeper insight into the sources of noise in our systems. We apply the analysis to a long feedback experiment performed on a state-of-the-art two-qubit system in a pair of SiMOS quantum dots. The observed correlations serve to identify common microscopic causes of noise, as well as to elucidate pathways for multi-qubit operation with a more scalable feedback system.
翻訳日:2023-09-25 16:34:24 公開日:2023-09-21
# シリコンスピン系における耐故障性2量子ゲート特性の最適化のためのリアルタイムフィードバックプロトコル

Real-time feedback protocols for optimizing fault-tolerant two-qubit gate fidelities in a silicon spin system ( http://arxiv.org/abs/2309.12541v1 )

ライセンス: Link先を確認
Nard Dumoulin Stuyck, Amanda E. Seedhouse, Santiago Serrano, Tuomo Tanttu, Will Gilbert, Jonathan Yue Huang, Fay Hudson, Kohei M. Itoh, Arne Laucht, Wee Han Lim, Chih Hwan Yang, Andre Saraiva, Andrew S. Dzurak(参考訳) 最近、いくつかのグループが半導体スピン量子ビット系において99%以上の2量子ゲート忠実性を示した。 このフォールトトレラントな互換性の高い高フィデリティの実現は、非自明で、長期間にわたって異なる量子ビットパラメータの厳密な安定性と正確な制御を必要とする。 これは、マイクロノイズとマクロノイズの異なる源に対して、量子ビット制御パラメータを効率的に校正することで実現できる。 本稿では,現状の高速FPGAハードウェアに最適化され,実装された,シングルキュービットと2キュービットのパラメータフィードバックプロトコルについて述べる。 さらに、収集したフィードバックデータに対するウェーブレット解析を用いて、システム内の異なるノイズ源についての洞察を得る。 提案された実装と分析は、フィードバックに関連するオーバーヘッドが増加するにつれて、キュービットパラメータフィードバックの利点と欠点に関する洞察を与えてくれる。 本研究は、量子誤り訂正プロトコルと互換性のある系統的高忠実な量子ビット演算への緩和戦略として、ロバストな量子ビットパラメータフィードバックとシステマティックノイズ解析への道筋を示す。

Recently, several groups have demonstrated two-qubit gate fidelities in semiconductor spin qubit systems above 99%. Achieving this regime of fault-tolerant compatible high fidelities is nontrivial and requires exquisite stability and precise control over the different qubit parameters over an extended period of time. This can be done by efficiently calibrating qubit control parameters against different sources of micro- and macroscopic noise. Here, we present several single- and two-qubit parameter feedback protocols, optimised for and implemented in state-of-the-art fast FPGA hardware. Furthermore, we use wavelet-based analysis on the collected feedback data to gain insight into the different sources of noise in the system. Scalable feedback is an outstanding challenge and the presented implementation and analysis gives insight into the benefits and drawbacks of qubit parameter feedback, as feedback related overhead increases. This work demonstrates a pathway towards robust qubit parameter feedback and systematic noise analysis, crucial for mitigation strategies towards systematic high-fidelity qubit operation compatible with quantum error correction protocols.
翻訳日:2023-09-25 16:34:01 公開日:2023-09-21
# 強化学習を用いた無線データ転送ニーズを持つ自動運転車の走行計画

Trip Planning for Autonomous Vehicles with Wireless Data Transfer Needs Using Reinforcement Learning ( http://arxiv.org/abs/2309.12534v1 )

ライセンス: Link先を確認
Yousef AlSaqabi, Bhaskar Krishnamachari(参考訳) 近年の通信分野とモノのインターネットの進歩により、自動車は環境を意識し、完全な自律性に向かって進化している。 車両間通信は、車両がカメラや信号機、国の道路システムをサポートする標識などと情報を共有できる、車とインフラ間の相互作用の可能性を開く。 その結果、車両は単なる輸送手段以上のものになりつつあり、運転をより安全で便利にするために使用される大量のデータを収集、処理、送信している。 5Gのセルラーネットワークなどにより、道路上のデータ帯域幅は増えていくが、視線、インフラ、道路上の異種交通などの制限により、不均一になる可能性がある。 本稿では,運転時間とデータ転送の両ニーズを考慮した都市部における自動運転車の経路計画の課題に対処する。 車両データ転送要求を満たすために高帯域道路を優先し,運転時間を最小限に抑えた新しい強化学習ソリューションを提案する。 我々は、この手法をトラフィックを意識しないベースラインや帯域幅を意識しないベースラインと比較し、不均一なトラフィック下での処理性能を示す。 このソリューションは、優れたポリシーがどのようなものかを理解するための出発点として使われる可能性があり、将来的にはより速く、より効率的なヒューリスティックをもたらす可能性がある。

With recent advancements in the field of communications and the Internet of Things, vehicles are becoming more aware of their environment and are evolving towards full autonomy. Vehicular communication opens up the possibility for vehicle-to-infrastructure interaction, where vehicles could share information with components such as cameras, traffic lights, and signage that support a countrys road system. As a result, vehicles are becoming more than just a means of transportation; they are collecting, processing, and transmitting massive amounts of data used to make driving safer and more convenient. With 5G cellular networks and beyond, there is going to be more data bandwidth available on our roads, but it may be heterogeneous because of limitations like line of sight, infrastructure, and heterogeneous traffic on the road. This paper addresses the problem of route planning for autonomous vehicles in urban areas accounting for both driving time and data transfer needs. We propose a novel reinforcement learning solution that prioritizes high bandwidth roads to meet a vehicles data transfer requirement, while also minimizing driving time. We compare this approach to traffic-unaware and bandwidth-unaware baselines to show how much better it performs under heterogeneous traffic. This solution could be used as a starting point to understand what good policies look like, which could potentially yield faster, more efficient heuristics in the future.
翻訳日:2023-09-25 16:33:41 公開日:2023-09-21
# 非マルコフノイズの存在下での最適空洞と連続場の間のマクロ量子絡み合い

Macroscopic quantum entanglement between an optomechanical cavity and a continuous field in presence of non-Markovian noise ( http://arxiv.org/abs/2309.12532v1 )

ライセンス: Link先を確認
Su Direkci, Klemens Winkler, Corentin Gut, Klemens Hammerer, Markus Aspelmeyer, Yanbei Chen(参考訳) マクロな物体との量子絡み合いは、新しい状態における量子力学のテストを可能にする。 このような挙動を実現する1つの方法は、マクロメカニカル発振器を放射圧を介して連続光電界に結合することである。 この観点から、議論されるシステムは、ガウス状態と力学を仮定する未解決のサイドバンド状態におけるコヒーレント光学場によって駆動されるオプテメカニカルキャビティを含む。 システム内の絡み合い量を数値的に定量化する枠組みを開発した。 従来の研究と異なり、非マルコフノイズを扱い、連続光学場とキャビティモードの両方を考慮に入れている。 我々は,Advanced Laser Interferometer Gravitational-Wave Observatory (Advanced LIGO) の場合に適用し,量子ノイズや古典ノイズの存在下においても,絡み合いが存在するパラメータ状態について議論する。

Probing quantum entanglement with macroscopic objects allows to test quantum mechanics in new regimes. One way to realize such behavior is to couple a macroscopic mechanical oscillator to a continuous light field via radiation pressure. In view of this, the system that is discussed comprises an optomechanical cavity driven by a coherent optical field in the unresolved sideband regime where we assume Gaussian states and dynamics. We develop a framework to quantify the amount of entanglement in the system numerically. Different from previous work, we treat non-Markovian noise and take into account both the continuous optical field and the cavity mode. We apply our framework to the case of the Advanced Laser Interferometer Gravitational-Wave Observatory (Advanced LIGO) and discuss the parameter regimes where entanglement exists, even in the presence of quantum and classical noises.
翻訳日:2023-09-25 16:33:20 公開日:2023-09-21
# 数千のイメージを語る文章:CLIPを言語指導で拡張するドメインの一般化

A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language Guidance ( http://arxiv.org/abs/2309.12530v1 )

ライセンス: Link先を確認
Zeyi Huang, Andy Zhou, Zijian Lin, Mu Cai, Haohan Wang, Yong Jae Lee(参考訳) ドメイン一般化は、複数のドメイン(または分布)のサンプルでモデルをトレーニングし、新しい未知のドメインのサンプルでモデルをテストする問題を研究する。 本稿では,近年の大規模視覚言語モデル(特にクリップ教師モデル)の進歩を活かし,未認識領域に一般化した小型モデルを訓練する,新たなドメイン一般化手法を提案する。 重要な技術的貢献は、学生の学習した画像表現を、対応する画像のテキスト記述を符号化して得られた教師の学習したテキスト表現に近づけるように要求する新しいタイプの正規化である。 本稿では,学生モデルの学習過程の正規化に関する具体的なガイダンスを提供するために,損失関数の絶対距離と相対距離の2つの設計を導入する。 提案手法である rise (regularized invariance with semantic embeddeds) を様々なベンチマークデータセット上で評価し,最先端のドメイン一般化手法よりも優れていることを示す。 我々の知識にとって、我々の研究はドメイン一般化のための大きな視覚言語モデルを用いて知識蒸留を利用する最初のものである。 テキストベースの情報を組み込むことで、RISEは機械学習モデルの一般化能力を向上させる。

Domain generalization studies the problem of training a model with samples from several domains (or distributions) and then testing the model with samples from a new, unseen domain. In this paper, we propose a novel approach for domain generalization that leverages recent advances in large vision-language models, specifically a CLIP teacher model, to train a smaller model that generalizes to unseen domains. The key technical contribution is a new type of regularization that requires the student's learned image representations to be close to the teacher's learned text representations obtained from encoding the corresponding text descriptions of images. We introduce two designs of the loss function, absolute and relative distance, which provide specific guidance on how the training process of the student model should be regularized. We evaluate our proposed method, dubbed RISE (Regularized Invariance with Semantic Embeddings), on various benchmark datasets and show that it outperforms several state-of-the-art domain generalization methods. To our knowledge, our work is the first to leverage knowledge distillation using a large vision-language model for domain generalization. By incorporating text-based information, RISE improves the generalization capability of machine learning models.
翻訳日:2023-09-25 16:33:05 公開日:2023-09-21
# 形態-環境共進化によるカリキュラム強化学習

Curriculum Reinforcement Learning via Morphology-Environment Co-Evolution ( http://arxiv.org/abs/2309.12529v1 )

ライセンス: Link先を確認
Shuang Ao, Tianyi Zhou, Guodong Long, Xuan Song, Jing Jiang(参考訳) 長い歴史を通じて、自然種は環境の変化に適応した物理的構造を進化させることで生き残ることを学んでいる。 対照的に、現在の強化学習(rl)研究は主に、変化する環境や新しいタスクにほとんど一般化できない固定された環境における固定形態(骨格構造や関節属性など)を持つエージェントの訓練に焦点を当てている。 本稿では,RLエージェントとその形態を「形態-環境共進化(MECE)」により最適化し,形態が変化する環境に適応し続け,環境は段階的に変化し,新たな課題がもたらされ,形態改善が促進される。 これは、様々な環境に最適化された形態とポリシーを持つ一般化可能なRLを訓練するカリキュラムにつながる。 カリキュラムを手作りする代わりに、形態と環境を自動的に変えるために2つのポリシーを訓練します。 この目的のために,(1)rlエージェントの学習ダイナミクスのみに基づく2つの新しい,効果的な報酬を開発し,(2)環境変化のタイミングと形態を自動的に決定するスケジューラを設計した。 2種類のタスクの実験において、MECEを介して訓練されたモルフォロジーとRLポリシーは、SOTAのモルフォロジー最適化法よりも、目に見えないテスト環境で大幅に優れた一般化性能を示す。 この2つのMECE政策に関するアブレーション研究は、形態と環境の共進化が成功の鍵であることを示している。

Throughout long history, natural species have learned to survive by evolving their physical structures adaptive to the environment changes. In contrast, current reinforcement learning (RL) studies mainly focus on training an agent with a fixed morphology (e.g., skeletal structure and joint attributes) in a fixed environment, which can hardly generalize to changing environments or new tasks. In this paper, we optimize an RL agent and its morphology through ``morphology-environment co-evolution (MECE)'', in which the morphology keeps being updated to adapt to the changing environment, while the environment is modified progressively to bring new challenges and stimulate the improvement of the morphology. This leads to a curriculum to train generalizable RL, whose morphology and policy are optimized for different environments. Instead of hand-crafting the curriculum, we train two policies to automatically change the morphology and the environment. To this end, (1) we develop two novel and effective rewards for the two policies, which are solely based on the learning dynamics of the RL agent; (2) we design a scheduler to automatically determine when to change the environment and the morphology. In experiments on two classes of tasks, the morphology and RL policies trained via MECE exhibit significantly better generalization performance in unseen test environments than SOTA morphology optimization methods. Our ablation studies on the two MECE policies further show that the co-evolution between the morphology and environment is the key to the success.
翻訳日:2023-09-25 16:32:46 公開日:2023-09-21
# 共役対称性の非局所性:量子ネットワークセンシングにおける特徴と例

Non-locality of conjugation symmetry: characterization and examples in quantum network sensing ( http://arxiv.org/abs/2309.12523v1 )

ライセンス: Link先を確認
Jisho Miyazaki, Seiseki Akibue(参考訳) いくつかの量子情報処理プロトコルは、複素共役の下で不変な量子演算を必要とする。 本研究では,多部量子ネットワーク上での共役対称測定の実装に必要な非局所資源を解析する。 与えられた多部共役が局所的に実装可能な対称測度を持つことができる条件を導出する。 特に、「磁気基底スペクトル」と呼ばれる数の族は、与えられた2-量子共役の局所可測性を包括的に特徴づけ、また局所ユニタリ変換の下で不変な他の性質も特徴付ける。 また、共役対称性をガイドとして、既知の量子センサネットワークの最適測定に必要な非局所的資源を探索する。

Some quantum information processing protocols necessitate quantum operations that are invariant under complex conjugation. In this study, we analyze the non-local resources necessary for implementing conjugation-symmetric measurements on multipartite quantum networks. We derive conditions under which a given multipartite conjugation can have locally implementable symmetric measurements. In particular, a family of numbers called the "magic-basis spectrum" comprehensively characterizes the local measurability of a given 2-qubit conjugation, as well as any other properties that are invariant under local unitary transformations. We also explore the non-local resources required for optimal measurements on known quantum sensor networks by using their conjugation symmetries as a guide.
翻訳日:2023-09-25 16:32:19 公開日:2023-09-21
# Kerrパラメトリック発振器に対する有効対フロケ理論

Effective versus Floquet theory for the Kerr parametric oscillator ( http://arxiv.org/abs/2309.12516v1 )

ライセンス: Link先を確認
Ignacio Garc\'ia-Mata, Rodrigo G. Corti\~nas, Xu Xiao, Jorge Ch\'avez-Carlos, Victor S. Batista, Lea F. Santos, and Diego A. Wisniacki(参考訳) 駆動系の静的有効ハミルトニアンの観点から設計されたパラメトリックゲートとプロセスは量子技術の中心である。 しかし、静的有効モデルの導出に使われる摂動展開は、元の系のすべての関連する物理を効率的に捉えることができないかもしれない。 本研究では,スキーズ駆動下でのKerr発振器を記述するために用いられる,通常の低次静的ハミルトニアンの有効性について検討する。 本研究は,本システムが提供する機会を生かし,実験室で構築・運用することが十分簡単であり,非自明なパラメータの探索に現代的な計算技術を必要とするほどに複雑であり,基礎的かつ技術的興味を持つほどに豊富である。 低次の静的有効状態とエネルギーを、正確なフロケ状態と準エネルギーと比較し、記述が一致するパラメータ状態を決定する。 我々の研究は、通常の静的な効果的な処理によって取り残され、最先端の実験によって探索される物理学の光をもたらす。

Parametric gates and processes engineered from the perspective of the static effective Hamiltonian of a driven system are central to quantum technology. However, the perturbative expansions used to derive static effective models may not be able to efficiently capture all the relevant physics of the original system. In this work, we investigate the conditions for the validity of the usual low-order static effective Hamiltonian used to describe a Kerr oscillator under a squeezing drive. In this work, we exploit the opportunity provided by this system, which is sufficiently simple to be built and operated in the lab, sufficiently complex to require modern calculation techniques for the exploration of nontrivial parameter regimes, and sufficiently rich to be of fundamental and technological interest. We compare the low-order static effective states and energies with the exact Floquet states and quasi-energies and determine the parameter regime where the descriptions agree. Our work brings to light the physics that is left out by ordinary static effective treatments and that can be explored by state-of-the-art experiments.
翻訳日:2023-09-25 16:32:07 公開日:2023-09-21
# カスケード予測モジュールを用いたシステムの信頼性校正

Confidence Calibration for Systems with Cascaded Predictive Modules ( http://arxiv.org/abs/2309.12510v1 )

ライセンス: Link先を確認
Yunye Gong, Yi Yao, Xiao Lin, Ajay Divakaran, Melinda Gervasio(参考訳) 既存の共形予測アルゴリズムは、目標信頼度レベルで予測間隔を推定し、新しいテストサンプルにおける回帰モデルの性能を特徴付ける。 しかし、複数のモジュールからなる自律システムを考えると、個々のモジュールに構築された予測間隔は、異なるモジュール上の不確実性伝播を調節できないため、システムの挙動に関する信頼性の高い予測はできない。 本稿では,この制約に対処し,並列化モジュール(上流特徴抽出モジュール,下流回帰モジュールなど)からなる予測システムに対して最適化された予測間隔を提供するために,共形予測に基づく新しい解を提案する。 我々のキーとなる考え方は、モジュールレベルの検証データを利用して、エンドツーエンドの検証データに直接アクセスすることなく、システムレベルのエラー分布を特徴付けることです。 提案手法の有効性を実証するために理論的正当性および実験結果を提供する。 個々のモジュールに校正された予測間隔と比較して,matterport3dデータセットを用いた屋内ナビゲーションの重複予測を行う合成システムと実世界のシステムの両方で実証された,システム予測に対する精度の高い性能保証を備えた改良されたインターバルを生成する。

Existing conformal prediction algorithms estimate prediction intervals at target confidence levels to characterize the performance of a regression model on new test samples. However, considering an autonomous system consisting of multiple modules, prediction intervals constructed for individual modules fall short of accommodating uncertainty propagation over different modules and thus cannot provide reliable predictions on system behavior. We address this limitation and present novel solutions based on conformal prediction to provide prediction intervals calibrated for a predictive system consisting of cascaded modules (e.g., an upstream feature extraction module and a downstream regression module). Our key idea is to leverage module-level validation data to characterize the system-level error distribution without direct access to end-to-end validation data. We provide theoretical justification and empirical experimental results to demonstrate the effectiveness of proposed solutions. In comparison to prediction intervals calibrated for individual modules, our solutions generate improved intervals with more accurate performance guarantees for system predictions, which are demonstrated on both synthetic systems and real-world systems performing overlap prediction for indoor navigation using the Matterport3D dataset.
翻訳日:2023-09-25 16:31:49 公開日:2023-09-21
# ジョイントインタラクティブナビゲーションの拡散モデル

A Diffusion-Model of Joint Interactive Navigation ( http://arxiv.org/abs/2309.12508v1 )

ライセンス: Link先を確認
Matthew Niedoba, Jonathan Wilder Lavington, Yunpeng Liu, Vasileios Lioutas, Justice Sefas, Xiaoxuan Liang, Dylan Green, Setareh Dabiri, Berend Zwartsenberg, Adam Scibior, Frank Wood(参考訳) 自動運転車システムのシミュレーションには、シミュレーションされた交通参加者が多様で現実的な行動を示す必要がある。 シミュレーションにおける事前記録された実世界の交通シナリオの使用は、現実主義を保証するが、安全クリティカルイベントの希少さにより、大規模な運転シナリオの収集が高価になる。 本稿では,トラフィックシナリオ生成のための拡散ベース手法であるdjinnを提案する。 提案手法は,過去,現在,未来からの柔軟な状態観測に基づいて,すべてのエージェントの軌道を協調的に拡散させる。 人気トラジェクトリ予測データセットについて,共同トラジェクトリ指標を用いたアートパフォーマンスの現状を報告する。 さらに, DJINNは, 目標ベースサンプリング, 行動クラスサンプリング, シナリオ編集など, 様々な価値条件分布からの直接的テストタイムサンプリングを柔軟に行えるかを示した。

Simulation of autonomous vehicle systems requires that simulated traffic participants exhibit diverse and realistic behaviors. The use of prerecorded real-world traffic scenarios in simulation ensures realism but the rarity of safety critical events makes large scale collection of driving scenarios expensive. In this paper, we present DJINN - a diffusion based method of generating traffic scenarios. Our approach jointly diffuses the trajectories of all agents, conditioned on a flexible set of state observations from the past, present, or future. On popular trajectory forecasting datasets, we report state of the art performance on joint trajectory metrics. In addition, we demonstrate how DJINN flexibly enables direct test-time sampling from a variety of valuable conditional distributions including goal-based sampling, behavior-class sampling, and scenario editing.
翻訳日:2023-09-25 16:31:28 公開日:2023-09-21
# CaveSeg:自律型水中洞窟探査のための深部セマンティックセグメンテーションとシーンパーシング

CaveSeg: Deep Semantic Segmentation and Scene Parsing for Autonomous Underwater Cave Exploration ( http://arxiv.org/abs/2309.11038v2 )

ライセンス: Link先を確認
A. Abdullah, T. Barua, R. Tibbetts, Z. Chen, M. J. Islam, I. Rekleitis(参考訳) 本稿では,水中洞窟におけるAUVナビゲーションのためのセマンティックセグメンテーションとシーン解析のための最初のビジュアル学習パイプラインであるCaveSegを紹介する。 水中洞窟シーンのセマンティックセマンティックセグメンテーションのための包括的データセットを作成し,注釈付きトレーニングデータの不足に対処する。 重要なナビゲーションマーカー(洞窟線、矢印など)、障害物(地平原や頭上層など)、スキューバダイバー、サーボのためのオープンエリアのためのピクセルアノテーションが含まれている。 米国、メキシコ、スペインの洞窟システムに関する包括的なベンチマーク分析を通じて、水中洞窟環境を高速に意味論的に解析するためのcavesegに基づく強固な深部視覚モデルの開発が可能であることを実証する。 特に,計算的に軽量で,リアルタイムに近い実行が可能なトランスフォーマーモデルを構築し,最先端性能を実現する。 最後に,水中洞窟内におけるAUVによる視覚サーボのためのセマンティックセグメンテーションの設計選択と意義について検討する。 提案されたモデルとベンチマークデータセットは、自律型水中洞窟探査とマッピングにおける将来の研究の有望な機会を開く。

In this paper, we present CaveSeg - the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plain and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping.
翻訳日:2023-09-25 11:45:26 公開日:2023-09-21
# VisEvent: フレームとイベントフローのコラボレーションによる信頼性の高いオブジェクトトラッキング

VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows ( http://arxiv.org/abs/2108.05015v4 )

ライセンス: Link先を確認
Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) フレームごとの強度画像を記録する可視カメラとは異なり、生物学的にインスパイアされたイベントカメラは、より低レイテンシで非同期でスパースなイベントのストリームを生成する。 実際には、目に見えるカメラはテクスチャの詳細やスローモーションをよりよく知覚できるが、イベントカメラは動きのぼけがなく、ダイナミックレンジが大きく、高速な動きと低照度でうまく機能する。 したがって、2つのセンサは互いに協調してより信頼性の高い物体追跡を実現することができる。 本研究では,このタスクに現実的でスケールドなデータセットが欠如していることから,大規模可視イベントベンチマーク(visevent)を提案する。 我々のデータセットは、低照度、高速、バックグラウンドの乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されており、それぞれ500と320の動画を含むトレーニングとテストサブセットに分割されている。 viseventに基づいて、イベントフローをイベントイメージに変換し、現在のシングルモダリティトラッカをデュアルモダリティバージョンに拡張して、30以上のベースラインメソッドを構築します。 さらに,可視データとイベントデータとのより効率的な融合を実現するために,クロスモダリティトランスを提案すれば,よりシンプルで効果的なトラッキングアルゴリズムを構築することができる。 提案したVisEventデータセット、FE108、COESOT、および2つのシミュレーションデータセット(TB-DVSとVOT-DVS)に対する大規模な実験により、我々のモデルの有効性が検証された。 データセットとソースコードがリリースされた。 \url{https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark}。

Different from visible cameras which record intensity images frame by frame, the biologically inspired event camera produces a stream of asynchronous and sparse events with much lower latency. In practice, visible cameras can better perceive texture details and slow motion, while event cameras can be free from motion blurs and have a larger dynamic range which enables them to work well under fast motion and low illumination. Therefore, the two sensors can cooperate with each other to achieve more reliable object tracking. In this work, we propose a large-scale Visible-Event benchmark (termed VisEvent) due to the lack of a realistic and scaled dataset for this task. Our dataset consists of 820 video pairs captured under low illumination, high speed, and background clutter scenarios, and it is divided into a training and a testing subset, each of which contains 500 and 320 videos, respectively. Based on VisEvent, we transform the event flows into event images and construct more than 30 baseline methods by extending current single-modality trackers into dual-modality versions. More importantly, we further build a simple but effective tracking algorithm by proposing a cross-modality transformer, to achieve more effective feature fusion between visible and event data. Extensive experiments on the proposed VisEvent dataset, FE108, COESOT, and two simulated datasets (i.e., OTB-DVS and VOT-DVS), validated the effectiveness of our model. The dataset and source code have been released on: \url{https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark}.
翻訳日:2023-09-22 20:34:31 公開日:2023-09-21
# 1+1)D$QED散乱過程における絡み合い生成

Entanglement generation in $(1+1)D$ QED scattering processes ( http://arxiv.org/abs/2105.03445v4 )

ライセンス: Link先を確認
Marco Rigobello, Simone Notarnicola, Giuseppe Magnifico, Simone Montangero(参考訳) テンソルネットワークを用いた1+1$次元QEDにおける実時間中間子散乱過程について検討した。 自由フェルミオンモデルに基づく近似を導入することで、与えられた運動量と位置を持つ初期中間波パケットを作成する。 次に, 2つの初期分離結合中間子の動力学を計算し, 相互作用強度および初期状態が弱結合系および中間結合系で変化することを観測した。 最後に, 弾性衝突を考慮し, いくつかの散乱振幅とプロセスによって生じる絡み合いを計測する。 驚くべきことに, 外部の中間子間の漸近的絡み合いに対する2つの異なるレジームを同定し, 結合関数としての成長が急激に加速するしきい値結合よりも摂動的に小さい。

We study real-time meson-meson scattering processes in $(1+1)$-dimensional QED by means of Tensor Networks. We prepare initial meson wave packets with given momentum and position introducing an approximation based on the free fermions model. Then, we compute the dynamics of two initially separated colliding mesons, observing a rich phenomenology as the interaction strength and the initial states are varied in the weak and intermediate coupling regimes. Finally, we consider elastic collisions and measure some scattering amplitudes as well as the entanglement generated by the process. Remarkably, we identify two different regimes for the asymptotic entanglement between the outgoing mesons: it is perturbatively small below a threshold coupling, past which its growth as a function of the coupling abruptly accelerates.
翻訳日:2023-09-22 20:33:55 公開日:2023-09-21
# 状態強化強化強化学習: 報酬による学習の限界を克服する

State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards ( http://arxiv.org/abs/2102.11941v2 )

ライセンス: Link先を確認
Miguel Calvo-Fullana, Santiago Paternain, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) 制約付き強化学習の一般的な定式化は、与えられたしきい値に個別に蓄積しなければならない複数の報酬を含む。 このクラスでは、任意の重み付けされた報酬の線形結合によって、所望の最適ポリシーを誘導できない簡単な例を示す。 したがって、正規化法も古典的原始的方法も最適方針を与えない制約付き強化学習問題が存在する。 この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を乗算器の進化を駆動する力学の一部として再解釈することで、この欠点に対処する。 このアプローチは、制約付き強化学習問題を解決するための体系的な状態拡張手順を提供する。 このように、例で示すように、従来の手法は最適なポリシーを見つけるのに失敗するが、拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。

A common formulation of constrained reinforcement learning involves multiple rewards that must individually accumulate to given thresholds. In this class of problems, we show a simple example in which the desired optimal policy cannot be induced by any weighted linear combination of rewards. Hence, there exist constrained reinforcement learning problems for which neither regularized nor classical primal-dual methods yield optimal policies. This work addresses this shortcoming by augmenting the state with Lagrange multipliers and reinterpreting primal-dual methods as the portion of the dynamics that drives the multipliers evolution. This approach provides a systematic state augmentation procedure that is guaranteed to solve reinforcement learning problems with constraints. Thus, as we illustrate by an example, while previous methods can fail at finding optimal policies, running the dual dynamics while executing the augmented policy yields an algorithm that provably samples actions from the optimal policy.
翻訳日:2023-09-22 20:33:15 公開日:2023-09-21
# 医学分野におけるフェデレートラーニング : 分類学, 現状, 課題, 今後の研究方向性

Federated Learning for Medical Applications: A Taxonomy, Current Trends, Challenges, and Future Research Directions ( http://arxiv.org/abs/2208.03392v4 )

ライセンス: Link先を確認
Ashish Rauniyar, Desta Haileselassie Hagos, Debesh Jha, Jan Erik H{\aa}keg{\aa}rd, Ulas Bagci, Danda B. Rawat, and Vladimir Vlassov(参考訳) iot、ai、ml/dlアルゴリズムの出現により、データ駆動医療アプリケーションの展望は、医療データから堅牢でスケーラブルな診断および予測モデルを設計するための有望な道として現れてきた。 その結果、データ駆動型医療応用の領域は、学術や産業にまたがる大きな注目を集め、医療提供の質が著しく向上した。 これらの努力にもかかわらず、AI駆動の医療アプリケーションの採用は、セキュリティ、プライバシ、QoS(Quality of Service)標準を満たすという困難なタスクなど、深刻な課題によって依然として妨げられている。 近年のフェデレートラーニングの進歩により、複雑なマシン学習モデルを分散的に訓練することが可能となり、特にネットワークの端にある医療データを分散的に処理することで、プライバシの保護とセキュリティ上の懸念に対処することが可能になった。 そこで本研究では,データ共有が重荷となる医療アプリケーションにおけるFL技術の現状と将来について述べる。 信頼性とスケーラブルなFLモデルの設計の複雑さを誇示し、現代の研究動向とその成果を掘り下げる。 我々の調査では、FLの基本的な統計上の障害を概説し、デバイス関連の障害に直面し、セキュリティ上の課題に対処し、複雑なプライバシー上の懸念をナビゲートし、医療領域におけるその変革的なポテンシャルを浮き彫りにしています。 本研究の主な焦点は医学的応用であり、この課題に対処するコンピュータ支援診断ツールの開発において、我々はグローバルがんの重み付けを過小評価し、FLの有効性を照らし出す。

With the advent of the IoT, AI and ML/DL algorithms, the landscape of data-driven medical applications has emerged as a promising avenue for designing robust and scalable diagnostic and prognostic models from medical data. Consequently, the realm of data-driven medical applications has garnered significant attention spanning academia and industry, ushering in marked enhancements in healthcare delivery quality. Despite these strides, the adoption of AI-driven medical applications remains hindered by formidable challenges, including the arduous task of meeting security, privacy, and quality of service (QoS) standards. Recent developments in federated learning have made it possible to train complex machine-learned models in a distributed manner and has become an active research domain, particularly processing the medical data at the edge of the network in a decentralized way to preserve privacy and address security concerns. To this end, this survey paper highlights the current and future of FL technology in medical applications where data sharing is a significant burden. We delve into the contemporary research trends and their outcomes, unravelling the intricacies of designing reliable and scalable FL models. Our survey outlines the foundational statistical predicaments of FL, confronts device-related obstacles, delves into security challenges, and navigates the intricate terrain of privacy concerns, all while spotlighting its transformative potential within the medical domain. A primary focus of our study rests on medical applications, where we underscore the weighty burden of global cancer and illuminate the potency of FL in engendering computer-aided diagnosis tools that address this challenge with heightened efficacy.
翻訳日:2023-09-22 20:27:25 公開日:2023-09-21
# 光場圧縮のための量子化による希釈低ランクニューラルラジアンス場

Distilled Low Rank Neural Radiance Field with Quantization for Light Field Compression ( http://arxiv.org/abs/2208.00164v3 )

ライセンス: Link先を確認
Jinglei Shi and Christine Guillemot(参考訳) 本稿では,光場圧縮の課題に対するQDLR-NeRF(Quantized Distilled Low-Rank Neural Radiance Field)表現を提案する。 既存の圧縮手法は光場サブアパーチャ画像の集合を符号化するが,提案手法はニューラルレージアンスフィールド(NeRF)の形で暗黙的なシーン表現を学習し,ビュー合成を可能にする。 モデルを小さくするために、まず、乗算器(admm)最適化フレームワークの交互方向法においてテンソルトレイン(tt)分解を用いて、低ランク(lr)制約下で学習する。 モデルのサイズをさらに小さくするには、テンソルトレイン分解の成分を量子化する必要がある。 しかし、低ランク制約とレート制約重み量子化の両立によるnrfモデルの最適化を同時に考慮することは困難である。 この課題に対処するために,ネットワークトレーニング中に低ランク近似と重み量子化を分離するネットワーク蒸留操作を導入する。 初期LR拘束型NeRF(LR-NeRF)からの情報は、LR-NeRFのTT分解に基づいて、はるかに小さな次元(DLR-NeRF)のモデルに蒸留される。 そして、最適化されたグローバルコードブックを学び、すべてのTTコンポーネントを定量化し、最終的なQDLR-NeRFを生成する。 実験の結果,本手法は最先端の手法に比べて圧縮効率が良く,かつ,高品質の光視野を合成できるという利点があることがわかった。

We propose in this paper a Quantized Distilled Low-Rank Neural Radiance Field (QDLR-NeRF) representation for the task of light field compression. While existing compression methods encode the set of light field sub-aperture images, our proposed method learns an implicit scene representation in the form of a Neural Radiance Field (NeRF), which also enables view synthesis. To reduce its size, the model is first learned under a Low-Rank (LR) constraint using a Tensor Train (TT) decomposition within an Alternating Direction Method of Multipliers (ADMM) optimization framework. To further reduce the model's size, the components of the tensor train decomposition need to be quantized. However, simultaneously considering the optimization of the NeRF model with both the low-rank constraint and rate-constrained weight quantization is challenging. To address this difficulty, we introduce a network distillation operation that separates the low-rank approximation and the weight quantization during network training. The information from the initial LR-constrained NeRF (LR-NeRF) is distilled into a model of much smaller dimension (DLR-NeRF) based on the TT decomposition of the LR-NeRF. We then learn an optimized global codebook to quantize all TT components, producing the final QDLR-NeRF. Experimental results show that our proposed method yields better compression efficiency compared to state-of-the-art methods, and it additionally has the advantage of allowing the synthesis of any light field view with high quality.
翻訳日:2023-09-22 20:26:55 公開日:2023-09-21
# Pythonパッケージを伴う任意の超伝導量子回路の解析:SQcircuit

Analysis of arbitrary superconducting quantum circuits accompanied by a Python package: SQcircuit ( http://arxiv.org/abs/2206.08319v3 )

ライセンス: Link先を確認
Taha Rajabzadeh, Zhaoyou Wang, Nathan Lee, Takuma Makihara, Yudan Guo, Amir H. Safavi-Naeini(参考訳) 超伝導量子回路は、フォールトトレラント量子コンピュータを実現するための有望なハードウェアプラットフォームである。 この分野での進歩の加速は、より複雑な超伝導回路を分析し設計するための一般的なアプローチと計算ツールを必要とする。 超伝導量子回路の量子化ハミルトニアンを物理的記述から体系的に構築する枠組みを開発する。 多座標系の量子記述の場合と同様に、複雑性は変数の数とともに急速に増加する。 したがって、ハミルトニアンを効率的に対角化するための基底を見つけることができる座標変換の集合を導入する。 さらに、新しい量子ビットの最適化と発見に必要な回路の鍵特性を計算するためのフレームワークの範囲を広げる。 我々は,オープンソースのPythonパッケージSQcircuitで記述した手法を実装した。 本稿では,SQcircuit環境と機能について紹介する。 興味深い量子回路を解析し、スペクトル、コヒーレンス時間、遷移行列要素、結合作用素、固有関数の位相座標表現などの特徴を得る一連の例を示す。

Superconducting quantum circuits are a promising hardware platform for realizing a fault-tolerant quantum computer. Accelerating progress in this field of research demands general approaches and computational tools to analyze and design more complex superconducting circuits. We develop a framework to systematically construct a superconducting quantum circuit's quantized Hamiltonian from its physical description. As is often the case with quantum descriptions of multicoordinate systems, the complexity rises rapidly with the number of variables. Therefore, we introduce a set of coordinate transformations with which we can find bases to diagonalize the Hamiltonian efficiently. Furthermore, we broaden our framework's scope to calculate the circuit's key properties required for optimizing and discovering novel qubits. We implement the methods described in this work in an open-source Python package SQcircuit. In this manuscript, we introduce the reader to the SQcircuit environment and functionality. We show through a series of examples how to analyze a number of interesting quantum circuits and obtain features such as the spectrum, coherence times, transition matrix elements, coupling operators, and the phase coordinate representation of eigenfunctions.
翻訳日:2023-09-22 20:26:00 公開日:2023-09-21
# グラフニューラルネットワークの最適伝搬

Optimal Propagation for Graph Neural Networks ( http://arxiv.org/abs/2205.02998v2 )

ライセンス: Link先を確認
Beidi Zhao, Boxin Du, Zhe Xu, Liangyue Li and Hanghang Tong(参考訳) グラフニューラルネットワーク(GNN)は、固定されたグラフデータを入力として頼りにすることで、様々な現実世界のアプリケーションで大きな成功を収めている。 しかしながら、最初の入力グラフは、情報不足、ノイズ、敵対的攻撃、あるいはグラフトポロジー、特徴、接地ラベルの分布の不一致のため、特定の下流タスクの観点からは最適ではないかもしれない。 本稿では,パーソナライズされたページランク伝播行列と下流半教師付きノード分類を同時に学習することにより,最適グラフ構造を学習するための2レベル最適化手法を提案する。 また,時間の複雑さをさらに減らすために,低ランク近似モデルも検討する。 実験による評価は, 提案モデルの有効性とロバスト性を示す。

Graph Neural Networks (GNNs) have achieved tremendous success in a variety of real-world applications by relying on the fixed graph data as input. However, the initial input graph might not be optimal in terms of specific downstream tasks, because of information scarcity, noise, adversarial attacks, or discrepancies between the distribution in graph topology, features, and groundtruth labels. In this paper, we propose a bi-level optimization approach for learning the optimal graph structure via directly learning the Personalized PageRank propagation matrix as well as the downstream semi-supervised node classification simultaneously. We also explore a low-rank approximation model for further reducing the time complexity. Empirical evaluations show the superior efficacy and robustness of the proposed model over all baseline methods.
翻訳日:2023-09-22 20:25:45 公開日:2023-09-21
# アスペクトベース感情分析データセットの調査

Survey of Aspect-based Sentiment Analysis Datasets ( http://arxiv.org/abs/2204.05232v5 )

ライセンス: Link先を確認
Siva Uday Sampreeth Chebolu, Franck Dernoncourt, Nedim Lipka, Thamar Solorio(参考訳) アスペクトベースの感情分析(ABSA)は、自然言語処理の問題であり、ユーザー生成レビューを分析する必要がある。 a) 審査対象の実体 b)それが属する上位の局面,及び c) 目標及び側面に対して表現された感情。 ABSAの多くの散在したコーパスは、研究者が特定のABSAサブタスクに適したコーパスを素早く特定することが困難である。 本研究の目的は,自律型absaシステムの訓練と評価に使用できるコーパスのデータベースを提供することである。 さらに,absaの主要コーパスとそのサブタスクの概要を述べ,コーパス選択時に研究者が考慮すべきいくつかの特徴を強調する。 最後に,現在の収集手法の利点と欠点について考察し,今後のコーパス作成を推奨する。 この調査では、45の英語および20の言語データセットを含む25のドメインをカバーする、65の公開ABSAデータセットを調査している。

Aspect-based sentiment analysis (ABSA) is a natural language processing problem that requires analyzing user-generated reviews to determine: a) The target entity being reviewed, b) The high-level aspect to which it belongs, and c) The sentiment expressed toward the targets and the aspects. Numerous yet scattered corpora for ABSA make it difficult for researchers to identify corpora best suited for a specific ABSA subtask quickly. This study aims to present a database of corpora that can be used to train and assess autonomous ABSA systems. Additionally, we provide an overview of the major corpora for ABSA and its subtasks and highlight several features that researchers should consider when selecting a corpus. Finally, we discuss the advantages and disadvantages of current collection approaches and make recommendations for future corpora creation. This survey examines 65 publicly available ABSA datasets covering over 25 domains, including 45 English and 20 other languages datasets.
翻訳日:2023-09-22 20:25:34 公開日:2023-09-21
# 適応共振理論に基づく位相クラスタリングを用いた連続学習が可能なクラスワイド分類器の設計

Class-wise Classifier Design Capable of Continual Learning using Adaptive Resonance Theory-based Topological Clustering ( http://arxiv.org/abs/2203.09879v2 )

ライセンス: Link先を確認
Naoki Masuyama, Yusuke Nojima, Farhan Dawood, Zongying Liu(参考訳) 本稿では,適応共鳴理論(art)に基づく自己組織型クラスタリングアルゴリズムを用いて,連続学習が可能な教師付き分類アルゴリズムを提案する。 ARTに基づくクラスタリングアルゴリズムは理論的には連続的な学習が可能であり、提案アルゴリズムは個別に分類器を生成する訓練データの各クラスに適用する。 新しいクラスから追加のトレーニングデータセットが与えられると、新しいアートベースのクラスタリングが別の学習空間で定義されます。 上記の特徴により,提案アルゴリズムは連続学習能力を実現する。 シミュレーション実験により,提案アルゴリズムは連続学習が可能な最先端クラスタリングに基づく分類アルゴリズムと比較して,分類性能が優れていることがわかった。

This paper proposes a supervised classification algorithm capable of continual learning by utilizing an Adaptive Resonance Theory (ART)-based growing self-organizing clustering algorithm. The ART-based clustering algorithm is theoretically capable of continual learning, and the proposed algorithm independently applies it to each class of training data for generating classifiers. Whenever an additional training data set from a new class is given, a new ART-based clustering will be defined in a different learning space. Thanks to the above-mentioned features, the proposed algorithm realizes continual learning capability. Simulation experiments showed that the proposed algorithm has superior classification performance compared with state-of-the-art clustering-based classification algorithms capable of continual learning.
翻訳日:2023-09-22 20:25:20 公開日:2023-09-21
# E-detectors:シーケンシャルな変化検出のための非パラメトリックフレームワーク

E-detectors: a nonparametric framework for sequential change detection ( http://arxiv.org/abs/2203.03532v3 )

ライセンス: Link先を確認
Jaehyeok Shin, Aaditya Ramdas, Alessandro Rinaldo(参考訳) 逐次変化検出は、様々な応用において古典的な問題である。 しかし、先行研究の大部分は指数関数族に焦点をあてたパラメトリックなものであった。 本研究では,変化前分布と後分布が非パラメトリックな(したがって合成)場合の逐次変化検出のための基本的かつ汎用的なフレームワークを開発する。 私たちの手順は、平均走行距離(誤報の頻度)のクリーンで無症状な境界が伴います。 ある種の非パラメトリック(準ガウスや準指数など)の場合、変化点の後の検出遅延についてほぼ最適境界を与える。 私たちが導入する主要な技術ツールは \emph{e-detector} と呼ばれ、e-プロセス(非負のスーパーマーチンガールの基本的な一般化)の和からなり、連続して開始される。 まず,シリャーエフ・ロバーツとCUSUM型e-detectorを導入し,統計的および計算効率の両立を図った。 我々のe-detectorフレームワークは、パラメトリック問題に対する古典的確率に基づく手順を復元し、多くの非パラメトリック問題に対する最初の変更検出方法を得るためにインスタンス化することができる。 実例として,複数シーズンにわたってバスケットボールチームのパフォーマンスを追跡するアプリケーションを用いて,i.i.d.仮定なしに有界確率変数の平均値の変化を検出する問題に取り組む。

Sequential change detection is a classical problem with a variety of applications. However, the majority of prior work has been parametric, for example, focusing on exponential families. We develop a fundamentally new and general framework for sequential change detection when the pre- and post-change distributions are nonparametrically specified (and thus composite). Our procedures come with clean, nonasymptotic bounds on the average run length (frequency of false alarms). In certain nonparametric cases (like sub-Gaussian or sub-exponential), we also provide near-optimal bounds on the detection delay following a changepoint. The primary technical tool that we introduce is called an \emph{e-detector}, which is composed of sums of e-processes -- a fundamental generalization of nonnegative supermartingales -- that are started at consecutive times. We first introduce simple Shiryaev-Roberts and CUSUM-style e-detectors, and then show how to design their mixtures in order to achieve both statistical and computational efficiency. Our e-detector framework can be instantiated to recover classical likelihood-based procedures for parametric problems, as well as yielding the first change detection method for many nonparametric problems. As a running example, we tackle the problem of detecting changes in the mean of a bounded random variable without i.i.d. assumptions, with an application to tracking the performance of a basketball team over multiple seasons.
翻訳日:2023-09-22 20:25:09 公開日:2023-09-21
# 主題への文法的手がかりは、言語をまたがる多くの単純な節において冗長である

Grammatical cues to subjecthood are redundant in a majority of simple clauses across languages ( http://arxiv.org/abs/2201.12911v3 )

ライセンス: Link先を確認
Kyle Mahowald, Evgeniia Diachek, Edward Gibson, Evelina Fedorenko, Richard Futrell(参考訳) 文法的な手がかりは、自然言語で単語の意味と重複することがある。 例えば、英語の語順規則は、対象としての「犬」と対象としての「骨」の状態が世界の知識と可能性から推測できるにもかかわらず、「犬が骨を噛んだ」ような文の語順を制限している。 この冗長性の発生頻度の定量化と、その冗長性のレベルが、類型的に多様な言語によってどのように異なるかは、文法の機能と進化に光を当てることができる。 そこで我々は,英語とロシア語で行動実験を行い,コーパステキストから抽出した推移節における文法的手がかりの冗長性を測定した。 英語とロシア語の話者(n=484)は、自然発生文から抽出された主語、動詞、対象(ランダムな順序と形態的記号を取り除いた)を提示し、どの名詞がその行動の対象であるかを判断するよう求めた。 両方の言語で精度が高い(英語では89%、ロシア語では87%)。 次に、ニューラルネットワークマシンの分類器を、同じようなタスクでトレーニングした。 8つの言語ファミリーから30の言語にまたがる性能は一貫して高く、中央値の精度は87%であり、人間の実験で観測された精度に匹敵するものであった。 結論は、単語順などの文法的手がかりは、自然に発生する推移的節の少数派において主観性と客観性を伝えるために必要であるということである。 (a)重要な冗長性源を提供し、 b) 言葉だけでは推論できない意図的な意味を伝えるために重要であり、人間同士の相互作用の記述(レイがルー/ルーがレイを助けたなど)や、非原型的な意味(例えば「骨が犬を噛んだ」)を表現している。

Grammatical cues are sometimes redundant with word meanings in natural language. For instance, English word order rules constrain the word order of a sentence like "The dog chewed the bone" even though the status of "dog" as subject and "bone" as object can be inferred from world knowledge and plausibility. Quantifying how often this redundancy occurs, and how the level of redundancy varies across typologically diverse languages, can shed light on the function and evolution of grammar. To that end, we performed a behavioral experiment in English and Russian and a cross-linguistic computational analysis measuring the redundancy of grammatical cues in transitive clauses extracted from corpus text. English and Russian speakers (n=484) were presented with subjects, verbs, and objects (in random order and with morphological markings removed) extracted from naturally occurring sentences and were asked to identify which noun is the subject of the action. Accuracy was high in both languages (~89% in English, ~87% in Russian). Next, we trained a neural network machine classifier on a similar task: predicting which nominal in a subject-verb-object triad is the subject. Across 30 languages from eight language families, performance was consistently high: a median accuracy of 87%, comparable to the accuracy observed in the human experiments. The conclusion is that grammatical cues such as word order are necessary to convey subjecthood and objecthood in a minority of naturally occurring transitive clauses; nevertheless, they can (a) provide an important source of redundancy and (b) are crucial for conveying intended meaning that cannot be inferred from the words alone, including descriptions of human interactions, where roles are often reversible (e.g., Ray helped Lu/Lu helped Ray), and expressing non-prototypical meanings (e.g., "The bone chewed the dog.").
翻訳日:2023-09-22 20:24:44 公開日:2023-09-21
# 単眼高推定のための転送可能表現学習

THE Benchmark: Transferable Representation Learning for Monocular Height Estimation ( http://arxiv.org/abs/2112.14985v2 )

ライセンス: Link先を確認
Zhitong Xiong, Wei Huang, Jingtao Hu, and Xiao Xiang Zhu(参考訳) 3D都市モデルを迅速に生成することは、多くのアプリケーションにとって不可欠である。 単分子高さ推定は、大規模な幾何学的情報を得る最も効率的かつタイムリーな方法の1つである。 しかし、既存の作業は主に偏りのないデータセットを使用してモデルのトレーニングとテストに焦点を当てている。 そこで本研究では,クロスデータセットにおける高さ推定モデルの転送可能性を調べるための新しいベンチマークデータセットを提案する。 そこで我々はまず,ハイト推定タスク上でのクロスデータセット変換学習のための大規模ベンチマークデータセットの設計と構築を行う。 このベンチマークデータセットは、新たに提案された大規模合成データセット、新たに収集された実世界のデータセット、異なる都市の既存の4つのデータセットを含む。 次に、新しい実験プロトコル、マイトショットクロスデータセット転送が設計されている。 さらに,本論文では,高さ推定タスクにおけるスケール変動問題に対処するウィンドウベーストランスフォーマを強化するためのスケール変形可能な畳み込みモジュールを提案する。 提案手法の有効性を従来のデータ転送方式とクロスデータセット転送方式で実証した。 データセットとコードはhttps://mediatum.ub.tum.de/1662763とhttps://thebenchmarkh.github.io/で公開されている。

Generating 3D city models rapidly is crucial for many applications. Monocular height estimation is one of the most efficient and timely ways to obtain large-scale geometric information. However, existing works focus primarily on training and testing models using unbiased datasets, which does not align well with real-world applications. Therefore, we propose a new benchmark dataset to study the transferability of height estimation models in a cross-dataset setting. To this end, we first design and construct a large-scale benchmark dataset for cross-dataset transfer learning on the height estimation task. This benchmark dataset includes a newly proposed large-scale synthetic dataset, a newly collected real-world dataset, and four existing datasets from different cities. Next, a new experimental protocol, few-shot cross-dataset transfer, is designed. Furthermore, in this paper, we propose a scale-deformable convolution module to enhance the window-based Transformer for handling the scale-variation problem in the height estimation task. Experimental results have demonstrated the effectiveness of the proposed methods in the traditional and cross-dataset transfer settings. The datasets and codes are publicly available at https://mediatum.ub.tum.de/1662763 and https://thebenchmarkh.github.io/.
翻訳日:2023-09-22 20:24:08 公開日:2023-09-21
# DREAM:動的リアルタイムマルチモデルMLワークロードのための動的スケジューリング

DREAM: A Dynamic Scheduler for Dynamic Real-time Multi-model ML Workloads ( http://arxiv.org/abs/2212.03414v2 )

ライセンス: Link先を確認
Seah Kim, Hyoukjun Kwon, Jinook Song, Jihyuck Jo, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra(参考訳) AR/VRやドローン制御といったリアルタイムのマルチモデルML(RTMM)ワークロードは、モデル内のタスク、モデル、レイヤなど、さまざまな粒度の動的な振る舞いを伴います。 このような動的な振る舞いは、従来のMLワークロードとは異なり、システム全体の負荷が完全に予測不可能であるため、MLシステムのシステムソフトウェアに新たな課題をもたらす。 加えて、RTMMワークロードはリアルタイム処理、高度に異質なモデル、リソース制約のあるデバイスをターゲットとする。 このような状況下では、RTMMワークロードのユニークな特性を考慮して、基盤となるハードウェアをよりよく活用する上で、効果的なスケジューラの開発がより重要になる。 そこで,マルチアクセラレータをターゲットとしたrtmmワークロードの動的処理を効果的に行う新しいスケジューラdreamを提案する。 DREAMはRTMMワークロードのユニークな要件を定量化し、定量化されたスコアを使用して、現在のシステム負荷やその他の推論ジョブを異なるモデルや入力フレームで考慮し、スケジューリング決定を駆動する。 DREAMはチューニング可能なパラメータを使用し、動的ワークロードの変更に対して高速で効果的な適応性を提供する。 RTMMワークロードの5つのシナリオの評価において、DREAMは、この論文で定義されたRTMMのエネルギ遅延積(EDP)の等価メトリックであるUXCostを、最先端のベースラインと比較して、幾何平均(80.8%、97.6%)において32.2%と50.0%削減した。

Emerging real-time multi-model ML (RTMM) workloads such as AR/VR and drone control involve dynamic behaviors in various granularity; task, model, and layers within a model. Such dynamic behaviors introduce new challenges to the system software in an ML system since the overall system load is not completely predictable, unlike traditional ML workloads. In addition, RTMM workloads require real-time processing, involve highly heterogeneous models, and target resource-constrained devices. Under such circumstances, developing an effective scheduler gains more importance to better utilize underlying hardware considering the unique characteristics of RTMM workloads. Therefore, we propose a new scheduler, DREAM, which effectively handles various dynamicity in RTMM workloads targeting multi-accelerator systems. DREAM quantifies the unique requirements for RTMM workloads and utilizes the quantified scores to drive scheduling decisions, considering the current system load and other inference jobs on different models and input frames. DREAM utilizes tunable parameters that provide fast and effective adaptivity to dynamic workload changes. In our evaluation of five scenarios of RTMM workload, DREAM reduces the overall UXCost, which is an equivalent metric of the energy-delay product (EDP) for RTMM defined in the paper, by 32.2% and 50.0% in the geometric mean (up to 80.8% and 97.6%) compared to state-of-the-art baselines, which shows the efficacy of our scheduling methodology.
翻訳日:2023-09-22 20:19:01 公開日:2023-09-21
# ヒルベルト空間還元による絡み合った島

Entanglement Islands from Hilbert Space Reduction ( http://arxiv.org/abs/2211.17004v4 )

ライセンス: Link先を確認
Debarshi Basu, Qiang Wen and Shangjie Zhou(参考訳) 本稿では、純粋に量子情報の観点から、 textit{Island formula} を理解することを試みる。 島相は、状態が埋め込まれた量子状態とヒルベルト空間の性質であることを示す。 より明確に言うと、ある制約がヒルベルト空間の特定の状態を射影することによって量子系に課されるとき、還元ヒルベルト空間に残る全ての状態に対して、その部分集合 $\mathcal{r}$ の状態から別の部分集合 $i$ の状態への写像が存在する。 そのようなシステムを \textit{self-encoded} と呼ぶ。 自己符号化システムでは、減少密度行列の変化を本質的に計算することで、絡み合いエントロピーを計算する新しい \textit{island formula} が得られる。 さらに、ブラックホール蒸発の過程におけるユニタリティーを救済するために提案された重力理論における \textit{island formula} は、この新しい \textit{island formula} の特別な応用である。 これら2つの textit{island} 式の組み合わせは、重力の有効理論はヒルベルト空間を著しく減らした自己符号化理論であることを示している。

In this paper we try to understand the \textit{Island formula} from a purely quantum information perspective. We propose that the island phase is a property of the quantum state and the Hilbert space where the state is embedded in. More explicitly, when certain constraints are imposed in a quantum system by projecting out certain states in the Hilbert space, such that for all the states remaining in the reduced Hilbert space, there exists a mapping from the state of the subset $\mathcal{R}$ to the state of another subset $I$, which we call a coding relation. We call such a system \textit{self-encoded}. In a self-encoded system the way we compute the reduced density matrix changes essentially, which results in a new \textit{island formula} to calculate the entanglement entropy. Furthermore, we propose that, the \textit{island formula} in gravitational theories, which is proposed to rescue the unitarity in the process of black hole evaporation, should be a special application of this new \textit{island formula}. The combination of these two \textit{island formulas} indicates that the effective theory of a gravity is a self-encoded theory with the Hilbert spaces vastly reduced.
翻訳日:2023-09-22 20:18:34 公開日:2023-09-21
# 医用画像超解像のための微調整逆数ネットワークモデル

Fine-tuned Generative Adversarial Network-based Model for Medical Image Super-Resolution ( http://arxiv.org/abs/2211.00577v7 )

ライセンス: Link先を確認
Alireza Aghelan, Modjtaba Rouhani(参考訳) 医用画像解析の分野では、診断精度を向上させるために高解像度(HR)画像が必要である。 しかし、高度な機器とかなりの時間を要するため、HR医療画像を得ることは難しい課題である。 深層学習に基づく超解像法は、低解像度(LR)医療画像の解像度と知覚品質を改善するのに役立つ。 近年,GAN(Generative Adversarial Network)に基づく手法は,ディープラーニングに基づく超解像法において顕著な性能を示した。 real-enhanced super- resolution generative adversarial network (real-esrgan)は、実世界のlr画像からhr画像を取得するための実用的なモデルである。 提案手法では,医用画像データセットを用いたトランスファーラーニング手法を用いて,事前学習したReal-ESRGANモデルを微調整する。 この手法はモデルの性能を向上させるのに役立つ。 本研究の目的は,胸部X線像と網膜像の解像度と知覚品質の向上である。 我々は,結核胸部X線データセットと網膜画像のSTAREデータセットを用いてモデルを微調整する。 提案モデルでは,Real-ESRGANモデルに比べて知覚品質が優れ,細部を効果的に保存し,より現実的なテクスチャで画像を生成する。

In the field of medical image analysis, there is a substantial need for high-resolution (HR) images to improve diagnostic accuracy. However, It is a challenging task to obtain HR medical images, as it requires advanced instruments and significant time. Deep learning-based super-resolution methods can help to improve the resolution and perceptual quality of low-resolution (LR) medical images. Recently, Generative Adversarial Network (GAN) based methods have shown remarkable performance among deep learning-based super-resolution methods. Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is a practical model for recovering HR images from real-world LR images. In our proposed approach, we use transfer learning technique and fine-tune the pre-trained Real-ESRGAN model using medical image datasets. This technique helps in improving the performance of the model. The focus of this paper is on enhancing the resolution and perceptual quality of chest X-ray and retinal images. We use the Tuberculosis chest X-ray (Shenzhen) dataset and the STARE dataset of retinal images for fine-tuning the model. The proposed model achieves superior perceptual quality compared to the Real-ESRGAN model, effectively preserving fine details and generating images with more realistic textures.
翻訳日:2023-09-22 20:17:51 公開日:2023-09-21
# マルチエージェントDeep Covering Skill Discovery

Multi-agent Deep Covering Skill Discovery ( http://arxiv.org/abs/2210.03269v3 )

ライセンス: Link先を確認
Jiayu Chen, Marina Haliem, Tian Lan, Vaneet Aggarwal(参考訳) スキル(すなわちオプション)の使用は強化学習における探索を大幅に加速させることができる。 個々のエージェントに対してオプション発見手法が提案されているが、マルチエージェント強化学習環境では、複数のエージェントの振る舞いを調整し、共同状態空間の未調査領域を訪問するよう促す協調的オプションの発見は検討されていない。 本稿では,複数エージェントの結合状態空間のカバータイムを最小化することで,マルチエージェントオプションを構築するマルチエージェントディープ・カバーリング・オプションディスカバリを提案する。 また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。 実際には、マルチエージェントタスクは通常、いくつかのサブタスクに分割され、それぞれがエージェントのサブグループによって完了する。 したがって,本アルゴリズムフレームワークは,まず注意機構を活用し,協調行動の恩恵を受ける協調エージェントを探索する。 次に、階層型アルゴリズムHA-MSACを開発し、各サブグループのマルチエージェントオプションを学習し、まずサブタスクを完了し、タスク全体の解として高レベルポリシーを通じてそれらを統合する。 この階層的なオプション構成により、当社のフレームワークは、スケーラビリティとエージェント間の効果的なコラボレーションのバランスをとることができます。 マルチエージェント協調課題に基づく評価の結果,提案手法は,アテンション機構とのエージェントインタラクションを効果的に捉え,マルチエージェントオプションの同定に成功し,より高速な探索と高いタスク報酬の両面で,シングルエージェントオプションやnoオプションを用いた先行作業を大幅に上回ることがわかった。

The use of skills (a.k.a., options) can greatly accelerate exploration in reinforcement learning, especially when only sparse reward signals are available. While option discovery methods have been proposed for individual agents, in multi-agent reinforcement learning settings, discovering collaborative options that can coordinate the behavior of multiple agents and encourage them to visit the under-explored regions of their joint state space has not been considered. In this case, we propose Multi-agent Deep Covering Option Discovery, which constructs the multi-agent options through minimizing the expected cover time of the multiple agents' joint state space. Also, we propose a novel framework to adopt the multi-agent options in the MARL process. In practice, a multi-agent task can usually be divided into some sub-tasks, each of which can be completed by a sub-group of the agents. Therefore, our algorithm framework first leverages an attention mechanism to find collaborative agent sub-groups that would benefit most from coordinated actions. Then, a hierarchical algorithm, namely HA-MSAC, is developed to learn the multi-agent options for each sub-group to complete their sub-tasks first, and then to integrate them through a high-level policy as the solution of the whole task. This hierarchical option construction allows our framework to strike a balance between scalability and effective collaboration among the agents. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can effectively capture the agent interactions with the attention mechanism, successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher task rewards.
翻訳日:2023-09-22 20:17:27 公開日:2023-09-21
# 逐次観測のための非パラメトリックおよび正則化動的wasserstein重心

Nonparametric and Regularized Dynamical Wasserstein Barycenters for Sequential Observations ( http://arxiv.org/abs/2210.01918v3 )

ライセンス: Link先を確認
Kevin C. Cheng, Shuchin Aeron, Michael C. Hughes, Eric L. Miller(参考訳) 有限個の状態間で段階的な遷移を示す逐次観測の確率モデルについて考察する。 観測された加速度計の時系列は、これらの純粋な状態間の連続的な遷移によって特徴づけられる期間だけでなく、純粋な状態と呼ばれる個々の活動を表すセグメントを含む。 この推移的挙動を捉えるため、2021 [1] の Cheng らによる力学的な Wasserstein barycenter (DWB) モデルは、各純状態にデータ生成分布を関連付け、これらの状態間の連続的な遷移を、動的に変化する重みを持つ Wasserstein barycenter としてモデル化する。 ワッサーシュタイン距離とバリー中心が閉形式で計算できる単変数の場合に着目して、[1] はガウス分布として純粋状態のパラメータ化を特に緩和する。 本稿では,モデルパラメータの同定における特異性や,少数のサンプルから動的に変化する分布を推定する際に生じる不確実性に着目する。 非統一性を改善するために,重心重みの力学に時間的滑らかさを課す正則化を導入する。 純状態分布の量子化に基づく近似は、純状態量子関数の更新と偏心重みとの交互に循環降下を用いて数値的に解く有限次元推定問題をもたらす。 シミュレーションと実世界の人間の活動時系列のセグメンテーションにおける提案アルゴリズムの有用性を実証する。

We consider probabilistic models for sequential observations which exhibit gradual transitions among a finite number of states. We are particularly motivated by applications such as human activity analysis where observed accelerometer time series contains segments representing distinct activities, which we call pure states, as well as periods characterized by continuous transition among these pure states. To capture this transitory behavior, the dynamical Wasserstein barycenter (DWB) model of Cheng et al. in 2021 [1] associates with each pure state a data-generating distribution and models the continuous transitions among these states as a Wasserstein barycenter of these distributions with dynamically evolving weights. Focusing on the univariate case where Wasserstein distances and barycenters can be computed in closed form, we extend [1] specifically relaxing the parameterization of the pure states as Gaussian distributions. We highlight issues related to the uniqueness in identifying the model parameters as well as uncertainties induced when estimating a dynamically evolving distribution from a limited number of samples. To ameliorate non-uniqueness, we introduce regularization that imposes temporal smoothness on the dynamics of the barycentric weights. A quantile-based approximation of the pure state distributions yields a finite dimensional estimation problem which we numerically solve using cyclic descent alternating between updates to the pure-state quantile functions and the barycentric weights. We demonstrate the utility of the proposed algorithm in segmenting both simulated and real world human activity time series.
翻訳日:2023-09-22 20:16:35 公開日:2023-09-21
# オンライン自己調和・相対スムース最小化とオンラインポートフォリオ選択と学習量子状態への応用

Online Self-Concordant and Relatively Smooth Minimization, With Applications to Online Portfolio Selection and Learning Quantum States ( http://arxiv.org/abs/2210.00997v3 )

ライセンス: Link先を確認
Chung-En Tsai and Hao-Chung Cheng and Yen-Huan Li(参考訳) 損失関数が自己一致障壁であり、凸関数 $h$ に対して滑らかであり、おそらく非リプシッツであるオンライン凸最適化問題を考える。 我々はオンラインミラー降下の後悔を$h$で分析する。 そして、その結果に基づいて、以下のことを統一的に証明する。 t$ the time horizon と $d$ the parameter dimension で表す。 1. オンラインポートフォリオ選択において、helmboldらによる拡張勾配の変種である$\widetilde{\text{eg}}$の後悔は、$t > 4 d / \log d$であるなら$\tilde{o} (t^{2/3} d^{1/3})である。 これは元の$\tilde{o} ( t^{3/4} d^{1/2} )$ regret bound for $\widetilde{\text{eg}}$ で改善される。 2. オンラインポートフォリオ選択の場合,対数障壁によるオンラインミラー降下の後悔は$\tilde{O}(\sqrt{T d})$である。 後悔のバウンドは、orseau et al. から対数項まで、soft-bayes と同じである。 3.対数損失のあるオンライン学習量子状態の場合、対数決定関数によるオンラインミラー降下の後悔もまた$\tilde{O} ( \sqrt{T d} )$である。 その文単位の時間は、我々が知っているすべての既存のアルゴリズムよりも短い。

Consider an online convex optimization problem where the loss functions are self-concordant barriers, smooth relative to a convex function $h$, and possibly non-Lipschitz. We analyze the regret of online mirror descent with $h$. Then, based on the result, we prove the following in a unified manner. Denote by $T$ the time horizon and $d$ the parameter dimension. 1. For online portfolio selection, the regret of $\widetilde{\text{EG}}$, a variant of exponentiated gradient due to Helmbold et al., is $\tilde{O} ( T^{2/3} d^{1/3} )$ when $T > 4 d / \log d$. This improves on the original $\tilde{O} ( T^{3/4} d^{1/2} )$ regret bound for $\widetilde{\text{EG}}$. 2. For online portfolio selection, the regret of online mirror descent with the logarithmic barrier is $\tilde{O}(\sqrt{T d})$. The regret bound is the same as that of Soft-Bayes due to Orseau et al. up to logarithmic terms. 3. For online learning quantum states with the logarithmic loss, the regret of online mirror descent with the log-determinant function is also $\tilde{O} ( \sqrt{T d} )$. Its per-iteration time is shorter than all existing algorithms we know.
翻訳日:2023-09-22 20:16:05 公開日:2023-09-21
# mmBody ベンチマーク:ミリ波レーダの3次元身体再構成データセットと解析

mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar ( http://arxiv.org/abs/2209.05070v3 )

ライセンス: Link先を確認
Anjun Chen, Xiangyu Wang, Shaohao Zhu, Yanxu Li, Jiming Chen, Qi Ye(参考訳) ミリ波(mmWave)レーダーは、煙、雨、雪、照明の悪さといった悪環境でも使えるため、人気が高まっている。 以前の研究では、ノイズやスパースなmmWaveレーダ信号から3D骨格やメッシュを再構築する可能性を探っている。 しかし,mmWaveレーダを単独で使用したり,カメラと組み合わせたりする場合に考慮すべき重要な側面として,シーン間のmmWave信号からどのように3Dボディを再構築できるかは明らかではない。 これらの質問に答えるために、自動3Dボディアノテーションシステムが最初に設計され、複数のセンサーで構築され、大規模なデータセットを収集する。 データセットは、同期および校正されたmmWaveレーダーポイント雲と、異なるシーンにおけるRGB(D)イメージと、シーン内の人間のためのスケルトン/メシュアノテーションで構成されている。 このデータセットでは、さまざまなセンサからの入力を使って最先端のメソッドをトレーニングし、さまざまなシナリオでテストします。 その結果は 1)生成した点雲のノイズやスパース性にもかかわらず,mmwaveレーダは,rgbカメラよりも再構成精度は高いが,深度カメラよりは劣る。 2)RGB(D)カメラは深刻な影響を受けながら,mmWaveレーダからの再構成は悪天候の影響を受けやすい。 さらに、mmウェーブレーダからの再構成と異なるセンサからの信号の組み合わせを改善するためのデータセットと結果のシャドーインサイトの分析を行う。

Millimeter Wave (mmWave) Radar is gaining popularity as it can work in adverse environments like smoke, rain, snow, poor lighting, etc. Prior work has explored the possibility of reconstructing 3D skeletons or meshes from the noisy and sparse mmWave Radar signals. However, it is unclear how accurately we can reconstruct the 3D body from the mmWave signals across scenes and how it performs compared with cameras, which are important aspects needed to be considered when either using mmWave radars alone or combining them with cameras. To answer these questions, an automatic 3D body annotation system is first designed and built up with multiple sensors to collect a large-scale dataset. The dataset consists of synchronized and calibrated mmWave radar point clouds and RGB(D) images in different scenes and skeleton/mesh annotations for humans in the scenes. With this dataset, we train state-of-the-art methods with inputs from different sensors and test them in various scenarios. The results demonstrate that 1) despite the noise and sparsity of the generated point clouds, the mmWave radar can achieve better reconstruction accuracy than the RGB camera but worse than the depth camera; 2) the reconstruction from the mmWave radar is affected by adverse weather conditions moderately while the RGB(D) camera is severely affected. Further, analysis of the dataset and the results shadow insights on improving the reconstruction from the mmWave radar and the combination of signals from different sensors.
翻訳日:2023-09-22 20:15:07 公開日:2023-09-21
# オフライントレーニングデータセットにおける専門家の行動同定はロボットマニピュレーション政策の行動クローニングを改善する

Identifying Expert Behavior in Offline Training Datasets Improves Behavioral Cloning of Robotic Manipulation Policies ( http://arxiv.org/abs/2301.13019v2 )

ライセンス: Link先を確認
Qiang Wang, Robert McCarthy, David Cordova Bulens, Francisco Roldan Sanchez, Kevin McGuinness, Noel E. O'Connor, and Stephen J. Redmond(参考訳) 本稿では,事前に収集したオフラインデータから学習することで,ロボット操作課題を解決することを目的とした,neurips 2022コンペティショントラックに取り上げられる「real robot challenge (rrc) iii」のソリューションを提案する。 参加者には、専門家とさまざまなスキルレベルを持つ混合データセットの2つのタイプのデータセットが与えられた。 最も単純なオフラインポリシ学習アルゴリズムであるBehavimental Cloning(BC)は、専門家データセットでトレーニングされた場合、極めてよく機能するが、最も高度なオフライン強化学習(RL)アルゴリズムよりも優れていた。 しかし、bcの性能は混合データセットに適用すると低下し、オフラインのrlアルゴリズムの性能も不十分であった。 混合データセットを調べると、これらのデータにはかなりの量の専門家データが含まれていることがわかりました。 この問題に対処するために,我々は半教師付き学習ベース分類器を提案し,混合データセット内のエキスパートの振る舞いを識別し,専門家データを効果的に分離する。 bcの性能をさらに高めるため、rrcアリーナの幾何学的対称性を利用して、数学的変換によるトレーニングデータセットの強化を行った。 最終的には、複雑なオフラインRLアルゴリズムや複雑なデータ処理、機能エンジニアリング技術を使っている人たちでさえ、他のすべての参加者よりも上回った。

This paper presents our solution for the Real Robot Challenge (RRC) III, a competition featured in the NeurIPS 2022 Competition Track, aimed at addressing dexterous robotic manipulation tasks through learning from pre-collected offline data. Participants were provided with two types of datasets for each task: expert and mixed datasets with varying skill levels. While the simplest offline policy learning algorithm, Behavioral Cloning (BC), performed remarkably well when trained on expert datasets, it outperformed even the most advanced offline reinforcement learning (RL) algorithms. However, BC's performance deteriorated when applied to mixed datasets, and the performance of offline RL algorithms was also unsatisfactory. Upon examining the mixed datasets, we observed that they contained a significant amount of expert data, although this data was unlabeled. To address this issue, we proposed a semi-supervised learning-based classifier to identify the underlying expert behavior within mixed datasets, effectively isolating the expert data. To further enhance BC's performance, we leveraged the geometric symmetry of the RRC arena to augment the training dataset through mathematical transformations. In the end, our submission surpassed that of all other participants, even those who employed complex offline RL algorithms and intricate data processing and feature engineering techniques.
翻訳日:2023-09-22 20:07:08 公開日:2023-09-21
# 正のラベルなし学習による行動クローニングの改善

Improving Behavioural Cloning with Positive Unlabeled Learning ( http://arxiv.org/abs/2301.11734v2 )

ライセンス: Link先を確認
Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness, Noel E. O'Connor, Nico G\"urtler, Felix Widmaier, Francisco Roldan Sanchez, Stephen J. Redmond(参考訳) 事前記録されたデータセットからオフラインで学習制御ポリシを学習することは、現実の問題を解決する上で有望な方法だ。 しかし、利用可能なデータセットは、典型的には混合品質であり、我々が肯定的な例と考える軌道の限られた数、すなわち高品質なデモンストレーションである。 そこで本研究では,既存のアルゴリズムを精度の面で上回る,最小限の正の例を与えられた非ラベル型混合品質ロボットデータセットにおいて,専門家の軌跡を識別するための新しい反復学習アルゴリズムを提案する。 フィルタしたデータセットに行動クローニングを適用することで、競合するオフライン強化学習や模倣学習ベースラインよりも優れていることを示す。 そこで本研究では,ロボットの動作をシミュレーションする作業と,実際のロボットシステム上での2つの困難な操作作業について実験を行った。 私たちのウェブサイト: \url{https://sites.google.com/view/offline-policy-learning-pubc}

Learning control policies offline from pre-recorded datasets is a promising avenue for solving challenging real-world problems. However, available datasets are typically of mixed quality, with a limited number of the trajectories that we would consider as positive examples; i.e., high-quality demonstrations. Therefore, we propose a novel iterative learning algorithm for identifying expert trajectories in unlabeled mixed-quality robotics datasets given a minimal set of positive examples, surpassing existing algorithms in terms of accuracy. We show that applying behavioral cloning to the resulting filtered dataset outperforms several competitive offline reinforcement learning and imitation learning baselines. We perform experiments on a range of simulated locomotion tasks and on two challenging manipulation tasks on a real robotic system; in these experiments, our method showcases state-of-the-art performance. Our website: \url{https://sites.google.com/view/offline-policy-learning-pubc}.
翻訳日:2023-09-22 20:06:44 公開日:2023-09-21
# 空間アライメントによる任意テキスト駆動画像操作に向けて

Towards Arbitrary Text-driven Image Manipulation via Space Alignment ( http://arxiv.org/abs/2301.10670v3 )

ライセンス: Link先を確認
Yunpeng Bai, Zihan Zhong, Chao Dong, Weichen Zhang, Guowei Xu, Chun Yuan(参考訳) 最近のGANインバージョン法は、StyleGANの対応する編集可能な潜在コードに実際の画像入力を反転させることに成功した。 言語ビジョンモデル(CLIP)と組み合わせることで,テキストによる画像操作手法を提案する。 しかし、これらの方法は特定の画像や新しい属性編集モードの最適化に余分なコストを必要とする。 より効率的な編集手法を実現するために,スペースアライメント (TMSA) を用いたテキスト駆動型画像マニピュレーションフレームワークを提案する。 Space Alignmentモジュールは、CLIPとStyleGAN空間で同じセマンティック領域を調整することを目的としている。 そして、テキスト入力をスタイルガン空間に直接アクセスし、テキスト記述に従って意味的シフトを見つけるために使用できる。 このフレームワークは、追加コストなしで任意の画像編集モードをサポートできる。 本研究は,画像の属性をテキスト入力に応じて制御し,結果をリアルタイムで取得するインタフェースをユーザに提供する。 過剰な実験は、これまでの作業よりも優れたパフォーマンスを示します。

The recent GAN inversion methods have been able to successfully invert the real image input to the corresponding editable latent code in StyleGAN. By combining with the language-vision model (CLIP), some text-driven image manipulation methods are proposed. However, these methods require extra costs to perform optimization for a certain image or a new attribute editing mode. To achieve a more efficient editing method, we propose a new Text-driven image Manipulation framework via Space Alignment (TMSA). The Space Alignment module aims to align the same semantic regions in CLIP and StyleGAN spaces. Then, the text input can be directly accessed into the StyleGAN space and be used to find the semantic shift according to the text description. The framework can support arbitrary image editing mode without additional cost. Our work provides the user with an interface to control the attributes of a given image according to text input and get the result in real time. Ex tensive experiments demonstrate our superior performance over prior works.
翻訳日:2023-09-22 20:06:30 公開日:2023-09-21
# 光音響ct画像再構成のためのクロスドメイン自己教師付き枠組み

Cross-domain Self-supervised Framework for Photoacoustic Computed Tomography Image Reconstruction ( http://arxiv.org/abs/2301.06681v2 )

ライセンス: Link先を確認
Hengrong Lan, Lijie Huang, Zhiqiang Li, Jing Lv, Jianwen Luo(参考訳) 光音響CT(PACT)では正確な画像再構成が重要である。 近年,高画質画像を基底的真理ラベルとして要求する教師付きスキームを用いて,pa画像の再構成にディープラーニングが用いられている。 実際には、より多くのチャネルを使用することはより多くの測定値にアクセスするための高価な戦略であるため、コストとパフォーマンスの間に避けられないトレードオフがある。 本稿では,限られたpa測定値から基底真理ラベルの欠如を克服する,純粋トランスフォーマーモデルを用いたクロスドメイン非教師なし再構成(cdur)戦略を提案する。 提案手法はPACTの等価性を利用して,少ないチャネル数で高い性能を実現する。 モデルに基づく自己教師型再構築を実現する。 また,異なるチャネルをランダムにマスキングすることで,計測されたPAデータの3つの分割に対して,その測定と画像の一貫性を強制する。 例えば80%のチャネルを動的にマスキングすると、画像領域と信号領域の両方において非自明な自己スーパーバイザが得られ、擬似解の多重度を減少させ、画像の最小誤差で少ないPA測定値から画像を効率的に再構成する。 マウスのin-vivo PACTデータセットの実験結果は、我々の教師なしフレームワークの可能性を示している。 さらに,本手法は, 教師付きスキーム (0.77 SSIM, 16チャンネル) に近く, 極端なスパースの場合において高い性能 (0.83 構造類似度指数 (SSIM) を示す。 あらゆる利点に加えて、我々の方法はエンドツーエンドで異なるトレーニング可能なモデルにデプロイされるかもしれない。

Accurate image reconstruction is crucial for photoacoustic (PA) computed tomography (PACT). Recently, deep learning has been used to reconstruct the PA image with a supervised scheme, which requires high-quality images as ground truth labels. In practice, there are inevitable trade-offs between cost and performance since the use of more channels is an expensive strategy to access more measurements. Here, we propose a cross-domain unsupervised reconstruction (CDUR) strategy with a pure transformer model, which overcomes the lack of ground truth labels from limited PA measurements. The proposed approach exploits the equivariance of PACT to achieve high performance with a smaller number of channels. We implement a self-supervised reconstruction in a model-based form. Meanwhile, we also leverage the self-supervision to enforce the measurement and image consistency on three partitions of measured PA data, by randomly masking different channels. We find that dynamically masking a high proportion of the channels, e.g., 80%, yields nontrivial self-supervisors in both image and signal domains, which decrease the multiplicity of the pseudo solution to efficiently reconstruct the image from fewer PA measurements with minimum error of the image. Experimental results on in-vivo PACT dataset of mice demonstrate the potential of our unsupervised framework. In addition, our method shows a high performance (0.83 structural similarity index (SSIM) in the extreme sparse case with 13 channels), which is close to that of supervised scheme (0.77 SSIM with 16 channels). On top of all the advantages, our method may be deployed on different trainable models in an end-to-end manner.
翻訳日:2023-09-22 20:06:15 公開日:2023-09-21
# 2パルススキームにおける固有非巡回幾何ゲート

Genuinely noncyclic geometric gates in two-pulse schemes ( http://arxiv.org/abs/2301.05627v2 )

ライセンス: Link先を確認
Nils Eivarsson, Erik Sj\"oqvist(参考訳) 幾何学的量子計算のアプローチのほとんどは循環進化における幾何学的位相に基づいているが、非巡回幾何学的ゲートは柔軟性を高めるために提案されている。 これらのゲートは計算基底の動的位相を除去するが、一般に時間発展作用素の固有状態から除去するわけではなく、ゲートの幾何学的性質は曖昧である。 ここでは、真の非環状幾何ゲートのスキームを提案することによって、この曖昧さを解決する。 これらのゲートは、測地線セグメントからなる開路に沿って計算基底を進化させ、同時に時間発展作用素の固有状態によって動的位相が取得されないことを保証する。 1つの量子ビットの各計算基底状態から始まる2つの測地線セグメントの最も単純な非自明な場合のスキームを説明するが、スキームはより精巧な経路、より多くの量子ビット、さらにはクディットにまで簡単に拡張できる。

While most approaches to geometric quantum computation is based on geometric phase in cyclic evolution, noncyclic geometric gates have been proposed to increase further the flexibility. While these gates remove the dynamical phase of the computational basis, they do not in general remove it from the eigenstates of the time evolution operator, which makes the geometric nature of the gates ambiguous. Here, we resolve this ambiguity by proposing a scheme for genuinely noncyclic geometric gates. These gates are obtained by evolving the computational basis along open paths consisting geodesic segments, and simultaneously assuring that no dynamical phase is acquired by the eigenstates of the time evolution operator. While we illustrate the scheme for the simplest nontrivial case of two geodesic segments starting at each computational basis state of a single qubit, the scheme can be straightforwardly extended to more elaborate paths, more qubits, or even qudits.
翻訳日:2023-09-22 20:05:46 公開日:2023-09-21
# チャネルスペクトルによる普遍量子ゲートのベンチマーク

Benchmarking universal quantum gates via channel spectrum ( http://arxiv.org/abs/2301.02056v3 )

ライセンス: Link先を確認
Yanwu Gu, Wei-Feng Zhuang, Xudan Chai, Dong E. Liu(参考訳) ノイズはスケーラブルな量子計算の主要な障害である。 量子ベンチマークはノイズ特性に関する重要な情報を提供し、より高度な量子プロセッサを開発するための重要なステップである。 しかし、現在のベンチマーク手法は量子ゲートの特定のサブセットに限定されるか、あるいは個々のターゲットゲートのパフォーマンスを直接記述することはできない。 これらの制約を克服するために,プロセスの忠実度,確率的忠実度,およびいくつかのユニタリパラメータを含むターゲットゲートの雑音特性を,そのノイズチャネルの固有値から推定するチャネルスペクトルベンチマーク(CSB)を提案する。 csb法は状態準備や測定の誤りに影響を受けず,特にユニバーサルゲートのベンチマークが可能であり,多キュービットシステムにもスケーラブルである。 通常のランダム化スキームとは異なり、CSBはターゲットのネイティブゲートとサーキットフラグメントの両方に対して直接ノイズ情報を提供し、グローバルエンタングゲートのベンチマークとキャリブレーションを可能にし、量子シミュレーションにおいてトロタライズ・ハミルトン進化演算子のような量子アルゴリズムで頻繁に使用されるモジュールを使用することができる。

Noise remains the major obstacle to scalable quantum computation. Quantum benchmarking provides key information on noise properties and is an important step for developing more advanced quantum processors. However, current benchmarking methods are either limited to a specific subset of quantum gates or cannot directly describe the performance of the individual target gate. To overcome these limitations, we propose channel spectrum benchmarking (CSB), a method to infer the noise properties of the target gate, including process fidelity, stochastic fidelity, and some unitary parameters, from the eigenvalues of its noisy channel. Our CSB method is insensitive to state-preparation and measurement errors, and importantly, can benchmark universal gates and is scalable to many-qubit systems. Unlike standard randomized schemes, CSB can provide direct noise information for both target native gates and circuit fragments, allowing benchmarking and calibration of global entangling gates and frequently used modules in quantum algorithms like Trotterized Hamiltonian evolution operator in quantum simulation.
翻訳日:2023-09-22 20:05:18 公開日:2023-09-21
# 回折光ネットワークによる意思決定と制御

Decision-making and control with diffractive optical networks ( http://arxiv.org/abs/2212.11278v3 )

ライセンス: Link先を確認
Jumin Qiu, Shuyuan Xiao, Lujun Huang, Andrey Miroshnichenko, Dejian Zhang, Tingting Liu, Tianbao Yu(参考訳) 人工知能の最終的な目標は、人間の脳を模倣して意思決定を行い、高次元の感覚入力から直接制御することである。 回折光学ネットワークは、高速かつ低消費電力で人工知能を実装するための有望なソリューションを提供する。 報告されている回折光ネットワークのほとんどは、物体認識や画像分類など、環境相互作用を伴わない単タスクや複数タスクに焦点を当てている。 対照的に、意思決定と制御が可能なネットワークは、我々の知識にはまだ開発されていない。 本稿では,人間レベルの意思決定と制御機能を模倣した拡散型光ネットワークを実現するための深層強化学習手法を提案する。 残余アーキテクチャを利用するネットワークは、環境との相互作用を通じて最適な制御ポリシーを見つけることができ、既存の光学デバイスで容易に実装できる。 これらのネットワークの性能は、Tic-Tac-Toe、Super Mario Bros.、Car Racingの3種類のクラシックゲームで検証される。 最後に,空間光変調器に基づく回折光ネットワークを利用したtic-tac-toeの演奏実験を行う。 我々の研究は、単純な認識や分類タスクのために設計された状態の目標駆動制御から、人工知能の高レベルな知覚能力への根本的なシフトを約束する、回折光学ネットワークの進歩における確固たる一歩である。 自動運転、インテリジェントロボット、そしてインテリジェントな製造にエキサイティングな応用が見つかるかもしれない。

The ultimate goal of artificial intelligence is to mimic the human brain to perform decision-making and control directly from high-dimensional sensory input. Diffractive optical networks provide a promising solution for implementing artificial intelligence with high-speed and low-power consumption. Most of the reported diffractive optical networks focus on single or multiple tasks that do not involve environmental interaction, such as object recognition and image classification. In contrast, the networks capable of performing decision-making and control have not yet been developed to our knowledge. Here, we propose using deep reinforcement learning to implement diffractive optical networks that imitate human-level decision-making and control capability. Such networks taking advantage of a residual architecture, allow for finding optimal control policies through interaction with the environment and can be readily implemented with existing optical devices. The superior performance of these networks is verified by engaging three types of classic games, Tic-Tac-Toe, Super Mario Bros., and Car Racing. Finally, we present an experimental demonstration of playing Tic-Tac-Toe by leveraging diffractive optical networks based on a spatial light modulator. Our work represents a solid step forward in advancing diffractive optical networks, which promises a fundamental shift from the target-driven control of a pre-designed state for simple recognition or classification tasks to the high-level sensory capability of artificial intelligence. It may find exciting applications in autonomous driving, intelligent robots, and intelligent manufacturing.
翻訳日:2023-09-22 20:04:58 公開日:2023-09-21
# ガウス状態の光子数モーメントと累積

Photon-number moments and cumulants of Gaussian states ( http://arxiv.org/abs/2212.06067v2 )

ライセンス: Link先を確認
Yanic Cardin, Nicol\'as Quesada(参考訳) 光子数に基づく場合,ガウス状態のモーメントと累積に対する閉形式表現を開発する。 ガウス状態の光子数モーメントをループハフニアンで表現し、グラフの隣接を表す$(0,1)$-行列に適用すると、その完全マッチングの数を数える。 同様に、(0,1)$-行列に適用されたとき、そのグラフのハミルトニアンサイクルの数をカウントする新しく導入された行列関数であるモントリオールアーの言葉で光子数累積を表現する。 これらのグラフ理論接続に基づいて、光子数モーメントと累積の計算が$\#P-$hardであることを示す。 さらに、ハフニアンのよく知られた結果と一致するモントリオールの時間(すなわち累積)を計算する指数時間アルゴリズムを提供する。 次に、一様損失の干渉計が、ゼロ変位を持つ同一の単一モードガウス状態を持つ全ての入力で供給されると、奇数次累積は、すべてゼロであることが示される。 最後に,K$同一状態が$$\ell$モード干渉計に供給されるガウスボソンサンプリング装置において,累積の分布を4次まで異なる入力状態に対して研究するために導出した式を用いる。 本研究では, 入力状態のタイプ, 圧縮状態, 損失値, スクラッシュ状態, 熱状態, および非真空入力数の関数として, 累積物の依存性を解析した。 熱状態は他の古典的状態(例えばスカッシュ状態)よりも、損失状態や無損失状態の光子数累積状態の模倣においてずっと悪い結果をもたらすことが判明した。

We develop closed-form expressions for the moments and cumulants of Gaussian states when measured in the photon-number basis. We express the photon-number moments of a Gaussian state in terms of the loop Hafnian, a function that when applied to a $(0,1)$-matrix representing the adjacency of a graph, counts the number of its perfect matchings. Similarly, we express the photon-number cumulants in terms of the Montrealer, a newly introduced matrix function that when applied to a $(0,1)$-matrix counts the number of Hamiltonian cycles of that graph. Based on these graph-theoretic connections, we show that the calculation of photon-number moments and cumulants are $\#P-$hard. Moreover, we provide an exponential time algorithm to calculate Montrealers (and thus cumulants), matching well-known results for Hafnians. We then demonstrate that when a uniformly lossy interferometer is fed in every input with identical single-mode Gaussian states with zero displacement, all the odd-order cumulants but the first one are zero. Finally, we employ the expressions we derive to study the distribution of cumulants up to the fourth order for different input states in a Gaussian boson sampling setup where $K$ identical states are fed into an $\ell$-mode interferometer. We analyze the dependence of the cumulants as a function of the type of input state, squeezed, lossy squeezed, squashed, or thermal, and as a function of the number of non-vacuum inputs. We find that thermal states perform much worse than other classical states, such as squashed states, at mimicking the photon-number cumulants of lossy or lossless squeezed states.
翻訳日:2023-09-22 20:04:02 公開日:2023-09-21
# 回転物体検出のための適応回転畳み込み

Adaptive Rotated Convolution for Rotated Object Detection ( http://arxiv.org/abs/2303.07820v2 )

ライセンス: Link先を確認
Yifan Pu, Yiru Wang, Zhuofan Xia, Yizeng Han, Yulin Wang, Weihao Gan, Zidong Wang, Shiji Song and Gao Huang(参考訳) 回転物体検出は、任意の向きで画像内の物体を識別・発見することを目的としている。 このシナリオでは、オブジェクトの向きの方向は異なる画像間で大きく異なり、オブジェクトの複数の方向は画像内に存在している。 この本質的な特徴は、標準バックボーンネットワークがこれらの任意の向きのオブジェクトの高品質な特徴を抽出することを困難にしている。 本稿では,上述の課題に対処するために,適応回転畳み込み(arc)モジュールを提案する。 ARCモジュールでは、コンボリューションカーネルが適応的に回転して、異なる画像の向きの異なる物体の特徴を抽出し、画像内の物体の大きな向き変化に対応するための効率的な条件計算機構を導入する。 2つの設計は回転物体検出問題においてシームレスに動作する。 さらに、ARCは様々な視覚バックボーンのプラグアンドプレイモジュールとして便利に機能し、オブジェクト指向オブジェクトを正確に検出する表現能力を高めることができる。 一般に使用されているベンチマーク(DOTA,HRSC2016)の実験では,提案するARCモジュールをバックボーンネットワークに組み込むことで,複数の人気指向オブジェクト検出器の性能が大幅に向上した(回転RetinaNetでは\eg +3.03\% mAP,CFAでは+4.16\%)。 高度に競合する手法であるOriented R-CNNと組み合わせて、提案手法は81.77 % mAPでDOTAデータセットの最先端性能を実現する。 コードは \url{https://github.com/leaplabthu/arc} で入手できる。

Rotated object detection aims to identify and locate objects in images with arbitrary orientation. In this scenario, the oriented directions of objects vary considerably across different images, while multiple orientations of objects exist within an image. This intrinsic characteristic makes it challenging for standard backbone networks to extract high-quality features of these arbitrarily orientated objects. In this paper, we present Adaptive Rotated Convolution (ARC) module to handle the aforementioned challenges. In our ARC module, the convolution kernels rotate adaptively to extract object features with varying orientations in different images, and an efficient conditional computation mechanism is introduced to accommodate the large orientation variations of objects within an image. The two designs work seamlessly in rotated object detection problem. Moreover, ARC can conveniently serve as a plug-and-play module in various vision backbones to boost their representation ability to detect oriented objects accurately. Experiments on commonly used benchmarks (DOTA and HRSC2016) demonstrate that equipped with our proposed ARC module in the backbone network, the performance of multiple popular oriented object detectors is significantly improved (\eg +3.03\% mAP on Rotated RetinaNet and +4.16\% on CFA). Combined with the highly competitive method Oriented R-CNN, the proposed approach achieves state-of-the-art performance on the DOTA dataset with 81.77\% mAP. Code is available at \url{https://github.com/LeapLabTHU/ARC}.
翻訳日:2023-09-22 19:57:47 公開日:2023-09-21
# Neural-BO:ディープニューラルネットワークを用いたブラックボックス最適化アルゴリズム

Neural-BO: A Black-box Optimization Algorithm using Deep Neural Networks ( http://arxiv.org/abs/2303.01682v2 )

ライセンス: Link先を確認
Dat Phan-Trong, Hung Tran-The, Sunil Gupta(参考訳) ベイズ最適化(BO)は,関数評価が高価である場合のブラックボックス関数のグローバル最適化に有効な手法である。 これまでのほとんどの研究では、ブラックボックス関数をモデル化するためにガウス的プロセスを使用していたが、ガウス的プロセスにおけるカーネルの使用は、2つの問題をもたらす。 そこで,ニューラルネットワークを用いてブラックボックス関数をモデル化した新しいブラックボックス最適化アルゴリズムを提案する。 本アルゴリズムは予測の不確かさを推定するためにベイズニューラルネットワークを必要としないため,計算上有利である。 我々はNTK理論の進歩を応用して,アルゴリズムの理論的挙動を後悔境界の観点から分析する。 合成および実世界の最適化タスクを用いて実験を行い、既存の手法と比較してアルゴリズムがよりサンプリング効率が高いことを示す。

Bayesian Optimization (BO) is an effective approach for global optimization of black-box functions when function evaluations are expensive. Most prior works use Gaussian processes to model the black-box function, however, the use of kernels in Gaussian processes leads to two problems: first, the kernel-based methods scale poorly with the number of data points and second, kernel methods are usually not effective on complex structured high dimensional data due to curse of dimensionality. Therefore, we propose a novel black-box optimization algorithm where the black-box function is modeled using a neural network. Our algorithm does not need a Bayesian neural network to estimate predictive uncertainty and is therefore computationally favorable. We analyze the theoretical behavior of our algorithm in terms of regret bound using advances in NTK theory showing its efficient convergence. We perform experiments with both synthetic and real-world optimization tasks and show that our algorithm is more sample efficient compared to existing methods.
翻訳日:2023-09-22 19:57:21 公開日:2023-09-21
# MateRobot:視覚障害者のためのウェアラブルロボットの素材認識

MateRobot: Material Recognition in Wearable Robotics for People with Visual Impairments ( http://arxiv.org/abs/2302.14595v2 )

ライセンス: Link先を確認
Junwei Zheng, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen(参考訳) 視覚障害者(PVI)は通常、触覚を通して物体を認識する。 触れる前に物体や素材を知ることは、ターゲットユーザーには望ましいが、人間中心のロボティクスの分野では未熟である。 このギャップを埋めるために、ウェアラブルビジョンベースのロボットシステムmaterobotがpviのために設立され、素材やオブジェクトのカテゴリを事前に認識することができる。 モバイルプラットフォームの計算上の制約に対処するため,我々は,オブジェクトと材料の両方を同時に認識し,ピクセル単位で意味セグメンテーションを行う軽量かつ高精度なモデルセットを提案する。 提案手法は,COCOStuff-10KおよびDMSデータセット上でmIoUの40.2%と51.1%をそれぞれ達成し,前法を+5.7%,+7.0%で上回った。 さらに、参加者とのフィールドテストでは、NASA-Task Load Indexで28点に達し、認知力の低下と使いやすさを示している。 我々のMateRobotは、視覚的手がかりによる材料特性の認識の実現可能性を示し、PVIのためのウェアラブルロボットの機能を改善するための有望なステップを提供する。 ソースコードはhttps://junweizheng93.github.io/publications/MATERobot/MATERobot.htmlで公開されている。

People with Visual Impairments (PVI) typically recognize objects through haptic perception. Knowing objects and materials before touching is desired by the target users but under-explored in the field of human-centered robotics. To fill this gap, in this work, a wearable vision-based robotic system, MateRobot, is established for PVI to recognize materials and object categories beforehand. To address the computational constraints of mobile platforms, we propose a lightweight yet accurate model MateViT to perform pixel-wise semantic segmentation, simultaneously recognizing both objects and materials. Our methods achieve respective 40.2% and 51.1% of mIoU on COCOStuff-10K and DMS datasets, surpassing the previous method with +5.7% and +7.0% gains. Moreover, on the field test with participants, our wearable system reaches a score of 28 in the NASA-Task Load Index, indicating low cognitive demands and ease of use. Our MateRobot demonstrates the feasibility of recognizing material property through visual cues and offers a promising step towards improving the functionality of wearable robots for PVI. The source code has been made publicly available at https://junweizheng93.github.io/publications/MATERobot/MATERobot.html.
翻訳日:2023-09-22 19:57:04 公開日:2023-09-21
# 確率的演算子変動:ノイズとスクランブルを診断するための観測可能

Stochastic Operator Variance: an observable to diagnose noise and scrambling ( http://arxiv.org/abs/2302.12845v2 )

ライセンス: Link先を確認
Pablo Martinez-Azcona, Aritra Kundu, Adolfo del Campo and Aurelia Chenu(参考訳) 騒音は自然界に広まっており、その効果を特徴づけることが不可欠である。 変動ハミルトニアンを考えると、観測可能な確率作用素分散 (sov) を導入し、作用素の空間における異なる確率的軌道の広がりを測定する。 SOVは不確実な関係に従い、これらの軌道の拡散を最小化する初期状態を見つけることができる。 我々は、SOVのダイナミクスが、量子Lyapunov指数$\lambda$を定義するOTOC(out-of-time-order correlator)と密接に関連していることを示す。 本研究は, 統計的リプキン・メシュコフ・グリック (SLMG) のエネルギー劣化過程における解析的, 数値的考察である。

Noise is ubiquitous in nature, so it is essential to characterize its effects. Considering a fluctuating Hamiltonian, we introduce an observable, the stochastic operator variance (SOV), which measures the spread of different stochastic trajectories in the space of operators. The SOV obeys an uncertainty relation and allows finding the initial state that minimizes the spread of these trajectories. We show that the dynamics of the SOV is intimately linked to that of out-of-time-order correlators (OTOCs), which define the quantum Lyapunov exponent $\lambda$. Our findings are illustrated analytically and numerically in a stochastic Lipkin-Meshkov-Glick (sLMG) Hamiltonian undergoing energy dephasing.
翻訳日:2023-09-22 19:56:41 公開日:2023-09-21
# 法執行機関による国境横断データアクセスの最近の動向

Recent Trends in Cross-Border Data Access by Law Enforcement Agencies ( http://arxiv.org/abs/2302.09942v2 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) オンラインデータへのアクセスは、法執行機関が電子証拠収集と犯罪調査において、長い間重要であった。 これらの活動は長い間、国境を越えた調査や、機関と司法当局の国際協力にも関わってきた。 しかし、クラウドコンピューティングのような技術進歩は、調査と協力の手配を複雑にしている。 そのため、クラウドコンピューティングの文脈における国境を越えた犯罪調査を促進するために、米国と欧州連合の両方でいくつかの新しい法律が可決され提案されている。 これらの新しい法律と提案は、治外法権、データ保護、プライバシー、監視に関する多くの新しい法的課題と論争をもたらした。 これらの課題を念頭に置いて、欧州に焦点をあて、法執行機関による国境を越えたデータアクセスに関する最近の傾向と政策イニシアティブをレビューする。

Access to online data has long been important for law enforcement agencies in their collection of electronic evidence and investigation of crimes. These activities have also long involved cross-border investigations and international cooperation between agencies and jurisdictions. However, technological advances such as cloud computing have complicated the investigations and cooperation arrangements. Therefore, several new laws have been passed and proposed both in the United States and the European Union for facilitating cross-border crime investigations in the context of cloud computing. These new laws and proposals have also brought many new legal challenges and controversies regarding extraterritoriality, data protection, privacy, and surveillance. With these challenges in mind and with a focus on Europe, this paper reviews the recent trends and policy initiatives for cross-border data access by law enforcement agencies.
翻訳日:2023-09-22 19:56:28 公開日:2023-09-21
# PSO-ConvNet変換器を用いた動画像認識協調学習

Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer ( http://arxiv.org/abs/2302.09187v3 )

ライセンス: Link先を確認
Nguyen Huu Phong, Bernardete Ribeiro(参考訳) human action recognition(har)と呼ばれるビデオシーケンスにおけるヒューマンアクションの認識は、パターン認識において難しい課題である。 畳み込みニューラルネットワーク(convnets)は画像認識に著しく成功したが、時間的特徴が正確な分類に不可欠であるため、常にharに当てはまるとは限らない。 本稿では,映像認識における最近の研究に基づいて,映像中の動作を学習するための動的PSO-ConvNetモデルを提案する。 提案手法では,各ニューラルネットワークの重みベクトルが位相空間における粒子の位置を表し,粒子が現在の重みベクトルと損失関数の勾配推定を共有する枠組みを利用する。 ビデオへのアプローチを拡張するために、ConvNetsとTransformerやRecurrent Neural Networksといった最先端の時間的手法を統合する。 UCF-101データセットに対する実験結果から,最大9%の精度向上が得られ,提案手法の有効性が確認された。 さらに, Kinetics-400 や HMDB-51 など多種多様なデータセットの実験を行い,非協調学習(Individual Learning)と比較して協調学習を好んだ。 全体として、我々の動的PSO-ConvNetモデルは、ビデオ中の人間の行動の時空間的ダイナミクスをよりよく捉え、HARを改善するための有望な方向を提供する。 コードはhttps://github.com/leonlha/Video-Action-Recognition-Collaborative-Learning-with-Dynamics-via-PSO-Con vNet-Transformerで公開されている。

Recognizing human actions in video sequences, known as Human Action Recognition (HAR), is a challenging task in pattern recognition. While Convolutional Neural Networks (ConvNets) have shown remarkable success in image recognition, they are not always directly applicable to HAR, as temporal features are critical for accurate classification. In this paper, we propose a novel dynamic PSO-ConvNet model for learning actions in videos, building on our recent work in image recognition. Our approach leverages a framework where the weight vector of each neural network represents the position of a particle in phase space, and particles share their current weight vectors and gradient estimates of the Loss function. To extend our approach to video, we integrate ConvNets with state-of-the-art temporal methods such as Transformer and Recurrent Neural Networks. Our experimental results on the UCF-101 dataset demonstrate substantial improvements of up to 9% in accuracy, which confirms the effectiveness of our proposed method. In addition, we conducted experiments on larger and more variety of datasets including Kinetics-400 and HMDB-51 and obtained preference for Collaborative Learning in comparison with Non-Collaborative Learning (Individual Learning). Overall, our dynamic PSO-ConvNet model provides a promising direction for improving HAR by better capturing the spatio-temporal dynamics of human actions in videos. The code is available at https://github.com/leonlha/Video-Action-Recognition-Collaborative-Learning-with-Dynamics-via-PSO-Con vNet-Transformer.
翻訳日:2023-09-22 19:56:17 公開日:2023-09-21
# ERNIE-Music:拡散モデルを用いたテキスト・波形音楽生成

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models ( http://arxiv.org/abs/2302.04456v2 )

ライセンス: Link先を確認
Pengfei Zhu, Chao Pang, Yekun Chai, Lei Li, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu(参考訳) 近年、拡散モデルへの関心が急速に高まり、画像と音声の生成が著しい進歩を遂げている。 それでも、制限のないテキストプロンプトから音楽波形を直接合成することは、比較的未探索の領域である。 そこで,本稿では,拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルとして,先駆的な貢献を述べる。 本手法は, 拡散モデルにおける波形生成過程を導く条件因子として, 自由形式テキストプロンプトの革新的導入にかかっている。 限られたテキストと音楽の並列データの課題に対処し、弱い監督技術によって容易になるwebリソースを利用してデータセットの作成を行う。 さらに、厳密な経験的調査を行い、テキストコンディショニング、すなわち音楽タグと制約なしテキスト記述のための2つの異なるプロンプトフォーマットの有効性を対比した。 この比較分析の結果は,テキスト・音楽関連性の向上の観点から,提案モデルの優れた性能を裏付けるものである。 最後に,本研究は,テキストから音楽への生成におけるモデルの優れた能力の実証展示に結実する。 さらに、波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりもはるかに優れていることを示す。

In recent years, the burgeoning interest in diffusion models has led to significant advances in image and speech generation. Nevertheless, the direct synthesis of music waveforms from unrestricted textual prompts remains a relatively underexplored domain. In response to this lacuna, this paper introduces a pioneering contribution in the form of a text-to-waveform music generation model, underpinned by the utilization of diffusion models. Our methodology hinges on the innovative incorporation of free-form textual prompts as conditional factors to guide the waveform generation process within the diffusion model framework. Addressing the challenge of limited text-music parallel data, we undertake the creation of a dataset by harnessing web resources, a task facilitated by weak supervision techniques. Furthermore, a rigorous empirical inquiry is undertaken to contrast the efficacy of two distinct prompt formats for text conditioning, namely, music tags and unconstrained textual descriptions. The outcomes of this comparative analysis affirm the superior performance of our proposed model in terms of enhancing text-music relevance. Finally, our work culminates in a demonstrative exhibition of the excellent capabilities of our model in text-to-music generation. We further demonstrate that our generated music in the waveform domain outperforms previous works by a large margin in terms of diversity, quality, and text-music relevance.
翻訳日:2023-09-22 19:55:26 公開日:2023-09-21
# 量子機械学習における信頼性不確かさの量子コンフォーマル予測

Quantum Conformal Prediction for Reliable Uncertainty Quantification in Quantum Machine Learning ( http://arxiv.org/abs/2304.03398v2 )

ライセンス: Link先を確認
Sangwoo Park, Osvaldo Simeone(参考訳) 量子機械学習は、現在のノイズの多い中間スケール量子(NISQ)コンピュータにおける量子アルゴリズムの最適化のための有望なプログラミングパラダイムである。 量子機械学習における基本的な課題は、設計者が限られたトレーニングデータのみにアクセスしながら、テスト条件下でのパフォーマンスを目標とする一般化である。 既存の一般化分析は、重要な一般的な傾向とスケーリング法則を識別する一方で、量子モデルによる決定に信頼性があり情報的な「エラーバー」を割り当てるには使用できない。 本稿では,トレーニングデータ量,ショット数,アンサッツ数,トレーニングアルゴリズム,量子ハードウェアノイズの有無に関わらず,量子モデルの不確実性を確実に定量化するための一般的な手法を提案する。 確率的共形予測に基づくこのアプローチは、事前訓練された量子モデルから、任意の(おそらくは小さい)ショット数を、所望のカバレッジレベルを持つ真のターゲットを含む、例えば間隔のような、セットされた予測に変換する。 実験結果は、量子共形予測と呼ばれる提案フレームワークの理論的校正保証を確認した。

Quantum machine learning is a promising programming paradigm for the optimization of quantum algorithms in the current era of noisy intermediate scale quantum (NISQ) computers. A fundamental challenge in quantum machine learning is generalization, as the designer targets performance under testing conditions, while having access only to limited training data. Existing generalization analyses, while identifying important general trends and scaling laws, cannot be used to assign reliable and informative "error bars" to the decisions made by quantum models. In this article, we propose a general methodology that can reliably quantify the uncertainty of quantum models, irrespective of the amount of training data, of the number of shots, of the ansatz, of the training algorithm, and of the presence of quantum hardware noise. The approach, which builds on probabilistic conformal prediction, turns an arbitrary, possibly small, number of shots from a pre-trained quantum model into a set prediction, e.g., an interval, that provably contains the true target with any desired coverage level. Experimental results confirm the theoretical calibration guarantees of the proposed framework, referred to as quantum conformal prediction.
翻訳日:2023-09-22 19:47:01 公開日:2023-09-21
# 病理画像診断のためのクロススケールマルチインスタンス学習

Cross-scale Multi-instance Learning for Pathological Image Diagnosis ( http://arxiv.org/abs/2304.00216v2 )

ライセンス: Link先を確認
Ruining Deng, Can Cui, Lucas W. Remedios, Shunxing Bao, R. Michael Womick, Sophie Chiron, Jia Li, Joseph T. Roland, Ken S. Lau, Qi Liu, Keith T. Wilson, Yaohong Wang, Lori A. Coburn, Bennett A. Landman, Yuankai Huo(参考訳) 複数スケールにわたる情報に関する高解像度スライド画像(WSI)の解析は、デジタル病理学において重要な課題である。 MIL(Multi-Instance Learning)は、オブジェクトの袋(小さな画像パッチの集合)を分類することで高解像度画像を扱うための一般的なソリューションである。 しかし、そのような処理は通常、WSIsの1つのスケール(例えば20倍)で行われ、人間の病理学者による診断の鍵となるスケール間情報を無視している。 本研究では,病的画像診断のための1つのMILネットワークにスケール間関係を明示的に集約する,新しいクロススケールMILアルゴリズムを提案する。 本論文の貢献は,(1)マルチスケール情報とスケール間関係を統合した新しいクロススケールMIL(CS-MIL)アルゴリズムの提案,(2)スケール固有の形態的特徴を持つ玩具データセットの作成と公開,(3)社内と公共の両方のデータセット上でのスーパーパフォーマンスを,我々の単純なクロススケールMIL戦略によって実証する。 公式実装はhttps://github.com/hrlblab/CS-MILで公開されている。

Analyzing high resolution whole slide images (WSIs) with regard to information across multiple scales poses a significant challenge in digital pathology. Multi-instance learning (MIL) is a common solution for working with high resolution images by classifying bags of objects (i.e. sets of smaller image patches). However, such processing is typically performed at a single scale (e.g., 20x magnification) of WSIs, disregarding the vital inter-scale information that is key to diagnoses by human pathologists. In this study, we propose a novel cross-scale MIL algorithm to explicitly aggregate inter-scale relationships into a single MIL network for pathological image diagnosis. The contribution of this paper is three-fold: (1) A novel cross-scale MIL (CS-MIL) algorithm that integrates the multi-scale information and the inter-scale relationships is proposed; (2) A toy dataset with scale-specific morphological features is created and released to examine and visualize differential cross-scale attention; (3) Superior performance on both in-house and public datasets is demonstrated by our simple cross-scale MIL strategy. The official implementation is publicly available at https://github.com/hrlblab/CS-MIL.
翻訳日:2023-09-22 19:46:42 公開日:2023-09-21
# $\Delta$-Patching: ベースパフォーマンス損失のない事前トレーニングされた畳み込みネットワークの迅速な適応のためのフレームワーク

$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss ( http://arxiv.org/abs/2303.14772v2 )

ライセンス: Link先を確認
Chaitanya Devaguptapu, Samarth Sinha, K J Joseph, Vineeth N Balasubramanian, Animesh Garg(参考訳) 大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。 このプロセスは、事前訓練されたモデルが微調整された各タスクに対して、時間とともにモデルのコピーを保存する必要がある。 最近のモデルパッチ作業に基づいて、モデルのコピーを保存することなく、効率的にニューラルネットワークモデルの微調整を行うための$\delta$-patchingを提案する。 この目的を達成するために,$\Delta$-Networksと呼ばれるシンプルで軽量な手法を提案する。 設定とアーキテクチャのバリエーションに関する包括的な実験によると、$\Delta$-Networksは、トレーニングされるパラメータのごく一部だけを必要としながら、以前のモデルパッチ処理よりも優れている。 また、この手法は、転送学習やゼロショットドメイン適応といった他の問題設定や、検出やセグメンテーションといった他のタスクにも適用可能であることを示す。

Models pre-trained on large-scale datasets are often fine-tuned to support newer tasks and datasets that arrive over time. This process necessitates storing copies of the model over time for each task that the pre-trained model is fine-tuned to. Building on top of recent model patching work, we propose $\Delta$-Patching for fine-tuning neural network models in an efficient manner, without the need to store model copies. We propose a simple and lightweight method called $\Delta$-Networks to achieve this objective. Our comprehensive experiments across setting and architecture variants show that $\Delta$-Networks outperform earlier model patching work while only requiring a fraction of parameters to be trained. We also show that this approach can be used for other problem settings such as transfer learning and zero-shot domain adaptation, as well as other tasks such as detection and segmentation.
翻訳日:2023-09-22 19:46:17 公開日:2023-09-21
# クロスアテンショントランスを用いた医用画像セグメンテーション

Few Shot Medical Image Segmentation with Cross Attention Transformer ( http://arxiv.org/abs/2303.13867v3 )

ライセンス: Link先を確認
Yi Lin, Yufan Chen, Kwang-Ting Cheng, Hao Chen(参考訳) 近年,医用画像分割が大きな進歩を遂げている。 ディープラーニングベースのメソッドは、手動アノテーションで大量のデータを必要とするデータ格納技術として認識される。 しかし、手動アノテーションは、ドメイン固有の専門知識を必要とする医療画像解析の分野では高価である。 この課題に対処するために、少数のショットラーニングでは、少数の例から新しいクラスを学ぶことができる。 本研究では,クロスマスク型アテンショントランスフォーマーをベースとした,数発の医用画像セグメンテーションのための新しいフレームワークCAT-Netを提案する。 提案するネットワークは,支援画像と問合せ画像との相関関係をマイニングし,有用なフォアグラウンド情報のみに限定し,サポートプロトタイプと問合せ機能の両方の表現能力を高める。 さらに,クエリイメージのセグメンテーションを反復的に洗練する反復的精錬フレームワークを設計し,サポート機能を促進する。 提案手法を,Abd-CT,Abd-MRI,Card-MRIの3つの公開データセットで検証した。 実験の結果,最先端手法と比較して優れた性能を示し,各成分の有効性を示した。 コード:https://github.com/hust-linyi/CAT-Net

Medical image segmentation has made significant progress in recent years. Deep learning-based methods are recognized as data-hungry techniques, requiring large amounts of data with manual annotations. However, manual annotation is expensive in the field of medical image analysis, which requires domain-specific expertise. To address this challenge, few-shot learning has the potential to learn new classes from only a few examples. In this work, we propose a novel framework for few-shot medical image segmentation, termed CAT-Net, based on cross masked attention Transformer. Our proposed network mines the correlations between the support image and query image, limiting them to focus only on useful foreground information and boosting the representation capacity of both the support prototype and query features. We further design an iterative refinement framework that refines the query image segmentation iteratively and promotes the support feature in turn. We validated the proposed method on three public datasets: Abd-CT, Abd-MRI, and Card-MRI. Experimental results demonstrate the superior performance of our method compared to state-of-the-art methods and the effectiveness of each component. Code: https://github.com/hust-linyi/CAT-Net.
翻訳日:2023-09-22 19:45:50 公開日:2023-09-21
# First Session Adaptation: クラス増分学習のための強力なリプレイフリーベースライン

First Session Adaptation: A Strong Replay-Free Baseline for Class-Incremental Learning ( http://arxiv.org/abs/2303.13199v2 )

ライセンス: Link先を確認
Aristeidis Panos, Yuriko Kobe, Daniel Olmeda Reino, Rahaf Aljundi, Richard E. Turner(参考訳) 授業増分学習(CIL)では、画像分類システムは各学習セッションで新しいクラスに露出し、段階的に更新する必要がある。 この問題にアプローチする手法は、cilの各セッションで分類ヘッドと特徴抽出体の両方を更新した。 本研究では,既存のcilアプローチの有効性に光を当てる第1セッション適応(fsa)というベースライン手法を開発し,頭部と身体の適応による相対的パフォーマンスの寄与度を評価する。 FSAは、トレーニング済みのニューラルネットワーク本体を最初の学習セッションのみに適応させ、その後修正し、線形判別分析(LDA)に基づくヘッドを適応された本体の上に配置し、CILによる正確な更新を可能にする。 fsaはリプレイフリーであり、前回の継続的学習の例を記憶していない。 実験的にfsaを動機付けるために,まず,22種類の画像分類データセットの多種多様な選択を検討した。 LDAヘッドは良好に動作し、CILのアウト・オブ・ボックスをサポートしています。 また,FiLM(Featurewise Layer Modulation)アダプタは,複数ショット設定において非常に有効であり,ハイショット設定ではフルボディ適応が可能であることも確認した。 第2に,従来文献で使用されていた高精細度CILや小精細度CILなどの各種CIL設定を実証的に検討した。 検討した16項目のうち15項目において,FSAは最先端よりも有意に改善した。 FiLMアダプタを備えたFSAは、特に数ショット設定でパフォーマンスが良い。 これらの結果は, 連続体適応への現在のアプローチが期待通りに機能していないことを示している。 最後に,身体適応の利点を予測可能な非ラベル入力の集合に適用可能な尺度を提案する。

In Class-Incremental Learning (CIL) an image classification system is exposed to new classes in each learning session and must be updated incrementally. Methods approaching this problem have updated both the classification head and the feature extractor body at each session of CIL. In this work, we develop a baseline method, First Session Adaptation (FSA), that sheds light on the efficacy of existing CIL approaches and allows us to assess the relative performance contributions from head and body adaption. FSA adapts a pre-trained neural network body only on the first learning session and fixes it thereafter; a head based on linear discriminant analysis (LDA), is then placed on top of the adapted body, allowing exact updates through CIL. FSA is replay-free i.e.~it does not memorize examples from previous sessions of continual learning. To empirically motivate FSA, we first consider a diverse selection of 22 image-classification datasets, evaluating different heads and body adaptation techniques in high/low-shot offline settings. We find that the LDA head performs well and supports CIL out-of-the-box. We also find that Featurewise Layer Modulation (FiLM) adapters are highly effective in the few-shot setting, and full-body adaption in the high-shot setting. Second, we empirically investigate various CIL settings including high-shot CIL and few-shot CIL, including settings that have previously been used in the literature. We show that FSA significantly improves over the state-of-the-art in 15 of the 16 settings considered. FSA with FiLM adapters is especially performant in the few-shot setting. These results indicate that current approaches to continuous body adaptation are not working as expected. Finally, we propose a measure that can be applied to a set of unlabelled inputs which is predictive of the benefits of body adaptation.
翻訳日:2023-09-22 19:44:45 公開日:2023-09-21
# ドメイン知識による疑似擬似スーパービジョン(DIPS)による教師なし画像間翻訳モデルの構築

Domain-knowledge Inspired Pseudo Supervision (DIPS) for Unsupervised Image-to-Image Translation Models to Support Cross-Domain Classification ( http://arxiv.org/abs/2303.10310v3 )

ライセンス: Link先を確認
Firas Al-Hindawi, Md Mahfuzur Rahman Siddiquee, Teresa Wu, Han Hu, Ying Sun(参考訳) イメージを分類する機能は、大きなラベル付きデータセットへのアクセスと、モデルがトレーニング可能な同じドメインからのデータテストに依存する。 分類モデルを再トレーニングするための大きなデータセットの収集、特にラベル付けを行う場合、異なるドメインからの新しいデータを扱う場合には、労働集約的な人的努力が必要になる。 教師なし画像間変換モデルを用いて、ラベルなし領域からラベル付き領域への入力画像の変換により、このデータ領域シフト問題に対処するクロスドメイン分類フレームワークを開発した。 これらの教師なしモデルの問題は、教師なしの性質にある。 アノテーションの欠如のため、従来の教師付きメトリクスを使用してこれらの翻訳モデルを評価し、最良のチェックポイントモデルを選択することはできない。 本稿では,ドメインインフォームドガウス混合モデルを用いて,従来の教師付きメトリクスを用いた擬似アノテーションを生成するdips(domain-knowledge inspired pseudo supervisor)と呼ばれる新しい手法を提案する。 この方法は、人目の観点から生成された画像の品質の観点からモデルを評価するために設計されたFIDのような一般的なメトリクスとは対照的に、クロスドメイン分類アプリケーションをサポートするように設計されている。 DIPSは、最適保存チェックポイントモデルを選択する際に、FIDを含む様々なGAN評価指標よりも優れた性能を示す。 また、真に監督されたメトリクスに対して評価される。 さらに、DIPSは、その堅牢性と解釈可能性を示し、真に監督されたメトリクスと強い相関を示し、既存の最先端の選択肢よりもその優位性を強調している。 結果を複製するためのコードとデータは、公式のgithubリポジトリにある。 https://github.com/hindawi91/dips。

The ability to classify images is dependent on having access to large labeled datasets and testing on data from the same domain that the model can train on. Classification becomes more challenging when dealing with new data from a different domain, where gathering and especially labeling a larger image dataset for retraining a classification model requires a labor-intensive human effort. Cross-domain classification frameworks were developed to handle this data domain shift problem by utilizing unsupervised image-to-image translation models to translate an input image from the unlabeled domain to the labeled domain. The problem with these unsupervised models lies in their unsupervised nature. For lack of annotations, it is not possible to use the traditional supervised metrics to evaluate these translation models to pick the best-saved checkpoint model. This paper introduces a new method called Domain-knowledge Inspired Pseudo Supervision (DIPS) which utilizes domain-informed Gaussian Mixture Models to generate pseudo annotations to enable the use of traditional supervised metrics. This method was designed specifically to support cross-domain classification applications contrary to other typically used metrics such as the FID which were designed to evaluate the model in terms of the quality of the generated image from a human-eye perspective. DIPS proves its effectiveness by outperforming various GAN evaluation metrics, including FID, when selecting the optimal saved checkpoint model. It is also evaluated against truly supervised metrics. Furthermore, DIPS showcases its robustness and interpretability by demonstrating a strong correlation with truly supervised metrics, highlighting its superiority over existing state-of-the-art alternatives. The code and data to replicate the results can be found on the official Github repository: https://github.com/Hindawi91/DIPS
翻訳日:2023-09-22 19:44:14 公開日:2023-09-21
# 線形ネットワークにおける隠れ非n-局所性

Hidden Non n-locality In Linear Networks ( http://arxiv.org/abs/2303.08699v2 )

ライセンス: Link先を確認
Kaushiki Mukherjee, Soma Mandal, Tapaswini Patro and Nirman Ganguly(参考訳) 独立情報源を持つ線形ネットワークにおける非局所性について検討する。 ベル非局所性(bell nonlocality)の通常のパラダイムでは、適切な局所フィルタリング操作が適用された後にのみ非局所性を示す状態があり、古典的通信(slocc)を補助する特別な確率的局所演算が存在する。 本研究では,非n-局所性を隠蔽する概念を導入する。 この概念はバイローカルネットワークを使って詳細に説明されている。 隠れた非二局所性と非三局所性の例を示し、そこでは、ある情報源が混合した2ビット分離状態のときでも、非二局所性が観察されることに非常に興味深いことに気付く。 さらに、隠れた非双局所性のキャラクタリゼーションはブロッホ-ファノ分解(bloch-fano decomposition)の観点でも提供され、隠れた非双局所性を示すためには、2つの状態(ソースによって使用される)のうちの1つは非null局所ブロッホベクトルを持つ必要があると推測する。 実用的なシナリオではノイズは避けられないため、ネットワーク内のノイズの存在下で非古典性を検出する可能性を高めるためのあらゆる可能な方法の研究が不可欠である。 局所フィルタリングは雑音に対するロバスト性を高め,ビットフリップと振幅減衰チャネルを用いて実演する。

We study hidden nonlocality in a linear network with independent sources. In the usual paradigm of Bell nonlocality, there are certain states which exhibit nonlocality only after the application of suitable local filtering operations, which, in turn, are some special stochastic local operations assisted with classical communication (SLOCC). In the present work, we introduce the notion of hidden non n-locality. The notion is detailed using a bilocal network. We provide instances of hidden nonbilocality and nontrilocality, where we notice quite intriguingly that nonbilocality is observed even when one of the sources distributes a mixed two-qubit separable state. Furthermore, a characterization of hidden nonbilocality is also provided in terms of the Bloch-Fano decomposition, wherein we conjecture that, to witness hidden nonbilocality, one of the two states (used by the sources) must have nonnull local Bloch vectors. Noise is inevitable in practical scenarios, which makes it imperative to study any possible method to enhance the possibility of detecting nonclassicality in the presence of noise in the network. We find that local filtering enhances the robustness to noise, which we demonstrate using bit-flip and amplitude-damping channels.
翻訳日:2023-09-22 19:43:46 公開日:2023-09-21
# 空間コントラスト事前訓練(SCPT)による新道路交通予測

Traffic Forecasting on New Roads Using Spatial Contrastive Pre-Training (SCPT) ( http://arxiv.org/abs/2305.05237v4 )

ライセンス: Link先を確認
Arian Prabowo, Hao Xue, Wei Shao, Piotr Koniusz, Flora D. Salim(参考訳) 常に新しい道路が建設されている。 しかし、トレーニングデータ(未確認道路)に見られない新しい道路に一般化する従来の深度予測モデルの能力は、ほとんど調査されていない。 そこで本稿では,spatio-temporal(st)スプリットと呼ばれる新しい設定を導入し,未発見の道路に一般化するモデルの能力を評価する。 この設定では、モデルは道路サンプルのデータに基づいてトレーニングされるが、トレーニングデータには見られない道路でテストされる。 また,空間コントラスト事前学習(SCPT)と呼ばれる新しいフレームワークを提案し,推定時間中に未確認道路から潜時特徴を抽出する空間エンコーダモジュールを提案する。 この空間エンコーダは、コントラスト学習を用いて事前訓練される。 推定中、空間エンコーダは新しい道路上の2日間の交通データしか必要とせず、再訓練は不要である。 また,空間エンコーダからの出力は,推定時間中に潜在ノードの埋め込みを推定するために効果的に使用できることを示す。 SCPTフレームワークはまた、空間エンコーダの出力から既存のバックボーンへの遅延特徴を効果的に結合するために、空間的にゲートされた加算(SGA)層と呼ばれる新しいレイヤも組み込んでいる。 また、未発見の道路には限られたデータがあるので、交通信号は自明に捕獲できる周期信号と捕獲が難しいマルコフ信号に分離し、空間エンコーダはマルコフ信号のみを学習する方がよいと論じている。 最後に、実世界の4つのデータセットのST分割設定を用いてSCPTを実証的に評価した。 その結果,背骨にSCPTを加えることで,見えない道路での予測性能が向上することがわかった。 さらに重要なのは、今後の予測では改善が進んでいることだ。 コードはgithubで入手できる。 https://github.com/cruiseresearchgroup/forecasting-on-new-roads。

New roads are being constructed all the time. However, the capabilities of previous deep forecasting models to generalize to new roads not seen in the training data (unseen roads) are rarely explored. In this paper, we introduce a novel setup called a spatio-temporal (ST) split to evaluate the models' capabilities to generalize to unseen roads. In this setup, the models are trained on data from a sample of roads, but tested on roads not seen in the training data. Moreover, we also present a novel framework called Spatial Contrastive Pre-Training (SCPT) where we introduce a spatial encoder module to extract latent features from unseen roads during inference time. This spatial encoder is pre-trained using contrastive learning. During inference, the spatial encoder only requires two days of traffic data on the new roads and does not require any re-training. We also show that the output from the spatial encoder can be used effectively to infer latent node embeddings on unseen roads during inference time. The SCPT framework also incorporates a new layer, named the spatially gated addition (SGA) layer, to effectively combine the latent features from the output of the spatial encoder to existing backbones. Additionally, since there is limited data on the unseen roads, we argue that it is better to decouple traffic signals to trivial-to-capture periodic signals and difficult-to-capture Markovian signals, and for the spatial encoder to only learn the Markovian signals. Finally, we empirically evaluated SCPT using the ST split setup on four real-world datasets. The results showed that adding SCPT to a backbone consistently improves forecasting performance on unseen roads. More importantly, the improvements are greater when forecasting further into the future. The codes are available on GitHub: https://github.com/cruiseresearchgroup/forecasting-on-new-roads .
翻訳日:2023-09-22 19:37:22 公開日:2023-09-21
# マルチスケールクラスタリング濾過の持続的ホモロジー

Persistent Homology of the Multiscale Clustering Filtration ( http://arxiv.org/abs/2305.04281v2 )

ライセンス: Link先を確認
Dominik J. Schindler and Mauricio Barahona(参考訳) データクラスタリングの多くのアプリケーションでは、クラスタへの単一のパーティションだけでなく、異なるスケールのデータを記述するパーティションのシーケンスや粗さのレベルを見出すことが望ましい。 自然な問題は、データのマルチスケールな記述の基盤となるパーティションの(必ずしも階層的ではない)シーケンスを分析し比較することである。 本稿では, クラスタ割り当ての任意のパターンを符号化するマルチスケールクラスタリングフィルタ (MCF) と呼ばれる抽象的単純錯体の濾過を導入し, MCFが安定な永続図を生成することを証明した。 次に、mcfのゼロ次元永続ホモロジーは分割列の階層の度合いを計測し、高次元の永続ホモロジーは分割列をまたいだクラスタ割り当て間の衝突の発生と解決を追跡することを示した。 MCFの理論的基礎を広げるために、神経複合体濾過による等価な構造も提供し、階層的な場合、MCFは超距離空間のビエトリス・リップス濾過に還元されることを示す。 合成データの数値実験において,MCFがマルチスケールクラスタリング構造の特徴付けにどのように役立つかを簡単に説明する。

In many applications in data clustering, it is desirable to find not just a single partition into clusters but a sequence of partitions describing the data at different scales, or levels of coarseness. A natural problem then is to analyse and compare the (not necessarily hierarchical) sequences of partitions that underpin such multiscale descriptions of data. Here, we introduce a filtration of abstract simplicial complexes, denoted the Multiscale Clustering Filtration (MCF), which encodes arbitrary patterns of cluster assignments across scales, and we prove that the MCF produces stable persistence diagrams. We then show that the zero-dimensional persistent homology of the MCF measures the degree of hierarchy in the sequence of partitions, and that the higher-dimensional persistent homology tracks the emergence and resolution of conflicts between cluster assignments across the sequence of partitions. To broaden the theoretical foundations of the MCF, we also provide an equivalent construction via a nerve complex filtration, and we show that in the hierarchical case, the MCF reduces to a Vietoris-Rips filtration of an ultrametric space. We briefly illustrate how the MCF can serve to characterise multiscale clustering structures in numerical experiments on synthetic data.
翻訳日:2023-09-22 19:36:50 公開日:2023-09-21
# 最小三角形シナリオにおける量子後非局所性

Post-quantum nonlocality in the minimal triangle scenario ( http://arxiv.org/abs/2305.03745v2 )

ライセンス: Link先を確認
Alejandro Pozas-Kerstjens, Antoine Girardin, Tam\'as Kriv\'achy, Armin Tavakoli, Nicolas Gisin(参考訳) 入力出力とバイナリ出力が存在しない場合の三角形シナリオにおいて,ネットワークの非局所性について検討する。 明示的な例を通して、この最小のシナリオは3つのソースの無信号化と独立性に両立する非局所相関をサポートするが、独立な量子または古典的ソースに基づく実現ではないことを証明している。 この非局所性は騒音に強い。 さらに、極小三角形のシナリオでは、ポープスク・ローリッヒボックスに相当するものを特定する。

We investigate network nonlocality in the triangle scenario when all three parties have no input and binary outputs. Through an explicit example, we prove that this minimal scenario supports nonlocal correlations compatible with no-signaling and independence of the three sources, but not with realisations based on independent quantum or classical sources. This nonlocality is robust to noise. Moreover, we identify the equivalent to a Popescu-Rohrlich box in the minimal triangle scenario.
翻訳日:2023-09-22 19:36:29 公開日:2023-09-21
# 空間的平衡なペアリング過程を持つ非エルミート・キータエフ鎖の固定線

Fixed lines in a non-Hermitian Kitaev chain with spatially balanced pairing processes ( http://arxiv.org/abs/2305.00496v2 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) 非エルミート量子多体系の厳密な解は稀であるが、エルミート成分と非エルミート成分の相互作用に関する貴重な洞察を与える。 不安定な不均衡なペア生成と消滅項を導入することにより, p-wave Kitaev 鎖の非エルミート変種について検討した。 位相図には固定線が存在し、基底状態は有限系の周期的境界条件の下で非エルミート項の存在下で変化しない。 これにより、任意の速度でバランス強度を変化させる過程における位相指数の構成性が得られ、時間依存摂動の下で非エルミート・キタエフ連鎖の位相のロバスト性を示す。 基礎となるメカニズムは、無限鎖に対するジョルダン・ウィグナー変換によって得られる等価量子スピン系を通して研究される。 さらに、正確な解は、共鳴非エルミート不純物が対応するマヨラナ格子の1対のゼロモードを誘導し、熱力学的極限のエッジモードに漸近し、バルク・バウンダリー対応を示すことを示した。 一定線からわずかにずれた系に対するクエンチ力学の数値シミュレーションを行い、安定領域を時間的に示す。 この研究は、ペア生成と消滅ペアリングプロセスの間の相互作用を明らかにする。

Exact solutions for non-Hermitian quantum many-body systems are rare but may provide valuable insights into the interplay between Hermitian and non-Hermitian components. We report our investigation of a non-Hermitian variant of a p-wave Kitaev chain by introducing staggered imbalanced pair creation and annihilation terms. We find that there exists a fixed line in the phase diagram, at which the ground state remains unchanged in the presence of non-Hermitian term under the periodic boundary condition for a finite system. This allows the constancy of the topological index in the process of varying the balance strength at arbitrary rate, exhibiting the robustness of the topology for non-Hermitian Kitaev chain under time-dependent perturbations. The underlying mechanism is investigated through the equivalent quantum spin system obtained by the Jordan-Wigner transformation for infinite chain. In addition, the exact solution shows that a resonant non-Hermitian impurity can induce a pair of zero modes in the corresponding Majorana lattice, which asymptotically approach the edge modes in the thermodynamic limit, manifesting the bulk-boundary correspondence. Numerical simulation is performed for the quench dynamics for the systems with slight deviation from the fixed line to show the stability region in time. This work reveals the interplay between the pair creation and annihilation pairing processes.
翻訳日:2023-09-22 19:36:20 公開日:2023-09-21
# タイムスケールを横断する自律走行のための自己監督型マルチオブジェクトトラッキング

Self-Supervised Multi-Object Tracking For Autonomous Driving From Consistency Across Timescales ( http://arxiv.org/abs/2304.13147v2 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Lars Schillingmann, Abhinav Valada(参考訳) 自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。 しかし、その再同定精度は、監督されたものと比べ、まだ低い。 この欠点は、単一のフレームまたはフレームペアに制限された自己監督対象の定式化によるものであると仮定する。 このような定式化は、フレームレートが低い場合やオブジェクトダイナミクスが高い場合、自律運転における一貫した再識別機能を学ぶのに十分な視覚的外観の変化を捉えない。 本研究では,短期・長期にわたる一貫したアソシエーションスコアを強制することにより,複数のシーケンシャルフレームからの自己教師付き再識別特徴の学習を可能にする訓練目標を提案する。 フレームペアのトレーニングに限定された既存の自己教師付き学習手法と比較して,長いシーケンスからトレーニングされた再識別機能が標準自動運転データセットのidスイッチを大幅に削減することを示す。 提案するsubco損失関数を用いて,自己教師あり手法の新たな状態を設定し,完全な教師付き学習手法と同等に実行する。

Self-supervised multi-object trackers have tremendous potential as they enable learning from raw domain-specific data. However, their re-identification accuracy still falls short compared to their supervised counterparts. We hypothesize that this drawback results from formulating self-supervised objectives that are limited to single frames or frame pairs. Such formulations do not capture sufficient visual appearance variations to facilitate learning consistent re-identification features for autonomous driving when the frame rate is low or object dynamics are high. In this work, we propose a training objective that enables self-supervised learning of re-identification features from multiple sequential frames by enforcing consistent association scores across short and long timescales. We perform extensive evaluations demonstrating that re-identification features trained from longer sequences significantly reduce ID switches on standard autonomous driving datasets compared to existing self-supervised learning methods, which are limited to training on frame pairs. Using our proposed SubCo loss function, we set the new state-of-the-art among self-supervised methods and even perform on par with fully supervised learning methods.
翻訳日:2023-09-22 19:35:57 公開日:2023-09-21
# CoDi:混合型語彙合成のためのコントラスト拡散モデル

CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis ( http://arxiv.org/abs/2304.12654v2 )

ライセンス: Link先を確認
Chaejeong Lee, Jayoung Kim, Noseong Park(参考訳) 近年、表データへの注目が高まり、様々なタスクに合成テーブルを適用する試みが様々なシナリオに向けて拡大されている。 最近の生成モデリングの進歩により、表データ合成モデルによって生成された偽データは洗練され現実的になる。 しかし、表データの離散変数(コラム)のモデル化は依然として困難である。 本研究では,2つの拡散モデルを用いて連続変数と離散変数を別々に処理することを提案する。 2つの拡散モデルは、互いに読み合うことによって訓練中に共存する。 さらに,拡散モデルをさらにバインドするために,負のサンプリング法を用いたコントラスト学習手法を導入する。 実世界の11の表型データセットと8つのベースラインメソッドを用いた実験で,提案手法であるcodiの有効性を実証した。

With growing attention to tabular data these days, the attempt to apply a synthetic table to various tasks has been expanded toward various scenarios. Owing to the recent advances in generative modeling, fake data generated by tabular data synthesis models become sophisticated and realistic. However, there still exists a difficulty in modeling discrete variables (columns) of tabular data. In this work, we propose to process continuous and discrete variables separately (but being conditioned on each other) by two diffusion models. The two diffusion models are co-evolved during training by reading conditions from each other. In order to further bind the diffusion models, moreover, we introduce a contrastive learning method with a negative sampling method. In our experiments with 11 real-world tabular datasets and 8 baseline methods, we prove the efficacy of the proposed method, called CoDi.
翻訳日:2023-09-22 19:35:40 公開日:2023-09-21
# 倫理的・哲学的原則による信頼できる医療人工知能の確保

Ensuring Trustworthy Medical Artificial Intelligence through Ethical and Philosophical Principles ( http://arxiv.org/abs/2304.11530v4 )

ライセンス: Link先を確認
Debesh Jha, Ashish Rauniyar, Abhiskek Srivastava, Desta Haileselassie Hagos, Nikhil Kumar Tomar, Vanshali Sharma, Elif Keles, Zheyuan Zhang, Ugur Demir, Ahmet Topcu, Anis Yazidi, Jan Erik H{\aa}akeg{\aa}rd, and Ulas Bagci(参考訳) 人工知能(AI)の手法は、医療専門家や患者の経験を高めることで、多くの医療に革命をもたらす大きな可能性を秘めている。 AIベースのコンピュータ支援診断と治療ツールは、臨床レベルを合わせるか、あるいは臨床専門家を上回ることで、医療を民主化することができる。 結果として、先進的な医療サービスは、人口統計、人種、社会経済的背景に関係なく、全ての人口に手頃な価格で提供できる。 このようなAIツールの民主化は、ケアコストを削減し、リソース割り当てを最適化し、ケアの品質を向上させる。 人間とは対照的に、AIは大量の入力からデータの複雑な関係を明らかにし、医学における新たなエビデンスベースの知識につながる。 しかし、aiを医療に組み込むことは、バイアス、透明性、自律性、責任、説明責任など、倫理的および哲学的な懸念を提起する。 ここでは,AI支援医療画像分析の最近の進歩,既存の標準,倫理的問題と臨床現場におけるベストプラクティスの理解の重要性を強調した。 私たちは、病院や公共組織にaiを展開する技術的および倫理的な課題と意味について取り上げます。 また,倫理的課題,データ不足,人種バイアス,透明性の欠如,アルゴリズムバイアスに対処するための重要な尺度と手法について論じ,レコメンデーションと今後の方向性を提供する。

Artificial intelligence (AI) methods hold immense potential to revolutionize numerous medical care by enhancing the experience of medical experts and patients. AI-based computer-assisted diagnosis and treatment tools can democratize healthcare by matching the clinical level or surpassing clinical experts. As a result, advanced healthcare services can be affordable to all populations, irrespective of demographics, race, or socioeconomic background. The democratization of such AI tools can reduce the cost of care, optimize resource allocation, and improve the quality of care. In contrast to humans, AI can uncover complex relations in the data from a large set of inputs and even lead to new evidence-based knowledge in medicine. However, integrating AI into healthcare raises several ethical and philosophical concerns, such as bias, transparency, autonomy, responsibility, and accountability. Here, we emphasize recent advances in AI-assisted medical image analysis, existing standards, and the significance of comprehending ethical issues and best practices for clinical settings. We cover the technical and ethical challenges and implications of deploying AI in hospitals and public organizations. We also discuss key measures and techniques to address ethical challenges, data scarcity, racial bias, lack of transparency, and algorithmic bias and provide recommendations and future directions.
翻訳日:2023-09-22 19:35:05 公開日:2023-09-21
# ASM:高画質3次元顔モデリングのための適応スキニングモデル

ASM: Adaptive Skinning Model for High-Quality 3D Face Modeling ( http://arxiv.org/abs/2304.09423v2 )

ライセンス: Link先を確認
Kai Yang, Hong Shang, Tianyang Shi, Xinghan Chen, Jingkai Zhou, Zhongqian Sun and Wei Yang(参考訳) パラメトリック顔モデルと3次元顔再構成の研究分野を幅広く研究している。 しかし、重要な疑問が残る: 特定の再構成設定のために顔モデルをどう調整するか。 マルチビュー・アンキャリブレーション画像による再構成は,より強力なキャパシティを持つ新しいモデルを必要とする。 本研究では,データ依存型3次元形態モデル(3DMM)から人体設計スキンモデルへ注目を移す。 本稿では,よりコンパクトで完全に調整可能なパラメータでスキンモデルを再定義する適応スキンモデル(asm)を提案する。 大規模な実験により, ASMは3DMMよりも大幅に向上し, モデルサイズと新しいトポロジーの実装が容易になった。 フィレンツェMICCクープベンチマークにおける多視点再構成のためのASMによる最先端性能を実現する。 定量的解析により,多視点入力からの豊富な情報を十分に活用するための高容量モデルの重要性が示された。 さらに,本モデルでは,ゲーム内アバター生成などの実世界のアプリケーションに直接利用することができる。 その結果,パラメトリックフェースモデルの新たな研究方向性が開かれ,多視点再構築の今後の研究が促進される。

The research fields of parametric face model and 3D face reconstruction have been extensively studied. However, a critical question remains unanswered: how to tailor the face model for specific reconstruction settings. We argue that reconstruction with multi-view uncalibrated images demands a new model with stronger capacity. Our study shifts attention from data-dependent 3D Morphable Models (3DMM) to an understudied human-designed skinning model. We propose Adaptive Skinning Model (ASM), which redefines the skinning model with more compact and fully tunable parameters. With extensive experiments, we demonstrate that ASM achieves significantly improved capacity than 3DMM, with the additional advantage of model size and easy implementation for new topology. We achieve state-of-the-art performance with ASM for multi-view reconstruction on the Florence MICC Coop benchmark. Our quantitative analysis demonstrates the importance of a high-capacity model for fully exploiting abundant information from multi-view input in reconstruction. Furthermore, our model with physical-semantic parameters can be directly utilized for real-world applications, such as in-game avatar creation. As a result, our work opens up new research direction for parametric face model and facilitates future research on multi-view reconstruction.
翻訳日:2023-09-22 19:34:43 公開日:2023-09-21
# 大規模言語モデルは正負の文を生成することができるか?

Can large language models generate salient negative statements? ( http://arxiv.org/abs/2305.16755v2 )

ライセンス: Link先を確認
Hiba Arnaout, Simon Razniewski(参考訳) 我々は,大規模言語モデル (LLM) が,現実の実体に関する健全な(興味深い)ネガティブなステートメントを生成する能力について検討する。 我々は,ゼロショットとkショットの非拘束プローブを用いてllmを探索し,従来の否定生成法,すなわちパターンに基づくテキスト抽出と知識グラフに基づく推論,およびクラウドソーシングによるゴールドステートメントと比較した。 異なる領域の被写体に関する生成したリストの正しさと正当性を測定する。 評価の結果, 誘導型プローブはゼロショット型に比べて, 生成したネガの品質が向上することがわかった。 それでも、両方のプロンプトを用いることで、LLMは否定の事実性の概念に苦慮し、多くの曖昧な文や否定的なキーワードを持つ文を頻繁に生成するが、肯定的な意味を持つ。

We examine the ability of large language models (LLMs) to generate salient (interesting) negative statements about real-world entities; an emerging research topic of the last few years. We probe the LLMs using zero- and k-shot unconstrained probes, and compare with traditional methods for negation generation, i.e., pattern-based textual extractions and knowledge-graph-based inferences, as well as crowdsourced gold statements. We measure the correctness and salience of the generated lists about subjects from different domains. Our evaluation shows that guided probes do in fact improve the quality of generated negatives, compared to the zero-shot variant. Nevertheless, using both prompts, LLMs still struggle with the notion of factuality of negatives, frequently generating many ambiguous statements, or statements with negative keywords but a positive meaning.
翻訳日:2023-09-22 19:26:30 公開日:2023-09-21
# 意味認識型伝送スケジューリング:単調性駆動型深層強化学習アプローチ

Semantic-aware Transmission Scheduling: a Monotonicity-driven Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2305.13706v2 )

ライセンス: Link先を確認
Jiazheng Chen, Wanchun Liu, Daniel Quevedo, Yonghui Li and Branka Vucetic(参考訳) 6G時代のサイバー物理システムでは、動的制御とリモート状態推定のために分散デバイスを接続するセマンティック通信は、単なる通信中心の性能ではなく、アプリケーションレベルの性能を保証するために必要である。 意味論は、情報伝達の有用性の尺度である。 大規模システムのセマンティクス・アウェア・トランスミッションスケジューリングは、しばしば大きな意思決定空間を必要とするが、既存のアルゴリズムでは効果的に最適なポリシーを得ることはできない。 本稿では,まず,最適セマンティック・アウェア・スケジューリング・ポリシーの基本的特性を考察し,理論ガイドラインを活用して高度強化学習(DRL)アルゴリズムを開発する。 その結果,提案アルゴリズムはベンチマークアルゴリズムと比較してトレーニング時間を大幅に短縮し,トレーニング性能を向上させることができることがわかった。

For cyber-physical systems in the 6G era, semantic communications connecting distributed devices for dynamic control and remote state estimation are required to guarantee application-level performance, not merely focus on communication-centric performance. Semantics here is a measure of the usefulness of information transmissions. Semantic-aware transmission scheduling of a large system often involves a large decision-making space, and the optimal policy cannot be obtained by existing algorithms effectively. In this paper, we first investigate the fundamental properties of the optimal semantic-aware scheduling policy and then develop advanced deep reinforcement learning (DRL) algorithms by leveraging the theoretical guidelines. Our numerical results show that the proposed algorithms can substantially reduce training time and enhance training performance compared to benchmark algorithms.
翻訳日:2023-09-22 19:25:34 公開日:2023-09-21
# 準同型による変換地理空間オントロジー

Transforming Geospatial Ontologies by Homomorphisms ( http://arxiv.org/abs/2305.13135v2 )

ライセンス: Link先を確認
Xiuzhan Guo, Wei Huang, Min Luo, Priya Rangarajan(参考訳) 本稿では,地理空間オントロジーの組と地理空間オントロジーの組からなる地理空間オントロジーシステムとして,地理空間オントロジーとそれらの操作が代数的に必要となる内部的な詳細を伴わずに,共に関心を持つ地理空間オントロジーを研究する。 2つの地理空間オントロジー系の間の準同型は、システム内の2つの地理空間オントロジーの組の間の関数であり、地理空間オントロジー操作を保存する。 オントロジの集合をクラスタリングすることは、集合を分割したり、集合上の同値関係を定義したり、集合の商集合を作ったり、集合の全射像を得たりする。 各地空間オントロジー系準同型は商空間への全射的クラスタリングとして分解され、次いで埋め込みとなる。 地理空間オントロジマージシステム、システム上の自然な部分順序、およびシステム内の地理空間オントロジマージクロージャは、商と埋め込みによって与えられる地理空間オントロジシステム準同型の下で変換される。

In this paper, we study the geospatial ontologies that we are interested in together as a geospatial ontology system, consisting of a set of the geospatial ontologies and a set of geospatial ontology operations, without any internal details of the geospatial ontologies and their operations being needed, algebraically. A homomorphism between two geospatial ontology systems is a function between two sets of geospatial ontologies in the systems, which preserves the geospatial ontology operations. We view clustering a set of the ontologies as partitioning the set or defining an equivalence relation on the set or forming a quotient set of the set or obtaining the surjective image of the set. Each geospatial ontology system homomorphism can be factored as a surjective clustering to a quotient space, followed by an embedding. Geospatial ontology merging systems, natural partial orders on the systems, and geospatial ontology merging closures in the systems are then transformed under geospatial ontology system homomorphisms that are given by quotients and embeddings.
翻訳日:2023-09-22 19:25:14 公開日:2023-09-21
# 政治宣言における現況とイデオロギー的同時性が感情に及ぼす影響

The Impact of Incumbent/Opposition Status and Ideological Similitude on Emotions in Political Manifestos ( http://arxiv.org/abs/2305.08383v2 )

ライセンス: Link先を確認
Takumi Nishi(参考訳) この研究は、2000年から2019年にかけてイギリス保守労働党の総選挙宣言における感情関連言語の分析を含む。 これまでの研究では、イデオロギーの位置づけと公共政策の重なりの間には一般的な相関関係が示されているが、そのようなマニフェストの感情の問題には相反する結果がある。 新たなデータを用いて,現職の当事者がポジティブ感情関連単語の頻度が高く,ネガティブ感情関連単語が反対者でより普及している政府内の政党の状況によって,ヴァレンスレベルがどのように変動するかを示す。 また,イデオロギー的同義性を持つ当事者は,感情と党の地位の関係に関する文献に,肯定的な言語を積極的に用いていることも示している。

The study involved the analysis of emotion-associated language in the UK Conservative and Labour party general election manifestos between 2000 to 2019. While previous research have shown a general correlation between ideological positioning and overlap of public policies, there are still conflicting results in matters of sentiments in such manifestos. Using new data, we present how valence level can be swayed by party status within government with incumbent parties presenting a higher frequency in positive emotion-associated words while negative emotion-associated words are more prevalent in opposition parties. We also demonstrate that parties with ideological similitude use positive language prominently further adding to the literature on the relationship between sentiments and party status.
翻訳日:2023-09-22 19:24:22 公開日:2023-09-21
# アルゴリズム的多元主義 : 機会平等のための構造的アプローチ

Algorithmic Pluralism: A Structural Approach To Equal Opportunity ( http://arxiv.org/abs/2305.08157v3 )

ライセンス: Link先を確認
Shomik Jain, Vinith Suriyakumar, Kathleen Creel, Ashia Wilson(参考訳) 本稿では,アルゴリズム的多元主義と呼ばれるアルゴリズム的意思決定システムにおいて,平等な機会を得るための構造的アプローチを提案する。 アルゴリズム的多元主義(英: algorithmic multipleism)とは、アルゴリズムの集合が機会へのアクセスを厳しく制限せず、個人が様々なライフパスを追求できる状態を指す。 アルゴリズム的多元論を論じるために、我々はジョセフ・フィッシュキンのボトルネック理論を採用し、機会の割り当てを決定する決定点の構造に焦点をあてる。 この理論は、各決定点またはボトルネックがある程度の重大さと正当性で機会へのアクセスを制限すると主張している。 我々は,fishkinの構造的視点を採用し,パターン不等式やアルゴリズム的モノカルチャーなど,アルゴリズム的意思決定における同等の機会に関する既存のシステム的関心事を再構築する。 アルゴリズム的多元性の提案では、深刻なボトルネックを緩和する緊急優先事項について論じる。 我々は、制度的な方法で平等な機会を促進するために、多くの異なる個人に利用可能な機会の多元性があることを主張する。 さらに,このフレームワークがシステム設計や規制にどのように影響するかを,アルゴリズム採用の機会均等性に関する議論を通じて明らかにする。

We present a structural approach toward achieving equal opportunity in systems of algorithmic decision-making called algorithmic pluralism. Algorithmic pluralism describes a state of affairs in which no set of algorithms severely limits access to opportunity, allowing individuals the freedom to pursue a diverse range of life paths. To argue for algorithmic pluralism, we adopt Joseph Fishkin's theory of bottlenecks, which focuses on the structure of decision-points that determine how opportunities are allocated. The theory contends that each decision-point or bottleneck limits access to opportunities with some degree of severity and legitimacy. We adopt Fishkin's structural viewpoint and use it to reframe existing systemic concerns about equal opportunity in algorithmic decision-making, such as patterned inequality and algorithmic monoculture. In our proposal of algorithmic pluralism, we argue for the urgent priority of alleviating severe bottlenecks. We contend that there must be a pluralism of opportunity available to many different individuals in order to promote equal opportunity in a systemic way. We further show how this framework has several implications for system design and regulation through current debates about equal opportunity in algorithmic hiring.
翻訳日:2023-09-22 19:23:53 公開日:2023-09-21
# CoMoSpeech:一貫性モデルによるワンステップ音声と歌声合成

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model ( http://arxiv.org/abs/2305.06908v3 )

ライセンス: Link先を確認
Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo(参考訳) denoising diffusion probabilistic models (ddpms) は音声合成に有望な性能を示している。 しかし、高いサンプル品質を達成するためには、推論速度を制限するために、多数の反復的なステップが必要である。 サンプリング速度を高めながらサンプル品質を維持することが課題となっている。 本稿では,単一の拡散サンプリングステップで音声合成を行い,高い音声品質を実現し,音声合成を実現する「コ・ナンシスタンス・"mo"del-based "speech" 合成法,comospeechを提案する。 整合性制約を適用し、よく設計された拡散に基づく教師モデルから整合性モデルを蒸留し、最終的に蒸留したCoMoSpeechにおいて優れた性能を得る。 私たちの実験では、単一のサンプリングステップで音声記録を生成することで、hspeech2に匹敵する単一のnvidia a100 gpuで、リアルタイムよりも150倍高速で、拡散サンプリングベースの音声合成が真に実用的であることを示す。 一方,テキスト音声合成と歌唱音声合成における客観的・主観的評価では,提案する教師モデルが最高の音響品質を得られ,従来の多段階拡散モデルと同等の音響品質で最良な推定速度が得られることを示す。 オーディオサンプルはhttps://comospeech.github.io/で入手できる。

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based "Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.
翻訳日:2023-09-22 19:23:06 公開日:2023-09-21
# 容易に実装可能なユニバーサルゲートセットを持つ多モードボソニック猫符号

Multimode bosonic cat codes with an easily implementable universal gate set ( http://arxiv.org/abs/2306.11621v3 )

ライセンス: Link先を確認
Aur\'elie Denys, Anthony Leverrier(参考訳) 本稿では,量子誤り訂正符号の設計手法として,量子ビット符号のトランスバーサルゲートやボソニック符号のガウスユニタリといった単純な物理演算を用いて,特定の論理演算群を実装する手法を提案する。 後者の場合、我々はこのアプローチを利用して、48個のコヒーレントな状態の重ね合わせによって与えられる論理状態を持つ猫量子ビットの多重モード拡張を定義する。 クォートハミルトニアンも利用可能であれば、$CZ$と$T$ゲートの実装に使用でき、普遍ゲートセットを提供する。

We present a method for designing quantum error correcting codes such that a specific group of logical operations is implemented using simple physical operations such as transversal gates for qubit codes, or Gaussian unitaries for bosonic codes. In the latter case, we exploit this approach to define a multimode extension of the cat qubit with logical states given by superpositions of 48 coherent states, wherein all single-qubit Clifford logical gates are passive Gaussian unitaries. If a quartic Hamiltonian is also available, then it can be used to implement the $CZ$ and $T$ gates, providing a universal gate set.
翻訳日:2023-09-22 19:17:07 公開日:2023-09-21
# Dzyaloshinskii-Moriya相互作用を持つXXZハイゼンベルクモデルにおけるロバスト一方向ファントムヘリックス状態

Robust unidirectional phantom helix states in the XXZ Heisenberg model with Dzyaloshinskii-Moriya interaction ( http://arxiv.org/abs/2306.11578v4 )

ライセンス: Link先を確認
Y. B. Shi and Z. Song(参考訳) ファントム・ヘリックス状態(phantom helix states)は、ゼロエネルギーの周りのエネルギー準位にあり、双方向に等しいxxzハイゼンベルク模型の退化固有状態の特別な集合である。 本研究では,dmi(dzyaloshinskii-moriya interaction)を用いてxxzハイゼンベルク模型のヘリックス状態について検討する。 一方向のヘリックス状態のみが共鳴DMIの存在下で変化しないことを示す。 Holstein--Primakoff(HP)変換に基づいて、量子スピンモデルをボソンモデルにマッピングすることで、基礎となるメカニズムを理解することができる。 さらに、そのような幻状態が強いDMIによってスペクトルから分離され、状態の堅牢性を高めることも示している。 数値シミュレーションにより一方向ファントムヘリックス状態の動的形成過程を示す。 その結果,DMIは高い効率でフィルタとして機能することが示唆された。

The phantom helix states are a special set of degenerate eigenstates of the XXZ Heisenberg model, which lie in the energy levels around zero energy and are bidirectionally equal. In this work, we study the helix state in the XXZ Heisenberg model with the Dzyaloshinskii-Moriya interaction (DMI). We show exactly that only the helix states in one direction remain unchanged in the presence of resonant DMI. Based on the Holstein--Primakoff (HP) transformation, the quantum spin model is mapped to a boson model, which allows us to understand the underlying mechanism. Furthermore, it also indicates that such phantom states can be separated from the spectrum by the strong DMI to enhance the robustness of the states. We demonstrate the dynamic formation processes of unidirectional phantom helix states by numerical simulations. The results indicate that the DMI as expected acts as a filter with high efficiency.
翻訳日:2023-09-22 19:16:55 公開日:2023-09-21
# Achilles' Heels: 合成データ公開におけるレコード識別の脆弱性

Achilles' Heels: Vulnerable Record Identification in Synthetic Data Publishing ( http://arxiv.org/abs/2306.10308v2 )

ライセンス: Link先を確認
Matthieu Meeus, Florent Gu\'epin, Ana-Maria Cretu and Yves-Alexandre de Montjoye(参考訳) 合成データは、プライバシを維持しながら個人レベルのデータを共有するための最も有望なソリューションと見なされている。 シャドーモデリングに基づくメンバーシップ推論攻撃(MIAs)は、合成データのプライバシーリスクを評価する標準的なアプローチとなっている。 非常に効果的だが、作成するには大量のデータセットと、単一のレコードによって生じるリスクを評価するためにトレーニングされたモデルが必要である。 したがって、データセットのプライバシーリスクは現在、アドホックメソッドを使用して選択された少数のレコード上でMIAを実行することで評価される。 ここでは、我々の知る限り、合成データパブリッシングのための第一原理的脆弱なレコード識別技術を提案し、記録に最も近い隣人への距離を活用している。 提案手法は,従来のアドホックメソッドを,データセットとジェネレータにまたがって強く上回ることを示す。 また,本手法がmiaの選択やパラメータの選択に堅牢であることを示す。 最後に,合成データ生成器を差分プライベートにする場合,脆弱なレコードを正確に識別することを示す。 脆弱なレコードの選択は、法的視点を含む合成データリリースのプライバシーを評価する際に、より正確なMIAと同じくらい重要である。 そこで本稿では,単純かつ高効率な手法を提案する。 提案手法により, 合成データ公開によるリスクを, 研究者がより正確に評価し, より優れたMIAを合成データ上で比較できることを期待する。

Synthetic data is seen as the most promising solution to share individual-level data while preserving privacy. Shadow modeling-based Membership Inference Attacks (MIAs) have become the standard approach to evaluate the privacy risk of synthetic data. While very effective, they require a large number of datasets to be created and models trained to evaluate the risk posed by a single record. The privacy risk of a dataset is thus currently evaluated by running MIAs on a handful of records selected using ad-hoc methods. We here propose what is, to the best of our knowledge, the first principled vulnerable record identification technique for synthetic data publishing, leveraging the distance to a record's closest neighbors. We show our method to strongly outperform previous ad-hoc methods across datasets and generators. We also show evidence of our method to be robust to the choice of MIA and to specific choice of parameters. Finally, we show it to accurately identify vulnerable records when synthetic data generators are made differentially private. The choice of vulnerable records is as important as more accurate MIAs when evaluating the privacy of synthetic data releases, including from a legal perspective. We here propose a simple yet highly effective method to do so. We hope our method will enable practitioners to better estimate the risk posed by synthetic data publishing and researchers to fairly compare ever improving MIAs on synthetic data.
翻訳日:2023-09-22 19:16:37 公開日:2023-09-21
# Prodigy: 適応型パラメータフリー学習者

Prodigy: An Expeditiously Adaptive Parameter-Free Learner ( http://arxiv.org/abs/2306.06101v2 )

ライセンス: Link先を確認
Konstantin Mishchenko, Aaron Defazio(参考訳) 我々は,AdagradやAdamといった適応的な手法で学習率を推定する問題を考察する。 本稿では,学習率を最適に設定するために必要な解からD$までの距離を確実に推定する2つの手法,ProdigyとResettingについて述べる。 本手法は,学習速度フリー学習のためのd適応法の改良である。 我々の手法は、D-適応の収束率を$O(\sqrt{\log(D/d_0)})$で改善する。 我々は12の共通ロジスティック回帰ベンチマークデータセット、CIFAR10のVGG11およびResNet-50トレーニング、ImagenetのVTトレーニング、IWSLT14のLSTMトレーニング、CriteoデータセットのDLRMトレーニング、Knee MRIデータセットのVarNet、BookWikiのRoBERTaおよびGPTトランスフォーマートレーニングについてテストした。 実験の結果,D-Adaptationの精度は手作業のAdamと同等に向上し,精度も向上した。

We consider the problem of estimating the learning rate in adaptive methods, such as Adagrad and Adam. We describe two techniques, Prodigy and Resetting, to provably estimate the distance to the solution $D$, which is needed to set the learning rate optimally. Our techniques are modifications of the D-Adaptation method for learning-rate-free learning. Our methods improve upon the convergence rate of D-Adaptation by a factor of $O(\sqrt{\log(D/d_0)})$, where $d_0$ is the initial estimate of $D$. We test our methods on 12 common logistic-regression benchmark datasets, VGG11 and ResNet-50 training on CIFAR10, ViT training on Imagenet, LSTM training on IWSLT14, DLRM training on Criteo dataset, VarNet on Knee MRI dataset, as well as RoBERTa and GPT transformer training on BookWiki. Our experimental results show that our approaches consistently outperform D-Adaptation and reach test accuracy values close to that of hand-tuned Adam.
翻訳日:2023-09-22 19:16:17 公開日:2023-09-21
# 量子インターネットアドレッシング

Quantum Internet Addressing ( http://arxiv.org/abs/2306.05982v2 )

ライセンス: Link先を確認
Angela Sara Cacciapuoti, Jessica Illiano, Marcello Caleffi(参考訳) 量子インターネットプロトコルスタックの設計は、その初期段階と初期段階の概念化である。 そして現在、異なる異種の提案が文献に載っている。 既存の提案の基本的な前提は、古典的なインターネットプロトコル設計の原則を暗黙的に模倣していることだ。 住所は場所を示す。 ルートはそこに着く方法を示しています。 したがって、ネットワークノードは、古典ビットからなる古典的なアドレスでラベル付けされ、これらのラベルは、ネットワークトポロジ内のノードの位置を反映することを目的としている。 本稿では,この2次元の古典的なアドレッシングと位置認識アドレッシングは,単純な情報エンコーディング/デコードよりも,ネットワーク機能への量子性拡張を阻害する制約設計オプションであると主張する。 それとは対照的に、ノードアドレス内に量子性を受け入れることで、通信ネットワーク全体の量子ネイティブ機能を実現するために量子原理と現象を利用することができる。 これによってQuantum Internetの究極のビジョンと能力が解き放たれる。

The design of the Quantum Internet protocol stack is at its infancy and early-stage conceptualization. And different heterogeneous proposals are currently available in the literature. The underlying assumption of the existing proposals is that they implicitly mimic classical Internet Protocol design principles: "A name indicates what we seek. An address indicates where it is. A route indicates how to get there''. Hence the network nodes are labeled with classical addresses, constituted by classical bits, and these labels aim at reflecting the node location within the network topology. In this paper, we argue that this twofold assumption of classical and location-aware addressing constitutes a restricting design option, which prevents to scale the quantumness to the network functionalities, beyond simple information encoding/decoding. On the contrary, by embracing quantumness within the node addresses, quantum principles and phenomena could be exploited for enabling a quantum native functioning of the entire communication network. This will unleash the ultimate vision and capabilities of the Quantum Internet.
翻訳日:2023-09-22 19:15:54 公開日:2023-09-21
# 一次元振幅チャープ格子におけるwannier-stark局在

Wannier-Stark localization in one-dimensional amplitude-chirped lattices ( http://arxiv.org/abs/2306.05193v2 )

ライセンス: Link先を確認
Qi-Bo Zeng, Bo Hou, and Han Xiao(参考訳) 関数 $Fj\cos(2\pi \alpha j)$ で変調された$j$th オンサイトポテンシャルを持つ一次元振幅チャープ格子におけるワニエ・スターク (WS) の局所化について検討する。 実(または虚)体を持つエルミート系(または非エルミート系)では、アイジネギースペクトルにおいて実(または虚)WSはしごを得ることができる。 大抵の場合、$q \geq 2$ の場合、強いフィールド極限に局所化されたすべての固有状態を持つ複数の WS はしごが存在する。 しかし、q=4$の格子では、オンサイト電位における空間的周期的および線形的に増加する挙動の存在によりエネルギー依存局在現象が発生する。 バンドの中心に約半数の固有状態が集まっており、フィールドが非常に強くなったとしても、広い領域、あるいは格子の全範囲にわたって拡張することができる。 さらに、奇数$q$の非エルミート格子では、WSはしごのいくつかは二重縮退し、そこでは固有状態は場強度の広い状態の2つの近傍で均等に分布する。 我々の研究は、エルミートおよび非エルミート振幅チャープ格子におけるWSローカライゼーションの道を開く。

We study the Wannier-Stark (WS) localization in one-dimensional amplitude-chirped lattices with the $j$th onsite potential modulated by a function $Fj\cos(2\pi \alpha j)$, where $F$ is the external field with a period determined by $\alpha=p/q$ ($p$ and $q$ are coprime integers). In the Hermitian (or non-Hermitian) systems with real (or imaginary) fields, we can obtain real (or imaginary) WS ladders in the eigenenergy spectrum. In most cases with $q \geq 2$, there are multiple WS ladders with all the eigenstates localized in the strong field limit. However, in the lattices with $q=4$, the energy-dependent localization phenomenon emerges due to the presence of both spatially periodic and linearly increasing behaviors in the onsite potential. About half the number of eigenstates are gathered at the band center and can extend over a wide region or even the full range of the lattice, even when the field becomes very strong. Moreover, in the non-Hermitian lattices with odd $q$, some of the WS ladders become doubly degenerate, where the eigenstates are evenly distributed at two neighboring sites in a wide regime of field strength. Our work opens an avenue for exploring WS localization in both Hermitian and non-Hermitian amplitude-chirped lattices.
翻訳日:2023-09-22 19:15:38 公開日:2023-09-21
# 重み付き空間上の関数入力写像の大域的普遍近似

Global universal approximation of functional input maps on weighted spaces ( http://arxiv.org/abs/2306.03303v2 )

ライセンス: Link先を確認
Christa Cuchiero, Philipp Schmocker, Josef Teichmann(参考訳) 無限次元の重み付き空間上で定義されたいわゆる関数型入力ニューラルネットワークを導入し、無限次元の出力空間にも値を導入する。 この目的のために,隠れ層マップとして加法ファミリと,各隠れ層に適用する非線形活性化関数を用いる。 重み付き空間上のストーン・ワイエルシュトラスの定理に頼ると、コンパクト集合上の通常の近似を超える連続函数の一般化に対する大域的普遍近似結果が証明できる。 これは特に関数型入力ニューラルネットワークによる(予測的でない)経路空間汎関数の近似に適用される。 重み付きストーン・ワイエルシュトラスの定理のさらなる応用として、シグネチャの線型関数に対する大域的普遍近似結果が証明される。 また、ガウス過程回帰の観点をこの設定で紹介し、署名核の再生核ヒルベルト空間がある種のガウス過程のキャメロン・マルティン空間であることを示す。 これはシグネチャカーネル回帰の不確実性定量化への道を開く。

We introduce so-called functional input neural networks defined on a possibly infinite dimensional weighted space with values also in a possibly infinite dimensional output space. To this end, we use an additive family as hidden layer maps and a non-linear activation function applied to each hidden layer. Relying on Stone-Weierstrass theorems on weighted spaces, we can prove a global universal approximation result for generalizations of continuous functions going beyond the usual approximation on compact sets. This then applies in particular to approximation of (non-anticipative) path space functionals via functional input neural networks. As a further application of the weighted Stone-Weierstrass theorem we prove a global universal approximation result for linear functions of the signature. We also introduce the viewpoint of Gaussian process regression in this setting and show that the reproducing kernel Hilbert space of the signature kernels are Cameron-Martin spaces of certain Gaussian processes. This paves the way towards uncertainty quantification for signature kernel regression.
翻訳日:2023-09-22 19:15:11 公開日:2023-09-21
# 時間内2次元骨格配列のアライメントによる学習

Learning by Aligning 2D Skeleton Sequences in Time ( http://arxiv.org/abs/2305.19480v3 )

ライセンス: Link先を確認
Quoc-Huy Tran, Muhammad Ahmed, M. Hassan Ahmed, Murad Popattia, Andrey Konin, M. Zeeshan Zia(参考訳) 本稿では,人的活動理解の微粒化に有用な自己監督型時間的ビデオアライメントフレームワークを提案する。 CASAの最先端手法とは対照的に、3Dスケルトン座標のシーケンスを直接入力として取り込む場合、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。 時間領域のみに自己アテンションを行うCASAとは異なり、時間領域と時間領域の両方で自己アテンションを行うビデオトランスフォーマーに2次元スケルトンヒートマップを供給し、効果的な時空間的特徴と文脈的特徴を抽出する。 さらに,自己教師型学習のための2次元骨格に基づく簡易なヒートマップ拡張手法を提案する。 3D情報の欠如にもかかわらず,本手法はCASAよりも高い精度だけでなく,欠落したキーポイントに対する堅牢性も向上する。 さらに、Penn Action、IKEA ASM、H2Oの3つの公開データセットに対する広範囲な評価により、我々のアプローチは、異なるきめ細かな人間の活動理解タスクにおいて、従来の手法よりも優れていることを示した。 最後に、RGBビデオと2Dスケルトンヒートマップを融合すると、すべてのメトリクスとデータセットが最先端になる。 我々の知る限り、我々の研究は初めて2Dスケルトン熱マップ入力を利用し、時間的ビデオアライメントのための多モード融合を探索した。

This paper presents a self-supervised temporal video alignment framework which is useful for several fine-grained human activity understanding applications. In contrast with the state-of-the-art method of CASA, where sequences of 3D skeleton coordinates are taken directly as input, our key idea is to use sequences of 2D skeleton heatmaps as input. Unlike CASA which performs self-attention in the temporal domain only, we feed 2D skeleton heatmaps to a video transformer which performs self-attention both in the spatial and temporal domains for extracting effective spatiotemporal and contextual features. In addition, we introduce simple heatmap augmentation techniques based on 2D skeletons for self-supervised learning. Despite the lack of 3D information, our approach achieves not only higher accuracy but also better robustness against missing and noisy keypoints than CASA. Furthermore, extensive evaluations on three public datasets, i.e., Penn Action, IKEA ASM, and H2O, demonstrate that our approach outperforms previous methods in different fine-grained human activity understanding tasks. Finally, fusing 2D skeleton heatmaps with RGB videos yields the state-of-the-art on all metrics and datasets. To the best of our knowledge, our work is the first to utilize 2D skeleton heatmap inputs and the first to explore multi-modality fusion for temporal video alignment.
翻訳日:2023-09-22 19:14:35 公開日:2023-09-21
# マルチラベル画像分類のためのsemantic-aware dual contrastive learning

Semantic-Aware Dual Contrastive Learning for Multi-label Image Classification ( http://arxiv.org/abs/2307.09715v3 )

ライセンス: Link先を確認
Leilei Ma, Dengdi Sun, Lei Wang, Haifeng Zhao and Bin Luo(参考訳) 画像のセマンティクスを効果的に抽出し、対応するラベルを複数のオブジェクトや属性に割り当てることは、複雑なシーンの内容とラベル依存の混乱のために困難である。 最近の研究はグラフとのラベル関係のモデル化とクラスアクティベーションマップ(CAM)を用いたオブジェクト領域の理解に焦点を当てている。 しかし、これらの手法は、特定の意味的特徴間の複雑なカテゴリー内およびカテゴリー間関係を無視し、CAMはノイズの多い情報を生成する傾向にある。 そこで本研究では,サンプルからサンプルへのコントラスト学習 (sscl) とプロトタイプからサンプルへのコントラスト学習 (pscl) を併用した,新しいセマンティクス・アウェア・デュアルコントラスト学習フレームワークを提案する。 具体的には,セマンティクス・アウェア表現学習を用いて,カテゴリー関連局所識別特徴の抽出とカテゴリプロトタイプの構築を行う。 そして、ssclに基づいて、同一カテゴリのラベルレベルの視覚的表現を集約し、異なるカテゴリに属する特徴を分離する。 一方, 正のサンプルとカテゴリのプロトタイプとの距離を狭め, 負のサンプルを対応するカテゴリのプロトタイプから遠ざける新しいpsclモジュールを構築した。 そして、上記3つの部品の合同訓練により、画像内容に関する識別ラベルレベル特徴を正確に取得する。 5つの挑戦的な大規模公開データセットの実験により,提案手法が有効であり,最先端の手法よりも優れていることを示す。 コードと補足資料はhttps://github.com/yu-gi-oh-leilei/SADCLで公開されている。

Extracting image semantics effectively and assigning corresponding labels to multiple objects or attributes for natural images is challenging due to the complex scene contents and confusing label dependencies. Recent works have focused on modeling label relationships with graph and understanding object regions using class activation maps (CAM). However, these methods ignore the complex intra- and inter-category relationships among specific semantic features, and CAM is prone to generate noisy information. To this end, we propose a novel semantic-aware dual contrastive learning framework that incorporates sample-to-sample contrastive learning (SSCL) as well as prototype-to-sample contrastive learning (PSCL). Specifically, we leverage semantic-aware representation learning to extract category-related local discriminative features and construct category prototypes. Then based on SSCL, label-level visual representations of the same category are aggregated together, and features belonging to distinct categories are separated. Meanwhile, we construct a novel PSCL module to narrow the distance between positive samples and category prototypes and push negative samples away from the corresponding category prototypes. Finally, the discriminative label-level features related to the image content are accurately captured by the joint training of the above three parts. Experiments on five challenging large-scale public datasets demonstrate that our proposed method is effective and outperforms the state-of-the-art methods. Code and supplementary materials are released on https://github.com/yu-gi-oh-leilei/SADCL.
翻訳日:2023-09-22 19:05:22 公開日:2023-09-21
# PubMedとBeyond:人工知能時代の生物医学文献検索

PubMed and Beyond: Biomedical Literature Search in the Age of Artificial Intelligence ( http://arxiv.org/abs/2307.09683v3 )

ライセンス: Link先を確認
Qiao Jin, Robert Leaman, Zhiyong Lu(参考訳) 生物医学的な研究は豊富な情報をもたらし、その多くが文学を通してのみアクセス可能である。 その結果,文献検索は臨床・生医学研究における先行知識の構築に不可欠である。 人工知能の最近の進歩はキーワードベースの検索を超えて機能を拡張しているが、これらの進歩は臨床医や研究者には馴染みがない。 そこで本研究では, 生物医学における一般情報と特定情報の両方に合わせた文献検索ツールについて, 読者の情報ニーズを効率的に満たすための調査を行った。 まず,広く使われているPubMed検索エンジンについて検討し,最近の改良と課題の継続について論じる。 次に,5つの情報ニーズに対応する文献検索ツールについて述べる。 エビデンスに基づく医療の質の高い臨床研究の特定 2.精密医学とゲノム学のための遺伝子関連情報検索 3.自然言語質問を含む意味による検索。 4.文献推薦による関連記事の掲載 5.病気や遺伝子変異などの概念の関連を見出すためのマイニング文献。 さらに、これらのツールの選択と使用に関する実践的考察とベストプラクティスについても取り上げる。 最後に,chatgptのような大規模言語モデルにおける最近のブレークスルーを考慮し,文学検索エンジンの将来への展望を示す。 本研究は,36のツールを用いて,生物医学的文献検索機能に関する総合的視点を提供する。

Biomedical research yields a wealth of information, much of which is only accessible through the literature. Consequently, literature search is an essential tool for building on prior knowledge in clinical and biomedical research. Although recent improvements in artificial intelligence have expanded functionality beyond keyword-based search, these advances may be unfamiliar to clinicians and researchers. In response, we present a survey of literature search tools tailored to both general and specific information needs in biomedicine, with the objective of helping readers efficiently fulfill their information needs. We first examine the widely used PubMed search engine, discussing recent improvements and continued challenges. We then describe literature search tools catering to five specific information needs: 1. Identifying high-quality clinical research for evidence-based medicine. 2. Retrieving gene-related information for precision medicine and genomics. 3. Searching by meaning, including natural language questions. 4. Locating related articles with literature recommendation. 5. Mining literature to discover associations between concepts such as diseases and genetic variants. Additionally, we cover practical considerations and best practices for choosing and using these tools. Finally, we provide a perspective on the future of literature search engines, considering recent breakthroughs in large language models such as ChatGPT. In summary, our survey provides a comprehensive view of biomedical literature search functionalities with 36 publicly available tools.
翻訳日:2023-09-22 19:04:53 公開日:2023-09-21
# アーノルドウェブの古典的ドリフトは量子非局在化遷移を誘導する

Classical Drift in the Arnold Web induces Quantum Delocalization Transition ( http://arxiv.org/abs/2307.06717v2 )

ライセンス: Link先を確認
Jan Robert Schmidt, Arnd B\"acker, Roland Ketzmerick(参考訳) 高次元ハミルトニアン系のアーノルドウェブにおける量子力学的局在は、固有古典的ドリフトによって破壊される。 したがって、量子波パケットと固有状態は、以前予想されていたよりも複雑なアーノルドウェブを探索することができる。 このようなドリフトは典型的には、共鳴チャネルが大きなカオス領域や他の共鳴チャネルとの接合方向に広がるときに起こる。 このドリフトが十分に強ければ、動的局在が破壊されることが分かる。 このドリフト誘起非局在化遷移は普遍的であり、単一遷移パラメータによって記述される。 数値検証は4次元位相空間を持つ周期的にキックされたハミルトニアンを用いて行われる。

We demonstrate that quantum dynamical localization in the Arnold web of higher-dimensional Hamiltonian systems is destroyed by an intrinsic classical drift. Thus quantum wave packets and eigenstates may explore more of the intricate Arnold web than previously expected. Such a drift typically occurs, as resonance channels widen towards a large chaotic region or towards a junction with other resonance channels. If this drift is strong enough, we find that dynamical localization is destroyed. We establish that this drift-induced delocalization transition is universal and is described by a single transition parameter. Numerical verification is given using a time-periodically kicked Hamiltonian with a four-dimensional phase space.
翻訳日:2023-09-22 19:04:35 公開日:2023-09-21
# 合成は必要なすべて:合成データに対する会員推測攻撃の補助的データ仮定を取り除く

Synthetic is all you need: removing the auxiliary data assumption for membership inference attacks against synthetic data ( http://arxiv.org/abs/2307.01701v2 )

ライセンス: Link先を確認
Florent Gu\'epin, Matthieu Meeus, Ana-Maria Cretu and Yves-Alexandre de Montjoye(参考訳) 合成データは、プライバシーを保護しながら個人レベルのデータを共有する最も有望なソリューションの1つとして浮上している。 シャドーモデリングに基づくメンバシップ推論攻撃(MIA)は、合成データのプライバシを評価する標準となっているが、現在、攻撃者はトレーニングデータセットと同様の分布からサンプリングされた補助データセットにアクセス可能であると仮定している。 特に、合成表データ(医療データ、金融取引など)の主なユースケースは、非常に具体的で、参照データセットが直接利用できないため、これは非常に強力な仮定と見なされることが多い。 ここでは、この仮定をどのように取り除くかを示し、MIAを合成データのみを用いて実行できるようにする。 具体的には, (S1) ジェネレータへのブラックボックスアクセス, (S2) リリースした合成データセットへのアクセスのみ, (S3) 合成データのみを用いた攻撃性能の上限としての理論的設定の3つのシナリオを開発した。 その結果、miasは2つの現実世界のデータセットと2つの合成データジェネレータで成功しています。 これらの結果は、合成データリリース(補助データセットへのアクセス)を監査する際の強い仮説が緩和され、実際の攻撃をより現実的なものにすることを示している。

Synthetic data is emerging as one of the most promising solutions to share individual-level data while safeguarding privacy. While membership inference attacks (MIAs), based on shadow modeling, have become the standard to evaluate the privacy of synthetic data, they currently assume the attacker to have access to an auxiliary dataset sampled from a similar distribution as the training dataset. This is often seen as a very strong assumption in practice, especially as the proposed main use cases for synthetic tabular data (e.g. medical data, financial transactions) are very specific and don't have any reference datasets directly available. We here show how this assumption can be removed, allowing for MIAs to be performed using only the synthetic data. Specifically, we developed three different scenarios: (S1) Black-box access to the generator, (S2) only access to the released synthetic dataset and (S3) a theoretical setup as upper bound for the attack performance using only synthetic data. Our results show that MIAs are still successful, across two real-world datasets and two synthetic data generators. These results show how the strong hypothesis made when auditing synthetic data releases - access to an auxiliary dataset - can be relaxed, making the attacks more realistic in practice.
翻訳日:2023-09-22 19:04:07 公開日:2023-09-21
# ニューラル確率微分方程式による関数実現のための構成的アプローチ

A Constructive Approach to Function Realization by Neural Stochastic Differential Equations ( http://arxiv.org/abs/2307.00215v2 )

ライセンス: Link先を確認
Tanya Veeravalli, Maxim Raginsky(参考訳) 神経力学系による関数近似の問題は、一般にトップダウンの方法でアプローチされてきた: 任意の連続関数は、与えられたアーキテクチャを持つ十分複雑なモデルによって任意の精度に近似することができる。 これはアプリケーションで非現実的な高複雑さ制御につながる可能性がある。 本稿では,システムダイナミクスに様々な構造的制約を課し,そのようなシステムで実現可能な関数のクラスを特徴付けるという,反対の構成的アプローチを取り上げる。 これらのシステムは、ニューラル確率微分方程式(ニューラルSDE)、決定論的力学系、読み出しマップのカスケード相互接続として実装される。 確率的および幾何学的(リー理論)な手法は、そのようなシステムによって実現された関数のクラスを特徴づけるために用いられる。

The problem of function approximation by neural dynamical systems has typically been approached in a top-down manner: Any continuous function can be approximated to an arbitrary accuracy by a sufficiently complex model with a given architecture. This can lead to high-complexity controls which are impractical in applications. In this paper, we take the opposite, constructive approach: We impose various structural restrictions on system dynamics and consequently characterize the class of functions that can be realized by such a system. The systems are implemented as a cascade interconnection of a neural stochastic differential equation (Neural SDE), a deterministic dynamical system, and a readout map. Both probabilistic and geometric (Lie-theoretic) methods are used to characterize the classes of functions realized by such systems.
翻訳日:2023-09-22 19:03:43 公開日:2023-09-21
# グラフ出力予測のための自己教師付きコントラスト学習法

A Self-supervised Contrastive Learning Method for Grasp Outcomes Prediction ( http://arxiv.org/abs/2306.14437v2 )

ライセンス: Link先を確認
Chengliang Liu, Binhua Huang, Yiwen Liu, Yuanzhe Su, Ke Mai, Yupo Zhang, Zhengkun Yi, Xinyu Wu(参考訳) 本稿では,教師なし手法による学習結果の予測におけるコントラスト学習の有効性について検討する。 公開されているデータセットを利用することで、コントラスト学習手法が結果予測の把握に有効であることを示す。 特に、運動量更新技術を用いた動的ディクショナリーベース手法は、1つの触覚センサのデータを用いて81.83%の精度を実現し、他の教師なし手法よりも優れている。 本研究は,ロボット把持分野におけるコントラスト学習の応用の可能性を明らかにし,安定した把持を実現するための正確な把持予測の重要性を強調した。

In this paper, we investigate the effectiveness of contrastive learning methods for predicting grasp outcomes in an unsupervised manner. By utilizing a publicly available dataset, we demonstrate that contrastive learning methods perform well on the task of grasp outcomes prediction. Specifically, the dynamic-dictionary-based method with the momentum updating technique achieves a satisfactory accuracy of 81.83% using data from one single tactile sensor, outperforming other unsupervised methods. Our results reveal the potential of contrastive learning methods for applications in the field of robot grasping and highlight the importance of accurate grasp prediction for achieving stable grasps.
翻訳日:2023-09-22 19:02:50 公開日:2023-09-21
# ゲインロスによる非アベリアブロッホブレイド

Gain-loss-induced non-Abelian Bloch braids ( http://arxiv.org/abs/2306.13056v2 )

ライセンス: Link先を確認
B. Midya(参考訳) 非エルミートエネルギーバンドのオンサイトゲインロス誘起トポロジカルブレイディング原理は、エルミートホッピング振幅を持つ多バンド格子モデルで理論的に定式化されている。 ブレイド相転移は、ゲイン損失パラメータが例外的な点縮退によって調整されたときに起こる。 実験室で実現可能な有効ハミルトニアンは、それぞれ2バンドと3バンドのブレイド群 $\mathbb{b}_2$ と $\mathbb{b}_3$ を実現するために提案されている。 $\mathbb{B}_2$ は自明にアーベル的であるが、群 $\mathbb{B}_3$ は非アーベル的ブレイディングと複数の例外点の集合的挙動から生じるエネルギー置換を特徴とする。 ブレイド群生成器を実現するための格子パラメータに関する位相図とその非可換性を示す。 提案理論は, トポロジカル計算と情報処理の応用において, 例外的な資料を合成することを目的としている。

Onsite gain-loss-induced topological braiding principle of non-Hermitian energy bands is theoretically formulated in multiband lattice models with Hermitian hopping amplitudes. Braid phase transition occurs when the gain-loss parameter is tuned across exceptional point degeneracy. Laboratory realizable effective-Hamiltonians are proposed to realize braid groups $\mathbb{B}_2$ and $\mathbb{B}_3$ of two and three bands, respectively. While $\mathbb{B}_2$ is trivially Abelian, the group $\mathbb{B}_3$ features non-Abelian braiding and energy permutation originating from the collective behavior of multiple exceptional points. Phase diagrams with respect to lattice parameters to realize braid group generators and their non-commutativity are shown. The proposed theory is conducive to synthesizing exceptional materials for applications in topological computation and information processing.
翻訳日:2023-09-22 19:02:39 公開日:2023-09-21
# テキスト間分類と生成におけるBradley-Terry選好モデルによる高速適応

Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image Classification and Generation ( http://arxiv.org/abs/2308.07929v2 )

ライセンス: Link先を確認
Victor Gallego(参考訳) 近年、CLIPやStable Diffusionのような大規模なマルチモーダルモデルは、基礎とアプリケーションの両方で大きな成功を収めた。 しかし、これらのモデルがパラメータサイズや計算要求を増大させるにつれ、ユーザーは特定のタスクや好みをパーソナライズすることがより困難になる。 そこで本研究では,検索した画像や生成した画像をユーザの好みに合わせることで,従来のモデルを特定の人間の好みのセットに適応させる問題に対処する。 本稿では,ブラッドレー・テリー選好モデルを用いて,少ない例と最小限の計算資源で,元のモデルを効率的に微調整する高速適応手法を開発した。 このフレームワークの能力の広範な証拠は、報酬モデルとしての嗜好予測や生成タスクを含む、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。

Recently, large multimodal models, such as CLIP and Stable Diffusion have experimented tremendous successes in both foundations and applications. However, as these models increase in parameter size and computational requirements, it becomes more challenging for users to personalize them for specific tasks or preferences. In this work, we address the problem of adapting the previous models towards sets of particular human preferences, aligning the retrieved or generated images with the preferences of the user. We leverage the Bradley-Terry preference model to develop a fast adaptation method that efficiently fine-tunes the original model, with few examples and with minimal computing resources. Extensive evidence of the capabilities of this framework is provided through experiments in different domains related to multimodal text and image understanding, including preference prediction as a reward model, and generation tasks.
翻訳日:2023-09-22 18:56:14 公開日:2023-09-21
# ベイズ流ネットワーク

Bayesian Flow Networks ( http://arxiv.org/abs/2308.07037v2 )

ライセンス: Link先を確認
Alex Graves, Rupesh Kumar Srivastava, Timothy Atkinson, Faustino Gomez(参考訳) 本稿では,独立した分布の集合のパラメータを,ノイズデータサンプルに照らしてベイズ推論によって修正し,第2の相互依存分布を出力するニューラルネットワークに入力として渡す,新たな階層生成モデルであるベイズフローネットワーク(bfns)を提案する。 単純な事前および反復的に2つの分布を更新することから、拡散モデルの逆過程に類似した生成手順が得られるが、前方過程を必要としないという概念的には単純である。 離散時間および連続時間損失関数は、サンプル生成手順とともに、連続、離散化、離散データに対して導出される。 特に、離散データに対するネットワーク入力は確率単純度に基づいており、したがってネイティブに微分可能であり、勾配に基づくサンプルガイダンスや言語モデリングのような離散領域における数ステップ生成の道を開く。 損失関数はデータ圧縮を直接最適化し、ネットワークアーキテクチャに制限を課さない。 実験では,動的二項化MNISTとCIFAR-10を用いた画像モデリングにおいて,BFNは競合する対数類似度を実現し,テキスト8文字レベルの言語モデリングタスクにおいて,既知の離散拡散モデルよりも優れていた。

This paper introduces Bayesian Flow Networks (BFNs), a new class of generative model in which the parameters of a set of independent distributions are modified with Bayesian inference in the light of noisy data samples, then passed as input to a neural network that outputs a second, interdependent distribution. Starting from a simple prior and iteratively updating the two distributions yields a generative procedure similar to the reverse process of diffusion models; however it is conceptually simpler in that no forward process is required. Discrete and continuous-time loss functions are derived for continuous, discretised and discrete data, along with sample generation procedures. Notably, the network inputs for discrete data lie on the probability simplex, and are therefore natively differentiable, paving the way for gradient-based sample guidance and few-step generation in discrete domains such as language modelling. The loss function directly optimises data compression and places no restrictions on the network architecture. In our experiments BFNs achieve competitive log-likelihoods for image modelling on dynamically binarized MNIST and CIFAR-10, and outperform all known discrete diffusion models on the text8 character-level language modelling task.
翻訳日:2023-09-22 18:55:59 公開日:2023-09-21
# ディエンス予測のマルチタスク学習のためのゲーティング付き変形可能なミキサー変換器

Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction ( http://arxiv.org/abs/2308.05721v4 )

ライセンス: Link先を確認
Yangyang Xu, Yibo Yang, Bernard Ghanem, Lefei Zhang, Du Bo, Dacheng Tao(参考訳) CNNとTransformerには独自の利点があり、どちらもマルチタスク学習(MTL)における高密度な予測に広く利用されている。 MTLに関する現在の研究の多くは、CNNやTransformerにのみ依存している。 本研究では,変形可能なcnnと問合せに基づくトランスフォーマーのメリットを共有ゲーティングと組み合わせることで,マルチタスク学習と密集型予測を組み合わせた新しいmtlモデルを提案する。 この組み合わせは、強力で柔軟なタスク固有の学習と、コストの低減、複雑さの低減、および従来のmtlメソッドよりも小さいパラメータの利点により、シンプルで効率的なソリューションを提供する。 変形可能なミキサートランス (deformable mixer Transformer with gating, DeMTG) は,MTL用統合ネットワークにコンボリューションとアテンション機構を組み込んだ,シンプルで効果的なエンコーダ・デコーダアーキテクチャである。 各ブロックの利点を巧みに利用し、ローカルおよびグローバルの観点から全てのタスクに対して変形可能で包括的な機能を提供する。 まず、変形可能なミキサーエンコーダは、異なるチャネル間の通信を可能にするためのチャネル認識混合演算子と、より情報のある空間位置を効率的にサンプリングするために、変形可能な畳み込みを施した空間認識変形演算子と、の2種類の演算子を含む。 第2に、タスク対応ゲーティングトランスフォーマーデコーダを用いてタスク固有の予測を行い、タスクインタラクション特徴のキャプチャに自己注意と統合されたタスクインタラクションブロックを適用し、ゲーティングアテンションと統合されたタスククエリブロックを利用してタスク固有の特徴の選定を行う。 さらに,提案するdemtgはgflops使用量が少なく,現行のトランスフォーマベースおよびcnnベースの競合モデルと比較して,3つの密集した予測データセット上での多種多様な指標において有意に性能が向上することを示した。 私たちのコードとモデルはhttps://github.com/yangyangxu0/demtgで利用可能です。

CNNs and Transformers have their own advantages and both have been widely used for dense prediction in multi-task learning (MTL). Most of the current studies on MTL solely rely on CNN or Transformer. In this work, we present a novel MTL model by combining both merits of deformable CNN and query-based Transformer with shared gating for multi-task learning of dense prediction. This combination may offer a simple and efficient solution owing to its powerful and flexible task-specific learning and advantages of lower cost, less complexity and smaller parameters than the traditional MTL methods. We introduce deformable mixer Transformer with gating (DeMTG), a simple and effective encoder-decoder architecture up-to-date that incorporates the convolution and attention mechanism in a unified network for MTL. It is exquisitely designed to use advantages of each block, and provide deformable and comprehensive features for all tasks from local and global perspective. First, the deformable mixer encoder contains two types of operators: the channel-aware mixing operator leveraged to allow communication among different channels, and the spatial-aware deformable operator with deformable convolution applied to efficiently sample more informative spatial locations. Second, the task-aware gating transformer decoder is used to perform the task-specific predictions, in which task interaction block integrated with self-attention is applied to capture task interaction features, and the task query block integrated with gating attention is leveraged to select corresponding task-specific features. Further, the experiment results demonstrate that the proposed DeMTG uses fewer GFLOPs and significantly outperforms current Transformer-based and CNN-based competitive models on a variety of metrics on three dense prediction datasets. Our code and models are available at https://github.com/yangyangxu0/DeMTG.
翻訳日:2023-09-22 18:55:16 公開日:2023-09-21
# 畳み込みニューラルネットワークを用いた肺がんCT画像のスパースビュー画質の向上

Improving Image Quality of Sparse-view Lung Cancer CT Images with a Convolutional Neural Network ( http://arxiv.org/abs/2307.15506v2 )

ライセンス: Link先を確認
Annika Ries, Tina Dorosti, Johannes Thalhammer, Daniel Sasse, Andreas Sauter, Felix Meurer, Ashley Benne, Tobias Lasser, Franz Pfeiffer, Florian Schaff, Daniela Pfeiffer(参考訳) 目的: 肺癌検出用u-netを用いたsparse-view ct(ct)画像の画質向上と, 画像数, 画像品質, 診断信頼度との間の最善のトレードオフを判定すること。 方法:41名(肺癌34名,健康7名)のct画像の振り返り(01.2016-12.2018)を2048ビューシンノグラムに投影した。 16, 32, 64, 18, 256, 512 ビューのフィルターバックプロジェクションを用いて, 種々のアンダーサンプリングレベルの6つのスパルスビューCTデータサブセットをシノグラムから再構成した。 2フレームのU-Netを訓練し,22名の疾患患者の8,658枚の画像から各サブサンプリングレベルについて評価した。 19名 (病型12名, 健康7名) を対象に, 単一盲検者調査を行った。 選択されたスライスは、u-netモデルによる後処理を伴う全てのレベルのサブサンプリングに対して、3つの読者に提示された。 画像品質と診断信頼度は予め定義されたスケールでランク付けされた。 主観的結節分節は95%信頼区間(ci)の感度(se)とdice類似度係数(dsc)を用いて評価した。 結果: 64射影のスパースビュー画像はSe = 0.89, DSC = 0.81 [0.75,0.86] となり, U-Netで処理した画像は改善された(Se = 0.94, DSC = 0.85 [0.82,0.87])。 低い視点は診断の目的に不十分な品質をもたらす。 視野の増大については、スパースビューと後処理画像の間にはかなりの差はなかった。 結論: プロジェクションビューは, 画像品質と放射線科医の信頼を満足のいくレベルで維持しながら, 2048 から 64 に削減できる。

Purpose: To improve the image quality of sparse-view computed tomography (CT) images with a U-Net for lung cancer detection and to determine the best trade-off between number of views, image quality, and diagnostic confidence. Methods: CT images from 41 subjects (34 with lung cancer, seven healthy) were retrospectively selected (01.2016-12.2018) and forward projected onto 2048-view sinograms. Six corresponding sparse-view CT data subsets at varying levels of undersampling were reconstructed from sinograms using filtered backprojection with 16, 32, 64, 128, 256, and 512 views, respectively. A dual-frame U-Net was trained and evaluated for each subsampling level on 8,658 images from 22 diseased subjects. A representative image per scan was selected from 19 subjects (12 diseased, seven healthy) for a single-blinded reader study. The selected slices, for all levels of subsampling, with and without post-processing by the U-Net model, were presented to three readers. Image quality and diagnostic confidence were ranked using pre-defined scales. Subjective nodule segmentation was evaluated utilizing sensitivity (Se) and Dice Similarity Coefficient (DSC) with 95% confidence intervals (CI). Results: The 64-projection sparse-view images resulted in Se = 0.89 and DSC = 0.81 [0.75,0.86] while their counterparts, post-processed with the U-Net, had improved metrics (Se = 0.94, DSC = 0.85 [0.82,0.87]). Fewer views lead to insufficient quality for diagnostic purposes. For increased views, no substantial discrepancies were noted between the sparse-view and post-processed images. Conclusion: Projection views can be reduced from 2048 to 64 while maintaining image quality and the confidence of the radiologists on a satisfactory level.
翻訳日:2023-09-22 18:54:31 公開日:2023-09-21
# 差分進化アルゴリズムに基づく負荷予測のための変圧器ニューラルネットワークモデルのハイパーパラメータ選択

Differential Evolution Algorithm based Hyper-Parameters Selection of Transformer Neural Network Model for Load Forecasting ( http://arxiv.org/abs/2307.15299v3 )

ライセンス: Link先を確認
Anuvab Sen, Arul Rhik Mazumder, Udayon Sen(参考訳) 多くの分野において、正確な負荷予測は重要な役割を果たすが、動的電力システムの複雑なダイナミクスを正確に捉えることは、伝統的な統計モデルにとって課題である。 これらの理由から、時系列モデル(ARIMA)とディープラーニングモデル(ANN、LSTM、GRUなど)が一般的にデプロイされ、しばしばより高い成功を経験する。 本稿では,最近開発されたTransformer-based Neural Network Modelの負荷予測における有効性について検討する。 トランスフォーマーモデルは、そのアテンションメカニズムから派生した長距離依存を学習できるため、ロード予測を改善する可能性がある。 本稿では,変圧器ベースニューラルネットワークの最適ハイパーパラメータを求めるために,微分進化というメタヒューリスティックスを適用した。 微分進化は、非微分可能、多目的、制約付き最適化問題に対するスケーラブルで堅牢なグローバルソリューションを提供する。 本研究では,mse(平均二乗誤差)やmape(平均絶対パーセンテージ誤差)などの数値指標に基づく負荷予測における性能と,様々なメタヒューリスティックアルゴリズムと統合したトランスフォーマティブニューラルネットワークモデルを比較した。 負荷予測におけるメタヒューリスティックなトランスフォーマーベースニューラルネットワークモデルの可能性を示し,各モデルに最適なハイパーパラメータを提供する。

Accurate load forecasting plays a vital role in numerous sectors, but accurately capturing the complex dynamics of dynamic power systems remains a challenge for traditional statistical models. For these reasons, time-series models (ARIMA) and deep-learning models (ANN, LSTM, GRU, etc.) are commonly deployed and often experience higher success. In this paper, we analyze the efficacy of the recently developed Transformer-based Neural Network model in Load forecasting. Transformer models have the potential to improve Load forecasting because of their ability to learn long-range dependencies derived from their Attention Mechanism. We apply several metaheuristics namely Differential Evolution to find the optimal hyperparameters of the Transformer-based Neural Network to produce accurate forecasts. Differential Evolution provides scalable, robust, global solutions to non-differentiable, multi-objective, or constrained optimization problems. Our work compares the proposed Transformer based Neural Network model integrated with different metaheuristic algorithms by their performance in Load forecasting based on numerical metrics such as Mean Squared Error (MSE) and Mean Absolute Percentage Error (MAPE). Our findings demonstrate the potential of metaheuristic-enhanced Transformer-based Neural Network models in Load forecasting accuracy and provide optimal hyperparameters for each model.
翻訳日:2023-09-22 18:53:57 公開日:2023-09-21
# ウィスパーをリアルタイム転写システムに変える

Turning Whisper into Real-Time Transcription System ( http://arxiv.org/abs/2307.14743v2 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Raj Dabre, Ond\v{r}ej Bojar(参考訳) Whisperは最新の多言語音声認識および翻訳モデルの一つであるが、リアルタイムの文字起こしには設計されていない。 本稿では,実時間音声認識の実装であるwhisper-streamingを用いて,whisper-likeモデルの翻訳を行う。 Whisper-Streamingは、ローカル契約ポリシーとセルフアダプティブレイテンシを使って、ストリーミングの書き起こしを可能にする。 そこで本研究では,不測の長文音声認識テストセットの画質と3.3秒のレイテンシを実現するとともに,そのロバスト性と実用的なユーザビリティを多言語会議において実証する。

Whisper is one of the recent state-of-the-art multilingual speech recognition and translation models, however, it is not designed for real time transcription. In this paper, we build on top of Whisper and create Whisper-Streaming, an implementation of real-time speech transcription and translation of Whisper-like models. Whisper-Streaming uses local agreement policy with self-adaptive latency to enable streaming transcription. We show that Whisper-Streaming achieves high quality and 3.3 seconds latency on unsegmented long-form speech transcription test set, and we demonstrate its robustness and practical usability as a component in live transcription service at a multilingual conference.
翻訳日:2023-09-22 18:53:33 公開日:2023-09-21
# 複雑度=ガウス・ボネット重力:制約と相転移

Complexity=Anything in Gauss-Bonnet Gravity: Constraints and Phase Transitions ( http://arxiv.org/abs/2307.12530v2 )

ライセンス: Link先を確認
Xuanhua Wang, Ran Li, Jin Wang(参考訳) 量子複雑性は、極表面の体積、ホイーラー・デウィットパッチの作用、パッチの時空体積と双対であることが提案されている。 近年、一般化された体積複雑度観測可能法が双対ホログラフィック複雑性の等価な候補として定式化されている。 この提案は ``complexity=anything と略される。 「この提案は極端曲面の選択や物理量(体積や作用など)の評価において、より大きな柔軟性を提供する。 本研究では,様々な次元における漸近反ド・ジッター空間におけるガウス・ボネットブラックホールの「複雑度=あらゆる」提案について検討する。 この提案は, 4次元ガウス・ボンネット重力の結合パラメータによらず, 晩期の一般化体積の線形成長を保証できることを実証する。 しかし、この普遍性は高次元には当てはまらない。 さらに、位相遷移を想起する有効電位に複数のピークが存在すると、極端表面の不連続な変形が生じる。 さらに、一般化された体積がホログラフィック複雑性の候補となるために、5次元モデルの結合パラメータに制約を与える。

It has been proposed that quantum complexity is dual to the volume of the extremal surface, the action of the Wheeler-DeWitt patch, and the spacetime volume of the patch. Recently, a generalized volume-complexity observable was formulated as an equivalently good candidate for the dual holographic complexity. This proposal is abbreviated as ``complexity=anything." This proposal offers greater flexibility in selecting extremal surfaces and evaluating physical quantities, e.g., volume or action, on these surfaces. In this study, we explore the 'complexity=anything' proposal for Gauss-Bonnet black holes in asymptotic anti-de Sitter space in various dimensions. We demonstrate that this proposal guarantees the linear growth of the generalized volume at late times, regardless of the coupling parameters for four-dimensional Gauss-Bonnet gravity. However, this universality does not hold for higher dimensions. Moreover, discontinuous deformations of the extremal surfaces emerge when multiple peaks exist in the effective potential, which is reminiscent of a phase transition. Additionally, we present constraints on the coupling parameters of five-dimensional models in order for the generalized volume to be a viable candidate for holographic complexity.
翻訳日:2023-09-22 18:53:19 公開日:2023-09-21
# ボックスとマスクの統合: 視覚追跡とセグメンテーションの統合のためのマルチオブジェクトフレームワーク

Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation ( http://arxiv.org/abs/2308.13266v3 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 任意のオブジェクトを空間的かつ時間的に追跡することは、Visual Object Tracking (VOT) と Video Object Segmentation (VOS) において共通の目的である。 共同追跡とセグメンテーションはいくつかの研究で試みられているが、初期化と予測においてボックスとマスクの完全な互換性を欠くことが多く、主に単目的シナリオに焦点を当てている。 これらの制限に対処するため,本稿では,統一追跡とセグメンテーションのためのマルチオブジェクトマスクボックス統合フレームワークmitsを提案する。 まず、初期化のためのボックス参照とマスク参照の両方をサポートするために、ボックスから詳細なオブジェクト情報が推測されるか、マスクから直接保持される統一識別モジュールを提案する。 さらに、ターゲット指向表現学習を容易にするために、高精度な多目的ボックス予測のための新しいピンポイントボックス予測器を提案する。 すべての対象オブジェクトは、VOTとVOSの統一パイプラインとして、エンコーディングから伝播、復号化まで同時に処理される。 実験の結果、MITSはVOTとVOSのベンチマークで最先端のパフォーマンスを達成した。 特に、MITSはGOT-10kテストセットにおいて、最上位のVOT競合を約6%上回り、VOSベンチマークにおけるボックス初期化の性能を大幅に改善している。 コードはhttps://github.com/yoxu515/MITSで公開されている。

Tracking any given object(s) spatially and temporally is a common purpose in Visual Object Tracking (VOT) and Video Object Segmentation (VOS). Joint tracking and segmentation have been attempted in some studies but they often lack full compatibility of both box and mask in initialization and prediction, and mainly focus on single-object scenarios. To address these limitations, this paper proposes a Multi-object Mask-box Integrated framework for unified Tracking and Segmentation, dubbed MITS. Firstly, the unified identification module is proposed to support both box and mask reference for initialization, where detailed object information is inferred from boxes or directly retained from masks. Additionally, a novel pinpoint box predictor is proposed for accurate multi-object box prediction, facilitating target-oriented representation learning. All target objects are processed simultaneously from encoding to propagation and decoding, as a unified pipeline for VOT and VOS. Experimental results show MITS achieves state-of-the-art performance on both VOT and VOS benchmarks. Notably, MITS surpasses the best prior VOT competitor by around 6% on the GOT-10k test set, and significantly improves the performance of box initialization on VOS benchmarks. The code is available at https://github.com/yoxu515/MITS.
翻訳日:2023-09-22 18:44:58 公開日:2023-09-21
# 量子力学は反ファクト的定性に適合する

Quantum mechanics is compatible with counterfactual definiteness ( http://arxiv.org/abs/2308.12576v3 )

ライセンス: Link先を確認
Janne V. Kujala and Ehtibar N. Dzhafarov(参考訳) counterfactual fixedness (cfd) とは、ある性質がある文脈で測定された場合、その性質が異なる文脈で測定された場合、測定の結果が同じであったことを意味する。 文脈には、問題のあるものと一緒になされた他のすべての測定結果と、それら間の時空間的関係が含まれます。 CFDの証明は非破壊的であり、測定される性質に対する文脈の物理的影響は自然の法則によって排除されるので、この性質を測る人が文脈を確かめる方法を持っていない。 通常、量子力学においてCFDは保持されない、なぜなら、全ての文脈において同じ値を同じ性質に割り当てると、その性質は論理的矛盾に陥り、少なくとも量子理論や実験的な証拠に反するからである。 この主張は、可能なコンテキストの1つだけが事実的コンテキストであり、他のすべてのコンテキストが反実的であることを考慮すれば、裏付けられるものではないことを示す。 このことを念頭に置いて、任意の確率変数系はCFDを満たすものとみなすことができる。 cfdの概念は、非文脈性の概念と密接に関連しているが、それと異なる性質であり、系、特にいくつかの量子系に逆らわれて、系に対して保持されるかもしれない、あるいは持たないかもしれない後者の性質である。

Counterfactual definiteness (CFD) means that if some property is measured in some context, then the outcome of the measurement would have been the same had this property been measured in a different context. A context includes all other measurements made together with the one in question, and the spatiotemporal relations among them. The proviso for CFD is non-disturbance: any physical influence of the contexts on the property being measured is excluded by the laws of nature, so that no one measuring this property has a way of ascertaining its context. It is usually claimed that in quantum mechanics CFD does not hold, because if one assigns the same value to a property in all contexts it is measured in, one runs into a logical contradiction, or at least contravenes quantum theory and experimental evidence. We show that this claim is not substantiated if one takes into account that only one of the possible contexts can be a factual context, all other contexts being counterfactual. With this in mind, any system of random variables can be viewed as satisfying CFD. The concept of CFD is closely related to but distinct from that of noncontextuality, and it is the latter property that may or may not hold for a system, in particular being contravened by some quantum systems
翻訳日:2023-09-22 18:44:34 公開日:2023-09-21
# 難民クレームとその弁護士の力--機械学習を用いた難民法における意思決定--

Empowering Refugee Claimants and their Lawyers: Using Machine Learning to Examine Decision-Making in Refugee Law ( http://arxiv.org/abs/2308.11531v2 )

ライセンス: Link先を確認
Claire Barale(参考訳) 本研究の目的は, 弁護士, 裁判官, 行政機関, 債権者等の難民状況判断の利害関係者を支援し, 支援することであり, データ駆動知性を通じてよりよい意思決定を行い, 関係者全員の難民申請プロセスの理解と透明性を高めることにある。 このPhDプロジェクトは,(1)過去の事例を検索すること,(2)カナダの事例のデータセット上での法的意思決定プロセスを分析すること,の2つの目的を有する。 本稿では,本研究の現状について述べる。その内容は,第1部における完成実験と,第2部に関する継続的な取り組みを含む。 nlpベースのソリューションはこれらの課題に対処するのに適しており、すべてのステップを自動化できる可能性について調査する。 さらに,難民法における今後のNLP研究のための新しいベンチマークを導入する。 当社の方法論は,意思決定までの時間短縮,公平で透明性の高い成果,意思決定品質の向上など,すべてのエンドユーザとステークホルダに包括的であることを目標としています。

Our project aims at helping and supporting stakeholders in refugee status adjudications, such as lawyers, judges, governing bodies, and claimants, in order to make better decisions through data-driven intelligence and increase the understanding and transparency of the refugee application process for all involved parties. This PhD project has two primary objectives: (1) to retrieve past cases, and (2) to analyze legal decision-making processes on a dataset of Canadian cases. In this paper, we present the current state of our work, which includes a completed experiment on part (1) and ongoing efforts related to part (2). We believe that NLP-based solutions are well-suited to address these challenges, and we investigate the feasibility of automating all steps involved. In addition, we introduce a novel benchmark for future NLP research in refugee law. Our methodology aims to be inclusive to all end-users and stakeholders, with expected benefits including reduced time-to-decision, fairer and more transparent outcomes, and improved decision quality.
翻訳日:2023-09-22 18:44:10 公開日:2023-09-21
# 任意の量子計算の正しい実現に対する信頼を得る

Gaining confidence on the correct realization of arbitrary quantum computations ( http://arxiv.org/abs/2308.11368v2 )

ライセンス: Link先を確認
Jose Carrasco, Marc Langer, Antoine Neven, Barbara Kraus(参考訳) 本稿では,任意の普遍量子計算を実現するための検証プロトコルを提案する。 プロトコルの導出は、古典的に効率的にシミュレートできるマッチゲート計算が、追加のリソースを補うと普遍になるという事実に基づいている。 弱シミュレーション,ランダムコンパイル,古典統計などのツールを組み合わせて検証回路を導出する。 これらの回路は、その特性を持つ (i)オリジナル回路とよく似ている。 (ii) 理想,すなわちエラーフリー,シナリオ,さらにはエラーが存在する現実的な状況において,古典的に効率的にシミュレートすることができない。 実際、プロトコルの1つでは、元の計算と全く同じ回路をわずかに修正された入力状態に適用する。

We present verification protocols to gain confidence in the correct performance of the realization of an arbitrary universal quantum computation. The derivation of the protocols is based on the fact that matchgate computations, which are classically efficiently simulable, become universal if supplemented with additional resources. We combine tools from weak simulation, randomized compiling, and classical statistics to derive verification circuits. These circuits have the property that (i) they strongly resemble the original circuit and (ii) cannot only be classically efficiently simulated in the ideal, i.e. error free, scenario, but also in the realistic situation where errors are present. In fact, in one of the protocols we apply exactly the same circuit as in the original computation, however, to a slightly modified input state.
翻訳日:2023-09-22 18:43:50 公開日:2023-09-21
# lateval:横思考パズルからの不完全な情報を含む対話型llms評価ベンチマーク

LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles ( http://arxiv.org/abs/2308.10855v2 )

ライセンス: Link先を確認
Shulin Huang, Shirong Ma, Yinghui Li, Mengzuo Huang, Wuhe Zou, Weidong Zhang, Hai-Tao Zheng(参考訳) LLMの継続的な進化と改良により、彼らは印象的な論理的推論や垂直思考能力を備えています。 しかし、彼らは箱から外れるだろうか? 彼らは有能な側方思考能力を持っているか? 横方向思考パズルのセットアップに続いて,インタラクティブなフレームワーク内でモデルの横方向思考を評価する新しい評価ベンチマークであるLatEvalを提案する。 本ベンチマークでは,モデルによる質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。 LLMのほとんど全てが、インタラクション中に横方向の思考を採用するのに苦労していることがわかった。 例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間に比べて目立った差は維持されている。 この評価ベンチマークは、効果的なAIアシスタントにとって極めて困難で独特なタスクをLLMに提供する。

With the continuous evolution and refinement of LLMs, they are endowed with impressive logical reasoning or vertical thinking capabilities. But can they think out of the box? Do they possess proficient lateral thinking abilities? Following the setup of Lateral Thinking Puzzles, we propose a novel evaluation benchmark, LatEval, which assesses the model's lateral thinking within an interactive framework. In our benchmark, we challenge LLMs with 2 aspects: the quality of questions posed by the model and the model's capability to integrate information for problem-solving. We find that nearly all LLMs struggle with employing lateral thinking during interactions. For example, even the most advanced model, GPT-4, exhibits the advantage to some extent, yet still maintain a noticeable gap when compared to human. This evaluation benchmark provides LLMs with a highly challenging and distinctive task that is crucial to an effective AI assistant.
翻訳日:2023-09-22 18:43:36 公開日:2023-09-21
# 大規模言語モデルのためのインストラクションチューニング:サーベイ

Instruction Tuning for Large Language Models: A Survey ( http://arxiv.org/abs/2308.10792v2 )

ライセンス: Link先を確認
Shengyu Zhang, Linfeng Dong, Xiaoya Li, Sen Zhang, Xiaofei Sun, Shuhe Wang, Jiwei Li, Runyi Hu, Tianwei Zhang, Fei Wu and Guoyin Wang(参考訳) 本稿では,大規模言語モデル(LLM)の能力と制御性を向上するための重要な技術である,命令チューニング(IT)の急速な発展分野における研究成果について調査する。 インストラクションチューニング(インストラクションチューニング)とは、LLMの次の単語予測目標と、LLMを人間の指示に従わせるというユーザの目的とのギャップを埋める、教師付き方式で、‘textsc{(インストラクション、アウトプット)’ペアからなるデータセット上で、LLMをさらに訓練するプロセスを指す。 本研究は、ITの一般的な方法論、ITデータセットの構築、ITモデルの構築、異なるモダリティ、ドメイン、アプリケーションへのアプリケーション、およびITの結果に影響を与える側面(例えば、命令出力の生成、命令データセットのサイズなど)に関する分析を含む、文献の体系的なレビューを行う。 また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。

This paper surveys research works in the quickly advancing field of instruction tuning (IT), a crucial technique to enhance the capabilities and controllability of large language models (LLMs). Instruction tuning refers to the process of further training LLMs on a dataset consisting of \textsc{(instruction, output)} pairs in a supervised fashion, which bridges the gap between the next-word prediction objective of LLMs and the users' objective of having LLMs adhere to human instructions. In this work, we make a systematic review of the literature, including the general methodology of IT, the construction of IT datasets, the training of IT models, and applications to different modalities, domains and applications, along with an analysis on aspects that influence the outcome of IT (e.g., generation of instruction outputs, size of the instruction dataset, etc). We also review the potential pitfalls of IT along with criticism against it, along with efforts pointing out current deficiencies of existing strategies and suggest some avenues for fruitful research.
翻訳日:2023-09-22 18:43:23 公開日:2023-09-21
# 長期人物再同定のための衣服の学習と3次元形状表現

Learning Clothing and Pose Invariant 3D Shape Representation for Long-Term Person Re-Identification ( http://arxiv.org/abs/2308.10658v3 )

ライセンス: Link先を確認
Feng Liu, Minchul Kim, ZiAng Gu, Anil Jain, Xiaoming Liu(参考訳) 長期人物再同定(LT-ReID)はコンピュータビジョンや生体認証においてますます重要になっている。 本研究では,歩行者認識の域を超えてlt-reidを拡張し,広い時間領域における布の交換シナリオを考慮しつつ,より広い実世界の人間活動を含むことを目的とする。 この設定は、人間のポーズや衣服の多様性によって引き起こされる幾何学的ミスアライメントと外観の曖昧さによって、さらなる課題をもたらす。 これらの課題に対処するため、我々は3DInvarReIDの新しいアプローチを提案する。 一 立体服を着た人間の非同一性成分(目的、衣服の形状及びテクスチャ)から身元を遠ざけること。 (ii)正確な3d布身形状の再構築と人為リードの裸体形状の判別的特徴の学習 LT-ReIDの研究をよりよく評価するために,さまざまな人間の活動や衣服の変化を含む,CCDAと呼ばれる実世界のデータセットを収集した。 実験では,人物ReIDに対するアプローチの優れた性能を示す。

Long-Term Person Re-Identification (LT-ReID) has become increasingly crucial in computer vision and biometrics. In this work, we aim to extend LT-ReID beyond pedestrian recognition to include a wider range of real-world human activities while still accounting for cloth-changing scenarios over large time gaps. This setting poses additional challenges due to the geometric misalignment and appearance ambiguity caused by the diversity of human pose and clothing. To address these challenges, we propose a new approach 3DInvarReID for (i) disentangling identity from non-identity components (pose, clothing shape, and texture) of 3D clothed humans, and (ii) reconstructing accurate 3D clothed body shapes and learning discriminative features of naked body shapes for person ReID in a joint manner. To better evaluate our study of LT-ReID, we collect a real-world dataset called CCDA, which contains a wide variety of human activities and clothing changes. Experimentally, we show the superior performance of our approach for person ReID.
翻訳日:2023-09-22 18:43:00 公開日:2023-09-21
# ALI-DPFL:適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v2 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen(参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することで、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらの訓練パラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推論することができる。 その結果、ディファレンシャルプライバシ(dp)はそのような攻撃を防ぐためにflで広く使われている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 この収束を理論的に解析することで、2つの逐次的なグローバル更新の間のクライアントに対する微分プライベートなローカルイテレーションの最適な数を見つけることができる。 そこで我々は,適応型局所反復法 (ALI-DPFL) を用いた差分プライベート・フェデレーション学習アルゴリズムを設計した。 fashionmnistとcifar10データセットでアルゴリズムを実験し、リソース・コンストラクティブ・シナリオにおける以前の作業よりも大幅に優れた性能を示す。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication round are constrained. By theoretically analyzing the convergence, we can find the optimal number of differentially private local iterations for clients between any two sequential global updates. Based on this, we design an algorithm of differentially private federated learning with adaptive local iterations (ALI-DPFL). We experiment our algorithm on the FashionMNIST and CIFAR10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario.
翻訳日:2023-09-22 18:42:46 公開日:2023-09-21
# 絡み合い能力とユニタリ量子ゲーム

Entangling capabilities and unitary quantum games ( http://arxiv.org/abs/2308.09673v2 )

ライセンス: Link先を確認
Rebecca Erbanni, Antonios Varvitsiotis, Dario Poletti(参考訳) 我々は、同じ多体量子レジスタ上で交互に作用する2人のプレイヤー間のゲームのクラスを考える。 各プレイヤーはレジスタ上でユニタリ操作を行うことができ、各プレイヤーがレジスタに作用した後、エネルギーを測定する。 プレイヤーAはエネルギーを最大化し、プレイヤーBは最小にする。 このゼロサムゲームのクラスは、両方のプレイヤーがレジスタの同じ部分を絡めることができる場合、明確な第2のムーバーアドバンテージを持つ。 しかし、第1のプレイヤーが第2のプレイヤーよりも多くの量子ビットを絡めることができる場合(これは量子的優位性(quantum advantage)と呼ばれる)、第2のムーバ優位性は著しく低下する。 プレイヤーAとプレイヤーBの異なる種類の量子優位性、レジスタの異なるサイズ、特に、絶対的に最大に絡み合った状態が達成できないシナリオについて研究する。 この場合、ランダムなユニタリの使用の有効性についても検討する。 最後に,量子電池のエルゴトロピー理論に起因した戦略に,量子アドバンテージを持つプレイヤーが依存できるレジスタの初期準備について考察する。

We consider a class of games between two competing players that take turns acting on the same many-body quantum register. Each player can perform unitary operations on the register, and after each one of them acts on the register the energy is measured. Player A aims to maximize the energy while player B to minimize it. This class of zero-sum games has a clear second mover advantage if both players can entangle the same portion of the register. We show, however, that if the first player can entangle a larger number of qubits than the second player (which we refer to as having quantum advantage), then the second mover advantage can be significantly reduced. We study the game for different types of quantum advantage of player A versus player B and for different sizes of the register, in particular, scenarios in which absolutely maximally entangled states cannot be achieved. In this case, we also study the effectiveness of using random unitaries. Last, we consider mixed initial preparations of the register, in which case the player with a quantum advantage can rely on strategies stemming from the theory of ergotropy of quantum batteries.
翻訳日:2023-09-22 18:42:31 公開日:2023-09-21
# スコープは必要なもの:HPCコードにLLMを変換する

Scope is all you need: Transforming LLMs for HPC Code ( http://arxiv.org/abs/2308.09440v2 )

ライセンス: Link先を確認
Tal Kadosh, Niranjan Hasabnis, Vy A. Vo, Nadav Schneider, Neva Krien, Abdul Wasay, Nesreen Ahmed, Ted Willke, Guy Tamir, Yuval Pinter, Timothy Mattson, and Gal Oren(参考訳) 強力な計算リソースへのアクセスが容易になるにつれ、ソフトウェア開発におけるAIの分野において、さまざまなプログラミングタスクに対処する大規模で大規模な言語モデル(LLM)を開発する傾向が高まっている。 ハイパフォーマンスコンピューティング(HPC)領域のタスクに適用されるLLMでさえ、巨大なサイズ(数十億のパラメータなど)であり、トレーニングに高価な計算資源を必要とする。 HPC固有のタスクには、HPCとは無関係な自然言語やプログラミング言語でトレーニングされた大規模なLLMが必要なのでしょうか? この一連の研究において、我々は、特定のドメインに対してより小さなLLMを開発することで、既存のLLMの設計選択を問うことを目指しています。 具体的には、ドメインとしてのHPCから始まり、HPCのコード前処理とコンパイル中心のタスクに特化して設計された、Tokompilerという新しいトークン化ツールを提案する。 Tokompilerは言語プリミティブの知識を活用して言語指向のトークンを生成し、コード構造に対するコンテキスト対応の理解を提供する。 私たちはTokompilerを2つの最先端モデルであるSPT-CodeとPolycoderの事前トレーニングに使用しました。 これらのモデルの性能を従来のLLMと比較して評価する。 結果から,Tokompilerは正規化・複雑化テストにおける従来のトークン化ツールと比較して,コード補完精度と意味理解を約1パープレキシティスコアまで向上させることがわかった。 本研究は、HPCとコンパイルタスクのユニークな要求に対応するため、ドメイン固有のLLMのさらなる進歩の道を開く。

With easier access to powerful compute resources, there is a growing trend in the field of AI for software development to develop larger and larger language models (LLMs) to address a variety of programming tasks. Even LLMs applied to tasks from the high-performance computing (HPC) domain are huge in size (e.g., billions of parameters) and demand expensive compute resources for training. We found this design choice confusing - why do we need large LLMs trained on natural languages and programming languages unrelated to HPC for HPC-specific tasks? In this line of work, we aim to question design choices made by existing LLMs by developing smaller LLMs for specific domains - we call them domain-specific LLMs. Specifically, we start off with HPC as a domain and propose a novel tokenizer named Tokompiler, designed specifically for preprocessing code in HPC and compilation-centric tasks. Tokompiler leverages knowledge of language primitives to generate language-oriented tokens, providing a context-aware understanding of code structure while avoiding human semantics attributed to code structures completely. We applied Tokompiler to pre-train two state-of-the-art models, SPT-Code and Polycoder, for a Fortran code corpus mined from GitHub. We evaluate the performance of these models against the conventional LLMs. Results demonstrate that Tokompiler significantly enhances code completion accuracy and semantic understanding compared to traditional tokenizers in normalized-perplexity tests, down to ~1 perplexity score. This research opens avenues for further advancements in domain-specific LLMs, catering to the unique demands of HPC and compilation tasks.
翻訳日:2023-09-22 18:42:11 公開日:2023-09-21
# CPPF:自動音声認識のための文脈・後処理自由モデル

CPPF: A contextual and post-processing-free model for automatic speech recognition ( http://arxiv.org/abs/2309.07413v2 )

ライセンス: Link先を確認
Lei Zhang, Zhengkun Tian, Xiang Chen, Jiaming Sun, Hongyu Xiang, Ke Ding, Guanglu Wan(参考訳) ASRシステムは近年急速に普及している。 しかし、それらのテキスト出力は、実際に利用される前に処理後タスクを必要とすることが多い。 この問題に対処するために,llmsとwhisperの多面的機能から着想を得て,音声認識に関連する複数のasrテキスト処理タスクをasrモデルに統合することに注力する。 この統合は、マルチステージパイプラインを短縮するだけでなく、カスケードエラーの伝播を防止し、後処理のテキストを直接生成する。 本研究では、コンテキストASRや複数のASRポスト処理タスクを含む、ASR関連の処理タスクに焦点をあてる。 この目的を達成するため,我々は,asr処理に代わる汎用かつ高効率な選択肢を提供するcppfモデルを提案する。 CPPFは認識性能を著しく損なうことなくこれらのタスクをシームレスに統合する。

ASR systems have become increasingly widespread in recent years. However, their textual outputs often require post-processing tasks before they can be practically utilized. To address this issue, we draw inspiration from the multifaceted capabilities of LLMs and Whisper, and focus on integrating multiple ASR text processing tasks related to speech recognition into the ASR model. This integration not only shortens the multi-stage pipeline, but also prevents the propagation of cascading errors, resulting in direct generation of post-processed text. In this study, we focus on ASR-related processing tasks, including Contextual ASR and multiple ASR post processing tasks. To achieve this objective, we introduce the CPPF model, which offers a versatile and highly effective alternative to ASR processing. CPPF seamlessly integrates these tasks without any significant loss in recognition performance.
翻訳日:2023-09-22 18:36:38 公開日:2023-09-21
# 操作独立事象は量子論において互いに影響を及ぼすことができる

Operationally independent events can influence each other in quantum theory ( http://arxiv.org/abs/2309.06488v2 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 自然の既知の記述では、2つの物理系が互いに独立であると見なされるが、一方の系に対する何らかの作用が他方の系を変えない場合である。 世界に関する我々の古典的な直観から、これらの2つの系はいかなる方法でも影響を受けておらず、したがってこれら2つの系は因果的に切断されているか、互いに影響を与えていないと結論づける。 この考え方に基づいて、量子論において、そのような古典的独立性の概念は満たされない、すなわち、2つの量子系は、一方の系上の操作が他方に可観測効果を与えていない場合でも、互いに影響しあうことができる。 我々は,量子ネットワークの枠組みを考察し,クレーター=ホルン=シモニー=ホルト不等式を利用した線形証人を構築する。 また、量子状態と測定値のデバイス非依存認証に対する古典的独立性の最大違反から生じる興味深い応用の1つについても論じる。

In any known description of nature, two physical systems are considered independent of each other if any action on one of the systems does not change the other system. From our classical intuitions about the world, we further conclude that these two systems are not affecting each other in any possible way, and thus these two systems are causally disconnected or they do not influence each other. Building on this idea, we show that in quantum theory such a notion of classical independence is not satisfied, that is, two quantum systems can still influence each other even if any operation on one of the systems does not create an observable effect on the other. For our purpose, we consider the framework of quantum networks and construct a linear witness utilizing the Clauser-Horne-Shimony-Holt inequality. We also discuss one of the interesting applications resulting from the maximal violation of classical independence towards device-independent certification of quantum states and measurements.
翻訳日:2023-09-22 18:36:11 公開日:2023-09-21
# 非平衡多体理論における作業統計と断熱的仮定

Work Statistics and Adiabatic Assumption in Nonequilibrium Many-Body Theory ( http://arxiv.org/abs/2309.06258v2 )

ライセンス: Link先を確認
Yi Zuo, Qinghong Yang, Bang-Gui Liu, Dong E Liu(参考訳) ケルディッシュ場理論は断熱的な仮定に基づくもので、非平衡多体系に対処するために広く使われている枠組みである。 それでも、相互作用するギブス状態に対処する際のそのような断続的な仮定の妥当性は論争の的のままである。 非平衡熱力学で発達した作業統計学の知識を用いてこの問題を研究する。 その結果、初期ギブス状態から別の状態へ遷移する進化の特徴を表す普遍的な定理を導出する。 この定理に基づき、断熱的進化が相互作用しないギブス状態から相互作用する状態へと遷移しないことを解析的に確認する。 しかし、この断熱的アプローチは、非断熱的アプローチと比較して優れた近似である。 我々の理論と予測を検証する数値も提供される。 さらに,量子計算領域におけるgibbs状態の生成に関する知見が得られた。

Keldysh field theory, based on adiabatic assumptions, serves as an widely used framework for addressing nonequilibrium many-body systems. Nonetheless, the validity of such adiabatic assumptions when addressing interacting Gibbs states remains a topic of contention. We use the knowledge of work statistics developed in nonequilibrium thermodynamics to study this problem. Consequently, we deduce a universal theorem delineating the characteristics of evolutions that transition an initial Gibbs state to another. Based on this theorem, we analytically ascertain that adiabatic evolutions fail to transition a non-interacting Gibbs state to its interacting counterpart. However, this adiabatic approach remains a superior approximation relative to its non-adiabatic counterpart. Numerics verifying our theory and predictions are also provided. Furthermore, our findings render insights into the preparation of Gibbs states within the domain of quantum computation.
翻訳日:2023-09-22 18:35:54 公開日:2023-09-21
# 連続フェムト秒結晶学におけるパターン分類のための弱教師付き学習

Weakly supervised learning for pattern classification in serial femtosecond crystallography ( http://arxiv.org/abs/2309.04474v2 )

ライセンス: Link先を確認
Jianan Xie, Ji Liu, Chi Zhang, Xihui Chen, Ping Huai, Jie Zheng, Xiaofeng Zhang(参考訳) X線自由電子レーザー施設におけるシリアルフェムト秒結晶学は結晶構造決定の新しい時代を開く。 しかし、高分解能構造を決定するのに必要な回折パターンの総数は膨大であるため、これらの実験のデータ処理は前例のない課題に直面している。 機械学習の手法は、このような大量のデータを扱う上で重要な役割を果たす可能性が高い。 畳み込みニューラルネットワークはパターン分類の分野で大きな成功を収めているが、ネットワークのトレーニングにはラベル付きで非常に大きなデータセットが必要である。 ラベル付きデータセットへのThの依存は、多数の回折パターンに注釈をつけるのに非常にコストがかかるため、ネットワークの適用を厳しく制限する。 本稿では,学習に必要なラベル付きデータセットのサイズを可能な限り削減することを目的として,弱い教師付きアルゴリズムによる回折パターンの分類について述べる。 その結果、弱教師付き手法は、完全教師付き手法に匹敵する精度を達成しつつ、ラベル付きパターンの数を大幅に削減できることがわかった。

Serial femtosecond crystallography at X-ray free electron laser facilities opens a new era for the determination of crystal structure. However, the data processing of those experiments is facing unprecedented challenge, because the total number of diffraction patterns needed to determinate a high-resolution structure is huge. Machine learning methods are very likely to play important roles in dealing with such a large volume of data. Convolutional neural networks have made a great success in the field of pattern classification, however, training of the networks need very large datasets with labels. Th is heavy dependence on labeled datasets will seriously restrict the application of networks, because it is very costly to annotate a large number of diffraction patterns. In this article we present our job on the classification of diffraction pattern by weakly supervised algorithms, with the aim of reducing as much as possible the size of the labeled dataset required for training. Our result shows that weakly supervised methods can significantly reduce the need for the number of labeled patterns while achieving comparable accuracy to fully supervised methods.
翻訳日:2023-09-22 18:35:27 公開日:2023-09-21
# 現実的なファイバーベース量子リピータスキームの完全解析

Complete analysis of a realistic fiber-based quantum repeater scheme ( http://arxiv.org/abs/2309.04151v2 )

ライセンス: Link先を確認
Adam Kinos, Andreas Walther, Stefan Kr\"oll, and Lars Rippe(参考訳) 本稿では,長距離の絡み合いを分散する量子リピータプロトコルを提案し,各リピータノードは1つの単一光子エミッタに結合可能な複数のキュービットを含む。 エミッタからの光子は、隣接ノード内のキュービット間のエンタングルメント生成を実行する。 このプロトコルは、エミッタを量子ビットと光子から切り離すため、他の量子ビットを絡めるために再利用することができる。 したがって、プロトコルは時間多重化され、生成されたEPRペアの速度が増加する。 エンタングルメントの距離を延ばし、エンタングルド量子ビットの誤差を低減するために、決定論的エンタングルメントスワッピングとシェラルドエンタングルメント浄化を用いる。 我々は,初期化,2量子ゲート,キュービット測定誤差などの関連するすべてのエラー源と,時間とともにキュービットの指数的デコヒーレンスを考慮し,完全なプロトコル解析を行う。 後者は、幅広い実験パラメータのプロトコル性能を分析し、1000ドルの距離で1ドル1000ドルHzから秘密鍵レートを得るため、特に重要である。 以上の結果から,1秒あたりのメモリコヒーレンス時間と2キュービットゲートと測定誤差が10^{-3}$の順に到達し,直接伝送で達成可能な距離よりも長い距離で合理的な秘密鍵レートを得ることが重要であることが示唆された。

We present a quantum repeater protocol for distributing entanglement over long distances, where each repeater node contains several qubits that can couple to one single-photon emitter. Photons from the emitters perform heralded entanglement generation between qubits in neighboring nodes. The protocol leaves the emitters disentangled from the qubits and photons, thus allowing them to be reused to entangle other qubits. The protocol can therefore be time multiplexed, which increases the rate of generated EPR pairs. Deterministic entanglement swapping and heralded entanglement purification are used to extend the distance of the entanglement and reduce the error of the entangled qubits, respectively. We perform a complete protocol analysis by considering all relevant error sources, such as initialization, two-qubit gate, and qubit measurement errors, as well as the exponential decoherence of the qubits with time. The latter is particularly important since we analyze the protocol performance for a broad range of experimental parameters and obtain secret key rates ranging from $1 \rightarrow 1000$ Hz at a distance of $1000$ km. Our results suggest that it is important to reach a qubit memory coherence time of around one second, and two-qubit gate and measurement errors in the order of $10^{-3}$ to obtain reasonable secret key rates over distances longer than achievable with direct transmission.
翻訳日:2023-09-22 18:35:11 公開日:2023-09-21
# ウェーブレット領域における動的フレーム補間

Dynamic Frame Interpolation in Wavelet Domain ( http://arxiv.org/abs/2309.03508v2 )

ライセンス: Link先を確認
Lingtong Kong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Ying Tai, Chengjie Wang, Jie Yang(参考訳) ビデオフレーム補間は、より流動的な視覚体験のためにフレームレートを向上させる重要な低レベル視覚タスクである。 既存の手法は高度な動きモデルと合成ネットワークを用いることで大きな成功を収めた。 しかし、対象のフレームを合成する際の空間的冗長性は十分に調べられておらず、多くの非効率な計算をもたらす可能性がある。 一方、フレーム補間における計算圧縮度はテクスチャ分布とシーン動作の両方に大きく依存しており、各入力フレームペアの時空間情報をより良い圧縮度選択のために理解する必要がある。 本稿では、上記の問題に対処するために、waveletvfiと呼ばれる2段階フレーム補間フレームワークを提案する。 まず、軽量な動き知覚ネットワークを用いて中間光流を推定し、次いでウェーブレット合成ネットワークは、フロー整列コンテキスト特徴を用いて、効率的な目標フレーム再構成のためのスパース畳み込みによるマルチスケールウェーブレット係数を予測し、各スケールでの計算を制御するスパース有効マスクを決定しきい値比で決定する。 従来の手法のように固定値を設定する代わりに,動作知覚ネットワークに分類器を埋め込んで各サンプルの動的閾値を学習することで,精度をほぼ損なわずに計算精度を向上できることがわかった。 一般的な高解像度およびアニメーションフレーム補間ベンチマークでは、提案されたWaveletVFIは、類似した精度を維持しながら40%まで計算を削減できるため、他の最先端技術に対してより効率的に動作する。 コードはhttps://github.com/ltkong218/WaveletVFIで入手できる。

Video frame interpolation is an important low-level vision task, which can increase frame rate for more fluent visual experience. Existing methods have achieved great success by employing advanced motion models and synthesis networks. However, the spatial redundancy when synthesizing the target frame has not been fully explored, that can result in lots of inefficient computation. On the other hand, the computation compression degree in frame interpolation is highly dependent on both texture distribution and scene motion, which demands to understand the spatial-temporal information of each input frame pair for a better compression degree selection. In this work, we propose a novel two-stage frame interpolation framework termed WaveletVFI to address above problems. It first estimates intermediate optical flow with a lightweight motion perception network, and then a wavelet synthesis network uses flow aligned context features to predict multi-scale wavelet coefficients with sparse convolution for efficient target frame reconstruction, where the sparse valid masks that control computation in each scale are determined by a crucial threshold ratio. Instead of setting a fixed value like previous methods, we find that embedding a classifier in the motion perception network to learn a dynamic threshold for each sample can achieve more computation reduction with almost no loss of accuracy. On the common high resolution and animation frame interpolation benchmarks, proposed WaveletVFI can reduce computation up to 40% while maintaining similar accuracy, making it perform more efficiently against other state-of-the-arts. Code is available at https://github.com/ltkong218/WaveletVFI.
翻訳日:2023-09-22 18:34:15 公開日:2023-09-21
# グリーン関数に対する極小特異性の原理

Principle of minimal singularity for Green's functions ( http://arxiv.org/abs/2309.02201v2 )

ライセンス: Link先を確認
Wenliang Li(参考訳) 近年,d$次元時空における非摂動型ダイソン・シュウィンガー方程式の不確定性を解くための2つのアプローチが提案されている。 あるアプローチでは、グリーンの関数 $g_n=\langle\phi^n\rangle$ の漸近的挙動を利用しており、もう一方は null の状態条件を使っている。 この研究において、この二つの一見異なるアプローチは、新しい原理によって統一することができることを指摘した:複素平面の特異点は極小であるべきである。 d=0$ に対して、一般の $g\phi^m$ 理論の厳密なグリーン函数は、本質特異点の複雑性を $n=\infty$ で最小化することによって決定できる。 D=1$ の場合、クォート理論を再検討し、グリーン関数の異なる枝が正確な解で融合することを発見する。 次に、最小特異性の原理を用いて一次元エルミート四次および非エルミート立方体理論を解く。

Recently, two approaches were proposed to resolve the indeterminacy of the nonperturbative Dyson-Schwinger equations in $D$-dimensional spacetime. One approach utilizes the asymptotic behavior of the Green's functions $G_n=\langle\phi^n\rangle$ at large $n$, while the other one makes use of the null state condition. In this work, we point out that these two seemingly different approaches can be unified by a novel principle: Singularities in the complex plane should be minimal. For $D=0$, the exact Green's functions of the general $g\phi^m$ theory can be determined by minimizing the complexity of the essential singularities at $n=\infty$. For $D=1$, we revisit the quartic theory and discover the merging of different branches of Green's functions at exact solutions. Then we solve the one-dimensional Hermitian quartic and non-Hermitian cubic theories using the principle of minimal singularity.
翻訳日:2023-09-22 18:33:10 公開日:2023-09-21
# ExBluRF:Extreme Motion Blurred画像のための高効率放射場

ExBluRF: Efficient Radiance Fields for Extreme Motion Blurred Images ( http://arxiv.org/abs/2309.08957v2 )

ライセンス: Link先を確認
Dongwoo Lee, Jeongtaek Oh, Jaesung Rim, Sunghyun Cho and Kyoung Mu Lee(参考訳) 本稿では,効率的な放射場最適化に基づく極端運動ぼかし画像の新しいビュー合成法であるExBluRFを提案する。 提案手法は,6-DOFカメラトラジェクトリに基づく運動ぼけの定式化とボクセルベースの放射場からなる。 極めてぼやけた画像から、ぼやけた画像を生成するカメラの軌跡を共同で推定し、シャープな輝度場を最適化する。 トレーニングでは、カメラ軌道に沿った複数の光を蓄積して、物理的な動きぼけ操作に相当する単一のぼやけた色を再構成する。 ぼやけた画像空間におけるフォトコンシステンシー損失を最小限に抑え、全画像のぼやけを説明するカメラ軌跡を持つ鋭い輝度場を得る。 ぼやけた画像空間における共同最適化は、そのぼやけたサイズに比例した計算と資源の激増を要求する。 MLPベースのフレームワークを低次元の6-DOFカメラポーズとボクセルベースの放射場に置き換えることで,この問題を解決する。 既存の作品と比較して、より鮮明な3dシーンを10倍のトレーニング時間とgpuメモリ消費で、動きのぼやけたビューから復元する。

We present ExBluRF, a novel view synthesis method for extreme motion blurred images based on efficient radiance fields optimization. Our approach consists of two main components: 6-DOF camera trajectory-based motion blur formulation and voxel-based radiance fields. From extremely blurred images, we optimize the sharp radiance fields by jointly estimating the camera trajectories that generate the blurry images. In training, multiple rays along the camera trajectory are accumulated to reconstruct single blurry color, which is equivalent to the physical motion blur operation. We minimize the photo-consistency loss on blurred image space and obtain the sharp radiance fields with camera trajectories that explain the blur of all images. The joint optimization on the blurred image space demands painfully increasing computation and resources proportional to the blur size. Our method solves this problem by replacing the MLP-based framework to low-dimensional 6-DOF camera poses and voxel-based radiance fields. Compared with the existing works, our approach restores much sharper 3D scenes from challenging motion blurred views with the order of 10 times less training time and GPU memory consumption.
翻訳日:2023-09-22 18:23:08 公開日:2023-09-21
# drifter: 大規模レコメンデーションシステムにおけるデータ完全性向上のための効率的なオンライン機能監視

Drifter: Efficient Online Feature Monitoring for Improved Data Integrity in Large-Scale Recommendation Systems ( http://arxiv.org/abs/2309.08617v2 )

ライセンス: Link先を確認
Bla\v{z} \v{S}krlj, Nir Ki-Tov, Lee Edelist, Natalia Silberstein, Hila Weisman-Zohar, Bla\v{z} Mramor, Davorin Kopi\v{c}, Naama Ziporin(参考訳) 実世界のプロダクションシステムは、大規模でダイナミックなストリームにおけるデータ品質の維持に苦しむことが多い。 本稿では,オンライン機能監視および検証のための効率的で軽量なシステムであるdrifterを推奨ユースケースで紹介する。 drifterは、アジャイルでレスポンシブで適応可能なデータ品質の監視を提供することで、既存の方法の制限に対処し、リアルタイムの根本原因分析、ドリフト検出、問題のあるプロダクションイベントへの洞察を可能にする。 スパースデータと異常検出のアイデアのための最先端のオンライン機能ランキングを統合することで、drifterは高度にスケーラブルでリソース効率が良く、1分間に数百万のインスタンスを処理する運用毎に2スレッドと1ギガバイト未満のramを必要とする。 実世界のデータセットの評価は、データ品質の問題の警告と緩和におけるDrifterの有効性を示し、リアルタイムライブレコメンデータシステムの信頼性と性能を大幅に向上させる。

Real-world production systems often grapple with maintaining data quality in large-scale, dynamic streams. We introduce Drifter, an efficient and lightweight system for online feature monitoring and verification in recommendation use cases. Drifter addresses limitations of existing methods by delivering agile, responsive, and adaptable data quality monitoring, enabling real-time root cause analysis, drift detection and insights into problematic production events. Integrating state-of-the-art online feature ranking for sparse data and anomaly detection ideas, Drifter is highly scalable and resource-efficient, requiring only two threads and less than a gigabyte of RAM per production deployments that handle millions of instances per minute. Evaluation on real-world data sets demonstrates Drifter's effectiveness in alerting and mitigating data quality issues, substantially improving reliability and performance of real-time live recommender systems.
翻訳日:2023-09-22 18:22:48 公開日:2023-09-21
# 階層的計画のための構成基礎モデル

Compositional Foundation Models for Hierarchical Planning ( http://arxiv.org/abs/2309.08587v2 )

ライセンス: Link先を確認
Anurag Ajay, Seungwook Han, Yilun Du, Shuang Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal(参考訳) 長期的目標を持つ新しい環境において効果的な意思決定を行うためには,空間的・時間的規模で階層的推論を行うことが重要である。 これには、抽象的なサブゴアシーケンスの計画、基礎となる計画の視覚的な推論、視覚運動制御によって考案された計画に従って行動を実行することが含まれる。 本研究では,言語,視覚,行動データに基づいて個別に訓練された複数の専門的基礎モデルを活用した階層的計画のための構成的基礎モデル(HiP)を提案する。 我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号計画を構築するために,大規模言語モデルを用いる。 生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。 この階層内で効果的な推論を可能にするために、反復的洗練を通じてモデル間の一貫性を強制する。 3つの異なる長方形テーブルトップ操作タスクにおいて,提案手法の有効性と適応性を示す。

To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.
翻訳日:2023-09-22 18:22:31 公開日:2023-09-21
# gauss-legendreノードにおける潜在空間正規化によるオートエンコーダ圧縮によるトポロジカルデータ構造保存の確保

Ensuring Topological Data-Structure Preservation under Autoencoder Compression due to Latent Space Regularization in Gauss--Legendre nodes ( http://arxiv.org/abs/2309.08228v2 )

ライセンス: Link先を確認
Chethan Krishnamurthy Ramanaik, Juan-Esteban Suarez Cardona, Anna Willmann, Pia Hanfeld, Nico Hoffmann and Michael Hecht(参考訳) 一般教師なしオートエンコーダに対するデータ独立潜在空間正規化制約を定式化する。 正規化は、ルジャンドルノードの自己エンコーダヤコビアンをサンプリングし、ガウス=レーゲンドル二次函数の中心となる。 この古典を再検討することで、正規化オートエンコーダが初期データ多様体を潜在表現に1対1で再埋め込みすることを保証することができる。 実証は、契約的自己エンコーディングのような事前提案された正規化戦略が、単純な例で既に位相的欠陥を引き起こしていることを示している。 対照的に、我々の貢献により正規化されている場合、トポロジカル保存は標準多層パーセプトロンニューラルネットワークによって既に確保されている。 この観察は、古典的なFashionMNISTデータセットを通じて、MRI脳スキャンのリアルタイム符号化問題まで拡張され、この正規化技術により、複雑な高次元データセットの信頼性の高い低次元表現が提供可能であることを示唆している。

We formulate a data independent latent space regularisation constraint for general unsupervised autoencoders. The regularisation rests on sampling the autoencoder Jacobian in Legendre nodes, being the centre of the Gauss-Legendre quadrature. Revisiting this classic enables to prove that regularised autoencoders ensure a one-to-one re-embedding of the initial data manifold to its latent representation. Demonstrations show that prior proposed regularisation strategies, such as contractive autoencoding, cause topological defects already for simple examples, and so do convolutional based (variational) autoencoders. In contrast, topological preservation is ensured already by standard multilayer perceptron neural networks when being regularised due to our contribution. This observation extends through the classic FashionMNIST dataset up to real world encoding problems for MRI brain scans, suggesting that, across disciplines, reliable low dimensional representations of complex high-dimensional datasets can be delivered due to this regularisation technique.
翻訳日:2023-09-22 18:22:15 公開日:2023-09-21
# 量子ans\"atzeで不毛高原を特徴づけるアジョイント

The Adjoint Is All You Need: Characterizing Barren Plateaus in Quantum Ans\"atze ( http://arxiv.org/abs/2309.07902v3 )

ライセンス: Link先を確認
Enrico Fontana, Dylan Herman, Shouvanik Chakrabarti, Niraj Kumar, Romina Yalovetzky, Jamie Heredge, Shree Hari Sureshbabu, and Marco Pistoia(参考訳) コンパクトリー群の表現論のツールを用いて、可観測性が動的リー代数(dla)内にあるパラメータ化された量子回路に対するバレン高原の理論を定式化する。 ハミルトン変分アンサッツ、量子交互作用素アンサツ、多くの等価量子ニューラルネットワークなど、広く使われるアンサアツの多種多様な種類はラザである。 特に、我々の理論は、量子回路の非自明で部分空間の制御不能な族である量子化合物 ans\atze に対するコスト関数の勾配の分散を計算する能力を初めて提供する。 我々は,コスト関数の勾配のばらつきをHaar初期化の下では,既存の数値観測と一致するDLAの次元と逆スケールすることを示した。 最後に、DLAの外にある観測可能なケースを扱うための潜在的な拡張と、その結果の影響について述べる。

Using tools from the representation theory of compact Lie groups, we formulate a theory of Barren Plateaus for parameterized quantum circuits whose observables lie in their dynamical Lie algebra (DLA), a setting that we term Lie algebra Supported Ansatz (LASA). A large variety of commonly used ans\"atze such as the Hamiltonian Variational Ansatz, Quantum Alternating Operator Ansatz, and many equivariant quantum neural networks are LASAs. In particular, our theory provides for the first time the ability to compute the variance of the gradient of the cost function for a non-trivial, subspace uncontrollable family of quantum circuits, the quantum compound ans\"atze. We rigorously prove that the variance of the gradient of the cost function, under Haar initialization, scales inversely with the dimension of the DLA, which agrees with existing numerical observations. Lastly, we include potential extensions for handling cases when the observable lies outside of the DLA and the implications of our results.
翻訳日:2023-09-22 18:21:57 公開日:2023-09-21
# L1-Aware Multilingual Mispronunciation Detection Framework

L1-aware Multilingual Mispronunciation Detection Framework ( http://arxiv.org/abs/2309.07719v2 )

ライセンス: Link先を確認
Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali(参考訳) 話者の母語(L1)と非母語(L2)との音韻的相違は、誤発音の主要な要因である。 本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。 入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。 まず、入力された音声を基準音素シーケンスに整列させるアテンション機構を配置する。 その後、補助モデルからL1-L2音声埋め込みを抽出し、L1言語とL2言語を識別するマルチタスク設定で事前訓練し、一次ネットワークに注入する。 最後に、L1-MultiMDDは、ターゲット言語である英語、アラビア語、マンダリンに対する接続性時間分類(CTC)の損失を利用して、統一された多言語音素認識タスクに最適化される。 L2-ARTIC, LATIC, AraVoiceL2v2, and unseen -- EpaDB, Speechocean762データセットに対するL1-MultiMDDフレームワークの有効性を示す。 すべてのターゲット言語におけるperとfalse reject rate(frr)の一貫した向上は、我々のアプローチの堅牢性、有効性、一般化性を確認します。

The phonological discrepancies between a speaker's native (L1) and the non-native language (L2) serves as a major factor for mispronunciation. This paper introduces a novel multilingual MDD architecture, L1-MultiMDD, enriched with L1-aware speech representation. An end-to-end speech encoder is trained on the input signal and its corresponding reference phoneme sequence. First, an attention mechanism is deployed to align the input audio with the reference phoneme sequence. Afterwards, the L1-L2-speech embedding are extracted from an auxiliary model, pretrained in a multi-task setup identifying L1 and L2 language, and are infused with the primary network. Finally, the L1-MultiMDD is then optimized for a unified multilingual phoneme recognition task using connectionist temporal classification (CTC) loss for the target languages: English, Arabic, and Mandarin. Our experiments demonstrate the effectiveness of the proposed L1-MultiMDD framework on both seen -- L2-ARTIC, LATIC, and AraVoiceL2v2; and unseen -- EpaDB and Speechocean762 datasets. The consistent gains in PER, and false rejection rate (FRR) across all target languages confirm our approach's robustness, efficacy, and generalizability.
翻訳日:2023-09-22 18:21:37 公開日:2023-09-21
# 製品状態 量子$p$-spinモデルを大きな$p$で最適化する

Product states optimize quantum $p$-spin models for large $p$ ( http://arxiv.org/abs/2309.11709v1 )

ライセンス: Link先を確認
Eric R. Anschuetz, David Gamarnik, Bobak T. Kiani(参考訳) 我々は、広く研究されている古典的スピングラスモデルの量子アナログである量子$p$局所スピングラスランダムハミルトニアンの最大エネルギーを推定する問題を考える。 E^*(p)$(適切な正規化)極大エネルギーを多数の量子ビットの極限の$n$で表すと、$E^*(p)$ approach $\sqrt{2\log 6}$が$p$の増加として現れる。 この値は、古典的なスピングラスの設定において広く研究されている、非常に単純な「ランダムエネルギーモデル」の最大エネルギーとして解釈される。 我々の最も顕著で(間違いなく)驚くべき結果は、生成状態であり、従って絡み合っていない準最大エネルギー状態の存在を証明している。 特に、任意の $e<e^*(p)$ に対して、高い確率で $n\to\infty$ とすると、十分な大きな定数 $p$ で、エネルギー $\geq e$ を持つ積状態が存在することが証明される。 さらに驚くべきことに、ポーリ固有状態のテンソル積に制限しても、これは事実である。 私たちの近似は、モノガミー・オブ・アングルメントスタイルの引数から知られているものを超えています -- この正規化において、最もよいのは、$n$で近似誤差が増大することです。 我々の結果は、ランダムな局所ハミルトニアンの極低温状態が無視できない絡み合いを示すべきという物理学における一般的な信念に挑戦するだけでなく、古典的なアルゴリズムは、大きな局所性を持つハミルトニアンを最適化する量子アルゴリズムと同じくらい効果的であることを示す。 この結果はランダム性(不規則性)の選択に関して頑健であり、リンデバーグの補間法を用いてスパースランダムハミルトニアンの場合に適用できる。 主結果の証明は、関連する分割関数の期待されるトレースを推定し、その漸近性と積状態の極値エネルギーを第2モーメント法を用いて一致させることによって得られる。

We consider the problem of estimating the maximal energy of quantum $p$-local spin glass random Hamiltonians, the quantum analogues of widely studied classical spin glass models. Denoting by $E^*(p)$ the (appropriately normalized) maximal energy in the limit of a large number of qubits $n$, we show that $E^*(p)$ approaches $\sqrt{2\log 6}$ as $p$ increases. This value is interpreted as the maximal energy of a much simpler so-called Random Energy Model, widely studied in the setting of classical spin glasses. Our most notable and (arguably) surprising result proves the existence of near-maximal energy states which are product states, and thus not entangled. Specifically, we prove that with high probability as $n\to\infty$, for any $E<E^*(p)$ there exists a product state with energy $\geq E$ at sufficiently large constant $p$. Even more surprisingly, this remains true even when restricting to tensor products of Pauli eigenstates. Our approximations go beyond what is known from monogamy-of-entanglement style arguments -- the best of which, in this normalization, achieve approximation error growing with $n$. Our results not only challenge prevailing beliefs in physics that extremely low-temperature states of random local Hamiltonians should exhibit non-negligible entanglement, but they also imply that classical algorithms can be just as effective as quantum algorithms in optimizing Hamiltonians with large locality -- though performing such optimization is still likely a hard problem. Our results are robust with respect to the choice of the randomness (disorder) and apply to the case of sparse random Hamiltonian using Lindeberg's interpolation method. The proof of the main result is obtained by estimating the expected trace of the associated partition function, and then matching its asymptotics with the extremal energy of product states using the second moment method.
翻訳日:2023-09-22 17:23:47 公開日:2023-09-21
# 教師なしビデオオブジェクトセグメンテーションのための長短時間時間アテンションネットワーク

Efficient Long-Short Temporal Attention Network for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2309.11707v1 )

ライセンス: Link先を確認
Ping Li and Yu Zhang and Li Yuan and Huaxin Xiao and Binbin Lin and Xianghua Xu(参考訳) Unsupervised Video Object Segmentation (VOS) は、事前の知識なしにビデオの一次前景オブジェクトの輪郭を識別することを目的としている。 しかし,従来の手法では空間的文脈を十分に用いておらず,リアルタイムにこの課題に取り組むことができない。 これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。 具体的には、LSTAは2つの支配的なモジュール、すなわちLong Temporal MemoryとShort Temporal Attentionから構成される。 前者は、過去のフレームと現在のフレームの長期的グローバルな画素関係をキャプチャし、外見パターンを符号化することでオブジェクトを常に提示する。 一方、後者は、近辺のフレームと現在のフレームの短期的局所画素関係を明らかにし、動きパターンを符号化して物体をモデル化する。 推定を高速化するために, 効率的な投影と局所性に基づくスライディングウインドウを採用し, 2つの軽量モジュールのほぼ線形な時間複雑性を実現する。 いくつかのベンチマークに関する広範囲な実証研究により、提案手法の高効率性能が実証された。

Unsupervised Video Object Segmentation (VOS) aims at identifying the contours of primary foreground objects in videos without any prior knowledge. However, previous methods do not fully use spatial-temporal context and fail to tackle this challenging task in real-time. This motivates us to develop an efficient Long-Short Temporal Attention network (termed LSTA) for unsupervised VOS task from a holistic view. Specifically, LSTA consists of two dominant modules, i.e., Long Temporal Memory and Short Temporal Attention. The former captures the long-term global pixel relations of the past frames and the current frame, which models constantly present objects by encoding appearance pattern. Meanwhile, the latter reveals the short-term local pixel relations of one nearby frame and the current frame, which models moving objects by encoding motion pattern. To speedup the inference, the efficient projection and the locality-based sliding window are adopted to achieve nearly linear time complexity for the two light modules, respectively. Extensive empirical studies on several benchmarks have demonstrated promising performances of the proposed method with high efficiency.
翻訳日:2023-09-22 17:23:08 公開日:2023-09-21
# 連続適応OOD検出のためのメタOOD学習

Meta OOD Learning for Continuously Adaptive OOD Detection ( http://arxiv.org/abs/2309.11705v1 )

ライセンス: Link先を確認
Xinheng Wu, Jie Lu, Zhen Fang, Guangquan Zhang(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、テストや予測に使用すべきでないOODサンプルを特定して警告することで、現代のディープラーニングアプリケーションにとって不可欠である。 現在のOOD検出法は, 静的分布から, 分布内(ID) と OOD のサンプルを抽出した場合に大きく進歩している。 しかし、これは時間とともにidとood分布の連続的な変動やシフトを受ける実世界システムに適用すると非現実的になる。 したがって,実世界での効果的な応用には,これらの動的かつ進化する分布に適応可能なood検出手法の開発が不可欠である。 本稿では,OOD検出モデルの開発を目標とし,配置中のIDサンプルが不十分な新しい分布への動的かつ迅速な適応を可能にする,CAOOD(Continuous Adaptive Out-of-Distribution)検出という,新しい現実的な設定を提案する。 CAOODに対処するために、トレーニングプロセス中に優れた初期化OOD検出モデルが学習されるように学習適応図を設計し、メタOOD学習(MOL)を開発する。 テストプロセスでは、数回の適応で新しい分布に迅速に適応することで、分布のシフトよりもood検出性能が保証される。 いくつかのOODベンチマークにおいて,ID分類精度とOOD検出性能を連続的なシフト分布で保持する手法の有効性を検証した。

Out-of-distribution (OOD) detection is crucial to modern deep learning applications by identifying and alerting about the OOD samples that should not be tested or used for making predictions. Current OOD detection methods have made significant progress when in-distribution (ID) and OOD samples are drawn from static distributions. However, this can be unrealistic when applied to real-world systems which often undergo continuous variations and shifts in ID and OOD distributions over time. Therefore, for an effective application in real-world systems, the development of OOD detection methods that can adapt to these dynamic and evolving distributions is essential. In this paper, we propose a novel and more realistic setting called continuously adaptive out-of-distribution (CAOOD) detection which targets on developing an OOD detection model that enables dynamic and quick adaptation to a new arriving distribution, with insufficient ID samples during deployment time. To address CAOOD, we develop meta OOD learning (MOL) by designing a learning-to-adapt diagram such that a good initialized OOD detection model is learned during the training process. In the testing process, MOL ensures OOD detection performance over shifting distributions by quickly adapting to new distributions with a few adaptations. Extensive experiments on several OOD benchmarks endorse the effectiveness of our method in preserving both ID classification accuracy and OOD detection performance on continuously shifting distributions.
翻訳日:2023-09-22 17:22:49 公開日:2023-09-21
# フェデレーションバンドのためのインセンティブコミュニケーション

Incentivized Communication for Federated Bandits ( http://arxiv.org/abs/2309.11702v1 )

ライセンス: Link先を確認
Zhepei Wei, Chuanhao Li, Haifeng Xu, Hongning Wang(参考訳) フェデレートされたバンディットに関する既存の作業の多くは、すべてのクライアントが、必要に応じて、サーバとデータを共有することに利他的であることを当然に受け取っています。 性能と通信効率に関する説得力のある理論的な保証にもかかわらず、この仮定は過度に理想主義的であり、特に明示的なメリットのないデータ共有を嫌う自己関心のクライアント上でアルゴリズムが運用されている場合、実際にしばしば違反される。 このような自己利己的な行動の無視は、フェデレート・バンディット学習の学習効率や実用的操作性に多大な影響を与えうる。 これを踏まえて,我々は,サーバがクライアントにインセンティブを提供することでデータ共有を動機付ける,フェデレートされた盗賊に対するインセンティブ付きコミュニケーション問題を導入することで,この未調査研究領域に対する新たな洞察を喚起することを目指している。 一般性を失うことなく、この帯域問題を文脈線形設定でインスタンス化し、証明可能な通信とインセンティブコストの保証によってほぼ最適に後悔する最初のインセンティブ付き通信プロトコルであるInc-FedUCBを提案する。 合成データと実世界のデータセットの両方に関する広範な実験により、様々な環境における提案手法の有効性がさらに検証された。

Most existing works on federated bandits take it for granted that all clients are altruistic about sharing their data with the server for the collective good whenever needed. Despite their compelling theoretical guarantee on performance and communication efficiency, this assumption is overly idealistic and oftentimes violated in practice, especially when the algorithm is operated over self-interested clients, who are reluctant to share data without explicit benefits. Negligence of such self-interested behaviors can significantly affect the learning efficiency and even the practical operability of federated bandit learning. In light of this, we aim to spark new insights into this under-explored research area by formally introducing an incentivized communication problem for federated bandits, where the server shall motivate clients to share data by providing incentives. Without loss of generality, we instantiate this bandit problem with the contextual linear setting and propose the first incentivized communication protocol, namely, Inc-FedUCB, that achieves near-optimal regret with provable communication and incentive cost guarantees. Extensive empirical experiments on both synthetic and real-world datasets further validate the effectiveness of the proposed method across various environments.
翻訳日:2023-09-22 17:22:23 公開日:2023-09-21
# 短期記憶コーディネーションを用いたメモリ拡張LDMパーソナライゼーション

Memory-Augmented LLM Personalization with Short- and Long-Term Memory Coordination ( http://arxiv.org/abs/2309.11696v1 )

ライセンス: Link先を確認
Kai Zhang, Fubang Zhao, Yangyang Kang, Xiaozhong Liu(参考訳) GPT3.5のような大規模言語モデル(LLM)は、自然言語の理解と生成に優れた能力を発揮している。 しかし、その非個人化生成パラダイムは、最適ユーザ固有の結果をもたらす可能性がある。 通常、ユーザーは知識と好みに基づいて異なる会話をする。 これにより、未探索のユーザ指向LLMの強化が求められる。 この目的のために LLM を完全に訓練することは可能だが、リソース消費は計り知れない。 以前の研究は、新しいクエリを再トレーニングすることなく、生成を強化するための知識を格納し取得するためのメモリベースの方法を模索してきた。 しかし、単なるメモリモジュールはユーザの好みを理解するのに不十分であり、llmの完全なトレーニングは過度にコストがかかります。 本研究では, LLMをパーソナライズするためのパラメータ効率のよい微調整スキーマを備えた新しい計算バイオニックメモリ機構を提案する。 その結果,提案手法の有効性と優越性が実証された。 この領域に関するさらなる研究を奨励するために、我々は、オープンソースの医療コーパスと実装コードに基づいて、llmによって完全に生成された新しい会話データセットをリリースする。

Large Language Models (LLMs), such as GPT3.5, have exhibited remarkable proficiency in comprehending and generating natural language. However, their unpersonalized generation paradigm may result in suboptimal user-specific outcomes. Typically, users converse differently based on their knowledge and preferences. This necessitates the task of enhancing user-oriented LLM which remains unexplored. While one can fully train an LLM for this objective, the resource consumption is unaffordable. Prior research has explored memory-based methods to store and retrieve knowledge to enhance generation without retraining for new queries. However, we contend that a mere memory module is inadequate to comprehend a user's preference, and fully training an LLM can be excessively costly. In this study, we propose a novel computational bionic memory mechanism, equipped with a parameter-efficient fine-tuning schema, to personalize LLMs. Our extensive experimental results demonstrate the effectiveness and superiority of the proposed approach. To encourage further research into this area, we are releasing a new conversation dataset generated entirely by LLM based on an open-source medical corpus, as well as our implementation code.
翻訳日:2023-09-22 17:21:59 公開日:2023-09-21
# FluentEditor:音響・韻律整合性を考慮したテキスト音声編集

FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency ( http://arxiv.org/abs/2309.11725v1 )

ライセンス: Link先を確認
Rui Liu, Jiatian Xi, Ziyue Jiang and Haizhou Li(参考訳) テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。 ニューラルネットワークベースのTSE技術の進歩にもかかわらず、現在の技術は、生成した音声セグメントと編集領域の参照ターゲットとの差を減らし、文脈や本来の発話における局所的・グローバル的流布を無視している。 本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルである「textit{FluentEditor}」を提案する。 特に、 \textit{acoustic consistency constraints} は、編集された領域とその隣接する音響セグメント間の遷移を、基底の真理と整合させることを目的としており、一方 \textit{prosody consistency constraints} は、編集された領域内の韻律属性が元の発話の全体的なスタイルと一致し続けることを保証することを目的としている。 VCTKの主観的,客観的な実験結果から,我々の『textit{FluentEditor}』は自然さと流布度で全ての先進的ベースラインを上回ります。 オーディオサンプルとコードは \url{https://github.com/Ai-S2-Lab/FluentEditor} で公開されている。

Text-based speech editing (TSE) techniques are designed to enable users to edit the output audio by modifying the input text transcript instead of the audio itself. Despite much progress in neural network-based TSE techniques, the current techniques have focused on reducing the difference between the generated speech segment and the reference target in the editing region, ignoring its local and global fluency in the context and original utterance. To maintain the speech fluency, we propose a fluency speech editing model, termed \textit{FluentEditor}, by considering fluency-aware training criterion in the TSE training. Specifically, the \textit{acoustic consistency constraint} aims to smooth the transition between the edited region and its neighboring acoustic segments consistent with the ground truth, while the \textit{prosody consistency constraint} seeks to ensure that the prosody attributes within the edited regions remain consistent with the overall style of the original utterance. The subjective and objective experimental results on VCTK demonstrate that our \textit{FluentEditor} outperforms all advanced baselines in terms of naturalness and fluency. The audio samples and code are available at \url{https://github.com/Ai-S2-Lab/FluentEditor}.
翻訳日:2023-09-22 17:14:41 公開日:2023-09-21
# 表現型テキスト音声のための感情認識韻律表現

Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech ( http://arxiv.org/abs/2309.11724v1 )

ライセンス: Link先を確認
Rui Liu, Bin Liu, Haizhou Li(参考訳) 韻律的な言い回しは、エンドツーエンドテキスト・トゥ・スペーチ(TTS)の自然性と知性に不可欠である。 自然言語には言語と感情の両方の韻律が存在する。 韻律的言い回しの研究が言語的に動機づけられているため、表現的感情表現のための韻律的言い回しは十分に研究されていない。 本稿では,発話の感情的手がかりを正確に抽出し,適切なフレーズブレークを予測するために,感情認識型韻律表現モデル「textit{EmoPP}」を提案する。 まずESDデータセットの客観的な観察を行い、感情と韻律的フレーズの強い相関を検証した。 目的および主観的評価は、EmoPPがすべてのベースラインを上回り、感情表現性の点で顕著な性能を発揮することを示す。 オーディオサンプルとコードは \url{https://github.com/ai-s2-lab/emopp} で入手できる。

Prosodic phrasing is crucial to the naturalness and intelligibility of end-to-end Text-to-Speech (TTS). There exist both linguistic and emotional prosody in natural speech. As the study of prosodic phrasing has been linguistically motivated, prosodic phrasing for expressive emotion rendering has not been well studied. In this paper, we propose an emotion-aware prosodic phrasing model, termed \textit{EmoPP}, to mine the emotional cues of utterance accurately and predict appropriate phrase breaks. We first conduct objective observations on the ESD dataset to validate the strong correlation between emotion and prosodic phrasing. Then the objective and subjective evaluations show that the EmoPP outperforms all baselines and achieves remarkable performance in terms of emotion expressiveness. The audio samples and the code are available at \url{https://github.com/AI-S2-Lab/EmoPP}.
翻訳日:2023-09-22 17:14:15 公開日:2023-09-21
# フェデレート学習におけるデータ共有のための効率的なコア選択インセンティブメカニズム

Efficient Core-selecting Incentive Mechanism for Data Sharing in Federated Learning ( http://arxiv.org/abs/2309.11722v1 )

ライセンス: Link先を確認
Mengda Ji, Genjiu Xu, Jianjun Ge, Mingqiang Li(参考訳) フェデレーテッド・ラーニング(Federated Learning)は、参加者のデータを使って改善されたグローバルモデルをトレーニングする分散機械学習システムである。 連合学習では、参加者が協力してグローバルモデルをトレーニングし、グローバルモデルと支払いを受け取る。 合理的な参加者は、個々のユーティリティを最大化しようと試み、データ品質に基づいて満足な支払いが得られない限り、彼らの高品質なデータを真実に入力しない。 さらに,参加者の協力的貢献から,連合学習のメリットが得られた。 したがって、データの入力を真にインセンティブ化し、安定した協調を促進するインセンティブメカニズムの確立は、検討すべき重要な課題となっている。 本稿では,協調学習のためのデータ共有ゲームモデルを紹介し,協調学習における一般的な概念であるコアを用いて,コア選択インセンティブ機構を設計するためのゲーム理論的手法を提案する。 連合学習では、コアは空になり、コア選択機構が実現不可能になる。 これに対処するために,我々はリラクゼーション方式を採用し,すべての参加者に対して偽データ入力のメリットを最小化している。 しかし、このメカニズムは、連合学習では実現不可能な全ての連立の指数モデルを集約する必要があるため、計算的に高価である。 そこで本研究では,サンプリング近似に基づく効率的なコア選択機構を提案する。 大規模な実験により、効率的なコア選択機構は高品質なデータ入力と安定した協調を動機付けることができるが、コア選択機構と比較して計算オーバーヘッドを低減できる。

Federated learning is a distributed machine learning system that uses participants' data to train an improved global model. In federated learning, participants cooperatively train a global model, and they will receive the global model and payments. Rational participants try to maximize their individual utility, and they will not input their high-quality data truthfully unless they are provided with satisfactory payments based on their data quality. Furthermore, federated learning benefits from the cooperative contributions of participants. Accordingly, how to establish an incentive mechanism that both incentivizes inputting data truthfully and promotes stable cooperation has become an important issue to consider. In this paper, we introduce a data sharing game model for federated learning and employ game-theoretic approaches to design a core-selecting incentive mechanism by utilizing a popular concept in cooperative games, the core. In federated learning, the core can be empty, resulting in the core-selecting mechanism becoming infeasible. To address this, our core-selecting mechanism employs a relaxation method and simultaneously minimizes the benefits of inputting false data for all participants. However, this mechanism is computationally expensive because it requires aggregating exponential models for all possible coalitions, which is infeasible in federated learning. To address this, we propose an efficient core-selecting mechanism based on sampling approximation that only aggregates models on sampled coalitions to approximate the exact result. Extensive experiments verify that the efficient core-selecting mechanism can incentivize inputting high-quality data and stable cooperation, while it reduces computational overhead compared to the core-selecting mechanism.
翻訳日:2023-09-22 17:13:59 公開日:2023-09-21
# 長距離化表面符号

Long-range-enhanced surface codes ( http://arxiv.org/abs/2309.11719v1 )

ライセンス: Link先を確認
Yifan Hong, Matteo Marinelli, Adam M. Kaufman, Andrew Lucas(参考訳) 曲面符号は1つの論理量子ビットに対する量子誤り訂正符号であり、2次元の空間的局所化パリティチェックによって保護される。 空間的局所性からの基本的な制約のため、より論理的な量子ビットを格納するには、エラーに対する表面コードの堅牢さを犠牲にするか、物理的量子ビットの数を増やす必要がある。 エラーに対する堅牢性を維持しつつ、表面コードに論理キュービットを追加するために必要な最小の空間的非局所的パリティチェック数を制限した。 我々は、この境界をハイパーグラフ製品コード群を用いて漸近的に飽和させ、表面コードと定レート低密度パリティチェックコードを補間する。 論理演算のためのフォールトトレラントプロトコルは、通常の曲面符号に基づくこれらの長距離符号に自然に一般化する。 移動光学式ツイーザにおいて,トラップイオンや中性原子をベースとしたハードウェア用コードの実装を短期的に実施する。 長距離拡張曲面符号は、数百の物理量子ビットを用いた従来の曲面符号よりも優れており、短期デバイスにおける論理量子ビットの堅牢性を高めるための実用的な戦略である。

The surface code is a quantum error-correcting code for one logical qubit, protected by spatially localized parity checks in two dimensions. Due to fundamental constraints from spatial locality, storing more logical qubits requires either sacrificing the robustness of the surface code against errors or increasing the number of physical qubits. We bound the minimal number of spatially non-local parity checks necessary to add logical qubits to a surface code while maintaining, or improving, robustness to errors. We asymptotically saturate this bound using a family of hypergraph product codes, interpolating between the surface code and constant-rate low-density parity-check codes. Fault-tolerant protocols for logical operations generalize naturally to these longer-range codes, based on those from ordinary surface codes. We provide near-term practical implementations of this code for hardware based on trapped ions or neutral atoms in mobile optical tweezers. Long-range-enhanced surface codes outperform conventional surface codes using hundreds of physical qubits, and represent a practical strategy to enhance the robustness of logical qubits to errors in near-term devices.
翻訳日:2023-09-22 17:13:31 公開日:2023-09-21
# CPR-Coach:シングルクラストレーニングに基づく複合エラー行動の認識

CPR-Coach: Recognizing Composite Error Actions based on Single-class Training ( http://arxiv.org/abs/2309.11718v1 )

ライセンス: Link先を確認
Shunli Wang, Qing Yu, Shuaibing Wang, Dingkang Yang, Liuzhen Su, Xiao Zhao, Haopeng Kuang, Peixuan Zhang, Peng Zhai, Lihua Zhang(参考訳) 細粒度医療行動分析タスクは,近年,パターン認識コミュニティから注目されているが,データ不足やアルゴリズム不足の問題に直面している。 心肺蘇生(CPR)は緊急治療に欠かせない技術である。 現在、CPRスキルの評価は主にダミーとトレーナーに依存しており、高いトレーニングコストと低い効率をもたらす。 本稿では,CPRにおける誤り行動認識とスキルアセスメントを完遂する視覚ベースシステムを構築した。 具体的には,13種類のシングルエラーアクションと74種類の複合エラーアクションを定義し,cpr-coachというビデオデータセットを開発した。 本稿では、CPR-Coachをベンチマークとして、既存の行動認識モデルの性能を様々なデータモダリティに基づいて徹底的に検討、比較する。 単級学習と多級テストという難題を解決するために,イマジネーションネットという,人間認知に触発されたフレームワークを提案し,制限された監督下でのモデルのマルチエラー認識性能を向上させる。 広範な実験がフレームワークの有効性を検証する。 この研究が、きめ細かい医療行動分析とスキルアセスメントに向けた研究を進めることを願っている。 CPR-CoachデータセットとImagineNetのコードはGithubで公開されている。

The fine-grained medical action analysis task has received considerable attention from pattern recognition communities recently, but it faces the problems of data and algorithm shortage. Cardiopulmonary Resuscitation (CPR) is an essential skill in emergency treatment. Currently, the assessment of CPR skills mainly depends on dummies and trainers, leading to high training costs and low efficiency. For the first time, this paper constructs a vision-based system to complete error action recognition and skill assessment in CPR. Specifically, we define 13 types of single-error actions and 74 types of composite error actions during external cardiac compression and then develop a video dataset named CPR-Coach. By taking the CPR-Coach as a benchmark, this paper thoroughly investigates and compares the performance of existing action recognition models based on different data modalities. To solve the unavoidable Single-class Training & Multi-class Testing problem, we propose a humancognition-inspired framework named ImagineNet to improve the model's multierror recognition performance under restricted supervision. Extensive experiments verify the effectiveness of the framework. We hope this work could advance research toward fine-grained medical action analysis and skill assessment. The CPR-Coach dataset and the code of ImagineNet are publicly available on Github.
翻訳日:2023-09-22 17:13:10 公開日:2023-09-21
# deshadow-anything: segment anythingモデルがゼロショットシャドー削除を満たす

Deshadow-Anything: When Segment Anything Model Meets Zero-shot shadow removal ( http://arxiv.org/abs/2309.11715v1 )

ライセンス: Link先を確認
Xiao Feng Zhang, Tian Yi Song, Jia Wei Yao(参考訳) Segment Anything (SAM)は、拡張ビジュアルデータセットに基づいてトレーニングされた高度なユニバーサルイメージセグメンテーションモデルであり、画像セグメンテーションとコンピュータビジョンの新しいベンチマークを設定した。 しかし、影とその背景を区別するという問題に直面した。 そこで本研究では,大規模データセットの一般化を考慮し,大規模データセットの微調整を行い,画像シャドー除去を実現する。 拡散モデルは、画像のエッジとテクスチャに沿って拡散し、画像の詳細を維持しながら影を取り除くのに役立つ。 さらに,適応入力摂動(DDPM-AIP)とマルチセルフアテンションガイダンス(MSAG)を設計し,拡散の反復的トレーニング速度を高速化する。 シャドウ除去タスクの実験により、これらの手法が画像復元性能を効果的に向上できることが示されている。

Segment Anything (SAM), an advanced universal image segmentation model trained on an expansive visual dataset, has set a new benchmark in image segmentation and computer vision. However, it faced challenges when it came to distinguishing between shadows and their backgrounds. To address this, we developed Deshadow-Anything, considering the generalization of large-scale datasets, and we performed Fine-tuning on large-scale datasets to achieve image shadow removal. The diffusion model can diffuse along the edges and textures of an image, helping to remove shadows while preserving the details of the image. Furthermore, we design Multi-Self-Attention Guidance (MSAG) and adaptive input perturbation (DDPM-AIP) to accelerate the iterative training speed of diffusion. Experiments on shadow removal tasks demonstrate that these methods can effectively improve image restoration performance.
翻訳日:2023-09-22 17:12:50 公開日:2023-09-21
# 脳波に基づく運動画像分類のための動的領域適応深層学習ネットワーク

A Dynamic Domain Adaptation Deep Learning Network for EEG-based Motor Imagery Classification ( http://arxiv.org/abs/2309.11714v1 )

ライセンス: Link先を確認
Jie Jiao and Meiyan Xu and Qingqing Chen and Hefan Zhou and Wangliang Zhou(参考訳) 隣接する脳波チャネル(eeg)と、この相関を表す方法の間には相関関係があり、現在検討されている問題である。 さらに、脳波信号の個人間差により、新しい被験者は脳波ベースの運動画像脳-コンピュータインタフェースのキャリブレーションに多くの時間を費やす必要がある。 本稿では,この問題を解決するために,動的領域適応型深層学習ネットワーク(dadl-net)を提案する。 まず、脳波データを3次元幾何学空間にマッピングし、その時空間特徴を3次元畳み込みモジュールを通して学習し、その特徴を強化するために空間チャネルアテンション機構を使用し、最終的な畳み込みモジュールは特徴の時空間情報をさらに学習することができる。 最後に、オブジェクト間とセッション間の違いを考慮し、動的ドメイン適応戦略を用い、最大平均離散値損失関数を導入して特徴間の距離を小さくし、対象ドメインデータの一部を用いて分類層を微調整する。 BCIコンペティションIVaとOpenBMIデータセットにおける提案手法の性能を検証する。 オブジェクト内実験では、OpenBMIとBCIC IV 2aデータセットで70.42%と73.91%の精度が達成された。

There is a correlation between adjacent channels of electroencephalogram (EEG), and how to represent this correlation is an issue that is currently being explored. In addition, due to inter-individual differences in EEG signals, this discrepancy results in new subjects need spend a amount of calibration time for EEG-based motor imagery brain-computer interface. In order to solve the above problems, we propose a Dynamic Domain Adaptation Based Deep Learning Network (DADL-Net). First, the EEG data is mapped to the three-dimensional geometric space and its temporal-spatial features are learned through the 3D convolution module, and then the spatial-channel attention mechanism is used to strengthen the features, and the final convolution module can further learn the spatial-temporal information of the features. Finally, to account for inter-subject and cross-sessions differences, we employ a dynamic domain-adaptive strategy, the distance between features is reduced by introducing a Maximum Mean Discrepancy loss function, and the classification layer is fine-tuned by using part of the target domain data. We verify the performance of the proposed method on BCI competition IV 2a and OpenBMI datasets. Under the intra-subject experiment, the accuracy rates of 70.42% and 73.91% were achieved on the OpenBMI and BCIC IV 2a datasets.
翻訳日:2023-09-22 17:12:34 公開日:2023-09-21
# 3次元スライスワッサーシュタインのための準モンテカルロ

Quasi-Monte Carlo for 3D Sliced Wasserstein ( http://arxiv.org/abs/2309.11713v1 )

ライセンス: Link先を確認
Khai Nguyen and Nicola Bariletto and Nhat Ho(参考訳) モンテカルロ近似(MC)はスライクド・ワッサーシュタイン距離(SW)の標準的な計算手法として使われており、解析的な形で予測できる。 しかし,絶対近似誤差の最小化の観点からは,MC法は最適ではない。 より優れた経験的SWのクラスを提供するため、準スライクなワッサーシュタイン近似(QSW)を提案し、準モンテカルロ法(QMC)を用いる。 SWのQMCに関する総合的な調査では,3次元の確率測度間のSWの計算に焦点をあてる。 より詳しくは、3次元単位超球面上のQMC点の様々な構成法を実証的に検証し、ガウス写像、等面積写像、一般化スパイラル点、離散エネルギーを最適化する。 さらに、確率最適化のための偏りのない推定を得るため、議論される低分散配列にランダム性を導入することにより、qswをランダム化準スライスワッサースタイン(rqsw)に拡張する。 理論的性質については、QSWの漸近収束とRQSWの不偏性を証明する。 最後に,ポイントクラウド比較,ポイントクラウド補間,イメージスタイル転送,深度クラウドオートエンコーダの訓練など,様々な3Dタスクについて実験を行い,提案したQSWおよびRQSW変種の性能を実証する。

Monte Carlo (MC) approximation has been used as the standard computation approach for the Sliced Wasserstein (SW) distance, which has an intractable expectation in its analytical form. However, the MC method is not optimal in terms of minimizing the absolute approximation error. To provide a better class of empirical SW, we propose quasi-sliced Wasserstein (QSW) approximations that rely on Quasi-Monte Carlo (QMC) methods. For a comprehensive investigation of QMC for SW, we focus on the 3D setting, specifically computing the SW between probability measures in three dimensions. In greater detail, we empirically verify various ways of constructing QMC points sets on the 3D unit-hypersphere, including Gaussian-based mapping, equal area mapping, generalized spiral points, and optimizing discrepancy energies. Furthermore, to obtain an unbiased estimation for stochastic optimization, we extend QSW into Randomized Quasi-Sliced Wasserstein (RQSW) by introducing randomness to the discussed low-discrepancy sequences. For theoretical properties, we prove the asymptotic convergence of QSW and the unbiasedness of RQSW. Finally, we conduct experiments on various 3D tasks, such as point-cloud comparison, point-cloud interpolation, image style transfer, and training deep point-cloud autoencoders, to demonstrate the favorable performance of the proposed QSW and RQSW variants.
翻訳日:2023-09-22 17:12:12 公開日:2023-09-21
# MoDA: セマンティックセグメンテーションにおける教師なしドメイン適応の促進のためのビデオからの動作優先の活用

MoDA: Leveraging Motion Priors from Videos for Advancing Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2309.11711v1 )

ライセンス: Link先を確認
Fei Pan, Xu Yin, Seokju Lee, Sungeui Yoon, In So Kweon(参考訳) unsupervised domain adaptation(uda)は、セマンティックセグメンテーションタスクのターゲットドメインにおけるアノテーションの欠如に対処するための効果的なアプローチである。 そこで本研究では,対象ドメインが実際に容易に収集可能なラベル付きビデオのシーケンシャルフレームを含む,より実用的なUDA設定について考察する。 最近の研究では、幾何学的制約のある未ラベルビデオからの物体の動きの自己教師付き学習が提案されている。 対象領域における効果的な表現の学習に自己教師付きオブジェクトの動きを利用する動き誘導型ドメイン適応型セマンティックセマンティックセマンティクスフレームワーク(MoDA)を設計する。 MoDAは、対象のドメインフレームに対して時間的整合性正規化を使用する従来の方法とは異なる。 代わりにmodaは、フォアグラウンドと背景カテゴリのドメインアライメントを異なる戦略で別々に扱う。 特に、MoDAはフォアグラウンドオブジェクト発見とフォアグラウンドセマンティックマイニングを含んでおり、オブジェクトの動きからインスタンスレベルのガイダンスを取ることで、フォアグラウンドドメインギャップを調整する。 さらに、MoDAには、バックグラウンドドメインギャップを処理するバックグラウンドカテゴリ固有の識別器を含むバックグラウンド敵トレーニングが含まれている。 複数のベンチマークによる実験結果は、領域適応画像分割と領域適応ビデオ分割における既存のアプローチに対するMoDAの有効性を強調した。 さらに、MoDAは汎用性があり、既存の最先端アプローチと併用してパフォーマンスをさらに向上することができる。

Unsupervised domain adaptation (UDA) is an effective approach to handle the lack of annotations in the target domain for the semantic segmentation task. In this work, we consider a more practical UDA setting where the target domain contains sequential frames of the unlabeled videos which are easy to collect in practice. A recent study suggests self-supervised learning of the object motion from unlabeled videos with geometric constraints. We design a motion-guided domain adaptive semantic segmentation framework (MoDA), that utilizes self-supervised object motion to learn effective representations in the target domain. MoDA differs from previous methods that use temporal consistency regularization for the target domain frames. Instead, MoDA deals separately with the domain alignment on the foreground and background categories using different strategies. Specifically, MoDA contains foreground object discovery and foreground semantic mining to align the foreground domain gaps by taking the instance-level guidance from the object motion. Additionally, MoDA includes background adversarial training which contains a background category-specific discriminator to handle the background domain gaps. Experimental results on multiple benchmarks highlight the effectiveness of MoDA against existing approaches in the domain adaptive image segmentation and domain adaptive video segmentation. Moreover, MoDA is versatile and can be used in conjunction with existing state-of-the-art approaches to further improve performance.
翻訳日:2023-09-22 17:11:45 公開日:2023-09-21
# ContextRef:画像記述生成のための参照なしメトリクスの評価

ContextRef: Evaluating Referenceless Metrics For Image Description Generation ( http://arxiv.org/abs/2309.11710v1 )

ライセンス: Link先を確認
Elisa Kreiss and Eric Zelikman and Christopher Potts and Nick Haber(参考訳) 参照なしのメトリクス(例えば、CLIPScore)は、訓練済みの視覚言語モデルを使用して、コストのかかる地味な参照テキストなしで画像記述を直接評価する。 このような手法は急速な進歩を促進するが、人間の嗜好判断と真に一致している場合に限られる。 本稿では、このようなアライメントのための参照レスメトリクスを評価するベンチマークであるContextRefを紹介する。 contextrefには2つのコンポーネントがある: 確立されたさまざまな品質次元に沿った人間格付けと、基本的な弱点を明らかにするために設計された10の多様な堅牢性チェックである。 ContextRefの重要な側面は、画像と記述がコンテキストで表示され、記述品質にコンテキストが重要であることを示す事前の作業が反映されていることである。 ContextRefを用いて、事前訓練された様々なモデル、スコアリング機能、コンテキストを組み込むためのテクニックを評価する。 ContextRefではどのメソッドも成功しないが、注意深い微調整が大幅な改善をもたらすことを示す。 しかしContextRefは、コンテキスト依存の課題のために、依然として挑戦的なベンチマークである。

Referenceless metrics (e.g., CLIPScore) use pretrained vision--language models to assess image descriptions directly without costly ground-truth reference texts. Such methods can facilitate rapid progress, but only if they truly align with human preference judgments. In this paper, we introduce ContextRef, a benchmark for assessing referenceless metrics for such alignment. ContextRef has two components: human ratings along a variety of established quality dimensions, and ten diverse robustness checks designed to uncover fundamental weaknesses. A crucial aspect of ContextRef is that images and descriptions are presented in context, reflecting prior work showing that context is important for description quality. Using ContextRef, we assess a variety of pretrained models, scoring functions, and techniques for incorporating context. None of the methods is successful with ContextRef, but we show that careful fine-tuning yields substantial improvements. ContextRef remains a challenging benchmark though, in large part due to the challenge of context dependence.
翻訳日:2023-09-22 17:11:19 公開日:2023-09-21
# 2ddata:ポイントクラウド上の意味セグメンテーションのための2次元検出アノテーションの透過可能アグリゲーション

2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic Segmentation on Point Cloud ( http://arxiv.org/abs/2309.11755v1 )

ライセンス: Link先を確認
Guan-Cheng Lee(参考訳) 近年,LiDARやカメラなどのセンサの相補的な情報により,マルチモダリティモデルが導入された。 すべてのモダリティの正確なキャリブレーションとともにペアデータが必要であり、モダリティ間の複雑なキャリブレーションは、このような高品質なデータセットの収集コストを大幅に増加させ、実用的なシナリオに適用できないようにする。 これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。 2d検出アノテーション transmissiontable aggregation(\textbf{2ddata})を導入し、特定のバウンディングボックス内のポイントを扱うことを目的とした、データ固有のブランチである \textbf{local object branch} を設計しました。 提案手法は,3次元エンコーダモデルに有界箱の事前情報を送信し,モダリティ固有データと融合した大規模マルチモーダリティモデルの実現可能性を示す。

Recently, multi-modality models have been introduced because of the complementary information from different sensors such as LiDAR and cameras. It requires paired data along with precise calibrations for all modalities, the complicated calibration among modalities hugely increases the cost of collecting such high-quality datasets, and hinder it from being applied to practical scenarios. Inherit from the previous works, we not only fuse the information from multi-modality without above issues, and also exhaust the information in the RGB modality. We introduced the 2D Detection Annotations Transmittable Aggregation(\textbf{2DDATA}), designing a data-specific branch, called \textbf{Local Object Branch}, which aims to deal with points in a certain bounding box, because of its easiness of acquiring 2D bounding box annotations. We demonstrate that our simple design can transmit bounding box prior information to the 3D encoder model, proving the feasibility of large multi-modality models fused with modality-specific data.
翻訳日:2023-09-22 17:02:44 公開日:2023-09-21
# 静的マップ要素アノテーションに対する視覚中心的アプローチ

A Vision-Centric Approach for Static Map Element Annotation ( http://arxiv.org/abs/2309.11754v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Shiyuan Chen, Haoran Yin, Ruohong Mei, Xuan Liu, Cong Yang, Qian Zhang and Wei Sui(参考訳) オンライン静的マップ要素(別名hdマップ)の構築アルゴリズムが最近開発され、基礎的真理アノテーションを持つデータに対する需要が高まっている。 しかし、現在利用可能な公開データセットは、一貫性と正確性に関する高品質なトレーニングデータを提供できない。 そこで我々は,一貫性と正確なマップアノテーションのための視覚中心のアプローチであるCAMAを提案する。 提案するフレームワークは,LiDAR入力がなければ,静的マップ要素の高品質な3Dアノテーションを生成することができる。 特に、アノテーションは周囲の全てのカメラで高い再投影精度を達成でき、全シーケンスにわたって空間的時間的一貫性を持つ。 提案フレームワークを人気のあるnuscenesデータセットに適用し,効率的な高精度なアノテーションを提供する。 オリジナルの nuScenes の静的マップエレメントと比較すると、CAMA のアノテーションで訓練されたモデルは低い再射誤差(例えば 4.73 対 8.03 ピクセル)を達成する。

The recent development of online static map element (a.k.a. HD Map) construction algorithms has raised a vast demand for data with ground truth annotations. However, available public datasets currently cannot provide high-quality training data regarding consistency and accuracy. To this end, we present CAMA: a vision-centric approach for Consistent and Accurate Map Annotation. Without LiDAR inputs, our proposed framework can still generate high-quality 3D annotations of static map elements. Specifically, the annotation can achieve high reprojection accuracy across all surrounding cameras and is spatial-temporal consistent across the whole sequence. We apply our proposed framework to the popular nuScenes dataset to provide efficient and highly accurate annotations. Compared with the original nuScenes static map element, models trained with annotations from CAMA achieve lower reprojection errors (e.g., 4.73 vs. 8.03 pixels).
翻訳日:2023-09-22 17:02:23 公開日:2023-09-21
# 自然言語による意味探索による深層強化学習の効率化

Improve the efficiency of deep reinforcement learning through semantic exploration guided by natural language ( http://arxiv.org/abs/2309.11753v1 )

ライセンス: Link先を確認
Zhourui Guo, Meng Yao, Yang Yu, Qiyue Yin(参考訳) 強化学習は試行錯誤から学ぶための強力なテクニックであるが、優れたパフォーマンスを得るためには多数のインタラクションを必要とすることが多い。 スパース・リワードタスクのようないくつかのドメインでは、学習プロセス中にエージェントに有用なフィードバックやガイダンスを提供するオラクルが非常に重要である。 しかし、oracleを頻繁に問い合わせることはコストがかかるかもしれないし、非現実的かもしれないし、oracleは常にあらゆる状況に対して明確な答えを持っているとは限らない。 そこで我々は,検索に基づく手法を用いて,選択的かつ効率的な方法でオラクルと対話するための新しい手法を提案する。 この相互作用はテンプレート化された質問や回答のシーケンスとしてモデル化でき、過去の対話のコーパスが多数存在すると仮定する。 私たちはニューラルネットワークを使ってエージェントとオラクルの現在の状態をエンコードし、コーパスから最も関連する質問を取得してオラクルに質問します。 次に、オラクルの回答を使ってエージェントのポリシーと値関数を更新します。 本手法をオブジェクト操作タスクで評価する。 提案手法は,オラクルを使用しないベースラインやナイーブな方法で使用するベースラインと比較して,一定の性能に達するために必要なインタラクション数を減らすことで,rlの効率を大幅に向上できることを示す。

Reinforcement learning is a powerful technique for learning from trial and error, but it often requires a large number of interactions to achieve good performance. In some domains, such as sparse-reward tasks, an oracle that can provide useful feedback or guidance to the agent during the learning process is really of great importance. However, querying the oracle too frequently may be costly or impractical, and the oracle may not always have a clear answer for every situation. Therefore, we propose a novel method for interacting with the oracle in a selective and efficient way, using a retrieval-based approach. We assume that the interaction can be modeled as a sequence of templated questions and answers, and that there is a large corpus of previous interactions available. We use a neural network to encode the current state of the agent and the oracle, and retrieve the most relevant question from the corpus to ask the oracle. We then use the oracle's answer to update the agent's policy and value function. We evaluate our method on an object manipulation task. We show that our method can significantly improve the efficiency of RL by reducing the number of interactions needed to reach a certain level of performance, compared to baselines that do not use the oracle or use it in a naive way.
翻訳日:2023-09-22 17:02:08 公開日:2023-09-21
# グーグルの「画像攻撃」はどんなものか?

How Robust is Google's Bard to Adversarial Image Attacks? ( http://arxiv.org/abs/2309.11751v1 )

ライセンス: Link先を確認
Yinpeng Dong, Huanran Chen, Jiawei Chen, Zhengwei Fang, Xiao Yang, Yichi Zhang, Yu Tian, Hang Su, Jun Zhu(参考訳) テキストや他のモダリティ(特に視覚)を統合するマルチモーダル大規模言語モデル(MLLM)は、様々なマルチモーダルタスクにおいて前例のない性能を達成している。 しかし、視覚モデルの非解決対向ロバスト性問題により、MLLMは視覚入力を導入することにより、より厳しい安全性とセキュリティリスクを持つことができる。 本研究では,ChatGPTの競合チャットボットであるGoogleのBardの対角的堅牢性について検討し,そのマルチモーダル機能を最近リリースし,商用MLLMの脆弱性の理解を深めた。 ホワイトボックス・サロゲート・ビジョンエンコーダ(MLLM)を攻撃することにより、生成した敵の例は、トランスファービリティのみに基づいて、間違った画像記述を22%の成功率で出力することを誤解させる可能性がある。 例えば、Bing Chatに対する攻撃成功率26%、ERNIEボットに対する攻撃成功率86%などである。 さらに,画像の顔検出と毒性検出を含むBardの2つの防御機構を同定した。 我々は、これらの防御を回避するために対応する攻撃をデザインし、bardの現在の防御も脆弱であることを実証する。 本研究がMLLMの堅牢性に対する理解を深め、今後の防衛研究を促進することを願っている。 私たちのコードはhttps://github.com/thu-ml/Attack-Bard.comで利用可能です。

Multimodal Large Language Models (MLLMs) that integrate text and other modalities (especially vision) have achieved unprecedented performance in various multimodal tasks. However, due to the unsolved adversarial robustness problem of vision models, MLLMs can have more severe safety and security risks by introducing the vision inputs. In this work, we study the adversarial robustness of Google's Bard, a competitive chatbot to ChatGPT that released its multimodal capability recently, to better understand the vulnerabilities of commercial MLLMs. By attacking white-box surrogate vision encoders or MLLMs, the generated adversarial examples can mislead Bard to output wrong image descriptions with a 22% success rate based solely on the transferability. We show that the adversarial examples can also attack other MLLMs, e.g., a 26% attack success rate against Bing Chat and a 86% attack success rate against ERNIE bot. Moreover, we identify two defense mechanisms of Bard, including face detection and toxicity detection of images. We design corresponding attacks to evade these defenses, demonstrating that the current defenses of Bard are also vulnerable. We hope this work can deepen our understanding on the robustness of MLLMs and facilitate future research on defenses. Our code is available at https://github.com/thu-ml/Attack-Bard.
翻訳日:2023-09-22 17:01:49 公開日:2023-09-21
# PIE:進行画像編集による疾患進行のシミュレーション

PIE: Simulating Disease Progression via Progressive Image Editing ( http://arxiv.org/abs/2309.11745v1 )

ライセンス: Link先を確認
Kaizhao Liang, Xu Cao, Kuei-Da Liao, Tianren Gao, Zhengyu Chen, Tejas Nama(参考訳) 疾患進行シミュレーションは、臨床診断、予後、治療に重要な意味を持つ研究の重要な領域である。 この分野での大きな課題は、個々の患者の連続的な医療画像モニタリングの欠如である。 そこで本研究では, 疾患関連画像の操作を制御し, 高精度かつ現実的な疾患進行シミュレーションを実現する, プログレッシブ画像編集 (pie) と呼ばれる新しい枠組みを開発した。 具体的には,テキストから画像への生成モデルの最近の進歩を利用して,疾患の進行を正確にシミュレーションし,患者ごとにパーソナライズする。 我々は,指数関数的に減衰した学習率の勾配降下として,フレームワークの反復精製過程を理論的に解析する。 この枠組みを検証するため、3つの医用画像領域で実験を行った。 以上の結果から,CLIPスコア(リアリズム)と病因分類信頼度(アライメント)に基づく安定拡散歩行法やスタイルベースマニフォールド外挿法などの既存手法よりもPIEの方が優れていることが示された。 以上の結果から,35名の老年医からのフィードバックを得た。 驚くべきことに、フィードバックの76.2%は、生成した進歩の忠実さに同意している。 われわれの知る限り、pieは現実世界の標準を満たした病気の進行画像を生成する最初の製品だ。 医療研究と臨床実践のための有望なツールであり、医療提供者が時間をかけて疾患の軌跡をモデル化し、将来の治療反応を予測し、患者の結果を改善できる可能性がある。

Disease progression simulation is a crucial area of research that has significant implications for clinical diagnosis, prognosis, and treatment. One major challenge in this field is the lack of continuous medical imaging monitoring of individual patients over time. To address this issue, we develop a novel framework termed Progressive Image Editing (PIE) that enables controlled manipulation of disease-related image features, facilitating precise and realistic disease progression simulation. Specifically, we leverage recent advancements in text-to-image generative models to simulate disease progression accurately and personalize it for each patient. We theoretically analyze the iterative refining process in our framework as a gradient descent with an exponentially decayed learning rate. To validate our framework, we conduct experiments in three medical imaging domains. Our results demonstrate the superiority of PIE over existing methods such as Stable Diffusion Walk and Style-Based Manifold Extrapolation based on CLIP score (Realism) and Disease Classification Confidence (Alignment). Our user study collected feedback from 35 veteran physicians to assess the generated progressions. Remarkably, 76.2% of the feedback agrees with the fidelity of the generated progressions. To our best knowledge, PIE is the first of its kind to generate disease progression images meeting real-world standards. It is a promising tool for medical research and clinical practice, potentially allowing healthcare providers to model disease trajectories over time, predict future treatment responses, and improve patient outcomes.
翻訳日:2023-09-22 17:01:25 公開日:2023-09-21
# 最適SDG経路の展開: グラフプルーニングを活用した革新的アプローチと効果的なレコメンデーションのためのインテントグラフ

Unveiling Optimal SDG Pathways: An Innovative Approach Leveraging Graph Pruning and Intent Graph for Effective Recommendations ( http://arxiv.org/abs/2309.11741v1 )

ライセンス: Link先を確認
Zhihang Yu, Shu Wang, Yunqiang Zhu, Wen Yuan, Xiaoliang Dai, Zhiqiang Zou(参考訳) 持続可能な開発目標(すなわち持続可能な開発パターン)を達成するための環境文明パターンとしても知られる適切な開発経路の推奨は、特定の地域で生態学的、経済的、社会的、資源的持続可能性を促進する上で最も重要である。 これを実現するためには、地域の自然、環境、資源、経済特性を慎重に検討する必要がある。 しかし,現在のコンピュータ科学分野のレコメンデーションアルゴリズムでは,環境に関わる空間的不均一性や地域的歴史的相互作用データのスパース性に十分対応できず,持続可能な発展パターンの推奨に効果が限定されている。 これらの課題を克服するために,本論文では,Pruning and Intent Graph (UGPIG) 後のユーザグラフという手法を提案する。 まず,pruned user graphの高密度リンク機能を利用して,レコメンデーションアルゴリズムにおける空間的不均一性無視の問題に対処する。 次に、目的領域の環境要素を含む属性の嗜好をキャプチャするインテントネットワークを組み込むことで、インテントグラフを構築する。 このアプローチは、地域における歴史的相互作用データのスパース化の問題を効果的に軽減する。 広範な実験を通じて, ugpigは, 持続的な開発パターンの推奨において, kgcn, kgat, kginなどの最先端の推奨アルゴリズムよりも優れており, 最大でトップ3の推奨性能が9.61%向上していることを実証した。

The recommendation of appropriate development pathways, also known as ecological civilization patterns for achieving Sustainable Development Goals (namely, sustainable development patterns), are of utmost importance for promoting ecological, economic, social, and resource sustainability in a specific region. To achieve this, the recommendation process must carefully consider the region's natural, environmental, resource, and economic characteristics. However, current recommendation algorithms in the field of computer science fall short in adequately addressing the spatial heterogeneity related to environment and sparsity of regional historical interaction data, which limits their effectiveness in recommending sustainable development patterns. To overcome these challenges, this paper proposes a method called User Graph after Pruning and Intent Graph (UGPIG). Firstly, we utilize the high-density linking capability of the pruned User Graph to address the issue of spatial heterogeneity neglect in recommendation algorithms. Secondly, we construct an Intent Graph by incorporating the intent network, which captures the preferences for attributes including environmental elements of target regions. This approach effectively alleviates the problem of sparse historical interaction data in the region. Through extensive experiments, we demonstrate that UGPIG outperforms state-of-the-art recommendation algorithms like KGCN, KGAT, and KGIN in sustainable development pattern recommendations, with a maximum improvement of 9.61% in Top-3 recommendation performance.
翻訳日:2023-09-22 17:00:58 公開日:2023-09-21
# ディックモデルにおける混合固有状態:半古典的極限における相対比の統計量と正則崩壊

Mixed eigenstates in the Dicke model: Statistics and power-law decay of the relative proportion in the semiclassical limit ( http://arxiv.org/abs/2309.11740v1 )

ライセンス: Link先を確認
Qian Wang and Marko Robnik(参考訳) 混合固有状態が混合型多体量子系における半古典的極限に近づくことでどのように変化するかは興味深いが、まだ知られていない問題である。 ここでは、よく定義された半古典的極限を持ち、量子および古典の場合の両方においてカオスへ遷移する定評ある多体モデルであるディッケモデルでこの問題に対処する。 フシミ函数を用いて、混合型古典位相空間を持つディックモデルの固有状態は異なる型に分類できることを示す。 固有状態の型を定量的に特徴づけるために,フシミ関数で定義される位相空間重複指数について検討する。 位相空間重なり指数の確率分布を考察し, 半古典的限界に近づくと, システムサイズが大きくなることにより, どのように変化するかを検討する。 混合固有状態の相対比の振舞いにおいて,システムサイズを増大させることで,パワーロッド崩壊が発生することを示す。 本研究は混合型多体系における固有状態の性質にさらに光を当て、フシミ関数の一様半古典的凝縮の原理が多体量子系にも有効であることを示唆する。

How the mixed eigenstates vary with approaching the semiclassical limit in mixed-type many-body quantum systems is an interesting but still less known question. Here, we address this question in the Dicke model, a celebrated many-body model that has a well defined semiclassical limit and undergoes a transition to chaos in both quantum and classical case. Using the Husimi function, we show that the eigenstates of the Dicke model with mixed-type classical phase space can be classified into different types. To quantitatively characterize the types of eigenstates, we study the phase space overlap index, which is defined in terms of Husimi function. We look at the probability distribution of the phase space overlap index and investigate how it changes with increasing system size, that is, when approaching the semiclassical limit. We show that increasing the system size gives rise to a power-law decay in the behavior of the relative proportion of mixed eigenstates. Our findings shed more light on the properties of eigenstates in mixed-type many-body systems and suggest that the principle of uniform semiclassical condensation of Husimi functions should also be valid for many-body quantum systems.
翻訳日:2023-09-22 17:00:30 公開日:2023-09-21
# Choice-75: スクリプト学習における決定分岐に関するデータセット

Choice-75: A Dataset on Decision Branching in Script Learning ( http://arxiv.org/abs/2309.11737v1 )

ライセンス: Link先を確認
Zhaoyi Joey Hou, Li Zhang, Chris Callison-Burch(参考訳) スクリプト学習は日々の出来事の展開方法を研究する。 以前の作品では、スクリプトを出来事の線形列と見なす傾向があるが、人々の状況選択によって生じる潜在的分岐は無視している。 そこで我々は,75のスクリプトと600以上のシナリオを含む記述的シナリオに対して,知的システムによる意思決定の予測に挑戦する最初のベンチマークであるchoost-75を提案する。 大きな言語モデルが全体的なパフォーマンスを示す一方で、多くの難しいシナリオで改善の余地がある。

Script learning studies how daily events unfold. Previous works tend to consider a script as a linear sequence of events while ignoring the potential branches that arise due to people's circumstantial choices. We hence propose Choice-75, the first benchmark that challenges intelligent systems to predict decisions given descriptive scenarios, containing 75 scripts and more than 600 scenarios. While large language models demonstrate overall decent performances, there is still notable room for improvement in many hard scenarios.
翻訳日:2023-09-22 17:00:07 公開日:2023-09-21
# 準正則可解系のクラスに対するbethe ansatz 解と隠れ $sl(2)$ 代数構造

Bethe ansatz solutions and hidden $sl(2)$ algebraic structure for a class of quasi-exactly solvable systems ( http://arxiv.org/abs/2309.11731v1 )

ライセンス: Link先を確認
Siyu Li, Ian Marquette and Yao-Zhong Zhang(参考訳) 準完全可解系の解析解の構成は興味深い問題である。 我々は、アンハーモニック振動子、特異なアンハーモニック振動子、一般化量子等調振動子、非ポリノミカルな変形振動子、および、$\phi^6$-type場理論のキンク安定性解析から得られるシュル・オーディンガー系(Schr\odinger system)のクラスを再検討する。 これらのモデルの奇数セクターおよび偶数セクターに対する体系的かつ統一的な処理を提案する。 準エクササイズ可解性,対応するエネルギーおよび波動関数に対する許容モデルパラメータに対する制約に対する一般閉形式式を求める。 また,モデルパラメータの空間におけるbethe ansatz方程式の解の解析を進展させ,パラメータ空間における許容パラメータの曲線/曲面について考察する。 これまでの分析はケースバイケースで行われ、最初の励起状態に限定されていた。 我々は、bethe ansatz方程式の高励起状態(最大で$n$=30または50)に対する解(すなわちルート)の解析を行う。 根分布の形状はモデルパラメータの異なる領域で大きく変化し、可積分モデルの文脈における相転移に類似した現象を示す。 さらに、各偶数セクタおよび奇数セクタにおけるモデルのクラスに対する統一的な方法での$sl(2)$代数化も得る。

The construction of analytic solutions for quasi-exactly solvable systems is an interesting problem. We revisit a class of models for which the odd solutions were largely missed previously in the literature: the anharmonic oscillator, the singular anharmonic oscillator, the generalized quantum isotonic oscillator, non-polynomially deformed oscillator, and the Schr\"odinger system from the kink stability analysis of $\phi^6$-type field theory. We present a systematic and unified treatment for the odd and even sectors of these models. We find generic closed-form expressions for constraints to the allowed model parameters for quasi-exact solvability, the corresponding energies and wavefunctions. We also make progress in the analysis of solutions to the Bethe ansatz equations in the spaces of model parameters and provide insight into the curves/surfaces of the allowed parameters in the parameter spaces. Most previous analyses in this aspect were on a case-by-case basis and restricted to the first excited states. We present analysis of the solutions (i.e. roots) of the Bethe ansatz equations for higher excited states (up to levels $n$=30 or 50). The shapes of the root distributions change drastically across different regions of model parameters, illustrating phenomena analogous to phase transition in context of integrable models. Furthermore, we also obtain the $sl(2)$ algebraization for the class of models in their respective even and odd sectors in a unified way.
翻訳日:2023-09-22 16:59:58 公開日:2023-09-21
# turaco: プログラムのニューラルネットワークサロゲートトレーニングのための複雑性誘導データサンプリング

Turaco: Complexity-Guided Data Sampling for Training Neural Surrogates of Programs ( http://arxiv.org/abs/2309.11726v1 )

ライセンス: Link先を確認
Alex Renda, Yi Ding, Michael Carbin(参考訳) プログラマや研究者は、様々なソフトウェア開発の課題を解決するために、プログラムの監視可能な振る舞いのサブセットのモデルであるプログラムのサロゲートを開発しています。 プログラムは入力サンプルのデータセット上でプログラムの振る舞いの測定から代理語を訓練する。 サロゲート構築の重要な課題は、特定のプログラムのサロゲートをトレーニングするために使用するトレーニングデータを決定することである。 本稿では,ニューラルネットワークに基づくプログラムのサロゲートを学習するためのデータセットのサンプリング手法を提案する。 まず,プログラムの入力空間の各領域(プログラムの実行経路が異なる)のサンプルデータの割合を,対応する実行経路のサロゲートを学習する複雑性に基づいて特徴付ける。 次に,プログラム内の異なる経路の複雑性を決定するプログラム解析を行う。 これらの結果を実世界のプログラムで評価し,複雑性誘導サンプリングが精度を実証的に向上させることを示した。

Programmers and researchers are increasingly developing surrogates of programs, models of a subset of the observable behavior of a given program, to solve a variety of software development challenges. Programmers train surrogates from measurements of the behavior of a program on a dataset of input examples. A key challenge of surrogate construction is determining what training data to use to train a surrogate of a given program. We present a methodology for sampling datasets to train neural-network-based surrogates of programs. We first characterize the proportion of data to sample from each region of a program's input space (corresponding to different execution paths of the program) based on the complexity of learning a surrogate of the corresponding execution path. We next provide a program analysis to determine the complexity of different paths in a program. We evaluate these results on a range of real-world programs, demonstrating that complexity-guided sampling results in empirical improvements in accuracy.
翻訳日:2023-09-22 16:59:32 公開日:2023-09-21
# グラフにおけるコミュニティ検出の包括的考察

A Comprehensive Review of Community Detection in Graphs ( http://arxiv.org/abs/2309.11798v1 )

ライセンス: Link先を確認
Songlai Ning, Jiakang Li, Yonggang Lu(参考訳) 複雑なネットワークの研究は,実世界のグラフの重要な特徴であるコミュニティ構造の理解を深めてきた。 グラフにおけるコミュニティの検出は、社会学、生物学、計算機科学の応用において難しい問題である。 学際的な科学者コミュニティの努力にもかかわらず、この問題に対する十分な解決策はまだ達成されていない。 この記事では、複雑なシステムの組織や機能を理解する上で重要な役割を担うグラフにおけるコミュニティ検出のトピックについて論じる。 まず,クラスタ間の強い内部接続と弱い結合を持つ,クラスタへの頂点の配置を意味するコミュニティ構造の概念の導入から始める。 そこで我々は,新しい手法を含む,様々なコミュニティ検出手法の徹底的な解説を行う。 さらに,多様なネットワークにおけるコミュニティ検出の現実的応用について検討する。 この総合的なレビューは、グラフにおけるコミュニティ検出の深い理解を提供する。 複数の分野の研究者や実践者にとって貴重なリソースとなり、複雑なネットワークにおけるコミュニティ検出の課題、方法論、応用に関する洞察を提供する。

The study of complex networks has significantly advanced our understanding of community structures which serves as a crucial feature of real-world graphs. Detecting communities in graphs is a challenging problem with applications in sociology, biology, and computer science. Despite the efforts of an interdisciplinary community of scientists, a satisfactory solution to this problem has not yet been achieved. This review article delves into the topic of community detection in graphs, which serves as a crucial role in understanding the organization and functioning of complex systems. We begin by introducing the concept of community structure, which refers to the arrangement of vertices into clusters, with strong internal connections and weaker connections between clusters. Then, we provide a thorough exposition of various community detection methods, including a new method designed by us. Additionally, we explore real-world applications of community detection in diverse networks. In conclusion, this comprehensive review provides a deep understanding of community detection in graphs. It serves as a valuable resource for researchers and practitioners in multiple disciplines, offering insights into the challenges, methodologies, and applications of community detection in complex networks.
翻訳日:2023-09-22 16:54:14 公開日:2023-09-21
# 安定化誤り訂正符号のための量子回路:チュートリアル

Quantum Circuits for Stabilizer Error Correcting Codes: A Tutorial ( http://arxiv.org/abs/2309.11793v1 )

ライセンス: Link先を確認
Arijit Mondal, Keshab K. Parhi(参考訳) 量子コンピュータは、古典的コンピュータよりも指数関数的なスピードアップをもたらす可能性がある。 量子原理は、通信、情報処理、人工知能といった分野に適用され、量子優位を達成する。 しかし、量子ビットは非常にノイズが多く、デコヒーレンスを起こしやすい。 したがって、量子ビットエラーを自由に保つことは、信頼できる量子コンピューティングにとって極めて重要である。 量子誤り訂正符号は数十年にわたって研究され、古典的な誤り訂正符号を量子領域にインポートする方法が提案されている。 しかし、そのようなエンコーダやデコーダの回路は深く研究されていない。 本稿では、量子エンコーダおよびデコーダ回路の設計とシミュレーションに関するチュートリアルを提供する。 我々は5量子ビット符号とステアン符号の符号化と復号化を行い、IBM Qiskitを用いてこれらの回路の検証を行う。 また、近接する5ビット符号の符号化回路とデコーダ回路も提供する。

Quantum computers have the potential to provide exponential speedups over their classical counterparts. Quantum principles are being applied to fields such as communications, information processing, and artificial intelligence to achieve quantum advantage. However, quantum bits are extremely noisy and prone to decoherence. Thus, keeping the qubits error free is extremely important toward reliable quantum computing. Quantum error correcting codes have been studied for several decades and methods have been proposed to import classical error correcting codes to the quantum domain. However, circuits for such encoders and decoders haven't been explored in depth. This paper serves as a tutorial on designing and simulating quantum encoder and decoder circuits for stabilizer codes. We present encoding and decoding circuits for five-qubit code and Steane code, along with verification of these circuits using IBM Qiskit. We also provide nearest neighbour compliant encoder and decoder circuits for the five-qubit code.
翻訳日:2023-09-22 16:53:59 公開日:2023-09-21
# ポアソン分散コヒーレント光子の2次強度相関に対するコヒーレンス操作

Coherence manipulations of Poisson-distributed coherent photons for the second-order intensity correlation ( http://arxiv.org/abs/2309.11792v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 1光子(第1次)強度相関とは異なり、2光子(第2次)強度相関は古典的手法では達成できないことが知られている。 過去数十年間、このような量子的特徴は、香港・ウー・マンデル効果の反相関とベル不等式違反の非局所相関に強く実証されてきた。 本稿では,減衰レーザ光のコヒーレンス操作を行い,純コヒーレンス光学を用いた量子特性を実現する。 2光子強度相関の一般的な理解とは異なり、現在のコヒーレンスアプローチは既知の量子アプローチと同等の古典バージョンを与える。 対のコヒーレント光子間のコヒーレンス量子特性を励起するためには、独立局所パラメータ間の分離不能な結合位相関係を作成する上で、選択的な測定プロセスが不可欠である。 局所的ランダム性はまた、光子の正則偏光基底を用いて双方で満たされる。

Unlike one-photon (first order) intensity correlation, two-photon (second order) intensity correlation is known to be impossible to achieve by any classical means. Over the last several decades, such quantum features have been intensively demonstrated for anti-correlation in the Hong-Ou-Mandel effects and nonlocal correlation in Bell inequality violation. Here, we present coherence manipulations of attenuated laser light to achieve such a quantum feature using pure coherence optics. Unlike the common understanding of the two-photon intensity correlations, the present coherence approach gives an equivalent classical version to the known quantum approach. To excite the coherence quantum features between paired coherent photons, a selective measurement process plays an essential role in creating the inseparable joint phase relation between independent local parameters. The local randomness is also satisfied in both parties using orthonormal polarization bases of a single photon.
翻訳日:2023-09-22 16:53:46 公開日:2023-09-21
# slhcat:セマンティック、語彙、階層的機能を活用したwikipediaのカテゴリとリストをdbpediaにマッピングする

SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features ( http://arxiv.org/abs/2309.11791v1 )

ライセンス: Link先を確認
Zhaoyi Wang, Zhenyang Zhang, Jiaxin Qin, Mizuho Iwaihara(参考訳) wikipediaの記事はカテゴリやリストを通じて階層的に整理され、最も包括的で普遍的な分類の1つを提供しているが、そのオープンな作成は冗長性と不一致を引き起こしている。 DBPediaクラスをWikipediaのカテゴリやリストに割り当てることで、エンティティリンクとタイピングを通じてデジタルコンテンツを分類するのに不可欠な大きな知識グラフを実現することができる。 しかし、CaLiGraphの既存のアプローチは、不完全できめ細かいマッピングを生み出している。 本稿では,オントロジー・アライメント(オントロジー・アライメント)の課題として,知識グラフの構造情報と,オントロジー・クラス名の語彙的・意味的特徴を利用して,信頼度の高いマッピングを発見する。 slhcat は2つの主要な部分からなる。 1)知識グラフ構造,意味的類似性,名前付きエンティティタイピングを活用した学習データの自動生成。 2) 学習済み言語モデルBERTの微調整と迅速な調整をトレーニングデータ上で行い, クラス名の意味的・統語的特性を捉える。 我々のモデルSLHCatは、3000の微細なCaLiGraph-DBpediaマッピングペアをアノテートすることで構築されたベンチマークデータセットで評価される。 slhcatはベースラインモデルを25%の精度で上回っており、大規模なオントロジーマッピングの実用的なソリューションを提供している。

Wikipedia articles are hierarchically organized through categories and lists, providing one of the most comprehensive and universal taxonomy, but its open creation is causing redundancies and inconsistencies. Assigning DBPedia classes to Wikipedia categories and lists can alleviate the problem, realizing a large knowledge graph which is essential for categorizing digital contents through entity linking and typing. However, the existing approach of CaLiGraph is producing incomplete and non-fine grained mappings. In this paper, we tackle the problem as ontology alignment, where structural information of knowledge graphs and lexical and semantic features of ontology class names are utilized to discover confident mappings, which are in turn utilized for finetuing pretrained language models in a distant supervision fashion. Our method SLHCat consists of two main parts: 1) Automatically generating training data by leveraging knowledge graph structure, semantic similarities, and named entity typing. 2) Finetuning and prompt-tuning of the pre-trained language model BERT are carried out over the training data, to capture semantic and syntactic properties of class names. Our model SLHCat is evaluated over a benchmark dataset constructed by annotating 3000 fine-grained CaLiGraph-DBpedia mapping pairs. SLHCat is outperforming the baseline model by a large margin of 25% in accuracy, offering a practical solution for large-scale ontology mapping.
翻訳日:2023-09-22 16:53:30 公開日:2023-09-21
# DimCL:自己監督学習を改善するための次元コントラスト学習

DimCL: Dimensional Contrastive Learning For Improving Self-Supervised Learning ( http://arxiv.org/abs/2309.11782v1 )

ライセンス: Link先を確認
Thanh Nguyen, Trung Pham, Chaoning Zhang, Tung Luu, Thang Vu and Chang D. Yoo(参考訳) 自己教師型学習(SSL)は、対照的な学習(CL)が重要な役割を担っている。 しかし、最近の新しい非CLフレームワークの開発は、高い改善可能性を持つ同等またはより良いパフォーマンスを達成し、研究者はこれらのフレームワークをさらに強化した。 CLを非CLフレームワークに同化することは有益であると考えられているが、実証的な証拠は目に見える改善を示さない。 そこで本研究では,従来のコントラスト学習である次元コントラスト学習(DimCL)において,バッチ方向ではなく,次元方向に沿ってCLを実行する戦略を提案する。 DimCLは機能の多様性を高めることを目的としており、以前のSSLフレームワークのレギュレータとして機能する。 DimCLは有効であることが分かっており、その硬さを認識した性質がその成功の重要な理由として認識されている。 広範囲な実験結果から、dimclをsslフレームワークに同化することで、さまざまなデータセットやバックボーンアーキテクチャの非自明なマージンによるパフォーマンス向上が達成できることが分かった。

Self-supervised learning (SSL) has gained remarkable success, for which contrastive learning (CL) plays a key role. However, the recent development of new non-CL frameworks has achieved comparable or better performance with high improvement potential, prompting researchers to enhance these frameworks further. Assimilating CL into non-CL frameworks has been thought to be beneficial, but empirical evidence indicates no visible improvements. In view of that, this paper proposes a strategy of performing CL along the dimensional direction instead of along the batch direction as done in conventional contrastive learning, named Dimensional Contrastive Learning (DimCL). DimCL aims to enhance the feature diversity, and it can serve as a regularizer to prior SSL frameworks. DimCL has been found to be effective, and the hardness-aware property is identified as a critical reason for its success. Extensive experimental results reveal that assimilating DimCL into SSL frameworks leads to performance improvement by a non-trivial margin on various datasets and backbone architectures.
翻訳日:2023-09-22 16:53:03 公開日:2023-09-21
# 顔, 顔ランドマーク, 頭部ポーズの同時検出のためのリアルタイムマルチタスク学習システム

A Real-Time Multi-Task Learning System for Joint Detection of Face, Facial Landmark and Head Pose ( http://arxiv.org/abs/2309.11773v1 )

ライセンス: Link先を確認
Qingtian Wu and Liming Zhang(参考訳) 極端な頭部姿勢は、顔検出、顔ランドマーク検出(fld)、頭部ポーズ推定(hpe)など、さまざまな顔分析タスクにおいて共通の課題となる。 これらのタスクは相互依存しており、正確なFLDは堅牢な顔検出に依存し、HPEはこれらのキーポイントと複雑に関連付けられている。 本稿では,これらのタスクの統合,特に大角顔のポーズによって生じる複雑さに対処することに焦点を当てる。 本研究の主な貢献は、顔、顔のランドマーク、頭部のポーズを同時に検出できるリアルタイムマルチタスク検出システムを提案することである。 このシステムは広く採用されているyolov8検出フレームワークに基づいている。 ランドマーク回帰ヘッドを追加することで、オリジナルのオブジェクト検出ヘッドを拡張し、重要な顔ランドマークの効率的なローカライズを可能にする。 さらに、元のyolov8フレームワークで様々なモジュールの最適化と拡張を行います。 提案モデルの有効性と実時間性能を検証するため,300W-LPおよびAFLW2000-3Dデータセットについて広範な実験を行った。 その結果,これらのタスク間でリアルタイムパフォーマンスを提供しながら,大角面の課題に対処できるモデルの能力を検証することができた。

Extreme head postures pose a common challenge across a spectrum of facial analysis tasks, including face detection, facial landmark detection (FLD), and head pose estimation (HPE). These tasks are interdependent, where accurate FLD relies on robust face detection, and HPE is intricately associated with these key points. This paper focuses on the integration of these tasks, particularly when addressing the complexities posed by large-angle face poses. The primary contribution of this study is the proposal of a real-time multi-task detection system capable of simultaneously performing joint detection of faces, facial landmarks, and head poses. This system builds upon the widely adopted YOLOv8 detection framework. It extends the original object detection head by incorporating additional landmark regression head, enabling efficient localization of crucial facial landmarks. Furthermore, we conduct optimizations and enhancements on various modules within the original YOLOv8 framework. To validate the effectiveness and real-time performance of our proposed model, we conduct extensive experiments on 300W-LP and AFLW2000-3D datasets. The results obtained verify the capability of our model to tackle large-angle face pose challenges while delivering real-time performance across these interconnected tasks.
翻訳日:2023-09-22 16:52:43 公開日:2023-09-21
# 小型マルチ日付衛星画像のための高速衛星天空放射場

Fast Satellite Tensorial Radiance Field for Multi-date Satellite Imagery of Large Size ( http://arxiv.org/abs/2309.11767v1 )

ライセンス: Link先を確認
Tongtong Zhang, Yuanxiang Li(参考訳) 既存の衛星画像のNeRFモデルは、遅い速度、入力として太陽情報、大きな衛星画像を扱う際の制限に悩まされている。 そこで本研究では,衛星画像に対するパラメータを小さくしつつ,プロセス全体を著しく高速化するサテンソルフを提案する。 さらに, 神経放射場におけるランベルト面の仮定は, 植物および水生元素では不十分であることがわかった。 従来の階層的mlpに基づくシーン表現とは対照的に,色,容積密度,補助変数のマルチスケールテンソル分解アプローチを採用し,明色でライトフィールドをモデル化した。 さらに,多年画像における不整合を解消するために,密度テンソル場を復元し,問題を否定するタスクとして扱うために,全変動損失を組み込んだ。このアプローチを検証するために,多年画像と一年目のrgb画像を含むspacenet multi-viewデータセットのサブセットを用いて,satensorfの評価を行った。 以上の結果から,サテンソRFは新たなビュー合成性能において最先端のSat-NeRFシリーズを上回っていることが明らかとなった。 重要なことに、SatensoRFはトレーニングのパラメータを少なくし、高速なトレーニングと推論速度と計算要求の削減をもたらす。

Existing NeRF models for satellite images suffer from slow speeds, mandatory solar information as input, and limitations in handling large satellite images. In response, we present SatensoRF, which significantly accelerates the entire process while employing fewer parameters for satellite imagery of large size. Besides, we observed that the prevalent assumption of Lambertian surfaces in neural radiance fields falls short for vegetative and aquatic elements. In contrast to the traditional hierarchical MLP-based scene representation, we have chosen a multiscale tensor decomposition approach for color, volume density, and auxiliary variables to model the lightfield with specular color. Additionally, to rectify inconsistencies in multi-date imagery, we incorporate total variation loss to restore the density tensor field and treat the problem as a denosing task.To validate our approach, we conducted assessments of SatensoRF using subsets from the spacenet multi-view dataset, which includes both multi-date and single-date multi-view RGB images. Our results clearly demonstrate that SatensoRF surpasses the state-of-the-art Sat-NeRF series in terms of novel view synthesis performance. Significantly, SatensoRF requires fewer parameters for training, resulting in faster training and inference speeds and reduced computational demands.
翻訳日:2023-09-22 16:52:19 公開日:2023-09-21
# IMUに基づく歩行認証に関する辞書攻撃

Dictionary Attack on IMU-based Gait Authentication ( http://arxiv.org/abs/2309.11766v1 )

ライセンス: Link先を確認
Rajesh Kumar and Can Isik and Chilukuri K. Mohan(参考訳) スマートフォンに内蔵された慣性計測ユニット(IMU)によって記録された歩行パターンを利用する認証システムに対する新たな逆方向モデルを提案する。 攻撃のアイデアは、知識(PINまたはパスワード)ベースの認証システムに対する辞書攻撃の概念に触発され、命名された。 特に、IMUGaitパターンの辞書を作成して攻撃を開始するか、ターゲットのIMUGaitパターンにマッチするIMUGaitパターンを積極的に再現できる模倣者を見つけることができるかを検討する。 9人の身体的および人口的多様な個体が、予め定義された4つの歩行因子(速度、歩幅、歩幅、大腿リフト)の様々なレベルを歩行し、178種類のIMUGaitパターンを生み出した。 各パターンは様々なユーザー認証モデルを攻撃した。 IMUGaitパターンに基づく認証システムが最も難解であるという考えに対して、攻撃前および攻撃後におけるエラー率のより深い分析は、敵のモデルや関連する対策についてさらなる研究が必要である。

We present a novel adversarial model for authentication systems that use gait patterns recorded by the inertial measurement unit (IMU) built into smartphones. The attack idea is inspired by and named after the concept of a dictionary attack on knowledge (PIN or password) based authentication systems. In particular, this work investigates whether it is possible to build a dictionary of IMUGait patterns and use it to launch an attack or find an imitator who can actively reproduce IMUGait patterns that match the target's IMUGait pattern. Nine physically and demographically diverse individuals walked at various levels of four predefined controllable and adaptable gait factors (speed, step length, step width, and thigh-lift), producing 178 unique IMUGait patterns. Each pattern attacked a wide variety of user authentication models. The deeper analysis of error rates (before and after the attack) challenges the belief that authentication systems based on IMUGait patterns are the most difficult to spoof; further research is needed on adversarial models and associated countermeasures.
翻訳日:2023-09-22 16:51:42 公開日:2023-09-21
# 差分プライベートFew-Shot生成によるプライバシー保護型インコンテキスト学習

Privacy-Preserving In-Context Learning with Differentially Private Few-Shot Generation ( http://arxiv.org/abs/2309.11765v1 )

ライセンス: Link先を確認
Xinyu Tang, Richard Shin, Huseyin A. Inan, Andre Manoel, Fatemehsadat Mireshghallah, Zinan Lin, Sivakanth Gopi, Janardhan Kulkarni, Robert Sim(参考訳) 本研究では,大規模言語モデル(LLM)を用いたテキスト内学習(ICL)の課題をプライベートデータセット上で検討する。 このシナリオは、LSMがプロンプトで示したプライベートな例をリークしたり、取り消したりする可能性があるため、プライバシー上のリスクを引き起こす。 本稿では,個人データセットから形式的差分プライバシー(DP)保証付き複数ショットを合成的に生成するアルゴリズムを提案し,実効性のあるICLを実現することを実証的に示す。 我々は、標準ベンチマークで広範な実験を行い、アルゴリズムをプライベートでないICLやゼロショットソリューションと比較する。 以上の結果から,我々のアルゴリズムは強力なプライバシレベルを持つ競合性能を達成できることを示す。 これらの結果は、幅広いアプリケーションに対するプライバシ保護を備えたICLの新たな可能性を開くものだ。

We study the problem of in-context learning (ICL) with large language models (LLMs) on private datasets. This scenario poses privacy risks, as LLMs may leak or regurgitate the private examples demonstrated in the prompt. We propose a novel algorithm that generates synthetic few-shot demonstrations from the private dataset with formal differential privacy (DP) guarantees, and show empirically that it can achieve effective ICL. We conduct extensive experiments on standard benchmarks and compare our algorithm with non-private ICL and zero-shot solutions. Our results demonstrate that our algorithm can achieve competitive performance with strong privacy levels. These results open up new possibilities for ICL with privacy protection for a broad range of applications.
翻訳日:2023-09-22 16:50:52 公開日:2023-09-21
# SAM-OCTA: OCTAイメージセグメンテーションタスクに基礎モデルを適用するための微調整戦略

SAM-OCTA: A Fine-Tuning Strategy for Applying Foundation Model to OCTA Image Segmentation Tasks ( http://arxiv.org/abs/2309.11758v1 )

ライセンス: Link先を確認
Chengliang Wang, Xinrun Chen, Haojian Ning, Shiying Li(参考訳) 光コヒーレンストモグラフィー血管造影(OCTA)画像の解析では,特定の目標をセグメンティングする操作が必要である。 既存のメソッドは通常、限られたサンプル(約数百)を持つ教師付きデータセットでトレーニングする。 これを解決するため,基礎モデルの微調整に低ランク適応手法を採用し,OCTAデータセット上で様々なセグメンテーションタスクを処理するためのプロンプトポイント生成戦略を提案する。 この手法はSAM-OCTAと呼ばれ、OCTA-500データセットで実験されている。 本手法は,最先端の性能指標の達成とともに,従来の研究では未解決であった局所血管のセグメンテーションと効果的な動脈静脈のセグメンテーションを実現する。 コードはhttps://github.com/shellredia/sam-octa。

In the analysis of optical coherence tomography angiography (OCTA) images, the operation of segmenting specific targets is necessary. Existing methods typically train on supervised datasets with limited samples (approximately a few hundred), which can lead to overfitting. To address this, the low-rank adaptation technique is adopted for foundation model fine-tuning and proposed corresponding prompt point generation strategies to process various segmentation tasks on OCTA datasets. This method is named SAM-OCTA and has been experimented on the publicly available OCTA-500 dataset. While achieving state-of-the-art performance metrics, this method accomplishes local vessel segmentation as well as effective artery-vein segmentation, which was not well-solved in previous works. The code is available at: https://github.com/ShellRedia/SAM-OCTA.
翻訳日:2023-09-22 16:50:39 公開日:2023-09-21
# 感度が1pT/rHz未満の非シールド型マイクロ磁気センサにおける不明瞭な測定

Unambiguous measurement in an unshielded microscale magnetometer with sensitivity below 1 pT/rHz ( http://arxiv.org/abs/2309.11825v1 )

ライセンス: Link先を確認
Hamish A. M. Taylor, Christopher C. Bounds, Alex Tritt, and L. D. Turner(参考訳) コールド原子磁気センサは、長いコヒーレンス時間で密度の高い量子のアンサンブルを利用して、マイクロメータースケールの先導感度を実現する。 ラムゼー干渉計として構成されたコールド原子センサーは、限られた精度で原子のショットノイズに接近できるが、外界の曖昧さに悩まされ、磁場が狭く予め定義された範囲外にあるときにひどい誤差を生じる。 ヒルベルト変調光磁気測定が寒冷原子センサ上でどのように実現され、精密かつ不明瞭な磁場測定が可能かを述べる。 ラーモア位相の連続的再構成により,非シールド環境下でのdc磁場の明瞭な決定と,単発で磁場の交流変動を測定することができる。 ac測定により、線形同期磁気干渉を特徴付け、中和し、再構成時間を延長することができる。 6 \times 10^6$ $^{87}$rb 原子を $(68 \,\mathrm{\mu m})^3$ の体積で使って、1ショットでテストフィールドを8.3031807(2) \; \mathrm{\mu t}$ と測定し、235 \; \mathrm{ft}/\sqrt{\mathrm{hz}}$ の直流感度を984ミリ秒で達成した。

Cold atom magnetometers exploit a dense ensemble of quanta with long coherence times to realise leading sensitivity on the micrometer scale. Configured as a Ramsey interferometer, a cold atom sensor can approach atom shot-noise limited precision but suffers from fringe ambiguity, producing gross errors when the field falls outside a narrow pre-defined range. We describe how Hilbert-demodulated optical magnetometry can be realised on cold atom sensors to provide field measurements both precise and unambiguous. Continuous reconstruction of the Larmor phase allows us to determine the dc magnetic field unambiguously in an unshielded environment, as well as measure ac variation of the field, in a single shot. The ac measurement allows us to characterize, and then neutralise, line-synchronous magnetic interference, extending reconstruction times. Using $1.6 \times 10^6$ $^{87}$Rb atoms in a volume of $(68 \,\mathrm{\mu m})^3$, we measure a test field to be $86.3031807(2) \; \mathrm{\mu T}$ in a single shot, achieving dc sensitivity of $235 \; \mathrm{fT}/\sqrt{\mathrm{Hz}}$ in a duration of 984 ms. Our results demonstrate that Hilbert-demodulated optical readout yields metrologically-significant sensitivity without the fringe ambiguity inherent to Ramsey interferometry.
翻訳日:2023-09-22 16:42:35 公開日:2023-09-21
# ニューラル確率的先行詞を用いた単語埋め込み

Word Embedding with Neural Probabilistic Prior ( http://arxiv.org/abs/2309.11824v1 )

ライセンス: Link先を確認
Shaogang Ren, Dingcheng Li, Ping Li(参考訳) 単語表現学習を改善するために,単語埋め込みモデルとシームレスに統合可能な確率的前置法を提案する。 従来の方法とは異なり、単語埋め込みは確率的生成モデルとして捉えられ、事前の正規化単語表現学習を課すことができる。 提案手法は, 埋め込みベクトルの表現性を向上するだけでなく, モデルの堅牢性や安定性も向上する。 提案手法は単純かつ効果的であり,既存の単語埋め込みモデルで容易に実装し,柔軟に接続することができる。 実験の結果,提案手法は様々なタスクにおける単語表現を改善した。

To improve word representation learning, we propose a probabilistic prior which can be seamlessly integrated with word embedding models. Different from previous methods, word embedding is taken as a probabilistic generative model, and it enables us to impose a prior regularizing word representation learning. The proposed prior not only enhances the representation of embedding vectors but also improves the model's robustness and stability. The structure of the proposed prior is simple and effective, and it can be easily implemented and flexibly plugged in most existing word embedding models. Extensive experiments show the proposed method improves word representation on various tasks.
翻訳日:2023-09-22 16:41:59 公開日:2023-09-21
# 時間依存性縦方向場存在下におけるシェリントン・カークパトリックスピングラスの量子アニール

Quantum Annealing in Sherrington-Kirkpatrick Spin Glass in Presence of Time-Dependent Longitudinal Field ( http://arxiv.org/abs/2309.11822v1 )

ライセンス: Link先を確認
Atanu Rajak and Bikas K Chakrabarti(参考訳) 量子アニール技術を用いた最近の量子技術の発展と、シェリントン・カークパトリック(SK)スピンガラスモデルの静的特性に関する最近の研究により、スピンガラスモデルの量子アニールを横方向および縦方向の両方のフィールドをチューニングすることによって研究した。 両方の体が時間依存され、最終的に同時に消えるとき、全ハミルトニアンの時間依存的なシュル・オーディンガー方程式を解く。 我々は、古典的なスピングラスの2つの退化基底状態のうちの1つで系を見つける確率の時間進化を計算した。 アニーリングの終わりには、構成平均確率を用いて、量子アニーリングのプロセスを通して一定に保つのではなく、縦方向のフィールドがアニーリングされるという明確な利点を示しました。 さらに, 量子SKスピンガラスの小さな長手フィールドの存在下での順序パラメータ分布について検討し, ゼロ長手フィールドの場合と比較してエルゴディディディティの高速化を示す。 我々の推測では、この創発的なエルゴード性は、アニールされた縦磁場による量子アニーリングの利点である。

Motivated by the recent development of quantum technology using quantum annealing technique and the recent works on the static properties of the Sherrington-Kirkpatrick (SK) spin glass model, we study quantum annealing of the spin glass model by tuning both transverse and longitudinal fields. We solve the time-dependent Schr\"odinger equation of the total Hamiltonian when both the fields are made time-dependent and eventually vanish at the same time. We have computed the time-evolution of the probability of finding the system in one of two degenerate ground states of the classical spin glass. At the end of annealing, using the configuration averaged probability, we have shown a clear advantage while the longitudinal field is annealed rather than keeping it constant throughout the process of quantum annealing. We further investigate the order parameter distribution of a quantum SK spin glass in presence of a small longitudinal field and indicate the speeding up of the ergodicity as compared to the zero longitudinal field case. Our speculation is that this emergent ergodicity is responsible for the advantage in quantum annealing with annealed longitudinal field.
翻訳日:2023-09-22 16:41:48 公開日:2023-09-21
# 限られたデータを用いた超音波自動位置認識

Automatic Endoscopic Ultrasound Station Recognition with Limited Data ( http://arxiv.org/abs/2309.11820v1 )

ライセンス: Link先を確認
Abhijit Ramesh, Anantha Nandanan, Anantha Nandanan, Priya Nair MD, Gilad Gressel(参考訳) 膵がんは致命的ながん形態であり、世界中のがん関連死亡に大きく貢献する。 早期発見は患者の予後と生存率を改善するために不可欠である。 医療画像技術の進歩にもかかわらず、膵癌は検出が困難な疾患である。 内視鏡的超音波検査(eus)は膵癌の診断に最も有効な診断ツールである。 しかし、信頼できる患者スキャンを完了させるためには、複雑な超音波画像の専門的な解釈が必要である。 膵の完全な画像を得るには、内視鏡を複数の「EUSステーション」(解剖学的位置)に誘導し、膵の異なるビューを提供する必要がある。 これは学ぶのが難しいスキルであり、経験豊富な医師の助けを借りて225以上のプロクターの手順が関与している。 我々は、深層学習技術を利用して、EUS手順中の胃のこれらのステーションをリアルタイムで識別するAI支援ツールを構築した。 このコンピュータ支援診断(CAD)は医師の訓練を効率化する。 歴史的に、そのようなツールを開発する上で直面する課題は、訓練された臨床医が必要とするレトロスペクティブのラベル付けの量である。 そこで我々は,EUSプロシージャにおけるアノテート処理のプロセスを,臨床医の最小限の努力で効率化する,オープンソースのユーザフレンドリーなラベリングWebアプリを開発した。 ハイパーパラメータの微調整を行わない43のプロシージャは,現在の技術に匹敵する90%のバランスの取れた精度を得た。 また,臨床医に解釈可能かつ説明可能な可視化を提供する可視化技術であるGrad-CAMを採用している。

Pancreatic cancer is a lethal form of cancer that significantly contributes to cancer-related deaths worldwide. Early detection is essential to improve patient prognosis and survival rates. Despite advances in medical imaging techniques, pancreatic cancer remains a challenging disease to detect. Endoscopic ultrasound (EUS) is the most effective diagnostic tool for detecting pancreatic cancer. However, it requires expert interpretation of complex ultrasound images to complete a reliable patient scan. To obtain complete imaging of the pancreas, practitioners must learn to guide the endoscope into multiple "EUS stations" (anatomical locations), which provide different views of the pancreas. This is a difficult skill to learn, involving over 225 proctored procedures with the support of an experienced doctor. We build an AI-assisted tool that utilizes deep learning techniques to identify these stations of the stomach in real time during EUS procedures. This computer-assisted diagnostic (CAD) will help train doctors more efficiently. Historically, the challenge faced in developing such a tool has been the amount of retrospective labeling required by trained clinicians. To solve this, we developed an open-source user-friendly labeling web app that streamlines the process of annotating stations during the EUS procedure with minimal effort from the clinicians. Our research shows that employing only 43 procedures with no hyperparameter fine-tuning obtained a balanced accuracy of 90%, comparable to the current state of the art. In addition, we employ Grad-CAM, a visualization technology that provides clinicians with interpretable and explainable visualizations.
翻訳日:2023-09-22 16:41:24 公開日:2023-09-21
# ガウス状態の非古典性と絡み合いの定量化

Quantifying nonclassicality and entanglement of Gaussian states ( http://arxiv.org/abs/2309.11815v1 )

ライセンス: Link先を確認
Xiao-yu Chen(参考訳) 量子状態における非古典性と絡み合いの定量化は、情報処理と計算において量子優位に不可欠である。 ロバスト性は、量子資源を定量化するための扱いやすい尺度の1つである。 ガウス状態は理論上単純で実験的に容易にアクセスできる連続変数量子情報において重要である。 ガウス状態に対する非古典性の堅牢性と包摂性を計算する方法を提案する。 非古典性または絡み合いのロバスト性は、一モード、2モードガウスサイン状態と多モード対称ガウス状態に対して解析的に証明され、その結果、非古典性と絡み合いの起源に対する明確な物理的意味を示す。 圧縮熱状態の場合、非古典性は2モードの場合の絡み合いに等しいが、多モードの場合では遠く離れている。

Quantification of nonclassicality and entanglement in a quantum state is crucial for quantum advantage in information processing and computation. Robustness is one of the tractable measures for quantifying quantum resources. Gaussian states are important in continuous variable quantum information for their theoretically simple and experimentally easily accessible. We provide the method of how to calculate the robustness of nonclassicality and enatnglement for Gaussian states. The robustness of nonclassicality or entanglement is demonstrated analytically for one-mode, two-mode Gaussain states and multimode symmetric Gaussian states, the result shows a clear physical meaning for the origin of nonclassicality and entanglement. For squeezed thermal states, the nonclassicality is equal to the entanglement for the two-mode case, while they are far apart for multimode cases.
翻訳日:2023-09-22 16:41:02 公開日:2023-09-21
# 常にエントロピー生産への微視的貢献:非平衡定常状態から大域的熱化へ

Microscopic contributions to the entropy production at all times: From nonequilibrium steady states to global thermalization ( http://arxiv.org/abs/2309.11812v1 )

ライセンス: Link先を確認
Ayaka Usui, Krzysztof Ptaszy\'nski, Massimiliano Esposito, Philipp Strasberg(参考訳) schr\"odinger方程式の正確な積分に基づいて、自由フェルミオンの2つの浴槽に結合された単一のフェルミ準位トンネルを記述するパラダイムモデルである単一電子トランジスタのエントロピー生成に対する微視的寄与を数値的に研究した。 この目的のために、エントロピー生成を情報理論的な用語の和に分解し、非平衡定常状態のレジームや大域的熱化の最終段階を含むすべての関連する時間スケールで研究する。 エントロピー生成は, 浴槽内の温度と浴槽内部の(内部ではなく)相関関係の微視的偏差により, 多くの場合, 支配的であった。 このような微視的な温度差にもかかわらず、モデルが統合可能であるにもかかわらず、浴槽の温度と化学ポテンシャルは予想通り熱化する。 重要なことに、この観測は初期混合状態と純粋な状態の両方で確認される。 さらに,浴槽間の相関は直観に反するシステムバス結合強度に非常に敏感であることがわかった。 最後に、絶対的な意味では小さいシステム・バス相関は相対的な意味で支配的であり、研究された全てのパラメータレジームに対して純粋な量子相関を示す。

Based on exact integration of the Schr\"odinger equation, we numerically study microscopic contributions to the entropy production for the single electron transistor, a paradigmatic model describing a single Fermi level tunnel coupled to two baths of free fermions. To this end, we decompose the entropy production into a sum of information theoretic terms and study them across all relevant time scales, including the nonequilibrium steady state regime and the final stage of global thermalization. We find that the entropy production is dominated for most times by microscopic deviations from thermality in the baths and the correlation between (but not inside) the baths. Despite these microscopic deviations from thermality, the temperatures and chemical potentials of the baths thermalize as expected, even though our model is integrable. Importantly, this observation is confirmed for both initially mixed and pure states. We further observe that the bath-bath correlations are quite insensitive to the system-bath coupling strength contrary to intuition. Finally, the system-bath correlation, small in an absolute sense, dominates in a relative sense and displays pure quantum correlations for all studied parameter regimes.
翻訳日:2023-09-22 16:40:48 公開日:2023-09-21
# 無線通信用マルチモーダルトランス : ビーム予測の事例研究

Multimodal Transformers for Wireless Communications: A Case Study in Beam Prediction ( http://arxiv.org/abs/2309.11811v1 )

ライセンス: Link先を確認
Yu Tian, Qiyang Zhao, Zine el abidine Kherroubi, Fouzi Boukhalfa, Kebin Wu, Faouzi Bader(参考訳) 大きなアンテナアレイを持つ高周波帯域での無線通信は、ビーム管理の課題に直面しており、カメラ、LiDAR、レーダー、GPSからのマルチモーダルセンシング情報によって改善される可能性がある。 本稿では,センシング支援ビーム予測のためのマルチモーダルトランスフォーマー深層学習フレームワークを提案する。 我々は畳み込みニューラルネットワークを用いて、時間とともにサンプリングされた画像、点雲、レーダー生データから特徴を抽出する。 各畳み込み層では、トランスフォーマーエンコーダを用いて、異なるモダリティから特徴トークンと抽象空間上の時間インスタンスの間の隠れた関係を学習し、次レベルの特徴抽出のための符号化ベクトルを生成する。 我々は、異なるモダリティと教師あり学習の組み合わせでモデルを訓練する。 我々は、焦点損失と指数的移動平均を利用して、不均衡データよりもモデルを強化することを試みる。 また,画像強調,セグメンテーション,バックグラウンドフィルタリング,マルチモーダルデータフリップ,レーダ信号変換,GPS角校正などのデータ処理および拡張技術の評価を行った。 実験の結果,画像とGPSデータに基づいてトレーニングしたソリューションは,予測されたビームの最高の距離ベース精度を78.44%で達成し,日中の73%,夜時の84%以上の日時のシナリオを効果的に一般化した。 これは他のモダリティや任意のデータ処理技術よりも優れており、画像やGPSから電波ビーム予測を行う際の特徴融合による変換器の有効性を示す。 さらに,複数のダウンストリーム無線ネットワークタスクを微調整することで,マルチモダリティ無線データの大規模シーケンスからソリューションを事前学習することができる。

Wireless communications at high-frequency bands with large antenna arrays face challenges in beam management, which can potentially be improved by multimodality sensing information from cameras, LiDAR, radar, and GPS. In this paper, we present a multimodal transformer deep learning framework for sensing-assisted beam prediction. We employ a convolutional neural network to extract the features from a sequence of images, point clouds, and radar raw data sampled over time. At each convolutional layer, we use transformer encoders to learn the hidden relations between feature tokens from different modalities and time instances over abstraction space and produce encoded vectors for the next-level feature extraction. We train the model on a combination of different modalities with supervised learning. We try to enhance the model over imbalanced data by utilizing focal loss and exponential moving average. We also evaluate data processing and augmentation techniques such as image enhancement, segmentation, background filtering, multimodal data flipping, radar signal transformation, and GPS angle calibration. Experimental results show that our solution trained on image and GPS data produces the best distance-based accuracy of predicted beams at 78.44%, with effective generalization to unseen day scenarios near 73% and night scenarios over 84%. This outperforms using other modalities and arbitrary data processing techniques, which demonstrates the effectiveness of transformers with feature fusion in performing radio beam prediction from images and GPS. Furthermore, our solution could be pretrained from large sequences of multimodality wireless data, on fine-tuning for multiple downstream radio network tasks.
翻訳日:2023-09-22 16:40:23 公開日:2023-09-21
# レーザー冷却した$^{43}$Ca$^+$イオンをイオントラップで生成する効果的な方法

Effective scheme for preparing laser-cooled $^{43}$Ca$^+$ ions in an ion trap ( http://arxiv.org/abs/2309.11809v1 )

ライセンス: Link先を確認
C.-H. Kuo, Y.-C. Hsiao, C.-Y. Jhang, Y.-D. Chen, and S. Tung(参考訳) イオントラップにおいて,レーザー冷却した$^{43}\textrm{Ca}^+$イオンを効率的に調製する方法を提案する。 このスキームは、共鳴パラメトリック励起に基づく同位体選択光イオン化と同位体特異的精製プロセスを統合する。 この戦略により、$^{43}\textrm{Ca}^+$イオンの合成が成功し、トラップ内に1次元のイオン結晶を形成する。 さらに、この簡単な方法は、様々な要素にわたるイオントラップの幅広い応用を約束する。

We present a scheme for efficiently preparing laser-cooled $^{43}\textrm{Ca}^+$ ions in an ion trap, despite the isotope's extremely low abundance of 0.135\%. The scheme integrates isotope-selective photoionization with an isotope-specific purification process based on resonant parametric excitations. This strategy leads to the successful preparation of $^{43}\textrm{Ca}^+$ ions, forming a one-dimensional ion crystal in the trap. Furthermore, this straightforward method holds promise for broader applications in ion traps across various elements.
翻訳日:2023-09-22 16:39:53 公開日:2023-09-21
# JobRecoGPT -- LLMを使用した説明可能なジョブレコメンデーション

JobRecoGPT -- Explainable job recommendations using LLMs ( http://arxiv.org/abs/2309.11805v1 )

ライセンス: Link先を確認
Preetam Ghosh, Vaishali Sadaphal(参考訳) 今日の急成長する雇用市場では、適切な機会を見つけることは大変な挑戦だ。 AI分野の進歩により、コンピュータは候補者に適切なジョブを推薦できるようになった。 しかし、仕事の推薦は視聴者に映画を推薦するのと同じではない。 スキルや経験のような必然的な基準とは別に、ある候補に適しているかどうかを判断できる仕事には微妙な側面がたくさんあります。 従来の方法では、ジョブや候補の定量化の側面を捉えることができるが、ジョブ記述や履歴書の非構造化形式で存在するデータの大部分は、構造化フォーマットへの変換の過程で失われる。 最近になって、Large Language Models (LLM) は、テキストベースのデータが利用可能な分野において、異常なパフォーマンスでAI分野を席巻した。 LLMの優れた性能にインスパイアされ、構造化されていないデータから構造化された形式への変換の際に失った情報を取得するために、自然言語を理解する能力を活用する。 この目的のために,4つの異なるアプローチ,すなわち求職勧告のパフォーマンスを比較した。 一 内容に基づく決定論 (II)LLMガイド。 (iii)無誘導、及び (iv)ハイブリッド。 本研究では,各手法の利点と限界を示し,その性能を時間的要求の観点から評価する。

In today's rapidly evolving job market, finding the right opportunity can be a daunting challenge. With advancements in the field of AI, computers can now recommend suitable jobs to candidates. However, the task of recommending jobs is not same as recommending movies to viewers. Apart from must-have criteria, like skills and experience, there are many subtle aspects to a job which can decide if it is a good fit or not for a given candidate. Traditional approaches can capture the quantifiable aspects of jobs and candidates, but a substantial portion of the data that is present in unstructured form in the job descriptions and resumes is lost in the process of conversion to structured format. As of late, Large Language Models (LLMs) have taken over the AI field by storm with extraordinary performance in fields where text-based data is available. Inspired by the superior performance of LLMs, we leverage their capability to understand natural language for capturing the information that was previously getting lost during the conversion of unstructured data to structured form. To this end, we compare performance of four different approaches for job recommendations namely, (i) Content based deterministic, (ii) LLM guided, (iii) LLM unguided, and (iv) Hybrid. In this study, we present advantages and limitations of each method and evaluate their performance in terms of time requirements.
翻訳日:2023-09-22 16:39:43 公開日:2023-09-21
# FGFusion:3次元物体検出のための細粒Lidar-Camera Fusion

FGFusion: Fine-Grained Lidar-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2309.11804v1 )

ライセンス: Link先を確認
Zixuan Yin, Han Sun, Ningzhong Liu, Huiyu Zhou, Jiaquan Shen(参考訳) ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。 ほとんどの一般的な方法は、3Dポイントクラウドとカメライメージを徐々にダウンスケールし、ハイレベルな特徴を融合させるが、ダウンスケールされた機能は必然的に低レベルな詳細情報を失う。 本稿では,画像と点雲のマルチスケール特徴をフル活用し,微細な方法で融合するFGF(Fined Lidar-Camera Fusion)を提案する。 まず,画像の高レベルな意味的特徴と低レベルな詳細特徴の両方を抽出するために,二重経路階層構造を設計する。 第2に,ポイントクラウド機能のガイドとして補助ネットワークを導入し,詳細な空間情報を学習する。 最後に,画像と点雲のN特徴写像を融合させるマルチスケール融合(MSF)を提案する。 KITTIとWaymoという2つの一般的な自動運転ベンチマークの大規模な実験は、我々の方法の有効性を実証している。

Lidars and cameras are critical sensors that provide complementary information for 3D detection in autonomous driving. While most prevalent methods progressively downscale the 3D point clouds and camera images and then fuse the high-level features, the downscaled features inevitably lose low-level detailed information. In this paper, we propose Fine-Grained Lidar-Camera Fusion (FGFusion) that make full use of multi-scale features of image and point cloud and fuse them in a fine-grained way. First, we design a dual pathway hierarchy structure to extract both high-level semantic and low-level detailed features of the image. Second, an auxiliary network is introduced to guide point cloud features to better learn the fine-grained spatial information. Finally, we propose multi-scale fusion (MSF) to fuse the last N feature maps of image and point cloud. Extensive experiments on two popular autonomous driving benchmarks, i.e. KITTI and Waymo, demonstrate the effectiveness of our method.
翻訳日:2023-09-22 16:39:24 公開日:2023-09-21
# DEYOv3: リアルタイムオブジェクト検出のためのYOLO付きDETR

DEYOv3: DETR with YOLO for Real-time Object Detection ( http://arxiv.org/abs/2309.11851v1 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) 近年、エンド・ツー・エンドの物体検出器は、その優れた性能のために研究コミュニティから大きな注目を集めている。 しかし、DETRは一般的にImageNet上のバックボーンの教師付き事前トレーニングに依存しており、これはDETRの実用的応用とバックボーンの設計を制限し、モデルの潜在的な一般化能力に影響を与える。 本稿では,ステップバイステップトレーニングと呼ばれる新しいトレーニング手法を提案する。 特に第1段階では、一対多で事前訓練されたYOLO検出器を使用して、エンドツーエンド検出器を初期化する。 第2段階では、バックボーンとエンコーダはDETRのようなモデルと一致しているが、検出器のみをゼロから訓練する必要がある。 このトレーニング方法により、オブジェクト検出器はバックボーンをトレーニングするために追加のデータセット(imagenet)を必要としないため、バックボーンの設計をより柔軟にし、オブジェクト検出器の実用化に役立つ検出器のトレーニングコストを劇的に削減できる。 また,detrライクモデルと比較して,従来のdetrライクモデルのトレーニング法よりも高い精度を実現することができた。 本稿では,この新しいトレーニング手法を用いて,deyov3と呼ばれる新しいエンドツーエンドオブジェクト検出モデルを提案する。 DEYOv3-NはCOCO val2017で41.1%、T4 GPUで270 FPS、DEYOv3-Lは51.3%APと102 FPSを達成した。 追加のトレーニングデータを使わずに、DEYOv3は速度と精度の両方で既存のリアルタイムオブジェクト検出器を超越している。 なお、N、S、Mスケールのモデルでは、COCOデータセットのトレーニングは単一の24GB RTX3090 GPUを使用して完了する。

Recently, end-to-end object detectors have gained significant attention from the research community due to their outstanding performance. However, DETR typically relies on supervised pretraining of the backbone on ImageNet, which limits the practical application of DETR and the design of the backbone, affecting the model's potential generalization ability. In this paper, we propose a new training method called step-by-step training. Specifically, in the first stage, the one-to-many pre-trained YOLO detector is used to initialize the end-to-end detector. In the second stage, the backbone and encoder are consistent with the DETR-like model, but only the detector needs to be trained from scratch. Due to this training method, the object detector does not need the additional dataset (ImageNet) to train the backbone, which makes the design of the backbone more flexible and dramatically reduces the training cost of the detector, which is helpful for the practical application of the object detector. At the same time, compared with the DETR-like model, the step-by-step training method can achieve higher accuracy than the traditional training method of the DETR-like model. With the aid of this novel training method, we propose a brand-new end-to-end real-time object detection model called DEYOv3. DEYOv3-N achieves 41.1% on COCO val2017 and 270 FPS on T4 GPU, while DEYOv3-L achieves 51.3% AP and 102 FPS. Without the use of additional training data, DEYOv3 surpasses all existing real-time object detectors in terms of both speed and accuracy. It is worth noting that for models of N, S, and M scales, the training on the COCO dataset can be completed using a single 24GB RTX3090 GPU.
翻訳日:2023-09-22 16:32:46 公開日:2023-09-21
# 細粒度感情分析のための談話レベル多スケール韻律モデル

A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion Analysis ( http://arxiv.org/abs/2309.11849v1 )

ライセンス: Link先を確認
Xianhao Wei, Jia Jia, Xiang Li, Zhiyong Wu, Ziyi Wang(参考訳) 本稿では、談話レベルのテキストから詳細な感情分析に適した韻律的特徴を予測する。 本モデルでは,音素レベルの局所韻律埋め込みシーケンス (LPEs) とグローバルスタイル埋め込み (Global Style Embedding) を音声からの韻律的音声特徴として抽出する。 本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPMを提案する。 提案モデルは,感情的韻律的特徴を分析し,より表現豊かな音声を合成するための音声合成モデルを導出するために有効である。 提案手法を定量的に評価するために,13,000以上の発話をアノテートした中国語オーディオブック(dca)データセットを作成し,提案モデルの評価を行った。 DCAデータセットの実験結果から,マルチスケールテキスト情報は韻律的特徴の予測に有効であり,談話レベルのテキストは全体の一貫性とユーザエクスペリエンスを向上することが示された。 さらに興味深いことに、我々はスタイル伝達モデルの合成効果を目指しているが、提案したテキスト韻律解析モデルによる合成音声は、一部のユーザ評価指標における元の音声からのスタイル伝達よりも優れている。

This paper explores predicting suitable prosodic features for fine-grained emotion analysis from the discourse-level text. To obtain fine-grained emotional prosodic features as predictive values for our model, we extract a phoneme-level Local Prosody Embedding sequence (LPEs) and a Global Style Embedding as prosodic speech features from the speech with the help of a style transfer model. We propose a Discourse-level Multi-scale text Prosodic Model (D-MPM) that exploits multi-scale text to predict these two prosodic features. The proposed model can be used to analyze better emotional prosodic features and thus guide the speech synthesis model to synthesize more expressive speech. To quantitatively evaluate the proposed model, we contribute a new and large-scale Discourse-level Chinese Audiobook (DCA) dataset with more than 13,000 utterances annotated sequences to evaluate the proposed model. Experimental results on the DCA dataset show that the multi-scale text information effectively helps to predict prosodic features, and the discourse-level text improves both the overall coherence and the user experience. More interestingly, although we aim at the synthesis effect of the style transfer model, the synthesized speech by the proposed text prosodic analysis model is even better than the style transfer from the original speech in some user evaluation indicators.
翻訳日:2023-09-22 16:32:17 公開日:2023-09-21
# MEFLUT:マルチ露光画像融合のための教師なし1Dルックアップテーブル

MEFLUT: Unsupervised 1D Lookup Tables for Multi-exposure Image Fusion ( http://arxiv.org/abs/2309.11847v1 )

ライセンス: Link先を確認
Ting Jiang, Chuan Wang, Xinpeng Li, Ru Li, Haoqiang Fan, Shuaicheng Liu(参考訳) 本稿では,高品質なマルチ露光画像融合(MEF)のための新しいアプローチを提案する。 本研究では,露出の融合重みを1次元ルックアップテーブル(LUT)に符号化し,画素強度値を入力とし,融合重みを出力として生成することを示す。 露光ごとに1D LUTを学習し、異なる露光から得られるすべてのピクセルが、高品質で効率的な融合のために独立してその露光の1D LUTをクエリできる。 具体的には,これら1次元lutsを学習するために,フレーム,チャネル,空間といった様々な次元の注意機構をmefタスクに組み込んで,最先端技術(sota)よりも優れた品質向上を実現する。 さらに、960個のサンプルからなる新しいMEFデータセットを収集し、そのうち155個のサンプルを専門家が手動で調整して評価する。 我々のネットワークは、教師なしの方法でこのデータセットによって訓練されている。 提案手法は,提案するコンポーネントすべての有効性を実証するために広範な実験を行い,本手法が定性的および定量的に,我々の代表データセットsiceのsotaを上回っていることを示した。 さらに、我々の1D LUTアプローチでは、PCGPU上で4Kイメージを実行するのに4ms未満です。 高品質、効率、堅牢性から、当社の方法は世界中で何百万ものAndroidモバイルに出荷されています。 コードは、https://github.com/Hedlen/MEFLUT.comで入手できる。

In this paper, we introduce a new approach for high-quality multi-exposure image fusion (MEF). We show that the fusion weights of an exposure can be encoded into a 1D lookup table (LUT), which takes pixel intensity value as input and produces fusion weight as output. We learn one 1D LUT for each exposure, then all the pixels from different exposures can query 1D LUT of that exposure independently for high-quality and efficient fusion. Specifically, to learn these 1D LUTs, we involve attention mechanism in various dimensions including frame, channel and spatial ones into the MEF task so as to bring us significant quality improvement over the state-of-the-art (SOTA). In addition, we collect a new MEF dataset consisting of 960 samples, 155 of which are manually tuned by professionals as ground-truth for evaluation. Our network is trained by this dataset in an unsupervised manner. Extensive experiments are conducted to demonstrate the effectiveness of all the newly proposed components, and results show that our approach outperforms the SOTA in our and another representative dataset SICE, both qualitatively and quantitatively. Moreover, our 1D LUT approach takes less than 4ms to run a 4K image on a PC GPU. Given its high quality, efficiency and robustness, our method has been shipped into millions of Android mobiles across multiple brands world-wide. Code is available at: https://github.com/Hedlen/MEFLUT.
翻訳日:2023-09-22 16:31:53 公開日:2023-09-21
# TMac:音響イベント分類のための時間的マルチモーダルグラフ学習

TMac: Temporal Multi-Modal Graph Learning for Acoustic Event Classification ( http://arxiv.org/abs/2309.11845v1 )

ライセンス: Link先を確認
Meng Liu, Ke Liang, Dayu Hu, Hao Yu, Yue Liu, Lingyuan Meng, Wenxuan Tu, Sihang Zhou, Xinwang Liu(参考訳) オーディオ視覚データは、このデジタル時代の至る所にあり、それによって、それら上で開発されたディープラーニングモデルに対するより高い要求がもたらされる。 マルチモーダルデータの情報を適切に扱うことは、より良いオーディオビジュアルモーダルの鍵となる。 映像中の各フレームの時間情報など,これらの映像データには時間特性が自然に存在することが観察された。 より具体的には、このようなデータは音声と視覚の両方で本質的にマルチモーダルであり、厳密な時系列順に進行する。 モーダル内およびモーダル間両方のマルチモーダル音響イベントモデリングにおいて,時間的情報の重要性が示唆された。 しかし、既存の手法ではそれぞれのモーダル特徴を独立に処理し、単にそれらを融合させるだけで、時間的関係のマイニングを怠り、結果として副最適性能に繋がる。 そこで本研究では,tmacと呼ばれる音響イベント分類のための時間的マルチモーダルグラフ学習手法を提案する。 特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。 各セグメントはノードと見なすことができ、ノード間の時間的関係はエッジ上のタイムスタンプと見なすことができる。 この場合、モーダル内およびモーダル間における動的情報をスムーズに捉えることができる。 いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。 私たちのコードはhttps://github.com/mgithubl/tmacで利用可能です。

Audiovisual data is everywhere in this digital age, which raises higher requirements for the deep learning models developed on them. To well handle the information of the multi-modal data is the key to a better audiovisual modal. We observe that these audiovisual data naturally have temporal attributes, such as the time information for each frame in the video. More concretely, such data is inherently multi-modal according to both audio and visual cues, which proceed in a strict chronological order. It indicates that temporal information is important in multi-modal acoustic event modeling for both intra- and inter-modal. However, existing methods deal with each modal feature independently and simply fuse them together, which neglects the mining of temporal relation and thus leads to sub-optimal performance. With this motivation, we propose a Temporal Multi-modal graph learning method for Acoustic event Classification, called TMac, by modeling such temporal information via graph learning techniques. In particular, we construct a temporal graph for each acoustic event, dividing its audio data and video data into multiple segments. Each segment can be considered as a node, and the temporal relationships between nodes can be considered as timestamps on their edges. In this case, we can smoothly capture the dynamic information in intra-modal and inter-modal. Several experiments are conducted to demonstrate TMac outperforms other SOTA models in performance. Our code is available at https://github.com/MGitHubL/TMac.
翻訳日:2023-09-22 16:31:28 公開日:2023-09-21
# 乱流における多光子状態の非マルコフ進化

Non-Markovian evolution of multiphoton states in turbulence ( http://arxiv.org/abs/2309.11842v1 )

ライセンス: Link先を確認
Filippus S. Roux(参考訳) 乱流を伝播する多光子状態の進化方程式はマルコフ近似をせずに導出される。 この状態は、すべての時空間自由度を組み込むウィグナー関数として表される。 結果として生じる非マルコフ進化方程式は、初期ガウス状態は伝播中にガウス状態に留まらないと主張するために用いられる。 この進化方程式の可能な解について論じる。

An evolution equation for multiphoton states propagating through turbulence is derived without making a Markovian approximation. The state is represented as a Wigner functional to incorporate all spatiotemporal degrees of freedom. The resulting non-Markovian evolution equation is used to argue that initial Gaussian states do not remain Gaussian during propagation. Possible solutions of this evolution equation are discussed.
翻訳日:2023-09-22 16:31:07 公開日:2023-09-21
# MoPA:3次元セマンティックセグメンテーションのためのマルチモーダル事前支援ドメイン適応

MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2309.11839v1 )

ライセンス: Link先を確認
Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Shenghai Yuan, Lihua Xie(参考訳) 3次元セマンティックセグメンテーションのためのMM-UDA(Multi-modal unsupervised domain adaptation)は、高価なポイントワイドアノテーションなしで自律システムにセマンティック理解を組み込むための実用的なソリューションである。 従来のMM-UDA手法は全体的な改善を達成できるが、クラス不均衡な性能に悩まされ、実際のアプリケーションでは採用が制限される。 この不均衡なパフォーマンスは主に: 1)不均衡データによる自己学習 2)画素単位の2次元監視信号の欠如。 本研究では,レアオブジェクトの性能向上を目的としたマルチモーダルプライオリティエイド(MoPA)ドメイン適応を提案する。 具体的には,自然界から収集した既往の希少物体を挿入し,自在な解決につながる人工的アーティファクトの導入を回避し,不均衡な監視信号の補正を行う有効な地盤ベース挿入(vgi)を開発した。 一方、SAMの一貫性損失は、SAMの2D前のセマンティックマスクを画素単位の監視信号として利用し、セマンティックマスク内の各オブジェクトに対する一貫した予測を促進する。 モーダル固有の事前から学んだ知識は、より稀なオブジェクトセグメンテーションを達成するためにモダリティ間で共有される。 MM-UDAベンチマークを用いて,本手法が最先端の性能を達成することを示す。 コードはhttps://github.com/AronCao49/MoPAで入手できる。

Multi-modal unsupervised domain adaptation (MM-UDA) for 3D semantic segmentation is a practical solution to embed semantic understanding in autonomous systems without expensive point-wise annotations. While previous MM-UDA methods can achieve overall improvement, they suffer from significant class-imbalanced performance, restricting their adoption in real applications. This imbalanced performance is mainly caused by: 1) self-training with imbalanced data and 2) the lack of pixel-wise 2D supervision signals. In this work, we propose Multi-modal Prior Aided (MoPA) domain adaptation to improve the performance of rare objects. Specifically, we develop Valid Ground-based Insertion (VGI) to rectify the imbalance supervision signals by inserting prior rare objects collected from the wild while avoiding introducing artificial artifacts that lead to trivial solutions. Meanwhile, our SAM consistency loss leverages the 2D prior semantic masks from SAM as pixel-wise supervision signals to encourage consistent predictions for each object in the semantic mask. The knowledge learned from modal-specific prior is then shared across modalities to achieve better rare object segmentation. Extensive experiments show that our method achieves state-of-the-art performance on the challenging MM-UDA benchmark. Code will be available at https://github.com/AronCao49/MoPA.
翻訳日:2023-09-22 16:31:00 公開日:2023-09-21
# 情報探索対話における文書接地応答生成のための大規模言語モデルの評価

Evaluating Large Language Models for Document-grounded Response Generation in Information-Seeking Dialogues ( http://arxiv.org/abs/2309.11838v1 )

ライセンス: Link先を確認
Norbert Braunschweiler and Rama Doddipatla and Simon Keizer and Svetlana Stoyanchev(参考訳) 本稿では,ChatGPTのような大規模言語モデル(LLM)を用いて,情報検索対話の文脈における文書グラウンド応答生成を行う。 評価には、以前DialDoc 2022 Shared Taskで使用されていた4つのソーシャルサービスドメインにおけるタスク指向対話のMultiDoc2Dialコーパスを使用する。 情報探索対話は、関連情報を提供する複数の文書に接地される。 本稿では,Chat-CompletionとLlamaIndexの2つの手法を用いて,ChatGPTモデルにより対話完了応答を生成する。 ChatCompletionはChatGPTモデルの事前トレーニングの知識を使用し、LlamaIndexは文書から関連情報を抽出する。 llmsによる文書接地応答生成は,有意な冗長性を有する自動評価指標では適切に評価できないことを観察し,共有タスク入賞システムの出力,2つのチャットgpt型出力,ヒューマンレスポンスを注釈者が評価するヒューマン評価を行う。 両方のChatGPT変異体は、おそらく幻覚の存在を含む関連セグメントに存在しない情報を含んでいる可能性が高いが、それらは共有タスクの勝利システムと人間の反応の両方よりも高い評価を受けている。

In this paper, we investigate the use of large language models (LLMs) like ChatGPT for document-grounded response generation in the context of information-seeking dialogues. For evaluation, we use the MultiDoc2Dial corpus of task-oriented dialogues in four social service domains previously used in the DialDoc 2022 Shared Task. Information-seeking dialogue turns are grounded in multiple documents providing relevant information. We generate dialogue completion responses by prompting a ChatGPT model, using two methods: Chat-Completion and LlamaIndex. ChatCompletion uses knowledge from ChatGPT model pretraining while LlamaIndex also extracts relevant information from documents. Observing that document-grounded response generation via LLMs cannot be adequately assessed by automatic evaluation metrics as they are significantly more verbose, we perform a human evaluation where annotators rate the output of the shared task winning system, the two Chat-GPT variants outputs, and human responses. While both ChatGPT variants are more likely to include information not present in the relevant segments, possibly including a presence of hallucinations, they are rated higher than both the shared task winning system and human responses.
翻訳日:2023-09-22 16:30:37 公開日:2023-09-21
# 検出時間のスピン依存性と到着時間の非測定性について

On the Spin Dependence of Detection Times and the Nonmeasurability of Arrival Times ( http://arxiv.org/abs/2309.11835v1 )

ライセンス: Link先を確認
Sheldon Goldstein, Roderich Tumulka, Nino Zangh\`i(参考訳) 量子物理学のよく知られた原理によれば、任意の量子実験の結果の統計は正の演算子値測度(POVM)によって管理される。 特に、表面への粒子の最初の到着時刻のような特定の物理量を測定するように設計された実験では、この原理は、その量の確率分布がPOVMから発生しない場合、そのような実験は存在しないことを証明している。 このような場合、Das と D\"urr [arXiv:1802.07141] が提案した到着時刻分布は、スピン依存の性質のためである。

According to a well-known principle of quantum physics, the statistics of the outcomes of any quantum experiment are governed by a Positive Operator-Valued Measure (POVM). In particular, for experiments designed to measure a specific physical quantity, like the time of a particle's first arrival at a surface, this principle establishes that if the probability distribution of that quantity does not arise from a POVM, no such experiment exists. Such is the case with the arrival time distributions proposed by Das and D\"urr [arXiv:1802.07141], due to the nature of their spin dependence.
翻訳日:2023-09-22 16:30:17 公開日:2023-09-21
# ガウスビーム量子レーダープロトコル

Gaussian beam quantum radar protocol ( http://arxiv.org/abs/2309.11834v1 )

ライセンス: Link先を確認
Lorenzo Maccone, Yi Zheng and Changliang Ren(参考訳) 我々はエンタングル量子レーダープロトコルを提案する。 従来のレーダーのように、薄いガウスビームで空をスキャンし、ターゲットから反射された放射の移動時間を測定する。 ここでガウスビームは自由度で絡み合っているn$の光子で構成されている。 これは、量子メトロジーにおいて通常であるように、非絡み合いの場合に対する$\sqrt{N}$量子拡張を提供する。

We present an entangled quantum radar protocol. It consists in scanning the sky with a thin Gaussian beam and measuring the travel time of the radiation reflected from the target, as in conventional radars. Here the Gaussian beam is composed of $N$ photons entangled in the frequency degrees of freedom. We show that this provides a $\sqrt{N}$ quantum enhancement over the unentangled case, as is usual in quantum metrology.
翻訳日:2023-09-22 16:30:06 公開日:2023-09-21
# 悪内容のLLMに対する中国のプロンプトアタックデータセット

A Chinese Prompt Attack Dataset for LLMs with Evil Content ( http://arxiv.org/abs/2309.11830v1 )

ライセンス: Link先を確認
Chengyuan Liu, Fubang Zhao, Lizhi Qing, Yangyang Kang, Changlong Sun, Kun Kuang, Fei Wu(参考訳) 大規模言語モデル(llm)は、テキスト理解と生成において重要な優先事項である。 しかし、LSMは、特に応用される際に有害な内容物を生成するリスクに悩まされる。 プロンプトアタック(英語版)などいくつかのブラックボックス攻撃手法があり、LLMの振る舞いを変更し、有害な内容で予期せぬ回答を生じさせる。 研究者は、LPMによるプロンプト攻撃と防御に興味を持っているが、迅速な攻撃を防御する能力を評価するためのデータセットは公開されていない。 本稿では、CPADと呼ばれるLCMのための中国プロンプトアタックデータセットを提案する。 我々のプロンプトは、慎重に設計されたいくつかのプロンプト・アタック・アプローチと広範囲にわたるアタック・コンテンツを用いて、LCMに予期せぬ出力を生成することを目的としている。 安全推定を含む従来のデータセットと異なり,内容,攻撃方法,目標の3次元を考慮したプロンプトを構築することにより,応答の評価と解析が容易になる。 この結果から, 攻撃成功率は70%程度であり, LLMに対して極めて有害であることが明らかとなった。 攻撃と防衛のさらなる研究を促進するため、CPADをリリースする。

Large Language Models (LLMs) present significant priority in text understanding and generation. However, LLMs suffer from the risk of generating harmful contents especially while being employed to applications. There are several black-box attack methods, such as Prompt Attack, which can change the behaviour of LLMs and induce LLMs to generate unexpected answers with harmful contents. Researchers are interested in Prompt Attack and Defense with LLMs, while there is no publicly available dataset to evaluate the abilities of defending prompt attack. In this paper, we introduce a Chinese Prompt Attack Dataset for LLMs, called CPAD. Our prompts aim to induce LLMs to generate unexpected outputs with several carefully designed prompt attack approaches and widely concerned attacking contents. Different from previous datasets involving safety estimation, We construct the prompts considering three dimensions: contents, attacking methods and goals, thus the responses can be easily evaluated and analysed. We run several well-known Chinese LLMs on our dataset, and the results show that our prompts are significantly harmful to LLMs, with around 70% attack success rate. We will release CPAD to encourage further studies on prompt attack and defense.
翻訳日:2023-09-22 16:29:59 公開日:2023-09-21
# 医用画像分割事前学習のための多レベル非対称コントラスト学習

Multi-level Asymmetric Contrastive Learning for Medical Image Segmentation Pre-training ( http://arxiv.org/abs/2309.11876v1 )

ライセンス: Link先を確認
Shuang Zeng, Lei Zhu, Xinliang Zhang, Zifeng Tian, Qian Chen, Lujia Jin, Jiayi Wang, Yanye Lu(参考訳) 非ラベルデータから画像レベルの表現を学習する強力なテクニックであるコントラスト学習は、大規模事前トレーニングと限定ラベルデータとのジレンマに対処するための有望な方向性をもたらす。 しかし、既存のコントラスト学習戦略のほとんどは、主に自然画像の下流タスクのために設計されており、下流課題が通常セグメンテーションである医療画像に直接適用される場合、それらはスクラッチから学習するよりも最適であり、さらに悪い。 本研究では,医用画像分割と自己教師付き事前学習のための新しい非対称コントラスト学習フレームワークJCLを提案する。 具体的には、(1)エンコーダとデコーダの両方を同時に1段階に事前学習し、セグメンテーションモデルの初期化を改善するための新しい非対称なコントラスト学習戦略を提案する。 2)マルチレベルのコントラスト損失は,特徴レベル,画像レベル,画素レベルのプロジェクションの対応を考慮し,事前学習中にエンコーダとデコーダでマルチレベルの表現を学べるように設計されている。 3)複数の医用画像データセットに対する実験は,既存のSOTAのコントラスト学習戦略よりも優れたJCLフレームワークを示している。

Contrastive learning, which is a powerful technique for learning image-level representations from unlabeled data, leads a promising direction to dealing with the dilemma between large-scale pre-training and limited labeled data. However, most existing contrastive learning strategies are designed mainly for downstream tasks of natural images, therefore they are sub-optimal and even worse than learning from scratch when directly applied to medical images whose downstream tasks are usually segmentation. In this work, we propose a novel asymmetric contrastive learning framework named JCL for medical image segmentation with self-supervised pre-training. Specifically, (1) A novel asymmetric contrastive learning strategy is proposed to pre-train both encoder and decoder simultaneously in one-stage to provide better initialization for segmentation models. (2) A multi-level contrastive loss is designed to take the correspondence among feature-level, image-level and pixel-level projections, respectively into account to make sure multi-level representations can be learned by the encoder and decoder during pre-training. (3) Experiments on multiple medical image datasets indicate our JCL framework outperforms existing SOTA contrastive learning strategies.
翻訳日:2023-09-22 16:22:28 公開日:2023-09-21
# 物理インフォームドガウス法によるTimoshenkoビームの確率剛性同定と応答推定

Stochastic stiffness identification and response estimation of Timoshenko beams via physics-informed Gaussian processes ( http://arxiv.org/abs/2309.11875v1 )

ライセンス: Link先を確認
Gledson Rodrigo Tondo and Sebastian Rau and Igor Kavrakov and Guido Morgenthal(参考訳) 構造的健康モニタリングデータで訓練された機械学習モデルは、システム識別の強力なツールとなっている。 本稿では,ティモシェンコビーム素子の物理インフォームドガウス過程(gp)モデルを提案する。 このモデルは, 偏向, 回転, ひずみ, 曲げモーメント, せん断力および印加荷重の微分方程式に基づいて, 共分散およびクロス共分散カーネルを解析的に導出した多出力GPとして構成される。 マルコフ連鎖モンテカルロ法による後続モデルを最大化し, 構造パラメータの確率的モデルを生成することにより, ベイズ形式で剛性同定を行う。 最適化されたGPモデルは、観測されていない応答の確率的予測にさらに用いられる。 さらに,不均一なセンサ位置情報と構造境界条件をGPモデルに組み込んだエントロピーを用いたセンサ配置最適化手法を提案する。 提案手法は, 構造パラメータの同定に有効であり, 異種・多要素センサからのデータを融合することができることを示す。 構造応答と内部力の確率論的予測は測定データと密接に一致している。 実験で検証し,得られた結果の品質と不確実性について検討した。 提案手法は,機械システムと構造システムの両方において,構造ヘルスモニタリング (shm) の分野において潜在的に応用できる。

Machine learning models trained with structural health monitoring data have become a powerful tool for system identification. This paper presents a physics-informed Gaussian process (GP) model for Timoshenko beam elements. The model is constructed as a multi-output GP with covariance and cross-covariance kernels analytically derived based on the differential equations for deflections, rotations, strains, bending moments, shear forces and applied loads. Stiffness identification is performed in a Bayesian format by maximising a posterior model through a Markov chain Monte Carlo method, yielding a stochastic model for the structural parameters. The optimised GP model is further employed for probabilistic predictions of unobserved responses. Additionally, an entropy-based method for physics-informed sensor placement optimisation is presented, exploiting heterogeneous sensor position information and structural boundary conditions built into the GP model. Results demonstrate that the proposed approach is effective at identifying structural parameters and is capable of fusing data from heterogeneous and multi-fidelity sensors. Probabilistic predictions of structural responses and internal forces are in closer agreement with measured data. We validate our model with an experimental setup and discuss the quality and uncertainty of the obtained results. The proposed approach has potential applications in the field of structural health monitoring (SHM) for both mechanical and structural systems.
翻訳日:2023-09-22 16:22:07 公開日:2023-09-21
# 文法全体の構文変化:複素適応系をモデル化する

Syntactic Variation Across the Grammar: Modelling a Complex Adaptive System ( http://arxiv.org/abs/2309.11869v1 )

ライセンス: Link先を確認
Jonathan Dunn(参考訳) 言語は複雑な適応システムであるが、ほとんどの研究は文法の他の部分と独立していくつかの個々の構造を観察する。 これは、異なる抽象レベルで何千もの構造を接続するネットワークである文法が、いくつかの非連結変数に還元されることを意味する。 本稿では,16カ国の英語話者49人の方言変化を体系的にモデル化し,その影響を定量化する。 これらの方言間の構文的差異を特徴付けるために,文法全体と,文法内の孤立ノードの両方で方言分類を行う。 結果は、まず、文法内の多くの個々のノードは、ばらつきの対象となるが、独立して、文法全体と同様に機能しないことを示している。 これは、構文変化の重要な部分は文法の異なる部分間の相互作用であることを示している。 第二に、方言間の類似性は、観察される文法のサブセットに大きく依存していることを示している:例えば、ニュージーランド英語は、フレーズ動詞ではオーストラリア英語によく似ているが、ディヴィティブ句ではイギリス英語に類似している。

While language is a complex adaptive system, most work on syntactic variation observes a few individual constructions in isolation from the rest of the grammar. This means that the grammar, a network which connects thousands of structures at different levels of abstraction, is reduced to a few disconnected variables. This paper quantifies the impact of such reductions by systematically modelling dialectal variation across 49 local populations of English speakers in 16 countries. We perform dialect classification with both an entire grammar as well as with isolated nodes within the grammar in order to characterize the syntactic differences between these dialects. The results show, first, that many individual nodes within the grammar are subject to variation but, in isolation, none perform as well as the grammar as a whole. This indicates that an important part of syntactic variation consists of interactions between different parts of the grammar. Second, the results show that the similarity between dialects depends heavily on the sub-set of the grammar being observed: for example, New Zealand English could be more similar to Australian English in phrasal verbs but at the same time more similar to UK English in dative phrases.
翻訳日:2023-09-22 16:21:46 公開日:2023-09-21
# ユーザ中心エネルギーレトロフィットのための統合オープンデジタルエコシステムプラットフォームのデータ駆動定量分析:スウェーデン北部を事例として

Data-driven quantitative analysis of an integrated open digital ecosystems platform for user-centric energy retrofits: A case study in Northern Sweden ( http://arxiv.org/abs/2309.11861v1 )

ライセンス: Link先を確認
Bokai Liu, Santhan Reddy Penaka, Weizhuo Lu, Kailun Feng, Anders Rebbling, Thomas Olofsson(参考訳) ユーザ中心のエネルギー再最適化において,機能的なバックエンドサーバを備えたWebフレームワークに基づくオープンなディジタルエコシステムを提案する。 このデータ駆動型webフレームワークは,スウェーデンのv\"asterbotten地域を対象としたエネルギーアドバイザリサービス開発の一環として,エネルギーリノベーションベンチマークを構築するために提案されている。 4層アーキテクチャは、ユーザのインタラクティブなデザインとWebブラウザによる視覚化を実現するために開発、プログラムされている。 6つのデータ駆動メソッドがバックエンドサーバ機能としてこのフレームワークに統合されている。 これらの機能に基づいて、ユーザは、更新が必要かどうかを知りたいときに、この意思決定システムによってサポートされる。 一方,建築物のエネルギー利用に影響を与えるデータベースから得られる影響要因(入力値)は,定量的解析,すなわち感度分析によって分析される。 エネルギー再生におけるこのオープンエコシステムプラットフォームへの貢献は次のとおりである。 1)データ駆動アプローチによるエネルギー効率に適用可能な体系的枠組み。 2)使い易く柔軟なユーザフレンドリーなwebプラットフォーム 3) 関連因子の重要度を得るために, 定量的分析を枠組みに統合した。 この計算フレームワークは、エネルギーアドバイザリで予備情報を得たい利害関係者のために設計されている。 開発プラットフォームによって実現されるエネルギーアドバイザーサービスの改善により、意思決定のコストが大幅に削減され、意思決定者がそのような専門知識要求の決定に意図的かつ効率的な方法で参加できるようになる。 このプロジェクトはオープンで相互運用可能なデジタルプラットフォームを統合したAURORALプロジェクトによって資金提供され、ヨーロッパ各地の大規模パイロットを通じて学際的な応用によって実証されている。

We present an open digital ecosystem based on web-framework with a functional back-end server in user-centric energy retrofits. This data-driven web framework is proposed for building energy renovation benchmarking as part of an energy advisory service development for the V\"asterbotten region, Sweden. A 4-tiers architecture is developed and programmed to achieve users' interactive design and visualization via a web browser. Six data-driven methods are integrated into this framework as backend server functions. Based on those functions the users can be supported by this decision-making system when they want to know if it needs to be renovated or not. Meanwhile, influential factors (input values) from databases that affect energy usage in buildings are to be analyzed via quantitative analysis, i.e., sensitive analysis. The contributions to this open ecosystem platform in energy renovation are: 1) A systematic framework that can be applied to energy efficiency with data-driven approaches, 2) A user-friendly web-based platform that is easy and flexible to use, and 3) integrated quantitative analysis into the framework to obtain the importance among all the relevant factors. This computational framework is designed for stakeholders who would like to get preliminary information in energy advisory. The improved energy advisor service enabled by the developed platform can significantly reduce the cost of decision-making, enabling decision-makers to participate in such professional knowledge-required decisions in a deliberate and efficient manner. This work is funded by the AURORAL project, which integrates an open and interoperable digital platform, demonstrated through regional large-scale pilots in different countries of Europe by interdisciplinary applications.
翻訳日:2023-09-22 16:21:27 公開日:2023-09-21
# OSNet & MNetO:マルチシナリオにおける線形CTのための2種類の汎用再構成アーキテクチャ

OSNet & MNetO: Two Types of General Reconstruction Architectures for Linear Computed Tomography in Multi-Scenarios ( http://arxiv.org/abs/2309.11858v1 )

ライセンス: Link先を確認
Zhisheng Wang, Zihan Deng, Fenglin Liu, Yixing Huang, Haijun Yu and Junning Cui(参考訳) 近年,線形CTシステム(LCT)が注目されている。 LCTの投射トランケーションを弱め、関心領域(ROI)を画像化するためには、後方投射フィルタリング(BPF)アルゴリズムが有効な解である。 しかし, LCT のBPF では安定した内部再構成が困難であり, LCT の差分後方投影 (DBP) 画像では, ヒルベルト変換 (ヒルベルトフィルタ) 逆回転操作の多重回転有限反転が画像のぼかしとなる。 内部roi,完全物体,外部領域を含むlctの複数の再構成シナリオをfov(field-of-view)で満たし,ヒルベルトフィルタの回転操作を回避すべく,2種類の再構成アーキテクチャを提案する。 1つ目は、複数のDBP画像をオーバーレイして完全なDBP画像を取得し、次にネットワークを使用してオーバーレイ・シング・ネットワーク(OSNet)と呼ばれるオーバーレイヒルベルトフィルタリング関数を学習する。 2つ目は、複数の線形走査のDBP画像に対して異なる方向のヒルベルトフィルタリングモデルをトレーニングするために複数のネットワークを使用し、再構成された結果、すなわちMNetOをオーバーレイする。 2 つのアーキテクチャにおいて,DBP 画像から局所的特徴と大域的特徴を同時に抽出する pix2pixGAN の生成元に Swin Transformer (ST) ブロックを導入する。 本研究では,fovサイズ,画素サイズ,投影数,幾何倍化,処理時間という,ネットワークの異なる2つのアーキテクチャを調査した。 実験の結果,2つのアーキテクチャで画像の復元が可能であった。 OSNetは様々なシナリオでBPFを上回っている。 異なるネットワークでは、ST-pix2pixGANはPix2pixGANとCycleGANより優れている。 MNetOは複数のモデルの違いによっていくつかの人工物を示すが、そのモデルのいずれかが特定の方向に外縁を撮像するのに適している。

Recently, linear computed tomography (LCT) systems have actively attracted attention. To weaken projection truncation and image the region of interest (ROI) for LCT, the backprojection filtration (BPF) algorithm is an effective solution. However, in BPF for LCT, it is difficult to achieve stable interior reconstruction, and for differentiated backprojection (DBP) images of LCT, multiple rotation-finite inversion of Hilbert transform (Hilbert filtering)-inverse rotation operations will blur the image. To satisfy multiple reconstruction scenarios for LCT, including interior ROI, complete object, and exterior region beyond field-of-view (FOV), and avoid the rotation operations of Hilbert filtering, we propose two types of reconstruction architectures. The first overlays multiple DBP images to obtain a complete DBP image, then uses a network to learn the overlying Hilbert filtering function, referred to as the Overlay-Single Network (OSNet). The second uses multiple networks to train different directional Hilbert filtering models for DBP images of multiple linear scannings, respectively, and then overlays the reconstructed results, i.e., Multiple Networks Overlaying (MNetO). In two architectures, we introduce a Swin Transformer (ST) block to the generator of pix2pixGAN to extract both local and global features from DBP images at the same time. We investigate two architectures from different networks, FOV sizes, pixel sizes, number of projections, geometric magnification, and processing time. Experimental results show that two architectures can both recover images. OSNet outperforms BPF in various scenarios. For the different networks, ST-pix2pixGAN is superior to pix2pixGAN and CycleGAN. MNetO exhibits a few artifacts due to the differences among the multiple models, but any one of its models is suitable for imaging the exterior edge in a certain direction.
翻訳日:2023-09-22 16:21:02 公開日:2023-09-21
# TCOVIS: 一時的に一貫性のあるオンラインビデオインスタンスセグメンテーション

TCOVIS: Temporally Consistent Online Video Instance Segmentation ( http://arxiv.org/abs/2309.11857v1 )

ライセンス: Link先を確認
Junlong Li, Bingyao Yu, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) 近年、ビデオインスタンスセグメンテーション(VIS)において、多くのオフラインおよびオンラインメソッドが最先端のパフォーマンスを実現している。 オフライン手法は時間的に一貫した予測を生成する利点があるが、リアルタイムシナリオには適さない。 逆に、オンライン手法はより実践的であるが、時間的一貫性を維持することは難しい課題である。 本稿では,ビデオクリップ内の時間情報を完全に活用する,ビデオインスタンスセグメンテーションのための新しいオンライン手法TCOVISを提案する。 提案手法のコアはグローバルインスタンス割り当て戦略と時空間拡張モジュールで構成され,2つの側面から特徴の時間的一貫性を向上させる。 具体的には,ビデオクリップ全体を通して予測と根拠真理のグローバル最適マッチングを行い,そのモデルにグローバル最適目標を監督する。 また,空間的特徴を捉え,フレーム間の意味的特徴を集約し,時空間的拡張を実現する。 提案手法は,YouTube-VIS 2019/2021/2022とOVISの4つの広く採用されているVISベンチマークで評価し,ベル・アンド・ウィストルを使わずにすべてのベンチマークで最先端のパフォーマンスを実現する。 例えば、YouTube-VIS 2021では、TCOVISはそれぞれResNet-50とSwin-Lのバックボーンを持つ49.5 APと61.3 APを達成した。 コードはhttps://github.com/jun-long-li/TCOVISで入手できる。

In recent years, significant progress has been made in video instance segmentation (VIS), with many offline and online methods achieving state-of-the-art performance. While offline methods have the advantage of producing temporally consistent predictions, they are not suitable for real-time scenarios. Conversely, online methods are more practical, but maintaining temporal consistency remains a challenging task. In this paper, we propose a novel online method for video instance segmentation, called TCOVIS, which fully exploits the temporal information in a video clip. The core of our method consists of a global instance assignment strategy and a spatio-temporal enhancement module, which improve the temporal consistency of the features from two aspects. Specifically, we perform global optimal matching between the predictions and ground truth across the whole video clip, and supervise the model with the global optimal objective. We also capture the spatial feature and aggregate it with the semantic feature between frames, thus realizing the spatio-temporal enhancement. We evaluate our method on four widely adopted VIS benchmarks, namely YouTube-VIS 2019/2021/2022 and OVIS, and achieve state-of-the-art performance on all benchmarks without bells-and-whistles. For instance, on YouTube-VIS 2021, TCOVIS achieves 49.5 AP and 61.3 AP with ResNet-50 and Swin-L backbones, respectively. Code is available at https://github.com/jun-long-li/TCOVIS.
翻訳日:2023-09-22 16:20:27 公開日:2023-09-21
# 可変最小化を改良したブロックワイド量子化を用いたグラフニューラルネットワークの活性化圧縮

Activation Compression of Graph Neural Networks using Block-wise Quantization with Improved Variance Minimization ( http://arxiv.org/abs/2309.11856v1 )

ライセンス: Link先を確認
Sebastian Eliassen, Raghavendra Selvan(参考訳) 大規模グラフニューラルネットワーク(GNN)の効率的なトレーニングは、メモリ使用量の削減に特化して研究されている。 Liu et al. (2022) によって提案された極端なアクティベーション圧縮(EXACT)は、中間アクティベーションマップをINT2の精度で量子化することでメモリ消費を大幅に削減することを示した。 gpuメモリ消費を大幅に削減しながら、パフォーマンスをほとんど、あるいは全く低下させませんでした。 本研究では、中間活性化マップのブロックワイズ量子化を用いてEXACT戦略の改善を提案する。 異なるブロックサイズを実験的に解析し、従来のEXACTと同様の性能トレードオフで極端に量子化を行う場合であっても、メモリ消費(>15%)とエポックあたりの実行速度(約5%)の低下を示す。 さらに,中間活性化写像の分布に関する仮定を(一様であると仮定して)正確に補正し,量子化および非量子化ステップの分散推定の改善を示す。

Efficient training of large-scale graph neural networks (GNNs) has been studied with a specific focus on reducing their memory consumption. Work by Liu et al. (2022) proposed extreme activation compression (EXACT) which demonstrated drastic reduction in memory consumption by performing quantization of the intermediate activation maps down to using INT2 precision. They showed little to no reduction in performance while achieving large reductions in GPU memory consumption. In this work, we present an improvement to the EXACT strategy by using block-wise quantization of the intermediate activation maps. We experimentally analyze different block sizes and show further reduction in memory consumption (>15%), and runtime speedup per epoch (about 5%) even when performing extreme extents of quantization with similar performance trade-offs as with the original EXACT. Further, we present a correction to the assumptions on the distribution of intermediate activation maps in EXACT (assumed to be uniform) and show improved variance estimations of the quantization and dequantization steps.
翻訳日:2023-09-22 16:19:59 公開日:2023-09-21
# 地球磁場磁気測定における固有スピンシュイーズ状態の量子ロック

Quantum Locking of Intrinsic Spin Squeezed State in Earth-field-range Magnetometry ( http://arxiv.org/abs/2309.11855v1 )

ライセンス: Link先を確認
Peiyu Yang, Guzhi Bao, Jun Chen, Wei Du, Jinxian Guo, and Weiping Zhang(参考訳) 地球-磁場領域では、非線形ゼーマン効果(NLZ)は物理的メカニズムから原子磁気学の感度と精度を制限するボトルネックとなっている。 このボトルネックを克服するため、NLZ効果を抑制するために様々な手法が導入された。 ここでは,地場磁気学におけるスピンダイナミクスを再考し,地磁気誘起NLZ効果から生じる固有スピンスクリュッド状態 (SSS) の存在を振動の度合いとスチーズ軸で同定する。 このようなSSSの振動特性は、直接観測を妨げ、また磁気センシングへのアクセシビリティーを阻害する。 地球磁場磁力計における固有SSSの量子的利点を利用するためには、振動するSSSを永続的にロックすることが不可欠である。 そこで我々は,地場磁気センサの感度を量子化することで,永続的なSSSを実現する量子ロック技術を開発した。 この研究は、nlz効果の欠点を量子アドバンテージに変える革新的な方法を示し、地球磁場領域における量子エンハンスド磁気測定への新たなアクセスを開く。

In the Earth-field range, the nonlinear Zeeman (NLZ) effect has been a bottleneck limiting the sensitivity and accuracy of atomic magnetometry from physical mechanism. To break this bottleneck, various techniques are introduced to suppress the NLZ effect. Here we revisit the spin dynamics in the Earth-field-range magnetometry and identify the existence of the intrinsic spin squeezed state (SSS) generated from the geomagnetically induced NLZ effect with the oscillating squeezing degree and squeezing axis. Such oscillating features of the SSS prevent its direct observation and as well, accessibility to magnetic sensing. To exploit quantum advantage of the intrinsic SSS in the Earth-field-range magnetometry, it's essential to lock the oscillating SSS to a persistent one. Hence, we develop a quantum locking technique to achieve a persistent SSS, benefiting from which the sensitivity of the Earth-field-range magnetometer is quantum-enhanced. This work presents an innovative way turning the drawback of NLZ effect into the quantum advantage and opens a new access to quantum-enhanced magnetometry in the Earth-field range.
翻訳日:2023-09-22 16:19:41 公開日:2023-09-21
# BitCoin: 双方向タギングとコントラスト学習による共同リレーショナルトリプル抽出フレームワーク

BitCoin: Bidirectional Tagging and Supervised Contrastive Learning based Joint Relational Triple Extraction Framework ( http://arxiv.org/abs/2309.11853v1 )

ライセンス: Link先を確認
Luyao He, Zhongbao Zhang, Sen Su, Yuxin Chen(参考訳) リレーショナルトリプル抽出(RTE)は,情報抽出と知識グラフ構築において重要な課題である。 最近の進歩にもかかわらず、既存の方法には一定の制限がある。 それらは単に一般化された事前訓練されたモデルを採用しており、RTEタスクの特異性を考慮していない。 さらに、既存のタグ付けベースのアプローチでは、RTEタスクを2つのサブタスクに分解し、最初は対象を特定し、その後は対象と関係を識別する。 対象物から関係三重項を抽出することにのみ焦点をあて、対象物の抽出が失敗すると、その対象物に関連するすべての三重項の抽出に失敗するということを無視する。 これらの課題に対処するため,両方向タギングと教師付きコントラスト学習に基づく連立三重抽出フレームワークBitCoinを提案する。 具体的には,1つの正に制限するのではなく,複数の正をアンカー毎に考慮した教師付きコントラスト学習手法を設計する。 さらに、対象と対象との過度な類似性を防止するため、ペナルティ項を導入する。 提案フレームワークはタグを2方向に実装し,対象からオブジェクト,対象からトリプル抽出を可能にする。 実験結果から、BitCoinはベンチマークデータセットの最先端結果を実現し、正規性、SEO、EPO、および複数の関係抽出タスクのF1スコアを大幅に改善した。

Relation triple extraction (RTE) is an essential task in information extraction and knowledge graph construction. Despite recent advancements, existing methods still exhibit certain limitations. They just employ generalized pre-trained models and do not consider the specificity of RTE tasks. Moreover, existing tagging-based approaches typically decompose the RTE task into two subtasks, initially identifying subjects and subsequently identifying objects and relations. They solely focus on extracting relational triples from subject to object, neglecting that once the extraction of a subject fails, it fails in extracting all triples associated with that subject. To address these issues, we propose BitCoin, an innovative Bidirectional tagging and supervised Contrastive learning based joint relational triple extraction framework. Specifically, we design a supervised contrastive learning method that considers multiple positives per anchor rather than restricting it to just one positive. Furthermore, a penalty term is introduced to prevent excessive similarity between the subject and object. Our framework implements taggers in two directions, enabling triples extraction from subject to object and object to subject. Experimental results show that BitCoin achieves state-of-the-art results on the benchmark datasets and significantly improves the F1 score on Normal, SEO, EPO, and multiple relation extraction tasks.
翻訳日:2023-09-22 16:19:22 公開日:2023-09-21
# 大規模言語モデルの知識衛生化

Knowledge Sanitization of Large Language Models ( http://arxiv.org/abs/2309.11852v1 )

ライセンス: Link先を確認
Yoichi Ishibashi, Hidetoshi Shimodaira(参考訳) 我々は,大規模言語モデル(llm)に関連するプライバシの懸念を軽減するための知識衛生手法を検討する。 Webデータの大規模なコーパスでトレーニングされたLLMは、機密情報や機密情報を記憶し、潜在的に明らかにし、重要なセキュリティ上の懸念を引き起こす可能性がある。 提案手法は,これらのモデルを微調整し,特定の情報を問い合わせた際に,‘i don't know’などの無害な応答を発生させる。 クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。 これらの2つのアドバンテージは、抽出攻撃に対する防御を強化し、幻覚などの有害なコンテンツの排出を減らす。

We explore a knowledge sanitization approach to mitigate the privacy concerns associated with large language models (LLMs). LLMs trained on a large corpus of Web data can memorize and potentially reveal sensitive or confidential information, raising critical security concerns. Our technique fine-tunes these models, prompting them to generate harmless responses such as ``I don't know'' when queried about specific information. Experimental results in a closed-book question-answering task show that our straightforward method not only minimizes particular knowledge leakage but also preserves the overall performance of LLM. These two advantages strengthen the defense against extraction attacks and reduces the emission of harmful content such as hallucinations.
翻訳日:2023-09-22 16:18:58 公開日:2023-09-21
# 安全な強化学習のための学習

Learning to Recover for Safe Reinforcement Learning ( http://arxiv.org/abs/2309.11907v1 )

ライセンス: Link先を確認
Haoyu Wang, Xin Yuan, Qinqing Ren(参考訳) 安全制御は安全強化学習を達成するために広く使われている。 安全コントローラを適用するほとんどの方法は、手作りの安全制約を使用して安全コントローラを構築する。 しかし、環境力学が洗練されると、手作りの安全制約は利用できなくなる。 したがって、アルゴリズムの学習による安全制御装置の構築に関する研究に価値がある。 安全強化学習のための3段階アーキテクチャ,すなわちtu-recoveryアーキテクチャを提案する。 安全評論家とリカバリポリシーは、タスクトレーニング前に学習される。 彼らはタスクトレーニングにおいて安全を確保するために安全制御装置を形成する。 次に、学習効率とモデル性能を低下させる逆境現象と呼ばれるタスクポリシーとリカバリポリシーの不一致によって引き起こされる現象について述べる。 副次的な報酬は、敵の現象を緩和し、高いリスク状態から回復するためのタスクポリシーを支援する。 ロボットナビゲーション環境では一連の実験が行われている。 実験により、TU-Recoveryは、タスクトレーニング中の報酬獲得と制約違反の両方において、制約なしよりも優れており、補助報酬は、制約違反を著しく低減し、報酬対コスト比においてTU-Recoveryをさらに改善することを示した。

Safety controllers is widely used to achieve safe reinforcement learning. Most methods that apply a safety controller are using handcrafted safety constraints to construct the safety controller. However, when the environment dynamics are sophisticated, handcrafted safety constraints become unavailable. Therefore, it worth to research on constructing safety controllers by learning algorithms. We propose a three-stage architecture for safe reinforcement learning, namely TU-Recovery Architecture. A safety critic and a recovery policy is learned before task training. They form a safety controller to ensure safety in task training. Then a phenomenon induced by disagreement between task policy and recovery policy, called adversarial phenomenon, which reduces learning efficiency and model performance, is described. Auxiliary reward is proposed to mitigate adversarial phenomenon, while help the task policy to learn to recover from high-risk states. A series of experiments are conducted in a robot navigation environment. Experiments demonstrate that TU-Recovery outperforms unconstrained counterpart in both reward gaining and constraint violations during task training, and auxiliary reward further improve TU-Recovery in reward-to-cost ratio by significantly reduce constraint violations.
翻訳日:2023-09-22 16:12:52 公開日:2023-09-21
# Adaptive Locked Agnostic Networks による心臓のロック解除

Unlocking the Heart Using Adaptive Locked Agnostic Networks ( http://arxiv.org/abs/2309.11899v1 )

ライセンス: Link先を確認
Sylwia Majchrowska, Anders Hildeman, Philip Teare, Tom Diethe(参考訳) 医療画像応用のためのディープラーニングモデルの教師付きトレーニングには、大量のラベル付きデータが必要である。 医療専門家が画像に注釈をつける必要があるため、これは課題となっている。 この制限に対処するために,大規模バックボーンモデルを用いた自己教師付き視覚特徴抽出による解剖学的に堅牢なセマンティック・セグメンテーションを実現するAdaptive Locked Agnostic Network (ALAN)を導入する。 ALANの手法では、この自己教師型トレーニングは大規模で多様なデータセット上でのみ行われる。 セグメンテーションの直感的な解釈性のため、特定のタスクに適した下流モデルは、パラメータが少ないホワイトボックスモデルで容易に設計できる。 これにより、モデルの内部動作をドメインの専門家と通信し、事前の知識をモデルに導入することが可能になる。 また、完全に教師されたアプローチに比べて、下流のモデルはデータ障害が少なくなります。 これらの特徴により、ALANは特に費用がかかる臨床試験や稀な疾患のような、資源不足のシナリオに適している。 本稿では,ALANのアプローチを,EchoNet-Dynamic,CAMUS,TMED-2の3種類のエコー心エコー図データベースに適用する。 自監督バックボーンモデルでは, 心臓の解剖学的部分領域を円錐四面体視で強く同定する。 対象の解剖学的領域をセグメンテーションするモデルと,心エコー図の分類を行うモデルについて検討した。

Supervised training of deep learning models for medical imaging applications requires a significant amount of labeled data. This is posing a challenge as the images are required to be annotated by medical professionals. To address this limitation, we introduce the Adaptive Locked Agnostic Network (ALAN), a concept involving self-supervised visual feature extraction using a large backbone model to produce anatomically robust semantic self-segmentation. In the ALAN methodology, this self-supervised training occurs only once on a large and diverse dataset. Due to the intuitive interpretability of the segmentation, downstream models tailored for specific tasks can be easily designed using white-box models with few parameters. This, in turn, opens up the possibility of communicating the inner workings of a model with domain experts and introducing prior knowledge into it. It also means that the downstream models become less data-hungry compared to fully supervised approaches. These characteristics make ALAN particularly well-suited for resource-scarce scenarios, such as costly clinical trials and rare diseases. In this paper, we apply the ALAN approach to three publicly available echocardiography datasets: EchoNet-Dynamic, CAMUS, and TMED-2. Our findings demonstrate that the self-supervised backbone model robustly identifies anatomical subregions of the heart in an apical four-chamber view. Building upon this, we design two downstream models, one for segmenting a target anatomical region, and a second for echocardiogram view classification.
翻訳日:2023-09-22 16:12:35 公開日:2023-09-21
# 突発的Hate音声検出のためのトラクタブル密度判別法を併用したフーカルインファーデンシャル注入法

Focal Inferential Infusion Coupled with Tractable Density Discrimination for Implicit Hate Speech Detection ( http://arxiv.org/abs/2309.11896v1 )

ライセンス: Link先を確認
Sarah Masud, Ashutosh Bajpai, Tanmoy Chakraborty(参考訳) 事前訓練された大規模言語モデル(PLM)は、多くのNLPタスクにおいて最先端を達成しているが、暗黙のヘイトスピーチの微妙な表現を理解できていない。 このようなニュアンスで暗黙の憎悪は、しばしば非憎悪として分類される。 外部コンテキストの強化や,距離ベースのメトリクスによるラベル分離の実施などにより,ヘイトコンテンツの検出(簡易)を促進するために,さまざまな試みがなされている。 この2つのアプローチを組み合わせて、Focused Inferential Adaptive Density DiscriminationフレームワークであるFiADDを導入する。 fiaddは、様々なクラスラベル間のクラスタ間距離を増加させながら、暗黙的なヘイトスピーチの表面形態をその暗黙の形式に近づけることで、plmの微調整パイプラインを強化する。 3つの暗黙のヘイトデータセットでfiaddをテストし、双方向および3方向ヘイト分類タスクにおける大幅な改善を観察した。 さらに,表面と含意形状が異なるサーカズム,アイロニー,スタンスの検出と,同様の性能改善を観察する3つのタスクについて,fiaddの一般化可能性について実験を行った。 生成した潜在空間を解析し、その進化をFiADDで理解し、暗黙のヘイトスピーチ検出にFiADDを用いることの利点を裏付ける。

Although pre-trained large language models (PLMs) have achieved state-of-the-art on many NLP tasks, they lack understanding of subtle expressions of implicit hate speech. Such nuanced and implicit hate is often misclassified as non-hate. Various attempts have been made to enhance the detection of (implicit) hate content by augmenting external context or enforcing label separation via distance-based metrics. We combine these two approaches and introduce FiADD, a novel Focused Inferential Adaptive Density Discrimination framework. FiADD enhances the PLM finetuning pipeline by bringing the surface form of an implicit hate speech closer to its implied form while increasing the inter-cluster distance among various class labels. We test FiADD on three implicit hate datasets and observe significant improvement in the two-way and three-way hate classification tasks. We further experiment on the generalizability of FiADD on three other tasks, namely detecting sarcasm, irony, and stance, in which surface and implied forms differ, and observe similar performance improvement. We analyze the generated latent space to understand its evolution under FiADD, which corroborates the advantage of employing FiADD for implicit hate speech detection.
翻訳日:2023-09-22 16:12:10 公開日:2023-09-21
# 音響コントラストに基づくファインチューニング

Audio Contrastive based Fine-tuning ( http://arxiv.org/abs/2309.11895v1 )

ライセンス: Link先を確認
Yang Wang, Qibin Liang, Chenghao Xiao, Yizhi Li, Noura Al Moubayed, Chenghua Lin(参考訳) 音声分類は幅広い用途で音声処理や音声処理において重要な役割を担っている。 モデルのトレーニングデータへの適合(オーバーフィッティングの回避)と、新たなドメインへの一般化との適切なバランスを打つという課題はまだ残っている。 コントラスト学習の伝達可能性を活用して,頑健な一般性に特徴付けられる効率的なアプローチであるオーディオコントラストベースファインチューニング(AudioConFit)を導入する。 様々な音声分類タスクにおける経験的実験により,様々な設定で最新の結果を得る手法の有効性と頑健性が示された。

Audio classification plays a crucial role in speech and sound processing tasks with a wide range of applications. There still remains a challenge of striking the right balance between fitting the model to the training data (avoiding overfitting) and enabling it to generalise well to a new domain. Leveraging the transferability of contrastive learning, we introduce Audio Contrastive-based Fine-tuning (AudioConFit), an efficient approach characterised by robust generalisability. Empirical experiments on a variety of audio classification tasks demonstrate the effectiveness and robustness of our approach, which achieves state-of-the-art results in various settings.
翻訳日:2023-09-22 16:11:48 公開日:2023-09-21
# イベントカメラを用いた心拍検出

Heart Rate Detection Using an Event Camera ( http://arxiv.org/abs/2309.11891v1 )

ライセンス: Link先を確認
Aniket Jagtap, RamaKrishna Venkatesh Saripalli, Joe Lemley, Waseem Shariff and Alan F. Smeaton(参考訳) イベントカメラはニューロモルフィックカメラとしても知られ、高時間分解能、低消費電力、選択的なデータ取得など、従来のシャッターやフレームベースのカメラよりも有利な新興技術である。 本研究では,手首領域の脈動性血流による皮膚表面の微妙な変化を捉えるために,イベントベースカメラの機能を活用することを提案する。 心拍数(HR)の連続的非侵襲的モニタリングには,イベントカメラが有効か検討した。 年齢や肌の色によって異なる25人の参加者のイベントカメラ映像データを収集,分析した。 イベントカメラデータからHRの自動検出精度を評価するため,従来手法を用いた地中HR測定を行った。 実験結果と他の非接触型hr測定法との比較により,パルス検出にイベントカメラが有効であることが示された。 また,この手法の課題と限界,例えば光誘起フレッカリングや,データ取得時の個人の潜在意識的だが自然に発生する震動についても認識した。

Event cameras, also known as neuromorphic cameras, are an emerging technology that offer advantages over traditional shutter and frame-based cameras, including high temporal resolution, low power consumption, and selective data acquisition. In this study, we propose to harnesses the capabilities of event-based cameras to capture subtle changes in the surface of the skin caused by the pulsatile flow of blood in the wrist region. We investigate whether an event camera could be used for continuous noninvasive monitoring of heart rate (HR). Event camera video data from 25 participants, comprising varying age groups and skin colours, was collected and analysed. Ground-truth HR measurements obtained using conventional methods were used to evaluate of the accuracy of automatic detection of HR from event camera data. Our experimental results and comparison to the performance of other non-contact HR measurement methods demonstrate the feasibility of using event cameras for pulse detection. We also acknowledge the challenges and limitations of our method, such as light-induced flickering and the sub-conscious but naturally-occurring tremors of an individual during data capture.
翻訳日:2023-09-22 16:11:36 公開日:2023-09-21
# 質量レスサイリングモデルにおけるエンタングルメントR\enyiエントロピーとボソンフェルミオン双対性

Entanglement R\'enyi entropy and boson-fermion duality in massless Thirring model ( http://arxiv.org/abs/2309.11889v1 )

ライセンス: Link先を確認
Harunobu Fujimura, Tatsuma Nishioka and Soichiro Shimamori(参考訳) 自己相互作用するディラックフェルミオンを2次元で記述した質量レスチューリングモデルにおいて、2区間のR'enyiエントロピーについて検討する。 このモデルと自由コンパクトなボソン理論に関するボソン-フェルミオン双対性は、第二のR'enyiエントロピーの計算を単純化し、トーラス上のボソン理論の分割関数の評価に還元する。 第2の r\'enyi エントロピーに関する正確な結果を導出し、解析的および数値的にモデルの区間の大きさと結合定数の依存性について検討する。 また, 2 つの区間間の相関を定量化する尺度である相互r\'enyi 情報についても検討し, チリングモデルの結合定数が大きくなると一般に増加することを見出した。

We investigate the second R\'enyi entropy of two intervals in the massless Thirring model describing a self-interacting Dirac fermion in two dimensions. Boson-fermion duality relating this model to a free compact boson theory enables us to simplify the calculation of the second R\'enyi entropy, reducing it to the evaluation of the partition functions of the bosonic theory on a torus. We derive exact results on the second R\'enyi entropy, and examine the dependence on the sizes of the intervals and the coupling constant of the model both analytically and numerically. We also explore the mutual R\'enyi information, a measure quantifying the correlation between the two intervals, and find that it generally increases as the coupling constant of the Thirring model becomes larger.
翻訳日:2023-09-22 16:11:22 公開日:2023-09-21
# Parseの選挙区と依存関係ツリーの併用は本当に有用か? 再考

Is It Really Useful to Jointly Parse Constituency and Dependency Trees? A Revisit ( http://arxiv.org/abs/2309.11888v1 )

ライセンス: Link先を確認
Yanggang Gu, Yang Hou, Zhefeng Wang, Xinyu Duan, Zhenghua Li(参考訳) 本研究は,構文表現において2種類の木が相補的であることを考慮し,入力文に対して相補的な構成木と係り受け木を同時に生成することを目的とする。 先行研究と比較して,(1)より効率的な復号化アルゴリズムの採用,(2)推論段階に留まらず,訓練段階における共同モデリングの探索,(3)構成-依存相互作用のための高次得点要素の提案,(4)深い実験と分析による洞察の獲得,の4つの側面が進歩している。

This work visits the topic of jointly parsing constituency and dependency trees, i.e., to produce compatible constituency and dependency trees simultaneously for input sentences, which is attractive considering that the two types of trees are complementary in representing syntax. Compared with previous works, we make progress in four aspects: (1) adopting a much more efficient decoding algorithm, (2) exploring joint modeling at the training phase, instead of only at the inference phase, (3) proposing high-order scoring components for constituent-dependency interaction, (4) gaining more insights via in-depth experiments and analysis.
翻訳日:2023-09-22 16:11:02 公開日:2023-09-21
# On-The-Fly SfM: 捉えたものは何か?

On-the-Fly SfM: What you capture is What you get ( http://arxiv.org/abs/2309.11883v1 )

ライセンス: Link先を確認
Zongqian Zhan, Rui Xia, Yifei Yu, Yibo Xu, Xin Wang(参考訳) 過去数十年間、Structure from Motion (SfM)で多くの成果が達成されてきた。 しかし、その大半はオフラインで動作し、イメージはまずキャプチャされ、scmパイプラインにまとめられ、ポーズとスパースポイントクラウドを得る。 画像キャプチャ中にオンラインSfMを実行すると、新たに撮影されたOn-the-Fly画像は、対応するポーズとポイント、すなわち、取得したものをオンラインで推定する。 具体的には,新しいフライイン画像の高速画像検索のために,学習に基づくグローバル特徴を用いた教師なし学習の語彙木を用いる。 次に、最小二乗(LSM)を有するロバストな特徴マッチング機構を示し、画像登録性能を向上させる。 最後に、新しいフライイン画像の連結画像の影響を調査することで、効率的な階層的局所バンドル調整(BA)が最適化に使用される。 大規模な実験結果から、オンザフライのSfMは、オンラインで撮影しながら画像の堅牢な登録を目標とすることができる。

Over the last decades, ample achievements have been made on Structure from motion (SfM). However, the vast majority of them basically work in an offline manner, i.e., images are firstly captured and then fed together into a SfM pipeline for obtaining poses and sparse point cloud. In this work, on the contrary, we present an on-the-fly SfM: running online SfM while image capturing, the newly taken On-the-Fly image is online estimated with the corresponding pose and points, i.e., what you capture is what you get. Specifically, our approach firstly employs a vocabulary tree that is unsupervised trained using learning-based global features for fast image retrieval of newly fly-in image. Then, a robust feature matching mechanism with least squares (LSM) is presented to improve image registration performance. Finally, via investigating the influence of newly fly-in image's connected neighboring images, an efficient hierarchical weighted local bundle adjustment (BA) is used for optimization. Extensive experimental results demonstrate that on-the-fly SfM can meet the goal of robustly registering the images while capturing in an online way.
翻訳日:2023-09-22 16:10:49 公開日:2023-09-21
# ビデオの記憶力を改善するためにサリエンシとクロップを使う

Using Saliency and Cropping to Improve Video Memorability ( http://arxiv.org/abs/2309.11881v1 )

ライセンス: Link先を確認
Vaibhav Mudgal and Qingyang Wang and Lorin Sweeney and Alan F. Smeaton(参考訳) ビデオの記憶力(英: video memorability)とは、視聴者がビデオコンテンツと感情的なつながりがない場合、特定のビデオがどれだけ視聴者によって記憶されるかを示す指標である。 記憶に残るビデオは共有され、閲覧され、議論されることが多いため、これは重要な特徴である。 本稿では,映像のサリエンシーに基づいてフレームを選択的に切り刻むことにより,映像の記憶性を向上した一連の実験結果を示す。 本研究では,ビデオの再生時に作物の大きさとフレーム内の作物の位置の両方が移動し,塩分濃度が追跡される動的収穫と基本固定収穫の結果を示す。 その結果,初期記憶力の低いビデオでは,記憶力スコアが向上する可能性が示唆された。

Video memorability is a measure of how likely a particular video is to be remembered by a viewer when that viewer has no emotional connection with the video content. It is an important characteristic as videos that are more memorable are more likely to be shared, viewed, and discussed. This paper presents results of a series of experiments where we improved the memorability of a video by selectively cropping frames based on image saliency. We present results of a basic fixed cropping as well as the results from dynamic cropping where both the size of the crop and the position of the crop within the frame, move as the video is played and saliency is tracked. Our results indicate that especially for videos of low initial memorability, the memorability score can be improved.
翻訳日:2023-09-22 16:10:26 公開日:2023-09-21
# 局所脱コヒーレンスによるトポロジカル状態の分離性遷移

Separability transitions in topological states induced by local decoherence ( http://arxiv.org/abs/2309.11879v1 )

ライセンス: Link先を確認
Yu-Hsueh Chen and Tarun Grover(参考訳) 本研究は,局所的脱コヒーレンスを考慮した局所的脱コヒーレンス状態,すなわち脱コヒーレント混合状態が短距離エンタングル状態のアンサンブルとして表現できるか否かを考察する。 我々は, トリック符号とXキューブフラクトン状態に着目し, 脱コヒーレンスによって引き起こされる分離性遷移の存在の証拠を提供する。 重要な洞察は、これらのモデルの'親'クラスタ状態に作用する局所的なデコヒーレンスがギブス状態をもたらすことである。

We study states with intrinsic topological order subjected to local decoherence from the perspective of separability, i.e., whether a decohered mixed state can be expressed as an ensemble of short-range entangled pure states. We focus on toric codes and the X-cube fracton state and provide evidence for the existence of decoherence-induced separability transitions that precisely coincide with the error-recovery transitions. A key insight is that local decoherence acting on the 'parent' cluster states of these models results in a Gibbs state.
翻訳日:2023-09-22 16:10:11 公開日:2023-09-21
# 免疫の確率について

On the Probability of Immunity ( http://arxiv.org/abs/2309.11942v1 )

ライセンス: Link先を確認
Jose M. Pe\~na(参考訳) この研究は免疫の確率、すなわちその影響が暴露されるか否かの研究に費やされている。 非免疫に対する必要十分条件と$\epsilon$-bounded immunity、すなわち免疫の確率は 0 で$\epsilon$-bounded である。 前者は、ランダムに制御された試行から利益の確率(すなわち、その効果が露出した場合のみ起こる)を推定することができ、後者は、既存のものよりも厳密な利益の確率の境界を生成することができる。 また、間接免疫(例えば、仲介者を通して)の概念を導入し、それに対する以前の分析を繰り返す。 最後に, 未測定のコンファウンディングにおける免疫の確率の感度解析法を提案する。

This work is devoted to the study of the probability of immunity, i.e. the effect occurs whether exposed or not. We derive necessary and sufficient conditions for non-immunity and $\epsilon$-bounded immunity, i.e. the probability of immunity is zero and $\epsilon$-bounded, respectively. The former allows us to estimate the probability of benefit (i.e., the effect occurs if and only if exposed) from a randomized controlled trial, and the latter allows us to produce bounds of the probability of benefit that are tighter than the existing ones. We also introduce the concept of indirect immunity (i.e., through a mediator) and repeat our previous analysis for it. Finally, we propose a method for sensitivity analysis of the probability of immunity under unmeasured confounding.
翻訳日:2023-09-22 16:03:15 公開日:2023-09-21
# 適切な信頼の定義とそれに伴うツールについて

On the Definition of Appropriate Trust and the Tools that Come with it ( http://arxiv.org/abs/2309.11937v1 )

ライセンス: Link先を確認
Helena L\"ofstr\"om(参考訳) 人間とAIの相互作用の効率を評価することは、主観的、客観的な品質面を含む困難である。 説明の人間的経験に焦点をあてることにより,説明方法の評価が主観的になり,比較評価はほぼ不可能となり,個々のユーザと高度に関連している。 しかし、説明品質の1つの側面は、ユーザが予測が信頼できるかどうか、正しいか、すなわち、モデルに対するユーザの適切な信頼を高めることができるかどうかを、いかに効果的に検出できるかである。 本稿では,文献からの適切な信頼の定義から始める。 この定義をモデル性能評価と比較し、適切な信頼度とモデルパフォーマンス評価との強い類似性を示す。 この論文の主な貢献は、定義間の類似性を利用して適切な信頼を評価する新しいアプローチである。 本稿では,不確実性の測定方法や回帰の適切な信頼度など,ユーザパフォーマンスのさまざまな側面に対する簡易な評価手法を提案する。

Evaluating the efficiency of human-AI interactions is challenging, including subjective and objective quality aspects. With the focus on the human experience of the explanations, evaluations of explanation methods have become mostly subjective, making comparative evaluations almost impossible and highly linked to the individual user. However, it is commonly agreed that one aspect of explanation quality is how effectively the user can detect if the predictions are trustworthy and correct, i.e., if the explanations can increase the user's appropriate trust in the model. This paper starts with the definitions of appropriate trust from the literature. It compares the definitions with model performance evaluation, showing the strong similarities between appropriate trust and model performance evaluation. The paper's main contribution is a novel approach to evaluating appropriate trust by taking advantage of the likenesses between definitions. The paper offers several straightforward evaluation methods for different aspects of user performance, including suggesting a method for measuring uncertainty and appropriate trust in regression.
翻訳日:2023-09-22 16:03:02 公開日:2023-09-21
# ビデオオブジェクトセグメンテーションのエンドツーエンド化のためのフルトランスフォーマーアーキテクチャ

Fully Transformer-Equipped Architecture for End-to-End Referring Video Object Segmentation ( http://arxiv.org/abs/2309.11933v1 )

ライセンス: Link先を確認
Ping Li and Yu Zhang and Li Yuan and Xianghua Xu(参考訳) ビデオオブジェクトセグメンテーション(RVOS)を参照するには、自然言語クエリによって参照されるビデオ内のオブジェクトをセグメント化する必要がある。 既存の手法は主に、そのようなクロスモーダルなタスクに取り組むための洗練されたパイプラインに依存しており、参照オブジェクトの配置において重要な役割を果たすオブジェクトレベルの空間コンテキストを明示的にモデル化していない。 そこで本稿では,ビデオ中のすべてのオブジェクトを候補オブジェクトとして扱い,RVOSタスクをマスクシーケンス学習問題として扱う,変換器をベースとしたエンドツーエンドの RVOS フレームワークをFTEA (textit{Fully Transformer-Equipped Architecture}) と呼ぶ。 テキストクエリを備えたビデオクリップが与えられると、視覚的テキスト特徴はエンコーダによって獲得され、対応するピクセルレベルとワードレベルの特徴は意味的類似性の観点から整列される。 オブジェクトレベルの空間的コンテキストをキャプチャするために,各候補オブジェクトの視覚的外観を個別に特徴付けるスタック変換器を開発した。 最後に、モデルがマスクシーケンスとテキストクエリの最適なマッチングを見つける。 さらに,対象物に対する生成マスクの多様化を図るため,対象物のより正確なマスクを捉えるために,モデルに多様性損失を課す。 fetaはa2d文(3782ビデオ)とj-hmdb文(928ビデオ)の地図で45.1%と38.7%を達成し、ref-youtube-vos(3975ビデオと7451オブジェクト)で$\mathcal{j\&f}$の56.6%を達成した。 特に、最も優れた候補法と比較して、前者 2 では P$@$0.5 でそれぞれ 2.1% と 3.2% のゲインを持ち、後者では $\mathcal{J}$ で 2.9% のゲインを持つ。

Referring Video Object Segmentation (RVOS) requires segmenting the object in video referred by a natural language query. Existing methods mainly rely on sophisticated pipelines to tackle such cross-modal task, and do not explicitly model the object-level spatial context which plays an important role in locating the referred object. Therefore, we propose an end-to-end RVOS framework completely built upon transformers, termed \textit{Fully Transformer-Equipped Architecture} (FTEA), which treats the RVOS task as a mask sequence learning problem and regards all the objects in video as candidate objects. Given a video clip with a text query, the visual-textual features are yielded by encoder, while the corresponding pixel-level and word-level features are aligned in terms of semantic similarity. To capture the object-level spatial context, we have developed the Stacked Transformer, which individually characterizes the visual appearance of each candidate object, whose feature map is decoded to the binary mask sequence in order directly. Finally, the model finds the best matching between mask sequence and text query. In addition, to diversify the generated masks for candidate objects, we impose a diversity loss on the model for capturing more accurate mask of the referred object. Empirical studies have shown the superiority of the proposed method on three benchmarks, e.g., FETA achieves 45.1% and 38.7% in terms of mAP on A2D Sentences (3782 videos) and J-HMDB Sentences (928 videos), respectively; it achieves 56.6% in terms of $\mathcal{J\&F}$ on Ref-YouTube-VOS (3975 videos and 7451 objects). Particularly, compared to the best candidate method, it has a gain of 2.1% and 3.2% in terms of P$@$0.5 on the former two, respectively, while it has a gain of 2.9% in terms of $\mathcal{J}$ on the latter one.
翻訳日:2023-09-22 16:02:47 公開日:2023-09-21
# Tiny Machine Learningに関する機械学習指向調査

A Machine Learning-oriented Survey on Tiny Machine Learning ( http://arxiv.org/abs/2309.11932v1 )

ライセンス: Link先を確認
Luigi Capogrosso, Federico Cunico, Dong Seon Cheng, Franco Fummi, Marco cristani(参考訳) TinyML(Tiny Machine Learning)の出現は、リソース制約のIoTハードウェアデバイスと学習ベースのソフトウェアアーキテクチャの共同設計を促進することによって、人工知能の分野に積極的に革命をもたらした。 TinyMLは、社会、経済、個人が効果的なAI融合コンピューティング技術(スマートシティ、自動車、医療ロボティクスなど)を採用するのを助けるために、第4および第5次産業革命において重要な役割を担っている。 この総合的な調査は、TinyMLベースのソリューション内のすべての学習アルゴリズムに焦点をあてた最新の概要を提供したいと考えている。 The Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)の方法論的流れに基づいており、体系的で完全な文献調査を可能にしている。 特に、まず、TinyMLベースのシステムを実装するための3つの異なるワークフロー、すなわちML指向、HW指向、共同設計について検討する。 第2に,TinyMLレンズの学習パノラマを網羅する分類法を提案し,モデル最適化と設計の異なるファミリと最先端の学習技術について詳細に検討する。 第3に、この調査では、TinyMLインテリジェントエッジアプリケーションの現状を表す、ハードウェアデバイスとソフトウェアツールの異なる特徴を提示する。 最後に,課題と今後の方向性について論じる。

The emergence of Tiny Machine Learning (TinyML) has positively revolutionized the field of Artificial Intelligence by promoting the joint design of resource-constrained IoT hardware devices and their learning-based software architectures. TinyML carries an essential role within the fourth and fifth industrial revolutions in helping societies, economies, and individuals employ effective AI-infused computing technologies (e.g., smart cities, automotive, and medical robotics). Given its multidisciplinary nature, the field of TinyML has been approached from many different angles: this comprehensive survey wishes to provide an up-to-date overview focused on all the learning algorithms within TinyML-based solutions. The survey is based on the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) methodological flow, allowing for a systematic and complete literature survey. In particular, firstly we will examine the three different workflows for implementing a TinyML-based system, i.e., ML-oriented, HW-oriented, and co-design. Secondly, we propose a taxonomy that covers the learning panorama under the TinyML lens, examining in detail the different families of model optimization and design, as well as the state-of-the-art learning techniques. Thirdly, this survey will present the distinct features of hardware devices and software tools that represent the current state-of-the-art for TinyML intelligent edge applications. Finally, we discuss the challenges and future directions.
翻訳日:2023-09-22 16:02:09 公開日:2023-09-21
# ギャップを埋める:オープンワールドセミスーパービジョンラーニングのための学習ペース同期

Bridging the Gap: Learning Pace Synchronization for Open-World Semi-Supervised Learning ( http://arxiv.org/abs/2309.11930v1 )

ライセンス: Link先を確認
Bo Ye, Kai Gan, Tong Wei and Min-Ling Zhang(参考訳) オープンワールド半教師付き学習において、機械学習モデルはラベル付きデータから新しいカテゴリを抽出し、ラベル付きデータから見るカテゴリのパフォーマンスを維持する。 中心となる課題は、目に見えるカテゴリと新しいカテゴリの間の実質的な学習ギャップであり、モデルが正確な監視情報によって前者をより早く学習するためである。 これを解決するために紹介する 1) クラス分布の推定値に基づく適応的マージン損失は、見受けられるクラスのサンプルに対する大きな負のマージンを促進し、学習ペースを同期させ、 2)疑似ラベルコントラストクラスタリング(pseudo-label contrastive clustering)は、出力空間の同じクラスから、新しいクラス発見を強化するために、サンプルをまとめる。 複数のデータセットに対する我々の広範囲な評価は、既存のモデルがまだ新しいクラス学習を妨げていることを示しているが、我々のアプローチは目に見えるクラスと新しいクラスの両方を著しくバランスさせ、ImageNetデータセットの平均精度が従来の最先端と比較して顕著に3%向上したことを示している。 さらに, 自己教師付きバックボーンの微調整により, 先行文献の既定値よりも性能が著しく向上することが判明した。 論文が受理された後、コードをリリースします。

In open-world semi-supervised learning, a machine learning model is tasked with uncovering novel categories from unlabeled data while maintaining performance on seen categories from labeled data. The central challenge is the substantial learning gap between seen and novel categories, as the model learns the former faster due to accurate supervisory information. To address this, we introduce 1) an adaptive margin loss based on estimated class distribution, which encourages a large negative margin for samples in seen classes, to synchronize learning paces, and 2) pseudo-label contrastive clustering, which pulls together samples which are likely from the same class in the output space, to enhance novel class discovery. Our extensive evaluations on multiple datasets demonstrate that existing models still hinder novel class learning, whereas our approach strikingly balances both seen and novel classes, achieving a remarkable 3% average accuracy increase on the ImageNet dataset compared to the prior state-of-the-art. Additionally, we find that fine-tuning the self-supervised pre-trained backbone significantly boosts performance over the default in prior literature. After our paper is accepted, we will release the code.
翻訳日:2023-09-22 16:01:44 公開日:2023-09-21
# ニューラルネットワークによる映像シーン位置認識

Video Scene Location Recognition with Neural Networks ( http://arxiv.org/abs/2309.11928v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Korel, Petr Pulc, Ji\v{r}\'i Tumpach, and Martin Hole\v{n}a(参考訳) 本稿では, ニューラルネットワークを用いて, 連続した撮影場所(テレビシリーズなど)を連続して持つ映像系列からのシーン認識の可能性について考察する。 提案手法の基本的な考え方は、各シーンから一連のフレームを選択し、事前訓練された単一画像プリプロセッシング畳み込みネットワークに変換し、シーンの位置をニューラルネットワークの次のレイヤに分類することである。 検討されたネットワークは、big bang theory televisionシリーズから得られたデータセットでテストされ、比較されている。 我々は、個々のフレーム、特にAveragePooling、MaxPooling、Product、Flatten、LSTM、Bidirectional LSTMレイヤを組み合わせるために、異なるニューラルネットワーク層を調査した。 現状の課題に適しているのは,いくつかのアプローチのみである。

This paper provides an insight into the possibility of scene recognition from a video sequence with a small set of repeated shooting locations (such as in television series) using artificial neural networks. The basic idea of the presented approach is to select a set of frames from each scene, transform them by a pre-trained singleimage pre-processing convolutional network, and classify the scene location with subsequent layers of the neural network. The considered networks have been tested and compared on a dataset obtained from The Big Bang Theory television series. We have investigated different neural network layers to combine individual frames, particularly AveragePooling, MaxPooling, Product, Flatten, LSTM, and Bidirectional LSTM layers. We have observed that only some of the approaches are suitable for the task at hand.
翻訳日:2023-09-22 16:01:11 公開日:2023-09-21
# COMETKIWI:Unbabel-IST 2023による品質評価共有タスクのスケールアップ

Scaling up COMETKIWI: Unbabel-IST 2023 Submission for the Quality Estimation Shared Task ( http://arxiv.org/abs/2309.11925v1 )

ライセンス: Link先を確認
Ricardo Rei, Nuno M. Guerreiro, Jos\'e Pombal, Daan van Stigt, Marcos Treviso, Luisa Coheur, Jos\'e G.C. de Souza, Andr\'e F.T. Martins(参考訳) 本稿では,wmt 2023におけるunbabel と instituto superior t\'ecnico の共同研究について述べる。 我々のチームは文と単語レベルの品質予測(タスク1)ときめ細かいエラースパン検出(タスク2)のすべてのタスクに参加しました。 すべてのタスクに対して、COMETKIWI-22モデル(Rei et al., 2022b)を構築します。 我々の多言語アプローチは、すべてのタスクにおいて第一にランクされ、単語、スパン、文レベルの粒度における品質評価のための最先端のパフォーマンスに達する。 従来のCOMETKIWI-22と比較して,人間の判断と相関(最大10Spearman点)が大きく改善した。 さらに、最大3.8の絶対点を持つ共有タスクへの2番目に高い多言語提案を超越する。

We present the joint contribution of Unbabel and Instituto Superior T\'ecnico to the WMT 2023 Shared Task on Quality Estimation (QE). Our team participated on all tasks: sentence- and word-level quality prediction (task 1) and fine-grained error span detection (task 2). For all tasks, we build on the COMETKIWI-22 model (Rei et al., 2022b). Our multilingual approaches are ranked first for all tasks, reaching state-of-the-art performance for quality estimation at word-, span- and sentence-level granularity. Compared to the previous state-of-the-art COMETKIWI-22, we show large improvements in correlation with human judgements (up to 10 Spearman points). Moreover, we surpass the second-best multilingual submission to the shared-task with up to 3.8 absolute points.
翻訳日:2023-09-22 16:00:57 公開日:2023-09-21
# TextCLIP: テキストガイドによる顔画像生成と操作

TextCLIP: Text-Guided Face Image Generation And Manipulation Without Adversarial Training ( http://arxiv.org/abs/2309.11923v1 )

ライセンス: Link先を確認
Xiaozhou You, Jian Zhang(参考訳) テキストガイド画像生成は、与えられたテキストに基づいて所望の画像を生成することを目的としているが、テキストガイド画像操作は、特定のテキストに基づいて所定の画像の部分を意味的に編集することを指す。 これら2つの類似したタスクに対して重要なのは、イメージの忠実さとセマンティック一貫性を保証することだ。 従来の多くのアプローチでは複雑なマルチステージ生成と敵の訓練を必要とし、両方のタスクに統一されたフレームワークを提供するのに苦労していた。 本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。 提案手法は,これら2つのタスクに対応する画像やランダムノイズからの入力を受信し,特定のテキストの条件下で,StyleGANの強力な生成能力とContrastive Language- Image Pre-training (CLIP)のテキスト画像表現能力を利用して,最大1024\times1024$の解像度の画像を生成する。 マルチモーダルCelebA-HQデータセットの大規模な実験により,提案手法はテキスト誘導生成タスクと操作タスクの両方において,既存の最先端手法よりも優れた性能を示した。

Text-guided image generation aimed to generate desired images conditioned on given texts, while text-guided image manipulation refers to semantically edit parts of a given image based on specified texts. For these two similar tasks, the key point is to ensure image fidelity as well as semantic consistency. Many previous approaches require complex multi-stage generation and adversarial training, while struggling to provide a unified framework for both tasks. In this work, we propose TextCLIP, a unified framework for text-guided image generation and manipulation without adversarial training. The proposed method accepts input from images or random noise corresponding to these two different tasks, and under the condition of the specific texts, a carefully designed mapping network that exploits the powerful generative capabilities of StyleGAN and the text image representation capabilities of Contrastive Language-Image Pre-training (CLIP) generates images of up to $1024\times1024$ resolution that can currently be generated. Extensive experiments on the Multi-modal CelebA-HQ dataset have demonstrated that our proposed method outperforms existing state-of-the-art methods, both on text-guided generation tasks and manipulation tasks.
翻訳日:2023-09-22 16:00:44 公開日:2023-09-21
# 空間時変圧器に基づくビデオ圧縮フレームワーク

Spatial-Temporal Transformer based Video Compression Framework ( http://arxiv.org/abs/2309.11913v1 )

ライセンス: Link先を確認
Yanbo Gao, Wenjia Huang, Shuai Li, Hui Yuan, Mao Ye, Siwei Ma(参考訳) 学習ビデオ圧縮(LVC)は近年顕著な進歩を遂げている。 従来のビデオ符号化と同様に、LVCはモーション推定/補償、残留コーディング、その他のモジュールを継承し、これらはすべてニューラルネットワーク(NN)で実装されている。 しかしながら、NNのフレームワークと勾配のバックプロパゲーションを用いたトレーニング機構では、ほとんどの既存の研究は、入力色の特徴から幾何学的特徴の形で安定した動き情報を生成するのに苦労する。 さらに、相互予測や残留符号化といったモジュールは互いに独立しており、空間的時間的冗長性を完全に低減することは非効率である。 そこで本稿では,本稿で提案する空間時変圧器を用いたビデオ圧縮(stt-vc)フレームワークを提案する。 動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。 具体的には、類似性に基づく幾何運動特徴抽出と自己注意との関係を徹底的に調べ、フレーム間の動き情報を安定して推定する。 MGPは、符号化された動き情報で生成された粗粒度予測機能を効果的に探索することにより、多参照フレーム情報を融合するように設計されている。 SFD-Tは、空間的特徴分布を残差予測と時間的予測の両方で共同で探索することで残差情報を圧縮し、空間的時間的冗長性をさらに低減する。 実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。

Learned video compression (LVC) has witnessed remarkable advancements in recent years. Similar as the traditional video coding, LVC inherits motion estimation/compensation, residual coding and other modules, all of which are implemented with neural networks (NNs). However, within the framework of NNs and its training mechanism using gradient backpropagation, most existing works often struggle to consistently generate stable motion information, which is in the form of geometric features, from the input color features. Moreover, the modules such as the inter-prediction and residual coding are independent from each other, making it inefficient to fully reduce the spatial-temporal redundancy. To address the above problems, in this paper, we propose a novel Spatial-Temporal Transformer based Video Compression (STT-VC) framework. It contains a Relaxed Deformable Transformer (RDT) with Uformer based offsets estimation for motion estimation and compensation, a Multi-Granularity Prediction (MGP) module based on multi-reference frames for prediction refinement, and a Spatial Feature Distribution prior based Transformer (SFD-T) for efficient temporal-spatial joint residual compression. Specifically, RDT is developed to stably estimate the motion information between frames by thoroughly investigating the relationship between the similarity based geometric motion feature extraction and self-attention. MGP is designed to fuse the multi-reference frame information by effectively exploring the coarse-grained prediction feature generated with the coded motion information. SFD-T is to compress the residual information by jointly exploring the spatial feature distributions in both residual and temporal prediction to further reduce the spatial-temporal redundancy. Experimental results demonstrate that our method achieves the best result with 13.5% BD-Rate saving over VTM.
翻訳日:2023-09-22 16:00:20 公開日:2023-09-21
# InstructERC:Retrieval Multi-task LLMs Frameworkを用いた会話における感情認識の再構築

InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework ( http://arxiv.org/abs/2309.11911v1 )

ライセンス: Link先を確認
Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Sirui Wang(参考訳) 対話における感情認識(ERC)の開発は、パイプライン設計の複雑さによって一貫して妨げられ、しばしば特定のデータセットや対話パターンに過度に適合するERCモデルに繋がる。 本研究では,差別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへERCタスクを再構成する新しい手法,すなわちインストラクタCを提案する。 InstructERCには2つの重要なコントリビューションがある: まず、InstructERCはシンプルだが効果的なテンプレートモジュールを導入する。これは、歴史的ダイアログの内容、ラベル文、感情ドメインのデモを意味的類似度の高いものに結合することで、モデルが多言語対話の監督情報を明示的に統合するのに役立つ。 さらに,会話における対話の役割関係と今後の感情傾向を暗黙的にモデル化するために,話者識別タスクと感情予測タスクという2つの感情アライメントタスクを導入する。 LLMベースのプラグインフレームワークは,従来のすべてのモデルより大幅に優れており,一般的に使用されている3つのERCデータセットに対して包括的なSOTAを実現する。 パラメータ効率とデータスケーリングの実験の広範囲な分析は、実用的なシナリオでinstructercを適用するための経験的ガイダンスを提供する。 私たちのコードはブラインドレビュー後にリリースされます。

The development of emotion recognition in dialogue (ERC) has been consistently hindered by the complexity of pipeline designs, leading to ERC models that often overfit to specific datasets and dialogue patterns. In this study, we propose a novel approach, namely InstructERC, to reformulates the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs) . InstructERC has two significant contributions: Firstly, InstructERC introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information by concatenating the historical dialog content, label statement, and emotional domain demonstrations with high semantic similarity. Furthermore, we introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. Our LLM-based plug-and-play plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provide empirical guidance for applying InstructERC in practical scenarios. Our code will be released after blind review.
翻訳日:2023-09-22 15:59:23 公開日:2023-09-21
# 細調整BERTによる株価指数分類とバックテスト

Stock Market Sentiment Classification and Backtesting via Fine-tuned BERT ( http://arxiv.org/abs/2309.11979v1 )

ライセンス: Link先を確認
Jiashu Lou(参考訳) ビッグデータ・コンピューティング機器の急速な発展に伴い、リアルタイム情報取得に基づく低遅延自動取引プラットフォームが株式市場の主要な構成要素となり、定量取引の話題が広く注目を集めている。 そして、非効率な取引市場では、人間の感情と期待が常に市場のトレンドと取引決定を支配している。 そこで,本論文は感情論から始まり,East Moneyを例として,対応するストックバーからユーザコメントのタイトルデータをクロールし,データのクリーニングを行う。 その後、自然言語処理モデルBERTが構築され、既存の注釈付きデータセットを用いてBERTモデルを微調整した。 実験の結果, 微調整モデルの性能改善度は, 元のモデルとベースラインモデルとで異なることがわかった。 その後、上記モデルに基づいて、クロールしたユーザコメントデータを感情極性でラベル付けし、得られたラベル情報をAlpha191モデルと組み合わせて回帰に参加し、重要な回帰結果を得る。 その後、レグレッションモデルを用いて、次の5日間の平均価格変動を予測し、自動取引を誘導する信号として使用する。 実験の結果, 感情因子の取り込みは, 取引期間中のベースラインに比べて73.8 %, 元のα191モデルに比べて32.41 %のリターン率を示した。 最後に,感情的要因を量的取引に取り入れることの利点とデメリットについて論じ,今後の研究の方向性を示す。

With the rapid development of big data and computing devices, low-latency automatic trading platforms based on real-time information acquisition have become the main components of the stock trading market, so the topic of quantitative trading has received widespread attention. And for non-strongly efficient trading markets, human emotions and expectations always dominate market trends and trading decisions. Therefore, this paper starts from the theory of emotion, taking East Money as an example, crawling user comment titles data from its corresponding stock bar and performing data cleaning. Subsequently, a natural language processing model BERT was constructed, and the BERT model was fine-tuned using existing annotated data sets. The experimental results show that the fine-tuned model has different degrees of performance improvement compared to the original model and the baseline model. Subsequently, based on the above model, the user comment data crawled is labeled with emotional polarity, and the obtained label information is combined with the Alpha191 model to participate in regression, and significant regression results are obtained. Subsequently, the regression model is used to predict the average price change for the next five days, and use it as a signal to guide automatic trading. The experimental results show that the incorporation of emotional factors increased the return rate by 73.8\% compared to the baseline during the trading period, and by 32.41\% compared to the original alpha191 model. Finally, we discuss the advantages and disadvantages of incorporating emotional factors into quantitative trading, and give possible directions for further research in the future.
翻訳日:2023-09-22 15:53:15 公開日:2023-09-21
# ベイズ三角測量によるタスク性能の推定

Inferring Capabilities from Task Performance with Bayesian Triangulation ( http://arxiv.org/abs/2309.11975v1 )

ライセンス: Link先を確認
John Burden, Konstantinos Voudouris, Ryan Burnell, Danaja Rutar, Lucy Cheke, Jos\'e Hern\'andez-Orallo(参考訳) 機械学習モデルがより一般的になるにつれて、より豊かで有意義な方法で特徴付ける必要があります。 多様な実験データからシステムの認知プロファイルを推定する手法について述べる。 そこで我々は,タスクインテンス機能とシステム機能との相互作用をモデル化し,性能に影響を及ぼす計測レイアウトを提案する。 これらの機能は、非人口データから能力を予測するために複雑な方法で三角測量されなければならない。 ベイズ確率論的プログラムライブラリPyMCを用いて,動物AIオリンピックの68人の実際の競技者と,オブジェクト永続電池O-PIAAGETSの30人の合成エージェントの2つのシナリオで,エージェントの認知プロファイルを推定した。 我々は能力指向評価の可能性を示す。

As machine learning models become more general, we need to characterise them in richer, more meaningful ways. We describe a method to infer the cognitive profile of a system from diverse experimental data. To do so, we introduce measurement layouts that model how task-instance features interact with system capabilities to affect performance. These features must be triangulated in complex ways to be able to infer capabilities from non-populational data -- a challenge for traditional psychometric and inferential tools. Using the Bayesian probabilistic programming library PyMC, we infer different cognitive profiles for agents in two scenarios: 68 actual contestants in the AnimalAI Olympics and 30 synthetic agents for O-PIAAGETS, an object permanence battery. We showcase the potential for capability-oriented evaluation.
翻訳日:2023-09-22 15:52:49 公開日:2023-09-21
# 量子相補性:曖昧な排除と暗号化のための新しい資源

Quantum complementarity: A novel resource for unambiguous exclusion and encryption ( http://arxiv.org/abs/2309.11968v1 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Roope Uola, Paul Skrzypczyk(参考訳) 相補性は、よく知られた不確実性原理のような量子論のいくつかの中心的特徴を説明する現象である。 大まかに言えば、2つのオブジェクトは、1つのオブジェクトについて確信が持てば、もう1つのオブジェクトに関する有用な知識を禁ずることになる。 可換でない2つの量子測定は相補的な測定の例となり、この現象は状態のアンサンブルに対しても定義できる。 重要な量子機能であるが、ある量子情報タスクにおいて必要なリソースとして、相補性をより操作的に理解できるかは不明である。 ここでは、このようなケースを示し、$\eta$-unmbiguous と呼ばれる新しいタスクに関連しています。 補完性を明確な運用定義を与えるだけでなく、これはまた、明白な排他的タスクの基盤を初めて明らかにする。 さらに、特定の暗号化タスクにおいて、特別な種類の測定相補性は利点と等価であることを示す。 最後に, 測定の相補性と状態のアンサンブルをそれぞれ, 測定の不整合性と量子ステアリングの強い形式として解釈できることを示す。

Complementarity is a phenomenon explaining several core features of quantum theory, such as the well-known uncertainty principle. Roughly speaking, two objects are said to be complementary if being certain about one of them necessarily forbids useful knowledge about the other. Two quantum measurements that do not commute form an example of complementary measurements, and this phenomenon can also be defined for ensembles of states. Although a key quantum feature, it is unclear whether complementarity can be understood more operationally, as a necessary resource in some quantum information task. Here we show this is the case, and relates to a novel task which we term $\eta$-unambiguous exclusion. As well as giving complementarity a clear operational definition, this also uncovers the foundational underpinning of unambiguous exclusion tasks for the first time. We further show that a special type of measurement complementarity is equivalent to advantages in certain encryption tasks. Finally, our analysis suggest that complementarity of measurement and state ensemble can be interpreted as strong forms of measurement incompatibility and quantum steering, respectively.
翻訳日:2023-09-22 15:52:36 公開日:2023-09-21
# Neural Labeling:Neural Radiance Fieldsを用いた視覚データセットのラベル付けのための汎用ツールセット

NeuralLabeling: A versatile toolset for labeling vision datasets using Neural Radiance Fields ( http://arxiv.org/abs/2309.11966v1 )

ライセンス: Link先を確認
Floris Erich, Naoya Chiba, Yusuke Yoshiyasu, Noriaki Ando, Ryo Hanai, Yukiyasu Domae(参考訳) NeuralLabelingは、バウンディングボックスまたはメッシュを使用してシーンをアノテートし、セグメンテーションマスク、割当マップ、2Dバウンディングボックス、3Dバウンディングボックス、6DOFオブジェクトポーズ、深さマップ、オブジェクトメッシュを生成するためのラベリングアプローチおよびツールセットである。 NeuralLabelingは、Neural Radiance Fields(NeRF)をレンダラーとして使用し、オクルージョンのような幾何学的手がかりを入力として複数の視点から取得した画像にのみ依存しながら、3D空間ツールを使用してラベリングを行うことができる。 ロボット工学の実践的な問題に対するNeuralLabelingの適用性を実証するため,透明物体RGBの30000フレームに基底真理深度マップを付加し,RGBDセンサを用いて捕集した食器洗い機に設置したガラスのノイズ深度マップをDishwasher30kデータセットとした。 注記付き深層マップを用いた単純な深層ニューラルネットワークの学習は,前述した弱教師付きアプローチによる学習よりも高い再構成性能をもたらすことを示す。

We present NeuralLabeling, a labeling approach and toolset for annotating a scene using either bounding boxes or meshes and generating segmentation masks, affordance maps, 2D bounding boxes, 3D bounding boxes, 6DOF object poses, depth maps and object meshes. NeuralLabeling uses Neural Radiance Fields (NeRF) as renderer, allowing labeling to be performed using 3D spatial tools while incorporating geometric clues such as occlusions, relying only on images captured from multiple viewpoints as input. To demonstrate the applicability of NeuralLabeling to a practical problem in robotics, we added ground truth depth maps to 30000 frames of transparent object RGB and noisy depth maps of glasses placed in a dishwasher captured using an RGBD sensor, yielding the Dishwasher30k dataset. We show that training a simple deep neural network with supervision using the annotated depth maps yields a higher reconstruction performance than training with the previously applied weakly supervised approach.
翻訳日:2023-09-22 15:52:17 公開日:2023-09-21
# 確率分割関数を用いた時系列分類の改善のための階層構造の生成

Generating Hierarchical Structures for Improved Time Series Classification Using Stochastic Splitting Functions ( http://arxiv.org/abs/2309.11963v1 )

ライセンス: Link先を確認
Celal Alagoz(参考訳) 本研究では,階層分類(HC)による多クラスデータセットの分類性能を高めるために,確率分割関数(SSF)を用いた新しい階層分割クラスタリング手法を提案する。 明示的な情報を必要としない階層を生成するユニークな能力を有し、階層の事前知識を欠いたデータセットに適している。 クラスを分類器に従って識別性に基づいて2つのサブセットに体系的に分割することにより、提案手法は階層クラスの二分木表現を構築する。 この手法は、一般的な分類器(svmとロケット)とSSF(potr、srtr、lsoo)を用いて46種類の時系列データセットで評価される。 その結果,rocketとsvmをそれぞれ分類器として使用する場合,データセットの約半分と3分の1で分類性能が著しく向上した。 この研究はまた、データセットの特徴とhcパフォーマンスの関係についても研究している。 クラス数と平坦分類(FC)スコアは一貫した重要性を示すが、異なる分割関数で変動が観察される。 提案手法は,マルチクラス時系列データセットの階層構造を生成することにより,分類の強化に有望な戦略を示す。 今後の研究の方向性は、異なる分割関数、分類器、階層構造を探索することと、時系列データを超えた様々な領域にアプローチを適用することである。 ソースコードは公開されており、再現性とメソッドのさらなる探索を容易にする。

This study introduces a novel hierarchical divisive clustering approach with stochastic splitting functions (SSFs) to enhance classification performance in multi-class datasets through hierarchical classification (HC). The method has the unique capability of generating hierarchy without requiring explicit information, making it suitable for datasets lacking prior knowledge of hierarchy. By systematically dividing classes into two subsets based on their discriminability according to the classifier, the proposed approach constructs a binary tree representation of hierarchical classes. The approach is evaluated on 46 multi-class time series datasets using popular classifiers (svm and rocket) and SSFs (potr, srtr, and lsoo). The results reveal that the approach significantly improves classification performance in approximately half and a third of the datasets when using rocket and svm as the classifier, respectively. The study also explores the relationship between dataset features and HC performance. While the number of classes and flat classification (FC) score show consistent significance, variations are observed with different splitting functions. Overall, the proposed approach presents a promising strategy for enhancing classification by generating hierarchical structure in multi-class time series datasets. Future research directions involve exploring different splitting functions, classifiers, and hierarchy structures, as well as applying the approach to diverse domains beyond time series data. The source code is made openly available to facilitate reproducibility and further exploration of the method.
翻訳日:2023-09-22 15:51:54 公開日:2023-09-21
# Ego3DPose:両眼エゴ中心視から3Dキュウリを捉える

Ego3DPose: Capturing 3D Cues from Binocular Egocentric Views ( http://arxiv.org/abs/2309.11962v1 )

ライセンス: Link先を確認
Taeho Kang, Kyungjin Lee, Jinrui Zhang, Youngki Lee(参考訳) Ego3DPoseは高度に高精度な両眼エゴ中心性3Dポーズ再構築システムである。 双眼の自我中心の装置は、様々な用途で実用性と有用性を提供するが、ほとんど探索されていない。 エゴセントリック2d画像における関節の観察歪み, 重度の自己閉塞, 視野制限などにより, 姿勢推定精度の低下に苦しめられている。 ここでは,エゴセントリック双眼入力に含まれる2つの重要な3次元手がかり,ステレオ対応,視点が無視されていることに気付く。 現在の手法は2D画像の特徴に大きく依存しており、3D情報を暗黙的に学習し、一般的に観察される動きに対するバイアスを導入し、全体的な精度を低くする。 また, 閉塞症例の難易度だけでなく, 目に見える関節位置の推定にも失敗すると考えられた。 これらの課題に対処するために,我々は2つの新しいアプローチを提案する。 まず,両眼のヒートマップと独立してポーズを推定する経路を持つ2経路ネットワークアーキテクチャを設計する。 全身情報が提供されないと、トレーニングされた全身分布に対するバイアスが軽減される。 第二に、身体の四肢のエゴセントリックな視野を利用して、強い視点のばらつき(例えば、カメラに近づくとかなり大きな手)を示す。 本稿では,三角法を用いて,手足の3次元方向をネットワークで推定する新しい視点認識表現を提案する。 最後に,両手法を相乗化するエンドツーエンドのポーズ再構築ネットワークを開発した。 総合評価の結果,Ego3DPoseは,UnrealEgoデータセットにおいて,ポーズ推定誤差(MPJPE)を23.1%削減することで,最先端モデルよりも優れていた。 質的な結果は、さまざまなシナリオや課題にまたがるアプローチの優位性を強調します。

We present Ego3DPose, a highly accurate binocular egocentric 3D pose reconstruction system. The binocular egocentric setup offers practicality and usefulness in various applications, however, it remains largely under-explored. It has been suffering from low pose estimation accuracy due to viewing distortion, severe self-occlusion, and limited field-of-view of the joints in egocentric 2D images. Here, we notice that two important 3D cues, stereo correspondences, and perspective, contained in the egocentric binocular input are neglected. Current methods heavily rely on 2D image features, implicitly learning 3D information, which introduces biases towards commonly observed motions and leads to low overall accuracy. We observe that they not only fail in challenging occlusion cases but also in estimating visible joint positions. To address these challenges, we propose two novel approaches. First, we design a two-path network architecture with a path that estimates pose per limb independently with its binocular heatmaps. Without full-body information provided, it alleviates bias toward trained full-body distribution. Second, we leverage the egocentric view of body limbs, which exhibits strong perspective variance (e.g., a significantly large-size hand when it is close to the camera). We propose a new perspective-aware representation using trigonometry, enabling the network to estimate the 3D orientation of limbs. Finally, we develop an end-to-end pose reconstruction network that synergizes both techniques. Our comprehensive evaluations demonstrate that Ego3DPose outperforms state-of-the-art models by a pose estimation error (i.e., MPJPE) reduction of 23.1% in the UnrealEgo dataset. Our qualitative results highlight the superiority of our approach across a range of scenarios and challenges.
翻訳日:2023-09-22 15:51:30 公開日:2023-09-21
# 財務説明可能なAIに関する概観

A Comprehensive Review on Financial Explainable AI ( http://arxiv.org/abs/2309.11960v1 )

ライセンス: Link先を確認
Wei Jie Yeo, Wihan van der Heever, Rui Mao, Erik Cambria, Ranjan Satapathy, Gianmarco Mengaldo(参考訳) 人工知能(AI)の成功、特にディープラーニングモデルの成功は、大量のデータ処理と複雑なパターンの学習能力によって、さまざまな産業で広く採用されている。 しかし、説明責任の欠如により、意思決定の透明性が最重要視される金融や医療といった重要な分野での使用に重大な懸念がある。 本稿では,金融の文脈における深層学習モデルの説明可能性の向上を目的とした手法の比較調査を行う。 我々は,説明可能なAIメソッドのコレクションを,その特性に応じて分類し,説明可能なAIメソッドを採用する際の懸念と課題を考察し,今後の方向性を適切かつ重要とみなす。

The success of artificial intelligence (AI), and deep learning models in particular, has led to their widespread adoption across various industries due to their ability to process huge amounts of data and learn complex patterns. However, due to their lack of explainability, there are significant concerns regarding their use in critical sectors, such as finance and healthcare, where decision-making transparency is of paramount importance. In this paper, we provide a comparative survey of methods that aim to improve the explainability of deep learning models within the context of finance. We categorize the collection of explainable AI methods according to their corresponding characteristics, and we review the concerns and challenges of adopting explainable AI methods, together with future directions we deemed appropriate and important.
翻訳日:2023-09-22 15:50:59 公開日:2023-09-21
# 自己指導型学習のためのフォワードフォワードアルゴリズムの検討

A Study of Forward-Forward Algorithm for Self-Supervised Learning ( http://arxiv.org/abs/2309.11955v1 )

ライセンス: Link先を確認
Jonas Brenig, Radu Timofte(参考訳) 自己教師付き表現学習はここ数年で著しく進歩し、最近の手法のいくつかはラベルなしで有用な画像表現を学べるようになった。 これらの方法はデファクトスタンダードであるバックプロパゲーションを使って訓練される。 近年、Geoffrey Hinton は代替のトレーニング手法としてフォワードアルゴリズムを提案した。 バックプロパゲーションなしでネットワークをトレーニングするために、各レイヤに2つのフォワードパスと別個の損失関数を使用する。 本研究では,自己指導型表現学習における前向き対逆プロパゲーションのパフォーマンスを初めて研究し,学習した表現空間に対する洞察を提供する。 ベンチマークでは,mnist,f-mnist,svhn,cifar-10の4つの標準データセットと,ローテーション,フリップ,jigsawの3つの自己教師あり表現学習手法を用いた。 我々の主な発見は、フォワードアルゴリズムは(自己)教師付きトレーニングの間、バックプロパゲーションと相性が良いが、研究されたすべての設定において、転送性能は大幅に遅れていることである。 これは、各層に損失関数を持たせることや、教師付きトレーニングが前方のパラダイムで実現される方法など、さまざまな要因の組み合わせによって引き起こされる可能性がある。 バックプロパゲーションとは対照的に、フォワードフォワードアルゴリズムは境界をより重視し、表現学習目標を損なう決定を行うために不要な情報の一部をドロップする。 geoffrey hinton氏が示したデータセットと構成を超えて働くために、自己教師付き学習の前方戦略を安定化するために、さらなる調査と研究が必要である。

Self-supervised representation learning has seen remarkable progress in the last few years, with some of the recent methods being able to learn useful image representations without labels. These methods are trained using backpropagation, the de facto standard. Recently, Geoffrey Hinton proposed the forward-forward algorithm as an alternative training method. It utilizes two forward passes and a separate loss function for each layer to train the network without backpropagation. In this study, for the first time, we study the performance of forward-forward vs. backpropagation for self-supervised representation learning and provide insights into the learned representation spaces. Our benchmark employs four standard datasets, namely MNIST, F-MNIST, SVHN and CIFAR-10, and three commonly used self-supervised representation learning techniques, namely rotation, flip and jigsaw. Our main finding is that while the forward-forward algorithm performs comparably to backpropagation during (self-)supervised training, the transfer performance is significantly lagging behind in all the studied settings. This may be caused by a combination of factors, including having a loss function for each layer and the way the supervised training is realized in the forward-forward paradigm. In comparison to backpropagation, the forward-forward algorithm focuses more on the boundaries and drops part of the information unnecessary for making decisions which harms the representation learning goal. Further investigation and research are necessary to stabilize the forward-forward strategy for self-supervised learning, to work beyond the datasets and configurations demonstrated by Geoffrey Hinton.
翻訳日:2023-09-22 15:50:48 公開日:2023-09-21
# 深層学習による雑音環境下での量子状態再構成

Quantum State Reconstruction in a Noisy Environment via Deep Learning ( http://arxiv.org/abs/2309.11949v1 )

ライセンス: Link先を確認
Angela Rosy Morgillo, Stefano Mangini, Marco Piastra and Chiara Macchiavello(参考訳) 量子ノイズは現在、効率的な量子情報処理と計算を制限している。 本研究では,古典的フィードフォワードニューラルネットワークを用いて未知のノイズチャネルの動作によって崩壊した量子状態の再構成と分類を行うタスクについて検討する。 回帰問題としてレコンストラクションをフレイムすることで,最大3量子ビットまでの量子状態のノイズのない密度行列を99%超える精度で回復する方法を示し,単一量子ビット(ビットフリップ,位相フリップ,デポーラライジング,振幅減衰)と2量子ビット量子チャネル(関連する振幅減衰)の両方でその性能をテストする。 さらに,異なる量子ノイズチャネル間を識別するタスクについても検討し,ニューラルネットワークに基づく分類器が,これらの分類問題を完全精度で解くことができることを示す。

Quantum noise is currently limiting efficient quantum information processing and computation. In this work, we consider the tasks of reconstructing and classifying quantum states corrupted by the action of an unknown noisy channel using classical feedforward neural networks. By framing reconstruction as a regression problem, we show how such an approach can be used to recover with fidelities exceeding 99% the noiseless density matrices of quantum states of up to three qubits undergoing noisy evolution, and we test its performance with both single-qubit (bit-flip, phase-flip, depolarising, and amplitude damping) and two-qubit quantum channels (correlated amplitude damping). Moreover, we also consider the task of distinguishing between different quantum noisy channels, and show how a neural network-based classifier is able to solve such a classification problem with perfect accuracy.
翻訳日:2023-09-22 15:50:16 公開日:2023-09-21
# 対数量子メモリを用いたWeak Schurサンプリング

Weak Schur sampling with logarithmic quantum memory ( http://arxiv.org/abs/2309.11947v1 )

ライセンス: Link先を確認
Enrique Cervero and Laura Man\v{c}inska(参考訳) 量子シュール変換は、$n$ qudits の系の計算基底を \textit{Schur basis} にマッピングする。これはユニタリ表現の最小不変部分空間と$n$$d$レベルの状態空間に作用する対称群にまたがる。 弱schurサンプリングタスクのための新しいアルゴリズムを提案する。 本アルゴリズムは、既約表現をインデックスするヤングラベルと対称群の多重性ラベルの両方を効率的に決定する。 量子シュア変換アルゴリズムや一般化位相推定アルゴリズムを通した既存手法と比較して,本アルゴリズムの弱いシュアサンプリングには2つの大きな利点がある。 第1に,当社のalgorihtmはストリーミングアプリケーションに適しており,第2に,メモリ使用量において指数関数的に効率的である。 精度を高めるために$n$ qubitsの弱いSchurサンプリングアルゴリズムの例は、$O(\log_2n)$ qubits of memoryと$O(n^3\log_2(\frac{n}{\epsilon})$ Gates from the Clifford+T set。 さらに、$n$ qudits上の弱いSchurサンプリングアルゴリズムは、$O\big(dn^{2d}\log_2^p\big(\frac{n^{2d}}{\epsilon}\big)\big)$ gates from a arbitrary fault-tolerant qudit universal set, for $p\approx 4$, and requires a memory of $O(\log_dn)$ qudits to implement。

The quantum Schur transform maps the computational basis of a system of $n$ qudits onto a \textit{Schur basis}, which spans the minimal invariant subspaces of the representations of the unitary and the symmetric groups acting on the state space of $n$ $d$-level systems. We introduce a new algorithm for the task of weak Schur sampling. Our algorithm efficiently determines both the Young label which indexes the irreducible representations and the multiplicity label of the symmetric group. There are two major advantages of our algorithm for weak Schur sampling when compared to existing approaches which proceed via quantum Schur transform algorithm or Generalized Phase Estimation algorithm. First, our algorihtm is suitable for streaming applications and second it is exponentially more efficient in its memory usage. We show that an instance of our weak Schur sampling algorithm on $n$ qubits to accuracy $\epsilon$ requires only $O(\log_2n)$ qubits of memory and $O(n^3\log_2(\frac{n}{\epsilon}))$ gates from the Clifford+T set. Further, we show that our weak Schur sampling algorithm on $n$ qudits decomposes into $O\big(dn^{2d}\log_2^p\big(\frac{n^{2d}}{\epsilon}\big)\big)$ gates from an arbitrary fault-tolerant qudit universal set, for $p\approx 4$, and requires a memory of $O(\log_dn)$ qudits to implement.
翻訳日:2023-09-22 15:49:59 公開日:2023-09-21
# ランダムウォークと量子ウォークに基づく新しい暗号解析モデル

A New cryptanalysis model based on random and quantum walks ( http://arxiv.org/abs/2309.11997v1 )

ライセンス: Link先を確認
Ahmed Drissi(参考訳) ランダム性は暗号システムやサイバーセキュリティアルゴリズムに対する攻撃の設計において重要な役割を果たしている。 ランダムウォークと量子ウォークは、ランダム現象をマスターする強力なツールである。 本稿では,暗号システムの確率論的攻撃モデルを提案する。 このモデルは、公開すべき秘密を含む空間である状態の空間を持つランダムまたは量子ウォークに基づいている。 この空間は、キー、プレーンテキスト、または暗号テキストのサブスペースである。

Randomness plays a key role in the design of attacks on cryptographic systems and cyber security algorithms in general. Random walks and quantum walks are powerful tools for mastering random phenomena. In this article, I propose a probabilistic attack model of a cryptographic system. This model is based on a random or quantum walk with the space of states being a space containing the secret to be revealed. This space can be a subspace of keys, plain texts or cipher texts.
翻訳日:2023-09-22 15:40:01 公開日:2023-09-21
# 機械学習による胸部X線画像上の肺炎の同定

Identification of pneumonia on chest x-ray images through machine learning ( http://arxiv.org/abs/2309.11995v1 )

ライセンス: Link先を確認
Eduardo Augusto Roeder(参考訳) 肺炎は世界の乳幼児死亡の最も大きな原因である。 早期に診断された場合、患者の予後を変更することが可能であり、画像検査を使用して診断確認を行うことができる。 できるだけ早く検査を行い、解釈することは良い治療に不可欠であり、この病理検査で最も一般的なのは胸部X線検査である。 本研究の目的は,胸部x線写真における肺炎の有無を識別するソフトウェアを開発することである。 このソフトウェアは、転送学習技術を用いた機械学習に基づく計算モデルとして開発された。 トレーニングプロセスでは、中国の病院で撮影された小児胸部x線画像を含むオンラインデータベースから画像が収集された。 訓練後、モデルは新しい画像に晒され、そのような病理を同定し、98%の感度と97.3%の特異性に到達した。 胸部x線画像で肺炎を識別するソフトウェアを開発することは可能であると結論付けることができる。

Pneumonia is the leading infectious cause of infant death in the world. When identified early, it is possible to alter the prognosis of the patient, one could use imaging exams to help in the diagnostic confirmation. Performing and interpreting the exams as soon as possible is vital for a good treatment, with the most common exam for this pathology being chest X-ray. The objective of this study was to develop a software that identify the presence or absence of pneumonia in chest radiographs. The software was developed as a computational model based on machine learning using transfer learning technique. For the training process, images were collected from a database available online with children's chest X-rays images taken at a hospital in China. After training, the model was then exposed to new images, achieving relevant results on identifying such pathology, reaching 98% sensitivity and 97.3% specificity for the sample used for testing. It can be concluded that it is possible to develop a software that identifies pneumonia in chest X-ray images.
翻訳日:2023-09-22 15:39:57 公開日:2023-09-21
# 未評価ソリューションによるSAEAの強化:費用対効果を考慮した関係モデルの一事例

Enhancing SAEAs with Unevaluated Solutions: A Case Study of Relation Model for Expensive Optimization ( http://arxiv.org/abs/2309.11994v1 )

ライセンス: Link先を確認
Hao Hao and Xiaoqun Zhang and Aimin Zhou(参考訳) サロゲート支援進化アルゴリズム(SAEA)は、高価な最適化問題の解決において重要な役割を果たす。 有能なモデル支援選択法の開発を通じて,SAEAの有効性向上に多大な努力が注がれている。 しかし、高品質なソリューションの生成は、選択の前提条件である。 SAEA内の各世代における限られた数の解を評価する基本的なパラダイムは、隣接する集団の分散を減らし、子孫の解の質に影響を及ぼす。 これはしばしば遭遇する問題であるが、広く注目されることはなかった。 本稿では,SAEAの効率を高めるために,未評価解を用いた枠組みを提案する。 surrogateモデルは、評価なしで新しいソリューションを直接生成するための高品質なソリューションを特定するために使用される。 そこで我々は, 最適解と未評価個体群の選択のための2つの調整付き関係モデルを導入した。 2つのテストスイートで総合的な実験分析を行い、選択フェーズにおける回帰モデルと分類モデルよりも関係モデルの優位性を示す。 さらに,高ポテンシャルのサロゲート選択不定値解はアルゴリズムの効率を著しく向上させることが示されている。

Surrogate-assisted evolutionary algorithms (SAEAs) hold significant importance in resolving expensive optimization problems~(EOPs). Extensive efforts have been devoted to improving the efficacy of SAEAs through the development of proficient model-assisted selection methods. However, generating high-quality solutions is a prerequisite for selection. The fundamental paradigm of evaluating a limited number of solutions in each generation within SAEAs reduces the variance of adjacent populations, thus impacting the quality of offspring solutions. This is a frequently encountered issue, yet it has not gained widespread attention. This paper presents a framework using unevaluated solutions to enhance the efficiency of SAEAs. The surrogate model is employed to identify high-quality solutions for direct generation of new solutions without evaluation. To ensure dependable selection, we have introduced two tailored relation models for the selection of the optimal solution and the unevaluated population. A comprehensive experimental analysis is performed on two test suites, which showcases the superiority of the relation model over regression and classification models in the selection phase. Furthermore, the surrogate-selected unevaluated solutions with high potential have been shown to significantly enhance the efficiency of the algorithm.
翻訳日:2023-09-22 15:39:42 公開日:2023-09-21
# 神経確率的スクリーニングポアソン再構成

Neural Stochastic Screened Poisson Reconstruction ( http://arxiv.org/abs/2309.11993v1 )

ライセンス: Link先を確認
Silvia Sell\'an and Alec Jacobson(参考訳) 点雲から表面を再構築することは、未定の問題である。 我々は、Poissonのスムーズさの下で、ニューラルネットワークを用いて、この再構成の不確実性を研究し、定量化する。 提案アルゴリズムは既存の作業の限界に対処し,初期再構築から次の最適なセンサ位置決定までの3Dスキャンパイプラインに完全に統合し,より多くのデータを取得することで再構築を更新する。

Reconstructing a surface from a point cloud is an underdetermined problem. We use a neural network to study and quantify this reconstruction uncertainty under a Poisson smoothness prior. Our algorithm addresses the main limitations of existing work and can be fully integrated into the 3D scanning pipeline, from obtaining an initial reconstruction to deciding on the next best sensor position and updating the reconstruction upon capturing more data.
翻訳日:2023-09-22 15:39:27 公開日:2023-09-21
# 視覚に基づくナビゲーションのためのクロップロースイッチング:効率的なクロップフィールドナビゲーションのための総合的アプローチ

Crop Row Switching for Vision-Based Navigation: A Comprehensive Approach for Efficient Crop Field Navigation ( http://arxiv.org/abs/2309.11989v1 )

ライセンス: Link先を確認
Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao(参考訳) 視覚ベースの移動ロボットナビゲーションシステムは、ほとんどが列内ナビゲーションに制限されている。 そのようなシステムで作物の列から次の列に切り替えるプロセスは、しばしばngssセンサーや複数のカメラの設定によって支援される。 本稿では,1台のフロントマウントカメラを用いて,移動ロボットが耕作可能な作物の畑全体をナビゲートできる,視覚に基づく作物の行切り換えアルゴリズムを提案する。 提案手法では,深層学習に基づくRGB画像セグメンテーションと深度データを用いて作物列の終端を検出し,多状態行切替パイプラインで使用される次の作物列への再突入点を求める。 このパイプラインの各状態は、ロボットの視覚フィードバックまたはホイールオドメトリを使用して、次の作物列に向かってうまく移動します。 提案した作物列ナビゲーションパイプラインは,不連続な作物列,様々な光度,影,不規則な頭部表面を含む実のサトウキビ畑で試験された。 ロボットは1つの作物列から脱出し、提案されたパイプラインを使用して次の作物列に再突入し、提案された操作の線形および回転ステップに対して平均19.25cmおよび6.77{\deg}で絶対的な中央値誤差を発生させることができた。

Vision-based mobile robot navigation systems in arable fields are mostly limited to in-row navigation. The process of switching from one crop row to the next in such systems is often aided by GNSS sensors or multiple camera setups. This paper presents a novel vision-based crop row-switching algorithm that enables a mobile robot to navigate an entire field of arable crops using a single front-mounted camera. The proposed row-switching manoeuvre uses deep learning-based RGB image segmentation and depth data to detect the end of the crop row, and re-entry point to the next crop row which would be used in a multi-state row switching pipeline. Each state of this pipeline use visual feedback or wheel odometry of the robot to successfully navigate towards the next crop row. The proposed crop row navigation pipeline was tested in a real sugar beet field containing crop rows with discontinuities, varying light levels, shadows and irregular headland surfaces. The robot could successfully exit from one crop row and re-enter the next crop row using the proposed pipeline with absolute median errors averaging at 19.25 cm and 6.77{\deg} for linear and rotational steps of the proposed manoeuvre.
翻訳日:2023-09-22 15:39:20 公開日:2023-09-21
# ホック後XAI手法の予測可能性と理解性:ユーザ中心分析

Predictability and Comprehensibility in Post-Hoc XAI Methods: A User-Centered Analysis ( http://arxiv.org/abs/2309.11987v1 )

ライセンス: Link先を確認
Anahid Jalali, Bernhard Haslhofer, Simone Kriglstein, Andreas Rauber(参考訳) ポストホックな説明可能性法は、ブラックボックス機械学習モデルの予測を明確にすることを目的としている。 しかし,提案した説明がどの程度理解されているか,モデル行動を予測する能力が向上するかは,まだ明らかになっていない。 我々は,LIME と SHAP の2つの広く利用されているツールにおいて,理解性と予測可能性を評価するためにユーザスタディを実施し,この問題にアプローチする。 さらに, モデル行動の理解・予測能力に及ぼす非現実的説明・誤分類の影響について検討した。 モデル決定境界付近のサンプルに対して説明を行うと,SHAPの理解度が大幅に低下することがわかった。 さらに,反事実的説明や誤分類は,機械学習モデルが意思決定を行う方法に対するユーザの理解を著しく高める可能性があることを見出した。 また,本研究は,より理解度と予測可能性を高めた今後のホック後説明可能性手法の設計勧告も導出した。

Post-hoc explainability methods aim to clarify predictions of black-box machine learning models. However, it is still largely unclear how well users comprehend the provided explanations and whether these increase the users ability to predict the model behavior. We approach this question by conducting a user study to evaluate comprehensibility and predictability in two widely used tools: LIME and SHAP. Moreover, we investigate the effect of counterfactual explanations and misclassifications on users ability to understand and predict the model behavior. We find that the comprehensibility of SHAP is significantly reduced when explanations are provided for samples near a model's decision boundary. Furthermore, we find that counterfactual explanations and misclassifications can significantly increase the users understanding of how a machine learning model is making decisions. Based on our findings, we also derive design recommendations for future post-hoc explainability methods with increased comprehensibility and predictability.
翻訳日:2023-09-22 15:38:54 公開日:2023-09-21
# zs6d:視覚トランスフォーマーを用いたゼロショット6d物体ポーズ推定

ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers ( http://arxiv.org/abs/2309.11986v1 )

ライセンス: Link先を確認
Philipp Ausserlechner, David Haberger, Stefan Thalhammer, Jean-Baptiste Weibel and Markus Vincze(参考訳) ロボットシステムはますます複雑で制約のない現実世界のシナリオに直面しているため、多様な物体を認識する必要がある。 最先端の6dオブジェクトポーズ推定手法は、オブジェクト固有のトレーニングに依存しているため、見えないオブジェクトに一般化しない。 近年のオブジェクトポーズ推定手法では, タスク固有の微調整CNNを用いて, 深いテンプレートマッチングを行う。 このポーズ推定への適応には、高価なデータレンダリングとトレーニング手順が必要である。 例えばMegaPoseは、そのような一般化機能に到達するために、20,000の異なるオブジェクトを示す200万の画像からなるデータセットでトレーニングされている。 この欠点を克服するため、ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。 事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、描画テンプレートとオブジェクトのクエリ画像とをマッチングし、局所的な対応を確立するために使用される。 これらの局所対応は幾何学的対応を導出し、ランサックベースのpnpを用いて物体の6次元ポーズを推定するのに用いられる。 提案手法では,事前学習したViTで抽出した画像記述子は,タスク固有の微調整を必要とせず,最先端の2つのオブジェクト6Dポーズ推定法に対して顕著な改善が可能であることを示す。 LMO、YCBV、TLESSで実験を行う。 2つの方法のうちの1つと比較して、3つのデータセット全体の平均リコールを改善し、2つのデータセットで改善する2番目の方法と比較します。

As robotic systems increasingly encounter complex and unconstrained real-world scenarios, there is a demand to recognize diverse objects. The state-of-the-art 6D object pose estimation methods rely on object-specific training and therefore do not generalize to unseen objects. Recent novel object pose estimation methods are solving this issue using task-specific fine-tuned CNNs for deep template matching. This adaptation for pose estimation still requires expensive data rendering and training procedures. MegaPose for example is trained on a dataset consisting of two million images showing 20,000 different objects to reach such generalization capabilities. To overcome this shortcoming we introduce ZS6D, for zero-shot novel object 6D pose estimation. Visual descriptors, extracted using pre-trained Vision Transformers (ViT), are used for matching rendered templates against query images of objects and for establishing local correspondences. These local correspondences enable deriving geometric correspondences and are used for estimating the object's 6D pose with RANSAC-based PnP. This approach showcases that the image descriptors extracted by pre-trained ViTs are well-suited to achieve a notable improvement over two state-of-the-art novel object 6D pose estimation methods, without the need for task-specific fine-tuning. Experiments are performed on LMO, YCBV, and TLESS. In comparison to one of the two methods we improve the Average Recall on all three datasets and compared to the second method we improve on two datasets.
翻訳日:2023-09-22 15:38:39 公開日:2023-09-21
# 強化学習エージェントのためのインセンティブとしての表現抽象化:ロボットグラスピングケーススタディ

Representation Abstractions as Incentives for Reinforcement Learning Agents: A Robotic Grasping Case Study ( http://arxiv.org/abs/2309.11984v1 )

ライセンス: Link先を確認
Panagiotis Petropoulakis, Ludwig Gr\"af, Josip Josifovski, Mohammadhossein Malmir, and Alois Knoll(参考訳) 基礎となる \gls{rl} エージェントの意思決定プロセスのための環境の適切な表現を選択することは、必ずしも単純ではない。 状態表現は、エージェントがその行為を情報的に決定し、政策訓練のサンプル効率を高めるのに十分なコンパクト化を可能にするのに十分な包括性を持つべきである。 本研究は,ロボットの特定の課題を解決するためのインセンティブとして,様々な状態表現が与える影響について検討する。 状態表現抽象化の連続体は、完全なシステム知識を持つモデルベースアプローチから、手作りの数値を通して、誘導されたタスク固有の知識のレベルを減少させるイメージベース表現へと導かれる。 シミュレーションにおける課題を解決するエージェントの能力における各表現の効果と,学習方針の実際のロボットへの伝達性について検討した。 その結果, 数値状態を用いたRLエージェントは, 非学習ベースラインと同程度に動作可能であることがわかった。 さらに,事前学習した環境埋め込みベクターからのイメージベース表現を用いたエージェントは,エンドツーエンドの訓練エージェントよりも優れており,ロボット制御における収束と高い成功率を達成するためには,タスク固有の知識が必要であると仮定する。 追加資料はプロジェクトのWebページ(https://github.com/PetropoulakisPanagiotis/igae)で見ることができる。

Choosing an appropriate representation of the environment for the underlying decision-making process of the \gls{RL} agent is not always straightforward. The state representation should be inclusive enough to allow the agent to informatively decide on its actions and compact enough to increase sample efficiency for policy training. Given this outlook, this work examines the effect of various state representations in incentivizing the agent to solve a specific robotic task: antipodal and planar object grasping. A continuum of state representation abstractions is defined, starting from a model-based approach with complete system knowledge, through hand-crafted numerical, to image-based representations with decreasing level of induced task-specific knowledge. We examine the effects of each representation in the ability of the agent to solve the task in simulation and the transferability of the learned policy to the real robot. The results show that RL agents using numerical states can perform on par with non-learning baselines. Furthermore, we find that agents using image-based representations from pre-trained environment embedding vectors perform better than end-to-end trained agents, and hypothesize that task-specific knowledge is necessary for achieving convergence and high success rates in robot control. Supplementary material can be found at the project webpage: https://github.com/PetropoulakisPanagiotis/igae.
翻訳日:2023-09-22 15:38:16 公開日:2023-09-21
# 順序保存シーケンスモデリングのための変分コネクショナリスト時間分類

Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling ( http://arxiv.org/abs/2309.11983v1 )

ライセンス: Link先を確認
Zheng Nan, Ting Dang, Vidhyasaharan Sethu, Beena Ahmed(参考訳) コネクショニスト時間分類(ctc)は、入力と対象のシーケンス間の順序を保存する必要がある音声認識のようなシーケンスモデリングタスクに一般的に採用されている。 しかし、ctcは、潜在空間が不連続でスパースである決定論的シーケンスモデルにのみ適用されるため、変分モデルと比較してデータの可変性を扱えない。 本稿では,CTCを変分モデルと統合し,秩序を保ったより一般化可能なシーケンスモデルのトレーニングに使用できる損失関数を導出する。 具体的には、2つの合理的な仮定に基づいて、新しい変分ctcの2つのバージョンを導出する。1つは各時間ステップにおける変分潜時変数が条件付き独立であること、もう1つはこれらの潜時変数がマルコフ型であることである。 両損失関数は、モデル対数様の変分下界の直接最適化を可能にし、それらを実装するための計算処理可能な形式を示す。

Connectionist temporal classification (CTC) is commonly adopted for sequence modeling tasks like speech recognition, where it is necessary to preserve order between the input and target sequences. However, CTC is only applied to deterministic sequence models, where the latent space is discontinuous and sparse, which in turn makes them less capable of handling data variability when compared to variational models. In this paper, we integrate CTC with a variational model and derive loss functions that can be used to train more generalizable sequence models that preserve order. Specifically, we derive two versions of the novel variational CTC based on two reasonable assumptions, the first being that the variational latent variables at each time step are conditionally independent; and the second being that these latent variables are Markovian. We show that both loss functions allow direct optimization of the variational lower bound for the model log-likelihood, and present computationally tractable forms for implementing them.
翻訳日:2023-09-22 15:37:51 公開日:2023-09-21
# AIシステムにおける自然言語理解のための評価フレームワークの再考:未来のメトリクスのコアとしての言語獲得

Rethinking the Evaluating Framework for Natural Language Understanding in AI Systems: Language Acquisition as a Core for Future Metrics ( http://arxiv.org/abs/2309.11981v1 )

ライセンス: Link先を確認
Patricio Vera, Pedro Moya and Lisa Barraza(参考訳) 人工知能(AI)の急成長分野において、自然言語処理(NLP)における大型言語モデル(LLM)の先例のない進歩は、フォームとコンテンツの両方において、従来の機械学習のメトリクスのアプローチ全体を再考する機会を提供する。 機械認知評価の領域はすでにImitationに達しており、次のステップは効率的な言語習得と理解である。 本稿では,LLMの最近の進歩から着想を得て,既存のチューリングテストから言語習得を基盤とした全包含フレームワークへのパラダイムシフトを提案する。 現在の貢献は、様々な分野の優れた成果の深い支流であり、学際的な橋を開いている必要性を指摘し、より堅牢で持続可能なアプローチを定めている。

In the burgeoning field of artificial intelligence (AI), the unprecedented progress of large language models (LLMs) in natural language processing (NLP) offers an opportunity to revisit the entire approach of traditional metrics of machine intelligence, both in form and content. As the realm of machine cognitive evaluation has already reached Imitation, the next step is an efficient Language Acquisition and Understanding. Our paper proposes a paradigm shift from the established Turing Test towards an all-embracing framework that hinges on language acquisition, taking inspiration from the recent advancements in LLMs. The present contribution is deeply tributary of the excellent work from various disciplines, point out the need to keep interdisciplinary bridges open, and delineates a more robust and sustainable approach.
翻訳日:2023-09-22 15:37:33 公開日:2023-09-21
# 隠れた環境における自己教師付きスケルトンに基づく行動認識

Unveiling the Hidden Realm: Self-supervised Skeleton-based Action Recognition in Occluded Environments ( http://arxiv.org/abs/2309.12029v1 )

ライセンス: Link先を確認
Yifei Chen, Kunyu Peng, Alina Roitberg, David Schneider, Jiaming Zhang, Junwei Zheng, Ruiping Liu, Yufan Chen, Kailun Yang, Rainer Stiefelhagen(参考訳) 自律型ロボットシステムへの行動認識手法を統合するためには, 目標咬合を伴う状況を考慮することが重要である。 このようなシナリオは、実際的な関連性にもかかわらず、既存の自己監督型骨格に基づく行動認識法で対処されることはほとんどない。 ロボットに閉塞に対処する能力を与えるため,単純で効果的な手法を提案する。 まず,オクルードスケルトン配列を用いた事前学習を行い,次にk-meansクラスタリング(kmeans)を用いてシーケンス埋め込みを行い,意味的に類似したサンプルをグループ化する。 次に、K-nearest-neighbor(KNN)を用いて、最も近いサンプル隣人に基づいて、行方不明の骨格データを埋める。 不完全なスケルトン配列を入力として比較的完全なシーケンスを生成することは、既存のスケルトンベースの自己教師型モデルに大きな利益をもたらす。 一方,PSTL(Partial Spatio-Temporal Learning)を基盤として,Occluded Partial Spatio-Temporal Learning(OPSTL)フレームワークを導入する。 この強化は適応空間マスキング(ASM)を利用して高品質で無傷な骨格をよりよく活用する。 提案手法の有効性を,NTURGB+D 60およびNTURGB+D 120の難読化バージョンで検証した。 ソースコードはhttps://github.com/cyfml/OPSTLで公開されている。

To integrate action recognition methods into autonomous robotic systems, it is crucial to consider adverse situations involving target occlusions. Such a scenario, despite its practical relevance, is rarely addressed in existing self-supervised skeleton-based action recognition methods. To empower robots with the capacity to address occlusion, we propose a simple and effective method. We first pre-train using occluded skeleton sequences, then use k-means clustering (KMeans) on sequence embeddings to group semantically similar samples. Next, we employ K-nearest-neighbor (KNN) to fill in missing skeleton data based on the closest sample neighbors. Imputing incomplete skeleton sequences to create relatively complete sequences as input provides significant benefits to existing skeleton-based self-supervised models. Meanwhile, building on the state-of-the-art Partial Spatio-Temporal Learning (PSTL), we introduce an Occluded Partial Spatio-Temporal Learning (OPSTL) framework. This enhancement utilizes Adaptive Spatial Masking (ASM) for better use of high-quality, intact skeletons. The effectiveness of our imputation methods is verified on the challenging occluded versions of the NTURGB+D 60 and NTURGB+D 120. The source code will be made publicly available at https://github.com/cyfml/OPSTL.
翻訳日:2023-09-22 15:31:35 公開日:2023-09-21
# 交通流予測のための動的ハイパーグラフ構造学習

Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting ( http://arxiv.org/abs/2309.12028v1 )

ライセンス: Link先を確認
Yusheng Zhao, Xiao Luo, Wei Ju, Chong Chen, Xian-Sheng Hua, Ming Zhang(参考訳) 本稿では,過去における道路網と交通条件に基づいて,将来の交通状況を予測する交通流予測の課題について考察する。 この問題は、時空間グラフニューラルネットワーク(GNN)を用いて、交通データの複雑な時空間相関をモデル化することによって解決される。 しかし、gnnは複雑なトラフィックネットワークでは表現能力に制限があるため、これらの手法の性能はまだ満足できない。 グラフは本質的に、非ペア関係を捉えるのに不足している。 さらに悪いことに、既存の手法は、近隣情報を線形に集約するメッセージパッシングのパラダイムに従うため、複雑な時空間高次相互作用をキャプチャできない。 本稿では,交通流予測のための動的ハイパーグラフ構造学習(DyHSL)という新しいモデルを提案する。 非ペアリレーションを学ぶために、我々のdyhslはハイパーグラフ構造情報を抽出し、トラフィックネットワークのダイナミクスをモデル化し、関連するハイパーエッジからメッセージを集約することで各ノードの表現を更新する。 さらに,道路ネットワークにおける高次時空間関係を捉えるために,各ノード間の相互作用をモデル化する対話型グラフ畳み込みブロックを導入する。 最後に、これら2つの視点を、異なるスケールで時間的プーリングを実行し、異なる時間的パターンをモデル化する全体的多スケール相関抽出モジュールに統合する。 4つの一般的なトラヒックベンチマークデータセットに関する広範囲な実験は、提案するdyhslの有効性を、幅広い競合ベースラインと比較している。

This paper studies the problem of traffic flow forecasting, which aims to predict future traffic conditions on the basis of road networks and traffic conditions in the past. The problem is typically solved by modeling complex spatio-temporal correlations in traffic data using spatio-temporal graph neural networks (GNNs). However, the performance of these methods is still far from satisfactory since GNNs usually have limited representation capacity when it comes to complex traffic networks. Graphs, by nature, fall short in capturing non-pairwise relations. Even worse, existing methods follow the paradigm of message passing that aggregates neighborhood information linearly, which fails to capture complicated spatio-temporal high-order interactions. To tackle these issues, in this paper, we propose a novel model named Dynamic Hypergraph Structure Learning (DyHSL) for traffic flow prediction. To learn non-pairwise relationships, our DyHSL extracts hypergraph structural information to model dynamics in the traffic networks, and updates each node representation by aggregating messages from its associated hyperedges. Additionally, to capture high-order spatio-temporal relations in the road network, we introduce an interactive graph convolution block, which further models the neighborhood interaction for each node. Finally, we integrate these two views into a holistic multi-scale correlation extraction module, which conducts temporal pooling with different scales to model different temporal patterns. Extensive experiments on four popular traffic benchmark datasets demonstrate the effectiveness of our proposed DyHSL compared with a broad range of competing baselines.
翻訳日:2023-09-22 15:31:11 公開日:2023-09-21
# 建物の抽出精度:LiDARデータを用いた浅部モデルと深部モデルの比較

Precision in Building Extraction: Comparing Shallow and Deep Models using LiDAR Data ( http://arxiv.org/abs/2309.12027v1 )

ライセンス: Link先を確認
Muhammad Sulaiman, Mina Farmanbar, Ahmed Nabil Belbachir, Chunming Rong(参考訳) 建物のセグメンテーションは、インフラ開発、人口管理、地質観測に不可欠である。 本稿では, 教師付きセグメンテーションのためのLiDARデータの存在を評価するために, 解釈可能な性質による浅層モデルを対象としている。 本記事で使用するベンチマークデータは,nora mapai competition for deep learning modelで公開されている。 浅層モデルは、IoU(Intersection over Union)とBIoU(Bundary Intersection over Union)に基づくディープラーニングモデルと比較される。 提案手法では, 初期マスクのバウンダリマスクが生成され, 構造物のバウンダリラインに関連するバイオuスコアが向上する。 LiDARデータの影響は、タスク1における空中画像のみとタスク2における空中画像とLiDARデータの組合せを訓練し、比較することによって検証される。 浅いモデルは、空中画像(タスク1)とLiDARデータ(タスク2)の組み合わせで、IoUのディープラーニングモデルよりも8%優れています。 対照的に、ディープラーニングモデルはBIoUスコアよりも優れたパフォーマンスを示している。 境界マスクは両方のタスクでBIoUスコアを4%改善する。 Light Gradient-Boosting Machine (LightGBM) は、RFやExtreme Gradient Boosting (XGBoost) より優れている。

Building segmentation is essential in infrastructure development, population management, and geological observations. This article targets shallow models due to their interpretable nature to assess the presence of LiDAR data for supervised segmentation. The benchmark data used in this article are published in NORA MapAI competition for deep learning model. Shallow models are compared with deep learning models based on Intersection over Union (IoU) and Boundary Intersection over Union (BIoU). In the proposed work, boundary masks from the original mask are generated to improve the BIoU score, which relates to building shapes' borderline. The influence of LiDAR data is tested by training the model with only aerial images in task 1 and a combination of aerial and LiDAR data in task 2 and then compared. shallow models outperform deep learning models in IoU by 8% using aerial images (task 1) only and 2% in combined aerial images and LiDAR data (task 2). In contrast, deep learning models show better performance on BIoU scores. Boundary masks improve BIoU scores by 4% in both tasks. Light Gradient-Boosting Machine (LightGBM) performs better than RF and Extreme Gradient Boosting (XGBoost).
翻訳日:2023-09-22 15:30:46 公開日:2023-09-21
# ナップサック制約下における非単調$k$-submodular maximizationに対するロバスト近似アルゴリズム

Robust Approximation Algorithms for Non-monotone $k$-Submodular Maximization under a Knapsack Constraint ( http://arxiv.org/abs/2309.12025v1 )

ライセンス: Link先を確認
Dung T.K. Ha, Canh V. Pham, Tan D. Tran, and Huan X. Hoang(参考訳) knapsack制約の下での非単調な$k$-submodular maximization($\kSMK$)の問題は、データ要約や情報伝搬など、機械学習の多くのアプリケーションで提起されている。 しかし、この問題に対する既存のアルゴリズムは、非モノトーンケースの克服方法と、データのサイズが大きければ迅速に解決策を返却する方法に疑問を呈している。 本稿では,既存のアルゴリズムの問合せ複雑性を競争的に改善する2つの決定論的近似アルゴリズムを提案する。 最初のアルゴリズムである$\laa$は、$o(nk)$のクエリ複雑性内で1/19$の近似率を返す。 2番目の$\rla$は近似比を$o(nk)$クエリで$/5-\epsilon$に改善し、$\epsilon$は入力パラメータである。 我々のアルゴリズムは、非単調目的に対して$o(nk)$のクエリ複雑性で一定の近似比を提供する最初のアルゴリズムである。 したがって、それらは最先端のクエリよりも$\Omega(\log n)$の要素でクエリの数を減らす必要がある。 理論的解析の他に、いくつかの事例においていくつかの実験を行い、問題に対する最大化とセンサ配置の影響を評価した。 その結果,本アルゴリズムは最先端技術として理論的品質を確保し,クエリ数を大幅に削減できることを確認した。

The problem of non-monotone $k$-submodular maximization under a knapsack constraint ($\kSMK$) over the ground set size $n$ has been raised in many applications in machine learning, such as data summarization, information propagation, etc. However, existing algorithms for the problem are facing questioning of how to overcome the non-monotone case and how to fast return a good solution in case of the big size of data. This paper introduces two deterministic approximation algorithms for the problem that competitively improve the query complexity of existing algorithms. Our first algorithm, $\LAA$, returns an approximation ratio of $1/19$ within $O(nk)$ query complexity. The second one, $\RLA$, improves the approximation ratio to $1/5-\epsilon$ in $O(nk)$ queries, where $\epsilon$ is an input parameter. Our algorithms are the first ones that provide constant approximation ratios within only $O(nk)$ query complexity for the non-monotone objective. They, therefore, need fewer the number of queries than state-of-the-the-art ones by a factor of $\Omega(\log n)$. Besides the theoretical analysis, we have evaluated our proposed ones with several experiments in some instances: Influence Maximization and Sensor Placement for the problem. The results confirm that our algorithms ensure theoretical quality as the cutting-edge techniques and significantly reduce the number of queries.
翻訳日:2023-09-22 15:30:26 公開日:2023-09-21
# マルチレーベルジャンル識別のための映画ポスターの非神秘的視覚特徴

Demystifying Visual Features of Movie Posters for Multi-Label Genre Identification ( http://arxiv.org/abs/2309.12022v1 )

ライセンス: Link先を確認
Utsav Kumar Nareti, Chandranath Adak, Soumi Chattopadhyay(参考訳) 映画業界では、映画ポスターは広告とマーケティングにおいて何十年にもわたって不可欠な存在であり、オンライン、ソーシャルメディア、OTTプラットフォームを通じてデジタルポスターの形で今日でも重要な役割を担っている。 通常、映画ポスターは、そのジャンル、視覚的スタイル/トーン、バイブ、ストーリーライン・キュー/テーマなどの映画の本質を効果的に宣伝し、伝達することができる。 映画のジャンルを特定することは、しばしば観客をターゲットとして映画を推薦する際に重要な実用的応用をもたらす。 映画ジャンルの識別に関するこれまでの研究は、字幕、筋書き、映画シーンに限られており、映画公開後にはほとんどアクセスできない。 ポスターは通常、公開前の暗黙の情報を含み、大衆の興味を惹きつける。 本稿では,映画ポスター画像のみのマルチラベルジャンルの自動識別に取り組み,本手法の初期の試みの一つである映画に関するテキスト情報やメタデータの付加は必要としない。 本稿では,ポスターから映画ジャンルを識別するための確率モジュールを備えたディープトランスフォーマネットワークを提案する。 実験的な分析のために、インターネット・ムービー・データベース(imdb)から13ジャンルのポスターを13882枚調達した。

In the film industry, movie posters have been an essential part of advertising and marketing for many decades, and continue to play a vital role even today in the form of digital posters through online, social media and OTT platforms. Typically, movie posters can effectively promote and communicate the essence of a film, such as its genre, visual style/ tone, vibe and storyline cue/ theme, which are essential to attract potential viewers. Identifying the genres of a movie often has significant practical applications in recommending the film to target audiences. Previous studies on movie genre identification are limited to subtitles, plot synopses, and movie scenes that are mostly accessible after the movie release. Posters usually contain pre-release implicit information to generate mass interest. In this paper, we work for automated multi-label genre identification only from movie poster images, without any aid of additional textual/meta-data information about movies, which is one of the earliest attempts of its kind. Here, we present a deep transformer network with a probabilistic module to identify the movie genres exclusively from the poster. For experimental analysis, we procured 13882 number of posters of 13 genres from the Internet Movie Database (IMDb), where our model performances were encouraging and even outperformed some major contemporary architectures.
翻訳日:2023-09-22 15:29:59 公開日:2023-09-21
# 二重ゲートグラフェンデバイスにおける電荷中立近傍の電気ノイズの起源

Origin of electrical noise near charge neutrality in dual gated graphene device ( http://arxiv.org/abs/2309.12011v1 )

ライセンス: Link先を確認
Aaryan Mehra, Roshan Jesus Mathew, and Chandan Kumar(参考訳) 本文は,hBN封入グラフェンデバイスにおける低周波1/fノイズを二重ゲート形状で調査する。 ノイズスタディは、異なるバックゲート密度(nBG)におけるトップゲートキャリア密度(nTG)の関数として実行される。 低いnBGのノイズは、トップゲートキャリア密度とは独立である。 nBGの増加に伴い、ノイズ値が増加し、装置の電荷不均一付近でノイズピークが観測される。 さらにnBGの増加は、ノイズの規模を減少させる。 ノイズの形状はデバイスの電荷不均一性領域と密接に関連していることがわかった。 さらに,帯電中性付近の騒音・導電性データは,帯電数と移動度変動の組み合わせから発生する騒音の明確な証拠を示す。

This letter investigates low frequency 1/ f noise in hBN encapsulated graphene device in a dual gated geometry. The noise study is performed as a function of top gate carrier density (nT G) at different back gate densities (nBG). The noise at low nBG is found to be independent of top gate carrier density. With increasing nBG, noise value increases and a noise peak is observed near charge inhomogeneity of the device. Further increase in nBG leads to decrease in noise magnitude. The shape of the noise is found to be closely related to charge inhomogeneity region of the device. Moreover, the noise and conductivity data near charge neutrality shows clear evidence of noise emanating from combination of charge number and mobility fluctuation
翻訳日:2023-09-22 15:29:36 公開日:2023-09-21
# 合成開口レーダ画像変化検出のための畳み込み・アテンションミキサー

Convolution and Attention Mixer for Synthetic Aperture Radar Image Change Detection ( http://arxiv.org/abs/2309.12010v1 )

ライセンス: Link先を確認
Haopeng Zhang, Zijing Lin, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li(参考訳) 合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。 しかし、既存のSAR変化検出方法は、主に畳み込みニューラルネットワーク(CNN)に基づいており、グローバルアテンション機構を限定的に考慮している。 本稿では,SAR変化検出のためのTransformerライクなアーキテクチャを,グローバルな注目を集めるために検討する。 この目的のために,コンボリューション・アンド・アテンション・ミキサー (CAMixer) を提案する。 まず, 変圧器のインダクティブバイアスを補償するために, 自己拘束とシフト畳み込みを並列に組み合わせる。 並列設計は、自己アテンションを介してグローバルセマンティクス情報を効果的に捕捉し、シフト畳み込みによる局所特徴抽出を同時に行う。 第2に, フィードフォワードネットワークにおけるゲーティング機構を採用し, 非線形特徴変換の促進を図る。 ゲーティング機構は、2つの平行線型層の素子ワイド乗算として定式化される。 重要な特徴が強調され、スペックルノイズに対する高品質な表現につながる。 3つのsarデータセットで広範な実験を行い、提案するcamixerの性能を検証した。 ソースコードはhttps://github.com/summitgao/CAMixerで公開されている。

Synthetic aperture radar (SAR) image change detection is a critical task and has received increasing attentions in the remote sensing community. However, existing SAR change detection methods are mainly based on convolutional neural networks (CNNs), with limited consideration of global attention mechanism. In this letter, we explore Transformer-like architecture for SAR change detection to incorporate global attention. To this end, we propose a convolution and attention mixer (CAMixer). First, to compensate the inductive bias for Transformer, we combine self-attention with shift convolution in a parallel way. The parallel design effectively captures the global semantic information via the self-attention and performs local feature extraction through shift convolution simultaneously. Second, we adopt a gating mechanism in the feed-forward network to enhance the non-linear feature transformation. The gating mechanism is formulated as the element-wise multiplication of two parallel linear layers. Important features can be highlighted, leading to high-quality representations against speckle noise. Extensive experiments conducted on three SAR datasets verify the superior performance of the proposed CAMixer. The source codes will be publicly available at https://github.com/summitgao/CAMixer .
翻訳日:2023-09-22 15:29:25 公開日:2023-09-21
# 効率的なマルチモダリティ自己スーパービジョンによるスケルトンベース行動認識

Elevating Skeleton-Based Action Recognition with Efficient Multi-Modality Self-Supervision ( http://arxiv.org/abs/2309.12009v1 )

ライセンス: Link先を確認
Yiping Wei, Kunyu Peng, Alina Roitberg, Jiaming Zhang, Junwei Zheng, Ruiping Liu, Yufan Chen, Kailun Yang, Rainer Stiefelhagen(参考訳) 近年,人間の行動認識のための自己指導型表現学習が急速に発展している。 既存の作業の多くは、マルチモダリティ設定を使用してスケルトンデータに基づいている。 これらの研究は、モダリティ間のパフォーマンスの違いを見落とし、モダリティ間の誤った知識の伝播につながったが、3つの基本的なモダリティ(関節、骨、運動)しか使われておらず、追加のモダリティは検討されていない。 本研究では,まず,低性能なモダリティ間の誤った知識の伝播を緩和するImplicit Knowledge Exchange Module (IKEM)を提案する。 さらに,相補的情報を充実させるための3つの新しいモダリティを提案する。 最後に, 新たなモダリティ導入時の効率を維持するために, 二次モダリティからの知識を, アンカー, 正, 負の関係を考慮し, 強制モダリティに抽出する新たな教師学習フレームワークを提案する。 提案手法の有効性を実証し,スケルトンに基づくマルチモダリティデータの有効利用を実証した。 ソースコードはhttps://github.com/desehuileng0o0/IKEMで公開されている。

Self-supervised representation learning for human action recognition has developed rapidly in recent years. Most of the existing works are based on skeleton data while using a multi-modality setup. These works overlooked the differences in performance among modalities, which led to the propagation of erroneous knowledge between modalities while only three fundamental modalities, i.e., joints, bones, and motions are used, hence no additional modalities are explored. In this work, we first propose an Implicit Knowledge Exchange Module (IKEM) which alleviates the propagation of erroneous knowledge between low-performance modalities. Then, we further propose three new modalities to enrich the complementary information between modalities. Finally, to maintain efficiency when introducing new modalities, we propose a novel teacher-student framework to distill the knowledge from the secondary modalities into the mandatory modalities considering the relationship constrained by anchors, positives, and negatives, named relational cross-modality knowledge distillation. The experimental results demonstrate the effectiveness of our approach, unlocking the efficient use of skeleton-based multi-modality data. Source code will be made publicly available at https://github.com/desehuileng0o0/IKEM.
翻訳日:2023-09-22 15:29:07 公開日:2023-09-21
# エネルギー消費に基づくcubesatタスクスケジューリングのための安全階層強化学習

Safe Hierarchical Reinforcement Learning for CubeSat Task Scheduling Based on Energy Consumption ( http://arxiv.org/abs/2309.12004v1 )

ライセンス: Link先を確認
Mahya Ramezani, M. Amin Alandihallaj, Jose Luis Sanchez-Lopez, and Andreas Hein(参考訳) 本稿では,低地球軌道(LEO)におけるCubeSatタスクスケジューリングの最適化に適した階層型強化学習手法を提案する。 課題優先順位付けのための類似性注意型エンコーダ(SABE)とエネルギー消費予測のためのMLP推定器を統合し,グローバルなタスク分散のための高レベルポリシーとリアルタイム適応のための低レベルポリシーを安全メカニズムとして組み込んだ。 このメカニズムを統合することで、CubeSatタスクスケジューリングのための安全でフォールトトレラントなシステムを生成する。 シミュレーションの結果,複数のCubeSat構成におけるMADDPGモデルと従来のランダムスケジューリングの両方よりも優れた収束率とタスク成功率を示す。

This paper presents a Hierarchical Reinforcement Learning methodology tailored for optimizing CubeSat task scheduling in Low Earth Orbits (LEO). Incorporating a high-level policy for global task distribution and a low-level policy for real-time adaptations as a safety mechanism, our approach integrates the Similarity Attention-based Encoder (SABE) for task prioritization and an MLP estimator for energy consumption forecasting. Integrating this mechanism creates a safe and fault-tolerant system for CubeSat task scheduling. Simulation results validate the Hierarchical Reinforcement Learning superior convergence and task success rate, outperforming both the MADDPG model and traditional random scheduling across multiple CubeSat configurations.
翻訳日:2023-09-22 15:28:45 公開日:2023-09-21
# LMSYS-Chat-1M:大規模実世界のLLM会話データセット

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset ( http://arxiv.org/abs/2309.11998v1 )

ライセンス: Link先を確認
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang(参考訳) 大規模言語モデル(LLM)を現実のシナリオでどのように扱うかを研究することは、様々なアプリケーションで広く使われているため、ますます重要になっている。 本稿では,25の最先端llmと100万の会話を含む大規模データセットlmsys-chat-1mを紹介する。 このデータセットは、VicunaのデモとChatbot ArenaのWebサイトで、210KのユニークなIPアドレスから収集されています。 我々は、そのキュレーションプロセス、基礎統計、トピックの分布など、データセットの内容の概要を提供し、その多様性、独創性、スケールを強調します。 GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成である。 私たちは、このデータセットがLLMの機能を理解し、前進するための貴重なリソースになると信じています。 データセットは \url{https://huggingface.co/datasets/lmsys/lmsys-chat-1m} で公開されている。

Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at \url{https://huggingface.co/datasets/lmsys/lmsys-chat-1m}.
翻訳日:2023-09-22 15:28:31 公開日:2023-09-21
# AceGPT, アラビア語における大規模言語モデル

AceGPT, Localizing Large Language Models in Arabic ( http://arxiv.org/abs/2309.12053v1 )

ライセンス: Link先を確認
Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen, Abdulmohsen Alharthi, Bang An, Ziche Liu, Zhiyi Zhang, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li, Jinchao Xu(参考訳) 本稿では,ChatGPTのような現在の主流モデルでは適切に扱えない,独特の文化的特徴を持つ言語であるアラビア語に適した局所的大言語モデル(LLM)を開発するための命令的ニーズと方法論について考察する。 文化の敏感さと地域価値を考える際にも、重要な懸念が生じる。 そこで本論文では,アラビア文字による事前学習,ネイティブアラビア語命令を用いた微調整(SFT),アラビア語によるGPT-4応答,地域文化や価値観に敏感な報酬モデルを用いたAIフィードバックによる強化学習など,パッケージ化されたソリューションの概要を述べる。 その目的は、アラビア語話者コミュニティの多様なアプリケーション固有のニーズに応える、文化的に認識され価値に合ったアラビア語のllmを訓練することである。 広く評価された結果、'\textbf{AceGPT}' と呼ばれる LLM は、命令追従ベンチマーク(アラビア語 Vicuna-80 と アラビア語 AlpacaEval)、知識ベンチマーク(アラビア語 MMLU と EXAMs)、および新たに提案されたアラビア文化的 \&値アライメントベンチマークを含む様々なベンチマークにおける SOTA のオープンアラビア LLM であることが示された。 特にacegptは、gpt-4で評価された場合の一般的なvicuna-80ベンチマークでchatgptを上回っている。 % Natural Language Understanding (NLU)ベンチマーク(ALUE) コード、データ、モデルはhttps://github.com/Freedom Intelligence/AceGPTにある。

This paper explores the imperative need and methodology for developing a localized Large Language Model (LLM) tailored for Arabic, a language with unique cultural characteristics that are not adequately addressed by current mainstream models like ChatGPT. Key concerns additionally arise when considering cultural sensitivity and local values. To this end, the paper outlines a packaged solution, including further pre-training with Arabic texts, supervised fine-tuning (SFT) using native Arabic instructions and GPT-4 responses in Arabic, and reinforcement learning with AI feedback (RLAIF) using a reward model that is sensitive to local culture and values. The objective is to train culturally aware and value-aligned Arabic LLMs that can serve the diverse application-specific needs of Arabic-speaking communities. Extensive evaluations demonstrated that the resulting LLM called `\textbf{AceGPT}' is the SOTA open Arabic LLM in various benchmarks, including instruction-following benchmark (i.e., Arabic Vicuna-80 and Arabic AlpacaEval), knowledge benchmark (i.e., Arabic MMLU and EXAMs), as well as the newly-proposed Arabic cultural \& value alignment benchmark. Notably, AceGPT outperforms ChatGPT in the popular Vicuna-80 benchmark when evaluated with GPT-4, despite the benchmark's limited scale. % Natural Language Understanding (NLU) benchmark (i.e., ALUE) Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.
翻訳日:2023-09-22 15:21:15 公開日:2023-09-21
# 自己校正・完全微分可能なNLOS逆レンダリング

Self-Calibrating, Fully Differentiable NLOS Inverse Rendering ( http://arxiv.org/abs/2309.12047v1 )

ライセンス: Link先を確認
Kiseok Choi, Inchul Kim, Dongyoung Choi, Julio Marco, Diego Gutierrez, Min H. Kim(参考訳) 可視リレー面で測定した間接照明の光路を反転させることにより、既存の時間分解非視線イメージング(nlos)により隠れた風景を再現する。 これらの手法は, フィルタ関数やパラメータを手動で選択することで, ノイズを捕捉し, 逆の曖昧さによってアーチファクトを復元する傾向がある。 時間領域と周波数領域の両方で作業しながら、計測照明のみを入力として、隠れシーンの再構築時に画像パラメータを自己校正する完全微分可能なNLOS逆レンダリングパイプラインを導入する。 パイプラインは,NLOSボリューム強度から隠れたシーンの幾何学的表現を抽出し,その幾何学的情報を用いて生成したリレー壁の時間分解照明を推定する。 次に, 時間分解照明と測定照明の誤差を最小化し, 勾配降下を用いて撮像パラメータを最適化する。 エンド・ツー・エンドの差別化可能なパイプラインカップルは、経路空間光輸送と簡単な光線マーチング技術を用いて回折に基づくボリュームNLOS再構成を行い、詳細な表面点と隠蔽シーンの正規点を抽出する。 本手法のロバスト性は, 高い騒音レベルにおいても, 幾何およびアルベドを一貫して再構成できることを示す。

Existing time-resolved non-line-of-sight (NLOS) imaging methods reconstruct hidden scenes by inverting the optical paths of indirect illumination measured at visible relay surfaces. These methods are prone to reconstruction artifacts due to inversion ambiguities and capture noise, which are typically mitigated through the manual selection of filtering functions and parameters. We introduce a fully-differentiable end-to-end NLOS inverse rendering pipeline that self-calibrates the imaging parameters during the reconstruction of hidden scenes, using as input only the measured illumination while working both in the time and frequency domains. Our pipeline extracts a geometric representation of the hidden scene from NLOS volumetric intensities and estimates the time-resolved illumination at the relay wall produced by such geometric information using differentiable transient rendering. We then use gradient descent to optimize imaging parameters by minimizing the error between our simulated time-resolved illumination and the measured illumination. Our end-to-end differentiable pipeline couples diffraction-based volumetric NLOS reconstruction with path-space light transport and a simple ray marching technique to extract detailed, dense sets of surface points and normals of hidden scenes. We demonstrate the robustness of our method to consistently reconstruct geometry and albedo, even under significant noise levels.
翻訳日:2023-09-22 15:20:37 公開日:2023-09-21
# 境界を越える:非有界画像合成のための特徴補間学習

Beyond Image Borders: Learning Feature Extrapolation for Unbounded Image Composition ( http://arxiv.org/abs/2309.12042v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Ming Liu, Junyi Li, Shuai Liu, Xiaotao Wang, Lei Lei, Wangmeng Zuo(参考訳) 画像合成と美的品質を向上させるため、既存の手法では、画像境界付近で冗長なコンテンツを打ち出して撮影画像を変調している。 しかし、このような画像クロッピング手法は、画像ビューの範囲に制限がある。 画像の外挿を行い、外挿画像から収穫箱を予測する方法が提案されている。 それでも、合成された外挿領域を収穫画像に含めることで、画像組成が現実的でなく、劣化した画像品質を伴わない可能性がある。 本稿では,カメラビューと画像合成(UNIC)の非有界な推奨のための共同フレームワークを提案することにより,この問題を回避する。 このようにして、クロッピング画像は、予測されたカメラビューによって取得された画像のサブ画像であり、画像品質において現実的かつ一貫性があることを保証することができる。 具体的には、現在のカメラプレビューフレームを入力として、ズームイン/アウトやカメラの動きなど、画像境界による操作を無制限に含むビュー調整を推奨する。 視点調整予測の予測精度を向上させるため,特徴量補間により視野をさらに拡張する。 1回または数回のビュー調整の後、この方法は収束し、カメラビューと画像合成推奨を示すバウンディングボックスの両方を生成する。 既存の画像トリミングデータセット上に構築されたデータセットに対して大規模な実験を行い、カメラビューと画像合成の非バウンドレコメンデーションにおけるUNICの有効性を示した。 ソースコード、データセット、事前訓練されたモデルはhttps://github.com/liuxiaoyu1104/UNICで入手できる。

For improving image composition and aesthetic quality, most existing methods modulate the captured images by striking out redundant content near the image borders. However, such image cropping methods are limited in the range of image views. Some methods have been suggested to extrapolate the images and predict cropping boxes from the extrapolated image. Nonetheless, the synthesized extrapolated regions may be included in the cropped image, making the image composition result not real and potentially with degraded image quality. In this paper, we circumvent this issue by presenting a joint framework for both unbounded recommendation of camera view and image composition (i.e., UNIC). In this way, the cropped image is a sub-image of the image acquired by the predicted camera view, and thus can be guaranteed to be real and consistent in image quality. Specifically, our framework takes the current camera preview frame as input and provides a recommendation for view adjustment, which contains operations unlimited by the image borders, such as zooming in or out and camera movement. To improve the prediction accuracy of view adjustment prediction, we further extend the field of view by feature extrapolation. After one or several times of view adjustments, our method converges and results in both a camera view and a bounding box showing the image composition recommendation. Extensive experiments are conducted on the datasets constructed upon existing image cropping datasets, showing the effectiveness of our UNIC in unbounded recommendation of camera view and image composition. The source code, dataset, and pretrained models is available at https://github.com/liuxiaoyu1104/UNIC.
翻訳日:2023-09-22 15:20:11 公開日:2023-09-21
# S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees

S-GBDT: Frugal Differentially Private Gradient Boosting Decision Trees ( http://arxiv.org/abs/2309.12041v1 )

ライセンス: Link先を確認
Moritz Kirsche, Thorsten Peinemann, Joshua Stock, Carlos Cotrini, Esfandiar Mohammadi(参考訳) 勾配強化決定木(gbdt:gradient boosting decision tree)のプライバシー保護学習は、国勢調査データや医療メタデータなどの表データに対して、強力なユーティリティプライバシートレードオフをもたらす可能性がある。 証明可能なプライバシプロパティに関する最先端の考え方は、差分プライバシであり、単一のデータポイントの影響が制限され、否定可能であることを要求している。 差分プライベートなGBDT学習者を導入し,ユーティリティプライバシトレードオフを改善するために4つの主要なテクニックを利用する。 1) 決定木の葉のプライバシリークを, 従来よりも厳密に会計し, 改良されたノイズスケーリング手法を用いることで, 期待値が$o(1/n)$, かつデータポイントが$n$であるようなノイズを発生させる。 2) 個別のr\'enyiフィルタを本手法に統合し,反復的学習過程において過小に活用されたデータポイントから学習する。 3)無作為な決定木分割の概念を取り入れ,学習の場にプライバシー予算を集中させる。 (4)プライバシー強化のためのサブサンプリングを展開。 我々の評価では、abaloneデータセット($<4k$ トレーニングデータポイント)に対して、$r^2$-scoreが$0.39$ で$\varepsilon=0.15$という値を示しました。 アダルトデータセット(50k$トレーニングデータポイント)では、テストエラーが$18.7\,\%$ for $\varepsilon=0.07$で、最も近い前の作業は$\varepsilon=1.0$でしか得られない。 abalone dataset for $\varepsilon=0.54$ for $r^2$-score of $0.47$ これはgbdtの非プライベートバージョンで$r^2$-scoreが$0.54$に非常に近い。 アダルトデータセットの$\varepsilon=0.54$については、テストエラーが17.1\,\%$で、gbdtの非プライベートバージョンが13.7\,\%$に非常に近い。

Privacy-preserving learning of gradient boosting decision trees (GBDT) has the potential for strong utility-privacy tradeoffs for tabular data, such as census data or medical meta data: classical GBDT learners can extract non-linear patterns from small sized datasets. The state-of-the-art notion for provable privacy-properties is differential privacy, which requires that the impact of single data points is limited and deniable. We introduce a novel differentially private GBDT learner and utilize four main techniques to improve the utility-privacy tradeoff. (1) We use an improved noise scaling approach with tighter accounting of privacy leakage of a decision tree leaf compared to prior work, resulting in noise that in expectation scales with $O(1/n)$, for $n$ data points. (2) We integrate individual R\'enyi filters to our method to learn from data points that have been underutilized during an iterative training process, which -- potentially of independent interest -- results in a natural yet effective insight to learning streams of non-i.i.d. data. (3) We incorporate the concept of random decision tree splits to concentrate privacy budget on learning leaves. (4) We deploy subsampling for privacy amplification. Our evaluation shows for the Abalone dataset ($<4k$ training data points) a $R^2$-score of $0.39$ for $\varepsilon=0.15$, which the closest prior work only achieved for $\varepsilon=10.0$. On the Adult dataset ($50k$ training data points) we achieve test error of $18.7\,\%$ for $\varepsilon=0.07$ which the closest prior work only achieved for $\varepsilon=1.0$. For the Abalone dataset for $\varepsilon=0.54$ we achieve $R^2$-score of $0.47$ which is very close to the $R^2$-score of $0.54$ for the nonprivate version of GBDT. For the Adult dataset for $\varepsilon=0.54$ we achieve test error $17.1\,\%$ which is very close to the test error $13.7\,\%$ of the nonprivate version of GBDT.
翻訳日:2023-09-22 15:19:45 公開日:2023-09-21
# 不確実性に基づくオンライン理解学習のための探索戦略

Uncertainty-driven Exploration Strategies for Online Grasp Learning ( http://arxiv.org/abs/2309.12038v1 )

ライセンス: Link先を確認
Yitian Shi, Philipp Schillinger, Miroslav Gabriel, Alexander Kuss, Zohar Feldman, Hanna Ziesche, Ngo Anh Vien(参考訳) 既存の把握予測アプローチは、主にオフライン学習に基づいており、オンライン適応中の探索的把握学習を新しいピッキングシナリオ、すなわち見えないオブジェクトポートフォリオ、カメラとビンの設定に無視する。 本稿では,ロボット・ビン・ピックの把握予測を原則的にオンライン学習する手法を提案する。 既存の把握予測アプローチは、主にオフライン学習に基づいており、オンライン適応中の探索的把握学習を新しいピッキングシナリオ、すなわち見えないオブジェクトポートフォリオ、カメラとビンの設定に無視する。 本稿では,ロボット・ビン・ピックの把握予測を原則的にオンライン学習する手法を提案する。 特に、効果的な探索戦略を持つオンライン学習アルゴリズムは、見えない環境設定への適応性能を大幅に向上させることができる。 そこで本研究では,まず,把握報酬予測と把持ポーズの両方を適応できるrl問題として,オンライン把握学習を定式化することを提案する。 ベイジアン不確実性定量化と分布アンサンブルに基づく様々な不確実性推定手法を提案する。 様々な難易度を実世界のビンピッキングシーンで評価する。 ビン内の物体は、半透明または全透明、不規則または湾曲した表面によって特徴づけられる様々な困難な物理的特徴と知覚的特徴を有する。 実験の結果,提案手法は従来のオンライン学習手法に比べて,単純な探索戦略のみを取り入れた手法に比べて顕著に改善された。

Existing grasp prediction approaches are mostly based on offline learning, while, ignored the exploratory grasp learning during online adaptation to new picking scenarios, i.e., unseen object portfolio, camera and bin settings etc. In this paper, we present a novel method for online learning of grasp predictions for robotic bin picking in a principled way. Existing grasp prediction approaches are mostly based on offline learning, while, ignored the exploratory grasp learning during online adaptation to new picking scenarios, i.e., unseen object portfolio, camera and bin settings etc. In this paper, we present a novel method for online learning of grasp predictions for robotic bin picking in a principled way. Specifically, the online learning algorithm with an effective exploration strategy can significantly improve its adaptation performance to unseen environment settings. To this end, we first propose to formulate online grasp learning as a RL problem that will allow to adapt both grasp reward prediction and grasp poses. We propose various uncertainty estimation schemes based on Bayesian Uncertainty Quantification and Distributional Ensembles. We carry out evaluations on real-world bin picking scenes of varying difficulty. The objects in the bin have various challenging physical and perceptual characteristics that can be characterized by semi- or total transparency, and irregular or curved surfaces. The results of our experiments demonstrate a notable improvement in the suggested approach compared to conventional online learning methods which incorporate only naive exploration strategies.
翻訳日:2023-09-22 15:19:00 公開日:2023-09-21
# uplift対予測モデリング:理論的分析

Uplift vs. predictive modeling: a theoretical analysis ( http://arxiv.org/abs/2309.12036v1 )

ライセンス: Link先を確認
Th\'eo Verhelst, Robin Petit, Wouter Verbeke, Gianluca Bontempi(参考訳) 意思決定における機械学習技術の普及にもかかわらず、純粋な機械学習アプローチに対する因果指向戦略の付加価値が文献で定量化されることは稀である。 これらの戦略は、マーケティング、電気通信、医療、金融など様々な分野の実践者にとって重要である。 本論文は, 理論的基礎から始まり, 昇降・予測的アプローチの性能に影響を与えるパラメータを明らかにすることから, 対象を包括的に扱うものである。 論文の焦点は2値結果の場合と2値作用であり、本論文は古典的な予測手法と比較し、上昇モデリングの理論的解析を示す。 この論文の主な研究成果は、利益の尺度の新しい定式化、利益の尺度への上昇曲線の収束の形式的証明、そして予測的アプローチが上昇のモデリングを上回るような条件のシミュレーションによるイラストレーションである。 特徴と結果の相互情報と推定器のばらつき, 潜在的な結果の分布, 治療と結果の基盤となる費用と利益との間に, 重要な役割を担っていることを示す。

Despite the growing popularity of machine-learning techniques in decision-making, the added value of causal-oriented strategies with respect to pure machine-learning approaches has rarely been quantified in the literature. These strategies are crucial for practitioners in various domains, such as marketing, telecommunications, health care and finance. This paper presents a comprehensive treatment of the subject, starting from firm theoretical foundations and highlighting the parameters that influence the performance of the uplift and predictive approaches. The focus of the paper is on a binary outcome case and a binary action, and the paper presents a theoretical analysis of uplift modeling, comparing it with the classical predictive approach. The main research contributions of the paper include a new formulation of the measure of profit, a formal proof of the convergence of the uplift curve to the measure of profit ,and an illustration, through simulations, of the conditions under which predictive approaches still outperform uplift modeling. We show that the mutual information between the features and the outcome plays a significant role, along with the variance of the estimators, the distribution of the potential outcomes and the underlying costs and benefits of the treatment and the outcome.
翻訳日:2023-09-22 15:18:41 公開日:2023-09-21
# BASE: 多目的追跡へのより良いアプローチ

BASE: Probably a Better Approach to Multi-Object Tracking ( http://arxiv.org/abs/2309.12035v1 )

ライセンス: Link先を確認
Martin Vonheim Larsen, Sigmund Rolfsjord, Daniel Gusland, J\"orgen Ahlberg and Kim Mathiassen(参考訳) 視覚オブジェクト追跡の分野は、単純なトラッキングアルゴリズムとアドホックスキームを組み合わせた手法によって支配されている。 他の分野をリードする確率的追跡アルゴリズムは、驚くほどリーダーボードを欠いている。 目標運動学における距離の計算,検出器の信頼性の活用,非一様クラッタ特性のモデル化は,確率的トラッカーが視覚的追跡に有効であることを示す。 従来の確率的手法はこれらすべての側面に対処できないため、現在の最先端(SOTA)手法よりはるかに遅れている(MOT17トップ100には確率的トラッカーは存在しない)。 確率的アプローチの進展を再現するために,これらの課題に対処する実用的モデルのセットを提案し,確率的枠組みに組み込む方法を示す。 提案するBASE(Bayesian Approximation Single-hypothesis Estimator, Bayesian Approximation Single-hypothesis Estimator)は,Re-Idを使わずにMOT17およびMOT20上でSOTA(State-of-the-art)を実現する。 コードはhttps://github.com/ffi-noで公開される。

The field of visual object tracking is dominated by methods that combine simple tracking algorithms and ad hoc schemes. Probabilistic tracking algorithms, which are leading in other fields, are surprisingly absent from the leaderboards. We found that accounting for distance in target kinematics, exploiting detector confidence and modelling non-uniform clutter characteristics is critical for a probabilistic tracker to work in visual tracking. Previous probabilistic methods fail to address most or all these aspects, which we believe is why they fall so far behind current state-of-the-art (SOTA) methods (there are no probabilistic trackers in the MOT17 top 100). To rekindle progress among probabilistic approaches, we propose a set of pragmatic models addressing these challenges, and demonstrate how they can be incorporated into a probabilistic framework. We present BASE (Bayesian Approximation Single-hypothesis Estimator), a simple, performant and easily extendible visual tracker, achieving state-of-the-art (SOTA) on MOT17 and MOT20, without using Re-Id. Code will be made available at https://github.com/ffi-no
翻訳日:2023-09-22 15:18:23 公開日:2023-09-21
# スタイルガンにおける顔のアイデンティティ・アウェアな絡み合い

Face Identity-Aware Disentanglement in StyleGAN ( http://arxiv.org/abs/2309.12033v1 )

ライセンス: Link先を確認
Adrian Suwa{\l}a, Bartosz W\'ojcik, Magdalena Proszewska, Jacek Tabor, Przemys{\l}aw Spurek, Marek \'Smieja(参考訳) 条件付きGANは、表情、髪型、ポーズ、年齢などの顔画像の属性を操作するために頻繁に使用される。 最先端のモデルは要求された属性を修正できたが、人物のアイデンティティなど、画像の他の重要な特性を同時に修正した。 本稿では、styleganのプラグインであるplugen4facesを導入することで、この問題を解決することに焦点を当てる。 私たちの重要なアイデアは、映画フレームから取得した画像に対して、ある人物がさまざまなポーズで、異なる属性で現れるトレーニングを行うことです。 コントラスト的損失のタイプを適用することで、同じ人物のイメージを潜在空間の類似領域にグループ化するモデルを奨励する。 実験により,PluGeN4Facesによる顔属性の修正は,既存の最先端モデルよりも画像の残像特性に対して有意に侵襲性が低いことが示された。

Conditional GANs are frequently used for manipulating the attributes of face images, such as expression, hairstyle, pose, or age. Even though the state-of-the-art models successfully modify the requested attributes, they simultaneously modify other important characteristics of the image, such as a person's identity. In this paper, we focus on solving this problem by introducing PluGeN4Faces, a plugin to StyleGAN, which explicitly disentangles face attributes from a person's identity. Our key idea is to perform training on images retrieved from movie frames, where a given person appears in various poses and with different attributes. By applying a type of contrastive loss, we encourage the model to group images of the same person in similar regions of latent space. Our experiments demonstrate that the modifications of face attributes performed by PluGeN4Faces are significantly less invasive on the remaining characteristics of the image than in the existing state-of-the-art models.
翻訳日:2023-09-22 15:17:58 公開日:2023-09-21
# 祖先gflownetsを用いた潜在結合下でのヒューマン・イン・ザ・ループ因果発見

Human-in-the-Loop Causal Discovery under Latent Confounding using Ancestral GFlowNets ( http://arxiv.org/abs/2309.12032v1 )

ライセンス: Link先を確認
Tiago da Silva, Eliezer Silva, Ad\`ele Ribeiro, Ant\'onio G\'ois, Dominik Heider, Samuel Kaski, Diego Mesquita(参考訳) 構造学習は因果推論の要点である。 特に、データ不足時に因果発見(CD)アルゴリズムは脆弱で、専門家の知識に反する不正確な因果関係を推測する可能性がある。 問題を拡大するために、ほとんどのCDメソッドは不確実性推定を提供しておらず、ユーザが結果を解釈し、推論プロセスを改善するのが困難である。 驚いたことに、CDは人間中心の事件だが、どちらの方法にも焦点を絞った作品はない。 1)専門家が検証できる不確実性評価を出力し、 2) 専門家と対話し,CDを反復的に精製する。 これらの問題を解決するために,生成フローネットワークを用いて,ベイズ情報基準(bic)などのスコア関数に基づく信念分布に比例して(causal)祖先グラフをサンプリングすることを提案する。 次に、候補グラフの多様性を活用し、変数間の関係について専門家を反復的に探究する最適な実験設計を導入し、祖先グラフに対する我々の信念の不確かさを効果的に低減する。 最後に、重要サンプリングを通じて人間のフィードバックを取り入れるためのサンプルを更新する。 重要なことは、我々の方法は因果便宜を必要としない(つまり、保存されていない共同設立者が存在するかもしれない)。 合成観測データを用いた実験により,本手法は祖先グラフ上の分布から正確に試料を採取でき,人的援助により推定精度を大幅に向上できることを示した。

Structure learning is the crux of causal inference. Notably, causal discovery (CD) algorithms are brittle when data is scarce, possibly inferring imprecise causal relations that contradict expert knowledge -- especially when considering latent confounders. To aggravate the issue, most CD methods do not provide uncertainty estimates, making it hard for users to interpret results and improve the inference process. Surprisingly, while CD is a human-centered affair, no works have focused on building methods that both 1) output uncertainty estimates that can be verified by experts and 2) interact with those experts to iteratively refine CD. To solve these issues, we start by proposing to sample (causal) ancestral graphs proportionally to a belief distribution based on a score function, such as the Bayesian information criterion (BIC), using generative flow networks. Then, we leverage the diversity in candidate graphs and introduce an optimal experimental design to iteratively probe the expert about the relations among variables, effectively reducing the uncertainty of our belief over ancestral graphs. Finally, we update our samples to incorporate human feedback via importance sampling. Importantly, our method does not require causal sufficiency (i.e., unobserved confounders may exist). Experiments with synthetic observational data show that our method can accurately sample from distributions over ancestral graphs and that we can greatly improve inference quality with human aid.
翻訳日:2023-09-22 15:17:44 公開日:2023-09-21
# CAMERA: 広告テキスト生成のためのマルチモーダルデータセットとベンチマーク

CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation ( http://arxiv.org/abs/2309.12030v1 )

ライセンス: Link先を確認
Masato Mita, Soichiro Murakami, Akihiko Kato, Peinan Zhang(参考訳) 手動オンライン広告制作の限界に対応するため、自動広告テキスト生成(ATG)分野において重要な研究が行われている。 しかし、フィールド全体を包含するベンチマークの欠如と、明確なモデル入力と出力を持つ明確な問題セットの欠如により、異なる手法の比較は困難である。 これらの課題に対処するため,本論文では,再設計タスクを導入し,ベンチマークを構築することにより,ATGの分野を推し進めることを目的とする。 具体的には、ATGをインターネット広告の様々な側面を含むアプリケーション横断タスクと定義した。 本稿では,広告テキスト生成のためのCA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA) というベンチマークデータセットを提案する。 さらに,複数のベースラインモデルを用いた評価実験により,提案手法の有効性を実証した。 また,課題の現状と今後の課題についても考察する。

In response to the limitations of manual online ad production, significant research has been conducted in the field of automatic ad text generation (ATG). However, comparing different methods has been challenging because of the lack of benchmarks encompassing the entire field and the absence of well-defined problem sets with clear model inputs and outputs. To address these challenges, this paper aims to advance the field of ATG by introducing a redesigned task and constructing a benchmark. Specifically, we defined ATG as a cross-application task encompassing various aspects of the Internet advertising. As part of our contribution, we propose a first benchmark dataset, CA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA), carefully designed for ATG to be able to leverage multi-modal information and conduct an industry-wise evaluation. Furthermore, we demonstrate the usefulness of our proposed benchmark through evaluation experiments using multiple baseline models, which vary in terms of the type of pre-trained language model used and the incorporation of multi-modal information. We also discuss the current state of the task and the future challenges.
翻訳日:2023-09-22 15:17:21 公開日:2023-09-21
# ベイズモデル還元による深層ニューラルネットワークのベイズスパルシフィケーション

Bayesian sparsification for deep neural networks with Bayesian model reduction ( http://arxiv.org/abs/2309.12095v1 )

ライセンス: Link先を確認
Dimitrije Markovi\'c, Karl J. Friston, and Stefan J. Kiebel(参考訳) ディープラーニングの膨大な能力は、しばしばモデルの複雑さによって制約され、効果的なスパーシフィケーション技術に対する需要が増大する。 深層学習のためのベイズスペーシフィケーションは重要なアプローチとして現れ、様々な深層学習アプリケーションのパフォーマンスの観点から計算的に効率的かつ競合的なモデルの設計を容易にする。 ディープニューラルネットワークのベイジアンスパーシフィケーションにおける最先端の手法は、モデル重みによる構造的縮小をブラックボックス確率的変分推論に基づく近似推論スキームと組み合わせている。 しかしながら、完全生成モデルのモデル反転は、特に点推定の標準的な深層学習と比較して、非常に計算的に要求される。 この文脈では、モデルウェイトを刈り取るためのより効率的な代替手段としてベイズモデル還元(BMR)を用いることを提唱する。 サベージ・ディッキー比の一般化として、bmrは単純(非階層的)生成モデルの下で後推算に基づく冗長モデル重みのポストホック除去を可能にする。 本研究は,BMR法における確率的変分推論(SVI)方式に対する計算効率とプルーニング率を,階層的生成モデルに適用した場合に明らかにした。 本稿では、LeNetのような古典的ネットワークから、Vision TransformersやMLP-Mixersといったモダンなフレームワークに至るまで、さまざまなディープラーニングアーキテクチャのモデルパラメーターを創出するBMRの可能性について説明する。

Deep learning's immense capabilities are often constrained by the complexity of its models, leading to an increasing demand for effective sparsification techniques. Bayesian sparsification for deep learning emerges as a crucial approach, facilitating the design of models that are both computationally efficient and competitive in terms of performance across various deep learning applications. The state-of-the-art -- in Bayesian sparsification of deep neural networks -- combines structural shrinkage priors on model weights with an approximate inference scheme based on black-box stochastic variational inference. However, model inversion of the full generative model is exceptionally computationally demanding, especially when compared to standard deep learning of point estimates. In this context, we advocate for the use of Bayesian model reduction (BMR) as a more efficient alternative for pruning of model weights. As a generalization of the Savage-Dickey ratio, BMR allows a post-hoc elimination of redundant model weights based on the posterior estimates under a straightforward (non-hierarchical) generative model. Our comparative study highlights the computational efficiency and the pruning rate of the BMR method relative to the established stochastic variational inference (SVI) scheme, when applied to the full hierarchical generative model. We illustrate the potential of BMR to prune model parameters across various deep learning architectures, from classical networks like LeNet to modern frameworks such as Vision Transformers and MLP-Mixers.
翻訳日:2023-09-22 15:11:49 公開日:2023-09-21
# フラットミニマの探索によるマルチタスク協調学習

Multi-Task Cooperative Learning via Searching for Flat Minima ( http://arxiv.org/abs/2309.12090v1 )

ライセンス: Link先を確認
Fuping Wu, Le Zhang, Yang Sun, Yuanhan Mo, Thomas Nichols, and Bartlomiej W. Papiez(参考訳) マルチタスク学習 (MTL) は, 医療画像解析において大きな可能性を示し, 学習した特徴の一般化性, 個々のタスクにおける性能を向上させる。 しかし、MTLの研究のほとんどはアーキテクチャ設計か勾配操作に重点を置いているが、どちらのシナリオでも、機能は競争力のある方法で学習されている。 本研究では,マルチ/biレベルの最適化問題としてmtlを定式化することを提案する。 具体的には、各タスクのサブモデルを更新し、他のタスクの学習したサブモデルを活用する。 最適化時の負の伝達問題を緩和するため、他のタスクの特徴に関して現在の目的関数の平坦な最小値を求める。 提案手法の有効性を示すため,提案手法を3つの公開データセット上で検証した。 提案手法は協調学習の利点を示し,最先端のMTL手法と比較して有望な結果が得られる。 コードはオンラインで入手できる。

Multi-task learning (MTL) has shown great potential in medical image analysis, improving the generalizability of the learned features and the performance in individual tasks. However, most of the work on MTL focuses on either architecture design or gradient manipulation, while in both scenarios, features are learned in a competitive manner. In this work, we propose to formulate MTL as a multi/bi-level optimization problem, and therefore force features to learn from each task in a cooperative approach. Specifically, we update the sub-model for each task alternatively taking advantage of the learned sub-models of the other tasks. To alleviate the negative transfer problem during the optimization, we search for flat minima for the current objective function with regard to features from other tasks. To demonstrate the effectiveness of the proposed approach, we validate our method on three publicly available datasets. The proposed method shows the advantage of cooperative learning, and yields promising results when compared with the state-of-the-art MTL approaches. The code will be available online.
翻訳日:2023-09-22 15:11:23 公開日:2023-09-21
# クラスタリングに基づくドメインインクリメンタルラーニング

Clustering-based Domain-Incremental Learning ( http://arxiv.org/abs/2309.12078v1 )

ライセンス: Link先を確認
Christiaan Lamers, Rene Vidal, Nabil Belbachir, Niki van Stein, Thomas Baeck, Paris Giampouras(参考訳) 異なるタスクからのデータをストリーミング形式で学習者に提示する連続学習環境において,複数のタスクを学習する問題を考える。 この設定における重要な課題は、いわゆる「破滅的な忘れ問題」であり、学習者の「古いタスク」におけるパフォーマンスが「新しいタスク」で訓練された時に低下する。 A-GEM(Averaged Gradient Episodic Memory)やOGD(Orthogonal Gradient Descent)といった既存の連続学習手法では、従来のタスクの損失を増大させることなく、現在のタスクの損失を最小限に抑えることで破滅的な忘れに対処する。 しかし、これらの手法は、学習者がタスクがいつ変化するかを知っていると仮定する。 本稿では,動的に更新されたサンプルや勾配の有限プール上で,オンラインクラスタリングに基づく手法を用いて,タスク変更に関する情報をアルゴリズムに提供する必要性を緩和する。 これにより,これまで未解決であったドメインインクリメンタル学習(domain-incremental learning)という,最も困難な設定の1つにおいて,壊滅的な放棄をうまく対処することに成功した。 我々は,これらのアイデアをA-GEMやOGDといった投影型手法に適用することで,タスクに依存しない手法の利点を示す。 実データを用いた実験は,最先端手法と比較して提案手法の有効性と有望な性能を示す。

We consider the problem of learning multiple tasks in a continual learning setting in which data from different tasks is presented to the learner in a streaming fashion. A key challenge in this setting is the so-called "catastrophic forgetting problem", in which the performance of the learner in an "old task" decreases when subsequently trained on a "new task". Existing continual learning methods, such as Averaged Gradient Episodic Memory (A-GEM) and Orthogonal Gradient Descent (OGD), address catastrophic forgetting by minimizing the loss for the current task without increasing the loss for previous tasks. However, these methods assume the learner knows when the task changes, which is unrealistic in practice. In this paper, we alleviate the need to provide the algorithm with information about task changes by using an online clustering-based approach on a dynamically updated finite pool of samples or gradients. We thereby successfully counteract catastrophic forgetting in one of the hardest settings, namely: domain-incremental learning, a setting for which the problem was previously unsolved. We showcase the benefits of our approach by applying these ideas to projection-based methods, such as A-GEM and OGD, which lead to task-agnostic versions of them. Experiments on real datasets demonstrate the effectiveness of the proposed strategy and its promising performance compared to state-of-the-art methods.
翻訳日:2023-09-22 15:11:07 公開日:2023-09-21
# 多光子状態と2値光子計数測定による量子ライダーの超解像と超感度

Super-resolution and super-sensitivity of quantum LiDAR with multi-photonic state and binary outcome photon counting measurement ( http://arxiv.org/abs/2309.12076v1 )

ライセンス: Link先を確認
Priyanka Sharma, Manoj K. Mishra, and Devendra Kumar Mishra(参考訳) ここでは,マッハ・ツェンダー干渉計(MZI)を用いた量子LiDARにおける位相感度と分解能の向上について検討する。 我々は,多光子状態(MPS),4つのコヒーレント状態[1]の重畳を入力状態とバイナリ結果パリティ光子カウント測定,バイナリ結果ゼロノンゼロ光子カウント測定を計測手法として用いている。 損失のない症例だけでなく、損失のない事例においても、結果を徹底的に調査する。 その結果、コヒーレント状態やコヒーレント重畳状態(ecss)ベースの量子ライダーと比較して、分解能と位相感度が向上した。 我々の分析は、MPSが量子イメージングと量子センシング技術(例えば量子LiDAR)の分野における代替の非古典的資源であることを示している。

Here we are investigating the enhancement in phase sensitivity and resolution in Mach-Zehnder interferometer (MZI) based quantum LiDAR. We are using multi-photonic state (MPS), superposition of four coherent states [1], as the input state and binary outcome parity photon counting measurement and binary outcome zero-nonzero photon counting measurement as the measurement schemes. We thoroughly investigate the results in lossless as well as in lossy cases. We found enhancement in resolution and phase sensitivity in comparison to the coherent state and even coherent superposition state (ECSS) based quantum LiDAR. Our analysis shows that MPS may be an alternative nonclassical resource in the field of quantum imaging and quantum sensing technologies, like in quantum LiDAR.
翻訳日:2023-09-22 15:10:41 公開日:2023-09-21
# Prompt Tuned Pretrained Language Modelによるテーマ投資の高速化

Accelerating Thematic Investment with Prompt Tuned Pretrained Language Models ( http://arxiv.org/abs/2309.12075v1 )

ライセンス: Link先を確認
Valentin Leonhard Buchner, Lele Cao, Jan-Christoph Kalo(参考訳) Prompt Tuningは、PLM(Pretrained Language Models)を微調整するためのスケーラブルで費用効率のよい方法として登場した。 本研究では,マルチラベルテキスト分類タスクにおけるPrompt Tuningとベースライン手法の性能と計算効率をベンチマークする。 これは、企業を投資会社の独自産業分類に分類し、そのテーマ的投資戦略を支持するユースケースに適用する。 plmを用いたテキスト間分類は、分類ヘッドで分類を上回るようにしばしば報告されるが、各ラベルが複数のトークンからなるマルチラベル分類問題に適用すると、いくつかの制限がある。 a) 生成ラベルは,産業分類学においていかなるラベルとも一致しない。 b) 微調整中は,複数のラベルを任意の順序で提供しなければならない。 (c) モデルは適切な信頼スコアではなく、各ラベルに対して二項決定を提供する。 制限 (a) 分類性能をわずかに向上させるTrie Searchを用いた制約付きデコーディングを適用することで対処する。 すべての制限 (a) (b)及び c)は、PLMの言語ヘッドを分類ヘッドに置き換えることによって対処される。 これにより性能が大幅に向上し、推論時の計算コストも低減される。 その結果,PLMが一般化能力の強い時代にも,最先端の手法をドメイン固有のタスクに適用する必要性が続いていることが示唆された。

Prompt Tuning is emerging as a scalable and cost-effective method to fine-tune Pretrained Language Models (PLMs). This study benchmarks the performance and computational efficiency of Prompt Tuning and baseline methods on a multi-label text classification task. This is applied to the use case of classifying companies into an investment firm's proprietary industry taxonomy, supporting their thematic investment strategy. Text-to-text classification with PLMs is frequently reported to outperform classification with a classification head, but has several limitations when applied to a multi-label classification problem where each label consists of multiple tokens: (a) Generated labels may not match any label in the industry taxonomy; (b) During fine-tuning, multiple labels must be provided in an arbitrary order; (c) The model provides a binary decision for each label, rather than an appropriate confidence score. Limitation (a) is addressed by applying constrained decoding using Trie Search, which slightly improves classification performance. All limitations (a), (b), and (c) are addressed by replacing the PLM's language head with a classification head. This improves performance significantly, while also reducing computational costs during inference. The results indicate the continuing need to adapt state-of-the-art methods to domain-specific tasks, even in the era of PLMs with strong generalization abilities.
翻訳日:2023-09-22 15:10:25 公開日:2023-09-21
# ブラジル中等教育試験における量子化LLaMaモデルの評価

Benchmarking quantized LLaMa-based models on the Brazilian Secondary School Exam ( http://arxiv.org/abs/2309.12071v1 )

ライセンス: Link先を確認
Matheus L. O. Santos and Cl\'audio E. C. Campelo(参考訳) 大きな言語モデル(LLM)は、コンピュータとのインタラクションにおける革命であり、複雑な質問の構築と一連のステートメントの推論を可能にするが、実行に専用のハードウェアを必要とするため、その使用は制限されている。 本研究では、7億モデルと130億モデルに基づくllmの性能評価を行い、量子化処理を行い、ホームハードウェア上で動作させた。 検討されたモデルは、Alpaca、Koala、Vicunaである。 これらのモデルの有効性を評価するため,ENEM (Brazilian National secondary School Exam) から1,006質問を収録したデータベースを開発した。 分析の結果,ポルトガル語質問の原文の精度は約46%,英訳の精度は49%であった。 また,実行に要する時間を測定することにより,モデルの計算効率を評価した。 7億LLMと13億LLMはそれぞれ20秒と50秒かかり、AMD Ryzen 5 3600xプロセッサを搭載したマシン上でクエリを処理する。

Although Large Language Models (LLMs) represent a revolution in the way we interact with computers, allowing the construction of complex questions and the ability to reason over a sequence of statements, their use is restricted due to the need for dedicated hardware for execution. In this study, we evaluate the performance of LLMs based on the 7 and 13 billion LLaMA models, subjected to a quantization process and run on home hardware. The models considered were Alpaca, Koala, and Vicuna. To evaluate the effectiveness of these models, we developed a database containing 1,006 questions from the ENEM (Brazilian National Secondary School Exam). Our analysis revealed that the best performing models achieved an accuracy of approximately 46% for the original texts of the Portuguese questions and 49% on their English translations. In addition, we evaluated the computational efficiency of the models by measuring the time required for execution. On average, the 7 and 13 billion LLMs took approximately 20 and 50 seconds, respectively, to process the queries on a machine equipped with an AMD Ryzen 5 3600x processor
翻訳日:2023-09-22 15:10:04 公開日:2023-09-21
# サッカーにおける行動認識・スポッティング・時空間局在調査の現状と研究動向

Survey of Action Recognition, Spotting and Spatio-Temporal Localization in Soccer -- Current Trends and Research Perspectives ( http://arxiv.org/abs/2309.12067v1 )

ライセンス: Link先を確認
Karolina Seweryn, Anna Wr\'oblewska, Szymon {\L}ukasik(参考訳) サッカーにおけるアクションシーンの理解は、ゲームの複雑でダイナミックな性質とプレイヤー間の相互作用のために難しい課題である。 本稿では,この課題の包括的概要を,行動認識,スポッティング,時空間的行動定位に分類した。 モデルの性能を評価するために使用される,公開データソースとメトリクスについて検討する。 この記事では、ディープラーニング技術と従来の手法を活用する最先端の手法についてレビューする。 ビデオやオーディオデータなどの複数のソースからの情報を統合したマルチモーダル手法や,ひとつのソースをさまざまな方法で表現する手法に注目する。 モデルの精度と堅牢性を改善する可能性とともに、手法の利点と限界について議論する。 最後に,サッカーのアクション認識分野におけるオープンな研究課題と今後の方向性に注目し,その分野を前進させるマルチモーダル手法の可能性について述べる。 全体として、この調査はサッカーにおけるアクションシーン理解の分野に関心を持つ研究者に貴重なリソースを提供する。

Action scene understanding in soccer is a challenging task due to the complex and dynamic nature of the game, as well as the interactions between players. This article provides a comprehensive overview of this task divided into action recognition, spotting, and spatio-temporal action localization, with a particular emphasis on the modalities used and multimodal methods. We explore the publicly available data sources and metrics used to evaluate models' performance. The article reviews recent state-of-the-art methods that leverage deep learning techniques and traditional methods. We focus on multimodal methods, which integrate information from multiple sources, such as video and audio data, and also those that represent one source in various ways. The advantages and limitations of methods are discussed, along with their potential for improving the accuracy and robustness of models. Finally, the article highlights some of the open research questions and future directions in the field of soccer action recognition, including the potential for multimodal methods to advance this field. Overall, this survey provides a valuable resource for researchers interested in the field of action scene understanding in soccer.
翻訳日:2023-09-22 15:09:46 公開日:2023-09-21
# 時空曲率による幾何位相の実験的検証のための重力量子光干渉法

Gravitational quantum optical interferometry for experimental validation of geometric phase induced by spacetime curvature ( http://arxiv.org/abs/2309.12066v1 )

ライセンス: Link先を確認
Hansol Noh, Paul M. Alsing, Warner A. Miller, and Doyeol Ahn(参考訳) 一般相対性理論と量子力学の基本的な理論は相容れないものであり、重要な理論上の挑戦である。 一般相対性理論は重力と大規模力学を効果的に記述し、量子力学は原子からプランクスケールの現象を記述している。 重力によって誘導される光子のウィグナー回転角(wra)は、相対論的効果がその量子スピン状態において観測可能となり、その小さいが測定可能な順序を考慮すれば、地球近傍の直接観測の有望な候補として注目される。 本稿では,運動量依存型WRAが非相互特性を示すことを示す。 この異なる挙動は、地球の重力場内の干渉計の2つの経路間で測定可能な相対的なwra差をもたらすが、光子のwraは、伝統的に閉ループ上で自明な値を持つと見なされている。 この発見に基づいて、地球近傍の光子に対するHong-Ou-Mandel(HOM)量子干渉効果を用いて、曲面時空で誘起されるWRAの理論的枠組みをテストする実験を提案する。 提案実験では、干渉計の両腕における運動量依存性のwraの差が一致光子計数率に依存することを示した。

The fundamental theories of general relativity and quantum mechanics are incompatible, presenting a significant theoretical challenge. General relativity offers an effective description of gravity and large-scale dynamics, while quantum mechanics describes phenomena for atomic- to Planck-scale. The Wigner rotation angle (WRA) of a photon induced by gravity, where relativistic effects become observable in its quantum spin state, is a significant point of interest as a promising candidate for direct observation near Earth by considering its small but measurable order. In this paper, we reveal that the momentum-dependent WRA displays a non-reciprocal characteristic. This distinct behavior leads to a measurable relative WRA difference between two paths of an interferometer within the Earth's gravitational field, while the WRA of a photon has conventionally been viewed as having a trivial value on a closed loop. Building on this finding, we propose an experiment that can be used to test the theoretical framework of the WRA induced in curved spacetime through the use of the Hong-Ou-Mandel (HOM) quantum interference effect for photons in near-Earth orbits. We show that in our proposed experiment the coincident photon counting rate depends on the difference of the momentum-dependent WRA in the two arms of an interferometer.
翻訳日:2023-09-22 15:09:29 公開日:2023-09-21
# 抗がんペプチド分類のための単語埋め込みとディープラーニング技術の効率的な統合:fasttext+bilstm

An Efficient Consolidation of Word Embedding and Deep Learning Techniques for Classifying Anticancer Peptides: FastText+BiLSTM ( http://arxiv.org/abs/2309.12058v1 )

ライセンス: Link先を確認
Onur Karakaya and Zeynep Hilal Kilimci(参考訳) 抗癌ペプチド(anticancer peptides、acps)は、抗腫瘍作用を示すペプチド群である。 がん予防におけるACPの利用は、より高い選択性と安全性を有する従来のがん治療の代替となる可能性がある。 近年の科学的進歩は、正常な細胞に悪影響を及ぼすことなく目的の細胞を効率的に治療できるペプチドベースの治療法への関心を生んでいる。 しかし、ペプチド配列の数が急速に増加するにつれて、信頼できる正確な予測モデルの開発が困難な課題となっている。 本研究の動機は,単語埋め込みとディープラーニングモデルの統合を用いた抗癌ペプチドの分類のための効率的なモデルの開発である。 まず,Word2VecとFastTextを,ペプチド配列抽出のための単語埋め込み技術として評価した。 次に、単語埋め込みモデルの出力を、CNN、LSTM、BiLSTMといったディープラーニングアプローチに入力する。 提案フレームワークの貢献を実証するために,文献,ACPs250,Independentで広く利用されているデータセットについて広範な実験を行った。 実験の結果, 提案モデルの利用は, 最新の研究と比較して分類精度を高めることが示された。 提案された組み合わせであるfasttext+bilstmは、apcs250データセットの92.50%の精度を示し、独立データセットの96.15%の精度を示し、新しい最先端を決定する。

Anticancer peptides (ACPs) are a group of peptides that exhibite antineoplastic properties. The utilization of ACPs in cancer prevention can present a viable substitute for conventional cancer therapeutics, as they possess a higher degree of selectivity and safety. Recent scientific advancements generate an interest in peptide-based therapies which offer the advantage of efficiently treating intended cells without negatively impacting normal cells. However, as the number of peptide sequences continues to increase rapidly, developing a reliable and precise prediction model becomes a challenging task. In this work, our motivation is to advance an efficient model for categorizing anticancer peptides employing the consolidation of word embedding and deep learning models. First, Word2Vec and FastText are evaluated as word embedding techniques for the purpose of extracting peptide sequences. Then, the output of word embedding models are fed into deep learning approaches CNN, LSTM, BiLSTM. To demonstrate the contribution of proposed framework, extensive experiments are carried on widely-used datasets in the literature, ACPs250 and Independent. Experiment results show the usage of proposed model enhances classification accuracy when compared to the state-of-the-art studies. The proposed combination, FastText+BiLSTM, exhibits 92.50% of accuracy for ACPs250 dataset, and 96.15% of accuracy for Independent dataset, thence determining new state-of-the-art.
翻訳日:2023-09-22 15:08:50 公開日:2023-09-21
# belt:bootstrapping electroencephalography-to-language decodingとゼロショット感情分類

BELT:Bootstrapping Electroencephalography-to-Language Decoding and Zero-Shot Sentiment Classification by Natural Language Supervision ( http://arxiv.org/abs/2309.12056v1 )

ライセンス: Link先を確認
Jinzhao Zhou, Yiqun Duan, Yu-Cheng Chang, Yu-Kai Wang, Chin-Teng Lin(参考訳) 本稿では,脳から言語への翻訳研究において重要なトピックとなる新しいモデルと学習フレームワークである belt を提案する。 非侵襲的な脳信号から可読性自然言語への変換は、応用シナリオを促進し、脳-コンピュータインターフェース(BCI)全体の開発を促進する可能性がある。 脳信号デコードや脳から言語への翻訳における重要な問題は、限られた規模と品質のデータセットから意味的に適切かつ差別的な脳波表現を取得することである。 提案手法は,既製の大規模事前学習言語モデル(LM)を用いて脳波表現学習をブートストラップする汎用的で効率的なフレームワークである。 意味情報の理解とゼロショットの一般化のための大きなLM能力により、BELTは、インターネット規模のデータセットで訓練された大規模なLMを使用して、脳波信号の理解を大幅に改善する。 特に、BELTモデルは、ディープコンバータエンコーダとベクトル量子化エンコーダで構成される。 意味論的脳波表現は、自然言語を監督する対比学習ステップによって達成される。 脳から言語への翻訳とゼロショット感情分類を含む2つの脳デコーディングタスクについて最新の結果を得た。 具体的には、両方のタスクのベースラインモデルを5.45%、10%以上で上回り、それぞれ42.31%のBLEU-1スコアと67.32%の精度で翻訳の主評価基準とゼロショットの感情分類をアーカイブする。

This paper presents BELT, a novel model and learning framework for the pivotal topic of brain-to-language translation research. The translation from noninvasive brain signals into readable natural language has the potential to promote the application scenario as well as the development of brain-computer interfaces (BCI) as a whole. The critical problem in brain signal decoding or brain-to-language translation is the acquisition of semantically appropriate and discriminative EEG representation from a dataset of limited scale and quality. The proposed BELT method is a generic and efficient framework that bootstraps EEG representation learning using off-the-shelf large-scale pretrained language models (LMs). With a large LM's capacity for understanding semantic information and zero-shot generalization, BELT utilizes large LMs trained on Internet-scale datasets to bring significant improvements to the understanding of EEG signals. In particular, the BELT model is composed of a deep conformer encoder and a vector quantization encoder. Semantical EEG representation is achieved by a contrastive learning step that provides natural language supervision. We achieve state-of-the-art results on two featuring brain decoding tasks including the brain-to-language translation and zero-shot sentiment classification. Specifically, our model surpasses the baseline model on both tasks by 5.45% and over 10% and archives a 42.31% BLEU-1 score and 67.32% precision on the main evaluation metrics for translation and zero-shot sentiment classification respectively.
翻訳日:2023-09-22 15:08:08 公開日:2023-09-21
# モーフィング攻撃に対する3次元顔認識システムの脆弱性

Vulnerability of 3D Face Recognition Systems to Morphing Attacks ( http://arxiv.org/abs/2309.12118v1 )

ライセンス: Link先を確認
Sanjeet Vardam, Luuk Spreeuwers(参考訳) 近年,ハードウェアやソフトウェアの開発により,顔認識システムが主流となっている。 それらをより良く、より安全にするために一貫した努力がなされている。 これにより、3d顔認識システムの開発も急速に進んでいる。 これらの3DFRシステムは、2DFRシステムの特定の脆弱性を克服することが期待されている。 2DFRシステムのドメインが直面する問題のひとつは、顔画像の変形である。 高品質な顔形態の生成と、これらの形態からの攻撃を検出するために、かなりの量の研究が行われている。 3次元顔形態に対する3DFRシステムの脆弱性の理解は少ない。 しかし同時に、このような攻撃に対してより堅牢な3DFRシステムからの期待が設定されている。 本論文は, 研究を行い, さらなる情報を得ようとするものである。 本論文では,3次元顔形態の生成に使用できる2つの手法について述べる。 そして、この方法を用いて生成した顔形態を寄与顔と比較して類似度スコアを得る。 最も高いMMPMRはおよそ40%、RMMRは3DFRSがルックアライクな形態で攻撃されると41.76%となる。

In recent years face recognition systems have been brought to the mainstream due to development in hardware and software. Consistent efforts are being made to make them better and more secure. This has also brought developments in 3D face recognition systems at a rapid pace. These 3DFR systems are expected to overcome certain vulnerabilities of 2DFR systems. One such problem that the domain of 2DFR systems face is face image morphing. A substantial amount of research is being done for generation of high quality face morphs along with detection of attacks from these morphs. Comparatively the understanding of vulnerability of 3DFR systems against 3D face morphs is less. But at the same time an expectation is set from 3DFR systems to be more robust against such attacks. This paper attempts to research and gain more information on this matter. The paper describes a couple of methods that can be used to generate 3D face morphs. The face morphs that are generated using this method are then compared to the contributing faces to obtain similarity scores. The highest MMPMR is obtained around 40% with RMMR of 41.76% when 3DFRS are attacked with look-a-like morphs.
翻訳日:2023-09-22 14:59:19 公開日:2023-09-21
# 特定のオーディエンスのためのハウツーガイド:コーパスと初期発見

How-to Guides for Specific Audiences: A Corpus and Initial Findings ( http://arxiv.org/abs/2309.12117v1 )

ライセンス: Link先を確認
Nicola Fanton, Agnieszka Falenska, Michael Roth(参考訳) 特定の対象グループに対する指導テキストは、望ましい目標に効率的に導くために、読者の事前の知識とニーズを理想的に考慮すべきである。 しかし、特定のグループをターゲットにすることで、異なる社会的規範や微妙なステレオタイプを反映するリスクも生じる。 本稿では,特定のプラットフォームであるwikiHowのハウツーガイドが,意図した視聴者によって実際にどの程度異なるかを検討する。 本研究では,特定の読者を対象としたテキストの質的特徴を2つのケーススタディで検証する。 一般化研究において,計算手法を用いて,どの差異を体系的に示すことができるかを検討する。 その結果,他のテキストジャンルと同様,wikiHowからのガイドも微妙なバイアスを受けることがわかった。 我々は、これらの不平等に対する認識を高めることを目指しており、将来の仕事でそれらに取り組むための第一歩である。

Instructional texts for specific target groups should ideally take into account the prior knowledge and needs of the readers in order to guide them efficiently to their desired goals. However, targeting specific groups also carries the risk of reflecting disparate social norms and subtle stereotypes. In this paper, we investigate the extent to which how-to guides from one particular platform, wikiHow, differ in practice depending on the intended audience. We conduct two case studies in which we examine qualitative features of texts written for specific audiences. In a generalization study, we investigate which differences can also be systematically demonstrated using computational methods. The results of our studies show that guides from wikiHow, like other text genres, are subject to subtle biases. We aim to raise awareness of these inequalities as a first step to addressing them in future work.
翻訳日:2023-09-22 14:59:05 公開日:2023-09-21
# autopet challenge 2023: スライディングウィンドウに基づくu-netの最適化

AutoPET Challenge 2023: Sliding Window-based Optimization of U-Net ( http://arxiv.org/abs/2309.12114v1 )

ライセンス: Link先を確認
Matthias Hadlich, Zdravko Marinov, Rainer Stiefelhagen(参考訳) 医用画像における腫瘍のセグメンテーションは重要であり、正確なデライン化に依存している。 Fluorodeoxyglucose Positron-Emission Tomography (FDG-PET) は代謝活性腫瘍の検出に広く用いられている。 しかし、FDG-PETスキャンは、健康な組織や良性組織の不規則なグルコース消費をがんと誤解する可能性がある。 PETとCTを組み合わせることで、代謝情報と解剖情報を統合することにより腫瘍のセグメンテーションを高めることができる。 FDG-PET/CTスキャンは、放射線標識されたフルオロデオキシグルコースを用いて代謝活性領域を強調することにより、がんのステージングと再評価に欠かせない。 腫瘍特異的摂取と正常組織の生理的摂取を正確に区別することは、腫瘍の分節化の難しい側面である。 AutoPETは1014のFDG-PET/CT研究のデータセットを提供し、FDG-PET/CTドメイン内の正確な腫瘍のセグメンテーションと解析を奨励することでこの問題に対処する。 コード:https://github.com/matt3o/AutoPET2-Submission/

Tumor segmentation in medical imaging is crucial and relies on precise delineation. Fluorodeoxyglucose Positron-Emission Tomography (FDG-PET) is widely used in clinical practice to detect metabolically active tumors. However, FDG-PET scans may misinterpret irregular glucose consumption in healthy or benign tissues as cancer. Combining PET with Computed Tomography (CT) can enhance tumor segmentation by integrating metabolic and anatomic information. FDG-PET/CT scans are pivotal for cancer staging and reassessment, utilizing radiolabeled fluorodeoxyglucose to highlight metabolically active regions. Accurately distinguishing tumor-specific uptake from physiological uptake in normal tissues is a challenging aspect of precise tumor segmentation. The AutoPET challenge addresses this by providing a dataset of 1014 FDG-PET/CT studies, encouraging advancements in accurate tumor segmentation and analysis within the FDG-PET/CT domain. Code: https://github.com/matt3o/AutoPET2-Submission/
翻訳日:2023-09-22 14:58:49 公開日:2023-09-21
# 予算制限型群衆センシングのための大規模無名労働者のインセンティブ:オフラインとオンラインの視点から

Incentivizing Massive Unknown Workers for Budget-Limited Crowdsensing: From Off-Line and On-Line Perspectives ( http://arxiv.org/abs/2309.12113v1 )

ライセンス: Link先を確認
Feng Li, Yuqi Chai, Huan Yang, Pengfei Hu, Lingjie Duan(参考訳) 労働者の不確実性は、探索と搾取の間のトレードオフを通じて、既存の提案において、標準コンビネート多武装バンディット(cmab)フレームワークによって対処できるが、特に予算が限られている場合において、個々の労働者間のトレードオフを可能にするための予算が十分ではない可能性がある。 さらに、標準的なCMABは、労働者が常にシステムに留まっていると仮定するのに対し、労働者は時間とともにシステムに参加または離脱し、労働者が去った後に個々の労働者のために学んだことは適用できないと仮定する。 本稿では、上記の課題に対処するため、まず、オフラインのコンテキスト認識CMABベースのインセンティブ(CACI)機構を提案する。 我々は、個々の労働者ではなく、精巧に分断された文脈空間における探検・探検のトレードオフを活用して、非常に限られた予算で大規模未知の労働者に効果的にインセンティブを与える。 また、上記の基本的な考え方を、未知の労働者が動的にシステムに参加または離脱するオンライン設定に拡張し、CACIメカニズムのオンラインバージョンを提案する。 具体的には、文脈空間における搾取・探索のトレードオフによって、未知の労働者の知覚能力(システムに一度も現れなかった)を文脈情報に基づいて推定することを学ぶ。 厳密な理論的分析を行い、CACI機構の後悔の上限を明らかにし、それぞれの真理性および個々人の合理性を証明する。 また,本機構の有効性を検証するために,合成データと実データの両方について広範な実験を行った。

Although the uncertainties of the workers can be addressed by the standard Combinatorial Multi-Armed Bandit (CMAB) framework in existing proposals through a trade-off between exploration and exploitation, we may not have sufficient budget to enable the trade-off among the individual workers, especially when the number of the workers is huge while the budget is limited. Moreover, the standard CMAB usually assumes the workers always stay in the system, whereas the workers may join in or depart from the system over time, such that what we have learnt for an individual worker cannot be applied after the worker leaves. To address the above challenging issues, in this paper, we first propose an off-line Context-Aware CMAB-based Incentive (CACI) mechanism. We innovate in leveraging the exploration-exploitation trade-off in a elaborately partitioned context space instead of the individual workers, to effectively incentivize the massive unknown workers with very limited budget. We also extend the above basic idea to the on-line setting where unknown workers may join in or depart from the systems dynamically, and propose an on-line version of the CACI mechanism. Specifically, by the exploitation-exploration trade-off in the context space, we learn to estimate the sensing ability of any unknown worker (even it never appeared in the system before) according to its context information. We perform rigorous theoretical analysis to reveal the upper bounds on the regrets of our CACI mechanisms and to prove their truthfulness and individual rationality, respectively. Extensive experiments on both synthetic and real datasets are also conducted to verify the efficacy of our mechanisms.
翻訳日:2023-09-22 14:58:30 公開日:2023-09-21
# 繰り返しモデルを用いた楽曲検索のためのパッセージ要約

Passage Summarization with Recurrent Models for Audio-Sheet Music Retrieval ( http://arxiv.org/abs/2309.12111v1 )

ライセンス: Link先を確認
Luis Carvalho and Gerhard Widmer(参考訳) クロスモーダル音楽検索の多くの応用は、楽譜画像とオーディオ録音の接続に関連している。 これに対する典型的な最近のアプローチは、ディープニューラルネットワークを通じて、適切な類似性構造を用いて、オーディオと楽譜の短い固定サイズのスニペットを関連付けるジョイント埋め込み空間を学ぶことである。 しかし、この戦略から生じる2つの課題は、ネットワークをトレーニングするための強力な整列データの必要性と、局地的・グローバル的なテンポ的差異に起因するオーディオと楽譜スニペット間の音楽内容の相違である。 本稿では,これら2つの欠点に対処し,対応するオーディオや楽譜の長いパスを要約できる結合埋め込みを学習するクロスモーダルリカレントネットワークを設計する。 この方法の利点は、弱結合のオーディオシート音楽ペアのみを必要とすることと、リカレントネットワークが、オーディオとシート音楽のテンポのバリエーションに起因する非線形性を扱うことである。 合成および実ピアノデータとスコアについて多数の実験を行い、提案手法が全ての可能な構成においてより正確な検索につながることを示す。

Many applications of cross-modal music retrieval are related to connecting sheet music images to audio recordings. A typical and recent approach to this is to learn, via deep neural networks, a joint embedding space that correlates short fixed-size snippets of audio and sheet music by means of an appropriate similarity structure. However, two challenges that arise out of this strategy are the requirement of strongly aligned data to train the networks, and the inherent discrepancies of musical content between audio and sheet music snippets caused by local and global tempo differences. In this paper, we address these two shortcomings by designing a cross-modal recurrent network that learns joint embeddings that can summarize longer passages of corresponding audio and sheet music. The benefits of our method are that it only requires weakly aligned audio-sheet music pairs, as well as that the recurrent network handles the non-linearities caused by tempo variations between audio and sheet music. We conduct a number of experiments on synthetic and real piano data and scores, showing that our proposed recurrent method leads to more accurate retrieval in all possible configurations.
翻訳日:2023-09-22 14:57:59 公開日:2023-09-21
# アートワーク分類と検索のためのCLIPに基づくマルチモーダルアプローチ

Exploiting CLIP-based Multi-modal Approach for Artwork Classification and Retrieval ( http://arxiv.org/abs/2309.12110v1 )

ライセンス: Link先を確認
Alberto Baldrati, Marco Bertini, Tiberio Uricchio, and Alberto Del Bimbo(参考訳) 近年のマルチモーダル画像事前学習において,意味的密接なテキスト管理によって訓練された視覚モデルは,分類的属性を用いた訓練や教師なし手法による訓練よりも,より優れた一般化能力を有する傾向にある。 web上の公開リソースからクロールされたアートワークイメージのデータセットであるノイズアートデータセットについて,徹底的な実験を行う。 このようなデータセットでは、クリップは(ゼロショットの)分類で印象的な結果を達成し、アートワークと説明からアートワークの領域の両方で有望な結果が得られる。

Given the recent advances in multimodal image pretraining where visual models trained with semantically dense textual supervision tend to have better generalization capabilities than those trained using categorical attributes or through unsupervised techniques, in this work we investigate how recent CLIP model can be applied in several tasks in artwork domain. We perform exhaustive experiments on the NoisyArt dataset which is a dataset of artwork images crawled from public resources on the web. On such dataset CLIP achieves impressive results on (zero-shot) classification and promising results in both artwork-to-artwork and description-to-artwork domain.
翻訳日:2023-09-22 14:57:39 公開日:2023-09-21
# PEFTT:低リソースチベット語事前訓練言語モデルのためのパラメータ効率の良いファインチューニング

PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan pre-trained language models ( http://arxiv.org/abs/2309.12109v1 )

ライセンス: Link先を確認
Zhou Mingjun, Daiqing Zhuoma, Qun Nuo, Nyima Tashi(参考訳) 大規模言語モデル(LLM)の時代には、従来のモデルのトレーニングは、通常のユーザや機関にとって想像できないものになりつつある。 これらのモデルを用いた高リソース言語のための効率的な微調整の探索は、徐々に人気が高まりつつある。 しかし、チベット語など、様々な低資源言語の探索はほとんど行われていない。 チベットのNLPの研究は本質的に乏しく、限られている。 現在チベット語には、その低リソース性のために大規模な言語モデルは存在しないが、その日は間違いなくやってくるだろう。 したがって、チベット語のような低リソース言語モデルの効率的な微調整に関する研究は非常に必要である。 私たちの研究は、この重要なギャップを埋めるための参考になり得る。 チベットのプレトレーニング言語モデル(PLM)の効率的な微調整戦略は、最小限の探索が見られた。 一般に入手可能なtnccタイトルデータセットについて,「prompt-tuning」,「adapter lightweight fine-tuning」,「prompt-tuning + adapter fine-tuning」の3種類の効率的な微調整実験を行った。 実験の結果,これらの手法による大幅な改善が示され,事前学習モデルを用いてチベット語を進化させる上で貴重な知見が得られた。

In this era of large language models (LLMs), the traditional training of models has become increasingly unimaginable for regular users and institutions. The exploration of efficient fine-tuning for high-resource languages on these models is an undeniable trend that is gradually gaining popularity. However, there has been very little exploration for various low-resource languages, such as Tibetan. Research in Tibetan NLP is inherently scarce and limited. While there is currently no existing large language model for Tibetan due to its low-resource nature, that day will undoubtedly arrive. Therefore, research on efficient fine-tuning for low-resource language models like Tibetan is highly necessary. Our research can serve as a reference to fill this crucial gap. Efficient fine-tuning strategies for pre-trained language models (PLMs) in Tibetan have seen minimal exploration. We conducted three types of efficient fine-tuning experiments on the publicly available TNCC-title dataset: "prompt-tuning," "Adapter lightweight fine-tuning," and "prompt-tuning + Adapter fine-tuning." The experimental results demonstrate significant improvements using these methods, providing valuable insights for advancing Tibetan language applications in the context of pre-trained models.
翻訳日:2023-09-22 14:57:26 公開日:2023-09-21
# 教育用テキストの改訂における曖昧さの計算解析

A Computational Analysis of Vagueness in Revisions of Instructional Texts ( http://arxiv.org/abs/2309.12107v1 )

ライセンス: Link先を確認
Alok Debnath, Michael Roth(参考訳) WikiHowは、様々なタスクのための教育記事のオープンドメインリポジトリであり、ユーザーが修正することができる。 本稿では,修正前後の命令のペアバージョンを抽出する。 ノイズの多いリビジョン履歴のデータセットから、特に指示の不明瞭なケースを含む編集を抽出し分析する。 さらに,前回の作業からペアワイズランキングタスクを採用し,既存のベースラインよりも改善を示すことで,データ内の命令の2つのバージョンを区別するニューラルモデルの可能性についても検討した。

WikiHow is an open-domain repository of instructional articles for a variety of tasks, which can be revised by users. In this paper, we extract pairwise versions of an instruction before and after a revision was made. Starting from a noisy dataset of revision histories, we specifically extract and analyze edits that involve cases of vagueness in instructions. We further investigate the ability of a neural model to distinguish between two versions of an instruction in our data by adopting a pairwise ranking task from previous work and showing improvements over existing baselines.
翻訳日:2023-09-22 14:57:07 公開日:2023-09-21
# fourierloss:フーリエディスクリプタを備えた形状認識損失関数

FourierLoss: Shape-Aware Loss Function with Fourier Descriptors ( http://arxiv.org/abs/2309.12106v1 )

ライセンス: Link先を確認
Mehmet Bahadir Erden, Selahattin Cansiz, Onur Caki, Haya Khattak, Durmus Etiz, Melek Cosar Yakar, Kerem Duruer, Berke Barut and Cigdem Gunduz-Demir(参考訳) エンコーダ-デコーダネットワークは、様々な医療画像分割タスクで一般的な選択となっている。 標準的な損失関数でトレーニングされた場合、これらのネットワークは画像中の物体の形状整合性を維持するために明示的に強制されない。 しかし、このネットワークの能力は、特に物体とその周囲に低コントラスト差がある場合、より正確な結果を得るために重要である。 この問題に対して、この研究は新しい形状認識損失関数を導入し、FourierLossと名付けました。 この損失関数は、それらの対象に計算されたフーリエ記述子を通して、基底真理と予測されたセグメンテーションマップとの形状の相似性を定量化し、ネットワークトレーニングにおいてこの相似性をペナルティ化する。 以前の研究とは異なり、FourierLossはトレーニングプロセスで学習するためにネットワークが強制される形状の詳細のレベルの重要性を制御できるトレーニング可能なハイパーパラメータを備えた適応損失関数を提供する。 この制御は、エンドツーエンドでハイパーパラメータをバックプロパゲーションによってネットワークウェイトと同時に学習するadaptive loss update機構によって実現される。 このメカニズムを用いることで、ネットワークは対象の一般的な概要を学習することから、その輪郭点の詳細を学ぶこと、あるいはその逆を異なる訓練エポックで学習することまで、動的に変更することができる。 被験者93名を対象に2879枚のCT画像を用いて検討した結果, 適応型形状認識損失関数が肝セグメンテーションに有意な有意な有意な成績を示した。

Encoder-decoder networks become a popular choice for various medical image segmentation tasks. When they are trained with a standard loss function, these networks are not explicitly enforced to preserve the shape integrity of an object in an image. However, this ability of the network is important to obtain more accurate results, especially when there is a low-contrast difference between the object and its surroundings. In response to this issue, this work introduces a new shape-aware loss function, which we name FourierLoss. This loss function relies on quantifying the shape dissimilarity between the ground truth and the predicted segmentation maps through the Fourier descriptors calculated on their objects, and penalizing this dissimilarity in network training. Different than the previous studies, FourierLoss offers an adaptive loss function with trainable hyperparameters that control the importance of the level of the shape details that the network is enforced to learn in the training process. This control is achieved by the proposed adaptive loss update mechanism, which end-to-end learns the hyperparameters simultaneously with the network weights by backpropagation. As a result of using this mechanism, the network can dynamically change its attention from learning the general outline of an object to learning the details of its contour points, or vice versa, in different training epochs. Working on 2879 computed tomography images of 93 subjects, our experiments revealed that the proposed adaptive shape-aware loss function led to statistically significantly better results for liver segmentation, compared to its counterparts.
翻訳日:2023-09-22 14:56:57 公開日:2023-09-21
# semeval-2022タスク7 : 授業テキストにおける暗黙的・過明な句の明確化

SemEval-2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts ( http://arxiv.org/abs/2309.12102v1 )

ライセンス: Link先を確認
Michael Roth, Talita Anthonio, Anna Sauer(参考訳) 本稿では,SemEval-2022 Task 7について述べる。 本課題のデータセットは手作業によるハウツーガイドの明確化からなり,その代替的明確化と人間の妥当性判断の収集を行う。 参加システムの課題は,各文脈における明確化の妥当性を自動決定することであった。 合計21人の参加者がこのタスクに参加し、最高のシステムは68.9%の精度を達成した。 本報告では8チームの結果と結果とシステム記述について要約する。 最後に、トップ参加チームによる予測により、75.2%の精度で複数の妥当な明確化でコンテキストを識別できることを示す。

We describe SemEval-2022 Task 7, a shared task on rating the plausibility of clarifications in instructional texts. The dataset for this task consists of manually clarified how-to guides for which we generated alternative clarifications and collected human plausibility judgements. The task of participating systems was to automatically determine the plausibility of a clarification in the respective context. In total, 21 participants took part in this task, with the best system achieving an accuracy of 68.9%. This report summarizes the results and findings from 8 teams and their system descriptions. Finally, we show in an additional evaluation that predictions by the top participating team make it possible to identify contexts with multiple plausible clarifications with an accuracy of 75.2%.
翻訳日:2023-09-22 14:56:29 公開日:2023-09-21
# 過去のトラバーサル特徴からの自動運転のための教師なしドメイン適応

Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features ( http://arxiv.org/abs/2309.12140v1 )

ライセンス: Link先を確認
Travis Zhang, Katie Luo, Cheng Perng Phoo, Yurong You, Wei-Lun Chao, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger(参考訳) 自動運転車用3次元物体検出システムの開発により,精度が大幅に向上した。 しかし、これらのシステムは様々な運転環境にまたがる一般化に苦慮しており、交通参加者を検知する上での安全性-クリティカルな障害に繋がる可能性がある。 そこで本稿では,物体検出装置を新しい運転環境に適応させるために,複数箇所のラベル付き繰り返しトラバースを利用する手法を提案する。 繰り返しLiDARスキャンから計算した統計を取り入れることで、適応過程を効果的にガイドする。 提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化し,特徴正規化のための統計量を活用する軽量回帰ヘッドを導入する。 さらに,新たな自己学習プロセスの統計を利用して,トレーニングの安定化を図る。 このフレームワークは検出モデルに依存しないものであり、特に歩行者や遠く離れた物体の検出において、20ポイントのパフォーマンス向上を達成し、実世界のデータセットに対する実験は大きな改善を示す。 コードはhttps://github.com/zhangtravis/hist-daで入手できる。

The rapid development of 3D object detection systems for self-driving cars has significantly improved accuracy. However, these systems struggle to generalize across diverse driving environments, which can lead to safety-critical failures in detecting traffic participants. To address this, we propose a method that utilizes unlabeled repeated traversals of multiple locations to adapt object detectors to new driving environments. By incorporating statistics computed from repeated LiDAR scans, we guide the adaptation process effectively. Our approach enhances LiDAR-based detection models using spatial quantized historical features and introduces a lightweight regression head to leverage the statistics for feature regularization. Additionally, we leverage the statistics for a novel self-training process to stabilize the training. The framework is detector model-agnostic and experiments on real-world datasets demonstrate significant improvements, achieving up to a 20-point performance gain, especially in detecting pedestrians and distant objects. Code is available at https://github.com/zhangtravis/Hist-DA.
翻訳日:2023-09-22 14:49:56 公開日:2023-09-21
# ロボットとAIにおけるベンチマーク, 基準, 認定の関係について

On the relationship between Benchmarking, Standards and Certification in Robotics and AI ( http://arxiv.org/abs/2309.12139v1 )

ライセンス: Link先を確認
Alan F.T. Winfield and Matthew Studley(参考訳) ベンチマーク、標準、認定は密接に関連するプロセスである。 標準はロボット工学やAIシステムが適合するかもしれないし従わないかもしれないという規範的な要件を提供することができる。 認証は一般的に、運用する証明書を付与する鍵となる決定要因として、1つ以上の基準に準拠している。 そしてベンチマークは、ロボットとAIシステムが測定可能な標準テストのセットだ。 したがってベンチマークは非公式標準と考えることができる。 本稿では、これらのテーマを、ベンチマーク、標準、認定の例から開発し、これら3つの関連プロセスは有用であるだけでなく、より広範な責任あるイノベーションの実践にとって不可欠であると主張する。

Benchmarking, standards and certification are closely related processes. Standards can provide normative requirements that robotics and AI systems may or may not conform to. Certification generally relies upon conformance with one or more standards as the key determinant of granting a certificate to operate. And benchmarks are sets of standardised tests against which robots and AI systems can be measured. Benchmarks therefore can be thought of as informal standards. In this paper we will develop these themes with examples from benchmarking, standards and certification, and argue that these three linked processes are not only useful but vital to the broader practice of Responsible Innovation.
翻訳日:2023-09-22 14:49:39 公開日:2023-09-21
# OSN-MDAD:オンラインソーシャルメディア上でのアラビア語多言語会話のための機械翻訳データセット

OSN-MDAD: Machine Translation Dataset for Arabic Multi-Dialectal Conversations on Online Social Media ( http://arxiv.org/abs/2309.12137v1 )

ライセンス: Link先を確認
Fatimah Alzamzami, Abdulmotaleb El Saddik(参考訳) 英語のリソースはソーシャルメディア上のコンテンツを理解するのに十分だが、アラビア語のリソースは未熟である。 アラビア語の資源が不足している主な理由は、標準語(MSA)に加えて多くの方言があるからである。 アラブ人は毎日のコミュニケーションにMSAを使用しず、弁証法を使用している。 残念ながら、ソーシャルユーザーはこの現象をソーシャルメディアプラットフォームの利用に移し、言語依存のアプリケーションに適切なaiモデルを構築することを緊急に要求している。 MSA用に設計された既存の機械翻訳(MT)システムはアラビア方言とうまく機能しない。 これを踏まえ、様々なアラビア語の方言を効果的に扱えるMTシステムを開発することにより、ソーシャルネットワーク上の非公式なコミュニケーションに適応する必要がある。 MTシステムの進歩を示すMSAとは異なり、MTシステムにアラビア方言を利用する努力はほとんど行われていない。 方言アラビア語の翻訳データセットを構築する試みはほとんど行われていないが、ドメインに依存しており、OSNの文化的言語に親しみやすいものではない。 本研究では,英語のツイートを4つのアラビア方言(ガルフ語,イエメン語,イラク語,レバント語)に文脈的に翻訳することで構築された,オンラインソーシャルネットワークベースの多言語アラビア語データセットを提案することによって,これらの制限を緩和しようとする。 翻訳を行うには,外国語と地方方言間の翻訳に普遍的に適用可能な,コンテンツ翻訳のためのガイドラインフレームワークを踏襲した。 4つのアラビア方言のニューラルMTモデルを用いて,提案したデータセットの信頼性を検証した。 我々のデータセットを用いてトレーニングしたNMTモデルの優れた性能を示した。 我々のデータセットは、非公式なMTタスクのためのアラビア多言語翻訳データセットとして確実に機能できると信じている。

While resources for English language are fairly sufficient to understand content on social media, similar resources in Arabic are still immature. The main reason that the resources in Arabic are insufficient is that Arabic has many dialects in addition to the standard version (MSA). Arabs do not use MSA in their daily communications; rather, they use dialectal versions. Unfortunately, social users transfer this phenomenon into their use of social media platforms, which in turn has raised an urgent need for building suitable AI models for language-dependent applications. Existing machine translation (MT) systems designed for MSA fail to work well with Arabic dialects. In light of this, it is necessary to adapt to the informal nature of communication on social networks by developing MT systems that can effectively handle the various dialects of Arabic. Unlike for MSA that shows advanced progress in MT systems, little effort has been exerted to utilize Arabic dialects for MT systems. While few attempts have been made to build translation datasets for dialectal Arabic, they are domain dependent and are not OSN cultural-language friendly. In this work, we attempt to alleviate these limitations by proposing an online social network-based multidialect Arabic dataset that is crafted by contextually translating English tweets into four Arabic dialects: Gulf, Yemeni, Iraqi, and Levantine. To perform the translation, we followed our proposed guideline framework for content translation, which could be universally applicable for translation between foreign languages and local dialects. We validated the authenticity of our proposed dataset by developing neural MT models for four Arabic dialects. Our results have shown a superior performance of our NMT models trained using our dataset. We believe that our dataset can reliably serve as an Arabic multidialectal translation dataset for informal MT tasks.
翻訳日:2023-09-22 14:49:28 公開日:2023-09-21
# 頑健なオーディオシート音楽検索システムのための自己教師付きコントラスト学習

Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems ( http://arxiv.org/abs/2309.12134v1 )

ライセンス: Link先を確認
Luis Carvalho, Tobias Wash\"uttl and Gerhard Widmer(参考訳) 効率的なクロスモーダル音楽検索システムの開発において,楽譜画像と音声記録のリンクは重要な課題である。 このタスクに対する基本的なアプローチの1つは、オーディオと楽譜の短いスニペットを接続できるディープニューラルネットワークを通じて、クロスモーダルな埋め込み空間を学習することである。 しかし、実際の音楽コンテンツからの注釈付きデータの不足は、そのような手法が実際の検索シナリオに一般化する能力に影響を及ぼす。 本研究では,事前学習段階として大量の実曲データにネットワークを露出させることにより,自己教師付きコントラスト学習でこの制限を緩和できるかどうかを,音声と楽譜画像の両方のスニペットのランダムに拡張されたビューと対比して検討する。 合成および実ピアノデータに関する多くの実験を通して、事前学習されたモデルが、全てのシナリオや事前学習構成においてより正確なスニペットを抽出できることが示されている。 これらの結果から,クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込んで,複数の検索構成に関するさらなる実験を行う。 本研究では,実際の音楽データが存在する場合,検索品質が30%から100%向上することを確認した。 そして,マルチモーダル音楽検索モデルにおける注釈データ不足軽減のための自己教師付きコントラスト学習の可能性について考察した。

Linking sheet music images to audio recordings remains a key problem for the development of efficient cross-modal music retrieval systems. One of the fundamental approaches toward this task is to learn a cross-modal embedding space via deep neural networks that is able to connect short snippets of audio and sheet music. However, the scarcity of annotated data from real musical content affects the capability of such methods to generalize to real retrieval scenarios. In this work, we investigate whether we can mitigate this limitation with self-supervised contrastive learning, by exposing a network to a large amount of real music data as a pre-training step, by contrasting randomly augmented views of snippets of both modalities, namely audio and sheet images. Through a number of experiments on synthetic and real piano data, we show that pre-trained models are able to retrieve snippets with better precision in all scenarios and pre-training configurations. Encouraged by these results, we employ the snippet embeddings in the higher-level task of cross-modal piece identification and conduct more experiments on several retrieval configurations. In this task, we observe that the retrieval quality improves from 30% up to 100% when real music data is present. We then conclude by arguing for the potential of self-supervised contrastive learning for alleviating the annotated data scarcity in multi-modal music retrieval models.
翻訳日:2023-09-22 14:49:00 公開日:2023-09-21
# 建設契約知識モデリングのための知識表現手法

A knowledge representation approach for construction contract knowledge modeling ( http://arxiv.org/abs/2309.12132v1 )

ライセンス: Link先を確認
Chunmo Zheng, Saika Wong, Xing Su, Yinqiu Tang(参考訳) 大規模言語モデル(LLM)の出現は、建設契約管理の自動化、ヒューマンエラーの低減、大幅な時間とコストの削減など、前例のない機会を提供する。 しかし、llmはドメインの専門知識の欠如により、説得力がありながら不正確で誤解を招くコンテンツを生み出す可能性がある。 この問題に対処するために、専門家主導の契約知識は、自動契約管理プロセスを制限する構造化された方法で表現できる。 本稿では,ネスト構造を用いた契約知識の複雑さを捉える知識表現手法であるNested Contract Knowledge Graph (NCKG)を紹介する。 ネストした知識表現フレームワーク、フレームワーク上に構築されたNCKGオントロジー、実装メソッドが含まれている。 さらに,NCKGの外部知識によって強化されたLCM支援契約レビューパイプラインを提案する。 我々のパイプラインは、より信頼性が高く解釈可能な契約管理に向けて、LLMとKGの組み合わせに光を当て、契約リスクのレビューにおいて有望なパフォーマンスを達成する。

The emergence of large language models (LLMs) presents an unprecedented opportunity to automate construction contract management, reducing human errors and saving significant time and costs. However, LLMs may produce convincing yet inaccurate and misleading content due to a lack of domain expertise. To address this issue, expert-driven contract knowledge can be represented in a structured manner to constrain the automatic contract management process. This paper introduces the Nested Contract Knowledge Graph (NCKG), a knowledge representation approach that captures the complexity of contract knowledge using a nested structure. It includes a nested knowledge representation framework, a NCKG ontology built on the framework, and an implementation method. Furthermore, we present the LLM-assisted contract review pipeline enhanced with external knowledge in NCKG. Our pipeline achieves a promising performance in contract risk reviewing, shedding light on the combination of LLM and KG towards more reliable and interpretable contract management.
翻訳日:2023-09-22 14:48:36 公開日:2023-09-21
# nv-center relaxometryにおける電荷変換の温度依存性

Temperature dependence of charge conversion during NV-center relaxometry ( http://arxiv.org/abs/2309.12131v1 )

ライセンス: Link先を確認
Isabel Cardoso Barbosa, Jonas Gutsche, Dennis L\"onard, Stefan Dix, Artur Widera(参考訳) 温度依存性窒素空孔(NV)中心緩和測定は、センシングダイヤモンドに近い常磁性分子を特徴づける確立されたツールであり、科学の様々な分野で勢いを増している。 しかし、最近の結果は、NV中心電荷状態間の変換がこれらの測定を妨げ、T_1$時間に対する結果に影響を与えることを示している。 NV中心のT_1$時間の温度依存性はよく研究されているが、暗時の温度依存性の電荷変換によるさらなる寄与は測定結果にさらに影響を及ぼす可能性がある。 温度依存性の緩和度計と蛍光分光をレーザーパワーで組み合わせ,ナノダイヤモンド中の電荷変換の温度依存性を生物学的に関連した温度で解く。 温度上昇に伴うT_1$時間の減少は観測されるが, 電荷変換は温度変化の影響を受けないままである。 これらの結果から, 電荷変換の温度依存性を考慮せずに, 温度依存性能を$T_1$リラクソメトリーで評価できることがわかった。

Temperature-dependent nitrogen-vacancy (NV)-center relaxometry is an established tool to characterize paramagnetic molecules near to a sensing diamond, gaining momentum in different fields of science. However, recent results indicate that conversion between NV-center charge states impedes these measurements and influences the results for the $T_1$ time. While the temperature dependence of NV centers' $T_1$ time is well-studied, additional contributions from temperature-dependent charge conversion during the dark time may further affect the measurement results. We combine temperature-dependent relaxometry and fluorescence spectroscopy at varying laser powers to unravel the temperature dependence of charge conversion in nanodiamond for biologically relevant temperatures. While we observe a decrease of the $T_1$ time with increasing temperatures, charge conversion remains unaffected by the temperature change. These results allow the temperature dependent performance of $T_1$ relaxometry without further consideration of temperature dependence of charge conversion.
翻訳日:2023-09-22 14:48:19 公開日:2023-09-21
# 薬物発見における溶媒構成予測のための中性原子を用いたアナログ量子コンピューティング

Leveraging Analog Quantum Computing with Neutral Atoms for Solvent Configuration Prediction in Drug Discovery ( http://arxiv.org/abs/2309.12129v1 )

ライセンス: Link先を確認
Mauro D'Arcangelo, Daniele Loco, Fresnel team, Nicola\"i Gouraud, Stanislas Angebault, Jules Sueiro, Pierre Monmarch\'e, J\'er\^ome For\^et, Louis-Paul Henry, Lo\"ic Henriet, Jean-Philip Piquemal(参考訳) アナログ量子コンピューティングにより,タンパク質中の平衡水溶剤分子構成をサンプリングできる量子アルゴリズムを導入する。 そこで我々は, 連続溶媒分布を予測可能な3次元参照相互作用サイトモデル(3D-RISM)に量子配置戦略を組み合わせる。 このようなカップリングの本質的な量子性は、分子同士が互いに親しすぎないように保証するものであり、古典的アプローチでは手によって課される制約である。 まず, 局所リドバーグハミルトニアンを用いて, 一般問題を反強磁性イジングモデルにキャストする, 完全な量子断熱進化モデルを提案する。 その解法は古典計算におけるNPハード問題であり、Rydberg atom array Quantum Processing Unit (QPU) に具体化されている。 古典的なエミュレータの実装に続いて、QPUポーテージは実際の量子コンピュータ上でのアルゴリズム性能を実験的に検証することができる。 次世代デバイスでの利用の観点からは、アルゴリズムの2つ目のハイブリッド量子古典版をエミュレートする。 このような変分量子アプローチ(VQA)は、古典的ベイズ最小化ルーチンを使用して最適なレーザーパラメータを求める。 全体として、これらのQuantum-3D-RISM (Q-3D-RISM) アルゴリズムは、分子モデリングと薬物設計におけるアナログ量子コンピューティングの応用への新たな道を開く。

We introduce quantum algorithms able to sample equilibrium water solvent molecules configurations within proteins thanks to analog quantum computing. To do so, we combine a quantum placement strategy to the 3D Reference Interaction Site Model (3D-RISM), an approach capable of predicting continuous solvent distributions. The intrinsic quantum nature of such coupling guarantees molecules not to be placed too close to each other, a constraint usually imposed by hand in classical approaches. We present first a full quantum adiabatic evolution model that uses a local Rydberg Hamiltonian to cast the general problem into an anti-ferromagnetic Ising model. Its solution, an NP-hard problem in classical computing, is embodied into a Rydberg atom array Quantum Processing Unit (QPU). Following a classical emulator implementation, a QPU portage allows to experimentally validate the algorithm performances on an actual quantum computer. As a perspective of use on next generation devices, we emulate a second hybrid quantum-classical version of the algorithm. Such a variational quantum approach (VQA) uses a classical Bayesian minimization routine to find the optimal laser parameters. Overall, these Quantum-3D-RISM (Q-3D-RISM) algorithms open a new route towards the application of analog quantum computing in molecular modelling and drug design.
翻訳日:2023-09-22 14:48:02 公開日:2023-09-21
# 逆問題に対する教師なしニューラルネットワークの収束と回復保証

Convergence and Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems ( http://arxiv.org/abs/2309.12128v1 )

ライセンス: Link先を確認
Nathan Buskulic, Jalal Fadili, Yvain Qu\'eau(参考訳) 近年、ニューラルネットワークは逆問題の解決に顕著なアプローチとなっている。 逆問題を経験的に解くためにこのような手法の多元性を開発したが、これらの方法に対する明確な理論的保証はいまだに欠如している。 一方で、多くの研究がニューラルネットワークの最適解に収束することを証明し、オーバーパラメトリゼーションをニューラルタンジェントカーネルを制御する方法として用いた。 本研究では,これら2つの世界を橋渡しする方法を調査し,逆問題を解くために訓練された教師なしフィードフォワード多層ニューラルネットワークのクラスに対して,決定論的収束と回復の保証を提供する。 また、スムーズなアクティベーション関数を持つ2層ディープ逆プリエントネットワークが保証の恩恵を受けるようなオーバーパラメトリゼーション境界を導出する。

Neural networks have become a prominent approach to solve inverse problems in recent years. While a plethora of such methods was developed to solve inverse problems empirically, we are still lacking clear theoretical guarantees for these methods. On the other hand, many works proved convergence to optimal solutions of neural networks in a more general setting using overparametrization as a way to control the Neural Tangent Kernel. In this work we investigate how to bridge these two worlds and we provide deterministic convergence and recovery guarantees for the class of unsupervised feedforward multilayer neural networks trained to solve inverse problems. We also derive overparametrization bounds under which a two-layers Deep Inverse Prior network with smooth activation function will benefit from our guarantees.
翻訳日:2023-09-22 14:47:40 公開日:2023-09-21
# 局所周期駆動を用いた光学格子の個別可変トンネル係数

Individually tunable tunnelling coefficients in optical lattices using local periodic driving ( http://arxiv.org/abs/2309.12124v1 )

ライセンス: Link先を確認
Georgia M. Nixon, F. Nur Unal, Ulrich Schneider(参考訳) 光学格子中の超低温原子は、強相関系や位相系などの多くの応用を含む翻訳不変系の強力な量子シミュレータとして出現している。 しかし、すべてのハミルトニアンパラメータを局所的にチューニングする能力は、より広い範囲の量子現象のシミュレーションを可能にする際立った目標である。 量子ガス顕微鏡と光ツイーザの最近の進歩により、光格子内の個々のトンネルリンクに対する局所的な制御は、局所的な時間周期ポテンシャルを組み込むことで、どのように達成できるかを理論的に示す。 本研究では,各格子点のオンサイトエネルギーを周期的に変調し,フロッケ理論を用いて1次元のトンネル振幅を個別に制御できることを示す。 拡張su-schrieffer-heegerモデルのような興味深い位相モデルを実現するための様々な例構成を提供する。 2次元まで拡大すると, 局所周期運転は相対的なトンネル振幅とゲージ不変フラックスを同時に制御し, 完全にプログラム可能な2次元強結合モデルを構築する上で, 明確なステップストーンを提供することを示す。 この局所変調スキームは、多くの異なる格子ジオメトリに適用できる。

Ultracold atoms in optical lattices have emerged as powerful quantum simulators of translationally invariant systems with many applications in e.g. strongly-correlated and topological systems. However, the ability to locally tune all Hamiltonian parameters remains an outstanding goal that would enable the simulation of a wider range of quantum phenomena. Motivated by recent advances in quantum gas microscopes and optical tweezers, we here show theoretically how local control over individual tunnelling links in an optical lattice can be achieved by incorporating local time-periodic potentials. We propose to periodically modulate the on-site energy of individual lattice sites and employ Floquet theory to demonstrate how this can result in full individual control over the tunnelling amplitudes in one dimension. We provide various example configurations realising interesting topological models such as extended Su-Schrieffer-Heeger models that would be challenging to realize by other means. Extending to two dimensions, we present that local periodic driving in a three-site plaquette allows for full simultaneous control over the relative tunnelling amplitudes and the gauge-invariant flux piercing the plaquette, providing a clear stepping stone in building a fully programmable 2D tight-binding model. This local modulation scheme is applicable to many different lattice geometries.
翻訳日:2023-09-22 14:47:27 公開日:2023-09-21
# オープンオンラインコミュニティにおけるサステナビリティ指標

Sustainability indicators in an open online community ( http://arxiv.org/abs/2309.12120v1 )

ライセンス: Link先を確認
Yo Yehudi, Carole Goble, and Caroline Jay(参考訳) ソフトウェアは、何らかの理由で放棄またはシャットダウンされることが多く、学術的なオープンソースソフトウェアの研究は少ないが、それとは異なると仮定する理由はほとんどない。 単純な理由はあるが、例えば、単独のメンテナーが動き始めたり、資金提供が中止されたりするなど、いくつかのプロジェクトはこれらの障壁に耐えることができ、逆境にもかかわらず活動し、維持し続けることができる。 本研究は,1年間のオープンソースプロジェクトの監視,一般的なパフォーマンス指標の測定,主観的および質的指標(参加調査)の両面による計測,これらプロジェクトのオンラインソース管理コードベースに関連する指標分析のためのスクリプトの利用などを行った。 これらの健康指標は、プロジェクト毎のコンテキストが大きく変化するため、プロジェクト横断ベンチマークとして使用できないことが分かりました。 しかし、それらはしばしば単一のプロジェクトの健康状態の変化を示すのに役立ち、異なる無関係なプロジェクトを比較するのに使われない。

Software is often abandoned or shut down, for one reason or another, and whilst research on academic open source software is sparse, there seems little reason to assume it is any different. While some reasons may be straightforward, e.g. a sole maintainer has moved on, or grant funding has ceased - some projects are able to withstand these barriers and may remain active and maintained despite adversity. This study monitored open source projects over the period of a year, measuring common performance indicators, using both subjective and qualitative measures (participant surveys), as well as using scripts to analyse indicators associated with these projects' online source control codebases. We find that these health indicators can not be used as cross project benchmarks, due to the significant variation in context for each project. They can, however, often be useful in signifying changes in a single project's health, providing they are not used to compare between different unrelated projects.
翻訳日:2023-09-22 14:47:05 公開日:2023-09-21
# 自己回帰手話生成:離散表現を用いたグロスフリーアプローチ

Autoregressive Sign Language Production: A Gloss-Free Approach with Discrete Representations ( http://arxiv.org/abs/2309.12179v1 )

ライセンス: Link先を確認
Eui Jun Hwang, Huije Lee, Jong C. Park(参考訳) Gloss-free Sign Language Production (SLP)は、音声言語文の手話への直接翻訳を提供する。 本稿では,手話ベクトル量子化ネットワークについて述べる。このネットワークは,手話ポーズ列から離散表現を導出するためにベクトル量子化を利用する新しいslpアプローチである。 本手法は手動と非手動の両方に根ざし,高度な復号法をサポートし,言語コヒーレンスを高めるために潜在レベルアライメントを統合する。 総合評価を通じて,従来のSLP法よりも優れた性能を示し,Back-TranslationとFr'echet Gesture Distanceの信頼性を評価指標として強調する。

Gloss-free Sign Language Production (SLP) offers a direct translation of spoken language sentences into sign language, bypassing the need for gloss intermediaries. This paper presents the Sign language Vector Quantization Network, a novel approach to SLP that leverages Vector Quantization to derive discrete representations from sign pose sequences. Our method, rooted in both manual and non-manual elements of signing, supports advanced decoding methods and integrates latent-level alignment for enhanced linguistic coherence. Through comprehensive evaluations, we demonstrate superior performance of our method over prior SLP methods and highlight the reliability of Back-Translation and Fr\'echet Gesture Distance as evaluation metrics.
翻訳日:2023-09-22 14:38:44 公開日:2023-09-21
# 創薬・開発のための説明可能な人工知能 -- 包括的調査

Explainable Artificial Intelligence for Drug Discovery and Development -- A Comprehensive Survey ( http://arxiv.org/abs/2309.12177v1 )

ライセンス: Link先を確認
Roohallah Alizadehsani, Sadiq Hussain, Rene Ripardo Calixto, Victor Hugo C. de Albuquerque, Mohamad Roshanzamir, Mohamed Rahouti, and Senthil Kumar Jagatheesaperumal(参考訳) 薬物発見の分野は、人工知能(AI)と機械学習(ML)技術の出現とともに、顕著な変革を経験してきた。 しかし、これらのAIとMLモデルはますます複雑になりつつあるため、モデルの透明性と解釈可能性の必要性が高まっている。 説明可能な人工知能(XAI)は、この問題に対処し、機械学習モデルによる予測をより解釈可能な理解を提供する新しいアプローチである。 近年,薬物発見へのXAI技術の応用への関心が高まっている。 本稿では、様々なxai法、それらの薬物発見への応用、薬物発見におけるxai技術の挑戦と限界を含む、薬物発見のためのxaiの現在の技術の概要を概観する。 論文では、ターゲット同定、複合設計、毒性予測など、薬物発見におけるXAIの適用についても取り上げている。 さらに,XAIの薬物発見への応用に向けた今後の研究方向性も示唆している。 本総論の目的は,薬物発見におけるxaiの現状と,その領域を変革する可能性に関する包括的理解を提供することである。

The field of drug discovery has experienced a remarkable transformation with the advent of artificial intelligence (AI) and machine learning (ML) technologies. However, as these AI and ML models are becoming more complex, there is a growing need for transparency and interpretability of the models. Explainable Artificial Intelligence (XAI) is a novel approach that addresses this issue and provides a more interpretable understanding of the predictions made by machine learning models. In recent years, there has been an increasing interest in the application of XAI techniques to drug discovery. This review article provides a comprehensive overview of the current state-of-the-art in XAI for drug discovery, including various XAI methods, their application in drug discovery, and the challenges and limitations of XAI techniques in drug discovery. The article also covers the application of XAI in drug discovery, including target identification, compound design, and toxicity prediction. Furthermore, the article suggests potential future research directions for the application of XAI in drug discovery. The aim of this review article is to provide a comprehensive understanding of the current state of XAI in drug discovery and its potential to transform the field.
翻訳日:2023-09-22 14:38:30 公開日:2023-09-21
# sanpo: シーンの理解、アクセシビリティ、ナビゲーション、パスファインディング、障害回避データセット

SANPO: A Scene Understanding, Accessibility, Navigation, Pathfinding, Obstacle Avoidance Dataset ( http://arxiv.org/abs/2309.12172v1 )

ライセンス: Link先を確認
Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko(参考訳) 我々は,屋外環境における密集した予測に焦点を当てた大規模エゴセントリックビデオデータセットであるsanpoを紹介する。 様々な屋外環境にまたがって収集されたステレオビデオセッションや、合成ビデオセッションが含まれる。 (合成データは並列ドメインによって提供された。) すべてのセッションには深度と度数ラベルがあります。 すべての合成セッションと実際のセッションのサブセットは、時間的に一貫した汎視的セグメンテーションラベルを持つ。 私たちの知る限り、これは大規模な汎視的セグメンテーションと深度アノテーションを備えた人間中心のビデオデータセットとしては初めてのものです。 データセットに加えて、今後の研究のためにゼロショットベースラインとSANPOベンチマークも提供します。 SANPOの挑戦的な性質は、人間のナビゲーションシステムを実現しつつ、ビデオセグメンテーション、深さ推定、マルチタスク・ビジュアル・モデリング、および合成ドメイン適応の最先端化に役立てられることを期待している。 sanpoはここで入手できる。 https://google-research-datasets.github.io/sanpo_dataset/

We introduce SANPO, a large-scale egocentric video dataset focused on dense prediction in outdoor environments. It contains stereo video sessions collected across diverse outdoor environments, as well as rendered synthetic video sessions. (Synthetic data was provided by Parallel Domain.) All sessions have (dense) depth and odometry labels. All synthetic sessions and a subset of real sessions have temporally consistent dense panoptic segmentation labels. To our knowledge, this is the first human egocentric video dataset with both large scale dense panoptic segmentation and depth annotations. In addition to the dataset we also provide zero-shot baselines and SANPO benchmarks for future research. We hope that the challenging nature of SANPO will help advance the state-of-the-art in video segmentation, depth estimation, multi-task visual modeling, and synthetic-to-real domain adaptation, while enabling human navigation systems. SANPO is available here: https://google-research-datasets.github.io/sanpo_dataset/
翻訳日:2023-09-22 14:38:13 公開日:2023-09-21
# キタエフのトーリック符号における再正規化復号器の誤差補正半径の解析

Analysis of the Error-Correcting Radius of a Renormalisation Decoder for Kitaev's Toric Code ( http://arxiv.org/abs/2309.12165v1 )

ライセンス: Link先を確認
Wouter Rozendaal and Gilles Z\'emor(参考訳) キタエフのトーリックコードはおそらく最も研究された量子コードであり、将来の量子コンピュータに実装されることが期待されている。 duclos-cianci と poulin によって導入された再正規化デコーダは、効率と速度の最良のトレードオフの1つを示しているが、オープンに残された問題のひとつは、最悪の場合や逆向きのエラーをどのように扱うか、すなわち、誤ってデコードされるエラーパターンの最小の重みの桁数である。 再正規化復号器の簡単なハード決定および決定論的バージョンを含む研究を開始する。 我々は、$d^{1/2}$のような重みがスケールしない誤りパターンを示し、デコーダが$\frac{5}{6} d^{\log_{2}(6/5)}$以下のすべてのエラーパターンを修正できることを証明する。

Kitaev's toric code is arguably the most studied quantum code and is expected to be implemented in future generations of quantum computers. The renormalisation decoders introduced by Duclos-Cianci and Poulin exhibit one of the best trade-offs between efficiency and speed, but one question that was left open is how they handle worst-case or adversarial errors, i.e. what is the order of magnitude of the smallest weight of an error pattern that will be wrongly decoded. We initiate such a study involving a simple hard-decision and deterministic version of a renormalisation decoder. We exhibit an uncorrectable error pattern whose weight scales like $d^{1/2}$ and prove that the decoder corrects all error patterns of weight less than $\frac{5}{6} d^{\log_{2}(6/5)}$, where $d$ is the minimum distance of the toric code.
翻訳日:2023-09-22 14:37:59 公開日:2023-09-21
# beyond qubits : 量子テレポーテーションのための広範囲ノイズ解析

Beyond Qubits : An Extensive Noise Analysis for Qutrit Quantum Teleportation ( http://arxiv.org/abs/2309.12163v1 )

ライセンス: Link先を確認
Arun Sebastian, Afnan. N. Mansar, N. C. Randeep(参考訳) 4つの量子ノイズのビットフリップ、位相フリップ、非分極化、振幅減衰、およびそれらの潜在的な組み合わせについて、量子テレポーテーションの量子状態を用いた研究を行った。 上記の雑音のうち、位相反転が最も忠実であるのが観察された。 非相関振幅減衰と比較すると,相関振幅減衰は2倍良くなることがわかった。 最後に、より忠実にするためには、ノイズが避けられない場合、チャネル状態に同じノイズを与えることが好ましいことに同意した。

The four quantum noises Bit Flip, Phase Flip, Depolarization, and Amplitude Damping as well as any potential combinations of them are examined in this papers investigation of quantum teleportation using qutrit states. Among the above mentioned noises, we observed phase flip has highest fidelity. Compared to uncorrelated Amplitude Damping, we find that correlated Amplitude Damping performs two times better. Finally, we agreed that, for better fidelity, it is preferable to provide the same noise in channel state if noise is unavoidable.
翻訳日:2023-09-22 14:37:38 公開日:2023-09-21
# 適応実験における最適条件推論

Optimal Conditional Inference in Adaptive Experiments ( http://arxiv.org/abs/2309.12162v1 )

ライセンス: Link先を確認
Jiafeng Chen and Isaiah Andrews(参考訳) 実験の最後のバッチまでの情報を用いて, バッチバンディット実験を行い, 実現された停止時間, 割当確率, 目標パラメータに基づく推論条件の問題を考察した。 実験のさらなる制限がないことから,最後のバッチの結果のみを用いた推論が最適であることを示す。 実験の適応的側面が位置不変であることが知られている場合、すべてのバッチアーム手段を定数でシフトする場合、それらが不変であるという意味では、バッチアーム手段の1つの追加線形関数によってキャプチャされるデータに追加情報が存在することを示す。 停止時間、割当確率、および目標パラメータが多面体イベントの集まりを通してのみデータに依存することが知られているより制限的な場合、計算可能かつ最適条件付き推論手順を導出する。

We study batched bandit experiments and consider the problem of inference conditional on the realized stopping time, assignment probabilities, and target parameter, where all of these may be chosen adaptively using information up to the last batch of the experiment. Absent further restrictions on the experiment, we show that inference using only the results of the last batch is optimal. When the adaptive aspects of the experiment are known to be location-invariant, in the sense that they are unchanged when we shift all batch-arm means by a constant, we show that there is additional information in the data, captured by one additional linear function of the batch-arm means. In the more restrictive case where the stopping time, assignment probabilities, and target parameter are known to depend on the data only through a collection of polyhedral events, we derive computationally tractable and optimal conditional inference procedures.
翻訳日:2023-09-22 14:37:28 公開日:2023-09-21
# 大規模言語モデルにおける精度計算のためのコードソリロキー

Code Soliloquies for Accurate Calculations in Large Language Models ( http://arxiv.org/abs/2309.12161v1 )

ライセンス: Link先を確認
Shashank Sonkar, MyCo Le, Xinghe Chen, Naiming Liu, Debshila Basu Mallick, Richard G. Baraniuk(参考訳) 高品質な会話データセットは、Large Language Model (LLM)バックエンドを使用するIntelligent Tutoring Systems (ITS)の開発の成功に不可欠である。 これらのデータセットは、LLMバックエンドを微調整するために使用され、学生とITS間の相互作用の質を大幅に向上させる。 これらのデータセットを開発するための一般的な戦略は、高度なGPT-4モデルを用いて合成学生と教師の対話を生成することである。 しかし、これらの対話が複雑な計算を必要とすると問題が発生する。 高度な能力にもかかわらず、gpt-4の性能は単純な乗算タスクでも確実に処理できないため、これらの課題の実用性に重大な制限がある。 これらの課題に対処するために,革新的なステートフルなプロンプト設計を提案する。 提案手法は,GPT-4でシミュレートされた学生と教師とのモックな会話を生成する。 各学生の反応はgpt-tutorbotのsoliloquy(内的モノローグ)をトリガーし、その応答が計算を必要とするかどうかを評価する。 もしそうなら、必要なコードをpythonでスクリプトし、その結果の出力を使って学生へのレスポンスを構築する。 提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。 その結果、私たちのhiggsモデルは、新しいステートフルなプロンプトデザインによって生成されたデータセットを微調整したラマであり、pythonを巧みに計算に利用しています。 その結果,コードソリロキーに富んだデータセットの微調整により,Higs応答の精度だけでなく,計算信頼性も向上した。

High-quality conversational datasets are integral to the successful development of Intelligent Tutoring Systems (ITS) that employ a Large Language Model (LLM) backend. These datasets, when used to fine-tune the LLM backend, significantly enhance the quality of interactions between students and ITS. A common strategy for developing these datasets involves generating synthetic student-teacher dialogues using advanced GPT-4 models. However, challenges arise when these dialogues demand complex calculations, common in subjects like physics. Despite its advanced capabilities, GPT-4's performance falls short in reliably handling even simple multiplication tasks, marking a significant limitation in its utility for these subjects. To address these challenges, this paper introduces an innovative stateful prompt design. Our approach generates a mock conversation between a student and a tutorbot, both roles simulated by GPT-4. Each student response triggers a soliloquy (an inner monologue) in the GPT-tutorbot, which assesses whether its response would necessitate calculations. If so, it proceeds to script the required code in Python and then uses the resulting output to construct its response to the student. Our approach notably enhances the quality of synthetic conversation datasets, especially for subjects that are calculation-intensive. Our findings show that our Higgs model -- a LLaMA finetuned with datasets generated through our novel stateful prompt design -- proficiently utilizes Python for computations. Consequently, finetuning with our datasets enriched with code soliloquies enhances not just the accuracy but also the computational reliability of Higgs' responses.
翻訳日:2023-09-22 14:37:13 公開日:2023-09-21
# 情報法医学とセキュリティ:4世紀の旅

Information Forensics and Security: A quarter-century-long journey ( http://arxiv.org/abs/2309.12159v1 )

ライセンス: Link先を確認
Mauro Barni and Patrizio Campisi and Edward J. Delp and Gwenael Do\"err and Jessica Fridrich and Nasir Memon and Fernando P\'erez-Gonz\'alez and Anderson Rocha and Luisa Verdoliva and Min Wu(参考訳) IFS(Information Forensics and Security)は、人々がデバイス、データ、知的財産を認可された目的のために使用すること、そして、加害者の責任を負うための確固たる証拠の収集を促進することを目的とする活動的な研究開発分野である。 1990年代以降、ISFの研究領域は、デジタル情報時代の社会的ニーズに対処するために大きく成長してきた。 ieee signal processing society (sps) はこの領域で重要なハブとリーダーとして登場し、以下の記事は目覚ましい技術的貢献を祝っている。 特に,研究コミュニティから過去25年間に発展してきた分野における,いくつかの焦点領域における技術進歩と今後の動向に注目した。

Information Forensics and Security (IFS) is an active R&D area whose goal is to ensure that people use devices, data, and intellectual properties for authorized purposes and to facilitate the gathering of solid evidence to hold perpetrators accountable. For over a quarter century since the 1990s, the IFS research area has grown tremendously to address the societal needs of the digital information era. The IEEE Signal Processing Society (SPS) has emerged as an important hub and leader in this area, and the article below celebrates some landmark technical contributions. In particular, we highlight the major technological advances on some selected focus areas in the field developed in the last 25 years from the research community and present future trends.
翻訳日:2023-09-22 14:36:48 公開日:2023-09-21
# ロバスト・完全大規模オーディオシート音楽検索に向けて

Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval ( http://arxiv.org/abs/2309.12158v1 )

ライセンス: Link先を確認
Luis Carvalho and Gerhard Widmer(参考訳) マルチモーダル音楽情報検索の応用範囲は、大量の楽譜コレクション(画像)を対応するオーディオ録音に接続する問題、すなわち、同じ音楽コンテンツを参照するオーディオとスコアのペアを識別する問題を中心にしている。 このタスクの典型的かつ最近のアプローチの1つは、オーディオと楽譜の2つの異なるモダリティを結びつける共同埋め込み空間を学習するために、クロスモーダルなディープラーニングアーキテクチャを採用することである。 過去数年間、この面では着実に改善されてきたが、多くの未解決問題がいまだに大規模な雇用を妨げている。 本稿では,深層学習によるオーディオシート音楽検索の現状について,洞察に富む検討を行う。 まず,実環境でのロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を明らかにする。 そして、これらの課題のいくつかに対処するために、これまでとったステップを強調します。 本研究は,モーダル音楽検索のための統一的,堅牢な方法論への道を開くために,残りの課題を分析し,これらを解決するためのアイデアを提示する。

A range of applications of multi-modal music information retrieval is centred around the problem of connecting large collections of sheet music (images) to corresponding audio recordings, that is, identifying pairs of audio and score excerpts that refer to the same musical content. One of the typical and most recent approaches to this task employs cross-modal deep learning architectures to learn joint embedding spaces that link the two distinct modalities - audio and sheet music images. While there has been steady improvement on this front over the past years, a number of open problems still prevent large-scale employment of this methodology. In this article we attempt to provide an insightful examination of the current developments on audio-sheet music retrieval via deep learning methods. We first identify a set of main challenges on the road towards robust and large-scale cross-modal music retrieval in real scenarios. We then highlight the steps we have taken so far to address some of these challenges, documenting step-by-step improvement along several dimensions. We conclude by analysing the remaining challenges and present ideas for solving these, in order to pave the way to a unified and robust methodology for cross-modal music retrieval.
翻訳日:2023-09-22 14:36:35 公開日:2023-09-21
# 修正NEATアルゴリズムに基づく時間遅延を考慮した動的システムのニューラルモデリング

Neural Modelling of Dynamic Systems with Time Delays Based on an Adjusted NEAT Algorithm ( http://arxiv.org/abs/2309.12148v1 )

ライセンス: Link先を確認
Krzysztof Laddach, Rafa{\l} {\L}angowskii(参考訳) 本稿では,時間遅延を伴う動的システムのブラックボックスモデリングに使用されるニューラルネットワークのアーキテクチャを探索するアルゴリズムの開発に関する課題について述べる。 提案アルゴリズムは、よく知られたNeuroEvolution of Augmenting Topologies (NEAT)アルゴリズムに基づいている。 NEATアルゴリズムは、人工ニューラルネットワーク内での追加接続を可能にし、元の特殊進化演算子を開発することで調整されている。 この結果、ニューラルネットワークのサイズと、それが学習された数学的モデルの応答を捉えるための精度との間に妥協が生じた。 この研究は、加圧水型原子炉で発生する高速プロセスと同様に、模範システムの数学的モデルから生成されたデータに基づく拡張検証研究を含んでいた。 シミュレーション結果を得た結果,時間遅延を持つ動的システムのニューラル(ブラックボックス)モデルの有効性が示された。

A problem related to the development of an algorithm designed to find an architecture of artificial neural network used for black-box modelling of dynamic systems with time delays has been addressed in this paper. The proposed algorithm is based on a well-known NeuroEvolution of Augmenting Topologies (NEAT) algorithm. The NEAT algorithm has been adjusted by allowing additional connections within an artificial neural network and developing original specialised evolutionary operators. This resulted in a compromise between the size of neural network and its accuracy in capturing the response of the mathematical model under which it has been learnt. The research involved an extended validation study based on data generated from a mathematical model of an exemplary system as well as the fast processes occurring in a pressurised water nuclear reactor. The obtaining simulation results demonstrate the high effectiveness of the devised neural (black-box) models of dynamic systems with time delays.
翻訳日:2023-09-22 14:36:15 公開日:2023-09-21
# SupeRBNN:Adiabatic Superconductor Josephson Devicesを用いたランダム二元ニューラルネットワーク

SupeRBNN: Randomized Binary Neural Network Using Adiabatic Superconductor Josephson Devices ( http://arxiv.org/abs/2309.12212v1 )

ライセンス: Link先を確認
Zhengang Li, Geng Yuan, Tomoharu Yamauchi, Zabihi Masoud, Yanyue Xie, Peiyan Dong, Xulong Tang, Nobuyuki Yoshikawa, Devesh Tiwari, Yanzhi Wang, Olivia Chen(参考訳) AQFP(Adiabatic Quantum-Flux-Parametron)は、超高エネルギー効率の超伝導論理である。 AQFPデバイスは、論理「0」と「1」を表すために電流の異なる極性を利用することで、バイナリニューラルネットワーク(BNN)計算のための優れたキャリアとして機能する。 最近の研究は、AQFPベースのBNNアクセラレータの開発に最初の一歩を踏み出したが、いくつかの重要な課題が残っており、設計が包括的な解決策にならないようにしている。 本稿では,AQFPベースのランダム化BNNアクセラレーションフレームワークであるSupeRBNNを提案する。 具体的には、AQFPデバイスのランダム化動作を調査し、クロスバーサイズが電流減衰に与える影響を分析し、その後BNN計算に適する値に電流振幅を定式化する。 蓄積問題に取り組み、ハードウェア全体の性能を向上させるため、確率計算に基づく集積モジュールとクロック方式の調整に基づく回路最適化手法を提案する。 SupeRBNNフレームワークは、CMOS、ReRAM、超伝導SFQ/ERSFQなど、さまざまな技術に基づく実装と比較し、さまざまなデータセットやネットワークアーキテクチャにまたがって検証する。 実験の結果,本設計はモデル精度を保ちつつ,レラムベースのbnnフレームワークよりも約7.8×10^4高いエネルギー効率が得られることがわかった。 さらに, 超伝導系と比較して, 少なくとも2桁以上のエネルギー効率を示す。

Adiabatic Quantum-Flux-Parametron (AQFP) is a superconducting logic with extremely high energy efficiency. By employing the distinct polarity of current to denote logic `0' and `1', AQFP devices serve as excellent carriers for binary neural network (BNN) computations. Although recent research has made initial strides toward developing an AQFP-based BNN accelerator, several critical challenges remain, preventing the design from being a comprehensive solution. In this paper, we propose SupeRBNN, an AQFP-based randomized BNN acceleration framework that leverages software-hardware co-optimization to eventually make the AQFP devices a feasible solution for BNN acceleration. Specifically, we investigate the randomized behavior of the AQFP devices and analyze the impact of crossbar size on current attenuation, subsequently formulating the current amplitude into the values suitable for use in BNN computation. To tackle the accumulation problem and improve overall hardware performance, we propose a stochastic computing-based accumulation module and a clocking scheme adjustment-based circuit optimization method. We validate our SupeRBNN framework across various datasets and network architectures, comparing it with implementations based on different technologies, including CMOS, ReRAM, and superconducting RSFQ/ERSFQ. Experimental results demonstrate that our design achieves an energy efficiency of approximately 7.8x10^4 times higher than that of the ReRAM-based BNN framework while maintaining a similar level of model accuracy. Furthermore, when compared with superconductor-based counterparts, our framework demonstrates at least two orders of magnitude higher energy efficiency.
翻訳日:2023-09-22 14:30:23 公開日:2023-09-21
# 物理インフォームド状態空間ニューラルネットワークによる輸送現象の解析

Physics-informed State-space Neural Networks for Transport Phenomena ( http://arxiv.org/abs/2309.12211v1 )

ライセンス: Link先を確認
Akshay J Dave and Richard B. Vilim(参考訳) 物理インフォームドステートスペースニューラルネットワークモデル(PSMs)は、特に化学、生物医学、発電所などの輸送支配システムにおいて、自律システムのリアルタイム最適化、柔軟性、耐故障性を達成するための新しいソリューションである。 psmsは、センサーデータを用いたディープニューラルネットワークのトレーニングと、コンポーネントの偏微分方程式(pdes)を用いた物理インフォーメーションによってこの問題に対処し、その結果、物理学的に制約されたエンドツーエンドの微分可能なフォワードダイナミクスモデルとなる。 加熱チャネルと冷却システムループの2つのサイリコ実験を通じて、PSMが純粋にデータ駆動モデルよりも正確なアプローチを提供することを示した。 正確性を超えて、psmにはいくつかの説得力のあるユースケースがある。 本研究では、逐次的に更新された状態空間表現による非線形監視コントローラの作成と、各PDEからの残差を用いた診断アルゴリズムを提案する。 前者はPSMが一定の制約と時間依存の制約の両方を扱う能力を示し、後者はシステム診断と障害検出におけるその価値を示している。 我々はさらに、PSMがデジタルツインの基盤として機能し、物理システムのデジタル表現を常に更新できると考えている。

This work introduces Physics-informed State-space neural network Models (PSMs), a novel solution to achieving real-time optimization, flexibility, and fault tolerance in autonomous systems, particularly in transport-dominated systems such as chemical, biomedical, and power plants. Traditional data-driven methods fall short due to a lack of physical constraints like mass conservation; PSMs address this issue by training deep neural networks with sensor data and physics-informing using components' Partial Differential Equations (PDEs), resulting in a physics-constrained, end-to-end differentiable forward dynamics model. Through two in silico experiments - a heated channel and a cooling system loop - we demonstrate that PSMs offer a more accurate approach than purely data-driven models. Beyond accuracy, there are several compelling use cases for PSMs. In this work, we showcase two: the creation of a nonlinear supervisory controller through a sequentially updated state-space representation and the proposal of a diagnostic algorithm using residuals from each of the PDEs. The former demonstrates the ability of PSMs to handle both constant and time-dependent constraints, while the latter illustrates their value in system diagnostics and fault detection. We further posit that PSMs could serve as a foundation for Digital Twins, constantly updated digital representations of physical systems.
翻訳日:2023-09-22 14:29:56 公開日:2023-09-21
# Boolformer: トランスフォーマーを用いた論理関数のシンボリック回帰

Boolformer: Symbolic Regression of Logic Functions with Transformers ( http://arxiv.org/abs/2309.12207v1 )

ライセンス: Link先を確認
St\'ephane d'Ascoli, Samy Bengio, Josh Susskind, Emmanuel Abb\'e(参考訳) 本稿では,ブール関数の終端から終端までのシンボルレグレッションをトレーニングした最初のTransformerアーキテクチャであるBoolformerを紹介する。 まず,クリーンな真理表を提供する際に,訓練中に見られなかった複素関数のコンパクトな公式を予測できることを示す。 そして,不完全でノイズの多い観測を行った場合,近似式を求める能力を示す。 実世界のバイナリ分類データセットの幅広いセット上でboolformerを評価し,従来の機械学習手法に代わる解釈可能な選択肢としての可能性を示す。 最後に、遺伝子制御ネットワークのダイナミクスをモデル化する広範囲な課題に適用する。 最近のベンチマークから、Boolformerは最先端の遺伝的アルゴリズムと、数桁のスピードアップで競合することを示した。 私たちのコードとモデルは公開されています。

In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
翻訳日:2023-09-22 14:29:33 公開日:2023-09-21
# フローケット画像における動的支援トンネル

Dynamically Assisted Tunneling in the Floquet Picture ( http://arxiv.org/abs/2309.12205v1 )

ライセンス: Link先を確認
Daniil Ryndyk, Christian Kohlf\"urst, Friedemann Queisser, Ralf Sch\"utzhold(参考訳) ポテンシャル障壁$V(x)$のトンネルは、さらに調和振動する電場${\mathfrak E}(t)={\mathfrak E}_0\cos(\omega t)$によってどのように拡張できるかを研究する。 この目的のために、Kramers-Hennebergerフレームに変換し、結合されたFloquetチャネルを数値的に計算する。 入射エネルギー $e$ が駆動周波数 $\omega=e$ に等しいとき、共鳴の異なるシグネチャを見つける。 実験応用(例えば固体物理学)のための単純なモデルとして、解析結果に関してベンチマークできる長方形ポテンシャルの研究を行う。 最後に,核融合に関連するクーロンポテンシャルについて考察する。

We study how tunneling through a potential barrier $V(x)$ can be enhanced by an additional harmonically oscillating electric field ${\mathfrak E}(t)={\mathfrak E}_0\cos(\omega t)$. To this end, we transform into the Kramers-Henneberger frame and calculate the coupled Floquet channels numerically. We find distinct signatures of resonances when the incident energy $E$ equals the driving frequency $\omega=E$ which clearly shows the breakdown of the time-averaged potential approximation. As a simple model for experimental applications (e.g., in solid state physics), we study the rectangular potential, which can also be benchmarked with respect to analytical results. Finally, we consider the truncated Coulomb potential relevant for nuclear fusion.
翻訳日:2023-09-22 14:29:18 公開日:2023-09-21
# 深層学習を用いた脳腫瘍検出

Brain Tumor Detection Using Deep Learning Approaches ( http://arxiv.org/abs/2309.12193v1 )

ライセンス: Link先を確認
Razia Sultana Misu(参考訳) 脳腫瘍は異常な細胞の集合体で、塊やクラスターに成長する。 他の組織に潜入する可能性があるため、患者にリスクをもたらす。 使用される主な画像技術であるMRIは、精度で脳腫瘍を特定できるかもしれない。 コンピュータビジョンアプリケーションにおけるディープラーニング手法の迅速な開発は、膨大なトレーニングデータとモデル構築の改善によって促進され、教師付き環境での近似性が向上した。 これらのアプローチの必要性は、この拡張の主因となっている。 深層学習法は、MRI(MRI)を用いて脳腫瘍の検出と分類の精度を向上させることを約束している。 脳腫瘍同定のための深層学習技術、特にresnet50の使用に関する研究は、この要約で示されている。 その結果,深層学習手法を用いた検出手順の自動化の可能性について検討した。 本研究では,VGG16,VGG19,DenseNet121,ResNet50,YOLOV4の5つの伝達学習モデルを用いて,ResNet50が最高の,あるいは最も高い精度の99.54%を提供する。 本研究の目的は、この評価と分析によって深層学習アプローチを用いて、研究者や医療専門家を強力な脳腫瘍検出システムへと導くことである。

Brain tumors are collections of abnormal cells that can develop into masses or clusters. Because they have the potential to infiltrate other tissues, they pose a risk to the patient. The main imaging technique used, MRI, may be able to identify a brain tumor with accuracy. The fast development of Deep Learning methods for use in computer vision applications has been facilitated by a vast amount of training data and improvements in model construction that offer better approximations in a supervised setting. The need for these approaches has been the main driver of this expansion. Deep learning methods have shown promise in improving the precision of brain tumor detection and classification using magnetic resonance imaging (MRI). The study on the use of deep learning techniques, especially ResNet50, for brain tumor identification is presented in this abstract. As a result, this study investigates the possibility of automating the detection procedure using deep learning techniques. In this study, I utilized five transfer learning models which are VGG16, VGG19, DenseNet121, ResNet50 and YOLO V4 where ResNet50 provide the best or highest accuracy 99.54%. The goal of the study is to guide researchers and medical professionals toward powerful brain tumor detecting systems by employing deep learning approaches by way of this evaluation and analysis.
翻訳日:2023-09-22 14:28:47 公開日:2023-09-21
# SG-Bot: シーングラフ上の粗いロボットイマジネーションによるオブジェクト再構成

SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs ( http://arxiv.org/abs/2309.12188v1 )

ライセンス: Link先を確認
Guangyao Zhai, Xiaoni Cai, Dianye Huang, Yan Di, Fabian Manhardt, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) オブジェクトの再配置は、ロボットと環境の相互作用において重要なものであり、AIを具現化する重要な能力を示している。 本稿では,シーングラフをシーン表現として用いた粗粒度スキームを用いた新しい再構成フレームワークであるSG-Botを提案する。 既知の目標優先またはゼロショットの大型モデルに依存する従来の方法とは異なり、sg-botは軽量、リアルタイム、ユーザー制御可能な特性を例示し、常識知識と自動生成能力の考慮をシームレスに組み合わせている。 SG-Botは3倍のプロシージャ – 観察,想像,実行 – を使って,タスクに順応的に対処する。 当初、物体は観察中に散らかったシーンから識別され、抽出される。 これらのオブジェクトはまず、コモンセンスまたはユーザー定義の基準によって導かれるシーングラフ内で粗く整理され、描写される。 その後、このシーングラフは生成モデルに通知し、初期シーンからの形状情報とオブジェクトの意味性を考慮した微粒なゴールシーンを形成する。 最後に、実行のために、初期および想定されたゴールシーンは、ロボットアクションポリシーを定式化するために一致します。 実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。

Object rearrangement is pivotal in robotic-environment interactions, representing a significant capability in embodied AI. In this paper, we present SG-Bot, a novel rearrangement framework that utilizes a coarse-to-fine scheme with a scene graph as the scene representation. Unlike previous methods that rely on either known goal priors or zero-shot large models, SG-Bot exemplifies lightweight, real-time, and user-controllable characteristics, seamlessly blending the consideration of commonsense knowledge with automatic generation capabilities. SG-Bot employs a three-fold procedure--observation, imagination, and execution--to adeptly address the task. Initially, objects are discerned and extracted from a cluttered scene during the observation. These objects are first coarsely organized and depicted within a scene graph, guided by either commonsense or user-defined criteria. Then, this scene graph subsequently informs a generative model, which forms a fine-grained goal scene considering the shape information from the initial scene and object semantics. Finally, for execution, the initial and envisioned goal scenes are matched to formulate robotic action policies. Experimental results demonstrate that SG-Bot outperforms competitors by a large margin.
翻訳日:2023-09-22 14:28:27 公開日:2023-09-21
# ORTexME: 時間平均テクスチャとメッシュエンコーディングによる閉塞型人体形状とポース

ORTexME: Occlusion-Robust Human Shape and Pose via Temporal Average Texture and Mesh Encoding ( http://arxiv.org/abs/2309.12183v1 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Robby T. Tan(参考訳) 3次元人間の形状と単眼ビデオからのポーズ推定では、限定ラベル付きデータで訓練されたモデルは、野生のビデオでよく見られる閉塞のあるビデオにはうまく一般化できない。 近年の人間のニューラルレンダリングアプローチは、既成の人間の形状とポーズ法によって初期化された新しいビュー合成に焦点を当てており、初期人の形状を補正する可能性がある。 しかし,既存の手法には,オクルージョン処理の誤り,不正確な人間のセグメンテーションに敏感な,非正規化不透明度場による損失計算などの欠点がある。 これらの問題に対処するために、ORTexMEは、入力ビデオからの時間情報を利用して、閉塞した身体部分の規則化を改善する。 ORTexMEは、NeRFをベースとして、NeRFサンプリングの信頼性の高い領域を判定する一方で、新しい平均テクスチャ学習手法を用いて、人の平均外観を学習し、平均テクスチャに基づいてマスクを推測する。 また,NeRFにおける不透明領域更新を誘導し,ぼやけや騒音を抑制するため,人体メッシュの利用を提案する。 本手法は,マルチパーソン3dpwデータセットにおいて,1.8p-mpjpe誤差を低減できるという大きな改善が得られた。 SOTAレンダリングベースのメソッドは、同じデータセット上でエラーを5.6まで拡大する。

In 3D human shape and pose estimation from a monocular video, models trained with limited labeled data cannot generalize well to videos with occlusion, which is common in the wild videos. The recent human neural rendering approaches focusing on novel view synthesis initialized by the off-the-shelf human shape and pose methods have the potential to correct the initial human shape. However, the existing methods have some drawbacks such as, erroneous in handling occlusion, sensitive to inaccurate human segmentation, and ineffective loss computation due to the non-regularized opacity field. To address these problems, we introduce ORTexME, an occlusion-robust temporal method that utilizes temporal information from the input video to better regularize the occluded body parts. While our ORTexME is based on NeRF, to determine the reliable regions for the NeRF ray sampling, we utilize our novel average texture learning approach to learn the average appearance of a person, and to infer a mask based on the average texture. In addition, to guide the opacity-field updates in NeRF to suppress blur and noise, we propose the use of human body mesh. The quantitative evaluation demonstrates that our method achieves significant improvement on the challenging multi-person 3DPW dataset, where our method achieves 1.8 P-MPJPE error reduction. The SOTA rendering-based methods fail and enlarge the error up to 5.6 on the same dataset.
翻訳日:2023-09-22 14:28:09 公開日:2023-09-21
# マルチコアアーキテクチャにおける最適化量子回路マッピングのためのハンガリー量子ビット割り当て

Hungarian Qubit Assignment for Optimized Mapping of Quantum Circuits on Multi-Core Architectures ( http://arxiv.org/abs/2309.12182v1 )

ライセンス: Link先を確認
Pau Escofet, Anabel Ovide, Carmen G. Almudever, Eduard Alarc\'on, and Sergi Abadal(参考訳) モジュラー量子コンピューティングアーキテクチャは、現在の量子コンピュータのスケーリング制限を克服するために、モノリシックな設計に代わる有望な選択肢を提供する。 小さなプロトタイプ以上のスケーラビリティを実現するために、量子アーキテクチャは、これらのクラスタ間のスペーサー接続を備えた密結合量子ビットのクラスタを特徴とするモジュラーアプローチを採用することが期待されている。 複数の処理コアにキュービットを効率よく分散させることは、量子コンピューティングシステムの性能とスケーラビリティを向上させる上で重要である。 この課題に対処するために,我々は,ハンガリーのアルゴリズムを利用して量子ビットからコアへの割り当てを改善する,ハンガリーの量子ビット割り当て(hqa)アルゴリズムを提案する。 hqaアルゴリズムは、回路全体のキュービット間の相互作用を考慮し、きめ細かなパーティショニングと量子ビット利用の強化を可能にする。 実世界の量子アルゴリズムとランダム量子回路を用いた包括的実験を通じて,hqaアルゴリズムと最先端の代替手法を比較した。 その結果,提案手法は従来の手法よりも優れており,平均的な改善率は1.28$\times$であった。

Modular quantum computing architectures offer a promising alternative to monolithic designs for overcoming the scaling limitations of current quantum computers. To achieve scalability beyond small prototypes, quantum architectures are expected to adopt a modular approach, featuring clusters of tightly connected quantum bits with sparser connections between these clusters. Efficiently distributing qubits across multiple processing cores is critical for improving quantum computing systems' performance and scalability. To address this challenge, we propose the Hungarian Qubit Assignment (HQA) algorithm, which leverages the Hungarian algorithm to improve qubit-to-core assignment. The HQA algorithm considers the interactions between qubits over the entire circuit, enabling fine-grained partitioning and enhanced qubit utilization. We compare the HQA algorithm with state-of-the-art alternatives through comprehensive experiments using both real-world quantum algorithms and random quantum circuits. The results demonstrate the superiority of our proposed approach, outperforming existing methods, with an average improvement of 1.28$\times$.
翻訳日:2023-09-22 14:27:42 公開日:2023-09-21
# qaoaのグローバル最適化

Restricted Global Optimization for QAOA ( http://arxiv.org/abs/2309.12181v1 )

ライセンス: Link先を確認
Peter Glei{\ss}ner, Georg Kruse, and Andreas Ro{\ss}kopf(参考訳) 量子近似最適化アルゴリズム(qaoa)は、npハードコンビネート最適化問題に対処するための有望な変分量子アルゴリズムとして登場した。 しかしながら、古典的なパラメータの最適化には大きな制限があり、それ自体はnpの難しい問題である。 この障害を回避するため、初期化ヒューリスティックス、改良された問題エンコーディング、有益な問題スケーリングが提案されている。 このような戦略はQAOAの性能をさらに向上させるが、残りの問題はローカルオプティマイザの唯一の活用である。 局所最適化手法はQAOAの複雑なコスト環境において本質的に不十分であることを示す。 代わりに、グローバル最適化技術は様々な問題インスタンスにわたるQAOAのパフォーマンスを大幅に改善する。 グローバル最適化は通常、高い機能評価を必要とするが、制限されたグローバルオプティマイザが、機能評価を超過することなく、いかに優れた性能を示すかを示す。

The Quantum Approximate Optimization Algorithm (QAOA) has emerged as a promising variational quantum algorithm for addressing NP hard combinatorial optimization problems. However, a significant limitation lies in optimizing its classical parameters, which is in itself an NP hard problem. To circumvent this obstacle, initialization heuristics, enhanced problem encodings and beneficial problem scalings have been proposed. While such strategies further improve QAOA's performance, their remaining problem is the sole utilization of local optimizers. We show that local optimization methods are inherently inadequate within the complex cost landscape of QAOA. Instead, global optimization techniques greatly improve QAOA's performance across diverse problem instances. While global optimization generally requires high numbers of function evaluations, we demonstrate how restricted global optimizers still show better performance without requiring an exceeding amount of function evaluations.
翻訳日:2023-09-22 14:27:23 公開日:2023-09-21
# 非パラメトリック隠れマルコフモデルを用いたモデルベースクラスタリング

Model-based Clustering using Non-parametric Hidden Markov Models ( http://arxiv.org/abs/2309.12238v1 )

ライセンス: Link先を確認
Elisabeth Gassiat, Ibrahim Kaddouri, Zacharie Naulet(参考訳) 依存構造のおかげで、非パラメトリックハイデンマルコフモデル(HMM)は群分布を指定せずにモデルベースのクラスタリングを処理できる。 本研究の目的は,HMMを用いたクラスタリングのベイズリスクを調査し,関連するクラスタリング手順を提案することである。 まず,分類のベイズリスクとクラスタリングのベイズリスクを結びつけ,クラスタリングタスクの難易度を決定するキー量を特定する。 我々はまた、この結果が独立した関心を持つかもしれないi.i.d.フレームワークで証明する。 次に,プラグイン分類器の過度なリスクについて検討する。 これらの結果は、観測が順次クラスタ化されるオンライン環境では有効であることが示されている。 シミュレーションは我々の発見を示しています。

Thanks to their dependency structure, non-parametric Hidden Markov Models (HMMs) are able to handle model-based clustering without specifying group distributions. The aim of this work is to study the Bayes risk of clustering when using HMMs and to propose associated clustering procedures. We first give a result linking the Bayes risk of classification and the Bayes risk of clustering, which we use to identify the key quantity determining the difficulty of the clustering task. We also give a proof of this result in the i.i.d. framework, which might be of independent interest. Then we study the excess risk of the plugin classifier. All these results are shown to remain valid in the online setting where observations are clustered sequentially. Simulations illustrate our findings.
翻訳日:2023-09-22 14:21:09 公開日:2023-09-21
# t-EER:パラメータフリータンデムによる対策と生体比較器の評価

t-EER: Parameter-Free Tandem Evaluation of Countermeasures and Biometric Comparators ( http://arxiv.org/abs/2309.12237v1 )

ライセンス: Link先を確認
Tomi Kinnunen, Kong Aik Lee, Hemlata Tak, Nicholas Evans, Andreas Nautsch(参考訳) プレゼンテーション攻撃(スプーフィング)検出(PAD)は通常、生体認証と併用して、スプーフィング攻撃の際の信頼性を向上させる。 2つのサブシステムは、信頼できる生体認証の1つのタスクを解決するためにタンデムで動作するが、異なる検出タスクに対処するため、通常は別々に評価される。 証拠は、このアプローチが最適でないことを示している。 そこで本研究では,生体認証を併用したPADソリューションのジョイント評価のための新しい指標を提案する。 近年提案されているタンデム検出コスト関数とは対照的に,新しいタンデム等誤差率(t-EER)はパラメータフリーである。 にもかかわらず、2つの分類器の組み合わせは、偽アラームとミス率が等しく、攻撃の頻度にも依存する操作点の \emph{set} につながる。 そこで我々は,攻撃の頻度に限りないユニークな操作点である \emph{concurrent} t-eer を導入する。 音声バイオメトリックス応用のための実得点と同様に、モダリティ(および応用)に無依存なシミュレーションスコアを用い、攻撃下の幅広いバイオメトリックシステム評価へのt-eerの適用を実証する。 提案手法はPADシステムとバイオメトリックコンパレータのタンデム評価のための強力な候補指標である。

Presentation attack (spoofing) detection (PAD) typically operates alongside biometric verification to improve reliablity in the face of spoofing attacks. Even though the two sub-systems operate in tandem to solve the single task of reliable biometric verification, they address different detection tasks and are hence typically evaluated separately. Evidence shows that this approach is suboptimal. We introduce a new metric for the joint evaluation of PAD solutions operating in situ with biometric verification. In contrast to the tandem detection cost function proposed recently, the new tandem equal error rate (t-EER) is parameter free. The combination of two classifiers nonetheless leads to a \emph{set} of operating points at which false alarm and miss rates are equal and also dependent upon the prevalence of attacks. We therefore introduce the \emph{concurrent} t-EER, a unique operating point which is invariable to the prevalence of attacks. Using both modality (and even application) agnostic simulated scores, as well as real scores for a voice biometrics application, we demonstrate application of the t-EER to a wide range of biometric system evaluations under attack. The proposed approach is a strong candidate metric for the tandem evaluation of PAD systems and biometric comparators.
翻訳日:2023-09-22 14:20:57 公開日:2023-09-21
# Smooth ECE: Kernel Smoothingによる原則的信頼性図

Smooth ECE: Principled Reliability Diagrams via Kernel Smoothing ( http://arxiv.org/abs/2309.12236v1 )

ライセンス: Link先を確認
Jaros{\l}aw B{\l}asiok, Preetum Nakkiran(参考訳) キャリブレーション測度と信頼性図は確率予測器のキャリブレーションを測定し解釈するための2つの基本的なツールである。 校正尺度はミスキャリブレーションの程度を定量化し、信頼性図はこのミスキャリブレーションの構造を可視化する。 しかしながら、信頼性ダイアグラムとキャリブレーション対策 (binning と ECE) の最も一般的な構成は、どちらもよく知られた欠陥(例えば不連続性)に悩まされている。 まず、RBFカーネルを用いて観測を滑らかにし、次に、この滑らかな関数の期待校正誤差(ECE)を計算する。 本手法は,帯域幅を慎重に選択することで, (b{\l}asiok, gopalan, hu, and nakkiran 2023a) という意味で十分に把握できるキャリブレーション尺度が得られることを証明した。 これをSmoothECEと呼ぶ。 さらに、この滑らかな関数から得られる信頼性図は、BinnedECEを符号化したバイナリ信頼性図と同様に、SmoothECEを視覚的に符号化する。 キャリブレーションの測定とプロットのためのシンプルなハイパーパラメータフリーメソッドを備えたPythonパッケージも提供しています。

Calibration measures and reliability diagrams are two fundamental tools for measuring and interpreting the calibration of probabilistic predictors. Calibration measures quantify the degree of miscalibration, and reliability diagrams visualize the structure of this miscalibration. However, the most common constructions of reliability diagrams and calibration measures -- binning and ECE -- both suffer from well-known flaws (e.g. discontinuity). We show that a simple modification fixes both constructions: first smooth the observations using an RBF kernel, then compute the Expected Calibration Error (ECE) of this smoothed function. We prove that with a careful choice of bandwidth, this method yields a calibration measure that is well-behaved in the sense of (B{\l}asiok, Gopalan, Hu, and Nakkiran 2023a) -- a consistent calibration measure. We call this measure the SmoothECE. Moreover, the reliability diagram obtained from this smoothed function visually encodes the SmoothECE, just as binned reliability diagrams encode the BinnedECE. We also provide a Python package with simple, hyperparameter-free methods for measuring and plotting calibration: `pip install relplot\`.
翻訳日:2023-09-22 14:20:36 公開日:2023-09-21
# モダリティと言語の両方のギャップを埋める: 音声翻訳と音声認識のための同期バイリンガルCTC

Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition ( http://arxiv.org/abs/2309.12234v1 )

ライセンス: Link先を確認
Chen Xu, Xiaoqian Liu, Erfeng He, Yuhao Zhang, Qianqian Dong, Tong Xiao, Jingbo Zhu, Dapeng Man, Wu Yang(参考訳) 本研究では,音声翻訳(ST)タスクにおけるモダリティと言語の両方のギャップを埋めるために,二重CTCを活用する革新的なフレームワークである,同期バイリンガル接続性時間分類(CTC)を提案する。 CTCの同時目的として書き起こしと翻訳を利用することで,音声とテキストのギャップと,ソース言語とターゲット言語とのギャップを橋渡しする。 CTC応用の最近の進歩に基づき,資源制約シナリオ下での MuST-C ST ベンチマーク上での最先端性能を確立する改良型 BiL-CTC+ を開発した。 興味深いことに,本手法は音声認識性能を大幅に向上させ,言語間学習が転写に与える影響を明らかにし,その広範な適用性を示した。 ソースコードはhttps://github.com/xuchennlp/S2Tで入手できる。

In this study, we present synchronous bilingual Connectionist Temporal Classification (CTC), an innovative framework that leverages dual CTC to bridge the gaps of both modality and language in the speech translation (ST) task. Utilizing transcript and translation as concurrent objectives for CTC, our model bridges the gap between audio and text as well as between source and target languages. Building upon the recent advances in CTC application, we develop an enhanced variant, BiL-CTC+, that establishes new state-of-the-art performances on the MuST-C ST benchmarks under resource-constrained scenarios. Intriguingly, our method also yields significant improvements in speech recognition performance, revealing the effect of cross-lingual learning on transcription and demonstrating its broad applicability. The source code is available at https://github.com/xuchennlp/S2T.
翻訳日:2023-09-22 14:20:13 公開日:2023-09-21
# Smooth Nash Equilibria:アルゴリズムと複雑さ

Smooth Nash Equilibria: Algorithms and Complexity ( http://arxiv.org/abs/2309.12226v1 )

ライセンス: Link先を確認
Constantinos Daskalakis and Noah Golowich and Nika Haghtalab and Abhishek Shetty(参考訳) ナッシュ均衡の概念の根本的な欠点は計算の難易度であり、正規形式ゲームにおけるナッシュ平衡の近似はPPADハードである。 本稿では、滑らかな解析のアイデアに触発されて、滑らかなパラメータ$\sigma$-smooth Nash平衡と呼ばれる緩和されたナッシュ均衡を導入します。 シュモース・ナッシュ均衡(英語版)では、プレイヤーは任意の固定アクションに対して(シュモース・ナッシュによってパラメータ化されるような)過剰な質量を課さない分布であるシュモース戦略(英語版)への最善の逸脱を少なくとも達成する必要がある。 強固な$\sigma$-smooth nash equilibria は、プレイヤーが均衡プレイの下で$\sigma$-smooth戦略をプレイすることを要求され、弱の$\sigma$-smooth nash equilibria はそのような要求がない。 弱および強の$\sigma$-smooth Nash平衡がナッシュ平衡よりも優れた計算特性を持つことを示す:$\sigma$と近似パラメータ$\epsilon$とプレイヤー数はすべて定数であるとき、正規形式ゲームにおいて弱の$\epsilon$-approximate$\sigma$-smooth Nash平衡を求める定数時間ランダム化アルゴリズムが存在する。 同じパラメータ体系では、正規形式ゲームにおいて強い$\epsilon$-approximate $\sigma$-smooth Nash平衡を求める多項式時間決定論的アルゴリズムが存在する。 これらの結果は、準ポリノミアル時間よりも高速に動作できない$\epsilon$-approximate Nash平衡の最適アルゴリズムとは対照的である。 上限を補うために、$\sigma$ または $\epsilon$ が逆多項式であるとき、弱 $\epsilon$-approximate $\sigma$-smooth nash equilibria を見つけることは計算的に難解になることを示す。

A fundamental shortcoming of the concept of Nash equilibrium is its computational intractability: approximating Nash equilibria in normal-form games is PPAD-hard. In this paper, inspired by the ideas of smoothed analysis, we introduce a relaxed variant of Nash equilibrium called $\sigma$-smooth Nash equilibrium, for a smoothness parameter $\sigma$. In a $\sigma$-smooth Nash equilibrium, players only need to achieve utility at least as high as their best deviation to a $\sigma$-smooth strategy, which is a distribution that does not put too much mass (as parametrized by $\sigma$) on any fixed action. We distinguish two variants of $\sigma$-smooth Nash equilibria: strong $\sigma$-smooth Nash equilibria, in which players are required to play $\sigma$-smooth strategies under equilibrium play, and weak $\sigma$-smooth Nash equilibria, where there is no such requirement. We show that both weak and strong $\sigma$-smooth Nash equilibria have superior computational properties to Nash equilibria: when $\sigma$ as well as an approximation parameter $\epsilon$ and the number of players are all constants, there is a constant-time randomized algorithm to find a weak $\epsilon$-approximate $\sigma$-smooth Nash equilibrium in normal-form games. In the same parameter regime, there is a polynomial-time deterministic algorithm to find a strong $\epsilon$-approximate $\sigma$-smooth Nash equilibrium in a normal-form game. These results stand in contrast to the optimal algorithm for computing $\epsilon$-approximate Nash equilibria, which cannot run in faster than quasipolynomial-time. We complement our upper bounds by showing that when either $\sigma$ or $\epsilon$ is an inverse polynomial, finding a weak $\epsilon$-approximate $\sigma$-smooth Nash equilibria becomes computationally intractable.
翻訳日:2023-09-22 14:19:55 公開日:2023-09-21
# 医療ビデオからの健康問題への回答に向けて:データセットとアプローチ

Towards Answering Health-related Questions from Medical Videos: Datasets and Approaches ( http://arxiv.org/abs/2309.12224v1 )

ライセンス: Link先を確認
Deepak Gupta, Kush Attal, and Dina Demner-Fushman(参考訳) オンラインビデオの可用性が向上したことで、情報や知識へのアクセス方法が変わりました。 多くの個人が、特定のタスクを達成するための一連のステップバイステップの手順を提供するため、指導ビデオを好むようになった。 医療領域からの指導ビデオは、第一支援、救急、および医療教育に関する質問に対する最良の視覚的回答を提供することができる。 そこで本研究では,医療ビデオからの視覚的回答を提供することにより,公衆の質問に答えることに焦点をあてる。 医療分野における大規模なデータセットの不足は、公衆の健康に関する質問に役立てるアプリケーションの開発を妨げる重要な課題である。 この問題に対処するため、私たちはまず、HealthVidQA-CRFとHealthVidQA-Promptという2つの大規模データセットを作成するパイプライン化アプローチを提案しました。 その後,医療映像から自然言語質問への視覚的回答を効果的に提供できるモノモーダルおよびマルチモーダルアプローチを提案した。 その結果を総合的に分析し、モデルトレーニングにおけるデータセットの影響と、モノモーダルおよびマルチモーダルアプローチの性能向上における視覚的特徴の重要性に着目した。 以上の結果から,これらのデータセットは,医学的視覚応答の局所化タスクの性能を高める可能性があり,事前訓練された言語ビジョンモデルを用いて,さらなるパフォーマンス向上を期待できると考えられる。

The increase in the availability of online videos has transformed the way we access information and knowledge. A growing number of individuals now prefer instructional videos as they offer a series of step-by-step procedures to accomplish particular tasks. The instructional videos from the medical domain may provide the best possible visual answers to first aid, medical emergency, and medical education questions. Toward this, this paper is focused on answering health-related questions asked by the public by providing visual answers from medical videos. The scarcity of large-scale datasets in the medical domain is a key challenge that hinders the development of applications that can help the public with their health-related questions. To address this issue, we first proposed a pipelined approach to create two large-scale datasets: HealthVidQA-CRF and HealthVidQA-Prompt. Later, we proposed monomodal and multimodal approaches that can effectively provide visual answers from medical videos to natural language questions. We conducted a comprehensive analysis of the results, focusing on the impact of the created datasets on model training and the significance of visual features in enhancing the performance of the monomodal and multi-modal approaches. Our findings suggest that these datasets have the potential to enhance the performance of medical visual answer localization tasks and provide a promising future direction to further enhance the performance by using pre-trained language-vision models.
翻訳日:2023-09-22 14:18:59 公開日:2023-09-21
# THz系における物質から光へのコヒーレント不調和移動

Coherent anharmonicity transfer from matter to light in the THz regime ( http://arxiv.org/abs/2309.12216v1 )

ライセンス: Link先を確認
Mauricio Arias, Johan F. Triana, Aldo Delgado and Felipe Herrera(参考訳) 光非線形性は、様々な種類の光情報処理プロトコルにおいて基本である。 しかし、従来の光学材料を用いた位相非線形性の実装に必要な高強度レーザーは、数光子系における非線形光学の課題である。 我々は、入出力の条件付き反射装置において、個々のTHzパルスに非線形位相シフトを印加するための赤外キャビティ量子電磁力学(QED)アプローチを導入する。 パワー依存位相シフトは 0.1\, \pi$ の順で、わずか$\mu$w の入力パワーのフェムト秒パルスで達成できる。 提案手法は、赤外線共振器の近傍にエバネッセント結合した少数のサブバンド間量子井戸遷移双極子を含む。 磁場の進化は、物質双極子から赤外線真空へのスペクトル不調和の動的移動により非線形であり、量子井戸転移を真空場から過渡的に除去する効果的な双極子チャープ機構によって光子遮断をもたらす。 本研究では, インプリント非線形位相シフトの関連する物理パラメータ依存性を記述する解析理論を考案する。 一対の量子井戸双極子に対して、位相制御スキームは双極子遷移周波数と緩和速度の不均一性に対して堅牢であることが示されている。 リンドブラッド量子マスター方程式に基づく数値結果は、物質双極子が第二励起多様体にポピュレートされる状態における理論を検証する。 強い光・物質相互作用を必要とする従来の位相制御のqed方式とは対照的に、提案された位相非線形性は弱いカップリングに最も適しており、現在のナノフォトニクス技術を用いた実験的実現の可能性を高めている。

Optical nonlinearities are fundamental in several types of optical information processing protocols. However, the high laser intensities needed for implementing phase nonlinearities using conventional optical materials represent a challenge for nonlinear optics in the few-photon regime. We introduce an infrared cavity quantum electrodynamics (QED) approach for imprinting nonlinear phase shifts on individual THz pulses in reflection setups, conditional on the input power. Power-dependent phase shifts on the order of $ 0.1\, \pi$ can be achieved with femtosecond pulses of only a few $\mu$W input power. The proposed scheme involves a small number of intersubband quantum well transition dipoles evanescently coupled to the near field of an infrared resonator. The field evolution is nonlinear due to the dynamical transfer of spectral anharmonicity from material dipoles to the infrared vacuum, through an effective dipolar chirping mechanism that transiently detunes the quantum well transitions from the vacuum field, leading to photon blockade. We develop analytical theory that describes the dependence of the imprinted nonlinear phase shift on relevant physical parameters. For a pair of quantum well dipoles, the phase control scheme is shown to be robust with respect to inhomogeneities in the dipole transition frequencies and relaxation rates. Numerical results based on the Lindblad quantum master equation validate the theory in the regime where the material dipoles are populated up to the second excitation manifold. In contrast with conventional QED schemes for phase control that require strong light-matter interaction, the proposed phase nonlinearity works best in weak coupling, increasing the prospects for its experimental realization using current nanophotonic technology.
翻訳日:2023-09-22 14:17:18 公開日:2023-09-21
# 地域付加モデル:特徴相互作用を最小化する説明可能な設計モデル

Regionally Additive Models: Explainable-by-design models minimizing feature interactions ( http://arxiv.org/abs/2309.12215v1 )

ライセンス: Link先を確認
Vasilis Gkolemis, Anargiros Tzerefos, Theodore Dalamagas, Eirini Ntoutsi, Christos Diou(参考訳) GAM(Generalized Additive Models)は、様々なアプリケーションで説明可能な設計モデルとして広く使われている。 GAMは出力を成分と呼ばれる単変数関数の和として表すことができると仮定する。 しかし、この仮定は出力が複数の特徴に同時に依存するML問題で失敗する。 これらの場合、GAMは基礎となる関数の相互作用項を捉えず、精度を低くする。 この問題に (一部) 対処するために我々は, 説明可能な設計モデルの新しいクラスである地域付加モデル (RAM) を提案する。 RAMは、相互作用を最小限に抑える特徴空間内のサブリージョンを特定する。 これらの領域内では、出力を不等関数(コンポーネント)の和として表現するのがより正確である。 その結果、RAMは機能ごとに1つのコンポーネントではなく、各機能のサブリージョン毎に1つのコンポーネントに適合する。 このアプローチは、解釈可能性を維持しながら、GAMと比較してより表現力のあるモデルをもたらす。 RAMフレームワークは3つのステップで構成される。 まず、ブラックボックスモデルをトレーニングします。 第二に、地域効果プロットを用いて、ブラックボックスモデルが局所的な付加性を示す部分領域を同定する。 最後に、特定サブリージョン毎にGAMコンポーネントを適合させる。 合成データと実世界のデータの両方で実験を行い,ramの有効性を検証する。 その結果,RAMは解釈性を維持しつつ,GAMよりも表現性が向上していることが確認された。

Generalized Additive Models (GAMs) are widely used explainable-by-design models in various applications. GAMs assume that the output can be represented as a sum of univariate functions, referred to as components. However, this assumption fails in ML problems where the output depends on multiple features simultaneously. In these cases, GAMs fail to capture the interaction terms of the underlying function, leading to subpar accuracy. To (partially) address this issue, we propose Regionally Additive Models (RAMs), a novel class of explainable-by-design models. RAMs identify subregions within the feature space where interactions are minimized. Within these regions, it is more accurate to express the output as a sum of univariate functions (components). Consequently, RAMs fit one component per subregion of each feature instead of one component per feature. This approach yields a more expressive model compared to GAMs while retaining interpretability. The RAM framework consists of three steps. Firstly, we train a black-box model. Secondly, using Regional Effect Plots, we identify subregions where the black-box model exhibits near-local additivity. Lastly, we fit a GAM component for each identified subregion. We validate the effectiveness of RAMs through experiments on both synthetic and real-world datasets. The results confirm that RAMs offer improved expressiveness compared to GAMs while maintaining interpretability.
翻訳日:2023-09-22 14:16:43 公開日:2023-09-21
# pvシステムのリモートセンシング画像取得におけるロバスト性を確実に向上できるか?

Can We Reliably Improve the Robustness to Image Acquisition of Remote Sensing of PV Systems? ( http://arxiv.org/abs/2309.12214v1 )

ライセンス: Link先を確認
Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint-Drenan and Philippe Blanc(参考訳) 太陽光発電(PV)エネルギーはエネルギーシステムの脱炭に不可欠である。 集中型データがないため、屋上PVの遠隔センシングは、屋根上に設置されたPVの進化を地域規模で監視する最良の選択肢である。 しかし、現在の技術は信頼性に欠けており、買収条件の変化に特に敏感である。 これを解決するために、宇宙スケール領域におけるモデルの予測を分解するウェーブレットスケール属性法(WCAM)を利用する。 WCAMは、PVモデルのどのスケールで表現するかを評価することができ、取得条件に対する堅牢性を改善する手法を導出するための洞察を与え、それによってディープラーニングシステムの信頼を高め、電気システムにおけるクリーンエネルギーの安全な統合を奨励する。

Photovoltaic (PV) energy is crucial for the decarbonization of energy systems. Due to the lack of centralized data, remote sensing of rooftop PV installations is the best option to monitor the evolution of the rooftop PV installed fleet at a regional scale. However, current techniques lack reliability and are notably sensitive to shifts in the acquisition conditions. To overcome this, we leverage the wavelet scale attribution method (WCAM), which decomposes a model's prediction in the space-scale domain. The WCAM enables us to assess on which scales the representation of a PV model rests and provides insights to derive methods that improve the robustness to acquisition conditions, thus increasing trust in deep learning systems to encourage their use for the safe integration of clean energy in electric systems.
翻訳日:2023-09-22 14:16:15 公開日:2023-09-21
# プロンプトチューニングにおけるスキルニューロンとロバストネスの関係について

On the Relationship between Skill Neurons and Robustness in Prompt Tuning ( http://arxiv.org/abs/2309.12263v1 )

ライセンス: Link先を確認
Leon Ackermann, Xenia Ohmer(参考訳) プロンプトチューニングは、事前学習された大型言語モデル(plm)のためのパラメータ効率の良い微調整手法である。 近年,RoBERTaを用いた実験から,Prompt Tuningはトランスフォーマーのフィードフォワードネットワークにおいて,与えられたタスクに対して高い予測と選択性を有する特定のニューロンを活性化することが示唆されている。 本稿では、RoBERTaとT5を用いて、これらの「スキルニューロン」に関連して、Prompt Tuningのロバスト性について検討する。 特定のタスクに調整されたプロンプトは、同じタイプのタスクに転送可能であるが、RoBERTaよりもT5のロバスト性が高く、逆データに対して非常に堅牢ではないことを示す。 同時に,ロベルタにおけるスキルニューロンの存在を再現し,さらにt5にもスキルニューロンが存在することを示した。 興味深いことに、非逆境データ上で決定されるT5のスキルニューロンも、RoBERTaではそうではない逆境データ上で最も予測可能なニューロンである。 本研究は, 高い対向性は, 対向データ上で関連するスキルニューロンを活性化するモデルの能力に関係している可能性が示唆された。

Prompt Tuning is a popular parameter-efficient finetuning method for pre-trained large language models (PLMs). Recently, based on experiments with RoBERTa, it has been suggested that Prompt Tuning activates specific neurons in the transformer's feed-forward networks, that are highly predictive and selective for the given task. In this paper, we study the robustness of Prompt Tuning in relation to these "skill neurons", using RoBERTa and T5. We show that prompts tuned for a specific task are transferable to tasks of the same type but are not very robust to adversarial data, with higher robustness for T5 than RoBERTa. At the same time, we replicate the existence of skill neurons in RoBERTa and further show that skill neurons also seem to exist in T5. Interestingly, the skill neurons of T5 determined on non-adversarial data are also among the most predictive neurons on the adversarial data, which is not the case for RoBERTa. We conclude that higher adversarial robustness may be related to a model's ability to activate the relevant skill neurons on adversarial data.
翻訳日:2023-09-22 14:10:49 公開日:2023-09-21
# soft merge: フレキシブルでロバストなソフトモデルマージアプローチによるニューラルネットワークの性能向上

Soft Merging: A Flexible and Robust Soft Model Merging Approach for Enhanced Neural Network Performance ( http://arxiv.org/abs/2309.12259v1 )

ライセンス: Link先を確認
Hao Chen, Yusen Wu, Phuong Nguyen, Chao Liu, Yelena Yesha(参考訳) 深層学習において広く使用される最適化アルゴリズムである確率的勾配降下(sgd)は、問題の非凸性のために局所光学に収束することに限定されることが多い。 モデルパフォーマンスを改善するためにこれらのローカル最適化を活用することは、依然として難しい課題です。 ニューラルネットワークの本質的な複雑さを考えると、得られた局所最適モデルの単純な算術平均化は望ましくない結果をもたらす。 本稿では,複数のモデルの迅速なマージ,ニューラルネットワークの特定の部分のマージの簡略化,極端値の悪意のあるモデルに対する堅牢性の向上を目的とした,「emソフトマージ」手法を提案する。 これは、与えられた局所最適モデルのモデル重みを変更することなく、ハードコンクリート分布を用いて$l_0$ノルムのサロゲートを通じてゲートパラメータを学習することで達成される。 このマージ処理は, 局所的な最適値に収束することでモデル性能を向上させるだけでなく, 計算コストを最小化し, 確率勾配降下と統合された効率的で明示的な学習プロセスを提供する。 徹底した実験は、マージされたニューラルネットワークの有効性と優れたパフォーマンスを強調する。

Stochastic Gradient Descent (SGD), a widely used optimization algorithm in deep learning, is often limited to converging to local optima due to the non-convex nature of the problem. Leveraging these local optima to improve model performance remains a challenging task. Given the inherent complexity of neural networks, the simple arithmetic averaging of the obtained local optima models in undesirable results. This paper proposes a {\em soft merging} method that facilitates rapid merging of multiple models, simplifies the merging of specific parts of neural networks, and enhances robustness against malicious models with extreme values. This is achieved by learning gate parameters through a surrogate of the $l_0$ norm using hard concrete distribution without modifying the model weights of the given local optima models. This merging process not only enhances the model performance by converging to a better local optimum, but also minimizes computational costs, offering an efficient and explicit learning process integrated with stochastic gradient descent. Thorough experiments underscore the effectiveness and superior performance of the merged neural networks.
翻訳日:2023-09-22 14:10:28 公開日:2023-09-21
# 変分量子調和器:VQEアルゴリズムによるコード進行と他の音化法の生成

Variational Quantum Harmonizer: Generating Chord Progressions and Other Sonification Methods with the VQE Algorithm ( http://arxiv.org/abs/2309.12254v1 )

ライセンス: Link先を確認
Paulo Vitor Itabora\'i, Tim Schw\"agerl, Mar\'ia Aguado Y\'a\~nez, Arianna Crippa, Karl Jansen, Eduardo Reck Miranda and Peter Thomas(参考訳) 本研究では、変分量子固有解法(VQE)アルゴリズムにより最適化された二次非拘束二項最適化(QUBO)問題の物理的ソリゼーションを用いたケーススタディについて検討する。 vqeは、量子コンピュータと古典的な最適化ルーチンの間の反復ループを用いて、問題の解を近似する。 この研究は、最適化プロセス自体を成す手段として、各vqeイテレーションに見られる中間状態ベクトルを探索する。 この実装は、変分量子調和器 (VQH) という名の音楽インタフェースのプロトタイプの形で実現され、和音、和音の進行、アルペジオに焦点をあてた潜在的設計戦略を提供した。 VQHはデータビジュアライゼーションの強化や芸術作品の作成に使用することができる。 この手法はまた、アーティストがQUBOコスト関数を慎重に設計することで、望ましい音楽音を達成するための直感を得る方法についても関係している。 フレキシブルなマッピング戦略は、ピーター・トーマスとパウロ・イタボライ(英語版)の"dependent origination"というケーススタディ・コンポジションで示されているように、quboや量子に触発された楽曲のための幅広い音のポートフォリオを提供することができる。

This work investigates a case study of using physical-based sonification of Quadratic Unconstrained Binary Optimization (QUBO) problems, optimized by the Variational Quantum Eigensolver (VQE) algorithm. The VQE approximates the solution of the problem by using an iterative loop between the quantum computer and a classical optimization routine. This work explores the intermediary statevectors found in each VQE iteration as the means of sonifying the optimization process itself. The implementation was realised in the form of a musical interface prototype named Variational Quantum Harmonizer (VQH), providing potential design strategies for musical applications, focusing on chords, chord progressions, and arpeggios. The VQH can be used both to enhance data visualization or to create artistic pieces. The methodology is also relevant in terms of how an artist would gain intuition towards achieving a desired musical sound by carefully designing QUBO cost functions. Flexible mapping strategies could supply a broad portfolio of sounds for QUBO and quantum-inspired musical compositions, as demonstrated in a case study composition, "Dependent Origination" by Peter Thomas and Paulo Itaborai.
翻訳日:2023-09-22 14:10:09 公開日:2023-09-21
# SALSA-CLRS: アルゴリズム推論のためのスパースでスケーラブルなベンチマーク

SALSA-CLRS: A Sparse and Scalable Benchmark for Algorithmic Reasoning ( http://arxiv.org/abs/2309.12253v1 )

ライセンス: Link先を確認
Julian Minder, Florian Gr\"otschla, Jo\"el Mathys, Roger Wattenhofer(参考訳) 我々はCLRSアルゴリズム学習ベンチマークの拡張を導入し、スケーラビリティとスパース表現の利用を優先する。 CLRSの多くのアルゴリズムは、その実行モデルに反映されたグローバルメモリや情報交換を必要とし、根底にある問題に基づいて完全に連結された(スパースではない)グラフを構成する。 clrは、学習したアルゴリズムがいかに効果的に大規模インスタンスに一般化できるかを評価することを目的としているが、既存の実行モデルは、メモリ要求とランタイム(スケールが難しい)のために重大な制約となる。 しかし、多くの重要なアルゴリズムは完全連結グラフを必要としない。これらのアルゴリズムは本質的に分散しており、グラフニューラルネットワークが採用するメッセージパッシングパラダイムと密接に関連している。 したがって、スケーラビリティとスパース性を念頭に置いて、現在のCLRSベンチマークの拡張であるSALSA-CLRSを提案する。 我々のアプローチには、オリジナルのCLRSベンチマークからの適応アルゴリズムが含まれ、分散およびランダム化アルゴリズムの新たな問題が導入されている。 さらに,ベンチマークを徹底的に評価した。 コードはhttps://github.com/jkminder/SALSA-CLRSで公開されている。

We introduce an extension to the CLRS algorithmic learning benchmark, prioritizing scalability and the utilization of sparse representations. Many algorithms in CLRS require global memory or information exchange, mirrored in its execution model, which constructs fully connected (not sparse) graphs based on the underlying problem. Despite CLRS's aim of assessing how effectively learned algorithms can generalize to larger instances, the existing execution model becomes a significant constraint due to its demanding memory requirements and runtime (hard to scale). However, many important algorithms do not demand a fully connected graph; these algorithms, primarily distributed in nature, align closely with the message-passing paradigm employed by Graph Neural Networks. Hence, we propose SALSA-CLRS, an extension of the current CLRS benchmark specifically with scalability and sparseness in mind. Our approach includes adapted algorithms from the original CLRS benchmark and introduces new problems from distributed and randomized algorithms. Moreover, we perform a thorough empirical evaluation of our benchmark. Code is publicly available at https://github.com/jkminder/SALSA-CLRS.
翻訳日:2023-09-22 14:09:42 公開日:2023-09-21
# 列長上の非線形シーケンシャルモデルの並列化

Parallelizing non-linear sequential models over the sequence length ( http://arxiv.org/abs/2309.12252v1 )

ライセンス: Link先を確認
Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim(参考訳) リカレントニューラルネットワークや神経常微分方程式といったシーケンシャルモデルでは、本質的にシーケンシャルな性質のため、トレーニングが遅かった。 多くの考慮されたシーケンシャルモデルが並列化できないため、長年にわたってこのボトルネックは続いている。 我々は、出力精度を損なうことなく、逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムによるこの長年の信念に挑戦する。 このアルゴリズムはシーケンシャルモデルのアーキテクチャに特別な構造は必要とせず、幅広いアーキテクチャに適用できる。 本手法では,学習結果に有意な差を生じさせることなく,一般的な逐次法よりも10倍以上高速に学習できる。 この高速化トレーニングを利用して、17k時間サンプルを用いた長期連続分類問題においてGated Recurrent Unitの有効性を発見した。 学習のボトルネックを克服することで、我々の研究は、長い系列問題に対する非線形シーケンシャルモデルのポテンシャルを解き放つための第一歩となる。

Sequential models, such as Recurrent Neural Networks and Neural Ordinary Differential Equations, have long suffered from slow training due to their inherent sequential nature. For many years this bottleneck has persisted, as many thought sequential models could not be parallelized. We challenge this long-held belief with our parallel algorithm that accelerates GPU evaluation of sequential models by up to 3 orders of magnitude faster without compromising output accuracy. The algorithm does not need any special structure in the sequential models' architecture, making it applicable to a wide range of architectures. Using our method, training sequential models can be more than 10 times faster than the common sequential method without any meaningful difference in the training results. Leveraging this accelerated training, we discovered the efficacy of the Gated Recurrent Unit in a long time series classification problem with 17k time samples. By overcoming the training bottleneck, our work serves as the first step to unlock the potential of non-linear sequential models for long sequence problems.
翻訳日:2023-09-22 14:09:23 公開日:2023-09-21
# 複数肯定的・否定的基準を用いた質問応答自動評価

SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References ( http://arxiv.org/abs/2309.12250v1 )

ライセンス: Link先を確認
Matteo Gabburo, Siddhant Garg, Rik Koncel Kedziorski, Alessandro Moschitti(参考訳) QAシステムの評価は非常に困難で高価であり、最も信頼性の高いアプローチは質問に対する回答の正しさに関する人間のアノテーションである。 最近の研究 (AVA, BEM) では, トランスフォーマーLMエンコーダによる類似度指標の転送はQA評価に適しているが, 単一の正しい参照応答を使用することによって制限されている。 そこで本研究では,複数の基準回答(複数の正解と誤参照の組み合わせ)を文型qaに用いた新しい評価指標であるsquare(sentence-level question answering evaluation)を提案する。 文レベルの抽出(回答選択)と生成(生成)のQAシステムにおいて,複数の学術的および産業的データセットに対してSQuArEを評価し,従来のベースラインを上回り,人間のアノテーションとの相関性が高いことを示す。

Evaluation of QA systems is very challenging and expensive, with the most reliable approach being human annotations of correctness of answers for questions. Recent works (AVA, BEM) have shown that transformer LM encoder based similarity metrics transfer well for QA evaluation, but they are limited by the usage of a single correct reference answer. We propose a new evaluation metric: SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference answers (combining multiple correct and incorrect references) for sentence-form QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and generative (GenQA) QA systems, across multiple academic and industrial datasets, and show that it outperforms previous baselines and obtains the highest correlation with human annotations.
翻訳日:2023-09-22 14:09:03 公開日:2023-09-21
# Bad Actor, Good Advisor: Fake News Detectionにおける大規模言語モデルの役割を探る

Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection ( http://arxiv.org/abs/2309.12247v1 )

ライセンス: Link先を確認
Beizhe Hu, Qiang Sheng, Juan Cao, Yuhui Shi, Yang Li, Danding Wang, Peng Qi(参考訳) 偽ニュースを検出するには、様々な手がかりの繊細な感覚と現実世界の背景を深く理解する必要がある。 大規模言語モデル(LLM)の最近の進歩は、様々なタスクにおいて顕著なパフォーマンスを示しているが、LLMが偽ニュースの検出にどのように役立つかは、まだ未定である。 本稿では,偽ニュース検出におけるLLMの可能性について検討する。 まず, gpt 3.5 のような高度な llm が一般に偽ニュースを暴露し, 望ましいマルチパースペクティブな合理性を提供するが, 基本的な slm や微調整された bert を過小評価できることを示す。 我々のその後の分析は、LLMが論理を適切に選択・統合できないことに起因する。 これらの結果から,現在のLSMは偽ニュース検出において微調整SLMの代わりにはならないが,マルチパースペクティブ・インストラクティブ・合理性を提供することにより,SLMの優れたアドバイザとなることが示唆された。 この提案をインスタンス化するために,SLM が LLM の論理からニュース分析に関する洞察を選択的に取得する,偽ニュース検出 (ARG) のための適応的合理化誘導ネットワークを設計する。 さらに, LLMを問い合わせることなく, コストに敏感なシナリオを提供するARG-Dの蒸留により, 合理的なARGバージョンを導出する。 2つの実世界のデータセットの実験により、ARGとARG-Dは、SLMベース、LLMベース、および小規模および大規模言語モデルの組み合わせを含む3種類のベースライン手法より優れていることが示された。

Detecting fake news requires both a delicate sense of diverse clues and a profound understanding of the real-world background, which remains challenging for detectors based on small language models (SLMs) due to their knowledge and capability limitations. Recent advances in large language models (LLMs) have shown remarkable performance in various tasks, but whether and how LLMs could help with fake news detection remains underexplored. In this paper, we investigate the potential of LLMs in fake news detection. First, we conduct an empirical study and find that a sophisticated LLM such as GPT 3.5 could generally expose fake news and provide desirable multi-perspective rationales but still underperforms the basic SLM, fine-tuned BERT. Our subsequent analysis attributes such a gap to the LLM's inability to select and integrate rationales properly to conclude. Based on these findings, we propose that current LLMs may not substitute fine-tuned SLMs in fake news detection but can be a good advisor for SLMs by providing multi-perspective instructive rationales. To instantiate this proposal, we design an adaptive rationale guidance network for fake news detection (ARG), in which SLMs selectively acquire insights on news analysis from the LLMs' rationales. We further derive a rationale-free version of ARG by distillation, namely ARG-D, which services cost-sensitive scenarios without inquiring LLMs. Experiments on two real-world datasets demonstrate that ARG and ARG-D outperform three types of baseline methods, including SLM-based, LLM-based, and combinations of small and large language models.
翻訳日:2023-09-22 14:08:44 公開日:2023-09-21
# GANベースのX線画像における問題解決モード崩壊問題に対する適応入力画像正規化

Adaptive Input-image Normalization for Solving Mode Collapse Problem in GAN-based X-ray Images ( http://arxiv.org/abs/2309.12245v1 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Mubashir Husain Rehmani, and Ruairi O'Reilly(参考訳) バイオメディカル画像データセットは、標的疾患の希少性のために不均衡にすることができる。 合成画像の生成によってデータセットを拡大することで、この不均衡に対処する上で、ジェネレーティブ・アドバイサル・ネットワークが重要な役割を果たす。 トレーニング画像に含まれる特徴の分布を正確に表現するために,多様な特徴を含む合成画像を生成することが重要である。 さらに、合成画像に多様な特徴がないことは、機械学習分類器の性能を低下させる可能性がある。 モード崩壊問題は、ジェネレーティブ・アドバイサル・ネットワークの多様な画像を生成する能力に影響を及ぼす。 モード崩壊はクラス内とクラス間という2つの種類がある。 本稿では, どちらのモード崩壊問題も検討し, その後の合成x線画像の多様性に対する影響について検討した。 この研究は、適応入力-画像正規化をDeep Convolutional GANとAuxiliary Classifier GANと統合してモード崩壊問題を緩和する利点を実証的な実証に貢献する。 合成生成画像は、データ拡張とVision Transformerモデルのトレーニングに利用される。 モデルの分類性能は、精度、リコール、精度スコアを用いて評価される。 その結果,適応的な入出力正規化を伴うDCGANとACGANは,非正規化X線画像でDCGANとACGANより優れており,優れた多様性スコアと分類スコアによって証明されている。

Biomedical image datasets can be imbalanced due to the rarity of targeted diseases. Generative Adversarial Networks play a key role in addressing this imbalance by enabling the generation of synthetic images to augment datasets. It is important to generate synthetic images that incorporate a diverse range of features to accurately represent the distribution of features present in the training imagery. Furthermore, the absence of diverse features in synthetic images can degrade the performance of machine learning classifiers. The mode collapse problem impacts Generative Adversarial Networks' capacity to generate diversified images. Mode collapse comes in two varieties: intra-class and inter-class. In this paper, both varieties of the mode collapse problem are investigated, and their subsequent impact on the diversity of synthetic X-ray images is evaluated. This work contributes an empirical demonstration of the benefits of integrating the adaptive input-image normalization with the Deep Convolutional GAN and Auxiliary Classifier GAN to alleviate the mode collapse problems. Synthetically generated images are utilized for data augmentation and training a Vision Transformer model. The classification performance of the model is evaluated using accuracy, recall, and precision scores. Results demonstrate that the DCGAN and the ACGAN with adaptive input-image normalization outperform the DCGAN and ACGAN with un-normalized X-ray images as evidenced by the superior diversity scores and classification scores.
翻訳日:2023-09-22 14:08:11 公開日:2023-09-21
# ChaCha:大きな言語モデルを活用して子どもたちに個人的出来事に対する感情を共有する

ChaCha: Leveraging Large Language Models to Prompt Children to Share Their Emotions about Personal Events ( http://arxiv.org/abs/2309.12244v1 )

ライセンス: Link先を確認
Woosuk Seo, Chanmo Yang, Young-Ho Kim(参考訳) 子供は通常、物語や感情を他人、特に家族と共有することで感情を識別し表現することを学ぶ。 しかし,親や兄弟姉妹は,まだコミュニケーション能力が発達しているため,子どもと感情的なコミュニケーションをとることが困難である。 チャットボットChaChaは、子どもたちに個人的な出来事と関連する感情を共有することを奨励し、指導する。 ChaChaはステートマシンと大きな言語モデル(LLM)を組み合わせて、自由形式の会話をしながら対話をトラックする。 20人の子供(8-12歳)を対象にした探索的研究を通じて,ChaChaが子どもに個人の出来事を共有し,関連する感情を記述するための指導を行う方法を検討した。 参加者はChaChaを親しい友人と認識し、家族旅行や個人的業績など様々な話題について話を共有した。 定量的・質的知見に基づいて,llmを利用して子どもに親しみやすいチャットボットをデザインし,子どもの感情の共有を支援する機会について検討する。

Children typically learn to identify and express emotions through sharing their stories and feelings with others, particularly their family. However, it is challenging for parents or siblings to have emotional communication with children since children are still developing their communication skills. We present ChaCha, a chatbot that encourages and guides children to share personal events and associated emotions. ChaCha combines a state machine and large language models (LLMs) to keep the dialogue on track while carrying on free-form conversations. Through an exploratory study with 20 children (aged 8-12), we examine how ChaCha prompts children to share personal events and guides them to describe associated emotions. Participants perceived ChaCha as a close friend and shared their stories on various topics, such as family trips and personal achievements. Based on the quantitative and qualitative findings, we discuss opportunities for leveraging LLMs to design child-friendly chatbots to support children in sharing their emotions.
翻訳日:2023-09-22 14:07:48 公開日:2023-09-21
# テキストのみによる弱教師付きオーディオキャプション

Weakly-supervised Automated Audio Captioning via text only training ( http://arxiv.org/abs/2309.12242v1 )

ライセンス: Link先を確認
Theodoros Kouzelis and Vassilis Katsouros(参考訳) 近年、ペアオーディオとキャプションのデータセットは、自動オーディオキャプション(aac)と呼ばれる音声クリップの記述を自動的に生成することに成功した。 しかし、十分な数のオーディオとキャプションを集めるには労働集約的で時間がかかる。 近年のContrastive Language-Audio Pretraining (CLAP) の進展により,テキストデータと事前学習したCLAPモデルのみを前提として,AACモデルを弱教師付きで訓練する方法を提案する。 本手法は,CLAPにおける音声とテキストの埋め込みの類似性を利用する。 トレーニング中、私たちはクラップテキスト埋め込みからテキストを再構築することを学び、推論中、オーディオ埋め込みを使用してデコードします。 音声とテキストの埋め込み間のモーダリティギャップを軽減するために、トレーニングと推論の段階でギャップを埋めるための戦略を採用しています。 提案手法を布地データとaudiocapsデータセットを用いて評価し,対対象データでトレーニングされた完全教師付きアプローチと比較して,最大83\%$の相対的性能を実現する能力を示す。

In recent years, datasets of paired audio and captions have enabled remarkable success in automatically generating descriptions for audio clips, namely Automated Audio Captioning (AAC). However, it is labor-intensive and time-consuming to collect a sufficient number of paired audio and captions. Motivated by the recent advances in Contrastive Language-Audio Pretraining (CLAP), we propose a weakly-supervised approach to train an AAC model assuming only text data and a pre-trained CLAP model, alleviating the need for paired target data. Our approach leverages the similarity between audio and text embeddings in CLAP. During training, we learn to reconstruct the text from the CLAP text embedding, and during inference, we decode using the audio embeddings. To mitigate the modality gap between the audio and text embeddings we employ strategies to bridge the gap during training and inference stages. We evaluate our proposed method on Clotho and AudioCaps datasets demonstrating its ability to achieve a relative performance of up to ~$83\%$ compared to fully supervised approaches trained with paired target data.
翻訳日:2023-09-22 14:07:29 公開日:2023-09-21
# 逐次量子相関の幾何学とロバストなランダム性証明

Geometry of sequential quantum correlations and robust randomness certification ( http://arxiv.org/abs/2309.12286v1 )

ライセンス: Link先を確認
Matteo Padovan, Giulio Foletto, Lorenzo Coccia, Marco Avesani, Paolo Villoresi, Giuseppe Vallone(参考訳) 2つ以上の分離オブザーバの測定値間の量子相関は、ランダム性生成や鍵分布といった多くの応用において基本的な役割を果たす。 近年, シーケンシャルな測定(すなわち, その後のシステムにおける測定の正確な時間的順序付け)により, これらのプロトコルの性能が向上することが確認された。 しかし、この性能の最大化に関する理論的理解は限られており、量子相関の境界との関係は未解明である。 一方の側ともう一方の側にある2つのシーケンシャルなパーティの場合、量子相関の幾何学とそのロバストなデバイス非依存ランダムネス生成に対する意味について研究する。 我々は、異なる観測者間の非局所性の量の間のトレードオフとして表現されるこれらの相関関係の集合の境界を同定し、これにより、設定において最大でデバイス非依存のランダム性、すなわち2ビットを生成することができることを示す。 理想条件下で境界相関を生成できる非射影計測に基づく実用的なプロトコルを提案し,その雑音に対する頑健性に対処し,従来の手法よりも改善されていることを示す。 最後に,本プロトコルを概念実証実験としてフォトニック実装を用いて実装する。 得られた相関により、標準のCHSHプロトコルに対して、状態当たりのビット数を増やすことができ、我々のプロトコルが現実の欠陥に対して実現可能で堅牢であることを証明できる。 私たちの研究は、逐次量子相関の完全な理解と、実用的かつ効率的なデバイス非依存プロトコルの活用への道を開くものです。

Quantum correlations between the measurements of two or more separated observers play a fundamental role in many applications, such as randomness generation or key distribution. Recently, it was realized that sequential measurements (i.e., defined with a precise temporal ordering between subsequent measurements on a given system) can enhance the performance of these protocols. However, the theoretical understanding of how to maximize this performance is limited and the relation with the boundary of quantum correlations is unexplored. In the case of one party on one side and two sequential parties on the other, we study the geometry of quantum correlations and its implications for robust device-independent randomness generation. We identify a boundary for the set of these correlations expressed as a trade-off between the amount of nonlocality between different observers and show that this allows to generate the maximum possible device-independent randomness in our setting, namely two bits. We propose a practical protocol based on non-projective measurements that can produce the boundary correlations under ideal conditions, and address its robustness to noise, showing that it is improved compared to previous approaches. Finally, we implement our protocol in a proof-of-concept experiment based on a photonic implementation. With the obtained correlations we could certify more bits per state with respect to the standard CHSH protocol, proving that our protocol is feasible and robust to real-world imperfections. Our work paves the way for a full understanding of sequential quantum correlations and their exploitation for practical and efficient device-independent protocols.
翻訳日:2023-09-22 13:58:56 公開日:2023-09-21
# metamath: 大きな言語モデルのための数学的質問をブートストラップする

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models ( http://arxiv.org/abs/2309.12284v1 )

ライセンス: Link先を確認
Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu(参考訳) 大規模言語モデル(llm)は自然言語理解の限界を押し上げ、優れた問題解決能力を示した。 大きな成功にもかかわらず、既存のオープンソース LLM (\eg, LLaMA-2) は、複雑な推論手順による数学的問題の解決にはまだ満足できない。 このギャップを埋めるために,数学的推論を専門とする微調整言語モデルである \emph{MetaMath} を提案する。 具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的な質問をブートストラップすることから始めます。 次に、メタマスQA上でLLaMA-2モデルを微調整する。 数学的推論のための2つの人気のあるベンチマーク (\ie, GSM8K, MATH) の実験結果から、MetaMath はオープンソース LLM のスイートをかなり上回っていることが示された。 われわれのmetamath-7bモデルはgsm8kで6.4\%、数学で19.4\%、同じサイズの最先端モデルで11.5\%$と8.7\%$を上回った。 特に {metamath-70b} は {gpt-3.5-turbo} よりも若干優れている {gsm8k} で 82.3\%$ の精度を達成する。 私たちは,<metamathqa}データセット,モデルサイズが異なる{metamath}モデル,公開用のトレーニングコードをリリースしています。

Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose \emph{MetaMath}, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called {MetaMathQA}. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (\ie, GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves $66.4\%$ on GSM8K and $19.4\%$ on MATH, exceeding the state-of-the-art models of the same size by $11.5\%$ and $8.7\%$. Particularly, {MetaMath-70B} achieves an accuracy of $82.3\%$ on {GSM8K}, slightly better than {GPT-3.5-Turbo}. We release the {MetaMathQA} dataset, the {MetaMath} models with different model sizes and the training code for public use.
翻訳日:2023-09-22 13:58:31 公開日:2023-09-21
# 拡散型マルチインストゥルメント音楽合成のためのパフォーマンスコンディショニング

Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis ( http://arxiv.org/abs/2309.12283v1 )

ライセンス: Link先を確認
Ben Maman, Johannes Zeitler, Meinard M\"uller, Amit H. Bermano(参考訳) シンボリックな音楽表現から多構成音楽を生成することは、音楽情報検索(MIR)において重要な課題である。 この文脈における中心的だがまだ解決されていない問題は、生成過程における音楽的および音響的情報制御である。 本研究の主な貢献として,特定の演奏・録音環境において生成モデルを条件付けすることにより,音色・スタイルをより良く指導できるマルチインストゥルメント合成の制御の強化を提案する。 現状の拡散に基づく音楽生成モデルを構築し,特定の演奏から抽出した特定の楽器のスタイルと音色で合成する生成モデルを示すシンプルなツールである演奏条件を導入する。 試作機は,多種多様な楽器を用いた未処理演奏を用いて評価し,新しい音色とスタイル制御を実現しつつ,最先端のFADリアリズムスコアを達成した。 サンプルやデモを含む私たちのプロジェクトページは、benadar293.github.io/midipmで利用可能です。

Generating multi-instrument music from symbolic music representations is an important task in Music Information Retrieval (MIR). A central but still largely unsolved problem in this context is musically and acoustically informed control in the generation process. As the main contribution of this work, we propose enhancing control of multi-instrument synthesis by conditioning a generative model on a specific performance and recording environment, thus allowing for better guidance of timbre and style. Building on state-of-the-art diffusion-based music generative models, we introduce performance conditioning - a simple tool indicating the generative model to synthesize music with style and timbre of specific instruments taken from specific performances. Our prototype is evaluated using uncurated performances with diverse instrumentation and achieves state-of-the-art FAD realism scores while allowing novel timbre and style control. Our project page, including samples and demonstrations, is available at benadar293.github.io/midipm
翻訳日:2023-09-22 13:58:03 公開日:2023-09-21
# ベリー・ザック位相を持たない一次元非エルミート系の位相的性質

Characterizing the topological properties of one-dimensional non-hermitian systems without the Berry-Zak phase ( http://arxiv.org/abs/2309.12280v1 )

ライセンス: Link先を確認
Didier Felbacq, Emmanuel Rousseau(参考訳) 量子力学を含む波動物理学における一次元周期構造の位相特性を予測する新しい手法を提案する。 ブロッホ波から、極と零点を示すユニークな複素値関数が構築される。 この函数の極と零点の列は、ベリー・ザック位相に関連付けられる位相不変量である。 位相特性の特徴づけは複素平面上で行われるので、非エルミート系の場合にも容易に拡張できる。 極と零点の列は位相相転移を予測することができる。

A new method is proposed to predict the topological properties of one-dimensional periodic structures in wave physics, including quantum mechanics. From Bloch waves, a unique complex valued function is constructed, exhibiting poles and zeros. The sequence of poles and zeros of this function is a topological invariant that can be linked to the Berry-Zak phase. Since the characterization of the topological properties is done in the complex plane, it can easily be extended to the case of non-hermitian systems. The sequence of poles and zeros allows to predict topological phase transitions.
翻訳日:2023-09-22 13:57:48 公開日:2023-09-21
# 機能模倣の広範な影響--金融、音声、生理領域を横断する神経強化

The Broad Impact of Feature Imitation: Neural Enhancements Across Financial, Speech, and Physiological Domains ( http://arxiv.org/abs/2309.12279v1 )

ライセンス: Link先を確認
Reza Khanmohammadi, Tuka Alhanai, Mohammad M. Ghassemi(参考訳) ニューラルネットワークの重み付けの初期化は、その性能を決定する上で重要な役割を果たす。 FIN(Feature Imitating Networks)は、特定の閉形式統計特徴を近似するために重みを初期化し、ディープラーニングアーキテクチャの基礎となる新しい戦略を提供する。 FINの適用性は、主に生物医学領域でテストされているが、本研究では、他の時系列データセットへの探索を拡張した。 本研究は,bitcoin価格予測,音声感情認識,慢性頸部痛検出など,パフォーマンス向上のためのtsallisエントロピーを模倣する可能性をテストするために,3つの異なる実験を行った。 bitcoinの価格予測では、フィンを組み込んだモデルは、ベースラインと比較して平均平方誤差を約1000に削減した。 音声感情認識タスクでは、FIN強化モデルにより分類精度が3%以上向上した。 最後に, CNP検出実験では, 確立された分類器と比較して約7%の改善が認められた。 これらの結果は様々な用途におけるフィンの広範な有用性と有効性を検証する。

Initialization of neural network weights plays a pivotal role in determining their performance. Feature Imitating Networks (FINs) offer a novel strategy by initializing weights to approximate specific closed-form statistical features, setting a promising foundation for deep learning architectures. While the applicability of FINs has been chiefly tested in biomedical domains, this study extends its exploration into other time series datasets. Three different experiments are conducted in this study to test the applicability of imitating Tsallis entropy for performance enhancement: Bitcoin price prediction, speech emotion recognition, and chronic neck pain detection. For the Bitcoin price prediction, models embedded with FINs reduced the root mean square error by around 1000 compared to the baseline. In the speech emotion recognition task, the FIN-augmented model increased classification accuracy by over 3 percent. Lastly, in the CNP detection experiment, an improvement of about 7 percent was observed compared to established classifiers. These findings validate the broad utility and potency of FINs in diverse applications.
翻訳日:2023-09-22 13:57:39 公開日:2023-09-21
# 生物医学的名前付きエンティティ認識に基づく外部知識による大規模言語モデルの構築

Inspire the Large Language Model by External Knowledge on BioMedical Named Entity Recognition ( http://arxiv.org/abs/2309.12278v1 )

ライセンス: Link先を確認
Junyi Bian, Jiaxuan Zheng, Yuyi Zhang, Shanfeng Zhu(参考訳) 大規模言語モデル(LLM)は多くのNLPタスク、特に生成タスクにおいて支配的な性能を示す。 しかし、情報抽出タスク、特にバイオメディカル名前付きエンティティ認識(NER)のようなドメイン固有の知識を必要とするタスクでは不足することが多い。 本稿では,生物医学的 NER のステップバイステップ: NER タスクをエンティティスパン抽出とエンティティタイプ決定に分解する。 さらに、エンティティの型決定には、エンティティのカテゴリを予測する際にllmがドメインの知識を欠いている問題に対処するためにエンティティの知識を注入する。 実験の結果,2段階のBioNERアプローチでは,以前の数発のLDMベースラインと比較して有意に改善した。 さらに,外部知識の導入により,エンティティカテゴリ決定性能が著しく向上する。

Large language models (LLMs) have demonstrated dominating performance in many NLP tasks, especially on generative tasks. However, they often fall short in some information extraction tasks, particularly those requiring domain-specific knowledge, such as Biomedical Named Entity Recognition (NER). In this paper, inspired by Chain-of-thought, we leverage the LLM to solve the Biomedical NER step-by-step: break down the NER task into entity span extraction and entity type determination. Additionally, for entity type determination, we inject entity knowledge to address the problem that LLM's lack of domain knowledge when predicting entity category. Experimental results show a significant improvement in our two-step BioNER approach compared to previous few-shot LLM baseline. Additionally, the incorporation of external knowledge significantly enhances entity category determination performance.
翻訳日:2023-09-22 13:57:22 公開日:2023-09-21
# LLMR:大規模言語モデルを用いた対話型世界のリアルタイムプロンプト

LLMR: Real-time Prompting of Interactive Worlds using Large Language Models ( http://arxiv.org/abs/2309.12276v1 )

ライセンス: Link先を確認
Fernanda De La Torre, Cathy Mengying Fang, Han Huang, Andrzej Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier(参考訳) LLMを用いた対話型混合現実体験のリアルタイム作成と修正のためのフレームワークであるLarge Language Model for Mixed Reality (LLMR)を提案する。 llmrは、理想的なトレーニングデータが不足したり、設計目標が内部ダイナミクスの合成、直感的な分析、高度な対話性を必要とする難しいケースに対処するために、新しい戦略を利用する。 私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。 シーン理解、タスク計画、自己デバッグ、メモリ管理の技術を取り入れることで、LLMRは標準のGPT-4を平均エラー率で4倍に向上させる。 llmrのクロスプラットフォームの相互運用性をいくつかの例で示し、さまざまな作成および修正タスクで評価することで、さまざまなオブジェクト、ツール、シーンを生成および編集できることを示します。 最後に,ユーザビリティスタディ (N=11) を行い, 参加者がシステムに対して肯定的な経験をしており, 再び使用することを明らかにした。

We present Large Language Model for Mixed Reality (LLMR), a framework for the real-time creation and modification of interactive Mixed Reality experiences using LLMs. LLMR leverages novel strategies to tackle difficult cases where ideal training data is scarce, or where the design goal requires the synthesis of internal dynamics, intuitive analysis, or advanced interactivity. Our framework relies on text interaction and the Unity game engine. By incorporating techniques for scene understanding, task planning, self-debugging, and memory management, LLMR outperforms the standard GPT-4 by 4x in average error rate. We demonstrate LLMR's cross-platform interoperability with several example worlds, and evaluate it on a variety of creation and modification tasks to show that it can produce and edit diverse objects, tools, and scenes. Finally, we conducted a usability study (N=11) with a diverse set that revealed participants had positive experiences with the system and would use it again.
翻訳日:2023-09-22 13:57:06 公開日:2023-09-21
# 適応型NLPモデル選択によるVTE識別の改善と専門的ルールに基づく分類法

Improving VTE Identification through Adaptive NLP Model Selection and Clinical Expert Rule-based Classifier from Radiology Reports ( http://arxiv.org/abs/2309.12273v1 )

ライセンス: Link先を確認
Jamie Deng, Yusen Wu, Hilary Hayssen, Brain Englum, Aman Kankaria, Minerva Mayorga-Carlin, Shalini Sahoo, John Sorkin, Brajesh Lal, Yelena Yesha, Phuong Nguyen(参考訳) 深部静脈血栓症 (DVT) や肺塞栓症 (PE) を含む重症心血管疾患である静脈血栓塞栓症 (VTE) の迅速かつ正確な診断が重要である。 放射線学報告における自然言語処理(NLP)を活用することで、自動化された手法は、振り返りデータコホートからVTEイベントを識別する、あるいは、放射線学レポートからVTEイベントを識別する臨床専門家を支援する、有望な進歩を示している。 しかし,医学テキストデータのラベル付けが限定されていること,放射線学報告の複雑さと不均一性,データ不均衡などにより,効果的にディープラーニング(DL)とNLPモデルを訓練することは困難である。 本研究では, DL法とデータ拡張, 適応型NLPモデル選択, 臨床専門家のNLPルールベース分類器を組み合わせることで, 非構造化(自由テキスト)ラジオグラフィーレポートにおけるVTE識別の精度を向上する手法を提案する。 実験の結果,DVT予測における精度97\%,F1スコア97\%,PE予測における精度98.3\%,F1スコア98.4\%が得られた。 これらの知見はモデルの頑健さとvte研究に大きく貢献する可能性を強調している。

Rapid and accurate identification of Venous thromboembolism (VTE), a severe cardiovascular condition including deep vein thrombosis (DVT) and pulmonary embolism (PE), is important for effective treatment. Leveraging Natural Language Processing (NLP) on radiology reports, automated methods have shown promising advancements in identifying VTE events from retrospective data cohorts or aiding clinical experts in identifying VTE events from radiology reports. However, effectively training Deep Learning (DL) and the NLP models is challenging due to limited labeled medical text data, the complexity and heterogeneity of radiology reports, and data imbalance. This study proposes novel method combinations of DL methods, along with data augmentation, adaptive pre-trained NLP model selection, and a clinical expert NLP rule-based classifier, to improve the accuracy of VTE identification in unstructured (free-text) radiology reports. Our experimental results demonstrate the model's efficacy, achieving an impressive 97\% accuracy and 97\% F1 score in predicting DVT, and an outstanding 98.3\% accuracy and 98.4\% F1 score in predicting PE. These findings emphasize the model's robustness and its potential to significantly contribute to VTE research.
翻訳日:2023-09-22 13:56:48 公開日:2023-09-21
# cambridge law corpus: a corpus for legal ai research (英語)

The Cambridge Law Corpus: A Corpus for Legal AI Research ( http://arxiv.org/abs/2309.12269v1 )

ライセンス: Link先を確認
Andreas \"Ostling and Holli Sargeant and Huiyuan Xie and Ludwig Bull and Alexander Terenin and Leif Jonsson and M{\aa}ns Magnusson and Felix Steffek(参考訳) 法的なAI研究のためのコーパスであるCambridge Law Corpus (CLC)を紹介する。 英国から250,000件以上の訴訟が起こっている。 ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。 本稿では,原文とメタデータを含むコーパスの最初のリリースについて述べる。 コーパスとともに,法律専門家による638件の事例に対して,事例結果に関する注釈を提供する。 注記データを用いて,GPT-3,GPT-4,RoBERTaモデルを用いて事例抽出を行い,評価を行った。 我々は、この資料の潜在的に敏感な性質に対処するための、広範な法的および倫理的な議論を含む。 その結果、コーパスは特定の制限下で研究目的のためにのみ解放される。

We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.
翻訳日:2023-09-22 13:56:21 公開日:2023-09-21
# フェデレート画像分類のベースラインとしての4次推定-平均勾配アグリゲーションの実現

Enabling Quartile-based Estimated-Mean Gradient Aggregation As Baseline for Federated Image Classifications ( http://arxiv.org/abs/2309.12267v1 )

ライセンス: Link先を確認
Yusen Wu, Jamie Deng, Hao Chen, Phuong Nguyen, Yelena Yesha(参考訳) Federated Learning(FL)は、機密データを保護し、モデルパフォーマンスを改善しながら、分散コラボレーションを可能にすることによって、ディープニューラルネットワークのトレーニング方法に革命をもたらした。 しかし、FLは、個々のクライアントが保持するデータの多様性とセキュリティ侵害に対するFLシステムの脆弱性の2つの重要な課題に直面している。 本稿では,これらの課題に対処するだけでなく,FLシステムにおける高度な集約技術に対して,$\mathsf{baseline}$として基本的な参照ポイントを提供する,Estimated Mean Aggregation (EMA) という革新的なソリューションを紹介する。 EMAの2つの役割は、トリミングされた手段を通じて悪意のあるアウトリーチを効果的に処理することでモデルセキュリティを強化し、トレーニングされたモデルをさまざまなクライアントデータセットに適応させることで、データの異質性を明らかにすることである。 豊富な実験を通して、EMAは曲線(AUC)の下の面積と精度を他の方法と比較して一貫して証明し、FLアグリゲーション法の有効性と安全性を評価するための堅牢なベースラインとして確立した。 EMAの貢献は、FLの文脈における分散ディープラーニングの効率性、セキュリティ、汎用性を促進する上で、重要な一歩となる。

Federated Learning (FL) has revolutionized how we train deep neural networks by enabling decentralized collaboration while safeguarding sensitive data and improving model performance. However, FL faces two crucial challenges: the diverse nature of data held by individual clients and the vulnerability of the FL system to security breaches. This paper introduces an innovative solution named Estimated Mean Aggregation (EMA) that not only addresses these challenges but also provides a fundamental reference point as a $\mathsf{baseline}$ for advanced aggregation techniques in FL systems. EMA's significance lies in its dual role: enhancing model security by effectively handling malicious outliers through trimmed means and uncovering data heterogeneity to ensure that trained models are adaptable across various client datasets. Through a wealth of experiments, EMA consistently demonstrates high accuracy and area under the curve (AUC) compared to alternative methods, establishing itself as a robust baseline for evaluating the effectiveness and security of FL aggregation methods. EMA's contributions thus offer a crucial step forward in advancing the efficiency, security, and versatility of decentralized deep learning in the context of FL.
翻訳日:2023-09-22 13:56:10 公開日:2023-09-21
# panovos:ビデオセグメンテーションのためのトランスフォーマーによる非パノラマおよびパノラマビューのブリッジ

PanoVOS:Bridging Non-panoramic and Panoramic Views with Transformer for Video Segmentation ( http://arxiv.org/abs/2309.12303v1 )

ライセンス: Link先を確認
Shilin Yan, Xiaohao Xu, Lingyi Hong, Wenchao Chen, Wenqiang Zhang and Wei Zhang(参考訳) パノラマビデオには、よりリッチな空間情報が含まれており、自動運転やバーチャルリアリティといった分野での特別な経験から、膨大な注目を集めている。 しかし、既存のビデオセグメンテーション用データセットは、従来の平面画像のみに焦点を当てている。 本論文では,パノラマビデオデータセットであるパノVOSを提案する。 データセットは150本のビデオに高解像度と多様なモーションを提供する。 2次元平面ビデオとパノラマビデオの領域ギャップを定量化するために,パノVOSを用いた15のオフ・ザ・シェルフビデオオブジェクトセグメンテーション(VOS)モデルを評価した。 エラー解析により、パノラマビデオの画素レベルのコンテンツ不連続に対処できないことが判明した。 そこで我々は,従来のフレームのセマンティック境界情報を,現在のフレームとの画素レベルのマッチングに有効活用できるパノラマ空間整合変換器(PSCFormer)を提案する。 我々のPSCFormerネットワークは,従来のSOTAモデルと比較して,パノラマ条件下でのセグメンテーション結果において大きな優位性を示す。 我々のデータセットはパノラマVOSに新たな課題をもたらしており、パノラマVOSがパノラマセグメンテーション/トラッキングの開発を前進させることを期待しています。

Panoramic videos contain richer spatial information and have attracted tremendous amounts of attention due to their exceptional experience in some fields such as autonomous driving and virtual reality. However, existing datasets for video segmentation only focus on conventional planar images. To address the challenge, in this paper, we present a panoramic video dataset, PanoVOS. The dataset provides 150 videos with high video resolutions and diverse motions. To quantify the domain gap between 2D planar videos and panoramic videos, we evaluate 15 off-the-shelf video object segmentation (VOS) models on PanoVOS. Through error analysis, we found that all of them fail to tackle pixel-level content discontinues of panoramic videos. Thus, we present a Panoramic Space Consistency Transformer (PSCFormer), which can effectively utilize the semantic boundary information of the previous frame for pixel-level matching with the current frame. Extensive experiments demonstrate that compared with the previous SOTA models, our PSCFormer network exhibits a great advantage in terms of segmentation results under the panoramic setting. Our dataset poses new challenges in panoramic VOS and we hope that our PanoVOS can advance the development of panoramic segmentation/tracking.
翻訳日:2023-09-22 13:50:03 公開日:2023-09-21
# テキスト誘導ベクターグラフィックスのカスタマイズ

Text-Guided Vector Graphics Customization ( http://arxiv.org/abs/2309.12302v1 )

ライセンス: Link先を確認
Peiying Zhang, Nanxuan Zhao, Jing Liao(参考訳) ベクトルグラフィックスはデジタルアートで広く使われており、設計者によってそのスケーラビリティと層ワイドなトポロジ特性で評価されている。 しかし、ベクトルグラフィックスの作成と編集は創造性と設計の専門知識を必要とし、時間がかかります。 本稿では,与えられたexemplar svgの特性と層別情報を保存しつつ,テキストプロンプトに基づく高品質なカスタマイズベクターグラフィックスを生成する新しいパイプラインを提案する。 本手法は,事前学習した大規模テキスト対画像モデルの能力を活用する。 モデルのクロスアテンション層を微調整することにより、テキストプロンプトでガイドされたカスタマイズされたラスタ画像を生成する。 SVGを初期化するために,既存のSVGから重要な経路を保存・変換する意味に基づく経路アライメント手法を提案する。 さらに、画像レベルとベクトルレベルの両方の損失を用いて経路パラメータを最適化し、カスタマイズしたラスタ画像と整合しながら滑らかな形状変形を確保する。 我々は,ベクトルレベル,画像レベル,テキストレベルの観点から,複数の指標を用いた手法を広く評価した。 評価結果は,ベクトルグラフィックスの様々なカスタマイズを異常な品質で生成する上で,パイプラインの有効性を示す。 プロジェクトページはhttps://intchous.github.io/SVGCustomization。

Vector graphics are widely used in digital art and valued by designers for their scalability and layer-wise topological properties. However, the creation and editing of vector graphics necessitate creativity and design expertise, leading to a time-consuming process. In this paper, we propose a novel pipeline that generates high-quality customized vector graphics based on textual prompts while preserving the properties and layer-wise information of a given exemplar SVG. Our method harnesses the capabilities of large pre-trained text-to-image models. By fine-tuning the cross-attention layers of the model, we generate customized raster images guided by textual prompts. To initialize the SVG, we introduce a semantic-based path alignment method that preserves and transforms crucial paths from the exemplar SVG. Additionally, we optimize path parameters using both image-level and vector-level losses, ensuring smooth shape deformation while aligning with the customized raster image. We extensively evaluate our method using multiple metrics from vector-level, image-level, and text-level perspectives. The evaluation results demonstrate the effectiveness of our pipeline in generating diverse customizations of vector graphics with exceptional quality. The project page is https://intchous.github.io/SVGCustomization.
翻訳日:2023-09-22 13:49:42 公開日:2023-09-21
# 新規検出ロバスト性のための環境バイアス特徴ランキング

Environment-biased Feature Ranking for Novelty Detection Robustness ( http://arxiv.org/abs/2309.12301v1 )

ライセンス: Link先を確認
Stefan Smeu, Elena Burceanu, Emanuela Haller, Andrei Liviu Nicolicioiu(参考訳) 我々は,意味的内容の面での新規性の検出を,他の非関係な要因に不変でありながら行おうとする,堅牢な新規性検出の課題に取り組む。 具体的には、複数の環境を備えたセットアップで動作し、タスクに関連するコンテンツではなく、環境に関連付けられた機能のセットを決定します。 そこで本研究では,事前学習した組込みとマルチenv設定から始めて,その環境に焦点をあてて特徴をランク付けする手法を提案する。 まず,envs間の特徴分布のばらつきに基づいて,特徴単位のスコアを計算する。 次に,高得点を下げることにより,本課題に導入した実・合成ベンチマークにおいて,共分散・サブ人口シフトの両ケースにおいて,突発的な相関を取り除き,全体の性能を最大6%向上することを示す。

We tackle the problem of robust novelty detection, where we aim to detect novelties in terms of semantic content while being invariant to changes in other, irrelevant factors. Specifically, we operate in a setup with multiple environments, where we determine the set of features that are associated more with the environments, rather than to the content relevant for the task. Thus, we propose a method that starts with a pretrained embedding and a multi-env setup and manages to rank the features based on their environment-focus. First, we compute a per-feature score based on the feature distribution variance between envs. Next, we show that by dropping the highly scored ones, we manage to remove spurious correlations and improve the overall performance by up to 6%, both in covariance and sub-population shift cases, both for a real and a synthetic benchmark, that we introduce for this task.
翻訳日:2023-09-22 13:49:22 公開日:2023-09-21
# see to touch: 視覚インセンティブによる触覚のデクタリティの学習

See to Touch: Learning Tactile Dexterity through Visual Incentives ( http://arxiv.org/abs/2309.12300v1 )

ライセンス: Link先を確認
Irmak Guzey, Yinlong Dai, Ben Evans, Soumith Chintala and Lerrel Pinto(参考訳) 触覚センサーを備えた多指ロボットの装着は、人間が得意とする正確で接触性の高い操作を実現する上で不可欠だ。 しかし、触覚のみに頼ると、オブジェクトの空間的構成を推論するための適切な手がかりが得られず、エラーの修正と状況の変化に適応する能力が制限される。 本稿では,視覚に基づく報酬を用いたデクスタリポリシーを最適化することにより,触覚に基づくデクスタリティーを高める新しいフレームワークである,視覚インセンティブからの触覚適応(TAVI)を提案する。 まず,視覚表現の学習にコントラストに基づく目標を用いる。 次に,この視覚表現を用いた報奨関数を,人間の1つの実演に基づく最適移動ベースマッチングによって構築する。 最後に、ロボットのオンライン強化学習を利用して触覚に基づくポリシーを最適化し、視覚報酬を最大化する。 peg pick-and-place、unstacking bowls、flipping slender objectsといった6つの課題において、taviは4本指のallegroロボットハンドで73%の成功率を達成しました。 性能の向上は触覚と視力に基づく報酬を用いた政策よりも108%高く、触覚を含まない政策よりも135%高い。 ロボットビデオはプロジェクトのWebサイトでよく見られる。

Equipping multi-fingered robots with tactile sensing is crucial for achieving the precise, contact-rich, and dexterous manipulation that humans excel at. However, relying solely on tactile sensing fails to provide adequate cues for reasoning about objects' spatial configurations, limiting the ability to correct errors and adapt to changing situations. In this paper, we present Tactile Adaptation from Visual Incentives (TAVI), a new framework that enhances tactile-based dexterity by optimizing dexterous policies using vision-based rewards. First, we use a contrastive-based objective to learn visual representations. Next, we construct a reward function using these visual representations through optimal-transport based matching on one human demonstration. Finally, we use online reinforcement learning on our robot to optimize tactile-based policies that maximize the visual reward. On six challenging tasks, such as peg pick-and-place, unstacking bowls, and flipping slender objects, TAVI achieves a success rate of 73% using our four-fingered Allegro robot hand. The increase in performance is 108% higher than policies using tactile and vision-based rewards and 135% higher than policies without tactile observational input. Robot videos are best viewed on our project website: https://see-to-touch.github.io/.
翻訳日:2023-09-22 13:49:07 公開日:2023-09-21
# 量子的な混乱、クリアアップ(あるいはそう願う)

Quantum Confusions, Cleared Up (or so I hope) ( http://arxiv.org/abs/2309.12299v1 )

ライセンス: Link先を確認
Sabine Hossenfelder(参考訳) 私は、量子力学、特に局所性の問題に関する解釈に関する一般的な主張を調査するために、インストゥルメンタルなアプローチを使っています。 この研究は、最近提案された量子力学解釈の分類法に基づいている。

I use an instrumental approach to investigate some commonly made claims about interpretations of quantum mechanics, especially those that pertain questions of locality. The here presented investigation builds on a recently proposed taxonomy for quantum mechanics interpretations.
翻訳日:2023-09-22 13:48:40 公開日:2023-09-21
# どこでも運転することを学ぶ

Learning to Drive Anywhere ( http://arxiv.org/abs/2309.12295v1 )

ライセンス: Link先を確認
Ruizhao Zhu, Peng Huang, Eshed Ohn-Bar, Venkatesh Saligrama(参考訳) 人間のドライバーは、道路のさまざまな条件や規則、例えば左と右の交通量で、運転決定を地理的にシームレスに適応させることができる。 対照的に、これまでの自動運転のモデルは、これまで制限された運用領域にのみデプロイされてきた。 本研究では,異種・グローバルな分散データから動的環境,交通,社会特性を効率よく学習できる,地理的に認識可能な単一条件模倣学習(CIL)モデルであるAnyDを提案する。 我々の重要な洞察は、局所的なニュアンスに効果的に適用し、データ駆動方式で地域間の類似性を柔軟にモデル化する高容量なジオロケーションベースのチャネルアテンションメカニズムを導入することである。 対照的な模倣目的を最適化することにより、本提案手法は本質的に不均衡なデータ分布と位置依存イベントを効率的にスケールすることができる。 我々は、複数のデータセット、都市、スケーラブルなデプロイメントパラダイム、すなわち集中型、半教師付き、分散エージェントトレーニングにおけるAnyDエージェントのメリットを実証する。 特にanydは、オープンループ評価で14%、carlaでクローズドループテストで30%以上、cilベースラインを上回っている。

Human drivers can seamlessly adapt their driving decisions across geographical locations with diverse conditions and rules of the road, e.g., left vs. right-hand traffic. In contrast, existing models for autonomous driving have been thus far only deployed within restricted operational domains, i.e., without accounting for varying driving behaviors across locations or model scalability. In this work, we propose AnyD, a single geographically-aware conditional imitation learning (CIL) model that can efficiently learn from heterogeneous and globally distributed data with dynamic environmental, traffic, and social characteristics. Our key insight is to introduce a high-capacity geo-location-based channel attention mechanism that effectively adapts to local nuances while also flexibly modeling similarities among regions in a data-driven manner. By optimizing a contrastive imitation objective, our proposed approach can efficiently scale across inherently imbalanced data distributions and location-dependent events. We demonstrate the benefits of our AnyD agent across multiple datasets, cities, and scalable deployment paradigms, i.e., centralized, semi-supervised, and distributed agent training. Specifically, AnyD outperforms CIL baselines by over 14% in open-loop evaluation and 30% in closed-loop testing on CARLA.
翻訳日:2023-09-22 13:48:35 公開日:2023-09-21
# 論理形式からの自然言語生成のためのリランキング--大規模言語モデルに基づく研究

Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models ( http://arxiv.org/abs/2309.12294v1 )

ライセンス: Link先を確認
Levon Haroutunian, Zhuang Li, Lucian Galescu, Philip Cohen, Raj Tumuluri, Gholamreza Haffari(参考訳) 大規模言語モデル(llm)は自然言語生成において印象的な能力を示している。 しかし、それらの出力品質は一貫性がなく、論理形式(lfs)から自然言語を生成する上での課題となる。 このタスクは、LFの正確な意味を具現化するために生成された出力を必要とする。 本研究では,新しい生成・再生手法を提案することで,この問題に取り組む。 提案手法では,まずLLMを起動し,タスク固有の再ランカモデルを用いて再ランク付けすることで,一連の候補出力を生成する。 さらに,手作業で収集したデータセットを収集し,評価指標と判断結果の一致度を評価する。 選択されたランキング指標を用いて、リカクタモデルのトレーニングと評価を強化する。 3つの多種多様なデータセットについて広範な実験を行い,3つの総合的なメトリクスを用いて,ベースライン法で選択した候補が,セマンティクスの一貫性とフラレンシという観点で選択された候補よりも優れていることを示す。 本研究は,本手法が生成した出力の品質向上に有効であることを示す。

Large language models (LLMs) have demonstrated impressive capabilities in natural language generation. However, their output quality can be inconsistent, posing challenges for generating natural language from logical forms (LFs). This task requires the generated outputs to embody the exact semantics of LFs, without missing any LF semantics or creating any hallucinations. In this work, we tackle this issue by proposing a novel generate-and-rerank approach. Our approach involves initially generating a set of candidate outputs by prompting an LLM and subsequently reranking them using a task-specific reranker model. In addition, we curate a manually collected dataset to evaluate the alignment between different ranking metrics and human judgements. The chosen ranking metrics are utilized to enhance the training and evaluation of the reranker model. By conducting extensive experiments on three diverse datasets, we demonstrate that the candidates selected by our reranker outperform those selected by baseline methods in terms of semantic consistency and fluency, as measured by three comprehensive metrics. Our findings provide strong evidence for the effectiveness of our approach in improving the quality of generated outputs.
翻訳日:2023-09-22 13:48:14 公開日:2023-09-21
# 量子力学を超えた物理学の分類法

Taxonomy for Physics Beyond Quantum Mechanics ( http://arxiv.org/abs/2309.12293v1 )

ライセンス: Link先を確認
Emily Adlam, Jonte R. Hance, Sabine Hossenfelder, Tim N. Palmer(参考訳) 量子力学の解釈と、量子力学を修正または完全化するモデルを分類する用語を提案する。 我々の焦点は、これまで超決定論的(強いか弱いか)、レトロカウサル(シグナル、動的か非動的か)、将来の入力依存、時空間的、そしてオールアアア・オンスとされてきたモデルであり、必ずしも同じ意味や文脈を持つとは限らない。 これらのモデルが決定論的であると仮定されることもあるが、そうでない場合もあり、決定論的という言葉は異なる意味を与えられ、因果関係の異なる概念がそれらを分類する際に用いられてきた。 これは文学に多くの混乱をもたらしており、ここで提案された条件が命名の明確化に役立つことを願っている。 提案する一般的なモデルフレームワークは、量子力学の他の解釈や修正を分類するのにも有用である。 この文書は、2022年のBonn Workshop on Superdeterminism and Retrocausalityでの議論から生まれた。

We propose terminology to classify interpretations of quantum mechanics and models that modify or complete quantum mechanics. Our focus is on models which have previously been referred to as superdeterministic (strong or weak), retrocausal (with or without signalling, dynamical or non-dynamical), future-input-dependent, atemporal and all-at-once, not always with the same meaning or context. Sometimes these models are assumed to be deterministic, sometimes not, the word deterministic has been given different meanings, and different notions of causality have been used when classifying them. This has created much confusion in the literature, and we hope that the terms proposed here will help to clarify the nomenclature. The general model framework that we will propose may also be useful to classify other interpretations and modifications of quantum mechanics. This document grew out of the discussions at the 2022 Bonn Workshop on Superdeterminism and Retrocausality.
翻訳日:2023-09-22 13:47:52 公開日:2023-09-21
# すべてのノイズキュービットオブザーバブルの互換性

Compatibility of all noisy qubit observables ( http://arxiv.org/abs/2309.12290v1 )

ライセンス: Link先を確認
Martin J. Renner(参考訳) 量子力学の重要な特徴は、全ての測定が互いに互換性があるわけではないことである。 しかし、測定値がノイズに苦しむと、それらの非互換性を失う可能性がある。 ここでは、全ての qubit 可観測性、すなわち全ての正の作用素値測度(POVM)が互換性を持つように臨界可視性を決定する。 さらに、我々の手法を量子ステアリングやベル非局所性に適用する。 可視性1/2の2ビットワーナー状態に対する密閉局所隠れ状態モデルを得る。 興味深いことに、これはpovmがこの状態の族に対して量子ステアリングを示すのに役立ちません。 意味として、これはまた、ベルの不等式に違反しない前に、2量子ビットのシングルレットが許容できるホワイトノイズの量に関する新たな境界を与える。

It is a crucial feature of quantum mechanics that not all measurements are compatible with each other. However, if measurements suffer from noise they may lose their incompatibility. Here we determine the critical visibility such that all qubit observables, i.e. all positive operator-valued measures (POVMs), become compatible. In addition, we apply our methods to quantum steering and Bell nonlocality. We obtain a tight local hidden state model for two-qubit Werner states of visibility 1/2. Interestingly, this proves that POVMs do not help to demonstrate quantum steering for this family of states. As an implication, this also provides a new bound on how much white noise the two-qubit singlet can tolerate before it does not violate any Bell inequality.
翻訳日:2023-09-22 13:47:35 公開日:2023-09-21
# The Reversal Curse: "A is B" でトレーニングされた LLM は "B is A" を学ぶことができません。

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" ( http://arxiv.org/abs/2309.12288v1 )

ライセンス: Link先を確認
Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans(参考訳) 自動回帰型大言語モデル(LLM)における一般化の驚くべき失敗を明らかにする。 モデルが "A is B" という形式の文で訓練された場合、それは自動的に "B is A" に一般化されない。 これは逆の呪いだ 例えば、もしあるモデルが「Olaf Scholzがドイツ第9代首相であった」と訓練された場合、「ドイツの第9代首相は誰だったのか」という疑問に自動的に答えることはできない。 さらに、正解("Olaf Scholz")の確率は、ランダムな名前よりも高くはならない。 Thus, models exhibit a basic failure of logical deduction and do not generalize a prevalent pattern in their training set (i.e. if "A is B'' occurs, "B is A" is more likely to occur). We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of 'Abyssal Melodies'" and showing that they fail to correctly answer "Who composed 'Abyssal Melodies?'". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? a: メアリー・リー・ファイファー (mary lee pfeiffer) - メアリー・リー・ファイファーの息子。 GPT-4は、前の79%の時間のように正しく答えるが、後者は33%である。 これは、逆の呪いによって引き起こされるという論理的な推論の失敗を示している。 コードはhttps://github.com/lukasberglund/reversal_curseで入手できる。

We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Olaf Scholz was the ninth Chancellor of Germany", it will not automatically be able to answer the question, "Who was the ninth Chancellor of Germany?". Moreover, the likelihood of the correct answer ("Olaf Scholz") will not be higher than for a random name. Thus, models exhibit a basic failure of logical deduction and do not generalize a prevalent pattern in their training set (i.e. if "A is B'' occurs, "B is A" is more likely to occur). We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of 'Abyssal Melodies'" and showing that they fail to correctly answer "Who composed 'Abyssal Melodies?'". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. This shows a failure of logical deduction that we hypothesize is caused by the Reversal Curse. Code is available at https://github.com/lukasberglund/reversal_curse.
翻訳日:2023-09-22 13:47:24 公開日:2023-09-21
# パターンプロジェクタのないアクティブステレオ

Active Stereo Without Pattern Projector ( http://arxiv.org/abs/2309.12315v1 )

ライセンス: Link先を確認
Luca Bartolomei, Matteo Poggi, Fabio Tosi, Andrea Conti, Stefano Mattoccia(参考訳) 本稿では,物理パターンプロジェクタを持たない標準受動カメラシステムにアクティブステレオの原理を統合する新しいフレームワークを提案する。 我々は、深度センサから得られたスパース測定に基づいて、左画像と右画像にパターンを投影する。 このようなデバイスを私たちのフレームワークにシームレスにプラグインすることで、実行可能な環境に仮想的なアクティブステレオを配置し、限られた作業範囲や環境条件といったパターンプロジェクタの制限を克服できます。 室内/屋外データセットの実験では、長距離と近距離の両方を特徴とし、我々のアプローチのシームレスな有効性をサポートし、ステレオアルゴリズムとディープネットワークの精度を高める。

This paper proposes a novel framework integrating the principles of active stereo in standard passive camera systems without a physical pattern projector. We virtually project a pattern over the left and right images according to the sparse measurements obtained from a depth sensor. Any such devices can be seamlessly plugged into our framework, allowing for the deployment of a virtual active stereo setup in any possible environment, overcoming the limitation of pattern projectors, such as limited working range or environmental conditions. Experiments on indoor/outdoor datasets, featuring both long and close-range, support the seamless effectiveness of our approach, boosting the accuracy of both stereo algorithms and deep networks.
翻訳日:2023-09-22 13:39:10 公開日:2023-09-21
# TinyCLIP:Affinity Mimickingと軽量継承によるCLIP蒸留

TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance ( http://arxiv.org/abs/2309.12314v1 )

ライセンス: Link先を確認
Kan Wu, Houwen Peng, Zhenghong Zhou, Bin Xiao, Mengchen Liu, Lu Yuan, Hong Xuan, Michael Valenzuela, Xi (Stephen) Chen, Xinggang Wang, Hongyang Chao, Han Hu(参考訳) 本稿では,大規模言語画像事前学習モデルのための,TinyCLIPと呼ばれる新しいクロスモーダル蒸留法を提案する。 親和性模倣と重み継承という2つのコア技術を導入する。 アフィニティ模倣は、蒸留中のモダリティ間の相互作用を探求し、学生モデルが視覚言語的なアフィニティ空間における教師のクロスモーダルな特徴アライメントを模倣することを可能にする。 重量継承は、教師モデルから学生モデルに事前訓練した重量を伝達し、蒸留効率を向上させる。 さらに,本法を多段階プログレッシブ蒸留に拡張し,極端圧縮時の情報重みの損失を軽減する。 総合的な実験では、TinyCLIPの有効性を示し、訓練済みのCLIP ViT-B/32のサイズを50%削減し、同等のゼロショット性能を維持する。 同等のパフォーマンスを目指す一方で、重量継承による蒸留は、スクラッチからのトレーニングと比較して1.4~7.8ドルのトレーニングを高速化することができる。 さらに、YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を実現し、オリジナルのCLIP ViT-B/16を3.5%上回り、わずか8.9%のパラメータしか利用していない。 最後に、様々な下流タスクにおけるTinyCLIPの優れた転送性を示す。 コードとモデルはhttps://aka.ms/tinyclip.comでオープンソース化される。

In this paper, we propose a novel cross-modal distillation method, called TinyCLIP, for large-scale language-image pre-trained models. The method introduces two core techniques: affinity mimicking and weight inheritance. Affinity mimicking explores the interaction between modalities during distillation, enabling student models to mimic teachers' behavior of learning cross-modal feature alignment in a visual-linguistic affinity space. Weight inheritance transmits the pre-trained weights from the teacher models to their student counterparts to improve distillation efficiency. Moreover, we extend the method into a multi-stage progressive distillation to mitigate the loss of informative weights during extreme compression. Comprehensive experiments demonstrate the efficacy of TinyCLIP, showing that it can reduce the size of the pre-trained CLIP ViT-B/32 by 50%, while maintaining comparable zero-shot performance. While aiming for comparable performance, distillation with weight inheritance can speed up the training by 1.4 - 7.8 $\times$ compared to training from scratch. Moreover, our TinyCLIP ViT-8M/16, trained on YFCC-15M, achieves an impressive zero-shot top-1 accuracy of 41.1% on ImageNet, surpassing the original CLIP ViT-B/16 by 3.5% while utilizing only 8.9% parameters. Finally, we demonstrate the good transferability of TinyCLIP in various downstream tasks. Code and models will be open-sourced at https://aka.ms/tinyclip.
翻訳日:2023-09-22 13:38:58 公開日:2023-09-21
# ForceSight:ビジュアルフォースゴールによるテキストガイドモバイル操作

ForceSight: Text-Guided Mobile Manipulation with Visual-Force Goals ( http://arxiv.org/abs/2309.12312v1 )

ライセンス: Link先を確認
Jeremy A. Collins, Cody Houff, You Liang Tan, Charles C. Kemp(参考訳) 本稿では,深層ニューラルネットワークを用いて視覚力目標を予測するテキスト誘導型モバイル操作システムであるForceSightを紹介する。 テキストプロンプトと1つのrgbdイメージを組み合わせると、forcesightはカメラフレーム(キネマティックゴール)と関連する力(フォースゴール)でターゲットエンドエフェクターポーズを決定する。 これら2つのコンポーネントは、視覚力目標を形成する。 先行研究では、人間の解釈可能な運動目標を出力できる深層モデルが、実際のロボットによるデクスタースな操作を可能にすることを実証した。 力は操作に欠かせないが、通常はこれらのシステムでの低レベルの実行に制限されている。 アイインハンドRGBDカメラを備えた移動マニピュレータに配備すると、ForceSightは、トレーニングデータと大きく異なるオブジェクトインスタンスを持つ未確認環境で、精度の把握、引き出しのオープニング、オブジェクトハンドオーバといったタスクを81%の成功率で実行した。 別の実験では、視覚サーボと力の目標の無視にのみ依存することで成功率が90%から45%に低下し、力の目標がパフォーマンスを著しく向上することを示した。 付録、ビデオ、コード、訓練されたモデルはhttps://force-sight.github.io/で入手できる。

We present ForceSight, a system for text-guided mobile manipulation that predicts visual-force goals using a deep neural network. Given a single RGBD image combined with a text prompt, ForceSight determines a target end-effector pose in the camera frame (kinematic goal) and the associated forces (force goal). Together, these two components form a visual-force goal. Prior work has demonstrated that deep models outputting human-interpretable kinematic goals can enable dexterous manipulation by real robots. Forces are critical to manipulation, yet have typically been relegated to lower-level execution in these systems. When deployed on a mobile manipulator equipped with an eye-in-hand RGBD camera, ForceSight performed tasks such as precision grasps, drawer opening, and object handovers with an 81% success rate in unseen environments with object instances that differed significantly from the training data. In a separate experiment, relying exclusively on visual servoing and ignoring force goals dropped the success rate from 90% to 45%, demonstrating that force goals can significantly enhance performance. The appendix, videos, code, and trained models are available at https://force-sight.github.io/.
翻訳日:2023-09-22 13:38:30 公開日:2023-09-21
# LLM-Grounder: エージェントとして大規模言語モデルを用いたオープン語彙3次元視覚グラウンド

LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent ( http://arxiv.org/abs/2309.12311v1 )

ライセンス: Link先を確認
Jianing Yang, Xuweiyi Chen, Shengyi Qian, Nikhil Madaan, Madhavan Iyengar, David F. Fouhey, Joyce Chai(参考訳) 3Dビジュアルグラウンドティングは家庭用ロボットにとって重要なスキルであり、その環境に基づいてオブジェクトをナビゲートし、操作し、質問に答えることができる。 既存のアプローチはしばしばラベル付きデータに頼り、複雑な言語クエリを扱う際の制限を示すが、新しいゼロショット、オープンボキャブラリ、LLM(Large Language Model)ベースの3DビジュアルグラウンドティングパイプラインであるLLM-Grounderを提案する。 LLM-GrounderはLLMを使って複雑な自然言語クエリをセマンティックな構成要素に分解し、OpenSceneやLERFといった視覚的グラウンドツールを使って3Dシーンのオブジェクトを識別する。 LLMは、提案対象間の空間的および常識的関係を評価し、最終的な根拠決定を行う。 本手法はラベル付きトレーニングデータを必要とせず,新たな3dシーンや任意のテキストクエリに一般化することができる。 我々は、ScanReferベンチマーク上でLLM-Grounderを評価し、最先端のゼロショットグラウンド精度を示す。 以上の結果から,ロボット工学における3次元視覚言語タスクにおけるLLM-Grounderの有効性が示唆された。 ビデオとインタラクティブなデモはプロジェクトのWebサイトhttps://chat-with-nerf.github.io/で見ることができる。

3D visual grounding is a critical skill for household robots, enabling them to navigate, manipulate objects, and answer questions based on their environment. While existing approaches often rely on extensive labeled data or exhibit limitations in handling complex language queries, we propose LLM-Grounder, a novel zero-shot, open-vocabulary, Large Language Model (LLM)-based 3D visual grounding pipeline. LLM-Grounder utilizes an LLM to decompose complex natural language queries into semantic constituents and employs a visual grounding tool, such as OpenScene or LERF, to identify objects in a 3D scene. The LLM then evaluates the spatial and commonsense relations among the proposed objects to make a final grounding decision. Our method does not require any labeled training data and can generalize to novel 3D scenes and arbitrary text queries. We evaluate LLM-Grounder on the ScanRefer benchmark and demonstrate state-of-the-art zero-shot grounding accuracy. Our findings indicate that LLMs significantly improve the grounding capability, especially for complex language queries, making LLM-Grounder an effective approach for 3D vision-language tasks in robotics. Videos and interactive demos can be found on the project website https://chat-with-nerf.github.io/ .
翻訳日:2023-09-22 13:38:05 公開日:2023-09-21
# 皮膚効果のないモデル非エルミート位相作用素

Model non-Hermitian topological operators without skin effect ( http://arxiv.org/abs/2309.12310v1 )

ライセンス: Link先を確認
Daniel J. Salib, Sanjib Kumar Das, Bitan Roy(参考訳) 本稿では,任意の次元において非エルミタン(NH)作用素を絶縁的かつギャップのない位相位相(d$)に構成する一般原理を提案し,拡張された NH パラメータ体系上では実固有値とゼロエネルギー位相境界モードを特徴付ける。 しかし、nh演算子が複素固有値を受け入れると位相的ゼロモードは消える。 これらの系は常に NH の皮膚効果を欠いているため、バルク境界対応の領域を NH 系に拡張し、左あるいは右のゼロエネルギー境界の局所固有モデムのみに限定する。 NHトポロジカル絶縁体は,高次インカーネーションを含む$d=1,2$,$3$,NHトポロジカル絶縁体ではDirac,Weyl,nodal-loop semimetalsなどの一般かつ堅牢な結果を示す。 設計材料, 光学格子, 古典的メタマテリアルにおけるNHトポロジカル位相の可能性を強調した。

We propose a general principle of constructing non-Hermitian (NH) operators for insulating and gapless topological phases in any dimension ($d$) that over an extended NH parameter regime feature real eigenvalues and zero-energy topological boundary modes, when in particular their Hermitian cousins are also topological. However, the topological zero modes disappear when the NH operators accommodate complex eigenvalues. These systems are always devoid of NH skin effects, thereby extending the realm of the bulk-boundary correspondence to NH systems in terms of solely the left or right zero-energy boundary localized eigenmodes. We showcase these general and robust outcomes for NH topological insulators in $d=1,2$ and $3$, encompassing their higher-order incarnations, as well as for NH topological Dirac, Weyl and nodal-loop semimetals. Possible realizations of proposed NH topological phases in designer materials, optical lattices and classical metamaterials are highlighted.
翻訳日:2023-09-22 13:37:42 公開日:2023-09-21
# リハーサル:紛争解決を教えるために紛争をシミュレーションする

Rehearsal: Simulating Conflict to Teach Conflict Resolution ( http://arxiv.org/abs/2309.12309v1 )

ライセンス: Link先を確認
Omar Shaikh, Valentino Chai, Michele J. Gelfand, Diyi Yang, Michael S. Bernstein(参考訳) 対人対立は不快だが避けられない人生の事実である。 コンフリクトをうまくナビゲートすることは、意図的なプラクティスを通じて学べるスキルだが、効果的なトレーニングやフィードバックへのアクセスは少ない。 このアクセスを拡大するために、ユーザーが信頼できるシミュレートされた対話者とのコンフリクトをリハーサルできるシステムであるrehearsalを紹介し、代替の会話パスを識別する反事実的シナリオを探索し、特定のコンフリクト戦略を適用する方法と方法に関するフィードバックを通じて学習する。 ユーザはRehearsalを使って、オフィスの紛争から関係の問題まで、事前に定義されたさまざまなコンフリクトシナリオを扱うことができる。 リハーサルを実現するため,大言語モデルの出力を競合解決からイントラスト・ライツ・パワー(IRP)理論に基づいて条件付けするIRPプロンプトを開発した。 リハーサルは、IRPを使用して紛争解決理論に基づく発話を生成し、難しい会話をエスカレートする反現実的な紛争解決戦略にユーザーを誘導する。 対象間の評価では,訓練後の連盟と実際に対立する参加者が40名であった。 同じIRP理論をカバーする講義資料を持つコントロールグループと比較すると、リハーサルからの模擬トレーニングの参加者は、競争戦略のエスカレートを平均67%減らし、協力戦略を2倍にすることで、未解決の紛争におけるパフォーマンスを著しく向上させた。 全体として、リハーサルは、対人スキルの学習と実践のためのツールとして、言語モデルの潜在的有効性を強調している。

Interpersonal conflict is an uncomfortable but unavoidable fact of life. Navigating conflict successfully is a skill -- one that can be learned through deliberate practice -- but few have access to effective training or feedback. To expand this access, we introduce Rehearsal, a system that allows users to rehearse conflicts with a believable simulated interlocutor, explore counterfactual "what if?" scenarios to identify alternative conversational paths, and learn through feedback on how and when to apply specific conflict strategies. Users can utilize Rehearsal to practice handling a variety of predefined conflict scenarios, from office disputes to relationship issues, or they can choose to create their own. To enable Rehearsal, we develop IRP prompting, a method of conditioning output of a large language model on the influential Interest-Rights-Power (IRP) theory from conflict resolution. Rehearsal uses IRP to generate utterances grounded in conflict resolution theory, guiding users towards counterfactual conflict resolution strategies that help de-escalate difficult conversations. In a between-subjects evaluation, 40 participants engaged in an actual conflict with a confederate after training. Compared to a control group with lecture material covering the same IRP theory, participants with simulated training from Rehearsal significantly improved their performance in the unaided conflict: they reduced their use of escalating competitive strategies by an average of 67%, while doubling their use of cooperative strategies. Overall, Rehearsal highlights the potential effectiveness of language models as tools for learning and practicing interpersonal skills.
翻訳日:2023-09-22 13:37:22 公開日:2023-09-21
# 誘導無秩序ボースガス中のエネルギー空間ランダムウォーク

Energy-space random walk in a driven disordered Bose gas ( http://arxiv.org/abs/2309.12308v1 )

ライセンス: Link先を確認
Yansheng Zhang, Gevorg Martirosyan, Christopher J. Ho, Ji\v{r}\'i Etrych, Christoph Eigen, Zoran Hadzibabic(参考訳) 弱い障害を持つ3Dボックスで非相互作用性ボースガスを駆動する実験 [1] により、パワー-ローエネルギー成長、$E \propto t^{\eta}$ と $\eta=0.46(2)$ と、動的スケーリングを示す圧縮された指数運動量分布に動機づけられ、系統的な数値的および解析的な研究を行う。 schr\"odinger-equation simulations は、2つの異なる動的レジームの存在を示唆する、障害強度の増大とともに、$\eta \approx 0.5$ から$\eta \approx 0.4$ のクロスオーバーを明らかにした。 シミュレーション結果をキャプチャし、エネルギー空間ランダムウォークの観点でダイナミクスの理解を可能にする半古典的モデルを示し、そこでは、$e \propto t^{1/2}$ から$e \propto t^{2/5}$ へのクロスオーバーが解析的に得られる。 この2つの制限は、弾性障害誘発散乱の速度または駆動が系のエネルギーを変えることができる速度によって制限されるランダムウォークに対応する。 我々の結果は、さらなる実験の理論的基礎を提供する。

Motivated by the experimental observation [1] that driving a non-interacting Bose gas in a 3D box with weak disorder leads to power-law energy growth, $E \propto t^{\eta}$ with $\eta=0.46(2)$, and compressed-exponential momentum distributions that show dynamic scaling, we perform systematic numerical and analytical studies of this system. Schr\"odinger-equation simulations reveal a crossover from $\eta \approx 0.5$ to $\eta \approx 0.4$ with increasing disorder strength, hinting at the existence of two different dynamical regimes. We present a semi-classical model that captures the simulation results and allows an understanding of the dynamics in terms of an energy-space random walk, from which a crossover from $E \propto t^{1/2}$ to $E \propto t^{2/5}$ scaling is analytically obtained. The two limits correspond to the random walk being limited by the rate of the elastic disorder-induced scattering or the rate at which the drive can change the system's energy. Our results provide the theoretical foundation for further experiments.
翻訳日:2023-09-22 13:36:50 公開日:2023-09-21
# LongLoRA: 長期言語モデルの効率的な微調整

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models ( http://arxiv.org/abs/2309.12307v1 )

ライセンス: Link先を確認
Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia(参考訳) 我々は,事前学習された大規模言語モデル(llm)のコンテキストサイズを計算コストの制限付きで拡張する,効率的な微調整手法であるlongloraを提案する。 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。 例えば、8192のコンテキスト長のトレーニングには、2048年の16倍の計算コストが必要である。 本稿では,LLMの文脈拡張を2つの側面で高速化する。 一方,推定には大域的注意が必要であるが,局所的な注意を疎かにすることで,モデルの微調整を効果的かつ効率的に行うことができる。 提案するシフト短い注意は,コンテキスト拡張を効果的に実現し,バニラ注意による微調整と同様の性能で非自明な計算セーブを実現する。 特に、トレーニングでは2行のコードでしか実装できないが、推論ではオプションである。 一方,文脈拡張のためのパラメータ効率の良い微調整方式について検討する。 特に、コンテキスト拡張用のLoRAは、トレーニング可能な埋め込みと正規化の前提下でうまく機能する。 LongLoRAは、7B/13Bから70BまでのLLaMA2モデルの様々なタスクに対して強い実験結果を示す。 LongLoRAはLLaMA2 7Bを4kから100k、LLaMA2 70Bから32kに採用している。 LongLoRAはオリジナルのアーキテクチャを維持しながらモデルのコンテキストを拡張し、FlashAttention-2のような既存の技術と互換性がある。 さらに,LongLoRAを実用化するために,教師付き微調整のためのデータセットであるLongQAを収集する。 3k以上の長文の質疑応答を含む。

We present LongLoRA, an efficient fine-tuning approach that extends the context sizes of pre-trained large language models (LLMs), with limited computation cost. Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. For example, training on the context length of 8192 needs 16x computational costs in self-attention layers as that of 2048. In this paper, we speed up the context extension of LLMs in two aspects. On the one hand, although dense global attention is needed during inference, fine-tuning the model can be effectively and efficiently done by sparse local attention. The proposed shift short attention effectively enables context extension, leading to non-trivial computation saving with similar performance to fine-tuning with vanilla attention. Particularly, it can be implemented with only two lines of code in training, while being optional in inference. On the other hand, we revisit the parameter-efficient fine-tuning regime for context expansion. Notably, we find that LoRA for context extension works well under the premise of trainable embedding and normalization. LongLoRA demonstrates strong empirical results on various tasks on LLaMA2 models from 7B/13B to 70B. LongLoRA adopts LLaMA2 7B from 4k context to 100k, or LLaMA2 70B to 32k on a single 8x A100 machine. LongLoRA extends models' context while retaining their original architectures, and is compatible with most existing techniques, like FlashAttention-2. In addition, to make LongLoRA practical, we collect a dataset, LongQA, for supervised fine-tuning. It contains more than 3k long context question-answer pairs.
翻訳日:2023-09-22 13:36:24 公開日:2023-09-21
# TalkNCE: 対話型コントラスト学習によるアクティブ話者検出の改善

TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive Learning ( http://arxiv.org/abs/2309.12306v1 )

ライセンス: Link先を確認
Chaeyoung Jung, Suyeon Lee, Kihyun Nam, Kyeongha Rho, You Jin Kim, Youngjoon Jang, Joon Son Chung(参考訳) この研究の目標は、ある人が話しているかどうかを一連のビデオフレームで判断するタスクであるactive speaker detection(asd)である。 ネットワークアーキテクチャを探索し、効果的な表現を学習する以前の作業は、あまり研究されていない。 本研究では,新しい会話認識型コントラスト損失であるTalkNCEを提案する。 損失は、画面上の人が実際に話している全セグメントの一部にのみ適用される。 これにより、モデルが音声と顔の動きの自然な対応を通して効果的な表現を学ぶことを奨励する。 当社の損失は、追加の監視やトレーニングデータなしで、既存のasdモデルのトレーニング目標と共同で最適化することができます。 実験では、損失が既存のASDフレームワークに簡単に統合でき、パフォーマンスが向上することを示した。 提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。

The goal of this work is Active Speaker Detection (ASD), a task to determine whether a person is speaking or not in a series of video frames. Previous works have dealt with the task by exploring network architectures while learning effective representations has been less explored. In this work, we propose TalkNCE, a novel talk-aware contrastive loss. The loss is only applied to part of the full segments where a person on the screen is actually speaking. This encourages the model to learn effective representations through the natural correspondence of speech and facial movements. Our loss can be jointly optimized with the existing objectives for training ASD models without the need for additional supervision or training data. The experiments demonstrate that our loss can be easily integrated into the existing ASD frameworks, improving their performance. Our method achieves state-of-the-art performances on AVA-ActiveSpeaker and ASW datasets.
翻訳日:2023-09-22 13:36:00 公開日:2023-09-21
# 連続手話認識のためのSlowFast Network

SlowFast Network for Continuous Sign Language Recognition ( http://arxiv.org/abs/2309.12304v1 )

ライセンス: Link先を確認
Junseok Ahn, Youngjoon Jang, Joon Son Chung(参考訳) 本研究の目的は,連続手話認識(cslr)のための空間的・動的特徴の効果的な抽出である。 そこで我々は,2経路のSlowFastネットワークを利用し,それぞれの経路が時間分解能で動作し,空間(手形,表情)と動的(動き)情報を分離する。 さらに, cslrの特性を念頭に置いて設計された2つの特徴融合法について紹介する。(1)空間意味論への動的意味論の伝達を容易にする双方向特徴融合 (bff) と, (2)補助サブネットワークによる動的・空間的表現を充実させる経路特徴強化 (pfe) である。 その結果,我々のモデルは空間的および動的表現の並列性をさらに強化する。 提案手法は,PHOENIX14,PHOENIX14-T,CSL-DailyなどのCSLRデータセット上での最先端性能よりも優れていることを示す。

The objective of this work is the effective extraction of spatial and dynamic features for Continuous Sign Language Recognition (CSLR). To accomplish this, we utilise a two-pathway SlowFast network, where each pathway operates at distinct temporal resolutions to separately capture spatial (hand shapes, facial expressions) and dynamic (movements) information. In addition, we introduce two distinct feature fusion methods, carefully designed for the characteristics of CSLR: (1) Bi-directional Feature Fusion (BFF), which facilitates the transfer of dynamic semantics into spatial semantics and vice versa; and (2) Pathway Feature Enhancement (PFE), which enriches dynamic and spatial representations through auxiliary subnetworks, while avoiding the need for extra inference time. As a result, our model further strengthens spatial and dynamic representations in parallel. We demonstrate that the proposed framework outperforms the current state-of-the-art performance on popular CSLR datasets, including PHOENIX14, PHOENIX14-T, and CSL-Daily.
翻訳日:2023-09-22 13:35:48 公開日:2023-09-21
# Causal-Story:パラメータ効率を考慮したビジュアルストーリー合成のための局所因果注意

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis ( http://arxiv.org/abs/2309.09553v3 )

ライセンス: Link先を確認
Tianyi Song, Jiuxin Cao, Kun Wang, Bo Liu, Xiaofeng Zhang(参考訳) 拡散モデルの優れたテキストと画像の合成能力は、コヒーレントなビジュアルストーリーの合成の進歩を促した。 現在の最先端の手法は、現在のフレームを生成する条件として、歴史的なキャプション、歴史的なフレーム、そして現在のキャプションの特徴を組み合わせる。 しかし、この方法はそれぞれの歴史的枠とキャプションを同じ貢献として扱う。 すべての歴史的条件が現在のフレームの生成と関連しているわけではないことを無視して、同じ重みでそれらを順番に結びつける。 この問題に対処するため、我々はCausal-Storyを提案する。 このモデルは、以前のキャプション、フレーム、現在のキャプション間の因果関係を考慮した、局所的な因果的注意機構を取り入れている。 この関係に基づいて重みを割り当てることで、因果関係は現在のフレームを生成し、ストーリー生成のグローバル一貫性を向上させる。 本研究では,pororosvとflintstonessvデータセットのモデルを評価し,得られた最新fidスコアを評価した。

The excellent text-to-image synthesis capability of diffusion models has driven progress in synthesizing coherent visual stories. The current state-of-the-art method combines the features of historical captions, historical frames, and the current captions as conditions for generating the current frame. However, this method treats each historical frame and caption as the same contribution. It connects them in order with equal weights, ignoring that not all historical conditions are associated with the generation of the current frame. To address this issue, we propose Causal-Story. This model incorporates a local causal attention mechanism that considers the causal relationship between previous captions, frames, and current captions. By assigning weights based on this relationship, Causal-Story generates the current frame, thereby improving the global consistency of story generation. We evaluated our model on the PororoSV and FlintstonesSV datasets and obtained state-of-the-art FID scores, and the generated frames also demonstrate better storytelling in visuals.
翻訳日:2023-09-22 11:49:40 公開日:2023-09-21
# FedGKD:フェデレーショングラフニューラルネットワークにおけるコラボレーションのパワーの解放

FedGKD: Unleashing the Power of Collaboration in Federated Graph Neural Networks ( http://arxiv.org/abs/2309.09517v3 )

ライセンス: Link先を確認
Qiying Pan, Ruofan Wu, Tengfei Liu, Tianyi Zhang, Yifei Zhu, Weiqiang Wang(参考訳) グラフニューラルネットワーク(gnn)のフェデレーショントレーニングは、データプライバシを維持しながら、データ分離シナリオ下でグラフ関連タスクを実行する能力から、近年普及している。 しかし、連合型GNNシステムにおけるグラフの不均一性問題は引き続き課題となっている。 既存のフレームワークは、異なる統計を用いてローカルタスクを表現し、単純な集約メカニズムを通じてそれらを関連付けることで、この問題に対処する。 しかしながら、これらのアプローチは、タスク関連性定量化の低品質と、コラボレーション構造を利用する非効率という2つの側面から、限られた効率性に苦しめられている。 これらの課題に対処するため,FedGKDという新しいクライアント側グラフデータセット蒸留手法を用いてタスク関連性をよりよく記述したタスク特徴を抽出する新しいGNNフレームワークを提案し,グローバルな協調構造を認識したサーバ側集約機構を提案する。 異なるスケールの6つの実世界のデータセットについて広範な実験を行い、フレームワークのアウトパフォーマンスを実証した。

Federated training of Graph Neural Networks (GNN) has become popular in recent years due to its ability to perform graph-related tasks under data isolation scenarios while preserving data privacy. However, graph heterogeneity issues in federated GNN systems continue to pose challenges. Existing frameworks address the problem by representing local tasks using different statistics and relating them through a simple aggregation mechanism. However, these approaches suffer from limited efficiency from two aspects: low quality of task-relatedness quantification and inefficacy of exploiting the collaboration structure. To address these issues, we propose FedGKD, a novel federated GNN framework that utilizes a novel client-side graph dataset distillation method to extract task features that better describe task-relatedness, and introduces a novel server-side aggregation mechanism that is aware of the global collaboration structure. We conduct extensive experiments on six real-world datasets of different scales, demonstrating our framework's outperformance.
翻訳日:2023-09-22 11:49:22 公開日:2023-09-21
# read the room: ロボットの声を環境や社会的文脈に適応させる

Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts ( http://arxiv.org/abs/2205.04952v3 )

ライセンス: Link先を確認
Paige Tuttosi, Emma Hughson, Akihiro Matsufuji, Angelica Lim(参考訳) ロボットはどのように、形式的、静か、暗く、あるいは明るく、活発で、騒がしい環境で話すべきか? ロボットがより社会的で環境に合った方法で話すように設計することで、エージェントに対する認識と知性を改善することができる。 社会的適切さと環境意識を認識するロボット音声スタイルの選択に向けたプロセスと結果について述べる。 人間の声を異なる音環境に適応させる方法を理解することは、野生の音声キャプチャーの難しさのために難しい場合がある。 私たちのアプローチには3つのステップがあります。 (a)仮想ズームアンバイアンスにおける音声データの相互作用の収集と検証 (b)第一声のスタイルを識別するために、人間の声の発話を探索し、クラスタリングすること。 (c)プロジェクション,照明,音を用いて再現環境下でロボット音声のスタイルをテストする。 私たちは概念実証として、食品サービスのシナリオに注目します。 我々は,Pepperロボットの声を異なるスタイルで使用して,文脈的に適切かつ適応的に話すロボットに結果を提示する。 n=120の参加者による結果から,音声スタイルの選択は,ロボットの知覚知性に,社会的適合性,快適性,意識性,人間的類似性,能力性など,いくつかの要因に影響を与えていることが示唆された。

How should a robot speak in a formal, quiet and dark, or a bright, lively and noisy environment? By designing robots to speak in a more social and ambient-appropriate manner we can improve perceived awareness and intelligence for these agents. We describe a process and results toward selecting robot voice styles for perceived social appropriateness and ambiance awareness. Understanding how humans adapt their voices in different acoustic settings can be challenging due to difficulties in voice capture in the wild. Our approach includes 3 steps: (a) Collecting and validating voice data interactions in virtual Zoom ambiances, (b) Exploration and clustering human vocal utterances to identify primary voice styles, and (c) Testing robot voice styles in recreated ambiances using projections, lighting and sound. We focus on food service scenarios as a proof-of-concept setting. We provide results using the Pepper robot's voice with different styles, towards robots that speak in a contextually appropriate and adaptive manner. Our results with N=120 participants provide evidence that the choice of voice style in different ambiances impacted a robot's perceived intelligence in several factors including: social appropriateness, comfort, awareness, human-likeness and competency.
翻訳日:2023-09-22 11:48:14 公開日:2023-09-21
# 新型コロナウイルス感染拡大に伴う国内移住と日常移動の社会的階層化

The social stratification of internal migration and daily mobility during the COVID-19 pandemic ( http://arxiv.org/abs/2309.11062v2 )

ライセンス: Link先を確認
Erick Elejalde and Leo Ferres and V\'ictor Navarro and Loreto Bravo and Emilio Zagheni(参考訳) この研究は540万人のユーザーの携帯電話データを活用し、世界規模のCOVID-19パンデミック中のチリのサンティアゴでの内部移動と日常移動の複雑なダイナミクスを明らかにする。 主な発見は、2020年における低所得層の日常生活移動率の増加である。 対照的に、長期の転職パターンは、主に高所得層で増加した。 これらの変化は、社会経済的階層のパンデミックに対する微妙な反応を示している。 2017年とは異なり、2020年の経済要因は移住の決定だけでなく目的地の選択にも影響を与え、移動行動に大きな変化をもたらした。 予想に反して、パンデミック中のサンティアゴからの移住が急増したにもかかわらず、都市部よりも農村部の方が好まれる証拠はなかった。 本研究は,社会経済の諸条件が危機時のモビリティ決定とどのように相互作用するかの理解を深め,急速に変化する状況において公正でインフォームドな措置を実施しようとする政策立案者にとって貴重な洞察を与えるものである。

This study leverages mobile phone data for 5.4 million users to unveil the complex dynamics of internal migration and daily mobility in Santiago de Chile during the global COVID-19 pandemic, with a focus on socioeconomic differentials. Major findings include an increase in daily mobility among lower-income brackets compared to higher ones in 2020. In contrast, long-term relocation patterns rose primarily among higher-income groups. These shifts indicate a nuanced response to the pandemic across socioeconomic strata. Unlike in 2017, economic factors in 2020 influenced a change not only in the decision to emigrate but also in the selection of destinations, suggesting a profound transformation in mobility behaviors. Contrary to expectations, there was no evidence supporting a preference for rural over urban destinations despite the surge in emigration from Santiago during the pandemic. The study enhances our understanding of how varying socioeconomic conditions intersect with mobility decisions during crises and provides valuable insights for policymakers aiming to enact fair, informed measures in rapidly changing circumstances.
翻訳日:2023-09-22 11:42:47 公開日:2023-09-21
# fakenewsbr:ブラジルポルトガル語の偽ニュース検出プラットフォーム

fakenewsbr: A Fake News Detection Platform for Brazilian Portuguese ( http://arxiv.org/abs/2309.11052v2 )

ライセンス: Link先を確認
Luiz Giordani and Gilsiley Dar\'u and Rhenan Queiroz and Vitor Buzinaro and Davi Keglevich Neiva and Daniel Camilo Fuentes Guzm\'an and Marcos Jardel Henriques and Oilson Alberto Gonzatto Junior and Francisco Louzada(参考訳) 偽ニュースの拡散は、誤情報の拡散や世論の操作の可能性から、近年では大きな関心事となっている。 本稿では,ブラジルポルトガル語における偽ニュースの検出に関する総合的研究について,ジャーナリスト型ニュースに着目した。 本稿では,TF-IDFやWord2Vecといった自然言語処理技術を活用し,テキストデータから特徴を抽出する機械学習アプローチを提案する。 本研究では,偽ニュース記事を含むデータセット上で,ロジスティック回帰,サポートベクターマシン,ランダムフォレスト,adaboost,lightgbmなどの分類アルゴリズムの性能を評価する。 提案手法は高い精度とF1スコアを実現し,フェイクニュースの同定の有効性を示した。 さらに,ニュース記事の検証を容易にするため,ユーザフレンドリーなwebプラットフォームであるfakenewsbr.comを開発した。 我々のプラットフォームは、ユーザーが偽ニュース記事の可能性を評価できるリアルタイム分析を提供する。 実証分析と比較研究を通じて,偽ニュースの拡散に対する戦いに寄与し,よりインフォームドメディアの消費を促進するためのアプローチの可能性を示す。

The proliferation of fake news has become a significant concern in recent times due to its potential to spread misinformation and manipulate public opinion. This paper presents a comprehensive study on detecting fake news in Brazilian Portuguese, focusing on journalistic-type news. We propose a machine learning-based approach that leverages natural language processing techniques, including TF-IDF and Word2Vec, to extract features from textual data. We evaluate the performance of various classification algorithms, such as logistic regression, support vector machine, random forest, AdaBoost, and LightGBM, on a dataset containing both true and fake news articles. The proposed approach achieves high accuracy and F1-Score, demonstrating its effectiveness in identifying fake news. Additionally, we developed a user-friendly web platform, fakenewsbr.com, to facilitate the verification of news articles' veracity. Our platform provides real-time analysis, allowing users to assess the likelihood of fake news articles. Through empirical analysis and comparative studies, we demonstrate the potential of our approach to contribute to the fight against the spread of fake news and promote more informed media consumption.
翻訳日:2023-09-22 11:42:29 公開日:2023-09-21
# Localize, Retrieve and Fuse: テーブル上のフリーフォーム質問回答のための汎用フレームワーク

Localize, Retrieve and Fuse: A Generalized Framework for Free-Form Question Answering over Tables ( http://arxiv.org/abs/2309.11049v2 )

ライセンス: Link先を確認
Wenting Zhao, Ye Liu, Yao Wan, Yibo Wang, Zhongfen Deng, and Philip S. Yu(参考訳) 近年,表表上の質問に対する回答生成を目的とした表型データ(TableQA)に対する質問応答が注目されている。 先行研究は、個々のテーブル細胞や限られたテーブル細胞からの情報抽出を通じて、簡潔な事実応答を生成する。 しかし、関連するテーブルセルを選択するための複雑な戦略と、離散データフラグメントの洗練された統合と推論を必要とするフリーフォームのTableQAの領域は、いまだ探索されていない。 そこで本稿では,テーブルからグラフへの変換とセルのローカライズ,外部知識検索,テーブルとテキストの融合(TAG-QA)という3段階のアプローチを提案する。 特に、TAG-QA(1)は、グラフニューラルネットワークを用いて関連するテーブルセルを探索し、関連する行と列の交差するセルを収集し、(2)ウィキペディアの外部知識を活用し、(3)表データと自然言語情報を統合して回答を生成する。 実験では、特にいくつかの最先端のベースラインと比較して、忠実で一貫性のある文を生成する際に、TAG-QAの優れた能力を示す。 特に、TAG-QAは、BLEU-4とPARENT Fスコアのそれぞれで、堅牢なパイプラインベースのベースラインTAPASを17%上回る。 さらに、TAG-QAは、BLEU-4とPARENT Fスコアでそれぞれ16%、T5を12%上回る。

Question answering on tabular data (a.k.a TableQA), which aims at generating answers to questions grounded on a provided table, has gained significant attention recently. Prior work primarily produces concise factual responses through information extraction from individual or limited table cells, lacking the ability to reason across diverse table cells. Yet, the realm of free-form TableQA, which demands intricate strategies for selecting relevant table cells and the sophisticated integration and inference of discrete data fragments, remains mostly unexplored. To this end, this paper proposes a generalized three-stage approach: Table-to- Graph conversion and cell localizing, external knowledge retrieval, and the fusion of table and text (called TAG-QA), to address the challenge of inferring long free-form answers in generative TableQA. In particular, TAG-QA (1) locates relevant table cells using a graph neural network to gather intersecting cells between relevant rows and columns, (2) leverages external knowledge from Wikipedia, and (3) generates answers by integrating both tabular data and natural linguistic information. Experiments showcase the superior capabilities of TAG-QA in generating sentences that are both faithful and coherent, particularly when compared to several state-of-the-art baselines. Notably, TAG-QA surpasses the robust pipeline-based baseline TAPAS by 17% and 14% in terms of BLEU-4 and PARENT F-score, respectively. Furthermore, TAG-QA outperforms the end-to-end model T5 by 16% and 12% on BLEU-4 and PARENT F-score, respectively.
翻訳日:2023-09-22 11:42:09 公開日:2023-09-21
# ニューラル3次元画像の動的表示制御

Controllable Dynamic Appearance for Neural 3D Portraits ( http://arxiv.org/abs/2309.11009v2 )

ライセンス: Link先を確認
ShahRukh Athar, Zhixin Shu, Zexiang Xu, Fujun Luan, Sai Bi, Kalyan Sunkavalli and Dimitris Samaras(参考訳) 近年のNeural Radiance Fields (NeRFs) の進歩により, 頭部, 表情, 視聴方向を制御した動的ポートレートシーンの再構築と再識別が可能となった。 しかし、そのようなモデルのトレーニングでは、変形した領域上での光度整合性を前提としており、例えば、顔は頭部や顔の表情を変えて変形するので、均等に照らさなければならない。 ビデオのフレーム間のこのような光度整合性は、スタジオ環境でも維持が難しいため、生成したニューラルポートレートは、再アニメーション中にアーティファクトに見受けられる。 本研究では,実環境下での3D画像の完全制御を可能にするシステムであるCoDyNeRFを提案する。 CoDyNeRFは、予測表面正規と顔の表情と頭部の変形に条件づけられた標準空間における動的外観モデルを通して、照明依存効果を近似することを学ぶ。 表面正規化予測は、頭部の正常化に先立って粗い働きをする3dmm正規化を用いて誘導されるが、頭部配置や表情の変化によって引き起こされる剛性および非剛性変形により、正常化の直接予測は困難である。 被験者のスマートフォンで撮影したショートビデオのみを訓練用として,頭部の姿勢と表情制御を明示したポートレートシーンのフリービュー合成とリアルな照明効果の有効性を実証した。 プロジェクトページは以下の通りである。

Recent advances in Neural Radiance Fields (NeRFs) have made it possible to reconstruct and reanimate dynamic portrait scenes with control over head-pose, facial expressions and viewing direction. However, training such models assumes photometric consistency over the deformed region e.g. the face must be evenly lit as it deforms with changing head-pose and facial expression. Such photometric consistency across frames of a video is hard to maintain, even in studio environments, thus making the created reanimatable neural portraits prone to artifacts during reanimation. In this work, we propose CoDyNeRF, a system that enables the creation of fully controllable 3D portraits in real-world capture conditions. CoDyNeRF learns to approximate illumination dependent effects via a dynamic appearance model in the canonical space that is conditioned on predicted surface normals and the facial expressions and head-pose deformations. The surface normals prediction is guided using 3DMM normals that act as a coarse prior for the normals of the human head, where direct prediction of normals is hard due to rigid and non-rigid deformations induced by head-pose and facial expression changes. Using only a smartphone-captured short video of a subject for training, we demonstrate the effectiveness of our method on free view synthesis of a portrait scene with explicit head pose and expression controls, and realistic lighting effects. The project page can be found here: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html
翻訳日:2023-09-22 11:41:38 公開日:2023-09-21
# 学習した表現と影響関数が相手の例を教えてくれるもの

What Learned Representations and Influence Functions Can Tell Us About Adversarial Examples ( http://arxiv.org/abs/2309.10916v2 )

ライセンス: Link先を確認
Shakila Mahjabin Tonni and Mark Dras(参考訳) 深いニューラルネットワークを騙すために小さな摂動を用いて意図的に構築された敵対的な例は、最初に画像処理で、最近ではNLPで研究された。 NLPにおける敵の例を検出するアプローチは、入力摂動の探索に大きく依存しているが、画像処理では、学習された表現上の敵のサブ空間を特徴付けるための様々な技術が見られた。 本稿では,NLPに2つのアプローチを適用する。1つは近接する近傍と影響関数に基づくもので,もう1つはマハラノビス距離に関するものである。 影響関数の新規利用は、NLPの逆例部分空間の性質が画像処理におけるそれとどのように関係しているか、また、NLPタスクの種類によってどのように異なるのかを洞察する。

Adversarial examples, deliberately crafted using small perturbations to fool deep neural networks, were first studied in image processing and more recently in NLP. While approaches to detecting adversarial examples in NLP have largely relied on search over input perturbations, image processing has seen a range of techniques that aim to characterise adversarial subspaces over the learned representations. In this paper, we adapt two such approaches to NLP, one based on nearest neighbors and influence functions and one on Mahalanobis distances. The former in particular produces a state-of-the-art detector when compared against several strong baselines; moreover, the novel use of influence functions provides insight into how the nature of adversarial example subspaces in NLP relate to those in image processing, and also how they differ depending on the kind of NLP task.
翻訳日:2023-09-22 11:41:08 公開日:2023-09-21
# 確率的勾配降下の異なる性質について

On the different regimes of Stochastic Gradient Descent ( http://arxiv.org/abs/2309.10688v2 )

ライセンス: Link先を確認
Antonio Sclocchi and Matthieu Wyart(参考訳) 現代のディープネットワークは、各ステップまたはバッチサイズで考慮されるデータの数である確率的勾配降下(sgd)で訓練され、ステップサイズまたは学習レートは$\eta$である。 小さい$B$と大きな$\eta$の場合、SGDはパラメータの確率的進化に対応し、そのノイズ振幅は '温度' $T\equiv \eta/B$ で制御される。 しかし、この記述は、十分に大きなバッチに対して$B\geq B^*$で分解するか、温度が十分に小さい場合には勾配降下(GD)を単純化する。 これらのクロスオーバーの場所を理解することは、依然として中心的な課題である。 ここでは,教師が学習するパーセプトロン分類モデルに対して,これらの疑問を解決し,我々の重要な予測が依然として深層ネットワークに適用可能であることを実証的に示す。 具体的には、3つの動的位相を分離する$B$-$\eta$平面の位相図を得る。 (i)}$ a noise-dominated SGD by temperature, $\textit{ (ii)$ a large-first-step-dominated sgd and $\textit{ (iii)$gd。 これらの異なる位相もまた、一般化誤差の異なる状態に対応する。 興味深いことに、我々の分析ではバッチサイズが$B^*$ split regimes $\textit{ (i)}$ と $\textit{ (ii)$ scale トレーニングセットのサイズが $p$ で、分類問題の難しさを特徴付ける指数。

Modern deep networks are trained with stochastic gradient descent (SGD) whose key parameters are the number of data considered at each step or batch size $B$, and the step size or learning rate $\eta$. For small $B$ and large $\eta$, SGD corresponds to a stochastic evolution of the parameters, whose noise amplitude is governed by the `temperature' $T\equiv \eta/B$. Yet this description is observed to break down for sufficiently large batches $B\geq B^*$, or simplifies to gradient descent (GD) when the temperature is sufficiently small. Understanding where these cross-overs take place remains a central challenge. Here we resolve these questions for a teacher-student perceptron classification model, and show empirically that our key predictions still apply to deep networks. Specifically, we obtain a phase diagram in the $B$-$\eta$ plane that separates three dynamical phases: $\textit{(i)}$ a noise-dominated SGD governed by temperature, $\textit{(ii)}$ a large-first-step-dominated SGD and $\textit{(iii)}$ GD. These different phases also corresponds to different regimes of generalization error. Remarkably, our analysis reveals that the batch size $B^*$ separating regimes $\textit{(i)}$ and $\textit{(ii)}$ scale with the size $P$ of the training set, with an exponent that characterizes the hardness of the classification problem.
翻訳日:2023-09-22 11:40:49 公開日:2023-09-21
# コントラスト知覚と概念処理を用いた視覚抽象推論のための認知的インスパイアニューラルアーキテクチャ

A Cognitively-Inspired Neural Architecture for Visual Abstract Reasoning Using Contrastive Perceptual and Conceptual Processing ( http://arxiv.org/abs/2309.10532v2 )

ライセンス: Link先を確認
Yuan Yang, Deepayan Sanyal, James Ainooson, Joel Michelson, Effat Farhana, Maithilee Kunda(参考訳) 特に,人間の抽象的推論は,柔軟で反復的でダイナミックな認知プロセスの一部として知覚的,概念的処理をしばしばインターリーブするという観察から,視覚的抽象的推論タスクを解決するための新しいニューラルアーキテクチャを導入する。 この原理に着想を得たアーキテクチャは、視覚刺激の知覚的処理と概念的処理の一貫性を追求する反復的自己コントラスト学習プロセスとして視覚的抽象的推論をモデル化する。 この新たなコントラスト知覚ネットワーク(CPCNet)は,有名なRavenのプログレッシブ・マトリクス・インテリジェンス・テスト(Progressive Matrices Intelligence Test)のスタイルで,行列推論問題を用いてどのように機能するかを説明する。 機械学習データセット RAVEN の実験では、CPCNet がこれまでに公開されたすべてのモデルよりも高い精度を達成し、最も弱い帰納バイアスを使用している。 我々はまた、元のRAVENデータセットにおいて、実質的で以前に言及されていないクラス不均衡を指摘し、抽象概念の観点からよりバランスのとれたRAVENの新たな変種であるAB-RAVENを提案する。

We introduce a new neural architecture for solving visual abstract reasoning tasks inspired by human cognition, specifically by observations that human abstract reasoning often interleaves perceptual and conceptual processing as part of a flexible, iterative, and dynamic cognitive process. Inspired by this principle, our architecture models visual abstract reasoning as an iterative, self-contrasting learning process that pursues consistency between perceptual and conceptual processing of visual stimuli. We explain how this new Contrastive Perceptual-Conceptual Network (CPCNet) works using matrix reasoning problems in the style of the well-known Raven's Progressive Matrices intelligence test. Experiments on the machine learning dataset RAVEN show that CPCNet achieves higher accuracy than all previously published models while also using the weakest inductive bias. We also point out a substantial and previously unremarked class imbalance in the original RAVEN dataset, and we propose a new variant of RAVEN -- AB-RAVEN -- that is more balanced in terms of abstract concepts.
翻訳日:2023-09-22 11:40:26 公開日:2023-09-21
# 拡散モデルを用いたエンドツーエンドチャネル符号化の学習

Learning End-to-End Channel Coding with Diffusion Models ( http://arxiv.org/abs/2309.10505v2 )

ライセンス: Link先を確認
Muah Kim, Rick Fritschek, and Rafael F. Schaefer(参考訳) ディープラーニングによるニューラルエンコーダのトレーニングは、バックプロパゲーションアルゴリズムによって異なるチャネルモデルを必要とする。 この要件は、実世界のシナリオでパイロット信号を介してチャネル分布またはその勾配を近似することで回避することができる。 最初のアプローチは、GAN(Generative Adversarial Network)またはその拡張版を利用して、チャネル分布を生成する、画像生成の最新の進歩に導かれる。 本稿では,この拡散モデルにおけるチャネル近似問題に対処し,画像生成において高いサンプル品質を示す。 拡散モデルに基づくエンドツーエンドのチャネルコーディングフレームワークを提供し、効率的なトレーニングアルゴリズムを提案する。 様々なチャネルモデルを用いたシミュレーションにより、拡散モデルはチャネル分布を正確に学習し、ほぼ最適のシンボル誤り率(SER)を実現する。 高い信号-雑音比領域におけるロバストな一般化能力は、エラーフロアに苦しむGAN変種とは対照的である。 さらに,高速化サンプリングアルゴリズムを適用した場合のサンプル品質とサンプリング速度のトレードオフについて検討し,このトレードオフに対するノイズスケジューリングの影響について検討した。 ノイズスケジューリングの適度な選択により、SERのわずかな増加とともにサンプリング時間を著しく短縮することができる。

The training of neural encoders via deep learning necessitates a differentiable channel model due to the backpropagation algorithm. This requirement can be sidestepped by approximating either the channel distribution or its gradient through pilot signals in real-world scenarios. The initial approach draws upon the latest advancements in image generation, utilizing generative adversarial networks (GANs) or their enhanced variants to generate channel distributions. In this paper, we address this channel approximation challenge with diffusion models, which have demonstrated high sample quality in image generation. We offer an end-to-end channel coding framework underpinned by diffusion models and propose an efficient training algorithm. Our simulations with various channel models establish that our diffusion models learn the channel distribution accurately, thereby achieving near-optimal end-to-end symbol error rates (SERs). We also note a significant advantage of diffusion models: A robust generalization capability in high signal-to-noise ratio regions, in contrast to GAN variants that suffer from error floor. Furthermore, we examine the trade-off between sample quality and sampling speed, when an accelerated sampling algorithm is deployed, and investigate the effect of the noise scheduling on this trade-off. With an apt choice of noise scheduling, sampling time can be significantly reduced with a minor increase in SER.
翻訳日:2023-09-22 11:39:59 公開日:2023-09-21
# 反射係数測定による磁束駆動kerrパラメトリック発振器の分光

Spectroscopy of flux-driven Kerr parametric oscillators by reflection coefficient measurement ( http://arxiv.org/abs/2309.10488v2 )

ライセンス: Link先を確認
Aiko Yamaguchi, Shumpei Masuda, Yuichiro Matsuzaki, Tomohiro Yamaji, Tetsuro Satoh, Ayuka Morioka, Yohei Kawakami, Yuichi Igarashi, Masayuki Shirane, Tsuyoshi Yamamoto(参考訳) フラックス変調により誘導される2光子駆動下での反射係数の測定に基づいて,Kerrパラメトリック発振器(KPO)の分光特性を報告する。 測定された反射スペクトルは、2光子駆動振幅に依存した数値シミュレーションとよく一致している。 スペクトルは系の固有エネルギー、遷移行列要素、固有状態の集団の変化と解釈できるが、共鳴構造の直線幅は十分に説明されていない。 また,ラビ分割とスタークシフトの概念を用いてスペクトルの駆動振幅依存性を解析的に説明できることを示した。 実験により得られたスペクトルと理論を比較することで、デバイスにおける2光子駆動振幅を正確に決定できることが示され、量子情報処理におけるKPOの適用において重要である。

We report the spectroscopic characterization of a Kerr parametric oscillator (KPO) based on the measurement of its reflection coefficient under a two-photon drive induced by flux modulation. The measured reflection spectra show good agreement with numerical simulations in term of their dependence on the two-photon drive amplitude. The spectra can be interpreted as changes in system's eigenenergies, transition matrix elements, and the population of the eigenstates, although the linewidth of the resonance structure is not fully explained. We also show that the drive-amplitude dependence of the spectra can be explained analytically by using the concepts of Rabi splitting and the Stark shift. By comparing the experimentally obtained spectra with theory, we show that the two-photon drive amplitude at the device can be precisely determined, which is important for the application of KPOs in quantum information processing.
翻訳日:2023-09-22 11:39:38 公開日:2023-09-21
# ステレオカメラオンライン自己診断のための修正ホモグラフィについて

Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration ( http://arxiv.org/abs/2309.10314v2 )

ライセンス: Link先を確認
Hongbo Zhao, Yikang Zhang, Qijun Chen, Rui Fan(参考訳) ステレオカメラの外部パラメータの正確な推定がステレオマッチングアルゴリズムの性能を保証する鍵となる。 先行技術では、ステレオカメラのオンライン自己校正は、ステレオ整流の原理を考慮せずに、特殊な視覚オドメトリー問題として定式化されている。 本稿では,1対のイメージしか利用できない場合において,新しいステレオカメラオンライン自己校正アルゴリズムの開発の基礎となる,ホモグラフィの整流化という概念を初めて深く掘り下げた。 さらに,ステレオ映像列の存在下でのグローバル最適extrinsicパラメータ推定のための簡易かつ効果的な解法を提案する。 さらに,3つのオイラー角と3つの変換ベクトルを用いた性能定量化の非現実性を強調した。 そこで本研究では,外因性パラメータ推定のロバスト性と精度を定量化する4つの新しい評価指標を提案する。 提案手法の有効性を検証するため,各種実験装置を用いた室内および屋外の広範囲な実験を行った。 総合評価結果は,ベースラインアルゴリズムと比較して優れた性能を示した。 ソースコード、デモビデオ、サプリメントはmias.group/stereocalibratorで公開されている。

Accurate estimation of stereo camera extrinsic parameters is the key to guarantee the performance of stereo matching algorithms. In prior arts, the online self-calibration of stereo cameras has commonly been formulated as a specialized visual odometry problem, without taking into account the principles of stereo rectification. In this paper, we first delve deeply into the concept of rectifying homography, which serves as the cornerstone for the development of our novel stereo camera online self-calibration algorithm, for cases where only a single pair of images is available. Furthermore, we introduce a simple yet effective solution for global optimum extrinsic parameter estimation in the presence of stereo video sequences. Additionally, we emphasize the impracticality of using three Euler angles and three components in the translation vectors for performance quantification. Instead, we introduce four new evaluation metrics to quantify the robustness and accuracy of extrinsic parameter estimation, applicable to both single-pair and multi-pair cases. Extensive experiments conducted across indoor and outdoor environments using various experimental setups validate the effectiveness of our proposed algorithm. The comprehensive evaluation results demonstrate its superior performance in comparison to the baseline algorithm. Our source code, demo video, and supplement are publicly available at mias.group/StereoCalibrator.
翻訳日:2023-09-22 11:39:25 公開日:2023-09-21
# Text2Reward:強化学習のためのDense Reward関数の自動生成

Text2Reward: Automated Dense Reward Function Generation for Reinforcement Learning ( http://arxiv.org/abs/2309.11489v2 )

ライセンス: Link先を確認
Tianbao Xie and Siheng Zhao and Chen Henry Wu and Yitao Liu and Qian Luo and Victor Zhong and Yanchao Yang and Tao Yu(参考訳) 報酬関数の設計は強化学習(RL)における長年にわたる課題であり、専門知識やドメインデータを必要とするため、開発に高いコストがかかる。 そこで本稿では,大規模言語モデル(LLM)に基づく高密度報酬関数の自動生成を行うデータフリーフレームワークであるText2Rewardを紹介する。 自然言語で記述されたゴールを前提として、Text2Rewardは環境のコンパクトな表現に基づく実行可能プログラムとして高密度の報酬関数を生成する。 逆 RL や LLM を使ってスパース報酬コードを記述する最近の作業とは異なり、Text2Reward は解釈可能で、多岐にわたるタスクをカバーし、既存のパッケージを活用し、人間のフィードバックで反復的な改善を可能にする。 ManiSkill2, MetaWorld) と MuJoCo の2つの移動環境において, Text2Reward の評価を行った。 17の操作タスクのうち13で、生成された報酬コードで訓練されたポリシーは、専門家が書いた報酬コードと同等かそれ以上のタスク成功率と収束速度を達成する。 移動課題では, 成功率94%を超える6つの新しい移動動作を学習する。 さらに,本手法を用いてシミュレータでトレーニングしたポリシーを実世界に展開可能であることを示す。 最後に、Text2Rewardは、報酬関数を人間のフィードバックで洗練することでポリシーをさらに改善する。 ビデオはhttps://text-to-reward.github.ioで入手できる。

Designing reward functions is a longstanding challenge in reinforcement learning (RL); it requires specialized knowledge or domain data, leading to high costs for development. To address this, we introduce Text2Reward, a data-free framework that automates the generation of dense reward functions based on large language models (LLMs). Given a goal described in natural language, Text2Reward generates dense reward functions as an executable program grounded in a compact representation of the environment. Unlike inverse RL and recent work that uses LLMs to write sparse reward codes, Text2Reward produces interpretable, free-form dense reward codes that cover a wide range of tasks, utilize existing packages, and allow iterative refinement with human feedback. We evaluate Text2Reward on two robotic manipulation benchmarks (ManiSkill2, MetaWorld) and two locomotion environments of MuJoCo. On 13 of the 17 manipulation tasks, policies trained with generated reward codes achieve similar or better task success rates and convergence speed than expert-written reward codes. For locomotion tasks, our method learns six novel locomotion behaviors with a success rate exceeding 94%. Furthermore, we show that the policies trained in the simulator with our method can be deployed in the real world. Finally, Text2Reward further improves the policies by refining their reward functions with human feedback. Video results are available at https://text-to-reward.github.io
翻訳日:2023-09-22 11:33:54 公開日:2023-09-21
# スクリーンだけ見る:マルチモーダル・チェーン・オブ・アクション・エージェント

You Only Look at Screens: Multimodal Chain-of-Action Agents ( http://arxiv.org/abs/2309.11436v2 )

ライセンス: Link先を確認
Zhuosheng Zhang, Aston Zhang(参考訳) 自律ユーザインターフェース(UI)エージェントは、手作業による介入なしにユーザインターフェースと対話することで、タスクの自動化を促進する。 近年,多様な環境において,大規模言語モデル(LLM)を効果的に活用する能力について検討している。 LLMの入出力要件に合わせて、既存のアプローチはサンドボックス環境下で開発され、外部ツールやアプリケーション固有のAPIを使って環境をテキスト要素に解析し、予測されたアクションを解釈する。 したがって、これらのアプローチは推論の非効率性やエラー伝播のリスクに苦しむことが多い。 課題を軽減するため、私たちはAuto-UIという、インターフェースと直接対話するマルチモーダルソリューションを導入し、環境解析やアプリケーション依存APIへの依存を回避します。 さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の前回のアクション履歴と将来のアクションプランを推定するチェーン・オブ・アクション手法を提案する。 我々は,アプリケーション操作,web検索,webショッピングなどのマルチステップタスクにまたがる,30kのユニークな命令を持つ新しいデバイス制御ベンチマークaitwのアプローチを評価した。 実験の結果,auto-uiは90%の動作タイプ予測精度と74%の動作成功率で最先端の性能を達成できた。 コードはhttps://github.com/cooelf/Auto-UIで公開されている。

Autonomous user interface (UI) agents aim to facilitate task automation by interacting with the user interface without manual intervention. Recent studies have investigated eliciting the capabilities of large language models (LLMs) for effective engagement in diverse environments. To align with the input-output requirement of LLMs, existing approaches are developed under a sandbox setting where they rely on external tools and application-specific APIs to parse the environment into textual elements and interpret the predicted actions. Consequently, those approaches often grapple with inference inefficiency and error propagation risks. To mitigate the challenges, we introduce Auto-UI, a multimodal solution that directly interacts with the interface, bypassing the need for environment parsing or reliance on application-dependent APIs. Moreover, we propose a chain-of-action technique -- leveraging a series of intermediate previous action histories and future action plans -- to help the agent decide what action to execute. We evaluate our approach on a new device-control benchmark AITW with 30K unique instructions, spanning multi-step tasks such as application operation, web searching, and web shopping. Experimental results show that Auto-UI achieves state-of-the-art performance with an action type prediction accuracy of 90% and an overall action success rate of 74%. Code is publicly available at https://github.com/cooelf/Auto-UI.
翻訳日:2023-09-22 11:33:31 公開日:2023-09-21
# ストリートレベルの画像から都市住宅の自己教師型学習

Self-supervised learning unveils change in urban housing from street-level images ( http://arxiv.org/abs/2309.11354v2 )

ライセンス: Link先を確認
Steven Stalder, Michele Volpi, Nicolas B\"uttner, Stephen Law, Kenneth Harttgen, Esra Suel(参考訳) 世界中の都市は、手頃でまともな住宅が不足している。 政策の重要さにもかかわらず、都市の住宅の進捗を効果的に監視・追跡する能力は限られている。 街路レベルの画像に適用した深層学習に基づくコンピュータビジョン手法は、社会経済的・環境的不平等の測定に成功しているが、時間変動ラベルがしばしば利用できないため、時間変化の追跡には時間的イメージを十分に利用しなかった。 2008年から2021年の間に撮影された1500万の街路画像を用いて、ロンドンにおける変化を測定するために自己監督手法を用いた。 バーロウ双生児の新たな適応であるstreet2vecは,手動アノテーションを使わずに季節変化や日々の変化に不変ながら都市構造を埋め込む。 一般的な埋め込みよりも優れ、ストリートレベルの画像からロンドンの住宅供給のポイントレベルの変化を識別し、主要とマイナーな変更を区別した。 この機能は、より生き生きと公平で持続可能な都市に向けた都市計画と政策決定のためのタイムリーな情報を提供することができる。

Cities around the world face a critical shortage of affordable and decent housing. Despite its critical importance for policy, our ability to effectively monitor and track progress in urban housing is limited. Deep learning-based computer vision methods applied to street-level images have been successful in the measurement of socioeconomic and environmental inequalities but did not fully utilize temporal images to track urban change as time-varying labels are often unavailable. We used self-supervised methods to measure change in London using 15 million street images taken between 2008 and 2021. Our novel adaptation of Barlow Twins, Street2Vec, embeds urban structure while being invariant to seasonal and daily changes without manual annotations. It outperformed generic embeddings, successfully identified point-level change in London's housing supply from street-level images, and distinguished between major and minor change. This capability can provide timely information for urban planning and policy decisions toward more liveable, equitable, and sustainable cities.
翻訳日:2023-09-22 11:33:06 公開日:2023-09-21
# 金ヨーロ:ゲザ・アンド・ディストビュート機構による効率的な物体検出装置

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism ( http://arxiv.org/abs/2309.11331v2 )

ライセンス: Link先を確認
Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Kai Han, Yunhe Wang(参考訳) 近年, リアルタイム物体検出の分野における主要なアプローチとして, YOLOシリーズモデルが登場している。 多くの研究が、アーキテクチャを変更し、データを増やし、新しい損失を設計することで、ベースラインをより高いレベルに押し上げた。 しかし,従来モデルでは,機能ピラミッドネットワーク (fpn) とパスアグリゲーションネットワーク (panet) がこれを緩和しているが,情報融合問題に苦しんでいる。 そこで本研究では,畳み込みと自己アテンション操作によって実現される高度な集合分散機構(gd)機構を提案する。 この新しい設計モデルはGold-YOLOと呼ばれ、マルチスケールの機能融合能力を高め、すべてのモデルスケールでレイテンシと精度の理想的なバランスを実現する。 さらに, YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し, YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けられるようにした。 Gold-YOLO-Nは、COCO val2017データセットで39.9%のAP、T4 GPUで1030 FPSを達成した。 PyTorchコードはhttps://github.com/huawei-noah/Efficient-Computing/tree/master/detection/Gold-YOLOで、MindSporeコードはhttps://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLOで入手できる。

In the past years, YOLO-series models have emerged as the leading approaches in the area of real-time object detection. Many studies pushed up the baseline to a higher level by modifying the architecture, augmenting data and designing new losses. However, we find previous models still suffer from information fusion problem, although Feature Pyramid Network (FPN) and Path Aggregation Network (PANet) have alleviated this. Therefore, this study provides an advanced Gatherand-Distribute mechanism (GD) mechanism, which is realized with convolution and self-attention operations. This new designed model named as Gold-YOLO, which boosts the multi-scale feature fusion capabilities and achieves an ideal balance between latency and accuracy across all model scales. Additionally, we implement MAE-style pretraining in the YOLO-series for the first time, allowing YOLOseries models could be to benefit from unsupervised pretraining. Gold-YOLO-N attains an outstanding 39.9% AP on the COCO val2017 datasets and 1030 FPS on a T4 GPU, which outperforms the previous SOTA model YOLOv6-3.0-N with similar FPS by +2.4%. The PyTorch code is available at https://github.com/huawei-noah/Efficient-Computing/tree/master/Detection/Gold-YOLO, and the MindSpore code is available at https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO.
翻訳日:2023-09-22 11:32:46 公開日:2023-09-21
# Retrieve-Rewrite-Answer:知識グラフ質問応答のためのKG-to-Text拡張LLMフレームワーク

Retrieve-Rewrite-Answer: A KG-to-Text Enhanced LLMs Framework for Knowledge Graph Question Answering ( http://arxiv.org/abs/2309.11206v2 )

ライセンス: Link先を確認
Yike Wu, Nan Hu, Sheng Bi, Guilin Qi, Jie Ren, Anhuan Xie, Wei Song(参考訳) 知識集約的なタスクでは競争力があるにもかかわらず、大きな言語モデル(LLM)は世界の知識、特に長い尾の知識を記憶するのに限界がある。 本稿では,豊かな世界知識を必要とする知識グラフ質問応答(KGQA)課題を解決するために,KG拡張言語モデルアプローチについて検討する。 既存の研究によると、KG知識を抽出してLLMを強化することで、KGQAにおけるLLMの性能を大幅に向上させることができる。 しかし、それらのアプローチはKG知識の言語化が十分に整っていないため、KG表現とテキスト表現のギャップを無視する。 そこで本研究では,KGの知識を,KGQAに最も有用な文章化文に変換する,応答に敏感なKG-to-Textアプローチを提案する。 提案手法は,KGQAタスクを解くためのKG-to-Text拡張LLMフレームワークを提案する。 いくつかのKGQAベンチマーク実験により,提案したKG-to-Text拡張LLMアプローチは,知識文の解答精度と有用性に関して,従来のKG-augmented LLMよりも優れていることが示された。

Despite their competitive performance on knowledge-intensive tasks, large language models (LLMs) still have limitations in memorizing all world knowledge especially long tail knowledge. In this paper, we study the KG-augmented language model approach for solving the knowledge graph question answering (KGQA) task that requires rich world knowledge. Existing work has shown that retrieving KG knowledge to enhance LLMs prompting can significantly improve LLMs performance in KGQA. However, their approaches lack a well-formed verbalization of KG knowledge, i.e., they ignore the gap between KG representations and textual representations. To this end, we propose an answer-sensitive KG-to-Text approach that can transform KG knowledge into well-textualized statements most informative for KGQA. Based on this approach, we propose a KG-to-Text enhanced LLMs framework for solving the KGQA task. Experiments on several KGQA benchmarks show that the proposed KG-to-Text augmented LLMs approach outperforms previous KG-augmented LLMs approaches regarding answer accuracy and usefulness of knowledge statements.
翻訳日:2023-09-22 11:32:12 公開日:2023-09-21
# 未登録時間経過画像における植物細胞追跡と3次元グラフの類似性の学習

Learning Deformable 3D Graph Similarity to Track Plant Cells in Unregistered Time Lapse Images ( http://arxiv.org/abs/2309.11157v2 )

ライセンス: Link先を確認
Md Shazid Islam, Arindam Dutta, Calvin-Khang Ta, Kevin Rodriguez, Christian Michael, Mark Alber, G. Venugopala Reddy, Amit K. Roy-Chowdhury(参考訳) 顕微鏡で得られた画像中の植物細胞を追跡することは、多数の細胞、密集した植物細胞と細胞分裂の異なる層の非均一な成長などの生物学的現象のために難しい問題である。 さらに、イメージングプロセスに固有のノイズや回避不能な全身的エラーが深い組織層内の画像の問題をさらに複雑にする。 本稿では,植物細胞を密に充填した3次元細胞構造を利用して3次元グラフを作成し,正確な細胞追跡を行う新しい学習手法を提案する。 さらに, セル分割検出と有効3次元登録のための新しいアルゴリズムを提案し, 最先端のアルゴリズムを改良する。 ベンチマークデータセット上での追跡精度と推論時間の観点から,本アルゴリズムの有効性を示す。

Tracking of plant cells in images obtained by microscope is a challenging problem due to biological phenomena such as large number of cells, non-uniform growth of different layers of the tightly packed plant cells and cell division. Moreover, images in deeper layers of the tissue being noisy and unavoidable systemic errors inherent in the imaging process further complicates the problem. In this paper, we propose a novel learning-based method that exploits the tightly packed three-dimensional cell structure of plant cells to create a three-dimensional graph in order to perform accurate cell tracking. We further propose novel algorithms for cell division detection and effective three-dimensional registration, which improve upon the state-of-the-art algorithms. We demonstrate the efficacy of our algorithm in terms of tracking accuracy and inference-time on a benchmark dataset.
翻訳日:2023-09-22 11:31:52 公開日:2023-09-21
# 視覚慣性オドメトリーとタイト融合による単トラック地上車両動特性モデルのオンラインキャリブレーション

Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry ( http://arxiv.org/abs/2309.11148v2 )

ライセンス: Link先を確認
Haolong Li, Joerg Stueckler(参考訳) 車輪付き移動ロボットは、その動きとナビゲーション計画における制御行動の効果を推定する能力を必要とする。 本稿では,視覚的慣性オードメトリーを用いた車輪付き地上車両のシングルトラックダイナミックスモデルに厳密に融合する新しいアプローチST-VIOを提案する。 提案手法は,オンラインのダイナミクスモデルに適合し,将来の制御入力を前提とした正確な前方予測を容易にする。 単トラック動力学モデルは、通常の微分方程式を用いて平地における特定の制御入力の下での車輪付き車両の運動を近似する。 単一トラックモデルの特異性のない微分可能な変種を用いて、動的因子をVIOにシームレスに統合し、VIO状態変数とともにオンラインにモデルパラメータを最適化する。 地形や車輪の異なる屋内・屋外両環境における実環境データを用いて本手法の有効性を検証した。 実験では,ST-VIOは環境の変化に適応するだけでなく,新しい制御入力で正確な予測を行うことができ,トラッキング精度も向上することを示した。 補足ビデオ:https://youtu.be/BuGY1L1FRa4。

Wheeled mobile robots need the ability to estimate their motion and the effect of their control actions for navigation planning. In this paper, we present ST-VIO, a novel approach which tightly fuses a single-track dynamics model for wheeled ground vehicles with visual inertial odometry. Our method calibrates and adapts the dynamics model online and facilitates accurate forward prediction conditioned on future control inputs. The single-track dynamics model approximates wheeled vehicle motion under specific control inputs on flat ground using ordinary differential equations. We use a singularity-free and differentiable variant of the single-track model to enable seamless integration as dynamics factor into VIO and to optimize the model parameters online together with the VIO state variables. We validate our method with real-world data in both indoor and outdoor environments with different terrain types and wheels. In our experiments, we demonstrate that our ST-VIO can not only adapt to the change of the environments and achieve accurate prediction under new control inputs, but even improves the tracking accuracy. Supplementary video: https://youtu.be/BuGY1L1FRa4.
翻訳日:2023-09-22 11:31:39 公開日:2023-09-21
# 複雑なエンコーダは必要なだけではありません

More complex encoder is not all you need ( http://arxiv.org/abs/2309.11139v2 )

ライセンス: Link先を確認
Weibin Yang, Longwei Xu, Pengwei Wang, Dehua Geng, Yusong Li, Mingyuan Xu, Zhiqi Dong(参考訳) U-Netとその変種は医療画像のセグメンテーションで広く使われている。 しかし、現在のほとんどのU-Net変種は、より複雑なエンコーダを構築するための改善戦略を制限しているが、デコーダは変わらないか単純な対称構造を採用する。 これらのアプローチはデコーダの真の機能を見落としている: エンコーダから低解像度のフィーチャーマップを受け取り、機能マップの解像度を回復し、アップサンプリングによって情報を失う。 結果として、デコーダ、特にアップサンプリングコンポーネントは、セグメンテーションの結果を高める上で重要な役割を果たす。 しかし、3次元の医用画像分割では、一般的に使われる畳み込みは視覚的なアーティファクトをもたらす可能性がある。 この問題は、出力特徴写像に隣接するピクセル間の直接関係がないことに起因する。 さらに, 平板エンコーダは, ダウンサンプリング操作によって受信フィールドが徐々に拡大するので, 十分な特徴抽出能力を有しているが, ダウンサンプリング処理時の情報損失は無視できない。 関連する研究のギャップに対処するため、我々はエンコーダを超えて焦点を広げ、強力なデコーダを構築するために新しいサブピクセル畳み込みを組み込んだneu-net(複雑エンコーダu-netではない)を導入する。 さらに,エンコーダ側では,複数スケールのウェーブレット入力モジュールを導入し,追加情報を提供する。 我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。

U-Net and its variants have been widely used in medical image segmentation. However, most current U-Net variants confine their improvement strategies to building more complex encoder, while leaving the decoder unchanged or adopting a simple symmetric structure. These approaches overlook the true functionality of the decoder: receiving low-resolution feature maps from the encoder and restoring feature map resolution and lost information through upsampling. As a result, the decoder, especially its upsampling component, plays a crucial role in enhancing segmentation outcomes. However, in 3D medical image segmentation, the commonly used transposed convolution can result in visual artifacts. This issue stems from the absence of direct relationship between adjacent pixels in the output feature map. Furthermore, plain encoder has already possessed sufficient feature extraction capability because downsampling operation leads to the gradual expansion of the receptive field, but the loss of information during downsampling process is unignorable. To address the gap in relevant research, we extend our focus beyond the encoder and introduce neU-Net (i.e., not complex encoder U-Net), which incorporates a novel Sub-pixel Convolution for upsampling to construct a powerful decoder. Additionally, we introduce multi-scale wavelet inputs module on the encoder side to provide additional information. Our model design achieves excellent results, surpassing other state-of-the-art methods on both the Synapse and ACDC datasets.
翻訳日:2023-09-22 11:31:19 公開日:2023-09-21
# BroadBEV:広視野鳥の視線マップ構築のための共同LiDARカメラフュージョン

BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction ( http://arxiv.org/abs/2309.11119v2 )

ライセンス: Link先を確認
Minsu Kim, Giseop Kim, Kyong Hwan Jin, Sunwook Choi(参考訳) 最近のBird's Eye View(BEV)空間におけるセンサ融合は、3D検出やマップセグメンテーションといった様々なタスクでその有用性を示している。 しかし、この手法は、不正確なカメラBEV推定と、LiDAR点の間隔による遠方領域の認識に苦慮している。 本稿では,クロスモダリティの空間同期アプローチによる問題に対処する,broadbev(broadbev fusion)を提案する。 我々の戦略は、広視野認識のためのカメラBEV推定を強化し、同時に、全BEV空間におけるLiDARの空き度を向上することである。 そこで我々は,LiDAR BEV分布をカメラ深度分布に散乱させる点散乱法を提案する。 この手法は,カメラブランチの深度推定の学習を促進し,BEV空間における高密度カメラ特徴の正確な位置を誘導する。 空間的に同期した特徴間の効果的なBEV融合のために,LiDARとカメラBEVの自己注意重みを相互に適用するColFusionを提案する。 広汎な実験により、BroadBEVは目覚ましい性能向上を伴う広視野のBEV知覚を提供することが示された。

A recent sensor fusion in a Bird's Eye View (BEV) space has shown its utility in various tasks such as 3D detection, map segmentation, etc. However, the approach struggles with inaccurate camera BEV estimation, and a perception of distant areas due to the sparsity of LiDAR points. In this paper, we propose a broad BEV fusion (BroadBEV) that addresses the problems with a spatial synchronization approach of cross-modality. Our strategy aims to enhance camera BEV estimation for a broad-sighted perception while simultaneously improving the completion of LiDAR's sparsity in the entire BEV space. Toward that end, we devise Point-scattering that scatters LiDAR BEV distribution to camera depth distribution. The method boosts the learning of depth estimation of the camera branch and induces accurate location of dense camera features in BEV space. For an effective BEV fusion between the spatially synchronized features, we suggest ColFusion that applies self-attention weights of LiDAR and camera BEV features to each other. Our extensive experiments demonstrate that BroadBEV provides a broad-sighted BEV perception with remarkable performance gains.
翻訳日:2023-09-22 11:30:55 公開日:2023-09-21
# 量子ランダムネスを擬似ランダムネスと区別できるのか?

Can efficiently calculable randomness measures distinguish quantum randomness from pseudo-randomness? ( http://arxiv.org/abs/2309.11117v2 )

ライセンス: Link先を確認
Toyohiro Tsurumaru, Tsubasa Ichikawa, Yosuke Takubo, Toshihiko Sasaki, Jaeha Lee, Izumi Tsutsui(参考訳) 量子乱数(量子力学的に生成した乱数)と疑似乱数(アルゴリズムによって生成される乱数)の区別性に対するno-go定理を提案する。 この定理は、量子乱数は古典的に効率的にシミュレート可能であり、区別に使用されるランダムネス測度が効率的に計算可能であれば、これらの2種類の乱数を区別することはできないと述べる。 この定理は,暗号分野に存在すると考えられる暗号擬似乱数生成器の特性を用いて導出する。 この定理は、IBM量子が生成する量子乱数の実データの解析と、ベル試験のInnsbruck実験で得られたデータと一致し、これらの2組の量子乱数のランダム性の度合いは、対応する擬似ランダム数と本質的に区別できないことが判明した。 また, 量子乱数のアルゴリズム的ランダム性についても, 定理やデータ解析の観点から考察し, 再解釈を行った。

We present a no-go theorem for the distinguishability between quantum random numbers (i.e., random numbers generated quantum mechanically) and pseudo-random numbers (i.e., random numbers generated algorithmically). The theorem states that one cannot distinguish these two types of random numbers if the quantum random numbers are efficiently classically simulatable and the randomness measure used for the distinction is efficiently computable. We derive this theorem by using the properties of cryptographic pseudo-random number generators, which are believed to exist in the field of cryptography. Our theorem is found to be consistent with the analyses on the actual data of quantum random numbers generated by the IBM Quantum and also those obtained in the Innsbruck experiment for the Bell test, where the degrees of randomness of these two set of quantum random numbers turn out to be essentially indistinguishable from those of the corresponding pseudo-random numbers. Previous observations on the algorithmic randomness of quantum random numbers are also discussed and reinterpreted in terms of our theorems and data analyses.
翻訳日:2023-09-22 11:30:33 公開日:2023-09-21