このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230915となっている論文です。

PDF登録状況(公開日: 20230915)

TitleAuthorsAbstract論文公表日・翻訳日
# アイデンティティを小さく保つ:プライバシを保存するクライアントサイドフィンガープリント

Keep your Identity Small: Privacy-preserving Client-side Fingerprinting ( http://arxiv.org/abs/2309.07563v2 )

ライセンス: Link先を確認
Alberto Fernandez-de-Retana, Igor Santos-Grueiro, (参考訳) デバイスフィンガープリントは、サードパーティが特定のデバイスを特定するために広く使用されるテクニックである。 デバイス指紋認証の応用例としては、認証、攻撃者識別、ソフトウェアライセンスのバインディングなどがある。 デバイスフィンガープリントは、ユーザを特定する方法として、Webでも使用されている。 残念ながら、最も普及している用途の1つは、異なるウェブサイトを訪れているユーザーを特定し、ブラウジング履歴を構築することである。 これは、ユーザのプライバシに脅威をもたらす、特定のタイプのWebトラッキングを構成する。 多くのアンチトラッキングソリューションが提案されているが、それらはすべて、Webトラッキングアプリケーションをブロックするだけでなく、デバイスの指紋認証技術によってブロックまたは改ざんされている。 そのため、Webサイトを使っているユーザエクスペリエンスは制限される可能性がある。 本稿では,Web上でのデバイスフィンガープリントを可能にする新しい手法であるプライバシ保護クライアントサイドフィンガープリント(PCF)を提案する。 この目的のために、PCFは指紋認証の透明性に基づいて構築されている。どのウェブサイトでも指紋認証スクリプトを宣言すべきであり、ユーザーはそれをプライバシー保護の方法で計算し、その結果の指紋をそれぞれのドメインに制限する。

Device fingerprinting is a widely used technique that allows a third party to identify a particular device. Applications of device fingerprinting include authentication, attacker identification, or software license binding. Device fingerprinting is also used on the web as a method for identifying users. Unfortunately, one of its most widespread uses is to identify users visiting different websites and thus build their browsing history. This constitutes a specific type of web tracking that poses a threat to users' privacy. While many anti-tracking solutions have been proposed, all of them block or tamper with device fingerprinting techniques rather than just blocking their web tracking application. Therefore, users may be limited in their experience while using a website. In this paper, we propose Privacy-preserving Client-side Fingerprinting (PCF), a new method that allows device fingerprinting on the web, while blocks the possibility of performing web tracking. To this end, PCF is built upon fingerprinting transparency: any website ought to declare its fingerprinting scripts while users will compute them in a privacy-preserving manner, limiting the resultant fingerprints for each different domain and, therefore, making web tracking not feasible.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-15
# 大規模言語モデルの連鎖によるプライベートチュータの強化

Empowering Private Tutoring by Chaining Large Language Models ( http://arxiv.org/abs/2309.08112v1 )

ライセンス: Link先を確認
Yulin Chen, Ning Ding, Hai-Tao Zheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, (参考訳) 人工知能は、教育と学習を促進するために、オンライン教育の様々な側面に応用されてきた。 しかし、完全なAIによるチューリングシステムへのアプローチはほとんどない。 本研究では,現在最先端の大規模言語モデル (LLM) をベースとした知的学習システムの開発について検討し,自動コース計画と調整,調整,柔軟なクイズ評価について検討する。 システムを長期の相互作用に堅牢にし、個別の教育に役立てるために、システムは3つの相互接続されたコアプロセス(相互作用、反射、反応)に分解される。 各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。 ツールは、一度に1つの特定のタスクを実行するように促されるLSMであり、メモリは、教育プロセス中に更新されるデータストレージである。 学習ログから得られた統計的結果は、各ツールの使用の有効性とメカニズムを示している。 ヒトのユーザからの主観的なフィードバックは、各機能のユーザビリティを明らかにし、アブレーションシステムとの比較により、長期的相互作用における設計プロセスのメリットをさらに証明する。

Artificial intelligence has been applied in various aspects of online education to facilitate teaching and learning. However, few approaches has been made toward a complete AI-powered tutoring system. In this work, we explore the development of a full-fledged intelligent tutoring system powered by state-of-the-art large language models (LLMs), covering automatic course planning and adjusting, tailored instruction, and flexible quiz evaluation. To make the system robust to prolonged interaction and cater to individualized education, the system is decomposed into three inter-connected core processes-interaction, reflection, and reaction. Each process is implemented by chaining LLM-powered tools along with dynamically updated memory modules. Tools are LLMs prompted to execute one specific task at a time, while memories are data storage that gets updated during education process. Statistical results from learning logs demonstrate the effectiveness and mechanism of each tool usage. Subjective feedback from human users reveal the usability of each function, and comparison with ablation systems further testify the benefits of the designed processes in long-term interaction.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-15
# アンタングル情報ボトルネックに基づく画像伝送のためのプライバシ対応ジョイントソースチャネル符号化

Privacy-Aware Joint Source-Channel Coding for image transmission based on Disentangled Information Bottleneck ( http://arxiv.org/abs/2309.08188v1 )

ライセンス: Link先を確認
Lunan Sun, Caili Guo, Mingzhe Chen, Yang Yang, (参考訳) 現在のプライバシ対応ジョイントソースチャネル符号化(JSCC)は、盗聴者の特定の信号対雑音比(SNR)に基づいて、JSCCエンコーダとデコーダを敵対的に訓練することにより、プライベート情報伝送を回避することを目的としている。 しかし、これらのアプローチは、送信された情報を決定するために、複数のニューラルネットワークを様々な盗聴者のSNRのために訓練する必要があるため、さらなる計算と記憶の要求を生じさせる。 この課題を克服するために,不整合情報ボトルネック(DIB-PAJSCC)に基づく画像伝送のための新しいプライバシ対応JSCCを提案する。 特に,私的・公的な情報をアンタングル化するための,新たなアンタングル化情報ボトルネックを導出する。 送信機は、別途の情報を考慮し、復元歪みを最小化しつつ、公開情報のみを受信機に送信することができる。 DIB-PAJSCCは、盗聴者のSNRにかかわらず、公開情報のみを送信するため、盗聴者のSNRに適合した追加の訓練を不要にすることができる。 実験の結果,DIB-PAJSCCは従来の手法に比べて最大20倍の精度でプライベート情報の盗聴精度を低下させることができることがわかった。

Current privacy-aware joint source-channel coding (JSCC) works aim at avoiding private information transmission by adversarially training the JSCC encoder and decoder under specific signal-to-noise ratios (SNRs) of eavesdroppers. However, these approaches incur additional computational and storage requirements as multiple neural networks must be trained for various eavesdroppers' SNRs to determine the transmitted information. To overcome this challenge, we propose a novel privacy-aware JSCC for image transmission based on disentangled information bottleneck (DIB-PAJSCC). In particular, we derive a novel disentangled information bottleneck objective to disentangle private and public information. Given the separate information, the transmitter can transmit only public information to the receiver while minimizing reconstruction distortion. Since DIB-PAJSCC transmits only public information regardless of the eavesdroppers' SNRs, it can eliminate additional training adapted to eavesdroppers' SNRs. Experimental results show that DIB-PAJSCC can reduce the eavesdropping accuracy on private information by up to 20\% compared to existing methods.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-15
# 暗黒での学習:関数近似を用いたプライバシ保護機械学習

Learning in the Dark: Privacy-Preserving Machine Learning using Function Approximation ( http://arxiv.org/abs/2309.08190v1 )

ライセンス: Link先を確認
Tanveer Khan, Antonis Michalas, (参考訳) 過去数年間で、クラウドベースのサービスの採用と実装が大幅に増加したことで、機械学習の大幅な成長がもたらされた。 その結果、マシンラーニングモデルがリモートクラウドプロバイダ上で動作し、ユーザのマシン上でローカルに動作しない、さまざまなソリューションが提案されている。 しかし、そのようなモデルが信頼できないクラウドプロバイダにデプロイされる場合、ユーザのプライバシを保存することが極めて重要である。 そこで本研究では,学習フェーズを平文データで行うハイブリッド機械学習モデルであるLearning in the Darkを提案する。 低次チェビシェフ多項式を用いたReLUおよびSigmoidアクティベーション関数を近似する。 これによって私たちは、暗号化された画像を高精度に分類可能な、プライバシ保護機械学習モデルであるLearning in the Darkを構築することができました。 暗黒での学習は,暗号化データ上で直接計算を行うことで,高精度な予測を行うことができるため,ユーザのプライバシを保護している。 それに加えて、暗黒における学習の出力は、同型暗号の特性を利用して視覚的かつプライバシー保護的な方法で生成される。

Over the past few years, a tremendous growth of machine learning was brought about by a significant increase in adoption and implementation of cloud-based services. As a result, various solutions have been proposed in which the machine learning models run on a remote cloud provider and not locally on a user's machine. However, when such a model is deployed on an untrusted cloud provider, it is of vital importance that the users' privacy is preserved. To this end, we propose Learning in the Dark -- a hybrid machine learning model in which the training phase occurs in plaintext data, but the classification of the users' inputs is performed directly on homomorphically encrypted ciphertexts. To make our construction compatible with homomorphic encryption, we approximate the ReLU and Sigmoid activation functions using low-degree Chebyshev polynomials. This allowed us to build Learning in the Dark -- a privacy-preserving machine learning model that can classify encrypted images with high accuracy. Learning in the Dark preserves users' privacy since it is capable of performing high accuracy predictions by performing computations directly on encrypted data. In addition to that, the output of Learning in the Dark is generated in a blind and therefore privacy-preserving way by utilizing the properties of homomorphic encryption.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-15
# 自己組織化ゲートによる素因数分解のスケールアップ--memcomputingアプローチ

Scaling up prime factorization with self-organizing gates: A memcomputing approach ( http://arxiv.org/abs/2309.08198v1 )

ライセンス: Link先を確認
Tristan Sharp, Rishabh Khare, Erick Pederson, Fabio Lorenzo Traversa, (参考訳) 本稿では,MEMCPU\texttrademark{} プラットフォームを用いた大規模バイプリムの素因数分解計算の予備的結果について報告する。 最初のアプローチ、直接モデルは、与えられたビプリムの因子を直接返す。 第二のアプローチである合同モデル(英語版)は、標準シーブ法のボトルネックに対処するために滑らかな合同を返す。 モデルのサイズに依存した構造を持ち、MEMCPUプラットフォームは最適な性能を得るために構造に依存したチューニングを必要とする。 そのため、両モデルとも、利用可能なリソースに応じて、特定のサイズのサンプル問題に基づいてプラットフォームを調整した。 次に、厳密なスケーリング分析を行うためにRSAライクなベンチマークバイプリムを生成した。 調整範囲上のMEMCPUタイミングは、一般数フィールドシーブを含む他の試験方法と明らかに異なるビット数における低次多項式に従っていた。 MEMCPUの合同モデルは最も有望であり、300ビットの分解問題までスケールし、次数2$の多項式フィッティングに追従した。 私たちはまた、今日の最も先進的なメソッドの範囲を超えた問題に対してMEMCPUプラットフォームをチューニングするためのアプローチについても論じます。 最後に、ASIC実装から期待される加速度の基本的な解析を行い、大きなバイプリムのリアルタイム分解の可能性を提案する。

We report preliminary results on using the MEMCPU\texttrademark{} Platform to compute the prime factorization of large biprimes. The first approach, the direct model, directly returns the factors of a given biprime. The second approach, the congruence model, returns smooth congruences to address the bottleneck of standard sieve methods. The models have size-dependent structure, and the MEMCPU Platform requires structure-dependent tuning for optimal performance. Therefore, for both models, we tuned the platform on sample problems up to a given size according to available resources. Then we generated RSA-like benchmark biprimes to perform rigorous scaling analysis. The MEMCPU timings over the tuned range followed low degree polynomials in the number of bits, markedly different than other tested methods including general number field sieve. MEMCPU's congruence model was the most promising, which was scaled up to 300-bit factorization problems while following a $2^{nd}$ degree polynomial fit. We also discuss the approach to tuning the MEMCPU Platform for problems beyond the reach of today's most advanced methods. Finally, basic analysis of the acceleration expected from an ASIC implementation is provided and suggests the possibility of real time factorization of large biprimes.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-15
# 群環NTRUに対する格子攻撃:二面体群の場合

Lattice attack on group ring NTRU: The case of the dihedral group ( http://arxiv.org/abs/2309.08304v1 )

ライセンス: Link先を確認
Vikas Kumar, Ali Raya, Sugata Gangopadhyay, Aditi Kar Gangopadhyay, (参考訳) グループリングNTRU(GR-NTRU)は、異なるグループを用いて異なるNTRU様スキームを設計するための一般的な構造を提供する。 文学におけるほとんどのスキームは巡回群の上に構築されるが、非アーベル群も用いられる。 1997年、銅細工師とシャミールは、非可換性は一部のグループに対する格子攻撃に対してより良い安全性をもたらすことを示唆している。 NTRUのような暗号システムの公開鍵に対する格子攻撃は、公開鍵の知識を前提として、最短ベクトル問題(SVP)またはその近似をある次元の格子で解くことで、秘密鍵を回収しようとする。 本稿は,二面体群がこの種の攻撃に対する安全性を保証していないことを示す。 二面体群に基づくGR-NTRUで生成された原格子の次元の半分の2つの格子でSVPを解くことで、秘密鍵の取得が可能であることを証明した。 このような攻撃の可能性については安田らが言及している(IACR/2015/1170)。 提案されたアプローチとは対照的に、有限群の表現論から構造定理を含まない格子還元を明示的に提供する。 さらに,本手法の有効性を実験的に検証した。

Group ring NTRU (GR-NTRU) provides a general structure to design different variants of NTRU-like schemes by employing different groups. Although, most of the schemes in literature are built over cyclic groups, nonabelian groups can also be used. Coppersmith and Shamir in 1997 have suggested that noncommutativity may result in better security against some lattice attacks for some groups. Lattice attacks on the public key of NTRU-like cryptosystems try to retrieve the private key by solving the shortest vector problem (SVP) or its approximation in a lattice of a certain dimension, assuming the knowledge of the public key only. This paper shows that dihedral groups do not guarantee better security against this class of attacks. We prove that retrieving the private key is possible by solving the SVP in two lattices with half the dimension of the original lattice generated for GR-NTRU based on dihedral groups. The possibility of such an attack was mentioned by Yasuda et al.(IACR/2015/1170). In contrast to their proposed approach, we explicitly provide the lattice reduction without any structure theorem from the representation theory for finite groups. Furthermore, we demonstrate the effectiveness of our technique with experimental results.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-15
# DP-PQD:Black-Boxメカニズムによって生成された合成データにおけるクエリごとのギャップをプライベートに検出する

DP-PQD: Privately Detecting Per-Query Gaps In Synthetic Data Generated By Black-Box Mechanisms ( http://arxiv.org/abs/2309.08574v1 )

ライセンス: Link先を確認
Shweta Patwa, Danyu Sun, Amir Gilad, Ashwin Machanavajjhala, Sudeepa Roy, (参考訳) 合成データ生成手法、特にプライベートな合成データ生成手法は、研究やデータ分析のために広く共有できる機密データベースのコピーを作成する手段として人気を集めている。 データ分析における基本的な操作には、いくつかの条件を満たすデータのサブセット上で、集約された統計、例えば、カウント、和、中央値などの分析が含まれる。 合成データが生成されると、ユーザは、例えば、合成データが特定のタスクに適しているかどうかを決定するために、そのような統計を生成する集約クエリが、合成データに対して確実に答えられるかどうかを知ることに興味を持つ。 しかし、標準データ生成システムは、合成データに対して「クエリごと」の品質保証を提供しておらず、ユーザーは合成データの集計された統計がどれだけ信頼できるかを知ることができない。 この問題に対処するため,DP-PQD という新しいフレームワークを提案し,プライベートおよび合成データセット上の問合せ回答が,差分プライバシを確保しつつ,ユーザ指定のしきい値内にあることを検出する。 提案手法は,クエリごとのクエリ数,総和,中央値のクエリに対してプライベートアルゴリズム群を提供し,その特性を解析し,実験的に評価する。

Synthetic data generation methods, and in particular, private synthetic data generation methods, are gaining popularity as a means to make copies of sensitive databases that can be shared widely for research and data analysis. Some of the fundamental operations in data analysis include analyzing aggregated statistics, e.g., count, sum, or median, on a subset of data satisfying some conditions. When synthetic data is generated, users may be interested in knowing if their aggregated queries generating such statistics can be reliably answered on the synthetic data, for instance, to decide if the synthetic data is suitable for specific tasks. However, the standard data generation systems do not provide "per-query" quality guarantees on the synthetic data, and the users have no way of knowing how much the aggregated statistics on the synthetic data can be trusted. To address this problem, we present a novel framework named DP-PQD (differentially-private per-query decider) to detect if the query answers on the private and synthetic datasets are within a user-specified threshold of each other while guaranteeing differential privacy. We give a suite of private algorithms for per-query deciders for count, sum, and median queries, analyze their properties, and evaluate them experimentally.
翻訳日:2024-03-19 04:41:11 公開日:2023-09-15
# よりセキュアなスプリット:プライバシ保護型スプリット学習のセキュリティを強化する

A More Secure Split: Enhancing the Security of Privacy-Preserving Split Learning ( http://arxiv.org/abs/2309.08697v1 )

ライセンス: Link先を確認
Tanveer Khan, Khoa Nguyen, Antonis Michalas, (参考訳) Split Learning(SL)は、クライアントとサーバといった参加者が、クライアントが生データを共有せずに機械学習モデルをトレーニングすることを可能にする、新たなコラボレーティブな学習テクニックである。 この設定では、クライアントは最初、生データに機械学習モデルの一部を適用して Activation Maps (AM) を生成し、その後、トレーニングプロセスを継続するためにサーバに送信する。 この分野での以前の研究は、AMの再構築がクライアントデータのプライバシー漏洩につながることを実証した。 それに加えて、SLのプライバシー漏洩を克服する既存の緩和技術は、精度の点で著しく悪化している。 本稿では,U字型SLをベースとしたプロトコルを構築し,同義的に暗号化されたデータを操作することにより,従来の作業を改善する。 より正確には、当社のアプローチでは、クライアントはAMに同型暗号化を適用してサーバに送信し、ユーザのプライバシを保護する。 これは、他のSLベースの作業と比べてプライバシーの漏洩を減らす重要な改善である。 最後に, パラメータの最適セットを用いて, U字型SLにおけるHEデータを用いたトレーニングは, 平文でのトレーニングに比べて2.65%の精度しか低下しないことを示した。 さらに、生のトレーニングデータプライバシが保存される。

Split learning (SL) is a new collaborative learning technique that allows participants, e.g. a client and a server, to train machine learning models without the client sharing raw data. In this setting, the client initially applies its part of the machine learning model on the raw data to generate Activation Maps (AMs) and then sends them to the server to continue the training process. Previous works in the field demonstrated that reconstructing AMs could result in privacy leakage of client data. In addition to that, existing mitigation techniques that overcome the privacy leakage of SL prove to be significantly worse in terms of accuracy. In this paper, we improve upon previous works by constructing a protocol based on U-shaped SL that can operate on homomorphically encrypted data. More precisely, in our approach, the client applies homomorphic encryption on the AMs before sending them to the server, thus protecting user privacy. This is an important improvement that reduces privacy leakage in comparison to other SL-based works. Finally, our results show that, with the optimum set of parameters, training with HE data in the U-shaped SL setting only reduces accuracy by 2.65% compared to training on plaintext. In addition, raw training data privacy is preserved.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-15
# 戦後の暗号通貨 : SVB崩壊の影響について

Cryptocurrency in the Aftermath: Unveiling the Impact of the SVB Collapse ( http://arxiv.org/abs/2311.10720v1 )

ライセンス: Link先を確認
Qin Wang, Guangsheng Yu, Shiping Chen, (参考訳) 本稿では、シリコンバレー銀行(SVB)崩壊の余波について検討し、暗号市場への影響に特に焦点をあてる。 我々は,実情の要約,ユーザ感情の分析,市場パフォーマンスの検証を含む多次元的な調査を行う。 SVB崩壊は暗号通貨の破壊につながらず、代わりにレジリエンスを示した。

In this paper, we explore the aftermath of the Silicon Valley Bank (SVB) collapse, with a particular focus on its impact on crypto markets. We conduct a multi-dimensional investigation, which includes a factual summary, analysis of user sentiment, and examination of market performance. Based on such efforts, we uncover a somewhat counterintuitive finding: the SVB collapse did not lead to the destruction of cryptocurrencies; instead, they displayed resilience.
翻訳日:2024-03-18 23:02:51 公開日:2023-09-15
# 認知領域における量子機械学習 : アルツハイマー病研究

Quantum Machine Learning in the Cognitive Domain: Alzheimer's Disease Study ( http://arxiv.org/abs/2401.06697v1 )

ライセンス: Link先を確認
Emine Akpinar(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、特に高齢者において認知障害となる神経変性性脳疾患である。 認知障害は、集中力、記憶力、その他の高次認知能力などの様々な精神能力の低下として現れる。 これらの欠陥は、情報を理解し、新しい知識を取得し、効果的にコミュニケーションする個人の能力に大きな影響を及ぼす。 認知障害による影響の1つは手書きである。 圧力、速度、空間的組織など、手書きのさまざまな側面を分析して、早期認知障害、特にadを示す微妙な変化を検出することができる。 近年,高齢者のADを手書き解析により検出するための古典的人工知能(AI)手法がいくつか提案されている。 しかし、高度なai手法では、データのサイズが大きくなるにつれて計算能力が増大する。 さらに、診断は古典的ベクトル空間の制限や特徴間の相関などの影響を受けうる。 近年の研究では、医療における量子コンピューティング技術の使用は、これらの問題に対処するだけでなく、複雑なデータ分析を加速し、大規模データセットをより効率的に処理できることが示されている。 本研究では,手書きデータに基づく高齢者のad早期診断を容易にするために,回路素子の少ない変分量子分類器を導入した。 機能のエンコーディングにはZZFeatureMapを使用しました。 ADを分類するために、繰り返しRyとRzの回転ゲートとCYとCZの2量子エンタングルゲートからなるパラメータ化量子回路を設計、実装した。 提案モデルは,adの分類において 0.75 の精度を達成した。

Alzheimer's disease (AD) is the most prevalent neurodegenerative brain disorder, which results in significant cognitive impairments, especially in the elderly population. Cognitive impairments can manifest as a decline in various mental faculties, such as concentration, memory, and other higher-order cognitive abilities. These deficits can significantly impact an individual's capacity to comprehend information, acquire new knowledge, and communicate effectively. One of the affected activities due to cognitive impairments is handwriting. By analyzing different aspects of handwriting, including pressure, velocity, and spatial organization, researchers can detect subtle alterations that might indicate early-stage cognitive impairments, especially AD. Recently, several classical artificial intelligence (AI) approaches have been proposed for detecting AD in elderly individuals through handwriting analysis. However, advanced AI methods require more computational power as the size of the data increases. Additionally, diagnoses can be influenced by factors such as limited relevant classical vector space and correlations between features. Recent studies have shown that using quantum computing technologies in healthcare can not only address these problems but also accelerate complex data analysis and process large datasets more efficiently. In this study, we introduced a variational quantum classifier with fewer circuit elements to facilitate the early diagnosis of AD in elderly individuals based on handwriting data. We employed ZZFeatureMap for encoding features. To classify AD, a parameterized quantum circuit consisting of repeated Ry and Rz rotation gates, as well as CY and CZ two-qubit entangling gates, was designed and implemented. The proposed model achieved an accuracy of 0.75 in classifying AD.
翻訳日:2024-01-22 12:38:59 公開日:2023-09-15
# 新型コロナウイルスのオントロジーの系統解析

Systematic Analysis of COVID-19 Ontologies ( http://arxiv.org/abs/2310.18315v1 )

ライセンス: Link先を確認
Debanjali Bain and Biswanath Dutta(参考訳) この包括的な研究は、既存のcovid-19オントロジーの詳細な分析を行い、その目的、分類、設計方法論、ドメイン焦点を精査する。 この研究は2段階のアプローチで行われ、関連する文献を体系的にレビューし、パラメトリック方法論を用いたオントロジ評価を行う。 この精巧なプロセスを通じて、24のCOVID-19オントロジー(CovOs)が選択され、検査される。 この発見は、オントロジー、モジュール性、フォーマリズム、語彙再利用、ドメインカバレッジの範囲、意図された目的、粒度を浮き彫りにした。 この分析は、オントロジー開発における形式性の様々なレベル、表象言語としてOWLを利用するための一般的な好み、モデル内でクラス階層を構築するための様々なアプローチを明らかにする。 注目すべきは、CODOと共にOBOモデル(CIDO、GOなど)のようなオントロジーの繰り返し再利用である。 METHONTOLOGYアプローチは、しばしばアプリケーションベースまたはデータ中心の評価手法と組み合わせて、好ましい設計手法として現れる。 本研究は,総合的なオントロジー指標によって補完される,科学コミュニティと新型コロナウイルスオントロジー開発者にとって貴重な洞察を提供する。 この研究は、新型コロナウイルス情報駆動型オントロジモデルの評価と文書化によって、知識表現のバリエーションに光を当てて、ドメイン間比較の視点を提供する。 本研究は,covosの理解を著しく向上させ,比較分析と今後の発展のための統合資源となりつつ,研究ギャップやドメイン・エミレーションも特定し,今後の存在論的進歩の軌跡を導く。

This comprehensive study conducts an in-depth analysis of existing COVID-19 ontologies, scrutinizing their objectives, classifications, design methodologies, and domain focal points. The study is conducted through a dual-stage approach, commencing with a systematic review of relevant literature and followed by an ontological assessment utilizing a parametric methodology. Through this meticulous process, twenty-four COVID-19 Ontologies (CovOs) are selected and examined. The findings highlight the scope, intended purpose, granularity of ontology, modularity, formalism, vocabulary reuse, and extent of domain coverage. The analysis reveals varying levels of formality in ontology development, a prevalent preference for utilizing OWL as the representational language, and diverse approaches to constructing class hierarchies within the models. Noteworthy is the recurrent reuse of ontologies like OBO models (CIDO, GO, etc.) alongside CODO. The METHONTOLOGY approach emerges as a favored design methodology, often coupled with application-based or data-centric evaluation methods. Our study provides valuable insights for the scientific community and COVID-19 ontology developers, supplemented by comprehensive ontology metrics. By meticulously evaluating and documenting COVID-19 information-driven ontological models, this research offers a comparative cross-domain perspective, shedding light on knowledge representation variations. The present study significantly enhances understanding of CovOs, serving as a consolidated resource for comparative analysis and future development, while also pinpointing research gaps and domain emphases, thereby guiding the trajectory of future ontological advancements.
翻訳日:2024-01-15 16:43:58 公開日:2023-09-15
# 大量チャットログにおける関連情報の検出--グルーミングのためのキーフレーズ抽出と薬物取引法医学的分析

Detecting Relevant Information in High-Volume Chat Logs: Keyphrase Extraction for Grooming and Drug Dealing Forensic Analysis ( http://arxiv.org/abs/2311.04905v1 )

ライセンス: Link先を確認
Jeovane Hon\'orio Alves, Hor\'acio A. C. G. Pedroso, Rafael Honorio Venetikides, Joel E. M. K\"oster, Luiz Rodrigo Grochocki, Cinthia O. A. Freitas, Jean Paul Barddal(参考訳) デジタルコミュニケーションプラットフォームの利用の増加は、グルーミングや薬物取引など様々な犯罪行為を引き起こしており、法執行機関や法医学の専門家にとって大きな課題となっている。 本稿では,法医学的分析のためのグルーミングや薬物処理を含む大量チャットログの関連情報を検出するための教師付きキーフレーズ抽出手法を提案する。 提案手法であるJointKPE++は,より長いテキストを効果的に処理するための改良を活用して,JointKPEキーフレーズ抽出器上に構築する。 BERT, RoBERTa, SpanBERT, BERTimbauなどの薬物処理データセットにおいて, BERTに基づく事前学習モデルを用いたJointKPE++の評価を行った。 その結果,従来の手法に比べて有意な改善がみられ,犯罪行為に関連するキーフレーズを効率的に検出する法医学的専門家を支援するjointkpe++の可能性が示された。

The growing use of digital communication platforms has given rise to various criminal activities, such as grooming and drug dealing, which pose significant challenges to law enforcement and forensic experts. This paper presents a supervised keyphrase extraction approach to detect relevant information in high-volume chat logs involving grooming and drug dealing for forensic analysis. The proposed method, JointKPE++, builds upon the JointKPE keyphrase extractor by employing improvements to handle longer texts effectively. We evaluate JointKPE++ using BERT-based pre-trained models on grooming and drug dealing datasets, including BERT, RoBERTa, SpanBERT, and BERTimbau. The results show significant improvements over traditional approaches and demonstrate the potential for JointKPE++ to aid forensic experts in efficiently detecting keyphrases related to criminal activities.
翻訳日:2024-01-15 16:31:54 公開日:2023-09-15
# DeepCompass: ナビゲーションプラットフォームのためのAI駆動のロケーション指向同期

DeepCompass: AI-driven Location-Orientation Synchronization for Navigating Platforms ( http://arxiv.org/abs/2311.12805v1 )

ライセンス: Link先を確認
Jihun Lee, SP Choi, Bumsoo Kang, Hyekyoung Seok, Hyoungseok Ahn, Sanghee Jung(参考訳) 現在のナビゲーションプラットフォームでは、ユーザの方向は2つの連続した位置の違いに基づいて推定される。 言い換えれば、2番目の位置を取るまで方向を特定できない。 なぜ私のナビゲータは、最初に車の方向を間違えたのか? 本稿では,ストリートビューとユーザビューイメージのギャップを埋めることで,ユーザの向きを識別するDeepCompassを提案する。 まず、適切なモデルアーキテクチャと対応する入力構成の設計について検討する。 第2に,ストリートビューとユーザのリアルタイムエクスペリエンスの相違を最小限に抑えるために,人工的な変換手法(スタイル転送や道路分割など)を実演する。 各種運転条件におけるDeepCompassの評価を行った。 DeepCompassは追加のハードウェアを必要とせず、磁気センサベースのナビゲータとは対照的に外部干渉の影響を受けない。 これは、既存のセンサーベースの方向検出方法のアドオンとしてdeepcompassの可能性を強調する。

In current navigating platforms, the user's orientation is typically estimated based on the difference between two consecutive locations. In other words, the orientation cannot be identified until the second location is taken. This asynchronous location-orientation identification often leads to our real-life question: Why does my navigator tell the wrong direction of my car at the beginning? We propose DeepCompass to identify the user's orientation by bridging the gap between the street-view and the user-view images. First, we explore suitable model architectures and design corresponding input configuration. Second, we demonstrate artificial transformation techniques (e.g., style transfer and road segmentation) to minimize the disparity between the street-view and the user's real-time experience. We evaluate DeepCompass with extensive evaluation in various driving conditions. DeepCompass does not require additional hardware and is also not susceptible to external interference, in contrast to magnetometer-based navigator. This highlights the potential of DeepCompass as an add-on to existing sensor-based orientation detection methods.
翻訳日:2024-01-15 15:46:06 公開日:2023-09-15
# 対話型仮想エージェントの非言語的顔行動の同期化に向けて

Towards the generation of synchronized and believable non-verbal facial behaviors of a talking virtual agent ( http://arxiv.org/abs/2311.12804v1 )

ライセンス: Link先を確認
Alice Delbosc (TALEP, LIS, AMU), Magalie Ochs (LIS, AMU, TALEP), Nicolas Sabouret (LISN), Brian Ravenet (LISN), St\'ephane Ayache (AMU, LIS, QARMA)(参考訳) 本稿では,会話中の仮想エージェントに対して,リズミカルな非言語行動を生成する新しいモデルを提案する。 このモデルは、データから直接抽出され、仮想エージェント上で再生される行動に匹敵する知覚性能を、音声と可読性との同期の観点から示す。 興味深いことに、2つの異なるデータセットでモデルをトレーニングすることは、必ずしもそのパフォーマンスを向上させるものではないことがわかった。 データセット内の人々の表現力と射撃条件が重要な要素である。 また、学習期間中に偽の偽例が紹介される逆モデルを用いることで、音声との同期の知覚が向上することを示す。 結果とコードを示すビデオのコレクションは、https://github.com/aldelb/non_verbal_face_animation.comでアクセスすることができる。

This paper introduces a new model to generate rhythmically relevant non-verbal facial behaviors for virtual agents while they speak. The model demonstrates perceived performance comparable to behaviors directly extracted from the data and replayed on a virtual agent, in terms of synchronization with speech and believability. Interestingly, we found that training the model with two different sets of data, instead of one, did not necessarily improve its performance. The expressiveness of the people in the dataset and the shooting conditions are key elements. We also show that employing an adversarial model, in which fabricated fake examples are introduced during the training phase, increases the perception of synchronization with speech. A collection of videos demonstrating the results and code can be accessed at: https://github.com/aldelb/non_verbal_facial_animation.
翻訳日:2024-01-15 15:45:52 公開日:2023-09-15
# 実用シナリオにおける拡散モデルの著作権問題の検討

Investigating Copyright Issues of Diffusion Models under Practical Scenarios ( http://arxiv.org/abs/2311.12803v1 )

ライセンス: Link先を確認
Yang Zhang, Teoh Tze Tzun, Lim Wei Hern, Haonan Wang, Kenji Kawaguchi(参考訳) 生成モデル、特に拡散モデルにおける著作権の問題は近年、大きな関心事となっている。 以前の研究では、生成モデルが著作権のある画像を完全に複製する画像レベルでの著作権侵害に主に焦点が当てられていた。 さらに、これらの先行研究は、主にターゲットトピックにセマンティックに類似したプロンプトを用いて著作権侵害を調査した。 しかし、著作権侵害は、画像全体の複製よりもニュアンスが高く、著作権トピックに直接関連しないプロンプトでトリガーすることができる。 本研究では,画像の一部を著作権付きコンテンツとして扱う部分的著作権侵害を,著作権付きトピックとは大きく異なるプロンプトを用いて取り扱うことにより,過去の研究の限界に挑戦する。 拡散モデルにおける著作権研究のためのデータセット作成を容易にするデータ生成パイプラインを開発する。 パイプラインを使用して、異なる拡散モデルのための著作権侵害サンプルを含むデータセットを作成します。 様々な基準で生成データの評価を行う。 本研究は,最新の安定拡散xlを含む様々な拡散モデルにおいて,著作権侵害コンテンツの発生率を示す。

The issue of copyright in generative models, particularly diffusion models, has become a prominent concern in recent years. Previous studies have predominantly focused on copyright violation at the image level, where generative models replicate copyrighted images entirely. Furthermore, these earlier studies have examined copyright infringements mainly using prompts that are semantically similar to target topics. However, copyright infringement can be more nuanced than mere replication of whole images and can be triggered with prompts that are less directly related to copyright topics. In our work, we tackle the limitations of previous studies by delving into partial copyright infringement, which treats parts of images as copyrighted content, using prompts that are considerably different from copyrighted topics. We develop a data generation pipeline that facilitates the creation of datasets for copyright research in diffusion models. Using our pipeline, we create datasets containing copyright infringement samples for different diffusion models. We conduct evaluations on generated data under various criteria. Our results show the prevalence of generating copyright-infringing content across a range of diffusion models, including the latest Stable Diffusion XL.
翻訳日:2024-01-15 15:45:38 公開日:2023-09-15
# スクリーニングされたクーロンポテンシャル$V(r)=-r^{-1}e^{-C/r}$のスペクトルについて

On the spectrum of the screened Coulomb potential $V(r)=-r^{-1}e^{-C/r}$ ( http://arxiv.org/abs/2312.00165v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 遮蔽されたクーロンポテンシャル $v(r)=-r^{-1}e^{-c/r}$ のスペクトルに関する最近の矛盾した結果と結論を解析した。 よく知られたヘルマン=ファインマンの定理は、クーロンポテンシャル(C=0$)のすべての有界状態は、C$が増加するにつれて有界であることを示している。 スクリーニングパラメータ$C$の十分小さな値に対する固有値に対する簡単な近似解析式と、$C\rightarrow \infty $のときのs状態固有値の漸近挙動に関する近似漸近式を導出する。 以上の結果から, 量子力学モデルのスペクトルに関する不一致を解消することが期待される。

We analyse recent contradictory results and conclusions about the spectrum of the screened Coulomb potential $V(r)=-r^{-1}e^{-C/r}$. The well known Hellmann-Feynman theorem shows that all the bound states of the Coulomb potential ($C=0$) remain bounded as $C$ increases. We derive a simple approximate analytical expression for the eigenvalues for sufficiently small values of the screening parameter $C$ and an approximate asymptotic expression for the asymptotic behaviour of the s-state eigenvalues when $C\rightarrow \infty $. Present results are expected to resolve the discrepancy about the spectrum of the quantum-mechanical model just mentioned.
翻訳日:2024-01-15 15:09:45 公開日:2023-09-15
# 機能の利用状況は、製品によってどのように追跡できるのか? ソフトウェア製品ラインにおける暗黙のフィードバック

How can feature usage be tracked across product variants? Implicit Feedback in Software Product Lines ( http://arxiv.org/abs/2309.04278v2 )

ライセンス: Link先を確認
Oscar D\'iaz, Raul Medeiros, Mustafa Al-Hajjaji(参考訳) 暗黙のフィードバックは、ソフトウェアの使用方法と使用時期を理解するために、ソフトウェアの使用状況に関する情報を集めることである。 この研究はソフトウェア製品ライン(SPL)の暗黙のフィードバックに取り組む。 プラットフォーム中心のフィードバックの必要性により、splのフィードバックは、追跡すべきアーティファクト(プラットフォーム対変異)とトラッキングアプローチ(間接コーディング対直接コーディング)の両方において、単発のアプリケーションからのフィードバックから逸脱する。 伝統的に、製品からのフィードバックはソフトウェアコードに ‘usage trackers’ を組み込むことで達成される。 しかし、今や製品はSPLポートフォリオのメンバーであり、それゆえ、このアプローチは主要なSPLテナントの1つと矛盾している。 そこで,我々は製品導出を,構成モデルに基づく変種の構成に先行する第2変種変換の対象とすることを提唱する。 このアプローチは、純粋な::variantsの拡張であるFEACKERを通じてテストされる。 我々は,pure-systems gmbh従業員に対するtam評価(n=8)を行った。 次に焦点群 (n=3) を通して観察された発散について検討した。 その結果,FEACKERをシームレスに扱う上で,プラットフォームレベルでのフィードバック分析(有用性認識)の実施に関心があることが判明した。

Implicit feedback is collecting information about software usage to understand how and when the software is used. This research tackles implicit feedback in Software Product Lines (SPLs). The need for platform-centric feedback makes SPL feedback depart from one-off-application feedback in both the artefact to be tracked (the platform vs the variant) as well as the tracking approach (indirect coding vs direct coding). Traditionally, product feedback is achieved by embedding `usage trackers' into the software's code. Yet, products are now members of the SPL portfolio, and hence, this approach conflicts with one of the main SPL tenants: reducing, if not eliminating, coding directly into the variant's code. Thus, we advocate for Product Derivation to be subject to a second transformation that precedes the construction of the variant based on the configuration model. This approach is tested through FEACKER, an extension to pure::variants. We resorted to a TAM evaluation on pure-systems GmbH employees(n=8). Observed divergences were next tackled through a focus group (n=3). The results reveal agreement in the interest in conducting feedback analysis at the platform level (perceived usefulness) while regarding FEACKER as a seamless
翻訳日:2023-10-23 08:43:58 公開日:2023-09-15
# 選好型アンサンブル戦略による実践的プログラム修復

Practical Program Repair via Preference-based Ensemble Strategy ( http://arxiv.org/abs/2309.08211v1 )

ライセンス: Link先を確認
Wenkang Zhong, Chuanyi Li, Kui Liu, Tongtong Xu, Tegawend\'e F. Bissyand\'e, Jidong Ge, Bin Luo, Vincent Ng(参考訳) 現在までに40以上の自動プログラム修正(APR)ツールが様々なバグ修正戦略で設計されており、異なるバグクラスに有効であることが実証されている。 直感的には、既存のツールを組み立てることで、APRの全体的なバグ修正性能を改善することができるはずです。 残念ながら、あるバグに対して利用可能なすべてのAPRツールを呼び出すだけでは、(高価なテストを通じて)APRの実行だけでなくパッチ検証にも許容できないコストがかかります。 したがって、既存のツールを組み立てることが魅力的である一方で、より多くのバグや実用性の要件を修正する必要がある。 この問題を踏まえて,異なるバグを修復するためのAPRツールを効果的にランク付けするPreference-based Ensemble Program repair framework (P-EPR)を提案する。 P-EPRは、APRツールのランキング付けにおける主要な知識源としての修復パターンの活用と、新しく派生した修復結果の即時活用と恩恵を可能にする動的更新戦略への依存において、最初の非学習ベースのAPRアンサンブル手法である。 実験の結果,P-EPRは柔軟性と有効性の両方において既存の戦略よりも優れていた。

To date, over 40 Automated Program Repair (APR) tools have been designed with varying bug-fixing strategies, which have been demonstrated to have complementary performance in terms of being effective for different bug classes. Intuitively, it should be feasible to improve the overall bug-fixing performance of APR via assembling existing tools. Unfortunately, simply invoking all available APR tools for a given bug can result in unacceptable costs on APR execution as well as on patch validation (via expensive testing). Therefore, while assembling existing tools is appealing, it requires an efficient strategy to reconcile the need to fix more bugs and the requirements for practicality. In light of this problem, we propose a Preference-based Ensemble Program Repair framework (P-EPR), which seeks to effectively rank APR tools for repairing different bugs. P-EPR is the first non-learning-based APR ensemble method that is novel in its exploitation of repair patterns as a major source of knowledge for ranking APR tools and its reliance on a dynamic update strategy that enables it to immediately exploit and benefit from newly derived repair results. Experimental results show that P-EPR outperforms existing strategies significantly both in flexibility and effectiveness.
翻訳日:2023-10-23 07:42:07 公開日:2023-09-15
# REEF: 現実世界の脆弱性と修正を収集するフレームワーク

REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes ( http://arxiv.org/abs/2309.08115v1 )

ライセンス: Link先を確認
Chaozheng Wang, Zongjie Li, Yun Peng, Shuzheng Gao, Sirong Chen, Shuai Wang, Cuiyun Gao, Michael R. Lyu(参考訳) ソフトウェアは私たちの日常生活において重要な役割を果たすので、ソフトウェアシステムの品質とセキュリティはますます重要になっています。 しかしながら、ソフトウェアの脆弱性は深刻な結果をもたらす可能性があるため、依然として重大な脅威となる。 自動プログラム修復の最近の進歩は、データ駆動技術を用いてバグを自動的に検出し、修正することを目指している。 高度な深層学習手法がこの分野に応用され,有望な成果を上げている。 しかしながら、これらのテクニックをトレーニングし評価するための既存のベンチマークは、単一のプログラミング言語に集中し、比較的小さなデータセットを持つ傾向にあるため、制限されている。 さらに、多くのベンチマークは時代遅れで多様性がなく、特定のコードベースにフォーカスしています。 さらに悪いことに、既存のデータセットにおけるバグ説明の品質は低い。 これらの問題に対処するため、オープンソースのリポジトリからREal-world vulnErabilities and Fixesを収集する自動収集フレームワークREEFを提案する。 我々は,脆弱性とその修正を収集する多言語クローラを開発し,高品質な脆弱性フィックスペアをフィルタするためのメトリクスを設計する。 さらに,高品質な脆弱性説明を生成するためのニューラル言語モデルに基づくアプローチを提案する。 広範な実験を通じて,当社のアプローチが高品質な脆弱性フィックスペアを収集し,強力な説明を生成できることを実証する。 収集したデータセットには4,466のcveがあり、30,987のパッチ(236のcweを含む)が7つのプログラミング言語にまたがって含まれています。 ヒトの専門家による評価は、我々のフレームワークが高品質な脆弱性説明を生成することをさらに確認する。

Software plays a crucial role in our daily lives, and therefore the quality and security of software systems have become increasingly important. However, vulnerabilities in software still pose a significant threat, as they can have serious consequences. Recent advances in automated program repair have sought to automatically detect and fix bugs using data-driven techniques. Sophisticated deep learning methods have been applied to this area and have achieved promising results. However, existing benchmarks for training and evaluating these techniques remain limited, as they tend to focus on a single programming language and have relatively small datasets. Moreover, many benchmarks tend to be outdated and lack diversity, focusing on a specific codebase. Worse still, the quality of bug explanations in existing datasets is low, as they typically use imprecise and uninformative commit messages as explanations. To address these issues, we propose an automated collecting framework REEF to collect REal-world vulnErabilities and Fixes from open-source repositories. We develop a multi-language crawler to collect vulnerabilities and their fixes, and design metrics to filter for high-quality vulnerability-fix pairs. Furthermore, we propose a neural language model-based approach to generate high-quality vulnerability explanations, which is key to producing informative fix messages. Through extensive experiments, we demonstrate that our approach can collect high-quality vulnerability-fix pairs and generate strong explanations. The dataset we collect contains 4,466 CVEs with 30,987 patches (including 236 CWE) across 7 programming languages with detailed related information, which is superior to existing benchmarks in scale, coverage, and quality. Evaluations by human experts further confirm that our framework produces high-quality vulnerability explanations.
翻訳日:2023-10-23 07:41:46 公開日:2023-09-15
# REST APIの検索ベースファズリングのための高度なホワイトボックスヒューリスティック

Advanced White-Box Heuristics for Search-Based Fuzzing of REST APIs ( http://arxiv.org/abs/2309.08360v1 )

ライセンス: Link先を確認
Andrea Arcuri, Man Zhang, Juan Pablo Galeotti(参考訳) 業界での重要性と広く利用されているため、REST APIの自動テストは、ここ数年、研究コミュニティから大きな関心を集めている。 しかし、文学作品の多くはブラックボックスのファジィングに焦点が当てられている。 既存のファッジャは、既存のAPIの多くの障害を自動的に見つけるために使用されているが、より良い結果の達成を妨げるいくつかのオープンな研究課題(例えば、コードカバレッジと障害発見)がある。 例えば、特定されていないスキーマはブラックボックスファジッターの大きな問題である。 EvoMasterは現在、REST APIのホワイトボックスファジングをサポートする唯一のツールである。 本稿では、APIスキーマにおける不特定制約の扱い方や、SQLデータベースにおける不特定制約の扱い方など、一連の新しいホワイトボックスヒューリスティックスを提供する。 われわれの新しい技術は、オープンソースの検索ベースのfuzzer evomasterの拡張として実装されている。 EMBコーパスの14のAPIと1つのインダストリアルAPIに関する実証的研究は、これらのAPIのいくつかで結果の明確な改善を示している。

Due to its importance and widespread use in industry, automated testing of REST APIs has attracted major interest from the research community in the last few years. However, most of the work in the literature has been focused on black-box fuzzing. Although existing fuzzers have been used to automatically find many faults in existing APIs, there are still several open research challenges that hinder the achievement of better results (e.g., in terms of code coverage and fault finding). For example, under-specified schemas are a major issue for black-box fuzzers. Currently, EvoMaster is the only existing tool that supports white-box fuzzing of REST APIs. In this paper, we provide a series of novel white-box heuristics, including for example how to deal with under-specified constrains in API schemas, as well as under-specified schemas in SQL databases. Our novel techniques are implemented as an extension to our open-source, search-based fuzzer EvoMaster. An empirical study on 14 APIs from the EMB corpus, plus one industrial API, shows clear improvements of the results in some of these APIs.
翻訳日:2023-10-23 07:28:22 公開日:2023-09-15
# グラフニューラルネットワークに基づくサイレント脆弱性修正コミット識別

Silent Vulnerability-fixing Commit Identification Based on Graph Neural Networks ( http://arxiv.org/abs/2309.08225v1 )

ライセンス: Link先を確認
Hieu Dinh Vo, Thanh Trong Vu, and Son Nguyen(参考訳) ソフトウェアプロジェクトの外部ライブラリへの依存度が高まっているため、これらのライブラリのセキュリティに対する不安が生じている。 これらの脆弱性の処理は、修復と公開の時間的遅延のために難しい。 さらに、かなりの数のオープンソースプロジェクトが、正式な通知なしで脆弱性を隠蔽し、脆弱性管理に影響を与える。 owaspのような確立されたソリューションは、主に公開発表に依存し、非公開の脆弱性を明らかにする効果を制限している。 この課題に対処するために、脆弱性フィックスコミットの自動識別が最前線にある。 本稿では,自動無声脆弱性検出のためのグラフベースの新しいアプローチであるVFFINDERを提案する。 VFFINDERは抽象構文木(AST)を使用して構造変化をキャプチャし、アノテーション付きASTでそれらを表現する。 変更コードの意味を正確に把握するために、変更コードと関連する変更コードとを関連付けて表現する。 VFFINDERでは、変更コードと関連する変更コードの構造をキャプチャし、構造変更を注釈付き抽象構文木(aAST)で表現する。 VFFINDERは、AASTで表現された構造的特徴を抽出するために注意ベースのグラフニューラルネットワークモデルを使用して、脆弱性修正コミットと非修正コミットを区別する。 我々は,507の現実世界のC/C++プロジェクトにおいて,11K以上の脆弱性修正コミットのデータセット上でVFFINDERを評価する実験を行った。 以上の結果から,VFFINDERは精度272-420%,リコール22-70%,F13.2X-8.2Xに改善した。 特に、VFFINDERは、既存のアプローチと比較して50KLOCをレビューするのと同じ努力で、サイレントフィクス識別プロセスを最大121%高速化する。

The growing dependence of software projects on external libraries has generated apprehensions regarding the security of these libraries because of concealed vulnerabilities. Handling these vulnerabilities presents difficulties due to the temporal delay between remediation and public exposure. Furthermore, a substantial fraction of open-source projects covertly address vulnerabilities without any formal notification, influencing vulnerability management. Established solutions like OWASP predominantly hinge on public announcements, limiting their efficacy in uncovering undisclosed vulnerabilities. To address this challenge, the automated identification of vulnerability-fixing commits has come to the forefront. In this paper, we present VFFINDER, a novel graph-based approach for automated silent vulnerability fix identification. VFFINDER captures structural changes using Abstract Syntax Trees (ASTs) and represents them in annotated ASTs. To precisely capture the meaning of code changes, the changed code is represented in connection with the related unchanged code. In VFFINDER, the structure of the changed code and related unchanged code are captured and the structural changes are represented in annotated Abstract Syntax Trees (aAST). VFFINDER distinguishes vulnerability-fixing commits from non-fixing ones using attention-based graph neural network models to extract structural features expressed in aASTs. We conducted experiments to evaluate VFFINDER on a dataset of 11K+ vulnerability fixing commits in 507 real-world C/C++ projects. Our results show that VFFINDER significantly improves the state-of-the-art methods by 272-420% in Precision, 22-70% in Recall, and 3.2X-8.2X in F1. Especially, VFFINDER speeds up the silent fix identification process by up to 121% with the same effort reviewing 50K LOC compared to the existing approaches.
翻訳日:2023-10-23 07:28:04 公開日:2023-09-15
# 自動コードリファインメントにおけるChatGPTの可能性を探る:実証的研究

Exploring the Potential of ChatGPT in Automated Code Refinement: An Empirical Study ( http://arxiv.org/abs/2309.08221v1 )

ライセンス: Link先を確認
Qi Guo (Tianjin University), Junming Cao (Fudan University), Xiaofei Xie (Singapore Management University), Shangqing Liu (Nanyang Technological University), Xiaohong Li (Tianjin University), Bihuan Chen (Fudan University), Xin Peng (Fudan University)(参考訳) コードレビューは、ソフトウェアプロジェクトの品質と保守性を保証するための重要な活動である。 しかし、それは時間がかかり、しばしばエラーを起こしやすいタスクであり、開発プロセスに大きな影響を与えます。 最近、最先端言語モデルであるchatgptは、様々な自然言語処理タスクで印象的なパフォーマンスを示し、コードレビュープロセスを自動化する可能性を示唆している。 しかし、ChatGPTがコードレビュータスクでどの程度うまく機能するかはまだ不明である。 このギャップを埋めるため,本稿では,コードレビュータスクにおけるchatgptの機能を理解するための最初の実証研究を行い,特に与えられたコードレビューに基づいたコードリファインメントの自動化に注目する。 本研究では,既存のベンチマークであるCodeReviewを選択し,高品質なコードレビューデータセットを構築する。 最先端のコードレビューツールであるcodereviewerを、chatgptと比較するためのベースラインとして使用しています。 以上の結果から,ChatGPTはコードリファインメントタスクにおいてCodeReviewerよりも優れていた。 具体的には、ChatGPTはより高いEMとBLEUのスコアを22.78と76.44で達成し、最先端のコードレビューデータセットでは15.50と62.88しか達成していないことを示す。 さらに、chatgptの低性能化の根本原因を特定し、これらの課題を軽減するためのいくつかの戦略を提案する。 本研究は,コードレビュープロセスの自動化におけるChatGPTの可能性について考察し,今後の研究方向性を明らかにする。

Code review is an essential activity for ensuring the quality and maintainability of software projects. However, it is a time-consuming and often error-prone task that can significantly impact the development process. Recently, ChatGPT, a cutting-edge language model, has demonstrated impressive performance in various natural language processing tasks, suggesting its potential to automate code review processes. However, it is still unclear how well ChatGPT performs in code review tasks. To fill this gap, in this paper, we conduct the first empirical study to understand the capabilities of ChatGPT in code review tasks, specifically focusing on automated code refinement based on given code reviews. To conduct the study, we select the existing benchmark CodeReview and construct a new code review dataset with high quality. We use CodeReviewer, a state-of-the-art code review tool, as a baseline for comparison with ChatGPT. Our results show that ChatGPT outperforms CodeReviewer in code refinement tasks. Specifically, our results show that ChatGPT achieves higher EM and BLEU scores of 22.78 and 76.44 respectively, while the state-of-the-art method achieves only 15.50 and 62.88 on a high-quality code review dataset. We further identify the root causes for ChatGPT's underperformance and propose several strategies to mitigate these challenges. Our study provides insights into the potential of ChatGPT in automating the code review process, and highlights the potential research directions.
翻訳日:2023-10-23 07:27:37 公開日:2023-09-15
# テキスト関連性測定のための埋め込みを探る:オンラインコメントにおける感覚と関連性を明らかにする

Exploring Embeddings for Measuring Text Relatedness: Unveiling Sentiments and Relationships in Online Comments ( http://arxiv.org/abs/2310.05964v1 )

ライセンス: Link先を確認
Anthony Olakangil, Cindy Wang, Justin Nguyen, Qunbo Zhou, Kaavya Jethwa, Jason Li, Aryan Narendra, Nishk Patel, Arjun Rajaram(参考訳) インターネット利用が70%増加したパンデミックの後、世界中でソーシャルメディアを利用している人が増えている。 Twitter、Meta Threads、YouTube、Redditといったアプリケーションはますます普及しており、世論が表現されないデジタル空間はほとんど残っていない。 本稿では,様々なソーシャルメディアプラットフォームにおけるコメント間の感情的・意味的関係を考察するとともに,各メディアプラットフォーム間での意見共有の重要性について考察する。 研究者、政治家、ビジネス代表者が世界中のユーザー間で共有された感情の経路を辿ることができる。 本稿では,これらのオンラインプラットフォーム上でユーザコメントから抽出されたテキストの関連度を測定する複数の手法を提案する。 単語間のセマンティックな関係を捉え、ウェブ全体の感情を分析する埋め込みを活用することで、世論全体の関連を明らかにすることができる。 この研究は、YouTube、Reddit、Twitterなどの既存のデータセットを利用している。 我々は、双方向エンコーダ表現(BERT)のような人気のある自然言語処理モデルを利用して、感情を分析し、コメント埋め込み間の関係を探索した。 さらに,様々なソーシャルメディアプラットフォームにまたがるコメント埋め込みにおける意味的関係を見つけるために,クラスタリングとkl-divergenceを活用することを目的としている。 我々の分析は、オンラインコメントの相互接続性をより深く理解し、大きな相互接続脳として機能するインターネットの概念を調査する。

After a pandemic that caused internet usage to grow by 70%, there has been an increased number of people all across the world using social media. Applications like Twitter, Meta Threads, YouTube, and Reddit have become increasingly pervasive, leaving almost no digital space where public opinion is not expressed. This paper investigates sentiment and semantic relationships among comments across various social media platforms, as well as discusses the importance of shared opinions across these different media platforms, using word embeddings to analyze components in sentences and documents. It allows researchers, politicians, and business representatives to trace a path of shared sentiment among users across the world. This research paper presents multiple approaches that measure the relatedness of text extracted from user comments on these popular online platforms. By leveraging embeddings, which capture semantic relationships between words and help analyze sentiments across the web, we can uncover connections regarding public opinion as a whole. The study utilizes pre-existing datasets from YouTube, Reddit, Twitter, and more. We made use of popular natural language processing models like Bidirectional Encoder Representations from Transformers (BERT) to analyze sentiments and explore relationships between comment embeddings. Additionally, we aim to utilize clustering and Kl-divergence to find semantic relationships within these comment embeddings across various social media platforms. Our analysis will enable a deeper understanding of the interconnectedness of online comments and will investigate the notion of the internet functioning as a large interconnected brain.
翻訳日:2023-10-15 14:26:50 公開日:2023-09-15
# GPT-Lab: GPT駆動ロボットラボによる次世代の最適化学発見

GPT-Lab: Next Generation Of Optimal Chemistry Discovery By GPT Driven Robotic Lab ( http://arxiv.org/abs/2309.16721v1 )

ライセンス: Link先を確認
Xiaokai Qin, Mingda Song, Yangguan Chen, Zhehong Ai, Jing Jiang(参考訳) 化学実験におけるロボットの統合は実験の効率を高めたが、文学を理解するための人間の知性が欠如しているため、実験的な設計を支援することはほとんどない。 したがって、実験設計から自己駆動型研究所(SDL)の検証までの完全プロセスの自律化は、依然として課題である。 GPT(Generative Pre-trained Transformers)、特にGPT-4のロボット実験への導入は解決策を提供する。 GPT-Labは、GPTモデルを用いてロボットに人間のような知性を与えるパラダイムである。 ロボット実験プラットフォームを用いて,gpt-labは材料や手法に関する文献を発掘し,高スループット合成による結果の検証を行う。 実演として、gpt-labは500の論文を分析し、18の潜在的な試薬を特定し、根平均二乗誤差(rmse)が2.68%の正確な湿度測色センサを作製した。 これは我々のシステムの素早い材料発見と検証の可能性を示す。

The integration of robots in chemical experiments has enhanced experimental efficiency, but lacking the human intelligence to comprehend literature, they seldom provide assistance in experimental design. Therefore, achieving full-process autonomy from experiment design to validation in self-driven laboratories (SDL) remains a challenge. The introduction of Generative Pre-trained Transformers (GPT), particularly GPT-4, into robotic experimentation offers a solution. We introduce GPT-Lab, a paradigm that employs GPT models to give robots human-like intelligence. With our robotic experimentation platform, GPT-Lab mines literature for materials and methods and validates findings through high-throughput synthesis. As a demonstration, GPT-Lab analyzed 500 articles, identified 18 potential reagents, and successfully produced an accurate humidity colorimetric sensor with a root mean square error (RMSE) of 2.68%. This showcases the rapid materials discovery and validation potential of our system.
翻訳日:2023-10-08 11:14:02 公開日:2023-09-15
# 自律運転における協調認識における適応的コミュニケーション

Adaptive Communications in Collaborative Perception with Domain Alignment for Autonomous Driving ( http://arxiv.org/abs/2310.00013v1 )

ライセンス: Link先を確認
Hu Senkang, Fang Zhengru, An Haonan, Xu Guowen, Zhou Yuan, Chen Xianhao, Fang Yuguang(参考訳) 複数の連結車両と自律車両の協調認識は、車両が通信を介して補助情報を交換できるようにすることで、知覚能力を大幅に向上させることができる。 従来のアプローチの進歩にもかかわらず、チャネルのばらつきとコラボレーティブな車両間のデータの均一性による課題は依然として残っている。 そこで本研究では,通信グラフを動的に調整し,平均伝送遅延を最小化し,データの不均一性による副作用を緩和するチャネルアウェア協調知覚フレームワークacc-daを提案する。 私たちの小説は3つの側面にある。 まず、通信グラフを構築し、異なるチャネル情報状態に応じて伝送遅延を最小化できる伝送遅延最小化方法を設計する。 次に、速度歪みトレードオフを動的に調整し、知覚効率を向上させる適応データ再構成機構を提案する。 さらに、データ送信時の時間的冗長性を最小化する。 最後に、異なる車両からのデータ分布を調整するためのドメインアライメントスキームを考案し、異なる車両間のドメイン間ギャップを緩和し、対象タスクの性能を向上させる。 総合的な実験により,本手法の有効性が実証された。

Collaborative perception among multiple connected and autonomous vehicles can greatly enhance perceptive capabilities by allowing vehicles to exchange supplementary information via communications. Despite advances in previous approaches, challenges still remain due to channel variations and data heterogeneity among collaborative vehicles. To address these issues, we propose ACC-DA, a channel-aware collaborative perception framework to dynamically adjust the communication graph and minimize the average transmission delay while mitigating the side effects from the data heterogeneity. Our novelties lie in three aspects. We first design a transmission delay minimization method, which can construct the communication graph and minimize the transmission delay according to different channel information state. We then propose an adaptive data reconstruction mechanism, which can dynamically adjust the rate-distortion trade-off to enhance perception efficiency. Moreover, it minimizes the temporal redundancy during data transmissions. Finally, we conceive a domain alignment scheme to align the data distribution from different vehicles, which can mitigate the domain gap between different vehicles and improve the performance of the target task. Comprehensive experiments demonstrate the effectiveness of our method in comparison to the existing state-of-the-art works.
翻訳日:2023-10-08 11:06:37 公開日:2023-09-15
# エントロピー最適輸送のための投影ランジュバンダイナミクスと勾配流れ

Projected Langevin dynamics and a gradient flow for entropic optimal transport ( http://arxiv.org/abs/2309.08598v1 )

ライセンス: Link先を確認
Giovanni Conforti, Daniel Lacker, Soumik Pal(参考訳) 古典的なランジュバン力学はその不変測度からサンプリングするための自然なアルゴリズムを提供し、これは確率測度の空間上のエネルギー汎関数を一意的に最小化し、ノイズパラメータが小さいときに関連するポテンシャルの最小値の周りに集中する。 同じエネルギー汎関数を一意に最小化するが、2つの与えられた辺縁確率測度のカップリングのセット $\pi(\mu,\nu)$ に制約され、$\mathbb{r}^d$ で$\nu$ となり、小さな正規化パラメータのために最適な輸送結合(s)の周りに集中するエントロピー正規化最適輸送からサンプルされる類似の拡散ダイナミクスを導入する。 より具体的には、我々のプロセスは2つの重要な性質を満たす: まず、解の法則は、そこで初期化されている場合、それぞれ$\Pi(\mu,\nu)$に留まる。 第二に、長時間の極限はエントロピー最適輸送問題のユニークな解である。 さらに,収束が指数関数的に高速である新しい対数ソボレフ型不等式を用いて,十分大きな正規化パラメータと,すべての強対数対数測度を厳密に含む辺数のクラスを示す。 部分多様体 $\Pi(\mu,\nu)$ の誘導されたワッサーシュタイン幾何学の研究により、SDE は少なくとも$d=1$ のとき、この結合空間上のワッサーシュタイン勾配フローとみなすことができ、$d \ge 2$ の射影勾配フローを特定することができる。 主な技術的困難は条件付き期待項の出現であり、これは力学を$\pi(\mu,\nu)$に制限するのに役立つ。

The classical (overdamped) Langevin dynamics provide a natural algorithm for sampling from its invariant measure, which uniquely minimizes an energy functional over the space of probability measures, and which concentrates around the minimizer(s) of the associated potential when the noise parameter is small. We introduce analogous diffusion dynamics that sample from an entropy-regularized optimal transport, which uniquely minimizes the same energy functional but constrained to the set $\Pi(\mu,\nu)$ of couplings of two given marginal probability measures $\mu$ and $\nu$ on $\mathbb{R}^d$, and which concentrates around the optimal transport coupling(s) for small regularization parameter. More specifically, our process satisfies two key properties: First, the law of the solution at each time stays in $\Pi(\mu,\nu)$ if it is initialized there. Second, the long-time limit is the unique solution of an entropic optimal transport problem. In addition, we show by means of a new log-Sobolev-type inequality that the convergence holds exponentially fast, for sufficiently large regularization parameter and for a class of marginals which strictly includes all strongly log-concave measures. By studying the induced Wasserstein geometry of the submanifold $\Pi(\mu,\nu)$, we argue that the SDE can be viewed as a Wasserstein gradient flow on this space of couplings, at least when $d=1$, and we identify a conjectural gradient flow for $d \ge 2$. The main technical difficulties stems from the appearance of conditional expectation terms which serve to constrain the dynamics to $\Pi(\mu,\nu)$.
翻訳日:2023-10-01 13:04:32 公開日:2023-09-15
# ファンフィクションオンラインにおける類似性

Sameness Entices, but Novelty Enchants in Fanfiction Online ( http://arxiv.org/abs/1904.07741v2 )

ライセンス: Link先を確認
Elise Jing, Simon DeDeo, Devin Robert Wright, Yong-Yeol Ahn(参考訳) 文化の進化は、何を消費し、他人と共有するかを選択する方法によってもたらされます。 共通する信条は、成功した文化的な成果物は、新しさと慣習性のバランスをとるものであるということである。 このバランス理論は、人々は慣れ親しんだ作品を好むが、退屈な作品、斬新な作品、ジャンルの期待に反するほど斬新でない作品を好むことを示唆している。 我々はこのアイデアをファンフィクションの大規模なデータセットを用いて検証する。 本稿では,複数回帰モデルと一般化加法モデルを適用し,既存の作品の文脈において,潜在ディリクレ配置のトピックモデルから推定されるその新規性によって,その認識がどのように変化するかを検討する。 バランス理論が予測する$\unicode{x2014}$overall成功の逆パターンは、ノベルティとほぼ単調に減少し、U字型の曲線の代わりにU字型を示す。 このパズルは、2つの競合する力をからかうことで解決される。 一体的に考えると、バランス理論は、表現された楽しみの観点で保たれているものの、全体的な成功は、観客を引き付けるために同一性が支配的な役割のために逆のパターンを示すことができる。 この2つの力の下では、文化の進化は慣れ親しんだ$\unicode{x2014}$を消費する食欲に対して作用しなければならず、時折跳躍によって特徴づけられる句読された均衡に似ている。

Cultural evolution is driven by how we choose what to consume and share with others. A common belief is that the cultural artifacts that succeed are ones that balance novelty and conventionality. This balance theory suggests that people prefer works that are familiar, but not so familiar as to be boring; novel, but not so novel as to violate the expectations of their genre. We test this idea using a large dataset of fanfiction. We apply a multiple regression model and a generalized additive model to examine how the recognition a work receives varies with its novelty, estimated through a Latent Dirichlet Allocation topic model, in the context of existing works. We find the opposite pattern of what the balance theory predicts$\unicode{x2014}$overall success decline almost monotonically with novelty and exhibits a U-shaped, instead of an inverse U-shaped, curve. This puzzle is resolved by teasing out two competing forces: sameness attracts the mass whereas novelty provides enjoyment. Taken together, even though the balance theory holds in terms of expressed enjoyment, the overall success can show the opposite pattern due to the dominant role of sameness to attract the audience. Under these two forces, cultural evolution may have to work against inertia$\unicode{x2014}$the appetite for consuming the familiar$\unicode{x2014}$and may resemble a punctuated equilibrium, marked by occasional leaps.
翻訳日:2023-10-01 13:03:45 公開日:2023-09-15
# investlm:ファイナンシャルドメイン命令チューニングを用いた投資のための大型言語モデル

InvestLM: A Large Language Model for Investment using Financial Domain Instruction Tuning ( http://arxiv.org/abs/2309.13064v1 )

ライセンス: Link先を確認
Yi Yang, Yixuan Tang, Kar Yan Tam(参考訳) 我々はLLaMA-65B(Touvron et al., 2023)を基にした新たな金融分野大規模言語モデルInvestLMを提案する。 2023年、Zhouらにインスパイアされた我々は、チャータード・ファイナンシャル・アナリティスト(CFA)の試験問題からSECの提出書類、Stackexchangeの量的金融に関する議論まで、幅広い金融関連トピックをカバーした、小規模で多様な指導データセットを手作業でキュレートした。 InvestLMは、財務文書の理解における強力な能力を示し、投資関連の質問に対する有益な回答を提供する。 ヘッジファンドマネジャーやリサーチアナリストを含む金融専門家は、InvestLMの反応を最先端の商業モデル(GPT-3.5、GPT-4、Claude-2)に匹敵するものと評価している。 財務NLPベンチマークのゼロショット評価は、強い一般化性を示す。 研究の観点からは、表面的アライメント仮説(zhou et al., 2023)と一致した、十分に訓練された基礎モデル上で、注意深く調整された命令セットを用いて、高品質なドメイン固有llmを調整可能であることを示唆する。 実践的な観点から、この研究は、金融文献の理解と有益な投資アドバイスの提供、金融専門家の作業効率の向上に優れた、最先端の金融ドメイン LLM を開発する。 モデルパラメータを研究コミュニティにリリースします。

We present a new financial domain large language model, InvestLM, tuned on LLaMA-65B (Touvron et al., 2023), using a carefully curated instruction dataset related to financial investment. Inspired by less-is-more-for-alignment (Zhou et al., 2023), we manually curate a small yet diverse instruction dataset, covering a wide range of financial related topics, from Chartered Financial Analyst (CFA) exam questions to SEC filings to Stackexchange quantitative finance discussions. InvestLM shows strong capabilities in understanding financial text and provides helpful responses to investment related questions. Financial experts, including hedge fund managers and research analysts, rate InvestLM's response as comparable to those of state-of-the-art commercial models (GPT-3.5, GPT-4 and Claude-2). Zero-shot evaluation on a set of financial NLP benchmarks demonstrates strong generalizability. From a research perspective, this work suggests that a high-quality domain specific LLM can be tuned using a small set of carefully curated instructions on a well-trained foundation model, which is consistent with the Superficial Alignment Hypothesis (Zhou et al., 2023). From a practical perspective, this work develops a state-of-the-art financial domain LLM with superior capability in understanding financial texts and providing helpful investment advice, potentially enhancing the work efficiency of financial professionals. We release the model parameters to the research community.
翻訳日:2023-10-01 12:26:32 公開日:2023-09-15
# パーソナリティ・プロファイリング:ソーシャルメディア・プロフィールは個人情報の予測にどの程度有益か?

Personality Profiling: How informative are social media profiles in predicting personal information? ( http://arxiv.org/abs/2309.13065v1 )

ライセンス: Link先を確認
Joshua Watt, Jonathan Tuke and Lewis Mitchell(参考訳) パーソナリティ・プロファイリングは、ターゲット広告、政治キャンペーン、ワクチンキャンペーンなどに利用されてきた。 しかし、そのようなモデルの精度と汎用性はいまだによく分かっていない。 そこで本稿では,マイアーズ・ブリッグス・パーソナリティ・タイプをプロファイリングするために,人々のオンラインデジタルフットプリントがどの程度活用できるかを検討する。 我々は,ロジスティック回帰,ナイーブベイズ,サポートベクターマシン(svm),ランダムフォレストという4つのモデルの結果を分析し比較した。 我々は,SVMモデルが完全な性格型を予測する上で,20.95%の精度を達成することを発見した。 しかし、ロジスティック回帰モデルはわずかに悪化し、予測の訓練と実行が大幅に高速化される。 多くのラベル付きデータセットが、私たち自身を含むソーシャルメディア上の個人的特徴の実質的な階級的不均衡を示すことがわかった。 その結果,これらのデータセット上でモデル性能を報告する際の注意深い考察の必要性を強調し,クラス不均衡問題を解決するための方法をいくつか比較した。 さらに,モデルにおける異なる特徴集合の重要性を評価するための統計的枠組みを開発した。 Intuitive/Sensory (p = 0.032) モデルや Thinking/Feeling (p = 0.019) モデルでは、いくつかの特徴が他の機能よりも有益である。 これらの手法をマイアーズ・ブリッグス・パーソナリティ・プロファイリングに適用するが,ソーシャルメディア上での個人ラベル付けにはより一般的である。

Personality profiling has been utilised by companies for targeted advertising, political campaigns and vaccine campaigns. However, the accuracy and versatility of such models still remains relatively unknown. Consequently, we aim to explore the extent to which peoples' online digital footprints can be used to profile their Myers-Briggs personality type. We analyse and compare the results of four models: logistic regression, naive Bayes, support vector machines (SVMs) and random forests. We discover that a SVM model achieves the best accuracy of 20.95% for predicting someones complete personality type. However, logistic regression models perform only marginally worse and are significantly faster to train and perform predictions. We discover that many labelled datasets present substantial class imbalances of personal characteristics on social media, including our own. As a result, we highlight the need for attentive consideration when reporting model performance on these datasets and compare a number of methods for fixing the class-imbalance problems. Moreover, we develop a statistical framework for assessing the importance of different sets of features in our models. We discover some features to be more informative than others in the Intuitive/Sensory (p = 0.032) and Thinking/Feeling (p = 0.019) models. While we apply these methods to Myers-Briggs personality profiling, they could be more generally used for any labelling of individuals on social media.
翻訳日:2023-10-01 12:12:03 公開日:2023-09-15
# 高次元周期構造のためのモデルベース深層学習

Model-based Deep Learning for High-Dimensional Periodic Structures ( http://arxiv.org/abs/2309.12223v1 )

ライセンス: Link先を確認
Lucas Polo-L\'opez (IETR, INSA Rennes), Luc Le Magoarou (INSA Rennes, IETR), Romain Contreres (CNES), Mar\'ia Garc\'ia-Vigueras (IETR, INSA Rennes)(参考訳) 本研究では,高次元周波数選択曲面の高速シミュレーションのためのディープラーニングサロゲートモデルを提案する。 複数の画面の連結スタックとして構築される単位セルを考慮し、その設計には多くの幾何学的自由度を制御する必要がある。 モデルに対する物理的洞察の導入により, 縮小データセットを用いたトレーニング後, 一定の構造のSパラメータの正確な予測を行うことができ, 提案モデルは非常に多目的であり, 任意の幾何形状の穿孔やパッチに基づいて, 任意の周波数選択面で使用することができる。 長方形穿孔を有するスクリーンからなる周波数選択面の場合, 予測性能とフルウェーブシミュレータで得られた値との一致が良好であることを示す数値例を示す。

This work presents a deep learning surrogate model for the fast simulation of high-dimensional frequency selective surfaces. We consider unit-cells which are built as multiple concatenated stacks of screens and their design requires the control over many geometrical degrees of freedom. Thanks to the introduction of physical insight into the model, it can produce accurate predictions of the S-parameters of a certain structure after training with a reduced dataset.The proposed model is highly versatile and it can be used with any kind of frequency selective surface, based on either perforations or patches of any arbitrary geometry. Numeric examples are presented here for the case of frequency selective surfaces composed of screens with rectangular perforations, showing an excellent agreement between the predicted performance and such obtained with a full-wave simulator.
翻訳日:2023-09-24 03:46:19 公開日:2023-09-15
# 離散コサイン変換層を有する非対称スパースオートエンコーダを用いた脳波センサデータ圧縮

Electroencephalogram Sensor Data Compression Using An Asymmetrical Sparse Autoencoder With A Discrete Cosine Transform Layer ( http://arxiv.org/abs/2309.12201v1 )

ライセンス: Link先を確認
Xin Zhu, Hongyi Pan, Shuaiang Rong, Ahmet Enis Cetin(参考訳) 電子脳波(eeg)データ圧縮は、送信すべきデータ量を減らすために、無線記録アプリケーションに必要なものである。 本稿では,eeg信号を圧縮するために,離散コサイン変換(dct)層を有する非対称スパースオートエンコーダを提案する。 オートエンコーダのエンコーダモジュールは、完全連結線形層とDCT層とを組み合わせて、ハードスレッディング非線形性を用いて冗長データを削減する。 さらに、dct層は、個々のdct係数を強調または強調する訓練可能なハードthresholdパラメータとスケーリング層を含む。 最後に、1対1の畳み込み層は潜在空間を生成する。 sparsityペナルティに基づくコスト関数は、潜在空間における機能マップを可能な限りスパースに保つために使用される。 潜時空間データは受信機に送信される。 オートエンコーダのデコーダモジュールは、逆dctと2つの完全連結線形層を用いて設計され、データ再構成の精度が向上する。 他の最先端手法と比較して,提案手法は各種データ圧縮実験における平均品質スコアを大幅に改善する。

Electroencephalogram (EEG) data compression is necessary for wireless recording applications to reduce the amount of data that needs to be transmitted. In this paper, an asymmetrical sparse autoencoder with a discrete cosine transform (DCT) layer is proposed to compress EEG signals. The encoder module of the autoencoder has a combination of a fully connected linear layer and the DCT layer to reduce redundant data using hard-thresholding nonlinearity. Furthermore, the DCT layer includes trainable hard-thresholding parameters and scaling layers to give emphasis or de-emphasis on individual DCT coefficients. Finally, the one-by-one convolutional layer generates the latent space. The sparsity penalty-based cost function is employed to keep the feature map as sparse as possible in the latent space. The latent space data is transmitted to the receiver. The decoder module of the autoencoder is designed using the inverse DCT and two fully connected linear layers to improve the accuracy of data reconstruction. In comparison to other state-of-the-art methods, the proposed method significantly improves the average quality score in various data compression experiments.
翻訳日:2023-09-24 03:44:19 公開日:2023-09-15
# 融合住宅調査による米国世帯の空間的多次元幸福感:fusionACS

Multidimensional well-being of US households at a fine spatial scale using fused household surveys: fusionACS ( http://arxiv.org/abs/2309.11512v1 )

ライセンス: Link先を確認
Kevin Ummel, Miguel Poblete-Cazenave, Karthik Akkiraju, Nick Graetz, Hero Ashman, Cora Kingdon, Steven Herrera Tenorio, Aaryaman "Sunny" Singhal, Daniel Aldana Cohen, Narasimha D. Rao(参考訳) 社会科学は家庭や個人の調査に依存することが多い。 このような調査はアメリカ合衆国政府によって定期的に行われている。 しかし、彼らは独立した無接続のサンプルに特別な質問を加え、単一の調査で答えられる質問に限定する。 fusionACSプロジェクトは、アメリカコミュニティサーベイ(ACS)マイクロデータへの「ドナー」サーベイから変数を統計的に「融合」することで、米国の家庭調査からのデータを統合することを目指している。 この結果、家庭属性の統合マイクロデータセットと、現在不可能な方法で研究課題に対処するために分析可能なウェルビーイングディメンションが実現した。 提示されたデータは、2015年の住宅エネルギー消費調査(RECS)、2017年の全米家庭交通調査(NHTS)、2019年の米国住宅調査(AHS)、2015-2019年の消費者支出調査(CEI)から選ばれたドナー変数のACSへの融合を含む。 基礎となる統計技術はオープンソースの$r$パッケージ、fusionmodelに含まれており、融合されたマイクロデータの作成、分析、検証のための汎用ツールを提供している。

Social science often relies on surveys of households and individuals. Dozens of such surveys are regularly administered by the U.S. government. However, they field independent, unconnected samples with specialized questions, limiting research questions to those that can be answered by a single survey. The fusionACS project seeks to integrate data from multiple U.S. household surveys by statistically "fusing" variables from "donor" surveys onto American Community Survey (ACS) microdata. This results in an integrated microdataset of household attributes and well-being dimensions that can be analyzed to address research questions in ways that are not currently possible. The presented data comprise the fusion onto the ACS of select donor variables from the Residential Energy Consumption Survey (RECS) of 2015, the National Household Transportation Survey (NHTS) of 2017, the American Housing Survey (AHS) of 2019, and the Consumer Expenditure Survey - Interview (CEI) for the years 2015-2019. The underlying statistical techniques are included in an open-source $R$ package, fusionModel, that provides generic tools for the creation, analysis, and validation of fused microdata.
翻訳日:2023-09-24 03:44:00 公開日:2023-09-15
# 新型コロナウイルス後患者の長期神経症状 : 予後予測のための機械学習アプローチ

Long-term Neurological Sequelae in Post-COVID-19 Patients: A Machine Learning Approach to Predict Outcomes ( http://arxiv.org/abs/2309.09993v1 )

ライセンス: Link先を確認
Hayder A. Albaqer, Kadhum J. Al-Jibouri, John Martin, Fadhil G. Al-Amran, Salman Rawaf, Maitham G. Yousif(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、回復後患者の長期にわたる神経合併症の側面を浮き彫りにした。 この研究は、500人の共生後の患者を対象にした神経学的後遺症の調査を行い、疾患の重症度が異なる患者を対象とした。 主な目的は、さまざまな臨床データとニューロイメージングパラメータに基づいた機械学習アプローチによる結果の予測であった。 その結果、共発後19例の68%が神経症状を呈し、疲労、頭痛、無呼吸が最も多いことが明らかとなった。 さらに22%の患者は脳症や脳卒中などより重篤な神経症状を呈していた。 機械学習モデルの適用は、長期的な神経学的結果を予測する有望な結果を示した。 特にランダムフォレストモデルでは85%の精度、80%の感度、神経後遺症を発症するリスクのある患者を特定できる90%の特異性を達成した。 これらの知見は、特に潜在的な神経学的合併症に関して、COVID-19後の患者の継続的なモニタリングとフォローアップケアの重要性を強調している。 機械学習に基づく結果予測の統合は、早期介入とパーソナライズされた治療戦略のための貴重なツールを提供する。 結論として本研究は,共生後19例の長期神経合併症の有病率に光を当て,予後予測における機械学習の可能性を示し,患者の管理と健康状態の改善に寄与した。 さらなる研究とより大きな研究は、これらの予測モデルを検証し、洗練し、新型コロナウイルス後の神経後続のメカニズムについてより深い洞察を得ることが求められる。

The COVID-19 pandemic has brought to light a concerning aspect of long-term neurological complications in post-recovery patients. This study delved into the investigation of such neurological sequelae in a cohort of 500 post-COVID-19 patients, encompassing individuals with varying illness severity. The primary aim was to predict outcomes using a machine learning approach based on diverse clinical data and neuroimaging parameters. The results revealed that 68% of the post-COVID-19 patients reported experiencing neurological symptoms, with fatigue, headache, and anosmia being the most common manifestations. Moreover, 22% of the patients exhibited more severe neurological complications, including encephalopathy and stroke. The application of machine learning models showed promising results in predicting long-term neurological outcomes. Notably, the Random Forest model achieved an accuracy of 85%, sensitivity of 80%, and specificity of 90% in identifying patients at risk of developing neurological sequelae. These findings underscore the importance of continuous monitoring and follow-up care for post-COVID-19 patients, particularly in relation to potential neurological complications. The integration of machine learning-based outcome prediction offers a valuable tool for early intervention and personalized treatment strategies, aiming to improve patient care and clinical decision-making. In conclusion, this study sheds light on the prevalence of long-term neurological complications in post-COVID-19 patients and demonstrates the potential of machine learning in predicting outcomes, thereby contributing to enhanced patient management and better health outcomes. Further research and larger studies are warranted to validate and refine these predictive models and to gain deeper insights into the underlying mechanisms of post-COVID-19 neurological sequelae.
翻訳日:2023-09-20 18:41:37 公開日:2023-09-15
# OpenAIは私たちの税例を批判するが、GPT-4は本当に課税できるのか?

OpenAI Cribbed Our Tax Example, But Can GPT-4 Really Do Tax? ( http://arxiv.org/abs/2309.09992v1 )

ライセンス: Link先を確認
Andrew Blair-Stanek, Nils Holzenberger, Benjamin Van Durme(参考訳) 筆者らは、GPT-4のライブストリームデモでOpenAIが税法の実例を得た理由、なぜGPT-4が間違った回答を得たのか、どうやって確実に税を計算できないのかを説明している。

The authors explain where OpenAI got the tax law example in its livestream demonstration of GPT-4, why GPT-4 got the wrong answer, and how it fails to reliably calculate taxes.
翻訳日:2023-09-20 18:41:08 公開日:2023-09-15
# 量子相対エントロピーの不確かさ関係

Quantum relative entropy uncertainty relation ( http://arxiv.org/abs/2309.09990v1 )

ライセンス: Link先を確認
Domingos S. P. Salazar(参考訳) 古典系では、熱力学的不確実性関係(TUR)は、電流のゆらぎがエントロピー生成の点で低い境界を持つことを述べる。 いくつかのTURは情報理論に根ざしており、特に確率的熱力学においてエントロピー生成の役割を果たすクルバック・リーバーの発散のような観測(平均と分散)と相違点の関係に由来する。 このアイデアを量子系に対して一般化し、量子相対エントロピーの観点から与えられる量子可観測物の不確実性に対する低い境界を求める。 量子エントロピー生成の観点から量子熱力学的不確実性関係を得るため, 任意の力学および非熱環境において有効である。

For classic systems, the thermodynamic uncertainty relation (TUR) states that the fluctuations of a current have a lower bound in terms of the entropy production. Some TURs are rooted in information theory, particularly derived from relations between observations (mean and variance) and dissimilarities, such as the Kullback-Leibler divergence, which plays the role of entropy production in stochastic thermodynamics. We generalize this idea for quantum systems, where we find a lower bound for the uncertainty of quantum observables given in terms of the quantum relative entropy. We apply the result to obtain a quantum thermodynamic uncertainty relation in terms of the quantum entropy production, valid for arbitrary dynamics and non-thermal environments.
翻訳日:2023-09-20 18:41:01 公開日:2023-09-15
# 非線形材料設計のためのニューラルネットワーク

Neural Metamaterial Networks for Nonlinear Material Design ( http://arxiv.org/abs/2309.10600v1 )

ライセンス: Link先を確認
Yue Li, Stelian Coros, Bernhard Thomaszewski(参考訳) 機械的特性を調整した非線形メタマテリアルは、工学、医学、ロボット工学などに応用されている。 マクロメカニカルな振る舞い自体をモデル化することは難しいが、高いレベルのパフォーマンス目標の理想的な近似につながる構造パラメータを見つけることは難しい課題である。 本研究では,全メタマテリアルファミリーの非線形力学を符号化したスムーズなニューラル表現であるニューラルメタマテリアルネットワーク(NMN)を提案する。 入力として構造パラメータが与えられた場合、NMNは連続的に微分可能なひずみエネルギー密度関数を返す。 シミュレーションデータに基づいて訓練されたものの、NMNは有限要素メッシュのトポロジ的変化による不連続性を継承しない。 その代わり、パラメータからパフォーマンス空間への滑らかな写像が完全に微分可能で、勾配に基づく最適化に適している。 そこで我々は,ニューラルネットワークを目的関数と制約の両方に活用する非線形プログラミング問題として,逆材料設計を定式化する。 本手法は, 所望のひずみ応力曲線, 所定の方向剛性, ポアソン比プロファイルを有する材料を自動設計する。 さらに,ネットワーク非線形性に関するアブレーション研究を行い,本手法の利点をネイティブスケール最適化と比較した。

Nonlinear metamaterials with tailored mechanical properties have applications in engineering, medicine, robotics, and beyond. While modeling their macromechanical behavior is challenging in itself, finding structure parameters that lead to ideal approximation of high-level performance goals is a challenging task. In this work, we propose Neural Metamaterial Networks (NMN) -- smooth neural representations that encode the nonlinear mechanics of entire metamaterial families. Given structure parameters as input, NMN return continuously differentiable strain energy density functions, thus guaranteeing conservative forces by construction. Though trained on simulation data, NMN do not inherit the discontinuities resulting from topological changes in finite element meshes. They instead provide a smooth map from parameter to performance space that is fully differentiable and thus well-suited for gradient-based optimization. On this basis, we formulate inverse material design as a nonlinear programming problem that leverages neural networks for both objective functions and constraints. We use this approach to automatically design materials with desired strain-stress curves, prescribed directional stiffness and Poisson ratio profiles. We furthermore conduct ablation studies on network nonlinearities and show the advantages of our approach compared to native-scale optimization.
翻訳日:2023-09-20 14:23:56 公開日:2023-09-15
# FaceScape: 1次元顔再構成のための3次元顔データセットとベンチマーク

FaceScape: 3D Facial Dataset and Benchmark for Single-View 3D Face Reconstruction ( http://arxiv.org/abs/2111.01082v2 )

ライセンス: Link先を確認
Hao Zhu, Haotian Yang, Longwei Guo, Yidi Zhang, Yanru Wang, Mingkai Huang, Menghua Wu, Qiu Shen, Ruigang Yang, Xun Cao(参考訳) 本稿では,大規模な3次元顔データセット,FaceScape,およびそれに対応するベンチマークについて述べる。 FaceScapeデータをトレーニングすることにより、単一の画像入力から精巧な3次元顔モデルを予測する新しいアルゴリズムを提案する。 FaceScapeのデータセットは、テクスチャ付き3D顔が16,940ドル、被験者が847ドル、それぞれ20ドルだ。 3Dモデルは、トポロジカルに均一であるように処理される細孔レベルの顔形状を含んでいる。 これらの微細な3次元顔モデルは、詳細な幾何学のための粗い形状と変位マップの3次元形態モデルとして表現することができる。 大規模かつ高精度なデータセットを活用して、深層ニューラルネットワークを用いて表現固有の動的詳細を学習する新しいアルゴリズムが提案されている。 学習された関係は、単一の画像入力から3次元顔予測システムの基礎となる。 従来の手法と異なり、予測した3dモデルは、異なる表現の下で高度に詳細な幾何学を組み込むことができる。 また、FaceScapeデータを用いて、最新の単一視点顔再構成手法の評価を行う。 精度はカメラのポーズと焦点距離の寸法で報告され分析され、忠実で包括的な評価が得られ、新たな課題が浮かび上がっている。 前例のないデータセット、ベンチマーク、コードがhttps://github.com/zhuhao-nju/facescapeでリリースされた。

In this paper, we present a large-scale detailed 3D face dataset, FaceScape, and the corresponding benchmark to evaluate single-view facial 3D reconstruction. By training on FaceScape data, a novel algorithm is proposed to predict elaborate riggable 3D face models from a single image input. FaceScape dataset releases $16,940$ textured 3D faces, captured from $847$ subjects and each with $20$ specific expressions. The 3D models contain the pore-level facial geometry that is also processed to be topologically uniform. These fine 3D facial models can be represented as a 3D morphable model for coarse shapes and displacement maps for detailed geometry. Taking advantage of the large-scale and high-accuracy dataset, a novel algorithm is further proposed to learn the expression-specific dynamic details using a deep neural network. The learned relationship serves as the foundation of our 3D face prediction system from a single image input. Different from most previous methods, our predicted 3D models are riggable with highly detailed geometry under different expressions. We also use FaceScape data to generate the in-the-wild and in-the-lab benchmark to evaluate recent methods of single-view face reconstruction. The accuracy is reported and analyzed on the dimensions of camera pose and focal length, which provides a faithful and comprehensive evaluation and reveals new challenges. The unprecedented dataset, benchmark, and code have been released at https://github.com/zhuhao-nju/facescape.
翻訳日:2023-09-20 02:24:05 公開日:2023-09-15
# フーリエ容量条件付き正規化最小二乗の最適学習率

Optimal Learning Rates for Regularized Least-Squares with a Fourier Capacity Condition ( http://arxiv.org/abs/2204.07856v4 )

ライセンス: Link先を確認
Prem Talwai, David Simchi-Levi(参考訳) 一般的なソース条件下でのヒルベルトスケールにおける新しい幅広いティホノフ正規化学習問題のminimax適応率を導出する。 我々の分析では、回帰関数を仮説クラスに含める必要はなく、最も注目すべきは、カーネル固有デカイ上の従来の \textit{a priori} 仮定を使わないことである。 補間理論を用いて、メルサー作用素のスペクトルが適切なヒルベルトスケールの埋め込みとして ``tight'' $L^{\infty}(\mathcal{X})$ の存在下で推論可能であることを示す。 本解析では, 最適ヒルベルトスケール関数による核ディリクレ容量と小球確率の相互作用を捉えた新しいフーリエ等容量条件を用いる。

We derive minimax adaptive rates for a new, broad class of Tikhonov-regularized learning problems in Hilbert scales under general source conditions. Our analysis does not require the regression function to be contained in the hypothesis class, and most notably does not employ the conventional \textit{a priori} assumptions on kernel eigendecay. Using the theory of interpolation, we demonstrate that the spectrum of the Mercer operator can be inferred in the presence of ``tight'' $L^{\infty}(\mathcal{X})$ embeddings of suitable Hilbert scales. Our analysis utilizes a new Fourier isocapacitary condition, which captures the interplay of the kernel Dirichlet capacities and small ball probabilities via the optimal Hilbert scale function.
翻訳日:2023-09-20 02:02:17 公開日:2023-09-15
# 公平な分類における戦略的マニピュレーションの相違

Addressing Strategic Manipulation Disparities in Fair Classification ( http://arxiv.org/abs/2205.10842v2 )

ライセンス: Link先を確認
Vijay Keswani and L. Elisa Celis(参考訳) オンラインプラットフォーム上でのローン申請評価やコンテンツモデレーションなどの現実世界の分類設定では、個人は特定の(肯定的な)決定を受ける可能性を高めるために、戦略的に特徴を更新することで分類器の予測に応答する。 しかし、異なる集団が異なる機能分布を持つ場合や、異なる更新コストを支払っている場合、少数グループの個人が機能を更新するために高いコストを支払うことがしばしば示されている。 フェア分類は、統計的フェアネス特性を満たすために分類器を制約することにより、このような分類器の性能格差に対処することを目的としている。 しかし, 標準的公平性制約は, 制約付き分類器が戦略操作コストの差を減らすことを保証しないことを示した。 戦略設定におけるそのようなバイアスに対処し、戦略的操作に等しく機会を与えるために、少数集団の戦略操作コストを下げる分類器を構築する制約付き最適化フレームワークを提案する。 我々は,グループ固有の戦略的コスト格差と標準選択率公正度(統計率,真正率など)の理論的関係を考察し,枠組みを整備する。 実世界の複数のデータセットに対するこのアプローチの有効性を実証的に示す。

In real-world classification settings, such as loan application evaluation or content moderation on online platforms, individuals respond to classifier predictions by strategically updating their features to increase their likelihood of receiving a particular (positive) decision (at a certain cost). Yet, when different demographic groups have different feature distributions or pay different update costs, prior work has shown that individuals from minority groups often pay a higher cost to update their features. Fair classification aims to address such classifier performance disparities by constraining the classifiers to satisfy statistical fairness properties. However, we show that standard fairness constraints do not guarantee that the constrained classifier reduces the disparity in strategic manipulation cost. To address such biases in strategic settings and provide equal opportunities for strategic manipulation, we propose a constrained optimization framework that constructs classifiers that lower the strategic manipulation cost for minority groups. We develop our framework by studying theoretical connections between group-specific strategic cost disparity and standard selection rate fairness metrics (e.g., statistical rate and true positive rate). Empirically, we show the efficacy of this approach over multiple real-world datasets.
翻訳日:2023-09-20 01:49:37 公開日:2023-09-15
# 不変制約学習による自動データ拡張

Automatic Data Augmentation via Invariance-Constrained Learning ( http://arxiv.org/abs/2209.15031v2 )

ライセンス: Link先を確認
Ignacio Hounie, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) 対称性や変換への不変といった下層データ構造は、しばしば学習タスクのソリューションを改善するために利用される。 しかし、これらの特性をモデルや学習アルゴリズムに組み込むことは、困難で計算集約的です。 一方、データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。 ユビキタスであるにもかかわらず、その有効性は、どの変換を適用するか、いつ、どれくらい頻度で適用するかの選択に依存する。 実際、データ拡張の無差別な使用が、その利点を上回るバイアスをもたらすという経験的および理論的証拠がある。 この作業は、学習タスクを解きながら、データ拡張を自動的に適応することで、これらの問題に取り組む。 そのため、データの増大を不変制約学習問題として定式化し、モンテカルロ・マルコフ・チェイン(MCMC)サンプリングを利用して解決する。 その結果,データ拡張分布の事前検索を廃止するだけでなく,データ拡張が適用された場合に動的に制御する実用的なアルゴリズムが得られた。 実験では,CIFARデータセットの自動データ拡張ベンチマークにおいて,最新の結果が得られる手法の性能について述べる。 さらに、このアプローチは学習タスクの基礎となる実際の対称性についての洞察を集めるのに使うことができる。

Underlying data structures, such as symmetries or invariances to transformations, are often exploited to improve the solution of learning tasks. However, embedding these properties in models or learning algorithms can be challenging and computationally intensive. Data augmentation, on the other hand, induces these symmetries during training by applying multiple transformations to the input data. Despite its ubiquity, its effectiveness depends on the choices of which transformations to apply, when to do so, and how often. In fact, there is both empirical and theoretical evidence that the indiscriminate use of data augmentation can introduce biases that outweigh its benefits. This work tackles these issues by automatically adapting the data augmentation while solving the learning task. To do so, it formulates data augmentation as an invariance-constrained learning problem and leverages Monte Carlo Markov Chain (MCMC) sampling to solve it. The result is a practical algorithm that not only does away with a priori searches for augmentation distributions, but also dynamically controls if and when data augmentation is applied. Our experiments illustrate the performance of this method, which achieves state-of-the-art results in automatic data augmentation benchmarks for CIFAR datasets. Furthermore, this approach can be used to gather insights on the actual symmetries underlying a learning task.
翻訳日:2023-09-20 01:31:28 公開日:2023-09-15
# 離散時間量子ジャンプモデルを用いたFMO複合体におけるサイトペア間の非マルコビアン性

Non-Markovianity between site-pairs in FMO complex using discrete-time quantum jump model ( http://arxiv.org/abs/2209.00994v2 )

ライセンス: Link先を確認
Mousumi Kundu and C. M. Chandrashekar(参考訳) 緑色サルファー細菌に存在するフェンナ・モーゼス・オルソン複合体は、光ハーベスト化クロロソームと膜埋め込み細菌反応中心の間の励起エネルギーの移動を仲介することが知られている。 このような輸送プロセスの効率が高いため、他のシステムで同様のダイナミクスをモデリングおよびエンジニアリングし、リアルタイムに利用することを目的として、広範囲に研究された色素-タンパク質複合体システムである。 いくつかの研究は、波状行動と非マルコフ量子ジャンプにより輸送効率が向上し、量子コヒーレンスが長寿命かつ復活したとしている。 これらの系の力学は量子古典的構造に存在するため、そのような力学の量子シミュレーションは、輸送効率の向上における量子的特徴の微妙な役割を探求する助けとなるだろう。 FMO複合体の力学の離散シミュレーションは、熱浴の効率的なエンジニアリングとシステムによる環境制御に役立つ。 本研究では, 離散量子ジャンプモデルを用いて, 内部構造や環境効果が高速輸送に有利な場合に, 特定のサイトパイアにおける高次非マルコフ記憶効果の存在を示し, 定量化する。 その結果,量子ジャンプにおける非マルコフ性と輸送効率の増大との関連性が示唆された。

The Fenna-Mathews-Olson (FMO) complex present in green sulphur bacteria is known to mediate the transfer of excitation energy between light-harvesting chlorosomes and membrane-embedded bacterial reaction centres. Due to the high efficiency of such transport process, it is an extensively studied pigment-protein complex system with the eventual aim of modelling and engineering similar dynamics in other systems and use it for real-time application. Some studies have attributed the enhancement of transport efficiency to wave-like behaviour and non-Markovian quantum jumps resulting in long-lived and revival of quantum coherence, respectively. Since dynamics in these systems reside in the quantum-classical regime, quantum simulation of such dynamics will help in exploring the subtle role of quantum features in enhancing the transport efficiency, which has remained unsettled. Discrete simulation of the dynamics in the FMO complex can help in efficient engineering of the heat bath and controlling the environment with the system. In this work, using the discrete quantum jump model we show and quantify the presence of higher non-Markovian memory effects in specific site-pairs when internal structures and environmental effects are in favour of faster transport. As a consequence, our study leans towards the connection between non-Markovianity in quantum jumps with the enhancement of transport efficiency.
翻訳日:2023-09-20 01:28:45 公開日:2023-09-15
# AdsorbML: 一般化可能な機械学習ポテンシャルを用いた吸着エネルギー計算の効率化

AdsorbML: A Leap in Efficiency for Adsorption Energy Calculations using Generalizable Machine Learning Potentials ( http://arxiv.org/abs/2211.16486v3 )

ライセンス: Link先を確認
Janice Lan, Aini Palizhati, Muhammed Shuaibi, Brandon M. Wood, Brook Wander, Abhishek Das, Matt Uyttendaele, C. Lawrence Zitnick, Zachary W. Ulissi(参考訳) 計算触媒は、幅広い応用における触媒の設計において、ますます重要な役割を担っている。 多くの計算手法において一般的な課題は、吸着剤と触媒表面の吸着エネルギーを正確に計算する必要があることである。 伝統的に、低エネルギー吸着面配置の同定はヒューリスティックな方法と研究者の直観に依存する。 高スループットのスクリーニングを行うという欲求が高まるにつれ、ヒューリスティックと直観だけでは使用が困難になる。 本稿では,低エネルギー吸着面の構成をより正確に効率的に識別するために,機械学習のポテンシャルを活用できることを実証する。 このアルゴリズムは、精度と効率のトレードオフのスペクトルを提供し、1つのバランスのとれたオプションで、最低エネルギー構成の87.36%を計算の2000倍のスピードアップを達成する。 ベンチマークの標準化のために,約1,000の多様な表面と10000のユニークな構成を含むOpen Catalyst Denseデータセットを紹介した。

Computational catalysis is playing an increasingly significant role in the design of catalysts across a wide range of applications. A common task for many computational methods is the need to accurately compute the adsorption energy for an adsorbate and a catalyst surface of interest. Traditionally, the identification of low energy adsorbate-surface configurations relies on heuristic methods and researcher intuition. As the desire to perform high-throughput screening increases, it becomes challenging to use heuristics and intuition alone. In this paper, we demonstrate machine learning potentials can be leveraged to identify low energy adsorbate-surface configurations more accurately and efficiently. Our algorithm provides a spectrum of trade-offs between accuracy and efficiency, with one balanced option finding the lowest energy configuration 87.36% of the time, while achieving a 2000x speedup in computation. To standardize benchmarking, we introduce the Open Catalyst Dense dataset containing nearly 1,000 diverse surfaces and 100,000 unique configurations.
翻訳日:2023-09-20 01:09:35 公開日:2023-09-15
# 負の放射圧を用いた標準量子限界を克服する重力波検出器のバックアクション回避測定

Back-Action Evading Measurement in Gravitational Wave Detectors to Overcome Standard Quantum Limit, Using Negative Radiation Pressure ( http://arxiv.org/abs/2301.09974v2 )

ライセンス: Link先を確認
Souvik Agasti, Abhishek Shukla, Milos Nesladek(参考訳) 重力波(GW)検出への応用を目的として,キャビティフィールドとエンドミラーの間に負の放射圧結合を導入することにより,オプトメカニカルキャビティ上で実行される量子バックアクション回避測定値を得る手法を提案する。 このスキームは、エンドミラーをピボットで連動させ、反対方向に動くダブルキャビティを導入することで構成されている。 両キャビティに2モード圧縮真空を送り、ヘテロダイン検出により出力を検出することで測定を行う。 前述したphysのハイブリッド型負質量スピンオプトメカニカルシステムと比較してみた。 Rev. Lett. 121, 031101 (2018) では, 提案手法は低周波数域において, 約2桁の反動雑音を抑制することができることがわかった。 全体として、セットアップは標準量子限界以下で出力ノイズを圧縮することができ、効率は向上した。 加えて、このスキームは熱騒音をかなりの量低減するのにも有用であることが証明されている。 数値解析により結果を確認し,従来の提案であるPhysと比較した。 Rev. Lett. 121, 031101 (2018).

Aiming at application for gravitational wave (GW) detection, we propose a novel scheme how to obtain quantum back action evading measurements performed on an opto-mechanical cavity, by introducing a negative radiation pressure coupling between the cavity field and the end mirror. The scheme consists of introducing a double cavity with end mirrors interlocked by a pivot and moving in opposite directions. The measurement is performed by sending a two-mode squeezed vacuum to both cavities and detecting the output through the heterodyne detection. Compared to the previously proposed hybrid negative mass spin-optomechanical system in Phys. Rev. Lett. 121, 031101 (2018), we see that our scheme is capable to suppress back action noise by nearly two orders of magnitude more in the lower frequency region. Overall, the setup has been able to squeeze the output noise below the standard quantum limit, with more efficiency. In addition, the scheme has also proven to be beneficial for reducing thermal noise by a significant amount. We confirm our result by a numerical analysis and compared it with the previous proposal Phys. Rev. Lett. 121, 031101 (2018).
翻訳日:2023-09-20 01:01:16 公開日:2023-09-15
# Tailor: リソース効率の良い推論のためのスキップ接続の変更

Tailor: Altering Skip Connections for Resource-Efficient Inference ( http://arxiv.org/abs/2301.07247v2 )

ライセンス: Link先を確認
Olivia Weng, Gabriel Marcano, Vladimir Loncar, Alireza Khodamoradi, Nojan Sheybani, Andres Meza, Farinaz Koushanfar, Kristof Denolf, Javier Mauricio Duarte, Ryan Kastner(参考訳) ディープニューラルネットワークは、トレーニング収束を改善するためにスキップ接続を使用する。 しかし、これらのスキップ接続はハードウェアでコストがかかり、追加のバッファが必要となり、オンチップとオフチップのメモリ使用量と帯域幅要件が増加する。 本稿では,ハードウェア・ソフトウェア・コード署名アプローチに取り組み,スキップ接続をハードウェアに最適化できることを示す。 ネットワークが学習するためにはネットワークのスキップ接続が必要であるが、その接続は後に削除または短縮され、精度の低下を最小限に抑えることなく、よりハードウェア効率の良い実装を提供することができる。 ハードウェアアウェアトレーニングアルゴリズムは、ハードウェアコストを下げるために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮する。 Tailorは、BRAMで最大34%、FFで13%、オンチップでデータフロースタイルのアーキテクチャで16%のリソース利用を改善する。 Tailorはパフォーマンスを30%向上し、2D処理要素配列アーキテクチャではメモリ帯域幅を45%削減する。

Deep neural networks use skip connections to improve training convergence. However, these skip connections are costly in hardware, requiring extra buffers and increasing on- and off-chip memory utilization and bandwidth requirements. In this paper, we show that skip connections can be optimized for hardware when tackled with a hardware-software codesign approach. We argue that while a network's skip connections are needed for the network to learn, they can later be removed or shortened to provide a more hardware efficient implementation with minimal to no accuracy loss. We introduce Tailor, a codesign tool whose hardware-aware training algorithm gradually removes or shortens a fully trained network's skip connections to lower their hardware cost. Tailor improves resource utilization by up to 34% for BRAMs, 13% for FFs, and 16% for LUTs for on-chip, dataflow-style architectures. Tailor increases performance by 30% and reduces memory bandwidth by 45% for a 2D processing element array architecture.
翻訳日:2023-09-20 01:00:36 公開日:2023-09-15
# 低反射率物体検出のための偏光パス1光子を用いた量子照明

Quantum illumination using polarization-path entangled single photons for low reflectivity object detection in noisy background ( http://arxiv.org/abs/2303.05218v2 )

ライセンス: Link先を確認
K. Muhammed Shafi, A. Padhye, C. M. Chandrashekar(参考訳) ノイズの多い背景の中に低反射率で物体を検出することは難しい課題である。 光の量子状態の対間の量子相関は、背景雑音や損失に非常に敏感であるが、従来の照明法よりも有利である。 感度の高い相関光子対を用いる代わりに、偏光と量子照明の自由度に絡み合ったヘラルド単光子を用いる利点を実験的に証明した。 この研究では、異なる反射率の物体は、結合測定を行い量子相関を計算する前に、可変温度背景における信号の経路に沿って置かれる。 信号対雑音比が0.03以下であっても、背景雑音から信号を分離し、低反射率オブジェクトを検出・レンジする上で、単光子に対する多重経路に沿って非干渉計測を用いることによる大きな利点を示す。 信号経路に沿った偏光の可視性の低下も同様の観察結果をもたらす。 これは単一光子ベースの量子ライダーや量子イメージングの開発に直接関係している。

Detecting object with low reflectivity embedded within a noisy background is a challenging task. Quantum correlations between pairs of quantum states of light, though are highly sensitive to background noise and losses, offer advantages over traditional illumination methods. Instead of using correlated photon pairs which are sensitive, we experimentally demonstrate the advantage of using heralded single-photons entangled in polarization and path degree of freedom for quantum illumination. In the study, the object of different reflectivity is placed along the path of the signal in a variable thermal background before taking the joint measurements and calculating the quantum correlations. We show the significant advantage of using non-interferometric measurements along the multiple paths for single photon to isolate the signal from the background noise and outperform in detecting and ranging the low reflectivity objects even when the signal-to-noise ratio is as low as 0.03. Decrease in visibility of polarization along the signal path also results in similar observations. This will have direct relevance to the development of single-photon based quantum LiDAR and quantum imaging.
翻訳日:2023-09-20 00:41:40 公開日:2023-09-15
# context net: 気胸のセグメンテーションのためのマルチモーダル視覚言語モデル

ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax ( http://arxiv.org/abs/2303.01615v2 )

ライセンス: Link先を確認
Zachary Huemann, Xin Tie, Junjie Hu, Tyler J. Bradshaw(参考訳) 放射線学の物語は、その位置、大きさ、形状を含む患者の病気の特徴をしばしば記述している。 マルチモーダル学習の最近の成功に動機づけられ、この記述テキストは医用画像解析アルゴリズムを導くことができると仮定した。 胸部x線写真における気胸セグメンテーションの課題として,新しい視覚言語モデルcontextual netを提案した。 ConTEXTual Netは、事前訓練された言語モデルを用いて、対応する自由形放射線学レポートから抽出された言語特徴を利用する。 クロスアテンションモジュールは、各視覚エンコーダ層の中間出力と、言語モデルによって生成されたテキスト埋め込みを組み合わせるように設計されている。 ConTEXTual NetはCANDID-PTXデータセットを用いて6名の医師のセグメンテーションアノテーションと臨床放射線検査で3,196例の気胸を認めた。 クロスバリデーションを用いて、コンテクストネットは0.716$\pm$0.016というサイススコアを達成し、これはデータのサブセット上で計算されるリーダー間変動度(0.712$\pm$0.044)と類似した。 ビジョンのみのモデル(ResNet50 U-Net: 0.677$\pm$0.015 と GLoRIA: 0.686$\pm$0.014)と競合するビジョン言語モデル(LAVT: 0.706$\pm$0.009)の両方を上回った。 アブレーション研究は、パフォーマンス向上につながったのはテキスト情報であることを確認した。 さらに,画像テキストの一致を破ることで,ConTEXTual Netのセグメンテーション性能を劣化させる手法も示した。 また、クロスアテンションモジュールにおける異なる言語モデルとアクティベーション関数の使用の効果を評価し、選択したアーキテクチャ設計の有効性を強調した。

Radiology narrative reports often describe characteristics of a patient's disease, including its location, size, and shape. Motivated by the recent success of multimodal learning, we hypothesized that this descriptive text could guide medical image analysis algorithms. We proposed a novel vision-language model, ConTEXTual Net, for the task of pneumothorax segmentation on chest radiographs. ConTEXTual Net utilizes language features extracted from corresponding free-form radiology reports using a pre-trained language model. Cross-attention modules are designed to combine the intermediate output of each vision encoder layer and the text embeddings generated by the language model. ConTEXTual Net was trained on the CANDID-PTX dataset consisting of 3,196 positive cases of pneumothorax with segmentation annotations from 6 different physicians as well as clinical radiology reports. Using cross-validation, ConTEXTual Net achieved a Dice score of 0.716$\pm$0.016, which was similar to the degree of inter-reader variability (0.712$\pm$0.044) computed on a subset of the data. It outperformed both vision-only models (ResNet50 U-Net: 0.677$\pm$0.015 and GLoRIA: 0.686$\pm$0.014) and a competing vision-language model (LAVT: 0.706$\pm$0.009). Ablation studies confirmed that it was the text information that led to the performance gains. Additionally, we show that certain augmentation methods degraded ConTEXTual Net's segmentation performance by breaking the image-text concordance. We also evaluated the effects of using different language models and activation functions in the cross-attention module, highlighting the efficacy of our chosen architectural design.
翻訳日:2023-09-20 00:40:48 公開日:2023-09-15
# Barrier-Lyapunov Actor-Critic アプローチによる安定かつ安全な強化学習

Stable and Safe Reinforcement Learning via a Barrier-Lyapunov Actor-Critic Approach ( http://arxiv.org/abs/2304.04066v2 )

ライセンス: Link先を確認
Liqun Zhao, Konstantinos Gatsis, Antonis Papachristodoulou(参考訳) 強化学習(rl)はビデオゲームやロボティクスといった様々な分野で印象的なパフォーマンスを示している。 しかしながら、制御の観点からは2つの重要な特性である安全性と安定性を確保することは、現実のシステムを制御するためにrlを使用する場合の大きな課題である。 本稿では、まず、RLシステムの安全性と安定性を定義し、次に制御バリア関数(CBF)と制御リアプノフ関数(CLF)をRLのアクター・クリティカルな手法と組み合わせ、前述の安全性と安定性を維持するためのバリア・リャプノフ・アクター・クリティカル(BLAC)フレームワークを提案する。 このフレームワークでは、リプレイバッファからサンプリングされたデータに基づいて安全のためのcbf制約と安定性のためのclf制約を構築し、rlベースのコントローラのパラメータを更新するために拡張ラグランジアン法を用いる。 さらに、安全性と安定性の制約を同時に満たさない場合に、RLベースのコントローラが有効な制御信号を提供できない場合に、追加のバックアップコントローラを導入する。 シミュレーションの結果、このフレームワークはシステムが望ましい状態に近づくのに役立ち、ベースラインアルゴリズムと比較して安全性制約の違反が少なくなることを示す。

Reinforcement learning (RL) has demonstrated impressive performance in various areas such as video games and robotics. However, ensuring safety and stability, which are two critical properties from a control perspective, remains a significant challenge when using RL to control real-world systems. In this paper, we first provide definitions of safety and stability for the RL system, and then combine the control barrier function (CBF) and control Lyapunov function (CLF) methods with the actor-critic method in RL to propose a Barrier-Lyapunov Actor-Critic (BLAC) framework which helps maintain the aforementioned safety and stability for the system. In this framework, CBF constraints for safety and CLF constraint for stability are constructed based on the data sampled from the replay buffer, and the augmented Lagrangian method is used to update the parameters of the RL-based controller. Furthermore, an additional backup controller is introduced in case the RL-based controller cannot provide valid control signals when safety and stability constraints cannot be satisfied simultaneously. Simulation results show that this framework yields a controller that can help the system approach the desired state and cause fewer violations of safety constraints compared to baseline algorithms.
翻訳日:2023-09-20 00:20:13 公開日:2023-09-15
# counterfactuals: Counterfactual Explanation MethodsのRパッケージ

counterfactuals: An R Package for Counterfactual Explanation Methods ( http://arxiv.org/abs/2304.06569v2 )

ライセンス: Link先を確認
Susanne Dandl, Andreas Hofheinz, Martin Binder, Bernd Bischl, Giuseppe Casalicchio(参考訳) 反事実説明法は、望ましい予測を得るために個々の観察の特徴値をどのように変更する必要があるかに関する情報を提供する。 研究における提案手法の増大にもかかわらず、インターフェースと要件が広く異なる実装はごくわずかである。 本稿では,R6をベースとしたモジュール型・統一インタフェースを実装した反ファクト的Rパッケージを提案する。 提案手法は,既存手法を3つ実装し,これらの手法を異なるシナリオに一般化し,それと同等にするために,オプションの方法論拡張を提案する。 本稿では,パッケージの構造とワークフローを実際のユースケースを用いて説明し,パッケージに反事実的説明メソッドを追加する方法を示す。 さらに,実装した手法を様々なモデルやデータセットと比較し,それらの反事実的説明と実行時の動作の質について検討した。

Counterfactual explanation methods provide information on how feature values of individual observations must be changed to obtain a desired prediction. Despite the increasing amount of proposed methods in research, only a few implementations exist whose interfaces and requirements vary widely. In this work, we introduce the counterfactuals R package, which provides a modular and unified R6-based interface for counterfactual explanation methods. We implemented three existing counterfactual explanation methods and propose some optional methodological extensions to generalize these methods to different scenarios and to make them more comparable. We explain the structure and workflow of the package using real use cases and show how to integrate additional counterfactual explanation methods into the package. In addition, we compared the implemented methods for a variety of models and datasets with regard to the quality of their counterfactual explanations and their runtime behavior.
翻訳日:2023-09-20 00:07:51 公開日:2023-09-15
# 中性原子量子コンピューティングハードウェア:パフォーマンスとエンドユーザー展望

Neutral Atom Quantum Computing Hardware: Performance and End-User Perspective ( http://arxiv.org/abs/2304.14360v3 )

ライセンス: Link先を確認
Karen Wintersperger, Florian Dommert, Thomas Ehmer, Andrey Hoursanov, Johannes Klepsch, Wolfgang Mauerer, Georg Reuber, Thomas Strohm, Ming Yin and Sebastian Luber(参考訳) 我々は、量子コンピューティングハードウェアの現状に関する産業用エンドユーザー視点を、特定の技術的アプローチである中性原子プラットフォームに対して提示する。 当社の目標は、開発者がこれらのデバイスの特定の特性がアルゴリズム実行の有効性に与える影響を理解するのを支援することです。 異なるベンダーとの議論と最近の文献に基づき、中立なatomプラットフォームのパフォーマンスデータについて論じる。 具体的には、物理キュービットアーキテクチャに注目し、状態準備、キュービット間接続、ゲートフィパリティ、ネイティブゲート命令セット、個々のキュービット安定性に影響を及ぼす。 これらの要因は、エンドユーザーに関連する量子部品の実行時間とエンドツーエンドの壁時計時間の両方を決定するだけでなく、将来フォールトトレラントな量子計算を行う能力も決定する。 最後に、中性原子ベースの量子コンピュータの特異な性質によく適合するアプリケーションが示されていることを概観する。

We present an industrial end-user perspective on the current state of quantum computing hardware for one specific technological approach, the neutral atom platform. Our aim is to assist developers in understanding the impact of the specific properties of these devices on the effectiveness of algorithm execution. Based on discussions with different vendors and recent literature, we discuss the performance data of the neutral atom platform. Specifically, we focus on the physical qubit architecture, which affects state preparation, qubit-to-qubit connectivity, gate fidelities, native gate instruction set, and individual qubit stability. These factors determine both the quantum-part execution time and the end-to-end wall clock time relevant for end-users, but also the ability to perform fault-tolerant quantum computation in the future. We end with an overview of which applications have been shown to be well suited for the peculiar properties of neutral atom-based quantum computers.
翻訳日:2023-09-19 23:59:37 公開日:2023-09-15
# 動的コーパスの連続的更新

Continually Updating Generative Retrieval on Dynamic Corpora ( http://arxiv.org/abs/2305.18952v2 )

ライセンス: Link先を確認
Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo(参考訳) 情報検索(IR)に関する先行研究の大半は、コーパスが静的であると仮定しているが、実際の世界では、文書は継続的に更新される。 本稿では,しばしば見過ごされる知識の動的な性質を検索システムに組み込む。 我々の研究は、検索を静的アーカイブとしてではなく、動的知識ベースとして現実世界の環境に適合させるものとして扱う。 我々は,時系列知識更新用に設計されたstreamingqaベンチマークを用いて,デュアルエンコーダと生成的検索の包括的評価を行う。 生成的検索は静的な環境ではデュアルエンコーダよりも優れているが,動的設定では逆である。 しかし,新しいコーパスに対する生成検索の適応性を高めるためにパラメータ効率のよい事前学習法を用いると,得られたモデルであるDynamic Generative Retrieval (DynamicGR) が予期せぬ結果を示した。 1) 内部インデックスにおける新しい知識を効率よく圧縮し、完全にパラメトリックなアーキテクチャのために顕著なストレージ容量を実現し、(2) 静的な設定だけでなく、5%のマージンを持つ動的シナリオでも2つのエンコーダを上回り、4倍のトレーニング時間を必要とする。

The majority of prior work on information retrieval (IR) assumes that the corpus is static, whereas in the real world, the documents are continually updated. In this paper, we incorporate often overlooked dynamic nature of knowledge into the retrieval systems. Our work treats retrieval not as static archives but as dynamic knowledge bases better aligned with real-world environments. We conduct a comprehensive evaluation of dual encoders and generative retrieval, utilizing the StreamingQA benchmark designed for the temporal knowledge updates. Our initial results show that while generative retrieval outperforms dual encoders in static settings, the opposite is true in dynamic settings. Surprisingly, however, when we utilize a parameter-efficient pre-training method to enhance adaptability of generative retrieval to new corpora, our resulting model, Dynamic Generative Retrieval (DynamicGR), exhibits unexpected findings. It (1) efficiently compresses new knowledge in their internal index, attaining a remarkable storage capacity due to its fully parametric architecture and (2) outperforms dual encoders not only in static settings but in dynamic scenarios with a 5% margin in hit@5, requiring 4 times less training time.
翻訳日:2023-09-19 23:39:06 公開日:2023-09-15
# 物理インフォームド強化学習によるゼロショット無線屋内ナビゲーション

Zero-Shot Wireless Indoor Navigation through Physics-Informed Reinforcement Learning ( http://arxiv.org/abs/2306.06766v2 )

ライセンス: Link先を確認
Mingsheng Yin, Tao Li, Haozhe Lei, Yaqi Hu, Sundeep Rangan, and Quanyan Zhu(参考訳) 無線信号を利用した屋内ロボットナビゲーションへの注目の高まりは、これらの信号が高分解能の角・時間計測を捉える能力に起因している。 従来のヒューリスティックな手法は無線周波数の伝搬に基づいており、単純なシナリオで直観的かつ一般化可能であるが、複雑な環境ではナビゲートできない。 一方、先進的なコンピュータ機械によって駆動されるエンド・ツー・エンド(e2e)深部強化学習(RL)は、状態空間全体を探索し、複雑な無線環境に直面すると驚くべきパフォーマンスをもたらす。 しかし、費用は天文学的なトレーニングサンプルの量であり、結果として得られるポリシーは、微調整なしに(ゼロショット)、訓練段階では見当たらない新しいシナリオで効率的にナビゲートできない。 ナビゲーションエージェントにサンプル効率のよい学習と{zero-shot}一般化を導入するため、本研究では、目標間距離(e2e標準)のコストを、物理学のインセンティブシェーピングによって拡張する、新しい物理インフォーメーションrl(pirl)を提案する。 鍵となるのは、ワイヤレス環境はさまざまだが、物理法則は続いていることだ。 物理情報を活用することを学ぶと、エージェントはこの知識を異なるタスク間で伝達し、微調整なしで未知の環境でナビゲートすることができる。 提案したPIRLは,電磁波の電磁放射シミュレーションを付加したAI Habitatデータセットから,屋内環境の大規模シミュレーションに基づいて構築された無線デジタルツイン(WDT)を用いて評価する。 PIRLは、一般化と性能の観点から、e2e RLとヒューリスティックベースのソリューションの両方を著しく上回っている。 ソースコードは \url{https://github.com/Panshark/PIRL-WIN} で入手できる。

The growing focus on indoor robot navigation utilizing wireless signals has stemmed from the capability of these signals to capture high-resolution angular and temporal measurements. Prior heuristic-based methods, based on radio frequency propagation, are intuitive and generalizable across simple scenarios, yet fail to navigate in complex environments. On the other hand, end-to-end (e2e) deep reinforcement learning (RL), powered by advanced computing machinery, can explore the entire state space, delivering surprising performance when facing complex wireless environments. However, the price to pay is the astronomical amount of training samples, and the resulting policy, without fine-tuning (zero-shot), is unable to navigate efficiently in new scenarios unseen in the training phase. To equip the navigation agent with sample-efficient learning and {zero-shot} generalization, this work proposes a novel physics-informed RL (PIRL) where a distance-to-target-based cost (standard in e2e) is augmented with physics-informed reward shaping. The key intuition is that wireless environments vary, but physics laws persist. After learning to utilize the physics information, the agent can transfer this knowledge across different tasks and navigate in an unknown environment without fine-tuning. The proposed PIRL is evaluated using a wireless digital twin (WDT) built upon simulations of a large class of indoor environments from the AI Habitat dataset augmented with electromagnetic (EM) radiation simulation for wireless signals. It is shown that the PIRL significantly outperforms both e2e RL and heuristic-based solutions in terms of generalization and performance. Source code is available at \url{https://github.com/Panshark/PIRL-WIN}.
翻訳日:2023-09-19 23:27:29 公開日:2023-09-15
# 弱監視型医用画像分割のための条件拡散モデル

Conditional Diffusion Models for Weakly Supervised Medical Image Segmentation ( http://arxiv.org/abs/2306.03878v2 )

ライセンス: Link先を確認
Xinrong Hu, Yu-Jen Chen, Tsung-Yi Ho, and Yiyu Shi(参考訳) 近年の拡散確率モデルの普及は画像合成タスクにおいて大きな成功を収めている。 イメージセマンティクスセグメンテーションにおけるこの強力なツールの可能性を探求する作業はすでに存在するが、弱い教師付きセマンティクスセグメンテーション(wsss)におけるその応用は、比較的未検討のままである。 条件拡散モデル(cdm)が特定の分布に属する画像を生成することができることを観察し、本研究では、cdmに依拠するカテゴリ認識意味情報を用いて、画像レベルのアノテーションのみを用いて対象オブジェクトの予測マスクを得る。 具体的には、入力条件に対してCDMの出力の微分を近似することで、所望のクラスを見つける。 本手法は, 復元過程において背景雑音を蓄積する外部分類器からの指導により, 従来の拡散モデル手法とは異なる。 本手法は,2つの医用画像セグメンテーションデータセット上で,最先端のCAMおよび拡散モデル法より優れており,CDMがWSSSにおいて有望なツールであることを示す。 また,本手法は既存の拡散モデル法よりも時間効率が良く,より広い用途に適用できることを示した。

Recent advances in denoising diffusion probabilistic models have shown great success in image synthesis tasks. While there are already works exploring the potential of this powerful tool in image semantic segmentation, its application in weakly supervised semantic segmentation (WSSS) remains relatively under-explored. Observing that conditional diffusion models (CDM) is capable of generating images subject to specific distributions, in this work, we utilize category-aware semantic information underlied in CDM to get the prediction mask of the target object with only image-level annotations. More specifically, we locate the desired class by approximating the derivative of the output of CDM w.r.t the input condition. Our method is different from previous diffusion model methods with guidance from an external classifier, which accumulates noises in the background during the reconstruction process. Our method outperforms state-of-the-art CAM and diffusion model methods on two public medical image segmentation datasets, which demonstrates that CDM is a promising tool in WSSS. Also, experiment shows our method is more time-efficient than existing diffusion model methods, making it practical for wider applications.
翻訳日:2023-09-19 23:26:35 公開日:2023-09-15
# オープンワールドテキスト指定オブジェクトカウント

Open-world Text-specified Object Counting ( http://arxiv.org/abs/2306.01851v2 )

ライセンス: Link先を確認
Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman(参考訳) 我々の目標は、対象のオブジェクトクラスがテキスト記述によって指定される、画像中のオープンワールドオブジェクトカウントである。 そこで本研究では,事前学習されたジョイントテキスト画像表現の上に,トランスデコーダカウントヘッドを用いた,クラスに依存しない単段モデルcountxを提案する。 CounTXは、対象のオブジェクトクラスのイメージとテキスト記述のみを与えられたクラスのインスタンス数をカウントすることができ、エンドツーエンドでトレーニングすることができる。 このモデルに加えて、以下の貢献をしている。 (i)CounTXの性能とオープンワールドオブジェクトカウントの先行研究を比較し,本手法がタスク指定にテキストを使用する手法について,FSC-147ベンチマークのすべての指標において,その手法が技術状況を上回ることを示す。 (II) FSC-147-D はテキスト記述付き FSC-147 の拡張版であり,単純なクラス名よりも詳細な言語で記述できる。 fsc-147-dとコードはhttps://www.robots.ox.ac.uk/~vgg/research/countxで入手できる。

Our objective is open-world object counting in images, where the target object class is specified by a text description. To this end, we propose CounTX, a class-agnostic, single-stage model using a transformer decoder counting head on top of pre-trained joint text-image representations. CounTX is able to count the number of instances of any class given only an image and a text description of the target object class, and can be trained end-to-end. In addition to this model, we make the following contributions: (i) we compare the performance of CounTX to prior work on open-world object counting, and show that our approach exceeds the state of the art on all measures on the FSC-147 benchmark for methods that use text to specify the task; (ii) we present and release FSC-147-D, an enhanced version of FSC-147 with text descriptions, so that object classes can be described with more detailed language than their simple class names. FSC-147-D and the code are available at https://www.robots.ox.ac.uk/~vgg/research/countx.
翻訳日:2023-09-19 23:25:46 公開日:2023-09-15
# 自己教師付き表現学習による視覚局所化

Visual Geo-localization with Self-supervised Representation Learning ( http://arxiv.org/abs/2308.00090v2 )

ライセンス: Link先を確認
Jiuhong Xiao, Gao Zhu and Giuseppe Loianno(参考訳) visual geo-localization (vg) が重要な研究領域として登場し、視覚的特徴に基づく位置情報の特定を目指している。 ほとんどのVGアプローチは、表現学習に学習可能な特徴抽出器を使用する。 近年,自己監視学習(SSL)手法は,多数の未ラベル画像を用いて教師付き手法に匹敵する性能を示した。 本研究では,SSL方式による大規模VGデータセットの性能向上とトレーニングの効率化を目的とした,新しい統合VG-SSLフレームワークを提案する。 我々の作業には、VG用に調整された複数のSSLメソッド、SimCLR、MoCov2、BYOL、SimSiam、Barlow Twins、VICRegが組み込まれています。 本稿では,異なるトレーニング戦略の性能を体系的に分析し,VGタスクに対するSSLメソッドの適応のための最適パラメータ設定について検討する。 その結果,HNM(Hard Negative Mining)に付随する計算量やメモリ使用量を用いなくても,HNMを用いたベースラインのVG性能にマッチしたり,超えたりできることがわかった。 コードはhttps://github.com/arplaboratory/vg_sslで入手できる。

Visual Geo-localization (VG) has emerged as a significant research area, aiming to identify geolocation based on visual features. Most VG approaches use learnable feature extractors for representation learning. Recently, Self-Supervised Learning (SSL) methods have also demonstrated comparable performance to supervised methods by using numerous unlabeled images for representation learning. In this work, we present a novel unified VG-SSL framework with the goal to enhance performance and training efficiency on a large VG dataset by SSL methods. Our work incorporates multiple SSL methods tailored for VG: SimCLR, MoCov2, BYOL, SimSiam, Barlow Twins, and VICReg. We systematically analyze the performance of different training strategies and study the optimal parameter settings for the adaptation of SSL methods for the VG task. The results demonstrate that our method, without the significant computation and memory usage associated with Hard Negative Mining (HNM), can match or even surpass the VG performance of the baseline that employs HNM. The code is available at https://github.com/arplaboratory/VG_SSL.
翻訳日:2023-09-19 22:59:35 公開日:2023-09-15
# 機械学習モデルの局所的ロバストネスの効率的な推定

Efficient Estimation of the Local Robustness of Machine Learning Models ( http://arxiv.org/abs/2307.13885v2 )

ライセンス: Link先を確認
Tessa Han, Suraj Srinivas, Himabindu Lakkaraju(参考訳) 機械学習モデルは、しばしばノイズの多い入力データに対して堅牢である必要がある。 実世界のノイズ(測定ノイズなど)はしばしばランダムであり、そのようなノイズがモデル予測に及ぼす影響はモデルの局所的頑健性、すなわち入力周辺の局所領域におけるモデル予測の一貫性によって捉えられる。 したがって、局所ロバスト性は実世界のモデル行動の重要な特徴であり、モデルのデバッギングやユーザ信頼の確立に有用である。 しかし、モンテカルロサンプリングに基づく局所ロバストネスの「計算」アプローチは、特に高次元データでは統計的に非効率的であり、大規模アプリケーションでは計算コストが禁じられている。 本研究では,マルチクラス判別モデルの局所ロバスト性を効率的に計算する最初の解析的推定器を開発する。 これらの推定器は入力周辺の局所領域のモデルを線形化し、多変量正規累積分布関数を用いてモデルの局所ロバスト性を計算する。 これらの推定器の導出を通じて,局所的ロバスト性がランダム化平滑化やソフトマックス確率といった概念とどのように結びついているかを示す。 さらに,これらの推定器が,標準ディープラーニングモデルの局所的ロバストネスを効率的に計算し,ロバスト性バイアスの測定やデータセットのノイズ摂動に弱い例の同定など,局所的ロバストネスに関わる様々なタスクにおいて,これらの推定器の有用性を示す。 我々の知る限り、この研究は、マルチクラス設定における局所ロバスト性を調査し、局所ロバスト性に対する効率的な解析的推定器を開発する最初のものである。 これにより、局所ロバスト性の概念的理解を深めるだけでなく、その計算を実用的なものにし、臨界下流アプリケーションにおける局所ロバスト性の利用を可能にする。

Machine learning models often need to be robust to noisy input data. Real-world noise (such as measurement noise) is often random and the effect of such noise on model predictions is captured by a model's local robustness, i.e., the consistency of model predictions in a local region around an input. Local robustness is therefore an important characterization of real-world model behavior and can be useful for debugging models and establishing user trust. However, the na\"ive approach to computing local robustness based on Monte-Carlo sampling is statistically inefficient, especially for high-dimensional data, leading to prohibitive computational costs for large-scale applications. In this work, we develop the first analytical estimators to efficiently compute local robustness of multi-class discriminative models. These estimators linearize models in the local region around an input and compute the model's local robustness using the multivariate Normal cumulative distribution function. Through the derivation of these estimators, we show how local robustness is connected to such concepts as randomized smoothing and softmax probability. In addition, we show empirically that these estimators efficiently compute the local robustness of standard deep learning models and demonstrate these estimators' usefulness for various tasks involving local robustness, such as measuring robustness bias and identifying examples that are vulnerable to noise perturbation in a dataset. To our knowledge, this work is the first to investigate local robustness in a multi-class setting and develop efficient analytical estimators for local robustness. In doing so, this work not only advances the conceptual understanding of local robustness, but also makes its computation practical, enabling the use of local robustness in critical downstream applications.
翻訳日:2023-09-19 22:56:24 公開日:2023-09-15
# コンセプタによる変化点検出

Change Point Detection with Conceptors ( http://arxiv.org/abs/2308.06213v2 )

ライセンス: Link先を確認
Noah D. Gade and Jordan Rodu(参考訳) オフラインの変更点検出は、時系列内の変更点を振り返って特定する。 平均と分散の変化を対象とする多くの非パラメトリックな手法は、非線形時間依存の存在下で失敗し、モデルに基づく手法は既知の剛体構造を必要とする。 最大1つの変更点問題に対して,任意の依存構造を持つベースライントレーニングウィンドウの特性ダイナミクスを学ぶためのコンセプタ行列の利用を提案する。 関連するエコー状態ネットワークは、データの実現者として機能し、変更点を特徴間の相互作用の性質とベースライン状態との関係から識別する。 このモデル非依存法は、さらなる研究を保証できる潜在的な興味のある場所を示唆することができる。 軽微な仮定の下では,本手法は真の変化点を一貫した推定値を提供し,原データの移動ブロックブートストラップにより定量推定値を生成する。 本手法はシミュレーションデータに対するクラスタリング測定値とタイプ1誤差制御を用いて評価し,放射状迷路探索に先立って非REM睡眠を経験したラットの公開神経データに適用した。 十分な間隔で、このフレームワークはスパース、複数変更点問題への単純な拡張を提供する。

Offline change point detection retrospectively locates change points in a time series. Many nonparametric methods that target i.i.d. mean and variance changes fail in the presence of nonlinear temporal dependence, and model based methods require a known, rigid structure. For the at most one change point problem, we propose use of a conceptor matrix to learn the characteristic dynamics of a baseline training window with arbitrary dependence structure. The associated echo state network acts as a featurizer of the data, and change points are identified from the nature of the interactions between the features and their relationship to the baseline state. This model agnostic method can suggest potential locations of interest that warrant further study. We prove that, under mild assumptions, the method provides a consistent estimate of the true change point, and quantile estimates are produced via a moving block bootstrap of the original data. The method is evaluated with clustering metrics and Type 1 error control on simulated data, and applied to publicly available neural data from rats experiencing bouts of non-REM sleep prior to exploration of a radial maze. With sufficient spacing, the framework provides a simple extension to the sparse, multiple change point problem.
翻訳日:2023-09-19 22:48:00 公開日:2023-09-15
# グラフニューラルネットワークはどのように推奨されるか?

How Expressive are Graph Neural Networks in Recommendation? ( http://arxiv.org/abs/2308.11127v3 )

ライセンス: Link先を確認
Xuheng Cai, Lianghao Xia, Xubin Ren, Chao Huang(参考訳) グラフニューラルネットワーク(GNN)は、グラフの協調フィルタリング信号を活用するレコメンデーションを含む、さまざまなグラフ学習タスクにおいて、優れたパフォーマンスを示している。 しかし、その能力の理論的定式化は、最先端のレコメンデータモデルにおける経験的有効性にもかかわらず、ほとんどない。 近年, メッセージパッシングGNNはWeisfeiler-Lehmanテストと同じくらい強力であり, ランダムノードの初期化と組み合わせたGNNは普遍的であることを示す。 それでも、GNNの「表現性」という概念はあいまいに定義されている。 既存のほとんどの作品ではグラフ同型テストが表現力の指標として採用されているが、このグラフレベルのタスクはモデルが推奨する能力を効果的に評価するものではない。 本稿では,グラフ同型(グラフレベル),ノード自己同型(ノードレベル),位相的近接性(リンクレベル)の3段階の表現性指標を考慮して,gnnの表現性に関する総合的な理論的解析を行う。 本稿では,GNNがノード間の構造的距離を捉える能力を評価するための位相的近接度尺度を提案する。 そこで本研究では,提案手法の有効性を検証するために,新しい基準に最適であり,ノードレベルの基準に最適な学習レスgnnアルゴリズムを提案する。 本稿では,提案手法を各種の最先端GNNモデルと比較し,提案課題における新しい指標の説明可能性について検討する。 再現性のために実装コードはhttps://github.com/HKUDS/GTEで公開されている。

Graph Neural Networks (GNNs) have demonstrated superior performance on various graph learning tasks, including recommendation, where they leverage user-item collaborative filtering signals in graphs. However, theoretical formulations of their capability are scarce, despite their empirical effectiveness in state-of-the-art recommender models. Recently, research has explored the expressiveness of GNNs in general, demonstrating that message passing GNNs are at most as powerful as the Weisfeiler-Lehman test, and that GNNs combined with random node initialization are universal. Nevertheless, the concept of "expressiveness" for GNNs remains vaguely defined. Most existing works adopt the graph isomorphism test as the metric of expressiveness, but this graph-level task may not effectively assess a model's ability in recommendation, where the objective is to distinguish nodes of different closeness. In this paper, we provide a comprehensive theoretical analysis of the expressiveness of GNNs in recommendation, considering three levels of expressiveness metrics: graph isomorphism (graph-level), node automorphism (node-level), and topological closeness (link-level). We propose the topological closeness metric to evaluate GNNs' ability to capture the structural distance between nodes, which aligns closely with the objective of recommendation. To validate the effectiveness of this new metric in evaluating recommendation performance, we introduce a learning-less GNN algorithm that is optimal on the new metric and can be optimal on the node-level metric with suitable modification. We conduct extensive experiments comparing the proposed algorithm against various types of state-of-the-art GNN models to explore the explainability of the new metric in the recommendation task. For reproducibility, implementation codes are available at https://github.com/HKUDS/GTE.
翻訳日:2023-09-19 22:38:28 公開日:2023-09-15
# 高性能物体検出に向けて:vitとcnnに基づくディープラーニングモデルを用いたドローン検出からの洞察

Towards a High-Performance Object Detector: Insights from Drone Detection Using ViT and CNN-based Deep Learning Models ( http://arxiv.org/abs/2308.09899v2 )

ライセンス: Link先を確認
Junyang Zhang(参考訳) 正確なドローン検出は、ドローン衝突回避、ドローン防衛、無人無人航空機(UAV)の自律着陸において強く望まれる。 近年のViT(Vision Transformer)の出現により、この重要なタスクは1359枚のドローン写真からなるUAVデータセットを用いて再評価される。 我々は,CNN と ViT をベースとした各種モデルを構築し,単流体検出において,基本型 ViT が最高の CNN ベース転送学習モデルより4.6 倍堅牢であることを示す。 最先端のYou Only Look Once(YOLO v7, 200 epochs)と実験的なViTベースのYou Only Look At One Sequence(YOLOS, 20 epochs)をマルチドローン検出で実装することにより,98%,96%のmAP値が得られた。 最先端のCNN検出器の能力を全面的に超えるためには、ViTはCNNよりも優れていますが、トレーニングデータ、計算能力、高度でパフォーマンス指向な設計も必要です。 将来の研究者がより効率的な深層学習モデルを開発するのを助けるために,vitモデルとcnnモデルの異なる特徴を要約する。

Accurate drone detection is strongly desired in drone collision avoidance, drone defense and autonomous Unmanned Aerial Vehicle (UAV) self-landing. With the recent emergence of the Vision Transformer (ViT), this critical task is reassessed in this paper using a UAV dataset composed of 1359 drone photos. We construct various CNN and ViT-based models, demonstrating that for single-drone detection, a basic ViT can achieve performance 4.6 times more robust than our best CNN-based transfer learning models. By implementing the state-of-the-art You Only Look Once (YOLO v7, 200 epochs) and the experimental ViT-based You Only Look At One Sequence (YOLOS, 20 epochs) in multi-drone detection, we attain impressive 98% and 96% mAP values, respectively. We find that ViT outperforms CNN at the same epoch, but also requires more training data, computational power, and sophisticated, performance-oriented designs to fully surpass the capabilities of cutting-edge CNN detectors. We summarize the distinct characteristics of ViT and CNN models to aid future researchers in developing more efficient deep learning models.
翻訳日:2023-09-19 22:38:00 公開日:2023-09-15
# 量子確率と誕生アンサンブル

Quantum Probability and the Born Ensemble ( http://arxiv.org/abs/2308.07440v2 )

ライセンス: Link先を確認
Themis Matsoukas(参考訳) 我々は、生来の統計量を生み出し、関連するハミルトニアン行列の下でシュル=オディンガー方程式から確率を再現する基本規則を持つ離散二状態確率過程を定式化する。 我々は、ある状態、古典的または量子的状態の観測確率を、その状態における \textit{events} の数に比例して定義する。 量子確率過程は、量子ウォーカーが一対の量子ビットであり、それぞれが観測点までの全ての可能な経路を通して独立に伝達され、その再結合によって正または負の事象が生じる(古典的な事象は否定的ではない)という古典的な過程とは異なる。 我々は、再結合事象の正方行列を介してウォーカーの状態を表し、キュービット状態の不確定性がこの行列の回転に等しいことを示すとともに、ボルンの規則が完全な回転よりも不変であるこの行列上の数 qubits を数えていることを示す。

We formulate a discrete two-state stochastic process with elementary rules that give rise to Born statistics and reproduce the probabilities from the Schr\"odinger equation under an associated Hamiltonian matrix, which we identify. We define the probability to observe a state, classical or quantum, in proportion to the number of \textit{events} at that state--number of ways a walker may materialize at a point of observation at time t through a sequence of transitions starting from known initial state at t=0. The quantum stochastic process differs from its classical counterpart in that the quantum walker is a pair of qubits, each transmitted independently through all possible paths to a point of observation, and whose recombination may produce a positive or negative event (classical events are never negative). We represent the state of the walker via a square matrix of recombination events, show that the indeterminacy of the qubit state amounts to rotations of this matrix, and show that the Born rule counts the number qubits on this matrix that remain invariant over a full rotation.
翻訳日:2023-09-19 22:37:04 公開日:2023-09-15
# 量から品質へ:インストラクションチューニングのための自己ガイドデータ選択によるLCM性能向上

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning ( http://arxiv.org/abs/2308.12032v3 )

ライセンス: Link先を確認
Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, Jing Xiao(参考訳) 大規模言語モデルの領域では、命令データの品質と量とのバランスが焦点となっている。 これを認識し,LLMの自己誘導手法を導入し,大規模なオープンソースデータセットからサクラサンプルを自動識別・選択し,手作業によるキュレーションを最小化し,LLMをチューニングするための潜在的コストを低減する。 私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。 IFDの適応的適用により、サクラサンプルはピンポイント化され、モデルの訓練効率が著しく向上する。 alpacaやwizardlmといった有名なデータセットに対する実証的な検証は、これまでのデータ入力のわずか10%で、結果が改善されています。 この自己誘導チェリーピッキングとIFDメトリックの合成は、LLMの最適化における革新的な飛躍を意味し、効率性と資源意識の進歩を約束する。 コード、データ、モデルは https://github.com/MingLiiii/Cherry_LLM

In the realm of Large Language Models, the balance between instruction data quality and quantity has become a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from vast open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal tool to identify discrepancies between a model's expected responses and its autonomous generation prowess. Through the adept application of IFD, cherry samples are pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on renowned datasets like Alpaca and WizardLM underpin our findings; with a mere 10% of conventional data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the optimization of LLMs, promising both efficiency and resource-conscious advancements. Codes, data, and models are available: https://github.com/MingLiiii/Cherry_LLM
翻訳日:2023-09-19 22:24:44 公開日:2023-09-15
# 領域不定形ガウス過程状態空間モデルによる分布検出の欠如

Out of Distribution Detection via Domain-Informed Gaussian Process State Space Models ( http://arxiv.org/abs/2309.06655v2 )

ライセンス: Link先を確認
Alonso Marco and Elias Morley and Claire J. Tomlin(参考訳) 学習に基づく手法を用いて,ロボットが未知のシナリオを安全にナビゲートするためには,オンラインの訓練外分散(ood)状況を正確に検出することが重要である。 近年,ガウス過程状態空間モデル(GPSSM)は,確率論的予測と比較することにより,予期せぬ観測を識別するのに有用であることが証明されている。 しかし,GPSSMカーネルが表現できる関数のクラスに影響されるため,これらの予測の精度に基づいて,トレーニング中の分布とトレーニング外の分布を正確に区別することができる。 本稿では,本稿で提案する。 (i)カーネルに既存のドメイン知識を埋め込むための新しいアプローチ (ii)receding-horizon予測に基づくoodオンラインランタイムモニタ。 ドメイン知識はデータセットの形式で提供され、シミュレーションまたは名目モデルを使用して収集される。 数値的な結果から、インフォメーションカーネルは、標準カーネル選択と比較して、より小さなデータセットでより優れた回帰品質が得られることが示された。 我々は,OoDモニタが屋内環境をナビゲートする4つの実地における効果を実証した。

In order for robots to safely navigate in unseen scenarios using learning-based methods, it is important to accurately detect out-of-training-distribution (OoD) situations online. Recently, Gaussian process state-space models (GPSSMs) have proven useful to discriminate unexpected observations by comparing them against probabilistic predictions. However, the capability for the model to correctly distinguish between in- and out-of-training distribution observations hinges on the accuracy of these predictions, primarily affected by the class of functions the GPSSM kernel can represent. In this paper, we propose (i) a novel approach to embed existing domain knowledge in the kernel and (ii) an OoD online runtime monitor, based on receding-horizon predictions. Domain knowledge is provided in the form of a dataset, collected either in simulation or by using a nominal model. Numerical results show that the informed kernel yields better regression quality with smaller datasets, as compared to standard kernel choices. We demonstrate the effectiveness of the OoD monitor on a real quadruped navigating an indoor setting, which reliably classifies previously unseen terrains.
翻訳日:2023-09-19 21:56:00 公開日:2023-09-15
# エンティティスワップによるテーブル上の敵攻撃

Adversarial Attacks on Tables with Entity Swap ( http://arxiv.org/abs/2309.08650v1 )

ライセンス: Link先を確認
Aneta Koleva, Martin Ringsquandl and Volker Tresp(参考訳) 大規模言語モデル(LLM)の能力は表表現学習の文脈でうまく応用されている。 最近提案された表型言語モデルは、テーブル解釈のための様々なタスクで最新の結果が報告されている。 しかしながら、一般的に評価に使用されるデータセットを詳しく調べると、テストセットに設定された列車からのエンティティリークが明らかになる。 この観察により、より現実的な推論設定を示す敵攻撃を探索する。 テキストに対する敵対攻撃はLLMの性能に大きな影響を与えることが示されているが、現在、表型言語モデルをターゲットにした攻撃はない。 本稿では,カラム型アノテーション(cta)タスクに対する回避可能なエンティティスワップ攻撃を提案する。 我々のCTA攻撃はテーブルに対する最初のブラックボックス攻撃であり、類似性に基づくサンプリング戦略を用いて敵の例を生成する。 実験の結果,提案した攻撃は最大70%の性能低下を示すことがわかった。

The capabilities of large language models (LLMs) have been successfully applied in the context of table representation learning. The recently proposed tabular language models have reported state-of-the-art results across various tasks for table interpretation. However, a closer look into the datasets commonly used for evaluation reveals an entity leakage from the train set into the test set. Motivated by this observation, we explore adversarial attacks that represent a more realistic inference setup. Adversarial attacks on text have been shown to greatly affect the performance of LLMs, but currently, there are no attacks targeting tabular language models. In this paper, we propose an evasive entity-swap attack for the column type annotation (CTA) task. Our CTA attack is the first black-box attack on tables, where we employ a similarity-based sampling strategy to generate adversarial examples. The experimental results show that the proposed attack generates up to a 70% drop in performance.
翻訳日:2023-09-19 20:14:34 公開日:2023-09-15
# マシンビジョンによるファインホール内面検査技術

An inspection technology of inner surface of the fine hole based on machine vision ( http://arxiv.org/abs/2309.08649v1 )

ライセンス: Link先を確認
Rongfang He and Weibin Zhang and Guofang Gao(参考訳) ファインホールは産業用部品の重要な構造成分であり, その内面品質は機能と密接な関係があり, ファインホールの内面の質を検出するために, 特殊な光学計測システムについて検討した。 透視管を用いて、外部照明光を微細な穴に誘導し、関連する画像を同時に出力する。 狭い空間に合うようにフレキシブルな光アレイを導入し、有効視野の解析を行う。 さらに、装置のアーク面投影誤差と製造組立誤差を分析し、十分な小さければ補償または無視する。 直径 {\phi}0.1mm, {\phi}0.2mm, {\phi}0.2mm, 距離 0.4mm, 幅0.3mmの断裂試験において, 最大測定誤差標準偏差は約10{\mu}mである。 測定された微細孔の最小径は4mmであり、深さは47mmに達する。

Fine holes are an important structural component of industrial components, and their inner surface quality is closely related to their function.In order to detect the quality of the inner surface of the fine hole,a special optical measurement system was investigated in this paper. A sight pipe is employed to guide the external illumination light into the fine hole and output the relevant images simultaneously. A flexible light array is introduced to suit the narrow space, and the effective field of view is analyzed. Besides, the arc surface projection error and manufacturing assembly error of the device are analyzed, then compensated or ignored if small enough. In the test of prefabricated circular defects with the diameter {\phi}0.1mm, {\phi}0.2mm, 0.4mm distance distribution and the fissure defects with the width 0.3mm, the maximum measurement error standard deviation are all about 10{\mu}m. The minimum diameter of the measured fine hole is 4mm and the depth can reach 47mm.
翻訳日:2023-09-19 20:14:21 公開日:2023-09-15
# maple: 大きな言語モデルを埋め込んだモバイルアプリの予測

MAPLE: Mobile App Prediction Leveraging Large Language model Embeddings ( http://arxiv.org/abs/2309.08648v1 )

ライセンス: Link先を確認
Yonchanok Khaokaew, Hao Xue, Flora D. Salim(参考訳) モバイルアプリの急速な進歩にもかかわらず、アプリの使用率の予測は、ユーザーの複雑な振る舞いと進化し続けるコンテキストによって、依然として大きな課題である。 これらの問題に対処するため,本稿では,大規模言語モデル埋め込み(MAPLE)モデルを活用したモバイルアプリ予測を提案する。 この革新的なアプローチは、アプリケーション使用率を正確に予測するために、LLM(Large Language Models)を使用する。 2つの公開データセットの厳密なテストは、複雑なパターンを解読し、ユーザコンテキストを理解するMAPLEの機能を強調している。 これらの堅牢な結果は、様々なシナリオにおけるMAPLEの汎用性とレジリエンスを確認します。 主な設計はアプリの予測に当てはまるが、結果はまた異なるドメインにおけるllmの幅広い適用性を強調している。 本研究では,アプリケーション利用予測におけるLLMの可能性を強調し,多分野にわたる人間の振る舞いをモデル化する上で,その変換能力を提案する。

Despite the rapid advancement of mobile applications, predicting app usage remains a formidable challenge due to intricate user behaviours and ever-evolving contexts. To address these issues, this paper introduces the Mobile App Prediction Leveraging Large Language Model Embeddings (MAPLE) model. This innovative approach utilizes Large Language Models (LLMs) to predict app usage accurately. Rigorous testing on two public datasets highlights MAPLE's capability to decipher intricate patterns and comprehend user contexts. These robust results confirm MAPLE's versatility and resilience across various scenarios. While its primary design caters to app prediction, the outcomes also emphasize the broader applicability of LLMs in different domains. Through this research, we emphasize the potential of LLMs in app usage prediction and suggest their transformative capacity in modelling human behaviours across diverse fields.
翻訳日:2023-09-19 20:14:04 公開日:2023-09-15
# 大規模インテント検出:関連するインテントを用いたジェネリックモデルのチューニング

Intent Detection at Scale: Tuning a Generic Model using Relevant Intents ( http://arxiv.org/abs/2309.08647v1 )

ライセンス: Link先を確認
Nichal Narotamo, David Aparicio, Tiago Mesquita, Mariana Almeida(参考訳) 顧客サポート要求の意図を正確に予測することは、効率的なサポートシステムにとって不可欠である。 意図の検出には異なるアプローチが存在するが、クライアントベースが拡大するにつれて、別のクライアント特化モデルや業界特化モデルを維持することはコストがかかる。 本研究は,単一のジェネリックモデルとクライアント毎のインテントリストを組み合わせることで,インテント予測を様々なクライアントに効果的に拡張するシステムを提案する。 私たちのアプローチは、クライアントにパーソナライズされたエクスペリエンスを提供しながら、トレーニングとメンテナンスのコストを最小化し、関連するインテントの変更に対するシームレスな適応を可能にします。 さらに,本研究では,本運用環境におけるクライアント関連意図の変化に対する耐性を示すモデル機能として,クライアント関連意図を使用するための戦略を提案する。 最終システムは、業界固有のモデルに比べて著しく優れたパフォーマンスを示し、柔軟性と多様なクライアントのニーズに対応する能力を示している。

Accurately predicting the intent of customer support requests is vital for efficient support systems, enabling agents to quickly understand messages and prioritize responses accordingly. While different approaches exist for intent detection, maintaining separate client-specific or industry-specific models can be costly and impractical as the client base expands. This work proposes a system to scale intent predictions to various clients effectively, by combining a single generic model with a per-client list of relevant intents. Our approach minimizes training and maintenance costs while providing a personalized experience for clients, allowing for seamless adaptation to changes in their relevant intents. Furthermore, we propose a strategy for using the clients relevant intents as model features that proves to be resilient to changes in the relevant intents of clients -- a common occurrence in production environments. The final system exhibits significantly superior performance compared to industry-specific models, showcasing its flexibility and ability to cater to diverse client needs.
翻訳日:2023-09-19 20:13:51 公開日:2023-09-15
# Collinear Constrained Attentionによるトランスフォーマーの頭痛の改善

Cure the headache of Transformers via Collinear Constrained Attention ( http://arxiv.org/abs/2309.08646v1 )

ライセンス: Link先を確認
Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li(参考訳) 大規模言語モデルに基づく実用アプリケーションの急速な進歩に伴い,研究領域において外挿性能の重要性が指数関数的に増大している。 本研究では,これまで見過ごされていたトランスフォーマーモデルにおける異常な挙動を特定し,最も重要な情報を伝達する最も近いトークンを取り巻くカオスに繋がった。 われわれはこの発見を「トランスフォーマーの頭」と呼んだ。 この問題に対処するため,コリニア制約注意(CoCA)という新たな自己注意構造を導入した。 この構造は、従来のトランスフォーマーモデル用に設計された既存の外挿法、補間法、その他の最適化戦略とシームレスに統合することができる。 モデルを微調整することなく,推定中に16倍から24倍のシーケンス長でも優れた補間性能を達成できた。 また,その実用性を確保するため,CoCAの計算効率と空間効率を向上した。 近いうちにCoCAをオープンソース化する予定です。 その間に、実験を再開するために、私たちのコードを付録で利用可能にしました。

As the rapid progression of practical applications based on Large Language Models continues, the importance of extrapolating performance has grown exponentially in the research domain. In our study, we identified an anomalous behavior in Transformer models that had been previously overlooked, leading to a chaos around closest tokens which carried the most important information. We've coined this discovery the "headache of Transformers". To address this at its core, we introduced a novel self-attention structure named Collinear Constrained Attention (CoCA). This structure can be seamlessly integrated with existing extrapolation, interpolation methods, and other optimization strategies designed for traditional Transformer models. We have achieved excellent extrapolating performance even for 16 times to 24 times of sequence lengths during inference without any fine-tuning on our model. We have also enhanced CoCA's computational and spatial efficiency to ensure its practicality. We plan to open-source CoCA shortly. In the meantime, we've made our code available in the appendix for reappearing experiments.
翻訳日:2023-09-19 20:13:34 公開日:2023-09-15
# 野生の単眼映像からのロバスト・スムース3次元マルチパーソンポス推定に向けて

Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular Videos in the Wild ( http://arxiv.org/abs/2309.08644v1 )

ライセンス: Link先を確認
Sungchan Park, Eunyi You, Inhoe Lee, Joonseok Lee(参考訳) 3次元ポーズ推定は、様々な実用的応用を伴うコンピュータビジョンにおいて貴重なタスクである。 特に、単眼ビデオ(3dmppe)から多人数の3dポーズ推定は特に困難であり、まだ未解決のシナリオにはまだ適用されていない。 既存の手法では未解決の3つの問題,訓練中の未確認のビューに対する堅牢性の欠如,オクルージョンに対する脆弱性,そして出力の激しいジッタリングである。 本稿では,3DMPPEの時系列2D-to-3Dリフトモデルの最初の実現法であるPOTR-3Dを提案する。 広範な実験により,提案するモデルとデータ拡張が多様な非知覚ビューにロバストに一般化し,重い咬合に対するポーズをロバストに回復し,より自然でスムースなアウトプットを確実に生成できることを確認した。 本手法の有効性は,公開ベンチマークで最先端のパフォーマンスを実現するだけでなく,より困難な動画における質的結果によって検証される。 デモビデオはhttps://www.youtube.com/@potr3d。

3D pose estimation is an invaluable task in computer vision with various practical applications. Especially, 3D pose estimation for multi-person from a monocular video (3DMPPE) is particularly challenging and is still largely uncharted, far from applying to in-the-wild scenarios yet. We pose three unresolved issues with the existing methods: lack of robustness on unseen views during training, vulnerability to occlusion, and severe jittering in the output. As a remedy, we propose POTR-3D, the first realization of a sequence-to-sequence 2D-to-3D lifting model for 3DMPPE, powered by a novel geometry-aware data augmentation strategy, capable of generating unbounded data with a variety of views while caring about the ground plane and occlusions. Through extensive experiments, we verify that the proposed model and data augmentation robustly generalizes to diverse unseen views, robustly recovers the poses against heavy occlusions, and reliably generates more natural and smoother outputs. The effectiveness of our approach is verified not only by achieving the state-of-the-art performance on public benchmarks, but also by qualitative results on more challenging in-the-wild videos. Demo videos are available at https://www.youtube.com/@potr3d.
翻訳日:2023-09-19 20:13:19 公開日:2023-09-15
# 不確実性下における仮想発電所のリアルタイムエネルギー供給のための確率的オンライン予測最適化フレームワーク

A Stochastic Online Forecast-and-Optimize Framework for Real-Time Energy Dispatch in Virtual Power Plants under Uncertainty ( http://arxiv.org/abs/2309.08642v1 )

ライセンス: Link先を確認
Wei Jiang, Zhongkai Yi, Li Wang, Hanwei Zhang, Jihai Zhang, Fangquan Lin, Cheng Yang(参考訳) 電力系統における分散エネルギー資源の集約は、特に再生可能エネルギー生成の変動に起因する不確実性を大幅に増大させる。 この問題は、長期的な経済と脱炭を確実にするために、不確実性の下で高度な予測制御技術を広く活用する必要性を招いた。 本稿では,2つの要素からなるリアルタイム不確実性を考慮したエネルギー分散フレームワークを提案する。 (i)複数の時間分解能における不確実性推定によってこれら2つの段階が接続される深層学習に基づく予測と確率的最適化の統合による逐次的タスク (II)モデル事前学習とオンライン微調整を併用した効率的なオンラインデータ拡張手法。 このようにして、提案するフレームワークは、リアルタイムデータ分散に迅速に適応し、データドリフト、モデル不一致、制御プロセスの環境摂動による不確実性をターゲットとし、最終的に最適かつロバストなディスパッチソリューションを実現することができる。 提案されたフレームワークはCityLearn Challenge 2022で優勝し、エネルギー領域におけるAIアプリケーションの可能性を調べる影響力のある機会となった。 さらに,スマートビルエネルギー管理の現実シナリオにおいて,その有効性を理解するための総合的な実験を行った。

Aggregating distributed energy resources in power systems significantly increases uncertainties, in particular caused by the fluctuation of renewable energy generation. This issue has driven the necessity of widely exploiting advanced predictive control techniques under uncertainty to ensure long-term economics and decarbonization. In this paper, we propose a real-time uncertainty-aware energy dispatch framework, which is composed of two key elements: (i) A hybrid forecast-and-optimize sequential task, integrating deep learning-based forecasting and stochastic optimization, where these two stages are connected by the uncertainty estimation at multiple temporal resolutions; (ii) An efficient online data augmentation scheme, jointly involving model pre-training and online fine-tuning stages. In this way, the proposed framework is capable to rapidly adapt to the real-time data distribution, as well as to target on uncertainties caused by data drift, model discrepancy and environment perturbations in the control process, and finally to realize an optimal and robust dispatch solution. The proposed framework won the championship in CityLearn Challenge 2022, which provided an influential opportunity to investigate the potential of AI application in the energy domain. In addition, comprehensive experiments are conducted to interpret its effectiveness in the real-life scenario of smart building energy management.
翻訳日:2023-09-19 20:12:56 公開日:2023-09-15
# BANSAC:適応型SAmple Consensusのための動的BAyesian Network

BANSAC: A dynamic BAyesian Network for adaptive SAmple Consensus ( http://arxiv.org/abs/2309.08690v1 )

ライセンス: Link先を確認
Valter Piedade and Pedro Miraldo(参考訳) RANSACベースのアルゴリズムはコンピュータビジョンにおけるロバストな推定の標準手法である。 これらのアルゴリズムは反復的かつ計算的に高価であり、データのランダムサンプリング、仮説の計算、異常数計算とを交互に行う。 多くの著者は効率を改善するために異なるアプローチを試した。 主な改善点の1つは、RANSACサイクルを早く停止させるガイド付きサンプリングを行うことである。 本稿では,RANSACの新しい適応サンプリング法を提案する。 以前の方法は、データポイントの異常値/外れ値の分類に関する事前情報を仮定しないか、サンプリングに計算済みのスコアを使うかのどちらかである。 本稿では、RANSACを反復しながら個々のデータポイントのインレージスコアを更新する動的ベイズネットワークを導出する。 各イテレーションで、更新スコアを使用して重み付けサンプリングを適用します。 本手法は,事前データ点採点の有無に関わらず動作する。 さらに,RANSACループの新しい停止基準を導出するために,更新されたインリア/アウトリアスコアを用いる。 本手法を複数の実世界データセットでテストし,最新の結果を得た。 本手法は,計算時間が少なくとも,精度が向上する。

RANSAC-based algorithms are the standard techniques for robust estimation in computer vision. These algorithms are iterative and computationally expensive; they alternate between random sampling of data, computing hypotheses, and running inlier counting. Many authors tried different approaches to improve efficiency. One of the major improvements is having a guided sampling, letting the RANSAC cycle stop sooner. This paper presents a new adaptive sampling process for RANSAC. Previous methods either assume no prior information about the inlier/outlier classification of data points or use some previously computed scores in the sampling. In this paper, we derive a dynamic Bayesian network that updates individual data points' inlier scores while iterating RANSAC. At each iteration, we apply weighted sampling using the updated scores. Our method works with or without prior data point scorings. In addition, we use the updated inlier/outlier scoring for deriving a new stopping criterion for the RANSAC loop. We test our method in multiple real-world datasets for several applications and obtain state-of-the-art results. Our method outperforms the baselines in accuracy while needing less computational time.
翻訳日:2023-09-19 20:05:31 公開日:2023-09-15
# マルチ周波数駆動光機械システムにおける安定ガウスクラスター状態の生成

Generation of stable Gaussian cluster states in optomechanical systems with multifrequency drives ( http://arxiv.org/abs/2309.08686v1 )

ライセンス: Link先を確認
Nahid Yazdi, Stefano Zippilli, David Vitali(参考訳) 光学系では, 共振器が放射圧によって相互作用し, 適切に選択された多周波駆動によって駆動される, 電気的共振器の量子状態を消散的に安定化させる方法を示す。 ガウスクラスター状態の定常的準備のためのこのアプローチの性能解析を行う。

We show how to dissipatively stabilize the quantum state of $N$ mechanical resonators in an optomechnical system, where the resonators interact by radiation pressure with $N$ optical modes, which are driven by properly selected multifrequency drives. We analyze the performance of this approach for the stationary preparation of Gaussian cluster states.
翻訳日:2023-09-19 20:05:13 公開日:2023-09-15
# ASA-SimaaS: ブラジル空軍のシミュレーションサービスによるデジタルトランスフォーメーションの強化

ASA-SimaaS: Advancing Digital Transformation through Simulation Services in the Brazilian Air Force ( http://arxiv.org/abs/2309.08680v1 )

ライセンス: Link先を確認
Joao P. A. Dantas, Diego Geraldo, Andre N. Costa, Marcos R. O. A. Maximo, Takashi Yoneyama(参考訳) この研究は、潜在的なシナリオの結果を予測し評価するための軍事シミュレーションの利用を探求する。 これは、軍事シミュレーションの進化と、人工知能の進歩によって生じた能力の増加を強調している。 また、戦術や雇用主義の展開、意思決定者の訓練、新しい買収の評価、新しい技術の開発など、軍事シミュレーションの様々な応用について論じている。 この論文は、ブラジル空軍による独自のシミュレーションツール、Ambiente de Simula\c{c}\~ao Aeroespacial -- ASA、そして、このクラウドベースのサービスであるASA Simulation as a Service (ASA-SimaaS)が、いかに軍隊により大きな自律性と経済をもたらすかに焦点を当てている。 この研究の主な貢献は、防衛シナリオにおけるデジタルトランスフォーメーションの強化、パートナーシップネットワークの確立、軍のシミュレーション能力と競争力の向上の手段としてASA-SimaaSソリューションを提示することである。

This work explores the use of military simulations in predicting and evaluating the outcomes of potential scenarios. It highlights the evolution of military simulations and the increased capabilities that have arisen due to the advancement of artificial intelligence. Also, it discusses the various applications of military simulations, such as developing tactics and employment doctrines, training decision-makers, evaluating new acquisitions, and developing new technologies. The paper then focuses on the Brazilian Air Force's efforts to create its own simulation tool, the Aerospace Simulation Environment (Ambiente de Simula\c{c}\~ao Aeroespacial -- ASA in Portuguese), and how this cloud-based service called ASA Simulation as a Service (ASA-SimaaS) can provide greater autonomy and economy for the military force. The main contribution of this work is to present the ASA-SimaaS solution as a means of empowering digital transformation in defense scenarios, establishing a partnership network, and improving the military's simulation capabilities and competitiveness.
翻訳日:2023-09-19 20:05:05 公開日:2023-09-15
# 地域差分プライバシが影響関数による事業損失に及ぼす影響評価

Evaluating the Impact of Local Differential Privacy on Utility Loss via Influence Functions ( http://arxiv.org/abs/2309.08678v1 )

ライセンス: Link先を確認
Alycia N. Carey, Minh-Hao Van, and Xintao Wu(参考訳) ディファレンシャルプライバシ(dp)のプライバシパラメータを適切に設定する方法は,2006年に初めて提案されて以来,dpリサーチにおいてオープンな疑問となっている。 本研究では,ランダム化応答に基づくローカルDP設定において,特定のプライバシパラメータ値がモデルのテスト損失に与える影響について,影響関数がどう影響するかを示す。 提案手法では,モデルリトレーニングやデータ民営化といった重い計算を必要とせずに,プライバシ利用トレードオフに最も適したプライバシパラメータを選択することができる。 本稿では,特徴量やラベル値に対するランダム化応答や,クラス依存ラベル雑音補正法を適用してランダム化によって発生する雑音を相殺する複雑な場合など,複数の一般的なランダム化シナリオについて考察する。 さらに,提案手法の計算複雑性について,経験的解析を包含する詳細な議論を行う。 経験的評価により,二クラスと多クラスの両方において,特にノイズ補正手法を適用した場合において,ランダム化応答が特徴やラベルに適用される場合に生じるテスト損失の真の変化を,影響関数が近似できることが示されている。

How to properly set the privacy parameter in differential privacy (DP) has been an open question in DP research since it was first proposed in 2006. In this work, we demonstrate the ability of influence functions to offer insight into how a specific privacy parameter value will affect a model's test loss in the randomized response-based local DP setting. Our proposed method allows a data curator to select the privacy parameter best aligned with their allowed privacy-utility trade-off without requiring heavy computation such as extensive model retraining and data privatization. We consider multiple common randomization scenarios, such as performing randomized response over the features, and/or over the labels, as well as the more complex case of applying a class-dependent label noise correction method to offset the noise incurred by randomization. Further, we provide a detailed discussion over the computational complexity of our proposed approach inclusive of an empirical analysis. Through empirical evaluations we show that for both binary and multi-class settings, influence functions are able to approximate the true change in test loss that occurs when randomized response is applied over features and/or labels with small mean absolute error, especially in cases where noise correction methods are applied.
翻訳日:2023-09-19 20:04:45 公開日:2023-09-15
# 安定化回路検証

Stabilizer circuit verification ( http://arxiv.org/abs/2309.08676v1 )

ライセンス: Link先を確認
Vadym Kliuchnikov, Michael Beverland, Adam Paetznick(参考訳) 量子コンピュータの設計と運用における安定化回路のユビキタス性は、その正確性を保証する技術を生み出している。 古典的なコンピュータを用いて動作を再現することを目的とした安定化回路のシミュレーションは効率的であることが知られており、正確性をテストする手段を提供する。 しかし、シミュレーションは測定結果の指数関数的に大きい空間を調べる能力に制限がある。 そこで本研究では,ポーリユニタリの等価性に基づく安定化回路を完全かつ徹底的に検証する,効率的な古典的アルゴリズムの包括的集合を提案する。 そこで本研究では,そのような回路の一般形式を実用的特徴付けとして紹介し,任意の安定化回路の一般形式を求めるアルゴリズムを提案する。 次に,安定化回路の等価性をチェックするアルゴリズムを提案する。 回路が等価でない場合、アルゴリズムは和解の修正を提案する。 次に、符号化された入力に対する(物理)安定化回路の論理作用を特徴付けるアルゴリズムを提案する。 すべてのアルゴリズムは、対応する回路表現間の測定結果の関係を提供する。 最後に, 安定器群の測定により引き起こされる論理作用を解析的に記述し, 格子手術やコード切り換えを含む符号変形プロトコルの正当性証明に適用する。

The ubiquity of stabilizer circuits in the design and operation of quantum computers makes techniques to verify their correctness essential. The simulation of stabilizer circuits, which aims to replicate their behavior using a classical computer, is known to be efficient and provides a means of testing correctness. However, simulation is limited in its ability to examine the exponentially large space of possible measurement outcomes. We propose a comprehensive set of efficient classical algorithms to fully characterize and exhaustively verify stabilizer circuits with Pauli unitaries conditioned on parities of measurements. We introduce, as a practical characterization, a general form for such circuits and provide an algorithm to find a general form of any stabilizer circuit. We then provide an algorithm for checking the equivalence of stabilizer circuits. When circuits are not equivalent our algorithm suggests modifications for reconciliation. Next, we provide an algorithm that characterizes the logical action of a (physical) stabilizer circuit on an encoded input. All of our algorithms provide relations of measurement outcomes among corresponding circuit representations. Finally, we provide an analytic description of the logical action induced by measuring a stabilizer group, with application in correctness proofs of code-deformation protocols including lattice surgery and code switching.
翻訳日:2023-09-19 20:04:25 公開日:2023-09-15
# フェイクニュース検出器は大規模言語モデルで生成されたテキストに対してバイアスを受ける

Fake News Detectors are Biased against Texts Generated by Large Language Models ( http://arxiv.org/abs/2309.08674v1 )

ライセンス: Link先を確認
Jinyan Su, Terry Yue Zhuo, Jonibek Mansurov, Di Wang, Preslav Nakov(参考訳) 偽ニュースの拡散は、社会への信頼と脅威を損なう重要な課題として現れてきた。 大規模言語モデル(llm)の時代において、信じがたい偽コンテンツを生成する能力はこれらの懸念を強めた。 本研究では,人書きとLLM生成の両方の誤情報を含むシナリオにおいて,偽ニュース検知器を評価するための新しいパラダイムを提案する。 LLMが生成したコンテンツを偽ニュースとしてフラグ付けする傾向があり、人書きの偽ニュースを偽ニュースと誤分類することがしばしばある。 この予期せぬバイアスは、LLM出力に固有の異なる言語パターンから生じているように見える。 これに対処するために,llmパラフラスド・リアルニュースによる敵意トレーニングを活用した緩和戦略を提案する。 その結果、人間とLLMが生成したニュースの検出精度が大幅に向上した。 この領域の研究をさらに触媒するために、我々は2つの包括的なデータセット、 \texttt{gossipcop++} と \texttt{politifact++} をリリースした。

The spread of fake news has emerged as a critical challenge, undermining trust and posing threats to society. In the era of Large Language Models (LLMs), the capability to generate believable fake content has intensified these concerns. In this study, we present a novel paradigm to evaluate fake news detectors in scenarios involving both human-written and LLM-generated misinformation. Intriguingly, our findings reveal a significant bias in many existing detectors: they are more prone to flagging LLM-generated content as fake news while often misclassifying human-written fake news as genuine. This unexpected bias appears to arise from distinct linguistic patterns inherent to LLM outputs. To address this, we introduce a mitigation strategy that leverages adversarial training with LLM-paraphrased genuine news. The resulting model yielded marked improvements in detection accuracy for both human and LLM-generated news. To further catalyze research in this domain, we release two comprehensive datasets, \texttt{GossipCop++} and \texttt{PolitiFact++}, thus amalgamating human-validated articles with LLM-generated fake and real news.
翻訳日:2023-09-19 20:04:06 公開日:2023-09-15
# 量子回路への古典変分法埋め込み

Embedding Classical Variational Methods in Quantum Circuits ( http://arxiv.org/abs/2309.08666v1 )

ライセンス: Link先を確認
Stefano Barison, Filippo Vicentini, Giuseppe Carleo(参考訳) 量子デバイスの能力を相互作用する量子系の近似基底状態にまで拡張する新しい量子古典変分法を提案する。 提案手法は,ニューラルネットワーク量子状態などの古典的変動関数を持つ量子デバイス上に実装されたパラメータ化量子回路アンサーゼを強化する。 量子ハードウェアは最も相関の深い自由度において高精度な解法として使用され、残りの寄与は古典的な装置で扱われる。 提案手法は完全に変分的であり,変分パラメータの数を増やすことで精度を体系的に向上する経路を提供し,同時に2つの分割のグローバルな最適化を行う。 スピン鎖および小分子に対するプロトコルの有効性を実証し,その精度と計算コストに関する知見を提供する。 我々は,量子回路が深さと幅の両方で固定されている間,古典的な自由度を付加することにより,正確な対角化結果に収束できることを証明した。

We introduce a novel quantum-classical variational method that extends the quantum devices capabilities to approximate ground states of interacting quantum systems. The proposed method enhances parameterized quantum circuit ansatzes implemented on quantum devices with classical variational functions, such as neural-network quantum states. The quantum hardware is used as a high-accuracy solver on the most correlated degrees of freedom, while the remaining contributions are treated on a classical device. Our approach is completely variational, providing a well-defined route to systematically improve the accuracy by increasing the number of variational parameters, and performs a global optimization of the two partitions at the same time. We demonstrate the effectiveness of the protocol on spin chains and small molecules and provide insights into its accuracy and computational cost. We prove that our method is able to converge to exact diagonalization results via the addition of classical degrees of freedom, while the quantum circuit is kept fixed in both depth and width.
翻訳日:2023-09-19 20:03:43 公開日:2023-09-15
# 8,3,2]カラーコードを用いたフォールトトレラントな非クリフォードゲートの実装

Implementing fault-tolerant non-Clifford gates using the [[8,3,2]] color code ( http://arxiv.org/abs/2309.08663v1 )

ライセンス: Link先を確認
Daniel Honciuc Menendez, Annie Ray, Michael Vasmer(参考訳) 量子コンピュータは、古典的コンピュータにとって難解な問題を解決することを約束するが、量子ビットは多くのエラーの原因に対して脆弱であり、今日の量子ハードウェア上で確実に実行できる回路の深さを制限する。 この問題の解決策として量子誤り訂正法が提案されており、量子エラー訂正符号に符号化することで量子情報を保護している。 しかし、量子情報を保護するだけでは十分ではなく、実行中に発生する障害に対して堅牢な論理ゲートを使用して情報を処理する必要がある。 情報をフォールトトレラントに処理する方法の一つは、テンソル積構造(トランスバーサルゲート)を持つ論理ゲートを持つ量子誤り訂正符号を使用することである。 ここでは,[8,3,2] カラーコードである[8,3,2] を捕捉イオンと超伝導のハードウェアを用いて解析する。 普遍量子コンピューティングの実現に不可欠なゲートのクラスである非クリフォードゲートを実装した符号化回路の性能向上(エンコーディングを伴わない)を観察する。 特に,shorアルゴリズムにおけるキーゲートである制御制御$z$ゲートを実装した符号化回路の性能が向上した。 本研究は,超越ゲートを持つコードを用いて,短期量子ハードウェア上で非自明なアルゴリズムを実装する可能性を示す。

Quantum computers promise to solve problems that are intractable for classical computers, but qubits are vulnerable to many sources of error, limiting the depth of the circuits that can be reliably executed on today's quantum hardware. Quantum error correction has been proposed as a solution to this problem, whereby quantum information is protected by encoding it into a quantum error-correcting code. But protecting quantum information is not enough, we must also process the information using logic gates that are robust to faults that occur during their execution. One method for processing information fault-tolerantly is to use quantum error-correcting codes that have logical gates with a tensor product structure (transversal gates), making them naturally fault-tolerant. Here, we test the performance of a code with such transversal gates, the [[8,3,2]] color code, using trapped-ion and superconducting hardware. We observe improved performance (compared to no encoding) for encoded circuits implementing non-Clifford gates, a class of gates that are essential for achieving universal quantum computing. In particular, we find improved performance for an encoded circuit implementing the control-control $Z$ gate, a key gate in Shor's algorithm. Our results illustrate the potential of using codes with transversal gates to implement non-trivial algorithms on near-term quantum hardware.
翻訳日:2023-09-19 20:03:26 公開日:2023-09-15
# 中性原子量子プロセッサの計算能力とコンパイラ開発:ツール開発者とハードウェアエキスパートをつなぐ

Computational Capabilities and Compiler Development for Neutral Atom Quantum Processors: Connecting Tool Developers and Hardware Experts ( http://arxiv.org/abs/2309.08656v1 )

ライセンス: Link先を確認
Ludwig Schmid, David F. Locher, Manuel Rispler, Sebastian Blatt, Johannes Zeiher, Markus M\"uller and Robert Wille(参考訳) 中性atom量子コンピューティング(naqc)は、主に長いコヒーレンス時間とスケーラビリティのために、有望なハードウェアプラットフォームとして登場します。 さらにNAQCは、潜在的な長距離接続、ネイティブなマルチキュービットゲートサポート、高忠実度で量子ビットを物理的に並べ替える機能を含む計算上の優位性を提供する。 しかし、naqcプロセッサが成功するには、ハードウェア機能を最大限に活用して、高レベルのアルゴリズム記述をハードウェア実行可能表現に変換する新しいソフトウェアツールが必要となる。 新しいソフトウェアツールを実現するには、対応するソフトウェアツールが対応する物理的制約に従うことを保証するために、ツール開発者とハードウェア専門家の密接な関係が必要です。 本研究の目的は、NAQCプラットフォームに固有の幅広い機能スペクトルとそのコンパイルプロセスへの影響を調査し、この接続を確立する基盤を提供することである。 この目的のために,まずnaqcの物理的背景をレビューし,適切な制約とメリットの数値を定式化することにより,コンパイルプロセス全体の影響を導出する。 次に、コンパイルプロセスのサマリを提供し、この概要で現在利用可能なソフトウェアツールについて論じます。 最後に,選択したケーススタディを示し,naqcの異なる能力を評価し,それらを2つのハードウェア構成間で比較する。

Neutral Atom Quantum Computing (NAQC) emerges as a promising hardware platform primarily due to its long coherence times and scalability. Additionally, NAQC offers computational advantages encompassing potential long-range connectivity, native multi-qubit gate support, and the ability to physically rearrange qubits with high fidelity. However, for the successful operation of a NAQC processor, one additionally requires new software tools to translate high-level algorithmic descriptions into a hardware executable representation, taking maximal advantage of the hardware capabilities. Realizing new software tools requires a close connection between tool developers and hardware experts to ensure that the corresponding software tools obey the corresponding physical constraints. This work aims to provide a basis to establish this connection by investigating the broad spectrum of capabilities intrinsic to the NAQC platform and its implications on the compilation process. To this end, we first review the physical background of NAQC and derive how it affects the overall compilation process by formulating suitable constraints and figures of merit. We then provide a summary of the compilation process and discuss currently available software tools in this overview. Finally, we present selected case studies and employ the discussed figures of merit to evaluate the different capabilities of NAQC and compare them between two hardware setups.
翻訳日:2023-09-19 20:03:01 公開日:2023-09-15
# 解釈可能な生成ニューラルネットワークによる資産相関に対するCredit Portfolio感受性の定量化

Quantifying Credit Portfolio sensitivity to asset correlations with interpretable generative neural networks ( http://arxiv.org/abs/2309.08652v1 )

ライセンス: Link先を確認
Sergio Caprioli, Emanuele Cagliero, Riccardo Crupi(参考訳) 本研究では,信用ポートフォリオ価値リスク(var)の資産相関に対する感度を,ディープラーニングモデルを用いた合成金融相関行列を用いて定量化するための新しい手法を提案する。 先行研究では,アセットリターンで推定される経験的相関行列で観察される本質的特徴を捉える,妥当な相関行列の生成を実証するためにgans(generative adversarial network)を用いた。 GANの代わりに、より解釈可能な潜在空間表現を実現するために変分オートエンコーダ(VAE)を用いる。 分析の結果,VOE潜伏空間はポートフォリオの多様化に影響を及ぼす重要な要因,特に資産相関の変化に対する信用ポートフォリオの感度を捉える上で有用なツールであることが判明した。

In this research, we propose a novel approach for the quantification of credit portfolio Value-at-Risk (VaR) sensitivity to asset correlations with the use of synthetic financial correlation matrices generated with deep learning models. In previous work Generative Adversarial Networks (GANs) were employed to demonstrate the generation of plausible correlation matrices, that capture the essential characteristics observed in empirical correlation matrices estimated on asset returns. Instead of GANs, we employ Variational Autoencoders (VAE) to achieve a more interpretable latent space representation. Through our analysis, we reveal that the VAE latent space can be a useful tool to capture the crucial factors impacting portfolio diversification, particularly in relation to credit portfolio sensitivity to asset correlations changes.
翻訳日:2023-09-19 20:02:39 公開日:2023-09-15
# サブ10ナノメートル分解能の3次元磁気共鳴トモグラフィ

Three-dimensional magnetic resonance tomography with sub-10 nanometer resolution ( http://arxiv.org/abs/2309.08725v1 )

ライセンス: Link先を確認
Mohammad T Amawi, Andrii Trelin, You Huang, Paul Weinbrenner, Francesco Poggiali, Joachim Leibold, Martin Schalk, and Friedemann Reinhard(参考訳) 5.99 +- 0.07 nmまでの分解能を持つ3次元磁気共鳴トモグラフィを示す。 我々はリソグラフィーで作製したマイクロワイヤを三次元磁場勾配の源とし,フーリエ加速型磁気共鳴トモグラフィにより高密度ドープダイヤモンド中のnv中心を撮像した。 また,アンサンプデータから空間的局所化アンサンブルを撮像するための圧縮されたセンシング手法を提案する。 本研究で得られた分解能は, 位置決め精度に近づき, 磁気勾配トモグラフィによる三次元構造解析への道を開いた。

We demonstrate three-dimensional magnetic resonance tomography with a resolution down to 5.99 +- 0.07 nm. Our measurements use lithographically fabricated microwires as a source of three-dimensional magnetic field gradients, which we use to image NV centers in a densely doped diamond by Fourier-accelerated magnetic resonance tomography. We also present a compressed sensing scheme for imaging of a spatially localized ensemble from undersampled data, which allows for a direct visual interpretation without numerical optimization. The resolution achieved in our work approaches the positioning accuracy of site-directed spin labeling, paving the way to three-dimensional structure analysis by magnetic-gradient based tomography.
翻訳日:2023-09-19 19:54:33 公開日:2023-09-15
# グラフ拡張文法を用いた意味グラフコーパスの生成

Generating Semantic Graph Corpora with Graph Expansion Grammar ( http://arxiv.org/abs/2309.08714v1 )

ライセンス: Link先を確認
Eric Andersson (Ume{\aa} University), Johanna Bj\"orklund (Ume{\aa} University), Frank Drewes (Ume{\aa} University), Anna Jonsson (Ume{\aa} University)(参考訳) セマンティックグラフのコーパスを作成するツールであるLovelaceを紹介します。 このシステムはグラフ拡張文法を表現言語として使用し、ユーザーは所望の特性を持つコーパスを記述する文法を作成できる。 このような文法を入力として与えると、システムは文法に従ってよく形づくられた出力グラフの集合、すなわちグラフバンクを生成する。 生成プロセスは、例えば、所望の出力グラフサイズの範囲を指定できるように、複数の設定可能なパラメータを介して制御することができる。 中心的なユースケースは、既存のコーパスを強化するための合成データの作成と、形式言語理論を教えるための教育ツールである。

We introduce Lovelace, a tool for creating corpora of semantic graphs. The system uses graph expansion grammar as a representational language, thus allowing users to craft a grammar that describes a corpus with desired properties. When given such grammar as input, the system generates a set of output graphs that are well-formed according to the grammar, i.e., a graph bank. The generation process can be controlled via a number of configurable parameters that allow the user to, for example, specify a range of desired output graph sizes. Central use cases are the creation of synthetic data to augment existing corpora, and as a pedagogical tool for teaching formal language theory.
翻訳日:2023-09-19 19:54:20 公開日:2023-09-15
# クラスタ化マルチエージェント線形バンディット

Clustered Multi-Agent Linear Bandits ( http://arxiv.org/abs/2309.08710v1 )

ライセンス: Link先を確認
Hamza Cherkaoui and Merwan Barlier and Igor Colin(参考訳) 本稿では,マルチエージェント線形確率バンディット問題(クラスタ型マルチエージェント線形バンディット)の具体例について述べる。 そこで本研究では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。 このコントリビューションでは、ネットワークコントローラがネットワークの基盤となるクラスタ構造を推定し、同一グループ内のエージェント間で共有されるエクスペリエンスを最適化する。 後悔最小化問題とクラスタリング品質の両方について理論的解析を行う。 合成データと実データの両方における最先端アルゴリズムに対する実証的な評価を通じて,我々の手法の有効性を実証する。

We address in this paper a particular instance of the multi-agent linear stochastic bandit problem, called clustered multi-agent linear bandits. In this setting, we propose a novel algorithm leveraging an efficient collaboration between the agents in order to accelerate the overall optimization problem. In this contribution, a network controller is responsible for estimating the underlying cluster structure of the network and optimizing the experiences sharing among agents within the same groups. We provide a theoretical analysis for both the regret minimization problem and the clustering quality. Through empirical evaluation against state-of-the-art algorithms on both synthetic and real data, we demonstrate the effectiveness of our approach: our algorithm significantly improves regret minimization while managing to recover the true underlying cluster partitioning.
翻訳日:2023-09-19 19:54:11 公開日:2023-09-15
# リニアベストアーム識別における安全価格

Price of Safety in Linear Best Arm Identification ( http://arxiv.org/abs/2309.08709v1 )

ライセンス: Link先を確認
Xuedong Shang and Igor Colin and Merwan Barlier and Hamza Cherkaoui(参考訳) 安全ベストアーム識別フレームワークを線形フィードバックで導入し、エージェントは未知のパラメータベクトルに線形に依存する段階的な安全制約を受ける。 エージェントは、各ラウンドにおいて高い確率で安全制約に違反しないように、保守的な方法で行動しなければならない。 安全性を確保するために線形構造を活用する方法は、後悔の最小化のために研究されてきたが、私たちの知識を最大限に活用するための最高の武器識別には向いていない。 本稿では,段階的安全性を確保しつつ,有意義なサンプル複雑性を実現するギャップベースアルゴリズムを提案する。 我々は,追加の安全性制約によって引き起こされる強制探査フェーズにより,サンプルの複雑さに余分な期間を支払っていることを示す。 提案アルゴリズムの設計を正当化するための実験図面が提供される。

We introduce the safe best-arm identification framework with linear feedback, where the agent is subject to some stage-wise safety constraint that linearly depends on an unknown parameter vector. The agent must take actions in a conservative way so as to ensure that the safety constraint is not violated with high probability at each round. Ways of leveraging the linear structure for ensuring safety has been studied for regret minimization, but not for best-arm identification to the best our knowledge. We propose a gap-based algorithm that achieves meaningful sample complexity while ensuring the stage-wise safety. We show that we pay an extra term in the sample complexity due to the forced exploration phase incurred by the additional safety constraint. Experimental illustrations are provided to justify the design of our algorithm.
翻訳日:2023-09-19 19:53:59 公開日:2023-09-15
# 動的埋め込みプルーニングによる事前学習言語モデルのフラストレーション的単純メモリ効率

Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning ( http://arxiv.org/abs/2309.08708v1 )

ライセンス: Link先を確認
Miles Williams, Nikolaos Aletras(参考訳) 事前訓練された言語モデル(PLM)の広範なメモリフットプリントは、クラウド環境やオンデバイスなど、メモリ制限された設定でのデプロイメントを妨げる可能性がある。 PLMは埋め込み行列を用いて広い語彙を表現し、モデルパラメータのかなりの割合を形成する。 従来,パラメータ効率の高いPLM開発に向けた研究は変圧器層内のプルーニングパラメータを検討したが,微細調整や推論の一部として埋め込み行列をプルーニングすることはまだ検討されていない。 まず、これらのシナリオでは語彙のかなりの割合が使われていないことを示す。 次に、この発見を利用して埋め込み行列のメモリフットプリントを最小化する、単純かつ効果的なアプローチを提案する。 このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。 特に当社のアプローチでは,計算リソースをより効率的に利用しながら,同等のダウンストリームタスクパフォーマンスを維持しています。

The extensive memory footprint of pre-trained language models (PLMs) can hinder deployment in memory-constrained settings, such as cloud environments or on-device. PLMs use embedding matrices to represent extensive vocabularies, forming a large proportion of the model parameters. While previous work towards parameter-efficient PLM development has considered pruning parameters within the transformer layers, pruning the embedding matrix as part of fine-tuning or inference has yet to be explored. We first demonstrate that a significant proportion of the vocabulary remains unused in these scenarios. We then propose a simple yet effective approach that leverages this finding to minimize the memory footprint of the embedding matrix. We show that this approach provides substantial reductions in memory usage across a wide range of models and tasks. Notably, our approach maintains equivalent downstream task performance while allowing a more efficient use of compute resources.
翻訳日:2023-09-19 19:53:46 公開日:2023-09-15
# 確率順序分類器の性能指標

Performance Metrics for Probabilistic Ordinal Classifiers ( http://arxiv.org/abs/2309.08701v1 )

ライセンス: Link先を確認
Adrian Galdran(参考訳) 通常の分類モデルは、真のクラスからさらに離れた予測により高い罰則を割り当てる。 その結果, 疾患進展予測や画像評価などの関連診断に適していると考えられた。 カテゴリー予測を評価するためのコンセンサスは、二次重み付きkappaスコアや期待コストのような距離に敏感なメトリクスの使用を決定する。 しかし,順序分類器の確率的予測性能についてはほとんど議論されていない。 従来の分類では、確率的予測のための一般的な尺度は、ブライアスコアのような適切なスコア規則(PSR)や、ECEのような校正誤差であるが、順序的分類には最適ではない。 予測分野で広く普及しているPSR Ranked Probability Score (RPS)は、この課題に適しているが、画像分析コミュニティでは注目されていない。 本稿では、画像グレーディングタスクにおけるRSSの利用を提唱する。 さらに,このスコアの直感的かつ疑わしい動作を示すとともに,簡単な修正を提案する。 3つの異なるデータセット上での4つの大規模バイオメディカルイメージグレーディング問題に対する総合的な実験により、RPSは確率的順序予測に最適なパフォーマンス指標であることが示された。 実験を再現するコードはhttps://github.com/agaldran/prob_ord_metrics にある。

Ordinal classification models assign higher penalties to predictions further away from the true class. As a result, they are appropriate for relevant diagnostic tasks like disease progression prediction or medical image grading. The consensus for assessing their categorical predictions dictates the use of distance-sensitive metrics like the Quadratic-Weighted Kappa score or the Expected Cost. However, there has been little discussion regarding how to measure performance of probabilistic predictions for ordinal classifiers. In conventional classification, common measures for probabilistic predictions are Proper Scoring Rules (PSR) like the Brier score, or Calibration Errors like the ECE, yet these are not optimal choices for ordinal classification. A PSR named Ranked Probability Score (RPS), widely popular in the forecasting field, is more suitable for this task, but it has received no attention in the image analysis community. This paper advocates the use of the RPS for image grading tasks. In addition, we demonstrate a counter-intuitive and questionable behavior of this score, and propose a simple fix for it. Comprehensive experiments on four large-scale biomedical image grading problems over three different datasets show that the RPS is a more suitable performance metric for probabilistic ordinal predictions. Code to reproduce our experiments can be found at https://github.com/agaldran/prob_ord_metrics .
翻訳日:2023-09-19 19:53:31 公開日:2023-09-15
# 微分凸計画付き条件付き値-at-Riskを用いたワッサーシュタイン分布ロバスト制御バリア関数

Wasserstein Distributionally Robust Control Barrier Function using Conditional Value-at-Risk with Differentiable Convex Programming ( http://arxiv.org/abs/2309.08700v1 )

ライセンス: Link先を確認
Alaa Eddine Chriat and Chuangchuang Sun(参考訳) 制御バリア機能(CBF)は、現実世界の安全クリティカルシステムに配置する安全なコントローラを設計するために広く注目を集めている。 しかし、周囲の環境に対する認識は、しばしば確率的であり、名目からさらに分布的な変化が伴う。 本稿では,分散性のあるCBF(DR-CBF)について,計算効率や前方不変性などのCBFの利点を維持しつつ,分散シフト下でのレジリエンスを実現する。 この目的を達成するために,我々はまず,自然三段階プログラミングによるwasersteinメトリックで測定される分布シフトの下での安全性制約条件値(cvar)を推定する単一レベル凸再構成を提案する。 さらに,CVaRの前方不変性を強制する制御バリア条件を構築するために,CVaR推定の最適化層による微分を実現するために,微分可能な凸計画法を適用した。 また、高次システムに対するDR-CBFの近似変種も提供する。 第1次・第2次システムの分散シフトの下で, 確率制約付き安全保証を検証するためのシミュレーション結果を示す。

Control Barrier functions (CBFs) have attracted extensive attention for designing safe controllers for their deployment in real-world safety-critical systems. However, the perception of the surrounding environment is often subject to stochasticity and further distributional shift from the nominal one. In this paper, we present distributional robust CBF (DR-CBF) to achieve resilience under distributional shift while keeping the advantages of CBF, such as computational efficacy and forward invariance. To achieve this goal, we first propose a single-level convex reformulation to estimate the conditional value at risk (CVaR) of the safety constraints under distributional shift measured by a Wasserstein metric, which is by nature tri-level programming. Moreover, to construct a control barrier condition to enforce the forward invariance of the CVaR, the technique of differentiable convex programming is applied to enable differentiation through the optimization layer of CVaR estimation. We also provide an approximate variant of DR-CBF for higher-order systems. Simulation results are presented to validate the chance-constrained safety guarantee under the distributional shift in both first and second-order systems.
翻訳日:2023-09-19 19:53:08 公開日:2023-09-15
# 強結合状態における2つの量子ドット・マイクロキャビティ系の量子相関に及ぼすf\"orster相互作用とパルス励起の影響

Effect of the F\"orster Interaction and the Pulsed Pumping on the Quantum Correlations of a Two Quantum Dot-Microcavity System in the Strong Coupling Regime ( http://arxiv.org/abs/2309.08699v1 )

ライセンス: Link先を確認
D. Madrid-\'Usuga, A. A. Portacio, D. Rasero(参考訳) 2つの量子ドットとF\"oster interaction({\Gamma})を強く結合した微小キャビティ内に配置した系と、電磁界の単一モードとレーザーパルスにより駆動される系の量子相関を、リンドランド形式のマスター方程式の形式性を用いて理論的に研究した。 系のエネルギー固有値は,第1および第2励起多様体の分解関数として研究された。 共起(cc)、形成絡み合い(eof)、ミュータント情報(i)、量子ディスコード(q)を、f\"oster結合の異なる値を考慮して時間関数として検討し、模擬レーザーパルスの励起時間とパルス強度を変化させる。 エンタングルメント量化器としてEoFとCCの相違を見出した結果,共起がEoFよりもはるかに高い値に達することが示唆された。 F\"oster"相互作用の存在は、系内の量子不協和が支配的な相関関係であることを好んでおり、系の絡み合いが消えても系は量子相関を維持するが、レーザーポンプ時間の増加の影響を受けていることを示している。

The quantum correlations of a system of two quantum dots with F\"oster interaction ({\Gamma}) in a microcavity with strongly coupled dissipation and a single mode of the electromagnetic field and driven by a laser pulse were studied theoretically, using the formalism of the master equation in Lindbland form. The energy eigenvalues of the system were studied as a function of detuning for the first and second excitation varieties. Concurrence (CC), formation entanglement (EoF),mutual information (I) and quantum discord (Q) are studied as a function of time considering different values of F\"oster coupling, varying the pump times of the simulated laser pulse and pulse intensity. We found a discrepancy between EoF and CC as entanglement quantifiers, noting that concurrence reaches much higher values than EoF; so concurrence can indicate results that are well above the EoF. The presence of the F\"oster interaction favors that the quantum discord is the dominant correlation in the system, which indicates that the system maintains quantum correlations even when the entanglement of the system has disappeared, but that it is affected by the increase in the laser pump time
翻訳日:2023-09-19 19:52:48 公開日:2023-09-15
# インプットのない不規則サンプリング時系列のモデル化

Modelling Irregularly Sampled Time Series Without Imputation ( http://arxiv.org/abs/2309.08698v1 )

ライセンス: Link先を確認
Rohit Agarwal, Aman Sinha, Dilip K. Prasad, Marianne Clausel, Alexander Horsch, Mathieu Constant and Xavier Coubez(参考訳) 不規則サンプリング時系列(ISTS)のモデル化は、値の欠如により困難である。 既存のほとんどのメソッドは、不規則にサンプリングされたデータをインプットによって定期的にサンプリングされたデータに変換することでISTSを扱うことに重点を置いている。 これらのモデルは、望ましくないバイアスと準最適性能をもたらすメカニズムを欠いていると仮定する。 SLAN(Switch LSTM Aggregate Network)は,LSTMのセットを用いてISTSを計算せずにモデル化し,基礎となるプロセスの仮定をなくす。 計測されたセンサーに基づいて動的にアーキテクチャをオンザフライで適応させる。 SLANは不規則情報を利用して各センサの局所的な要約を明示的に捉え、観測期間を通してグローバルな要約状態を維持する。 公開データセット(MIMIC-III, Physionet 2012, Physionet 2019)に対するSLANの有効性を示す。 コードはhttps://github.com/Rohit102497/SLANで公開されている。

Modelling irregularly-sampled time series (ISTS) is challenging because of missing values. Most existing methods focus on handling ISTS by converting irregularly sampled data into regularly sampled data via imputation. These models assume an underlying missing mechanism leading to unwanted bias and sub-optimal performance. We present SLAN (Switch LSTM Aggregate Network), which utilizes a pack of LSTMs to model ISTS without imputation, eliminating the assumption of any underlying process. It dynamically adapts its architecture on the fly based on the measured sensors. SLAN exploits the irregularity information to capture each sensor's local summary explicitly and maintains a global summary state throughout the observational period. We demonstrate the efficacy of SLAN on publicly available datasets, namely, MIMIC-III, Physionet 2012 and Physionet 2019. The code is available at https://github.com/Rohit102497/SLAN.
翻訳日:2023-09-19 19:52:24 公開日:2023-09-15
# 法的文書における否定スコープ解決の多言語的探索

Resolving Legalese: A Multilingual Exploration of Negation Scope Resolution in Legal Documents ( http://arxiv.org/abs/2309.08695v1 )

ライセンス: Link先を確認
Ramona Christen, Anastassia Shaitarova, Matthias St\"urmer, Joel Niklaus(参考訳) 文内の否定の範囲を解消することは難解なNLP課題である。 法的テキストの複雑さと注釈付きドメイン内否定コーパスの欠如は、多言語法的データに対する否定範囲の解決を行う際に、最先端技術(SotA)モデルに課題をもたらす。 実験により, 法的なデータを用いずに事前学習したモデルが, 否定範囲の解決作業において低調であることを実証した。 文献や医学データなどのドメインでのみ微調整された言語モデルを用いた実験は,先行するクロスドメイン実験で記録された結果と比較して劣る結果をもたらす。 私たちは、ドイツ語、フランス語、イタリア語の注釈付き裁判所決定のセットを新たにリリースし、ゼロショットとマルチリンガルの両方でネゲーションスコープの解決を改善するために使用します。 ゼロショットクロスリンガル実験ではトークンレベルのf1-scoreを最大86.7%達成し、そのモデルが法律データセットの2つの言語でトレーニングされ、第3言語で評価されます。 利用可能な全ての否定データに基づいてモデルを訓練し、法的なデータセットで評価した多言語実験では、最大91.1%のf1スコアが得られた。

Resolving the scope of a negation within a sentence is a challenging NLP task. The complexity of legal texts and the lack of annotated in-domain negation corpora pose challenges for state-of-the-art (SotA) models when performing negation scope resolution on multilingual legal data. Our experiments demonstrate that models pre-trained without legal data underperform in the task of negation scope resolution. Our experiments, using language models exclusively fine-tuned on domains like literary texts and medical data, yield inferior results compared to the outcomes documented in prior cross-domain experiments. We release a new set of annotated court decisions in German, French, and Italian and use it to improve negation scope resolution in both zero-shot and multilingual settings. We achieve token-level F1-scores of up to 86.7% in our zero-shot cross-lingual experiments, where the models are trained on two languages of our legal datasets and evaluated on the third. Our multilingual experiments, where the models were trained on all available negation data and evaluated on our legal datasets, resulted in F1-scores of up to 91.1%.
翻訳日:2023-09-19 19:52:09 公開日:2023-09-15
# 微細スケッチ画像検索のためのアクティブラーニング

Active Learning for Fine-Grained Sketch-Based Image Retrieval ( http://arxiv.org/abs/2309.08743v1 )

ライセンス: Link先を確認
Himanshu Thakur, Soumitri Chattopadhyay(参考訳) フリーハンドスケッチで写真を取得する能力は、きめ細かなスケッチベース画像検索(FG-SBIR)の潜在可能性を強調している。 しかし、その急速な実践的採用とスケーラビリティは、簡単に手に入る写真のために忠実なスケッチを取得するコストによって制限されている。 この問題の解決策はActive Learningであり、パフォーマンスを最大化しながらラベル付きスケッチの必要性を最小限に抑えることができる。 この分野での広範な研究にもかかわらず、FG-SBIRタスクのスケッチ作業を減らすためにそれを利用する研究は存在しない。 そこで本研究では,写真スケッチの描画の必要性を極端に軽減する新しいアクティブラーニングサンプリング手法を提案する。 提案手法は,既存のフォトスケッチ対とスケッチを持たない写真との関係を利用して不確実性と多様性のトレードオフを解消し,その中間表現との関係を補強するものである。 提案手法は基礎となるデータ分布にのみ依存するため,モデリング手法に依存しないため,他のモーダルなインスタンスレベルの検索タスクにも適用可能である。 sbirデータセットである chairv2 と shoev2 を2つ公開して実験した結果,本手法の有効性を確認し,適応ベースラインよりもその優越性を明らかにする。

The ability to retrieve a photo by mere free-hand sketching highlights the immense potential of Fine-grained sketch-based image retrieval (FG-SBIR). However, its rapid practical adoption, as well as scalability, is limited by the expense of acquiring faithful sketches for easily available photo counterparts. A solution to this problem is Active Learning, which could minimise the need for labeled sketches while maximising performance. Despite extensive studies in the field, there exists no work that utilises it for reducing sketching effort in FG-SBIR tasks. To this end, we propose a novel active learning sampling technique that drastically minimises the need for drawing photo sketches. Our proposed approach tackles the trade-off between uncertainty and diversity by utilising the relationship between the existing photo-sketch pair to a photo that does not have its sketch and augmenting this relation with its intermediate representations. Since our approach relies only on the underlying data distribution, it is agnostic of the modelling approach and hence is applicable to other cross-modal instance-level retrieval tasks as well. With experimentation over two publicly available fine-grained SBIR datasets ChairV2 and ShoeV2, we validate our approach and reveal its superiority over adapted baselines.
翻訳日:2023-09-19 19:45:47 公開日:2023-09-15
# AlbNER: アルバニア語で名前付きエンティティ認識のためのコーパス

AlbNER: A Corpus for Named Entity Recognition in Albanian ( http://arxiv.org/abs/2309.08741v1 )

ライセンス: Link先を確認
Erion \c{C}ano(参考訳) アルバニア語のような低リソース言語のための注釈付きテキストコーパスのようなリソース不足は、計算言語学や自然言語処理研究において深刻な障害となっている。 本稿では、アルバニア語ウィキペディアの記事から収集した900文のコーパスであるAlbNERについて述べる。 BERTとRoBERTaによる予備的な結果から、AlbNERデータを用いて微調整およびテストした結果、モデルサイズがNERのパフォーマンスにわずかに影響を与えているのに対して、言語転送は大きな影響を与えている。 AlbNERコーパスとこれらの結果は将来の実験のベースラインとなる。

Scarcity of resources such as annotated text corpora for under-resourced languages like Albanian is a serious impediment in computational linguistics and natural language processing research. This paper presents AlbNER, a corpus of 900 sentences with labeled named entities, collected from Albanian Wikipedia articles. Preliminary results with BERT and RoBERTa variants fine-tuned and tested with AlbNER data indicate that model size has slight impact on NER performance, whereas language transfer has a significant one. AlbNER corpus and these obtained results should serve as baselines for future experiments.
翻訳日:2023-09-19 19:45:26 公開日:2023-09-15
# 植物疾患分類における概念説明可能性

Concept explainability for plant diseases classification ( http://arxiv.org/abs/2309.08739v1 )

ライセンス: Link先を確認
Jihen Amara, Birgitta K\"onig-Ries, Sheeba Samuel(参考訳) 植物病は食品の安全と農業の持続性にとって大きな脅威である。 これらの疾患の迅速かつ早期の同定は、グローバルデジタル化の増大と、ディープラーニングに基づくコンピュータビジョンの最近の進歩に依存するいくつかの研究のモチベーションとなっている。 実際、深い畳み込みニューラルネットワークに基づく植物病の分類は素晴らしいパフォーマンスを示している。 しかしながら、これらの手法は、その堅牢性、透明性、説明可能性の欠如に対する懸念から、まだ世界中で採用されていない。 入力画素の摂動にネットワーク出力を関連付けるサリエンシに基づくアプローチなどの手法が提案され,これらのアルゴリズムの知見が得られた。 それでも、それらは容易に理解できないし、人間のユーザーにとって直感的でもない。 本研究では,概念活性化ベクトルを用いたテスト(TCAV)と呼ばれる手法を,画素からユーザ定義概念へ焦点を移す。 我々の知る限りでは,本手法を植物病の分類の分野で最初に活用したのは本論文である。 色,テクスチャ,疾患関連概念などの重要な概念を分析した。 その結果, 概念に基づく説明手法は, 植物病の自動同定に有効であることが示唆された。

Plant diseases remain a considerable threat to food security and agricultural sustainability. Rapid and early identification of these diseases has become a significant concern motivating several studies to rely on the increasing global digitalization and the recent advances in computer vision based on deep learning. In fact, plant disease classification based on deep convolutional neural networks has shown impressive performance. However, these methods have yet to be adopted globally due to concerns regarding their robustness, transparency, and the lack of explainability compared with their human experts counterparts. Methods such as saliency-based approaches associating the network output to perturbations of the input pixels have been proposed to give insights into these algorithms. Still, they are not easily comprehensible and not intuitive for human users and are threatened by bias. In this work, we deploy a method called Testing with Concept Activation Vectors (TCAV) that shifts the focus from pixels to user-defined concepts. To the best of our knowledge, our paper is the first to employ this method in the field of plant disease classification. Important concepts such as color, texture and disease related concepts were analyzed. The results suggest that concept-based explanation methods can significantly benefit automated plant disease identification.
翻訳日:2023-09-19 19:45:16 公開日:2023-09-15
# AV-MaskEnhancer:AV-Visual Masked Autoencoderによるビデオ表現の強化

AV-MaskEnhancer: Enhancing Video Representations through Audio-Visual Masked Autoencoder ( http://arxiv.org/abs/2309.08738v1 )

ライセンス: Link先を確認
Xingjian Diao, Ming Cheng, and Shitong Cheng(参考訳) 高品質なビデオ表現の学習はコンピュータビジョンにおいて重要な応用例であり、依然として挑戦的である。 imagemaeやvideomaeのようなマスク自動エンコーダに基づく以前の研究は、視覚モダリティにおける再構成戦略を通じて画像やビデオの表現を学習することの有効性を証明している。 しかし、これらのモデルには固有の制限があり、特に低解像度でぼやけたオリジナルビデオを扱う場合など、視覚的モダリティのみから特徴を抽出する場合には困難である。 そこで我々は,視覚情報と音声情報を組み合わせて高品質な映像表現を学習するためのAV-MaskEnhancerを提案する。 本手法は,モーダリティコンテンツにおける音声と映像の相補的な特徴を実証することによる課題に対処する。 さらに,UCF101データセット上の映像分類タスクの結果は,既存の作業よりも優れ,トップ1の精度98.8%,トップ5の精度99.9%に到達した。

Learning high-quality video representation has shown significant applications in computer vision and remains challenging. Previous work based on mask autoencoders such as ImageMAE and VideoMAE has proven the effectiveness of learning representations in images and videos through reconstruction strategy in the visual modality. However, these models exhibit inherent limitations, particularly in scenarios where extracting features solely from the visual modality proves challenging, such as when dealing with low-resolution and blurry original videos. Based on this, we propose AV-MaskEnhancer for learning high-quality video representation by combining visual and audio information. Our approach addresses the challenge by demonstrating the complementary nature of audio and video features in cross-modality content. Moreover, our result of the video classification task on the UCF101 dataset outperforms the existing work and reaches the state-of-the-art, with a top-1 accuracy of 98.8% and a top-5 accuracy of 99.9%.
翻訳日:2023-09-19 19:44:59 公開日:2023-09-15
# 深層学習と分散型無線センシングを用いた前方衝突警報システムの実験評価

Experimental Assessment of a Forward-Collision Warning System Fusing Deep Learning and Decentralized Radio Sensing ( http://arxiv.org/abs/2309.08737v1 )

ライセンス: Link先を確認
Jorge D. Cardenas, Omar Contreras-Ponce, Carlos A. Gutierrez, Ruth Aguilar-Ponce, Francisco R. Castillo-Soria, Cesar A. Azurdia-Meza(参考訳) 本稿では,分散型無線センシング(rs)方式に基づく自動前方衝突警報システムについて述べる。 この枠組みにおいて、受信モードの車両は、第2の車両が送信する連続波形(cw)をプローブ信号として、対向する車両を検出し、ドライバーに潜在的な前方衝突を警告する。 このようなCWは、現在のマルチキャリア車体通信システムのデータフレームにパイロット信号として容易に組み込むことができる。 CWプローブ信号に印加されたドップラー信号の特徴を高速に接近する車両によって解析する深層学習(DL)モジュールにより、対向車両の検出を行う。 この分散化CW RSアプローチは、2車線高速道路における一連のフィールド試験によって収集されたデータを用いて実験的に評価された。 長期記憶ネットワークと畳み込みニューラルネットワークの2つの異なるDLモデルに対して,検出性能を評価した。 その結果,DLと分散CW RSの融合に基づく前方衝突警報システムの実現可能性を示した。

This paper presents the idea of an automatic forward-collision warning system based on a decentralized radio sensing (RS) approach. In this framework, a vehicle in receiving mode employs a continuous waveform (CW) transmitted by a second vehicle as a probe signal to detect oncoming vehicles and warn the driver of a potential forward collision. Such a CW can easily be incorporated as a pilot signal within the data frame of current multicarrier vehicular communication systems. Detection of oncoming vehicles is performed by a deep learning (DL) module that analyzes the features of the Doppler signature imprinted on the CW probe signal by a rapidly approaching vehicle. This decentralized CW RS approach was assessed experimentally using data collected by a series of field trials conducted in a two-lanes high-speed highway. Detection performance was evaluated for two different DL models: a long short-term memory network and a convolutional neural network. The obtained results demonstrate the feasibility of the envisioned forward-collision warning system based on the fusion of DL and decentralized CW RS.
翻訳日:2023-09-19 19:44:43 公開日:2023-09-15
# S-QGPU:分散量子コンピューティングのための共有量子ゲート処理ユニット

S-QGPU: Shared Quantum Gate Processing Unit for Distributed Quantum Computing ( http://arxiv.org/abs/2309.08736v1 )

ライセンス: Link先を確認
Shengwang Du, Yufei Ding, Chunming Qiao(参考訳) 本稿では,個々の小型量子コンピュータを共有量子ゲート処理ユニット(s-qgpu)に接続する分散量子コンピューティング(dqc)アーキテクチャを提案する。 S-QGPUは、リモートゲート操作のためのハイブリッド2ビットゲートモジュールからなる。 各量子コンピュータが専用の通信キュービットを備えている従来のDQCシステムとは対照的に、S-QGPUはリモートゲート操作のためにリソース(例えば通信キュービット)を効果的にプールし、ローカルな量子コンピュータだけでなく、全体の分散システムのコストを大幅に削減する。 さらに、リモートゲート操作のためのS-QGPUの共有リソースは、効率的なリソース利用を可能にする。 システム内の全ての計算キュービットが同時遠隔ゲート操作を必要とするわけではない場合、S-QGPUベースのDQCアーキテクチャは通信キュービットを少なくし、全体的なコストを削減できる。 あるいは、同じ数の通信キュービットで、特にバーストモードで発生する場合に、より多くの同時リモートゲート操作をより効率的にサポートすることができる。

We propose a distributed quantum computing (DQC) architecture in which individual small-sized quantum computers are connected to a shared quantum gate processing unit (S-QGPU). The S-QGPU comprises a collection of hybrid two-qubit gate modules for remote gate operations. In contrast to conventional DQC systems, where each quantum computer is equipped with dedicated communication qubits, S-QGPU effectively pools the resources (e.g., the communication qubits) together for remote gate operations, and thus significantly reduces the cost of not only the local quantum computers but also the overall distributed system. Moreover, S-QGPU's shared resources for remote gate operations enable efficient resource utilization. When not all computing qubits in the system require simultaneous remote gate operations, S-QGPU-based DQC architecture demands fewer communication qubits, further decreasing the overall cost. Alternatively, with the same number of communication qubits, it can support a larger number of simultaneous remote gate operations more efficiently, especially when these operations occur in a burst mode.
翻訳日:2023-09-19 19:44:26 公開日:2023-09-15
# 学習ICP重みを用いたレーダーライダー位置推定

Pointing the Way: Refining Radar-Lidar Localization Using Learned ICP Weights ( http://arxiv.org/abs/2309.08731v1 )

ライセンス: Link先を確認
Daniil Lisus, Johann Laconte, Keenan Burnett, Timothy D. Barfoot(参考訳) 本稿では,ライダーマップに対するレーダ計測の局所化を改善するための,新しいディープラーニング手法を提案する。 ローカライゼーション技術の現状はライダーデータとライダーマップとを一致させているが、降水や大霧などの悪天候に対する耐性が高いため、レーダーは有望な代替手段として考えられてきた。 既存の高品質lidarマップを悪天候時の性能を維持しつつ利用するためには,レーダーデータとlidarマップのマッチングが注目されている。 しかし、レーダー測定に特有のアーティファクトがあるため、レーダー-ライダーのローカライゼーションはlidar-lidarシステムと同等の性能を達成するのに苦労しており、自動運転で実現できない。 本研究は,高レベルスキャン情報に基づいてレーダポイントを重み付けする学習前処理を含む,icpベースのレーダライダー定位システムを構築する。 実証された分析アプローチと学習重みを組み合わせることで、実世界の自動運転データで実行されるレーダ・ライダーicpのローカライズエラーを、翻訳で54.94%、回転で68.39%削減する。

This paper presents a novel deep-learning-based approach to improve localizing radar measurements against lidar maps. Although the state of the art for localization is matching lidar data to lidar maps, radar has been considered as a promising alternative, as it is potentially more resilient against adverse weather such as precipitation and heavy fog. To make use of existing high-quality lidar maps, while maintaining performance in adverse weather, matching radar data to lidar maps is of interest. However, owing in part to the unique artefacts present in radar measurements, radar-lidar localization has struggled to achieve comparable performance to lidar-lidar systems, preventing it from being viable for autonomous driving. This work builds on an ICP-based radar-lidar localization system by including a learned preprocessing step that weights radar points based on high-level scan information. Combining a proven analytical approach with a learned weight reduces localization errors in radar-lidar ICP results run on real-world autonomous driving data by up to 54.94% in translation and 68.39% in rotation, while maintaining interpretability and robustness.
翻訳日:2023-09-19 19:44:09 公開日:2023-09-15
# MusiLingo: 音楽キャプションとクエリ応答のための事前学習言語モデルによる音楽とテキストのブリッジ

MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response ( http://arxiv.org/abs/2309.08730v1 )

ライセンス: Link先を確認
Zihao Deng, Yinghao Ma, Yudong Liu, Rongchen Guo, Ge Zhang, Wenhu Chen, Wenhao Huang, Emmanouil Benetos(参考訳) 大規模言語モデル(llm)はマルチモーダルアプリケーションにおいて大きな可能性を示しているが、テキストと音楽の領域の収束は比較的未開拓である。 このギャップに対処するために,音楽キャプション生成と音楽関連クエリ応答のための新しいシステムMusiLingoを提案する。 MusiLingoは、事前訓練された冷凍音楽オーディオモデルMERTと冷凍LLaMA言語モデルとの整列のために単一のプロジェクション層を使用し、音楽オーディオとテキストコンテキストのギャップを埋める。 広範な音楽キャプションデータセットでトレーニングし、指導データで微調整する。 高品質な音楽Q&Aデータセットが不足しているため、私たちはMusicCapsからMusicInstruct(MI)データセットを作成しました。 音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。 我々の導入したデータセットは、以前のものを超える顕著な進歩を可能にする。

Large Language Models (LLMs) have shown immense potential in multimodal applications, yet the convergence of textual and musical domains remains relatively unexplored. To address this gap, we present MusiLingo, a novel system for music caption generation and music-related query responses. MusiLingo employs a single projection layer to align music representations from the pre-trained frozen music audio model MERT with the frozen LLaMA language model, bridging the gap between music audio and textual contexts. We train it on an extensive music caption dataset and fine-tune it with instructional data. Due to the scarcity of high-quality music Q&A datasets, we created the MusicInstruct (MI) dataset from MusicCaps, tailored for open-ended music inquiries. Empirical evaluations demonstrate its competitive performance in generating music captions and composing music-related Q&A pairs. Our introduced dataset enables notable advancements beyond previous ones.
翻訳日:2023-09-19 19:43:47 公開日:2023-09-15
# SculptBot:3次元変形可能なオブジェクト操作のための事前学習モデル

SculptBot: Pre-Trained Models for 3D Deformable Object Manipulation ( http://arxiv.org/abs/2309.08728v1 )

ライセンス: Link先を確認
Alison Bartsch, Charlotte Avra, Amir Barati Farimani(参考訳) 変形可能な物体操作は、高い自由度と厳しい自己排他性を示すことによって、ロボット操作において独特の課題を呈する。 粘土やパン生地のモデリングなどの塑性挙動を示す材料は、応力下で永久に変形し、常に形状が変化するため、状態表現も困難である。 本研究では,ロボット彫刻を並列グリップで行うことで,これらの課題について検討する。 本研究では,点雲を状態表現として利用し,事前学習した点雲再構成変換器を用いて潜時力学モデルを学習し,把持動作による材料変形を予測するシステムを提案する。 我々は,モデルベースプランナの効率をさらに向上するために,点雲間の幾何学的差異を考慮に入れた新しいアクションサンプリングアルゴリズムを設計する。 すべてのデータと実験は、すべて現実世界で行われる。 実験により, 提案手法は粘土の力学をうまく捉えることができ, 様々な形状を生成できることを示した。

Deformable object manipulation presents a unique set of challenges in robotic manipulation by exhibiting high degrees of freedom and severe self-occlusion. State representation for materials that exhibit plastic behavior, like modeling clay or bread dough, is also difficult because they permanently deform under stress and are constantly changing shape. In this work, we investigate each of these challenges using the task of robotic sculpting with a parallel gripper. We propose a system that uses point clouds as the state representation and leverages pre-trained point cloud reconstruction Transformer to learn a latent dynamics model to predict material deformations given a grasp action. We design a novel action sampling algorithm that reasons about geometrical differences between point clouds to further improve the efficiency of model-based planners. All data and experiments are conducted entirely in the real world. Our experiments show the proposed system is able to successfully capture the dynamics of clay, and is able to create a variety of simple shapes.
翻訳日:2023-09-19 19:43:28 公開日:2023-09-15
# テーラー標本を用いた反復訓練による管構造の分割

Segmentation of Tubular Structures Using Iterative Training with Tailored Samples ( http://arxiv.org/abs/2309.08727v1 )

ライセンス: Link先を確認
Wei Liao(参考訳) 分割マスクを同時に計算し,線トポロジーを用いた管状構造物の中心線を抽出する最小経路法を提案する。 最小経路法は、様々な用途において管状構造の分断に一般的に用いられる。 最近の手法ではcnnで抽出された特徴を使用し、ハンドチューニングされた特徴を用いた手法よりも優れていることが多い。 しかし、CNNベースの手法では、トレーニングに使用されるサンプルは不適切に生成され、推論中に発生するサンプルとは大きく異なる。 既存のアノテーションを変更することなく、ミニマルパスメソッド用に特別に調整されたトレーニングサンプルを生成できる新しい反復トレーニングスキームを導入することで、この矛盾にアプローチする。 提案手法では,セグメンテーションマスクとセンタラインは後処理によって決定されるのではなく,同じステップで得られる。 本手法では,注釈付き訓練画像はほとんど必要としない。 衛星画像と医用画像を含む3つの公開データセットに対する以前の7つのアプローチと比較すると,本手法はセグメンテーションマスクとセンターラインの両方において最先端の結果が得られる。

We propose a minimal path method to simultaneously compute segmentation masks and extract centerlines of tubular structures with line-topology. Minimal path methods are commonly used for the segmentation of tubular structures in a wide variety of applications. Recent methods use features extracted by CNNs, and often outperform methods using hand-tuned features. However, for CNN-based methods, the samples used for training may be generated inappropriately, so that they can be very different from samples encountered during inference. We approach this discrepancy by introducing a novel iterative training scheme, which enables generating better training samples specifically tailored for the minimal path methods without changing existing annotations. In our method, segmentation masks and centerlines are not determined after one another by post-processing, but obtained using the same steps. Our method requires only very few annotated training images. Comparison with seven previous approaches on three public datasets, including satellite images and medical images, shows that our method achieves state-of-the-art results both for segmentation masks and centerlines.
翻訳日:2023-09-19 19:43:12 公開日:2023-09-15
# クロスドメインペデストリアン検出の再考:インスタンスフリーワンステージ検出のためのバックグラウンド焦点配向フレームワーク

Rethinking Cross-Domain Pedestrian Detection: A Background-Focused Distribution Alignment Framework for Instance-Free One-Stage Detectors ( http://arxiv.org/abs/2309.08771v1 )

ライセンス: Link先を確認
Yancheng Cai, Bo Zhang, Baopu Li, Tao Chen, Hongliang Yan, Jingdong Zhang, Jiahao Xu(参考訳) クロスドメイン歩行者検出は、あるラベルリッチドメインから別のラベルスカースドメインへの歩行者検出器の一般化を目的としている。 最近の研究は、インスタンスレベルまたはイメージレベルでドメイン適応検出器を訓練するためにドメインアライメントにフォーカスしています。 実用的な観点からは、1段検出器の方が高速である。 したがって、インスタンスレベルの提案がなく、画像レベルの機能アライメントしか実行できない高速1段階検出器のためのクロスドメインアルゴリズムの設計に集中する。 しかし、純粋な画像レベルの特徴アライメントは、フォアグラウンド/バックグラウンドのミスアライメント問題を引き起こし、すなわち、ソースドメインイメージのフォアグラウンド特徴がターゲットドメインイメージの背景特徴と誤って一致している。 この問題に対処するために,画像レベルのクロスドメインアライメントにおける前景と背景の重要性を体系的に分析し,背景が画像レベルのクロスドメインアライメントにおいてより重要な役割を果たすことを知る。 そこで我々は,前景の特徴がクロスドメインアライメントステージに与える影響を最小限に抑えつつ,ドメイン間背景特徴アライメントに着目した。 本稿では,領域適応型一段歩行者検知器を訓練するための新しい枠組み,すなわち背景焦点分布アライメント(bfda)を提案する。 具体的には、BFDAはまず背景の特徴を画像の特徴マップから切り離し、新しい長短距離判別器で調整する。

Cross-domain pedestrian detection aims to generalize pedestrian detectors from one label-rich domain to another label-scarce domain, which is crucial for various real-world applications. Most recent works focus on domain alignment to train domain-adaptive detectors either at the instance level or image level. From a practical point of view, one-stage detectors are faster. Therefore, we concentrate on designing a cross-domain algorithm for rapid one-stage detectors that lacks instance-level proposals and can only perform image-level feature alignment. However, pure image-level feature alignment causes the foreground-background misalignment issue to arise, i.e., the foreground features in the source domain image are falsely aligned with background features in the target domain image. To address this issue, we systematically analyze the importance of foreground and background in image-level cross-domain alignment, and learn that background plays a more critical role in image-level cross-domain alignment. Therefore, we focus on cross-domain background feature alignment while minimizing the influence of foreground features on the cross-domain alignment stage. This paper proposes a novel framework, namely, background-focused distribution alignment (BFDA), to train domain adaptive onestage pedestrian detectors. Specifically, BFDA first decouples the background features from the whole image feature maps and then aligns them via a novel long-short-range discriminator.
翻訳日:2023-09-19 19:36:30 公開日:2023-09-15
# ロータークラフトによる離着陸支援のためのマルチスケールfiducial markerの使用

The Use of Multi-Scale Fiducial Markers To Aid Takeoff and Landing Navigation by Rotorcraft ( http://arxiv.org/abs/2309.08769v1 )

ライセンス: Link先を確認
Jongwon Lee, Su Yeon Choi, Timothy Bretl(参考訳) 本稿では,ロータクラフトに装着したカラーカメラによるフィデューシャルマーカー(人工ランドマーク)の検出に対する環境条件の影響を定量化する。 我々は、複数のスケールで検出できるようにネストできる格子細胞の白黒パターンを持つ正方形マーカーに注意を向ける。 これらのマーカーは、都市部における空飛ぶ車両による精密離着陸の信頼性を高める可能性がある。 特に先行研究では、これらのマーカーは高い精度(偽陽性が少ない)と高いリコール(偽陰性が少ない)で検出できることが示されている。 しかし、この以前の研究のほとんどは、手持ちカメラで屋内で収集された画像シーケンスに基づいている。 本研究は,気温,照明,風速,湿度,可視性,降水量の変動を含む環境条件下での半自律離着陸作業において,四重項にカメラを装着して屋外に収集した画像系列に基づく。 精度とリコールに加えて、パフォーマンス対策には連続性、可用性、堅牢性、レジリエンス、カバレッジボリュームが含まれる。 データセットと分析に使ったコードの両方をオープンソースとして公開しています。

This paper quantifies the impact of adverse environmental conditions on the detection of fiducial markers (i.e., artificial landmarks) by color cameras mounted on rotorcraft. We restrict our attention to square markers with a black-and-white pattern of grid cells that can be nested to allow detection at multiple scales. These markers have the potential to enhance the reliability of precision takeoff and landing at vertiports by flying vehicles in urban settings. Prior work has shown, in particular, that these markers can be detected with high precision (i.e., few false positives) and high recall (i.e., few false negatives). However, most of this prior work has been based on image sequences collected indoors with hand-held cameras. Our work is based on image sequences collected outdoors with cameras mounted on a quadrotor during semi-autonomous takeoff and landing operations under adverse environmental conditions that include variations in temperature, illumination, wind speed, humidity, visibility, and precipitation. In addition to precision and recall, performance measures include continuity, availability, robustness, resiliency, and coverage volume. We release both our dataset and the code we used for analysis to the public as open source.
翻訳日:2023-09-19 19:35:56 公開日:2023-09-15
# 大規模言語モデルによるマイニング特許による機能ラベルと化学構造の統合

Mining Patents with Large Language Models Demonstrates Congruence of Functional Labels and Chemical Structures ( http://arxiv.org/abs/2309.08765v1 )

ライセンス: Link先を確認
Clayton W. Kosonocky, Claus O. Wilke, Edward M. Marcotte, and Andrew D. Ellington(参考訳) 構造から化学機能を予測することは、新薬の発見と再導入から新素材の創造に至るまで、化学科学の主要な目標である。 最近、新しい機械学習アルゴリズムは、様々な化学関数にまたがる一般的な予測モデルの可能性を開く。 本稿では,これらの資源が獲得した化学機能に関する情報を統合・活用するために,大規模言語モデルを化学特許に適用することの課題について考察する。 化学特許には化学機能に関する豊富な知識が含まれているが、高品質の機能ラベルを抽出できないため、データセットとしての有用性は歴史的に無視されている。 スケーラブルなChatGPTによる特許要約と単語埋め込みラベルクリーニングパイプラインを用いて,100K分子とその特許由来の機能ラベルを含むケミカル関数(CheF)データセットを導出する。 機能ラベルは高品質であることが確認され,機能ラベルと化学構造空間との強い関係が検出された。 さらに, 機能ラベルの共起グラフはロバストな意味構造を持ち, それらの化合物の機能的関連性を調べることができた。 その後、CheFデータセットのモデルをトレーニングし、化合物に新しい機能ラベルを割り当てました。 このモデルを用いて、承認されたC型肝炎ウイルスを再現し、特許に記載されていない抗ウイルス機構を解明し、可溶性セロトニン関連薬剤を同定した。 CheFデータセットと関連するモデルは、化学機能を予測するための有望な新しいアプローチを提供する。

Predicting chemical function from structure is a major goal of the chemical sciences, from the discovery and repurposing of novel drugs to the creation of new materials. Recently, new machine learning algorithms are opening up the possibility of general predictive models spanning many different chemical functions. Here, we consider the challenge of applying large language models to chemical patents in order to consolidate and leverage the information about chemical functionality captured by these resources. Chemical patents contain vast knowledge on chemical function, but their usefulness as a dataset has historically been neglected due to the impracticality of extracting high-quality functional labels. Using a scalable ChatGPT-assisted patent summarization and word-embedding label cleaning pipeline, we derive a Chemical Function (CheF) dataset, containing 100K molecules and their patent-derived functional labels. The functional labels were validated to be of high quality, allowing us to detect a strong relationship between functional label and chemical structural spaces. Further, we find that the co-occurrence graph of the functional labels contains a robust semantic structure, which allowed us in turn to examine functional relatedness among the compounds. We then trained a model on the CheF dataset, allowing us to assign new functional labels to compounds. Using this model, we were able to retrodict approved Hepatitis C antivirals, uncover an antiviral mechanism undisclosed in the patent, and identify plausible serotonin-related drugs. The CheF dataset and associated model offers a promising new approach to predict chemical functionality.
翻訳日:2023-09-19 19:35:21 公開日:2023-09-15
# 偏り:視覚トランスフォーマーは、畳み込みニューラルネットワークよりもジェンダーバイアスを増幅するのか?

Biased Attention: Do Vision Transformers Amplify Gender Bias More than Convolutional Neural Networks? ( http://arxiv.org/abs/2309.08760v1 )

ライセンス: Link先を確認
Abhishek Mandal, Susan Leavy, and Suzanne Little(参考訳) コンピュータビジョンで使用されるディープニューラルネットワークは、ジェンダーバイアスのような多くの社会的バイアスを示すことが示されている。 ビジョントランスフォーマー(ViT)は、コンピュータビジョンアプリケーションにおいて、画像分類などの多くのタスクにおいて、畳み込みニューラルネットワーク(CNN)を上回っている。 しかし,コンピュータビジョンにおけるバイアス軽減に関する研究は主にcnnに焦点をあてていることから,異なるネットワークアーキテクチャがバイアス増幅の可能性に与える影響を評価することが重要である。 そこで本稿では,アーキテクチャのバイアス,精度差を測定するための新しい指標を提案する。 これら2つのアーキテクチャに属するモデルが大規模マルチモーダルモデルの一部として使用される場合のバイアス増幅について検討し、dall-eやstable diffusionといった多くの生成モデルにおいて重要なモデルであるコントラスト言語イメージプリトレーニングの異なる画像エンコーダを評価する。 実験では,特徴抽出・埋め込みモデルや学習特性の異なるモデルが採用するさまざまな手法により,建築が社会バイアスの増幅に一役買うことを実証した。 この研究によると、vitsはcnnよりも男女のバイアスを増幅した

Deep neural networks used in computer vision have been shown to exhibit many social biases such as gender bias. Vision Transformers (ViTs) have become increasingly popular in computer vision applications, outperforming Convolutional Neural Networks (CNNs) in many tasks such as image classification. However, given that research on mitigating bias in computer vision has primarily focused on CNNs, it is important to evaluate the effect of a different network architecture on the potential for bias amplification. In this paper we therefore introduce a novel metric to measure bias in architectures, Accuracy Difference. We examine bias amplification when models belonging to these two architectures are used as a part of large multimodal models, evaluating the different image encoders of Contrastive Language Image Pretraining which is an important model used in many generative models such as DALL-E and Stable Diffusion. Our experiments demonstrate that architecture can play a role in amplifying social biases due to the different techniques employed by the models for feature extraction and embedding as well as their different learning properties. This research found that ViTs amplified gender bias to a greater extent than CNNs
翻訳日:2023-09-19 19:34:24 公開日:2023-09-15
# 極座標再構成による円形クラスタリング

Circular Clustering with Polar Coordinate Reconstruction ( http://arxiv.org/abs/2309.08757v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Paul Sajda(参考訳) 生物学的システムに見られる円形データを特徴づけることへの関心が高まっている。 これらのデータは、神経記録のシグナル位相から丸いゲノムのヌクレオチド配列まで、広範囲にまたがっている。 従来のクラスタリングアルゴリズムは、周期成分の違いを区別する能力が限られているため、しばしば不十分である。 極座標系で機能する現在のクラスタリングスキームには、角度のみに焦点を当てたり、一般性を欠いたりといった制限がある。 これらの限界を克服するために,円筒座標系への投影を利用して極座標系内の物体をよりよく表現する新しい解析フレームワークを提案する。 循環データの数学的特性を用いて, 再構成したデータセット内で常に正しいクラスタリング結果が得られ, データの周期的繰り返しが十分であることを示す。 我々のアプローチは一般に適用可能であり、ほとんどの最先端のクラスタリングアルゴリズムに組み込むことができる。 我々は,本手法が標準手法よりも適切で一貫したクラスタリング結果を生成することを,合成および実データで示す。 要約して,提案する分析フレームワークは,既存の極座標に基づくクラスタリング手法の限界を克服し,より正確かつ効率的な円データクラスタリング方法を提供する。

There is a growing interest in characterizing circular data found in biological systems. Such data are wide ranging and varied, from signal phase in neural recordings to nucleotide sequences in round genomes. Traditional clustering algorithms are often inadequate due to their limited ability to distinguish differences in the periodic component. Current clustering schemes that work in a polar coordinate system have limitations, such as being only angle-focused or lacking generality. To overcome these limitations, we propose a new analysis framework that utilizes projections onto a cylindrical coordinate system to better represent objects in a polar coordinate system. Using the mathematical properties of circular data, we show our approach always finds the correct clustering result within the reconstructed dataset, given sufficient periodic repetitions of the data. Our approach is generally applicable and adaptable and can be incorporated into most state-of-the-art clustering algorithms. We demonstrate on synthetic and real data that our method generates more appropriate and consistent clustering results compared to standard methods. In summary, our proposed analysis framework overcomes the limitations of existing polar coordinate-based clustering methods and provides a more accurate and efficient way to cluster circular data.
翻訳日:2023-09-19 19:34:03 公開日:2023-09-15
# 多様なニューラルオーディオ埋め込み -- 機能を取り戻す!

Diverse Neural Audio Embeddings -- Bringing Features back ! ( http://arxiv.org/abs/2309.08751v1 )

ライセンス: Link先を確認
Prateek Verma(参考訳) 現代のAIアーキテクチャの出現により、エンドツーエンドアーキテクチャへのシフトが起こった。 この方向転換によって、神経アーキテクチャは、タスクに応じて最適化されたドメイン固有のバイアス/知識なしで訓練される。 本稿では,様々な特徴表現,この場合のドメイン固有表現を用いて,音声埋め込みを学習する。 音のカテゴリー別に分類する場合、ピッチ、音色、ニューラル表現などの様々な音響特性に対して頑健な個別の埋め込みを学習するとともに、エンドツーエンドアーキテクチャを通して学習する。 例えば、ピッチや音色に基づく手作りの埋め込みは、それ自体では、完全なエンドツーエンド表現を打ち負かすことはできないが、エンドツーエンドの埋め込みと組み合わせることで、パフォーマンスが大幅に向上するのに役立つ。 この作業は、エンド・ツー・エンドのモデルにドメインの専門知識を導入して、堅牢で多様な表現を学び、エンド・ツー・エンドのモデルをトレーニングするだけのパフォーマンスを上回ります。

With the advent of modern AI architectures, a shift has happened towards end-to-end architectures. This pivot has led to neural architectures being trained without domain-specific biases/knowledge, optimized according to the task. We in this paper, learn audio embeddings via diverse feature representations, in this case, domain-specific. For the case of audio classification over hundreds of categories of sound, we learn robust separate embeddings for diverse audio properties such as pitch, timbre, and neural representation, along with also learning it via an end-to-end architecture. We observe handcrafted embeddings, e.g., pitch and timbre-based, although on their own, are not able to beat a fully end-to-end representation, yet adding these together with end-to-end embedding helps us, significantly improve performance. This work would pave the way to bring some domain expertise with end-to-end models to learn robust, diverse representations, surpassing the performance of just training end-to-end models.
翻訳日:2023-09-19 19:33:33 公開日:2023-09-15
# 文脈的バンディットに対するwasserstein分布的ロバストなポリシー評価と学習

Wasserstein Distributionally Robust Policy Evaluation and Learning for Contextual Bandits ( http://arxiv.org/abs/2309.08748v1 )

ライセンス: Link先を確認
Yi Shen, Pan Xu, Michael M. Zavlanos(参考訳) 環境との直接の相互作用なしに 多くの場合、データが収集される環境は、学習されたポリシーが適用される環境とは異なる。 学習・実行中の異なる環境の影響を考慮し,新しい環境の分布が不確実性集合内にあると仮定して,政策値の最悪のケース境界を計算する分散ロバスト最適化法(DRO)が開発されている。 通常、この不確実性集合はロギングデータセットから計算された経験的分布に関するKL分散に基づいて定義される。 しかし、KLの不確実性集合は様々な支持を持つ分布を包含できず、分布支援の幾何学的認識が欠如している。 その結果、klアプローチは実用的な環境ミスマッチに対処するのに不足し、最悪のシナリオへの過剰フィットにつながる。 これらの限界を克服するために、代わりにwasserstein距離を用いる新しいdroアプローチを提案する。 Wasserstein DRO は一般に KL DRO よりも計算コストが高いが,本手法は正規化手法と,その最適化を効率的に行う実践的(バイアス付き)確率勾配勾配法を提案する。 また,提案手法の有限標本複雑性と反復複雑性の理論的解析を行った。 さらに,ランダム化ストーク試験で記録された公開データセットを用いて,このアプローチを検証した。

Without direct interaction with the environment. Often, the environment in which the data are collected differs from the environment in which the learned policy is applied. To account for the effect of different environments during learning and execution, distributionally robust optimization (DRO) methods have been developed that compute worst-case bounds on the policy values assuming that the distribution of the new environment lies within an uncertainty set. Typically, this uncertainty set is defined based on the KL divergence around the empirical distribution computed from the logging dataset. However, the KL uncertainty set fails to encompass distributions with varying support and lacks awareness of the geometry of the distribution support. As a result, KL approaches fall short in addressing practical environment mismatches and lead to over-fitting to worst-case scenarios. To overcome these limitations, we propose a novel DRO approach that employs the Wasserstein distance instead. While Wasserstein DRO is generally computationally more expensive compared to KL DRO, we present a regularized method and a practical (biased) stochastic gradient descent method to optimize the policy efficiently. We also provide a theoretical analysis of the finite sample complexity and iteration complexity for our proposed method. We further validate our approach using a public dataset that was recorded in a randomized stoke trial.
翻訳日:2023-09-19 19:33:15 公開日:2023-09-15
# マルチモーダル階層表現を用いた脳mr-ultrasound合成

Unified Brain MR-Ultrasound Synthesis using Multi-Modal Hierarchical Representations ( http://arxiv.org/abs/2309.08747v1 )

ライセンス: Link先を確認
Reuben Dorent, Nazim Haouchie, Fryderyk K\"ogl, Samuel Joutard, Parikshit Juvekar, Erickson Torio, Alexandra Golby, Sebastien Ourselin, Sarah Frisken, Tom Vercauteren, Tina Kapur, William M. Wells(参考訳) MHVAE(Deep Hierarchical Variational Auto-Encoder, VAE)は, 様々なモードから欠落した画像を合成する。 階層的な潜在構造を持つマルチモーダルVAEを拡張し,不完全な画像集合を入力として扱う柔軟性を有しつつ,共通潜在表現にマルチモーダル画像を融合する確率的定式化を導入する。 さらに、よりシャープな画像を生成するために、逆学習を用いる。 関節内超音波(iUS)とMR(MR)合成の課題について,広範囲にわたる実験を行った。 提案モデルでは,マルチモーダルVAE,条件付きGAN,および現在最先端統合手法(ResViT)で画像の合成を行い,階層的潜在表現と原理的確率的融合操作の利点を実証した。 私たちのコードは \url{https://github.com/reubendo/mhvae} で公開されている。

We introduce MHVAE, a deep hierarchical variational auto-encoder (VAE) that synthesizes missing images from various modalities. Extending multi-modal VAEs with a hierarchical latent structure, we introduce a probabilistic formulation for fusing multi-modal images in a common latent representation while having the flexibility to handle incomplete image sets as input. Moreover, adversarial learning is employed to generate sharper images. Extensive experiments are performed on the challenging problem of joint intra-operative ultrasound (iUS) and Magnetic Resonance (MR) synthesis. Our model outperformed multi-modal VAEs, conditional GANs, and the current state-of-the-art unified method (ResViT) for synthesizing missing images, demonstrating the advantage of using a hierarchical latent representation and a principled probabilistic fusion operation. Our code is publicly available \url{https://github.com/ReubenDo/MHVAE}.
翻訳日:2023-09-19 19:32:51 公開日:2023-09-15
# ヘマトキシリンおよびエオシン染色組織像の転写学習による乳癌診断の改善

Improved Breast Cancer Diagnosis through Transfer Learning on Hematoxylin and Eosin Stained Histology Images ( http://arxiv.org/abs/2309.08745v1 )

ライセンス: Link先を確認
Fahad Ahmed, Reem Abdel-Salam, Leon Hamnett, Mary Adewunmi, Temitope Ayano(参考訳) 乳がんは世界中の女性にとって主要な死因の1つである。 早期スクリーニングは早期診断には不可欠であるが、がんが進行するにつれて生存率は低下する。 本研究では, 乳腺癌腫瘍の分類に, 組織学的(h\&e)染色画像のbracsデータセットを用いて, 乳腺全層画像(wsi)と腫瘍領域(roi)画像の両方を含む乳がん腫瘍の分類を行った。 xception, efficientnet, resnet50, inceptionresnetなど,imagenetの重みで事前学習されたさまざまなディープラーニングモデルを用いて実験を行った。 BRACSのROIを前処理し、画像増倍、アップサンプリング、データセット分割戦略を適用した。 デフォルトのデータセット分割では、ResNet50が66\% f1スコアを達成した。 カスタムデータセット分割では、アップサンプリングと画像拡張を行い、96.2\%のf1-scoreが得られた。 第2のアプローチでは, 偽陽性, 偽陰性分類の数が各クラスで 3 % 未満に減少した。 本研究は乳がん腫瘍とその亜型,特に非定型腫瘍および悪性腫瘍の早期診断と診断に大きく影響し,患者の予後を改善し,患者の死亡率を低下させる。 本研究は主に7種類の乳がん腫瘍の亜型を同定することに焦点を当てており, 実験モデルをさらに微調整して, 過去の乳がん組織学データセットにも応用できると考えている。

Breast cancer is one of the leading causes of death for women worldwide. Early screening is essential for early identification, but the chance of survival declines as the cancer progresses into advanced stages. For this study, the most recent BRACS dataset of histological (H\&E) stained images was used to classify breast cancer tumours, which contains both the whole-slide images (WSI) and region-of-interest (ROI) images, however, for our study we have considered ROI images. We have experimented using different pre-trained deep learning models, such as Xception, EfficientNet, ResNet50, and InceptionResNet, pre-trained on the ImageNet weights. We pre-processed the BRACS ROI along with image augmentation, upsampling, and dataset split strategies. For the default dataset split, the best results were obtained by ResNet50 achieving 66\% f1-score. For the custom dataset split, the best results were obtained by performing upsampling and image augmentation which results in 96.2\% f1-score. Our second approach also reduced the number of false positive and false negative classifications to less than 3\% for each class. We believe that our study significantly impacts the early diagnosis and identification of breast cancer tumors and their subtypes, especially atypical and malignant tumors, thus improving patient outcomes and reducing patient mortality rates. Overall, this study has primarily focused on identifying seven (7) breast cancer tumor subtypes, and we believe that the experimental models can be fine-tuned further to generalize over previous breast cancer histology datasets as well.
翻訳日:2023-09-19 19:32:36 公開日:2023-09-15
# パーソナライズされた食品画像分類:ベンチマークデータセットと新しいベースライン

Personalized Food Image Classification: Benchmark Datasets and New Baseline ( http://arxiv.org/abs/2309.08744v1 )

ライセンス: Link先を確認
Xinyue Pan, Jiangpeng He, and Fengqing Zhu(参考訳) 食品画像分類は、食品画像から自動栄養分析を可能にする、画像に基づく食事評価の基本的なステップである。 現在の多くの方法では、ディープニューラルネットワークを使用して、実際の食品消費パターンのダイナミズムを反映しない一般的な食品画像データセットをトレーニングしている。 パーソナライズされた食品分類は、個々の消費パターンを反映した食品画像を用いてディープニューラルネットワークをトレーニングすることでこの問題に対処することを目的としている。 しかし、この問題は未調査であり、データ収集の難しさから、個別の食品消費パターンを持つベンチマークデータセットが欠如している。 本研究では,実世界の参加者の毎日の食事パターン調査に基づいて作成されたfood101-personalと,食事研究に基づいて開発したvfnpersonalという2つのベンチマークパーソナライズデータセットについて紹介する。 また,自己教師付き学習と時間的画像特徴情報を活用し,食品画像分類のための新しい枠組みを提案する。 提案手法は両方のベンチマークデータセットで評価され,既存手法と比較して性能が向上した。 データセットは、https://skynet.ecn.purdue.edu/~pan161/dataset_personal.htmlで利用可能になった。

Food image classification is a fundamental step of image-based dietary assessment, enabling automated nutrient analysis from food images. Many current methods employ deep neural networks to train on generic food image datasets that do not reflect the dynamism of real-life food consumption patterns, in which food images appear sequentially over time, reflecting the progression of what an individual consumes. Personalized food classification aims to address this problem by training a deep neural network using food images that reflect the consumption pattern of each individual. However, this problem is under-explored and there is a lack of benchmark datasets with individualized food consumption patterns due to the difficulty in data collection. In this work, we first introduce two benchmark personalized datasets including the Food101-Personal, which is created based on surveys of daily dietary patterns from participants in the real world, and the VFNPersonal, which is developed based on a dietary study. In addition, we propose a new framework for personalized food image classification by leveraging self-supervised learning and temporal image feature information. Our method is evaluated on both benchmark datasets and shows improved performance compared to existing works. The dataset has been made available at: https://skynet.ecn.purdue.edu/~pan161/dataset_personal.html
翻訳日:2023-09-19 19:32:07 公開日:2023-09-15
# D3:ビジュアル質問応答におけるシステム一般化のためのデータ多様性設計

D3: Data Diversity Design for Systematic Generalization in Visual Question Answering ( http://arxiv.org/abs/2309.08798v1 )

ライセンス: Link先を確認
Amir Rahimi, Vanessa D'Amario, Moyuru Yamada, Kentaro Takemoto, Tomotake Sasaki, Xavier Boix(参考訳) 体系的一般化は知性の重要な側面であり、既知のサブタスクと概念を組み合わせて新しいタスクに一般化する能力を指す。 体系的な一般化に影響を与えることが示されている重要な要因の1つは、トレーニングデータの多様性である。 しかし、データは様々な要因を持つため、多様性は様々な方法で定義できる。 データ多様性の異なる側面が、体系的な一般化の欠如にどのように影響するかをより細かく理解する。 我々は,単純なタスク(例えば,いくつかのサブタスクや概念によって形成されるタスク)の多様性が,体系的一般化を達成する上で重要な役割を果たすことを示す,視覚質問応答問題(vqa)に新たな証拠を示す。 これは、多種多様な複雑なタスクを収集することが必須ではないことを意味しており、これは入手するのにコストがかかる可能性がある。 この結果は、トレーニングとテストデータの類似性とは独立して、VQA(モノリシックアーキテクチャとニューラルモジュールネットワーク)のためのよく知られたニューラルネットワークアーキテクチャのファミリーに適用できることを示す。 さらに、我々はニューラルモジュールネットワークが評価したデータ多様性のあらゆる形態を活用するのを観察し、一方、モノリシックアーキテクチャはより多くのデータを必要とする。 これらの知見は、データ多様性設計、ニューラルネットワークアーキテクチャ、体系的一般化能力の間の相互作用を理解するための第一歩となる。

Systematic generalization is a crucial aspect of intelligence, which refers to the ability to generalize to novel tasks by combining known subtasks and concepts. One critical factor that has been shown to influence systematic generalization is the diversity of training data. However, diversity can be defined in various ways, as data have many factors of variation. A more granular understanding of how different aspects of data diversity affect systematic generalization is lacking. We present new evidence in the problem of Visual Question Answering (VQA) that reveals that the diversity of simple tasks (i.e. tasks formed by a few subtasks and concepts) plays a key role in achieving systematic generalization. This implies that it may not be essential to gather a large and varied number of complex tasks, which could be costly to obtain. We demonstrate that this result is independent of the similarity between the training and testing data and applies to well-known families of neural network architectures for VQA (i.e. monolithic architectures and neural module networks). Additionally, we observe that neural module networks leverage all forms of data diversity we evaluated, while monolithic architectures require more extensive amounts of data to do so. These findings provide a first step towards understanding the interactions between data diversity design, neural network architectures, and systematic generalization capabilities.
翻訳日:2023-09-19 19:26:06 公開日:2023-09-15
# Rydberg原子との工学的カイラルスピン相互作用

Engineering chiral spin interactions with Rydberg atoms ( http://arxiv.org/abs/2309.08795v1 )

ライセンス: Link先を確認
Elena Kuznetsova, S. I. Mistakidis, Seth T. Rittenhouse, Susanne F. Yelin, H. R. Sadeghpour(参考訳) ライドバーグ原子配列との異方性とカイラルなジアルシンスキー・モリヤ(dm)相互作用をシミュレートする。 dmハミルトニアン(dm hamiltonian)は、1次元の光学格子またはトラップアレイで設計され、リドバーグスピンは移動媒介のリドバーグ原子を介して間接的に相互作用する。 XXZ と DM ハミルトニアンのホストは、周期的結合強度の相外符号でシミュレートすることができ、定常凝縮状態の初期状態では、DM相互作用は消滅する。 この理論はDM相互作用(DMI)ベクトル成分を第一原理から決定することができる。 Rydberg-Rydberg相互作用の固有の異方性は、DMI結合をXXZ相互作用に匹敵するように調整することを促進する。 この結果は,Rydberg原子配列を用いた非自明なトポロジカルスピンテクスチャの形成を実証する。

We propose to simulate the anisotropic and chiral Dzyaloshinskii-Moriya (DM) interaction with Rydberg atom arrays. The DM Hamiltonian is engineered in a one-dimensional optical lattice or trap array with effective long-range Rydberg spins, interacting indirectly via a mobile mediator Rydberg atom. A host of XXZ and DM Hamiltonians can be simulated with out-of-phase sign periodic coupling strengths; for initial states in a stationary condensate, the DM interaction vanishes. This theory allows for determination of the DM interaction (DMI) vector components from first principles. The inherent anisotropy of the Rydberg-Rydberg interactions, facilitates the DMI coupling to be tuned so as to be comparable to the XXZ interaction. Our results make plausible the formation of non-trivial topological spin textures with Rydberg atom arrays.
翻訳日:2023-09-19 19:25:47 公開日:2023-09-15
# ビデオにおけるてんかん発作の早期検出

Privacy-preserving Early Detection of Epileptic Seizures in Videos ( http://arxiv.org/abs/2309.08794v1 )

ライセンス: Link先を確認
Deval Mehta, Shobi Sivathamboo, Hugh Simpson, Patrick Kwan, Terence O`Brien, Zongyuan Ge(参考訳) 本研究では,ビデオ中の発作を早期に検出できる新しいフレームワーク(SETR-PKD)を導入することで,ビデオベースのてんかん発作分類の開発に寄与する。 具体的には,(1)患者のプライバシを保ちながら発作運動を符号化した発作ビデオから抽出した光学的流れの特徴を基盤として,(2)ビデオサンプルのより長い部分で訓練されたネットワークから,より短い部分で操作するネットワークまで,トランスフォーマーに基づく漸進的知識蒸留を利用する。 そこで,本提案フレームワークでは,発作のRGBビデオを直接操作することで患者のプライバシーを侵害する現在のアプローチの限界に対処するとともに,全ビデオサンプルを用いて発作のリアルタイム検出を阻害し,予測を行う。 われわれのSETR-PKDフレームワークは、トニック・クロニック発作(TCS)を83.9%の精度で検出できる。 私たちのデータとコードはhttps://github.com/DevD1092/seizure-detectionで利用可能です。

In this work, we contribute towards the development of video-based epileptic seizure classification by introducing a novel framework (SETR-PKD), which could achieve privacy-preserved early detection of seizures in videos. Specifically, our framework has two significant components - (1) It is built upon optical flow features extracted from the video of a seizure, which encodes the seizure motion semiotics while preserving the privacy of the patient; (2) It utilizes a transformer based progressive knowledge distillation, where the knowledge is gradually distilled from networks trained on a longer portion of video samples to the ones which will operate on shorter portions. Thus, our proposed framework addresses the limitations of the current approaches which compromise the privacy of the patients by directly operating on the RGB video of a seizure as well as impede real-time detection of a seizure by utilizing the full video sample to make a prediction. Our SETR-PKD framework could detect tonic-clonic seizures (TCSs) in a privacy-preserving manner with an accuracy of 83.9% while they are only half-way into their progression. Our data and code is available at https://github.com/DevD1092/seizure-detection
翻訳日:2023-09-19 19:25:32 公開日:2023-09-15
# Fin-Fact:マルチモーダル金融ファクトチェックと説明生成のためのベンチマークデータセット

Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation ( http://arxiv.org/abs/2309.08793v1 )

ライセンス: Link先を確認
Aman Rangapur, Haoran Wang and Kai Shu(参考訳) 金融ドメインにおけるファクトチェックは検討中であり、このドメインには品質データセットが不足している。 本稿では,金融領域におけるマルチモーダルファクトチェックのためのベンチマークデータセットfin-factを提案する。 特に、プロのファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。 テキストコンテンツと視覚コンテンツの両方を含むマルチモーダルな性質により、Fin-Factは事実分析を強化するために補完的な情報ソースを提供する。 その主な目的は、財務における誤った情報との戦い、透明性の育成、財務報告とニュース拡散に対する信頼の構築である。 洞察に富んだ説明を提供することで、Fin-Factは、ドメインの専門家やエンドユーザを含むユーザに対して、事実確認決定の背後にある理由の理解、クレームの信頼性の検証、事実確認プロセスにおける信頼の促進を可能にします。 Fin-Factデータセットは、実験コードとともにhttps://github.com/IIT-DM/Fin-Fact/.comで利用可能です。

Fact-checking in financial domain is under explored, and there is a shortage of quality dataset in this domain. In this paper, we propose Fin-Fact, a benchmark dataset for multimodal fact-checking within the financial domain. Notably, it includes professional fact-checker annotations and justifications, providing expertise and credibility. With its multimodal nature encompassing both textual and visual content, Fin-Fact provides complementary information sources to enhance factuality analysis. Its primary objective is combating misinformation in finance, fostering transparency, and building trust in financial reporting and news dissemination. By offering insightful explanations, Fin-Fact empowers users, including domain experts and end-users, to understand the reasoning behind fact-checking decisions, validating claim credibility, and fostering trust in the fact-checking process. The Fin-Fact dataset, along with our experimental codes is available at https://github.com/IIT-DM/Fin-Fact/.
翻訳日:2023-09-19 19:25:09 公開日:2023-09-15
# bioinspiredllm: 生物および生物にインスパイアされた物質の力学のための会話型大言語モデル

BioinspiredLLM: Conversational Large Language Model for the Mechanics of Biological and Bio-inspired Materials ( http://arxiv.org/abs/2309.08788v1 )

ライセンス: Link先を確認
Rachel K. Luu, Markus J. Buehler(参考訳) 生体材料研究とバイオインスパイアされた材料科学はよく確立されているが、驚くほどの知識が工学的解に体系的に翻訳されている。 発見と洞察の導出を加速するために、オープンソースの自己回帰変換器大言語モデルであるBioinspiredLLMが報告されている。 このモデルには、構造的生物学的およびバイオインスパイアされた材料分野における1000以上の査読された記事のコーパスが組み込まれており、積極的にインタラクティブに情報をリコールし、研究タスクを支援し、創造性のためのエンジンとして機能するよう促すことができる。 このモデルは、クエリー時に生体材料に関する情報を正確にリコールできるだけでなく、自身のパフォーマンスを評価することができる生体材料に関する質問や回答を定式化できるという例によって証明されている。 バイオインスパイアedllmはまた、生物材料の設計に関する健全な仮説を発達させることも示されており、これまで明示的に研究されたことのない物質に対して顕著にそうである。 最後に、このモデルは、従来の素材デザインプロセスを再形成できるワークフローにおいて、他の生成人工知能モデルと協調する素晴らしい可能性を示していた。 この協調生成型人工知能手法は、バイオインスパイアされた材料設計ワークフローを刺激し、強化することができる。 生体材料は、複数の科学分野と、バイオインスパイアされたedllmのようなモデルが、知識領域をつなぐのに役立つ重要な交差点にある。

The study of biological materials and bio-inspired materials science is well established; however, surprisingly little knowledge has been systematically translated to engineering solutions. To accelerate discovery and guide insights, an open-source autoregressive transformer large language model, BioinspiredLLM, is reported. The model was finetuned with a corpus of over a thousand peer-reviewed articles in the field of structural biological and bio-inspired materials and can be prompted to actively and interactively recall information, assist with research tasks, and function as an engine for creativity. The model has proven by example that it is not only able to accurately recall information about biological materials when queried but also formulate biomaterials questions and answers that can evaluate its own performance. BioinspiredLLM also has been shown to develop sound hypotheses regarding biological materials design and remarkably so for materials that have never been explicitly studied before. Lastly, the model showed impressive promise in collaborating with other generative artificial intelligence models in a workflow that can reshape the traditional materials design process. This collaborative generative artificial intelligence method can stimulate and enhance bio-inspired materials design workflows. Biological materials is at a critical intersection of multiple scientific fields and models like BioinspiredLLM help to connect knowledge domains.
翻訳日:2023-09-19 19:24:52 公開日:2023-09-15
# Beyond Labels: コンテンツメタデータにディープラーニングとLLMを活用する

Beyond Labels: Leveraging Deep Learning and LLMs for Content Metadata ( http://arxiv.org/abs/2309.08787v1 )

ライセンス: Link先を確認
Saurabh Agrawal, John Trenkle, Jaya Kawale(参考訳) コンテンツメタデータは、ジャンル、キャスト、プロットシンプシス、ボックスオフィスの要約など、映画の様々な側面に関する貴重な情報を提供するため、映画のレコメンデーションシステムにおいて非常に重要な役割を果たす。 メタデータの分析は、ユーザの好みを理解して、パーソナライズされたレコメンデーションとアイテムのコールドスタートを生成するのに役立つ。 この講演では、特定のタイプのメタデータである \textit{genre}ラベルに注目します。 映画やテレビシリーズに関連するジャンルのレーベルは、タイトルのコレクションを異なるテーマに分類し、観客の期待を設定するのに役立ちます。 本稿では,ジャンルラベル情報の使用に伴う課題をいくつか提示し,我々が「\textit{genre spectrum}」と呼ぶジャンル情報を調べる新しい方法を提案する。 Genre Spectrumは、さまざまなジャンルをタイトルで捉え、オフラインとオンラインの実験は、このアプローチの有効性を裏付けるものです。 さらに,ユーザの2次元ホームグリッドにおけるレコメンデーションの効果的な編成を実現するために,コンテンツメタデータの拡張におけるllmの応用についても述べる。

Content metadata plays a very important role in movie recommender systems as it provides valuable information about various aspects of a movie such as genre, cast, plot synopsis, box office summary, etc. Analyzing the metadata can help understand the user preferences to generate personalized recommendations and item cold starting. In this talk, we will focus on one particular type of metadata - \textit{genre} labels. Genre labels associated with a movie or a TV series help categorize a collection of titles into different themes and correspondingly setting up the audience expectation. We present some of the challenges associated with using genre label information and propose a new way of examining the genre information that we call as the \textit{Genre Spectrum}. The Genre Spectrum helps capture the various nuanced genres in a title and our offline and online experiments corroborate the effectiveness of the approach. Furthermore, we also talk about applications of LLMs in augmenting content metadata which could eventually be used to achieve effective organization of recommendations in user's 2-D home-grid.
翻訳日:2023-09-19 19:24:28 公開日:2023-09-15
# 分割型経験的ベイズECMアルゴリズムによるヘテロセダスティックスパース高次元線形回帰

Heteroscedastic sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2309.08783v1 )

ライセンス: Link先を確認
Anja Zgodic, Ray Bai, Jiajia Zhang, Yuan Wang, Chris Rorden, Alexander McLain(参考訳) 高次元データに対するスパース線形回帰法は、残差が一定の分散を持つと仮定することが多い。 この仮定が破られた場合、推定係数のバイアス、不適切な長さの予測間隔、I型エラーの増加につながる可能性がある。 本稿では,H-PROBE(H-PROBE)アルゴリズムを分割した経験的ベイズ予測条件付き回帰モデルを提案する。 H-PROBE はパラメータ拡張期待-決定-最大化(PX-ECM)アルゴリズムに基づく計算効率のよい最大値推定手法である。 ハイパーパラメータのプラグイン経験ベイズ推定を通じて、回帰パラメータの最小の事前仮定を必要とする。 分散モデルは、多変量対ガンマ分布論の最近の進歩を利用し、不均一性に影響を与えると仮定された共変量を含むことができる。 脳卒中患者の脳損傷の高分解能T2ニューロン像に対するAQ(Aphasia Quotient)との関連について検討した。 AQは言語障害の重要な尺度であり、治療決定を通知するが、測定し、異義性エラーを被るのは難しい。 その結果、高次元神経画像を用いて残差の不均一性を正確に反映したAQの予測間隔を予測および提供することが臨床的に重要であり、本論文の目的である。 以上の結果から,h-probeは不均一性のマーカーを用いて,標準法よりも狭い区間幅を予測できることを示した。 さらに, シミュレーション実験により, 提案手法が競合手法よりも優れた予測, 変数選択, 予測推論をもたらすことを示した。

Sparse linear regression methods for high-dimensional data often assume that residuals have constant variance. When this assumption is violated, it can lead to bias in estimated coefficients, prediction intervals with improper length, and increased type I errors. This paper proposes a heteroscedastic (H) high-dimensional linear regression model through a partitioned empirical Bayes Expectation Conditional Maximization (H-PROBE) algorithm. H-PROBE is a computationally efficient maximum a posteriori (MAP) estimation approach based on a Parameter-Expanded Expectation-Conditional-Maximization (PX-ECM) algorithm. It requires minimal prior assumptions on the regression parameters through plug-in empirical Bayes estimates of hyperparameters. The variance model uses recent advances in multivariate log-Gamma distribution theory and can include covariates hypothesized to impact heterogeneity. The motivation of our approach is a study relating Aphasia Quotient (AQ) to high-resolution T2 neuroimages of brain damage in stroke patients. AQ is a vital measure of language impairment and informs treatment decisions, but it is challenging to measure and subject to heteroscedastic errors. As a result, it is of clinical importance -- and the goal of this paper -- to use high-dimensional neuroimages to predict and provide prediction intervals for AQ that accurately reflect the heterogeneity in the residual variance. Our analysis demonstrates that H-PROBE can use markers of heterogeneity to provide prediction interval widths that are narrower than standard methods without sacrificing coverage. Further, through extensive simulation studies, we exhibit that the proposed approach results in superior prediction, variable selection, and predictive inference than competing methods.
翻訳日:2023-09-19 19:24:08 公開日:2023-09-15
# 感情分析のための自己学習におけるインスタンス選択戦略に関する実証的研究

An Empirical Study on Instance Selection Strategies in Self-training for Sentiment Analysis ( http://arxiv.org/abs/2309.08777v1 )

ライセンス: Link先を確認
Haochen Liu, Sai Krishna Rallabandi, Yijing Wu, Parag Pravin Dakle, Preethi Raghavan(参考訳) 感性分析は、テキストから主観的感情を識別し抽出する自然言語処理において重要な課題である。 近年,少量のラベル付きデータと大量のラベル付きデータを活用することで感情分析モデルを構築するための,経済的かつ効率的な手法として自己学習が登場している。 しかし, 自己学習手法の性能は, 徹底的に研究されていないインスタンス選択戦略の選択に大きく依存している。 本稿では,2つの公開感情データセットにおける自己学習のための各種インスタンス選択戦略について実証研究を行い,その戦略とハイパーパラメータが様々な少数ショット環境での自己学習性能に与える影響について検討する。

Sentiment analysis is a crucial task in natural language processing that involves identifying and extracting subjective sentiment from text. Self-training has recently emerged as an economical and efficient technique for developing sentiment analysis models by leveraging a small amount of labeled data and a larger amount of unlabeled data. However, the performance of a self-training procedure heavily relies on the choice of the instance selection strategy, which has not been studied thoroughly. This paper presents an empirical study on various instance selection strategies for self-training on two public sentiment datasets, and investigates the influence of the strategy and hyper-parameters on the performance of self-training in various few-shot settings.
翻訳日:2023-09-19 19:23:43 公開日:2023-09-15
# マルチタスク強化学習のための投影型タスク固有層

Projected Task-Specific Layers for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2309.08776v1 )

ライセンス: Link先を確認
Josselin Somerville Roberts, Julia Di(参考訳) マルチタスク強化学習は、家庭や職場のさまざまな操作タスクをロボットがスケールできるようにする。 しかし、あるタスクから別のタスクへ一般化し、負のタスク干渉を緩和することは依然として課題である。 タスク間で情報をうまく共有することでこの課題に対処するには、タスクの基盤となる構造がどの程度うまく捕捉されるかに依存する。 そこで本研究では,タスク特化層を通してタスク特化補正を行う共通ポリシーを活用し,共有および可変タスク情報の表現性を向上させる,新しいアーキテクチャであるprojected task-specific layers (ptsl)を提案する。 次に,Sawyer アームの 10 と 50 の目標条件タスクからなる Meta-World の MT10 と MT50 ベンチマークにおいて,我々のモデルが技術状況より優れていることを示す。

Multi-task reinforcement learning could enable robots to scale across a wide variety of manipulation tasks in homes and workplaces. However, generalizing from one task to another and mitigating negative task interference still remains a challenge. Addressing this challenge by successfully sharing information across tasks will depend on how well the structure underlying the tasks is captured. In this work, we introduce our new architecture, Projected Task-Specific Layers (PTSL), that leverages a common policy with dense task-specific corrections through task-specific layers to better express shared and variable task information. We then show that our model outperforms the state of the art on the MT10 and MT50 benchmarks of Meta-World consisting of 10 and 50 goal-conditioned tasks for a Sawyer arm.
翻訳日:2023-09-19 19:23:31 公開日:2023-09-15
# 表現類似性正規化による音声生成制御

Enhance audio generation controllability through representation similarity regularization ( http://arxiv.org/abs/2309.08773v1 )

ライセンス: Link先を確認
Yangyang Shi and Gael Le Lan and Varun Nagaraja and Zhaoheng Ni and Xinhao Mei and Ernie Chang and Forrest Iandola and Yang Liu and Vikas Chandra(参考訳) 本稿では,モデル学習中の音声表現とテキスト表現のアライメントを強調することで,音声生成の制御性を高めるための革新的手法を提案する。 言語モデルに基づく音声生成の文脈において、このモデルはテキストおよび音声トークン表現からの入力を利用して、その後の音声トークンを予測する。 しかし、現在の構成では、選択されたテキスト表現と言語モデルの予測との整合性を確保するために明確な正規化が欠けている。 本提案では,音声とテキスト表現の正規化,特にcfg(classifier-free guidance)フェーズにおいて,言語モデル学習中の相互注意からテキスト条件を除外する手法を提案する。 この表現正規化の目的は、同じ訓練バッチ内の他のサンプルと比較して、音声とテキストの類似度の差を最小化することである。 音楽および音声生成タスクにおける実験結果から,提案手法は,音声および音楽生成のための客観的指標の改善と,音声生成のための人間の知覚の強化に繋がることが示された。

This paper presents an innovative approach to enhance control over audio generation by emphasizing the alignment between audio and text representations during model training. In the context of language model-based audio generation, the model leverages input from both textual and audio token representations to predict subsequent audio tokens. However, the current configuration lacks explicit regularization to ensure the alignment between the chosen text representation and the language model's predictions. Our proposal involves the incorporation of audio and text representation regularization, particularly during the classifier-free guidance (CFG) phase, where the text condition is excluded from cross attention during language model training. The aim of this proposed representation regularization is to minimize discrepancies in audio and text similarity compared to other samples within the same training batch. Experimental results on both music and audio generation tasks demonstrate that our proposed methods lead to improvements in objective metrics for both audio and music generation, as well as an enhancement in the human perception for audio generation.
翻訳日:2023-09-19 19:23:16 公開日:2023-09-15
# EgoObjects: 細粒度オブジェクト理解のための大規模エゴセントリックデータセット

EgoObjects: A Large-Scale Egocentric Dataset for Fine-Grained Object Understanding ( http://arxiv.org/abs/2309.08816v1 )

ライセンス: Link先を確認
Chenchen Zhu, Fanyi Xiao, Andres Alvarado, Yasmine Babaei, Jiabo Hu, Hichem El-Mohri, Sean Chang Culatana, Roshan Sumbaly, Zhicheng Yan(参考訳) 自我中心の視覚データにおけるオブジェクト理解は、自我中心の視覚における基本的な研究トピックであることは間違いない。 しかし、既存のオブジェクトデータセットは、非エゴセントリックであるか、オブジェクトカテゴリ、ビジュアルコンテンツ、アノテーションの粒度に制限がある。 本稿では,細粒度オブジェクト理解のための大規模エゴセントリックデータセットであるegoobjectsを紹介する。 Pilotバージョンには、50か国以上の250人の参加者が4つのウェアラブルデバイスを使って収集した9Kビデオと、368のオブジェクトカテゴリからの650Kオブジェクトアノテーションが含まれている。 オブジェクトカテゴリラベルのみを含む以前のデータセットとは異なり、EgoObjectsは各オブジェクトにインスタンスレベルの識別子をアノテートし、14K以上のユニークなオブジェクトインスタンスを含む。 EgoObjectsは、さまざまな背景複雑さ、周囲の物体、距離、照明、カメラモーションの下で同じオブジェクトをキャプチャするために設計された。 データ収集と並行して,データセットの増大する性質に対応するため,多段階のフェデレーションアノテーションプロセスを開発した。 egoobjectsの研究をブートストラップするために、新しいインスタンスレベルや古典的なカテゴリレベルのオブジェクト検出を含む、エゴセントリックなオブジェクト理解に関する4つのベンチマークタスクのスイートを示す。 また、2つの新しい連続学習オブジェクト検出タスクも導入する。 データセットとAPIはhttps://github.com/facebookresearch/EgoObjectsで入手できる。

Object understanding in egocentric visual data is arguably a fundamental research topic in egocentric vision. However, existing object datasets are either non-egocentric or have limitations in object categories, visual content, and annotation granularities. In this work, we introduce EgoObjects, a large-scale egocentric dataset for fine-grained object understanding. Its Pilot version contains over 9K videos collected by 250 participants from 50+ countries using 4 wearable devices, and over 650K object annotations from 368 object categories. Unlike prior datasets containing only object category labels, EgoObjects also annotates each object with an instance-level identifier, and includes over 14K unique object instances. EgoObjects was designed to capture the same object under diverse background complexities, surrounding objects, distance, lighting and camera motion. In parallel to the data collection, we conducted data annotation by developing a multi-stage federated annotation process to accommodate the growing nature of the dataset. To bootstrap the research on EgoObjects, we present a suite of 4 benchmark tasks around the egocentric object understanding, including a novel instance level- and the classical category level object detection. Moreover, we also introduce 2 novel continual learning object detection tasks. The dataset and API are available at https://github.com/facebookresearch/EgoObjects.
翻訳日:2023-09-19 19:12:24 公開日:2023-09-15
# グラフ上の最大カットに対するハイブリッド量子古典的多レベルアプローチ

Hybrid Quantum-Classical Multilevel Approach for Maximum Cuts on Graphs ( http://arxiv.org/abs/2309.08815v1 )

ライセンス: Link先を確認
`Anthony Angone, Xioayuan Liu, Ruslan Shaydulin, Ilya Safro(参考訳) 組合せ最適化(英: combinatorial optimization)は、近未来の量子デバイスがハイブリッド量子古典アルゴリズムを用いて量子コンピューティングの応用可能性を示す分野の一つである。 組合せ最適化における最もよく研究されている問題の1つは、最大カット問題である。 この問題はイジングモデルとの類似性やその他の理由から、量子および他のタイプの「ポストムーア」アーキテクチャにも強く関係している。 本稿では,古典的限定解法と量子近似最適化アルゴリズム(qaoa)を用いて,大規模マックスカット問題を解くためのスケーラブルなハイブリッドマルチレベル手法を提案する。 我々は,解法と大規模マックス・クート解法の既存状態を比較した。 古典的およびハイブリッドな量子古典的アプローチの優れた性能を示し、我々のフレームワークにおけるQAOAの使用は古典的アプローチに匹敵することを示した。

Combinatorial optimization is one of the fields where near term quantum devices are being utilized with hybrid quantum-classical algorithms to demonstrate potentially practical applications of quantum computing. One of the most well studied problems in combinatorial optimization is the Max-Cut problem. The problem is also highly relevant to quantum and other types of "post Moore" architectures due to its similarity with the Ising model and other reasons. In this paper, we introduce a scalable hybrid multilevel approach to solve large instances of Max-Cut using both classical only solvers and quantum approximate optimization algorithm (QAOA). We compare the results of our solver to existing state of the art large-scale Max-Cut solvers. We demonstrate excellent performance of both classical and hybrid quantum-classical approaches and show that using QAOA within our framework is comparable to classical approaches.
翻訳日:2023-09-19 19:12:04 公開日:2023-09-15
# ura*: オフロード環境における画像に基づく空中対地トラバーサビリティ推定を用いた不確実性を考慮した経路計画

URA*: Uncertainty-aware Path Planning using Image-based Aerial-to-Ground Traversability Estimation for Off-road Environments ( http://arxiv.org/abs/2309.08814v1 )

ライセンス: Link先を確認
Charles Moore, Shaswata Mitra, Nisha Pillai, Marc Moore, Sudip Mittal, Cindy Bethel, Jingdao Chen(参考訳) オフロード自律ナビゲーションにおける大きな課題は、自律ロボットの経路計画に使用できる地図や道路標識の欠如である。 古典的な経路計画法は主に、オフロード環境における地形や障害物の検出から固有の認識や不確実性を考慮せずに、完全に知られた環境を前提としている。 近年のコンピュータビジョンと深層ニューラルネットワークの研究により、生画像からの地形トラバーサビリティセグメンテーションの能力が向上しているが、これらのノイズの多いセグメンテーションマップをナビゲーションや経路計画に活用することは十分に検討されていない。 そこで本研究では,オフロード環境における自律航行のための空中画像を用いた不確実性認識経路計画手法であるura*を提案する。 アンサンブル畳み込みニューラルネットワーク(cnn)モデルは、まず、関心領域の空中画像からピクセルレベルのトラバーサビリティ推定を行うために使用される。 トラバーサビリティ予測は、トラバーサビリティ確率値のグリッドとして表現される。 不確実性を認識したプランナーは、これらのノイズの多いトラバーサル確率推定値を考えると、開始点からゴール点までの最善の経路を計算するために適用される。 提案するプランナーには,オンラインロボット操作時の迅速な再計画を可能にするリプランニング技術も組み込まれている。 提案手法は、マサチューセッツ道路データセット、DeepGlobeデータセット、およびミシシッピ州立大学のオフロード試験場からの空中画像のデータセットに基づいて評価される。 その結果,提案手法は,初期経路の品質と実現可能性,および計画された経路の品質の観点から,従来の計画アルゴリズムよりも優れていた。

A major challenge with off-road autonomous navigation is the lack of maps or road markings that can be used to plan a path for autonomous robots. Classical path planning methods mostly assume a perfectly known environment without accounting for the inherent perception and sensing uncertainty from detecting terrain and obstacles in off-road environments. Recent work in computer vision and deep neural networks has advanced the capability of terrain traversability segmentation from raw images; however, the feasibility of using these noisy segmentation maps for navigation and path planning has not been adequately explored. To address this problem, this research proposes an uncertainty-aware path planning method, URA* using aerial images for autonomous navigation in off-road environments. An ensemble convolutional neural network (CNN) model is first used to perform pixel-level traversability estimation from aerial images of the region of interest. The traversability predictions are represented as a grid of traversal probability values. An uncertainty-aware planner is then applied to compute the best path from a start point to a goal point given these noisy traversal probability estimates. The proposed planner also incorporates replanning techniques to allow rapid replanning during online robot operation. The proposed method is evaluated on the Massachusetts Road Dataset, the DeepGlobe dataset, as well as a dataset of aerial images from off-road proving grounds at Mississippi State University. Results show that the proposed image segmentation and planning methods outperform conventional planning algorithms in terms of the quality and feasibility of the initial path, as well as the quality of replanned paths.
翻訳日:2023-09-19 19:11:51 公開日:2023-09-15
# 有限データを用いた非線形システムからの線形モデル学習

Learning Linearized Models from Nonlinear Systems with Finite Data ( http://arxiv.org/abs/2309.08805v1 )

ライセンス: Link先を確認
Lei Xin, George Chiu, Shreyas Sundaram(参考訳) データから線形システムモデルを同定することは制御理論に幅広い応用がある。 線形系同定のための有限サンプル解析に関する既存の研究は、通常、i.dランダム入力の下で単一の系軌道からのデータを使用し、基礎となる力学が真に線形であると仮定する。 対照的に、真の基底動力学が非線形であるとき、線形化モデルを特定する問題を考える。 本稿では,複数の軌跡に基づく決定論的データ取得アルゴリズムと,正規化最小二乗法と,学習線形化ダイナミクスに束縛された有限サンプル誤差を提案する。 我々の誤差境界は、非線形性による誤差とノイズによる誤差とのトレードオフを示し、十分に多くのサンプルを与えられた任意の小さな誤差で線形化力学を学習できることを示す。 実験により, 非線形性が存在する場合, ランダム入力を用いた単一軌道を用いた線形システム同定の潜在的不十分性を示す実験を行った。

Identifying a linear system model from data has wide applications in control theory. The existing work on finite sample analysis for linear system identification typically uses data from a single system trajectory under i.i.d random inputs, and assumes that the underlying dynamics is truly linear. In contrast, we consider the problem of identifying a linearized model when the true underlying dynamics is nonlinear. We provide a multiple trajectories-based deterministic data acquisition algorithm followed by a regularized least squares algorithm, and provide a finite sample error bound on the learned linearized dynamics. Our error bound demonstrates a trade-off between the error due to nonlinearity and the error due to noise, and shows that one can learn the linearized dynamics with arbitrarily small error given sufficiently many samples. We validate our results through experiments, where we also show the potential insufficiency of linear system identification using a single trajectory with i.i.d random inputs, when nonlinearity does exist.
翻訳日:2023-09-19 19:11:24 公開日:2023-09-15
# shapnn:shapley値正規化テーブル型ニューラルネットワーク

SHAPNN: Shapley Value Regularized Tabular Neural Network ( http://arxiv.org/abs/2309.08799v1 )

ライセンス: Link先を確認
Qisen Cheng, Shuhui Qu, Janghwan Lee(参考訳) 本稿では,教師あり学習のための新しい深層表データモデリングアーキテクチャSHAPNNを提案する。 提案手法はブラックボックスモデルを説明するための確立された手法であるShapley値を利用する。 我々のニューラルネットワークは標準の後方伝播最適化法を用いて訓練され、実時間推定シェープリー値で正規化される。 提案手法は,データインスタンスやデータセットの計算オーバーヘッドなしに有効な説明を提供する機能を含む,いくつかの利点を提供する。 さらに、説明付き予測は正規化器として機能し、モデルの性能が向上する。 さらに、正規化予測は連続学習におけるモデルの能力を高める。 本手法を,公開データセット上で評価し,最先端のディープニューラルネットワークモデルと比較し,auroc,透明性,ストリーミングデータに対する堅牢性の観点から,shapnnの優れた性能を示す。

We present SHAPNN, a novel deep tabular data modeling architecture designed for supervised learning. Our approach leverages Shapley values, a well-established technique for explaining black-box models. Our neural network is trained using standard backward propagation optimization methods, and is regularized with realtime estimated Shapley values. Our method offers several advantages, including the ability to provide valid explanations with no computational overhead for data instances and datasets. Additionally, prediction with explanation serves as a regularizer, which improves the model's performance. Moreover, the regularized prediction enhances the model's capability for continual learning. We evaluate our method on various publicly available datasets and compare it with state-of-the-art deep neural network models, demonstrating the superior performance of SHAPNN in terms of AUROC, transparency, as well as robustness to streaming data.
翻訳日:2023-09-19 19:11:07 公開日:2023-09-15
# がん治験適性基準のテキスト分類

Text Classification of Cancer Clinical Trial Eligibility Criteria ( http://arxiv.org/abs/2309.07812v2 )

ライセンス: Link先を確認
Yumeng Yang, Soumya Jayaraj, Ethan B Ludmir, Kirk Roberts(参考訳) 患者が対象とする臨床試験の自動識別は、治験適格性が自然言語で記述されているという事実によって複雑である。 この問題の潜在的な解決策は、共通タイプの適格基準にテキスト分類法を採用することである。 本研究では,術前悪性腫瘍,ヒト免疫不全ウイルス,B型肝炎,C型肝炎,精神疾患,薬物・物質乱用,自己免疫疾患の7つの共通排除基準に焦点を当てた。 本データセットは,第764相臨床試験からなり,これらの除外は試験レベルでアノテートされる。 本研究は,新規にトレーニング済み臨床試験 BERT モデルとともに,共通のトランスフォーマーモデルを用いて実験を行った。 本結果は, 排除基準の自動分類の可能性を示した。 さらに,臨床試験に特化する事前学習された言語モデルの価値を実証し,すべての基準で最高の平均性能が得られることを示した。

Automatic identification of clinical trials for which a patient is eligible is complicated by the fact that trial eligibility is stated in natural language. A potential solution to this problem is to employ text classification methods for common types of eligibility criteria. In this study, we focus on seven common exclusion criteria in cancer trials: prior malignancy, human immunodeficiency virus, hepatitis B, hepatitis C, psychiatric illness, drug/substance abuse, and autoimmune illness. Our dataset consists of 764 phase III cancer trials with these exclusions annotated at the trial level. We experiment with common transformer models as well as a new pre-trained clinical trial BERT model. Our results demonstrate the feasibility of automatically classifying common exclusion criteria. Additionally, we demonstrate the value of a pre-trained language model specifically for clinical trials, which yields the highest average performance across all criteria.
翻訳日:2023-09-19 10:08:10 公開日:2023-09-15
# HAKE:人間活動理解のための知識エンジン基盤

HAKE: A Knowledge Engine Foundation for Human Activity Understanding ( http://arxiv.org/abs/2202.06851v2 )

ライセンス: Link先を確認
Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Yizhuo Li, Zuoyu Qiu, Liang Xu, Yue Xu, Hao-Shu Fang, Cewu Lu(参考訳) 人間の活動理解は人工知能に広く興味を持ち、医療や行動分析といった多様な応用にまたがっている。 ディープラーニングの進歩はあったが、依然として挑戦的だ。 オブジェクト認識ライクなソリューションは通常、ピクセルとセマンティクスを直接マッピングしようとするが、アクティビティパターンはオブジェクトパターンとは大きく異なり、成功を妨げる。 本研究では,この課題を2段階にまとめた新しいパラダイムを提案する。まず,原子活動プリミティブを対象とする中間空間に画素をマッピングし,意味論を推論するための解釈可能な論理規則で検出されたプリミティブをプログラミングする。 代表的なプリミティブな空間を提供するため,26以上のプリミティブなラベルや論理ルールを含む知識ベースを構築した。 我々のフレームワークであるHAKE(Human Activity Knowledge Engine)は、挑戦的なベンチマーク上での標準手法よりも優れた一般化能力と性能を示す。 コードとデータはhttp://hake-mvig.cn/で入手できる。

Human activity understanding is of widespread interest in artificial intelligence and spans diverse applications like health care and behavior analysis. Although there have been advances in deep learning, it remains challenging. The object recognition-like solutions usually try to map pixels to semantics directly, but activity patterns are much different from object patterns, thus hindering success. In this work, we propose a novel paradigm to reformulate this task in two stages: first mapping pixels to an intermediate space spanned by atomic activity primitives, then programming detected primitives with interpretable logic rules to infer semantics. To afford a representative primitive space, we build a knowledge base including 26+ M primitive labels and logic rules from human priors or automatic discovering. Our framework, the Human Activity Knowledge Engine (HAKE), exhibits superior generalization ability and performance upon canonical methods on challenging benchmarks. Code and data are available at http://hake-mvig.cn/.
翻訳日:2023-09-18 19:28:25 公開日:2023-09-15
# ドメイン一般化と適応のための混合型ニューラルネットワーク

MixStyle Neural Networks for Domain Generalization and Adaptation ( http://arxiv.org/abs/2107.02053v2 )

ライセンス: Link先を確認
Kaiyang Zhou, Yongxin Yang, Yu Qiao, Tao Xiang(参考訳) ニューラルネットワークは、ドメインシフトによる見当たらないデータ -- マシンラーニングとAIの長年の問題 -- に対して、十分に一般化されていない。 この問題を解決するために,MixStyleを提案する。MixStyleは,データ収集やモデルキャパシティの向上を必要とせずに,ドメインの一般化性能を向上させる,シンプルなプラグアンドプレイ・パラメータフリーモジュールである。 MixStyleの設計は単純で、トレーニング中に1回のフォワードパスで2つのランダムインスタンスの機能統計を混合する。 このアイデアは、視覚領域を本質的に定義した画像スタイル情報を、特徴統計でキャプチャする最近のスタイル転送研究から生まれたものである。 したがって、混合特徴統計は、機能空間における新しいドメインを合成する効率的な方法と見なすことができ、データ拡張を実現することができる。 MixStyleは、数行のコードで簡単に実装でき、トレーニング対象を変更する必要がなく、教師付きドメインの一般化、半教師付きドメインの一般化、教師なしドメインの適応など、さまざまな学習パラダイムに適合する。 実験の結果,mixstyleは,画像認識やインスタンス検索,強化学習など,幅広いタスクにわたる分散汎化性能を大幅に向上させることができることがわかった。

Neural networks do not generalize well to unseen data with domain shifts -- a longstanding problem in machine learning and AI. To overcome the problem, we propose MixStyle, a simple plug-and-play, parameter-free module that can improve domain generalization performance without the need to collect more data or increase model capacity. The design of MixStyle is simple: it mixes the feature statistics of two random instances in a single forward pass during training. The idea is grounded by the finding from recent style transfer research that feature statistics capture image style information, which essentially defines visual domains. Therefore, mixing feature statistics can be seen as an efficient way to synthesize new domains in the feature space, thus achieving data augmentation. MixStyle is easy to implement with a few lines of code, does not require modification to training objectives, and can fit a variety of learning paradigms including supervised domain generalization, semi-supervised domain generalization, and unsupervised domain adaptation. Our experiments show that MixStyle can significantly boost out-of-distribution generalization performance across a wide range of tasks including image recognition, instance retrieval and reinforcement learning.
翻訳日:2023-09-18 19:26:56 公開日:2023-09-15
# AmbiFC: 証拠のある曖昧な主張

AmbiFC: Fact-Checking Ambiguous Claims with Evidence ( http://arxiv.org/abs/2104.00640v3 )

ライセンス: Link先を確認
Max Glockner, Ieva Stali\=unait\.e, James Thorne, Gisela Vallejo, Andreas Vlachos, Iryna Gurevych(参考訳) 自動ファクトチェックシステムは、証拠に対する主張を検証し、その正確性を予測する。 現実世界のシナリオでは、回収された証拠は明らかに主張を支持したり否定したりせず、矛盾するが有効な解釈をもたらす。 既存のファクトチェックデータセットは、モデルが開発したモデルが各クレームに対して単一の正確性ラベルを予測していると仮定する。 この問題に対処するために,実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを紹介する。 ウィキペディアの5kページから50k節の詳細なエビデンスアノテーションが含まれている。 我々は,ambifcの主張と証拠を比較する際,曖昧さから生じる不一致を分析し,アノテータの不一致と不特定化や確率的推論などの言語現象との強い相関を観察した。 我々は,このあいまいさをソフトラベルで予測するモデルを開発し,文レベルのエビデンス選択と妥当性予測のためにラベル分布を学習するパイプラインが最高の性能をもたらすことを発見した。 我々はAmbiFCの異なるサブセットで訓練されたモデルを比較し、あいまいなインスタンスで訓練されたモデルが識別された言語現象に直面すると、より良い性能を示すことを示す。

Automated fact-checking systems verify claims against evidence to predict their veracity. In real-world scenarios, the retrieved evidence may not unambiguously support or refute the claim and yield conflicting but valid interpretations. Existing fact-checking datasets assume that the models developed with them predict a single veracity label for each claim, thus discouraging the handling of such ambiguity. To address this issue we present AmbiFC, a fact-checking dataset with 10k claims derived from real-world information needs. It contains fine-grained evidence annotations of 50k passages from 5k Wikipedia pages. We analyze the disagreements arising from ambiguity when comparing claims against evidence in AmbiFC, observing a strong correlation of annotator disagreement with linguistic phenomena such as underspecification and probabilistic reasoning. We develop models for predicting veracity handling this ambiguity via soft labels and find that a pipeline that learns the label distribution for sentence-level evidence selection and veracity prediction yields the best performance. We compare models trained on different subsets of AmbiFC and show that models trained on the ambiguous instances perform better when faced with the identified linguistic phenomena.
翻訳日:2023-09-18 19:26:36 公開日:2023-09-15
# hgcn-gjs: 追跡予測のためのグループワイズジョイントサンプリングを用いた階層型グラフ畳み込みネットワーク

HGCN-GJS: Hierarchical Graph Convolutional Network with Groupwise Joint Sampling for Trajectory Prediction ( http://arxiv.org/abs/2009.07140v3 )

ライセンス: Link先を確認
Yuying Chen, Congcong Liu, Xiaodong Mei, Bertram E. Shi and Ming Liu(参考訳) 正確な歩行者軌道予測は、自動運転や移動ロボットナビゲーションといった下流作業において非常に重要である。 群衆内の社会的相互作用を完全に調査することは、正確な歩行者軌道予測に不可欠である。 しかし、既存の手法の多くはグループレベルの相互作用をうまく捉えておらず、ペア的な相互作用とグループ的な相互作用を無視することだけに焦点を当てている。 本研究では,集団間のグループレベルの相互作用をうまく活用する軌道予測のための階層型グラフ畳み込みネットワークHGCN-GJSを提案する。 さらに,今後,複数の歩行者の関節分布をモデル化するための新しい共同サンプリング手法を提案する。 グループ情報に基づいて、このスキームは、ある人の軌跡とグループ内の他の人々の軌跡を関連付けるが、外部者の軌跡の独立性を維持する。 我々は,複数の軌道予測データセット上でのネットワークの性能を実証し,検討した全データセットの最新の結果を得る。

Accurate pedestrian trajectory prediction is of great importance for downstream tasks such as autonomous driving and mobile robot navigation. Fully investigating the social interactions within the crowd is crucial for accurate pedestrian trajectory prediction. However, most existing methods do not capture group level interactions well, focusing only on pairwise interactions and neglecting group-wise interactions. In this work, we propose a hierarchical graph convolutional network, HGCN-GJS, for trajectory prediction which well leverages group level interactions within the crowd. Furthermore, we introduce a novel joint sampling scheme for modeling the joint distribution of multiple pedestrians in the future trajectories. Based on the group information, this scheme associates the trajectory of one person with the trajectory of other people in the group, but maintains the independence of the trajectories of outsiders. We demonstrate the performance of our network on several trajectory prediction datasets, achieving state-of-the-art results on all datasets considered.
翻訳日:2023-09-18 19:26:12 公開日:2023-09-15
# 部分アンセストラルグラフを用いた周期の存在下での制約に基づく因果探索

Constraint-Based Causal Discovery using Partial Ancestral Graphs in the presence of Cycles ( http://arxiv.org/abs/2005.00610v3 )

ライセンス: Link先を確認
Joris M. Mooij and Tom Claassen(参考訳) フィードバックループは多くの複雑なシステムにおいて重要な役割を果たすことが知られているが、その存在は因果発見文献の大部分において無視されている。 フィードバックを伴うシステムによって生成されたデータに対して、非循環的な設定のために設計された因果探索アルゴリズムを適用する場合、正しい結果を得ることは期待できない。 本研究では,FCI(Fast Causal Inference:高速因果推論)アルゴリズムの出力が,フィードバックを伴うシステムによって生成された観測データに適用された場合,驚くほど正確であることを示す。 より具体的には、単純かつ$\sigma$-faithful Structure Causal Model (SCM)によって生成された観測データに対して、FCIは健全で完全であり、一貫した推定に使用できることを証明している。 (i)因果関係の有無 二 直接因果関係の有無 (iii)共同創設者の不在、及び (iv)scmの因果グラフに特定のサイクルがないこと。 これらの結果を制約に基づく因果的発見アルゴリズムに拡張し、因果的十分設定(pcアルゴリズムなど)と因果的推論設定(fci-jciアルゴリズムなど)を含む特定の形態の背景知識を利用する。

While feedback loops are known to play important roles in many complex systems, their existence is ignored in a large part of the causal discovery literature, as systems are typically assumed to be acyclic from the outset. When applying causal discovery algorithms designed for the acyclic setting on data generated by a system that involves feedback, one would not expect to obtain correct results. In this work, we show that -- surprisingly -- the output of the Fast Causal Inference (FCI) algorithm is correct if it is applied to observational data generated by a system that involves feedback. More specifically, we prove that for observational data generated by a simple and $\sigma$-faithful Structural Causal Model (SCM), FCI is sound and complete, and can be used to consistently estimate (i) the presence and absence of causal relations, (ii) the presence and absence of direct causal relations, (iii) the absence of confounders, and (iv) the absence of specific cycles in the causal graph of the SCM. We extend these results to constraint-based causal discovery algorithms that exploit certain forms of background knowledge, including the causally sufficient setting (e.g., the PC algorithm) and the Joint Causal Inference setting (e.g., the FCI-JCI algorithm).
翻訳日:2023-09-18 19:25:55 公開日:2023-09-15
# 量子セキュアアグリゲーションによるフェデレーション学習

Federated Learning with Quantum Secure Aggregation ( http://arxiv.org/abs/2207.07444v2 )

ライセンス: Link先を確認
Yichi Zhang, Chao Zhang, Cai Zhang, Lixin Fan, Bei Zeng, Qiang Yang(参考訳) 本稿では,新しい量子セキュアアグリゲーション(qsa)スキームについて述べる。フェデレーション学習のための局所モデルパラメータの高度にセキュアで効率的なアグリゲーションを提供する。 このスキームは、量子ビット、すなわちモデルパラメータを表す量子ビットを利用することで、プライベートモデルパラメータが半正直な攻撃者に開示されるのを防ぐために安全である。 提案されたセキュリティメカニズムは、プライベートモデルパラメータを盗聴しようとするあらゆる試みを即座に検出および停止することを保証する。 このスキームは、エンタングル量子ビットを介してモデルパラメータを伝達および集約する計算の複雑さが低いという点でも効率的である。 提案するqsaスキームの利点は、集中型と分散型のアーキテクチャの両方を考慮した水平型連合学習環境において示される。 提案したQSAは、ロジスティック回帰(LR)、畳み込みニューラルネットワーク(CNN)、量子ニューラルネットワーク(QNN)など、様々なタイプの局所モデルの集約に容易に適用可能であることが実証された。 個々の参加者が獲得したローカルモデルに関して、グローバルモデルのパフォーマンスは様々な範囲で改善され、半正真正銘の敵にはプライベートモデルパラメータが開示されない。

This article illustrates a novel Quantum Secure Aggregation (QSA) scheme that is designed to provide highly secure and efficient aggregation of local model parameters for federated learning. The scheme is secure in protecting private model parameters from being disclosed to semi-honest attackers by utilizing quantum bits i.e. qubits to represent model parameters. The proposed security mechanism ensures that any attempts to eavesdrop private model parameters can be immediately detected and stopped. The scheme is also efficient in terms of the low computational complexity of transmitting and aggregating model parameters through entangled qubits. Benefits of the proposed QSA scheme are showcased in a horizontal federated learning setting in which both a centralized and decentralized architectures are taken into account. It was empirically demonstrated that the proposed QSA can be readily applied to aggregate different types of local models including logistic regression (LR), convolutional neural networks (CNN) as well as quantum neural network (QNN), indicating the versatility of the QSA scheme. Performances of global models are improved to various extents with respect to local models obtained by individual participants, while no private model parameters are disclosed to semi-honest adversaries.
翻訳日:2023-09-18 19:18:36 公開日:2023-09-15
# VQA-GNN:ビジュアル質問応答のためのグラフニューラルネットワークによるマルチモーダル知識の推論

VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering ( http://arxiv.org/abs/2205.11501v2 )

ライセンス: Link先を確認
Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec(参考訳) 視覚的質問応答(VQA)は、未構造化(例えば、質問と回答のコンテキスト)と構造化(例えば、QAコンテキストとシーンの知識グラフ、概念グラフ)を統一することで概念レベルの推論を行うシステムを必要とする。 既存の作業は通常、シーングラフとシーンの概念グラフを組み合わせて、対応する視覚ノードと概念ノードを接続し、QAコンテキスト表現を組み込んで質問応答を行う。 しかし、これらの手法は、非構造化知識から構造化知識への一方向的融合のみを実行し、知識の異質な様相よりも共同推論を捉える可能性を制限する。 より表現力のある推論を行うために,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得るVQA-GNNを提案する。 具体的には、シーングラフと概念グラフをQAコンテキストを表すスーパーノードを介して相互接続し、モーダル間の表現ギャップを緩和する推論のためにモーダル間メッセージパッシングを行うための新しいマルチモーダルGNN技術を導入する。 課題2つのVQAタスク(VCRとGQA)において,本手法はVCR(Q-AR)が3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。 アブレーション研究は、非構造的および構造的マルチモーダル知識の統合における双方向核融合およびマルチモーダルGNN法の有効性をさらに示す。

Visual question answering (VQA) requires systems to perform concept-level reasoning by unifying unstructured (e.g., the context in question and answer; "QA context") and structured (e.g., knowledge graph for the QA context and scene; "concept graph") multimodal knowledge. Existing works typically combine a scene graph and a concept graph of the scene by connecting corresponding visual nodes and concept nodes, then incorporate the QA context representation to perform question answering. However, these methods only perform a unidirectional fusion from unstructured knowledge to structured knowledge, limiting their potential to capture joint reasoning over the heterogeneous modalities of knowledge. To perform more expressive reasoning, we propose VQA-GNN, a new VQA model that performs bidirectional fusion between unstructured and structured multimodal knowledge to obtain unified knowledge representations. Specifically, we inter-connect the scene graph and the concept graph through a super node that represents the QA context, and introduce a new multimodal GNN technique to perform inter-modal message passing for reasoning that mitigates representational gaps between modalities. On two challenging VQA tasks (VCR and GQA), our method outperforms strong baseline VQA methods by 3.2% on VCR (Q-AR) and 4.6% on GQA, suggesting its strength in performing concept-level reasoning. Ablation studies further demonstrate the efficacy of the bidirectional fusion and multimodal GNN method in unifying unstructured and structured multimodal knowledge.
翻訳日:2023-09-18 19:17:53 公開日:2023-09-15
# 時間空間交通図の精錬:単純多重線形回帰モデル

Refining time-space traffic diagrams: A simple multiple linear regression model ( http://arxiv.org/abs/2204.04457v4 )

ライセンス: Link先を確認
Zhengbing He(参考訳) 時間空間トラフィック(TS)図は、時間空間セルのトラフィック状態を色で表し、重要なトラフィック解析と可視化ツールである。 輸送研究と工学において重要であるにもかかわらず、既存の情報技術と交通インフラ投資の限界により、既に存在するか、もしくは生産されているほとんどのTS図は、詳細な交通力学を示すには大きすぎる。 本稿では,tsダイアグラムの分解能を高め,十分なトラフィック詳細を提示できるようにするため,tsダイアグラムの細分化問題を紹介し,多重線形回帰に基づくモデルを提案する。 TS図の解像度を4倍と16倍に増やそうとする2つの試験を行い,提案モデルの性能評価を行った。 異なる時期, 異なる場所, 異なる国でも収集されたデータを用いて, 提案モデルの精度と転送性について徹底的に評価する。 多様なデータを用いた厳密なテストにより,提案モデルが単純であるにもかかわらず,高い精度と確実な転送性でTSダイアグラムを洗練可能であることが示された。 提案したリファインメントモデルは、そのぼやけた「顔」から広く存在するTSダイアグラムを「保存」し、TSダイアグラムがより多くのトラフィックの詳細を示すことを可能にする。

A time-space traffic (TS) diagram, which presents traffic states in time-space cells with color, is an important traffic analysis and visualization tool. Despite its importance for transportation research and engineering, most TS diagrams that have already existed or are being produced are too coarse to exhibit detailed traffic dynamics due to the limitations of existing information technology and traffic infrastructure investment. To increase the resolution of a TS diagram and enable it to present ample traffic details, this paper introduces the TS diagram refinement problem and proposes a multiple linear regression-based model to solve the problem. Two tests, which attempt to increase the resolution of a TS diagram 4 and 16 times, are carried out to evaluate the performance of the proposed model. Data collected at different times, in different locations and even in different countries are employed to thoroughly evaluate the accuracy and transferability of the proposed model. Strict tests with diverse data show that the proposed model, despite its simplicity, is able to refine a TS diagram with promising accuracy and reliable transferability. The proposed refinement model will "save" widely existing TS diagrams from their blurry "faces" and enable TS diagrams to show more traffic details.
翻訳日:2023-09-18 19:16:52 公開日:2023-09-15
# 量子密度行列の古典的質問応答と古典的画像分類への応用

Application of Quantum Density Matrix in Classical Question Answering and Classical Image Classification ( http://arxiv.org/abs/2203.11155v3 )

ライセンス: Link先を確認
X. Q. Zhao, H. Wan(参考訳) 量子密度行列(Quantum density matrix)は、量子系の全ての情報を表し、密度行列を用いた新しいモデルでは、量子問題応答タスクにおいて、仮説や言語的あいまいさなどの言語現象を自然にモデル化する。 自然に、量子密度行列を古典的質問応答(QA)タスクに適用すると、より効果的な性能が得られると論じる。 具体的には (i)入力が行列である場合に対応するため、LSTM(Long Short-Term Memory)に基づく新しいメカニズムを設計すること。 (2)畳み込みニューラルネットワーク(CNN)のQA問題に適用し,量子密度行列を用いたLSTMに基づくQAモデルを得る。 TREC-QAデータセットとWIKI-QAデータセットの新たなモデルによる実験結果が得られた。 同様に、量子密度行列は、画像特徴情報と古典的な画像分類の特徴との関係性を高めることができると論じる。 ですから私たちは i) 密度行列とCNNを組み合わせて新しい機構を設計すること。 (ii)代表的古典的画像分類課題に新たなメカニズムを適用する。 一連の実験により、画像分類における量子密度行列の応用は、異なるデータセットに対する一般化と高効率性を有することが示された。 古典的質問応答課題と古典的画像分類課題の両方における量子密度行列の適用は、より効果的な性能を示す。

Quantum density matrix represents all the information of the entire quantum system, and novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others in quantum question answering tasks. Naturally, we argue that applying the quantum density matrix into classical Question Answering (QA) tasks can show more effective performance. Specifically, we (i) design a new mechanism based on Long Short-Term Memory (LSTM) to accommodate the case when the inputs are matrixes; (ii) apply the new mechanism to QA problems with Convolutional Neural Network (CNN) and gain the LSTM-based QA model with the quantum density matrix. Experiments of our new model on TREC-QA and WIKI-QA data sets show encouraging results. Similarly, we argue that the quantum density matrix can also enhance the image feature information and the relationship between the features for the classical image classification. Thus, we (i) combine density matrices and CNN to design a new mechanism; (ii) apply the new mechanism to some representative classical image classification tasks. A series of experiments show that the application of quantum density matrix in image classification has the generalization and high efficiency on different datasets. The application of quantum density matrix both in classical question answering tasks and classical image classification tasks show more effective performance.
翻訳日:2023-09-18 19:16:10 公開日:2023-09-15
# DSRRTracker: 注意に基づくシームズ多目的追跡のための動的検索領域リファインメント

DSRRTracker: Dynamic Search Region Refinement for Attention-based Siamese Multi-Object Tracking ( http://arxiv.org/abs/2203.10729v2 )

ライセンス: Link先を確認
JiaXu Wan, Hong Zhang, Jin Zhang, Yuan Ding, Yifan Yang, Yan Li and Xuliang Li(参考訳) 多くのマルチオブジェクト追跡(MOT)手法は、検出結果に基づいて対象オブジェクトを関連付ける「検出による追跡」という枠組みに従う。 しかし, 検出とアソシエーションの分離モデルにより, 追跡結果は最適ではないため, 高トラッキング性能を実現するために, いくつかの面倒なアソシエーション手法によって速度が制限される。 本研究では,過去のフレームからのテンプレート情報と,現在のフレームからの検出結果の両方を計算負担が少なく考慮し,検索領域を動的にフィルタリング・精査するガウスフィルタインスパイアされた動的検索領域改良モジュールを用いたエンドツーエンドMOT法と,効率的なインスタンス関連を実現するための軽量な注目型トラッキングヘッドを提案する。 MOT17とMOT20データセットの大規模な実験とアブレーション実験により,本手法が最先端の性能を妥当な速度で達成できることが実証された。

Many multi-object tracking (MOT) methods follow the framework of "tracking by detection", which associates the target objects-of-interest based on the detection results. However, due to the separate models for detection and association, the tracking results are not optimal.Moreover, the speed is limited by some cumbersome association methods to achieve high tracking performance. In this work, we propose an end-to-end MOT method, with a Gaussian filter-inspired dynamic search region refinement module to dynamically filter and refine the search region by considering both the template information from the past frames and the detection results from the current frame with little computational burden, and a lightweight attention-based tracking head to achieve the effective fine-grained instance association. Extensive experiments and ablation study on MOT17 and MOT20 datasets demonstrate that our method can achieve the state-of-the-art performance with reasonable speed.
翻訳日:2023-09-18 19:15:48 公開日:2023-09-15
# Don't Get Me Wrong: 時系列にビジュアル解釈を深く適用する方法

Don't Get Me Wrong: How to Apply Deep Visual Interpretations to Time Series ( http://arxiv.org/abs/2203.07861v2 )

ライセンス: Link先を確認
Christoffer Loeffler, Wei-Cheng Lai, Bjoern Eskofier, Dario Zanca, Lukas Schmidt, Christopher Mutschler(参考訳) 深層学習モデルの正しい解釈と理解は多くの応用において不可欠である。 画像や自然言語処理に対する説明的視覚解釈アプローチにより、ドメインの専門家はほとんどのディープラーニングモデルの検証と理解が可能になる。 しかし、これは本質的に直観的でなく、より多様である任意の時系列に一般化する際には不足する。 視覚化が妥当な推論を説明するか、実際の特徴を捉えるかは、判断が難しい。 したがって、盲目の信頼の代わりに、信頼できる品質指標を得るために客観的な評価が必要です。 時系列分類とセグメンテーションタスクのための,勾配,伝播,摂動に基づく6つの直交指標の枠組みを提案する。 実験には、時系列のための一般的なニューラルネットワークアーキテクチャと9つの視覚的解釈方法が含まれる。 UCRレポジトリと複雑な実世界のデータセットからの多様なデータセットによる視覚的解釈手法の評価を行い、トレーニング中の標準正規化手法の影響について検討する。 いずれのメソッドも、すべてのメトリクスで一貫して他のメソッドよりも優れていないことが示されています。 私たちの洞察とレコメンデーションにより、専門家はモデルとタスクに適した可視化テクニックを選択できます。

The correct interpretation and understanding of deep learning models are essential in many applications. Explanatory visual interpretation approaches for image, and natural language processing allow domain experts to validate and understand almost any deep learning model. However, they fall short when generalizing to arbitrary time series, which is inherently less intuitive and more diverse. Whether a visualization explains valid reasoning or captures the actual features is difficult to judge. Hence, instead of blind trust, we need an objective evaluation to obtain trustworthy quality metrics. We propose a framework of six orthogonal metrics for gradient-, propagation- or perturbation-based post-hoc visual interpretation methods for time series classification and segmentation tasks. An experimental study includes popular neural network architectures for time series and nine visual interpretation methods. We evaluate the visual interpretation methods with diverse datasets from the UCR repository and a complex, real-world dataset and study the influence of standard regularization techniques during training. We show that none of the methods consistently outperforms others on all metrics, while some are sometimes ahead. Our insights and recommendations allow experts to choose suitable visualization techniques for the model and task.
翻訳日:2023-09-18 19:15:28 公開日:2023-09-15
# 深部生成モデルと生成AIの多様性

Diversity in deep generative models and generative AI ( http://arxiv.org/abs/2202.09573v2 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) Generative Adversarial Networks (GAN) や Variational Auto-Encoders (VAE) のような機械学習生成アルゴリズムは、トレーニングアンサンブルに類似したオブジェクトを構築する際に印象的な結果を示す。 しかし、新しいオブジェクトの生成は主にトレーニングデータセットの隠れ構造の理解に基づいて構築され、続いて多次元の正規変数からのサンプリングが行われる。 特に各サンプルは他のサンプルとは独立しており、同じ種類のオブジェクトを繰り返し提案することができる。 この欠点を解消するために、カーネルベースの測度量子化法を紹介し、その分布から既に引き出された要素から遠ざかることさえ可能とすることで、与えられた対象の測度から新しいオブジェクトを生成することができる。 これにより、生成されたオブジェクトの多様性が向上する。 この方法は古典的な機械学習ベンチマークでテストされる。

The machine learning generative algorithms such as Generative Adversarial Networks (GAN) and Variational Auto-Encoders (VAE) show impressive results when constructing objects similar to those in a training ensemble. However, the generation of new objects builds mainly on the understanding of the hidden structure of the training dataset followed by a sampling from a multi-dimensional normal variable. In particular each sample is independent from the others and can repeatedly propose same type of objects. To cure this drawback we introduce a kernel-based measure quantization method that can produce new objects from a given target measure by approximating it as a whole and even staying away from elements already drawn from that distribution. This ensures a better diversity of the produced objects. The method is tested on classic machine learning benchmarks.
翻訳日:2023-09-18 19:15:11 公開日:2023-09-15
# 合意に基づく最適化におけるメモリ効果と勾配情報の活用:平均場法における大域収束について

Leveraging Memory Effects and Gradient Information in Consensus-Based Optimization: On Global Convergence in Mean-Field Law ( http://arxiv.org/abs/2211.12184v2 )

ライセンス: Link先を確認
Konstantin Riedl(参考訳) 本稿では,非凸および非滑らかな大域的最適化を高次元で行うのに適した,多目的でフレキシブルでカスタマイズ可能な最適化手法であるコンセンサスベース最適化(CBO)について検討する。 CBOは多粒子メタヒューリスティックであり、様々な応用に有効であり、同時に最小限の設計により理論解析に有効である。 しかし、基盤となるダイナミクスは、進化的計算と機械学習で広く使用される様々なメカニズムを組み込むのに十分な柔軟性を持ち、メモリ効果と勾配情報を利用するcboの変種を分析して示している。 我々は、このダイナミクスが、メソッドの初期化に関する最小の仮定の下で、広範囲な関数クラスに対する平均場則における対象関数の大域的最小化に収束することを厳密に証明する。 特にこの証明は、証明可能なグローバル収束をなくすことなく、より有利な応用において、ダイナミクスの力を活用する方法を示している。 本研究の目的は,CBOの応用範囲を広げる機械学習や圧縮センシングなどの応用において,このCBO変種が優れていることを示す数値的証拠を,特定の応用におけるメモリ効果と勾配情報について検討することである。

In this paper we study consensus-based optimization (CBO), a versatile, flexible and customizable optimization method suitable for performing nonconvex and nonsmooth global optimizations in high dimensions. CBO is a multi-particle metaheuristic, which is effective in various applications and at the same time amenable to theoretical analysis thanks to its minimalistic design. The underlying dynamics, however, is flexible enough to incorporate different mechanisms widely used in evolutionary computation and machine learning, as we show by analyzing a variant of CBO which makes use of memory effects and gradient information. We rigorously prove that this dynamics converges to a global minimizer of the objective function in mean-field law for a vast class of functions under minimal assumptions on the initialization of the method. The proof in particular reveals how to leverage further, in some applications advantageous, forces in the dynamics without loosing provable global convergence. To demonstrate the benefit of the herein investigated memory effects and gradient information in certain applications, we present numerical evidence for the superiority of this CBO variant in applications such as machine learning and compressed sensing, which en passant widen the scope of applications of CBO.
翻訳日:2023-09-18 19:08:48 公開日:2023-09-15
# 部分空間制限のない非再帰摂動ガジェットとその変分量子アルゴリズムへの応用

Non-recursive perturbative gadgets without subspace restrictions and applications to variational quantum algorithms ( http://arxiv.org/abs/2210.03099v3 )

ライセンス: Link先を確認
Simon Cichy, Paul K. Faehrmann, Sumeet Khatri, Jens Eisert(参考訳) 摂動ガジェット(perturbative gadgets)は、ハミルトニアン(通常低エネルギー部分空間)の一部を異なるハミルトニアンに符号化するツールであり、例えば局所性が低下する。 多くの摂動ガジェットが長年にわたって提案されてきた。 特定のハミルトニアンのクラスに適用されるか、局所性を減らすために再帰を伴うか、ガジェットハミルトニアン(例えば断熱量子コンピューティングの文脈において)の下で時間発展を研究することに限定され、したがって部分空間制限を伴う。 本研究では,任意の多体ハミルトニアンを3体ハミルトニアンの低エネルギー部分空間にエンコードする部分空間制限を伴わずに,普遍的で非再帰的,非断熱的なガジェット構成を導入することで,このギャップを埋める。 我々の構築には、$r$項からなる$k$-bodyハミルトニアンに対して$rk$追加の量子ビットが必要です。 特定のガジェット構成に加えて、似たようなガジェットを構築するためのレシピも提供しています。

Perturbative gadgets are a tool to encode part of a Hamiltonian, usually the low-energy subspace, into a different Hamiltonian with favorable properties, for instance, reduced locality. Many constructions of perturbative gadgets have been proposed over the years. Still, all of them are restricted in some ways: Either they apply to some specific classes of Hamiltonians, they involve recursion to reduce locality, or they are limited to studying time evolution under the gadget Hamiltonian, e.g., in the context of adiabatic quantum computing, and thus involve subspace restrictions. In this work, we fill the gap by introducing a versatile universal, non-recursive, non-adiabatic perturbative gadget construction, without subspace restrictions, that encodes an arbitrary many-body Hamiltonian into the low-energy subspace of a three-body Hamiltonian. Our construction requires $rk$ additional qubits for a $k$-body Hamiltonian comprising $r$ terms. Besides a specific gadget construction, we also provide a recipe for constructing similar gadgets, which can be tailored to different properties, which we discuss.
翻訳日:2023-09-18 19:07:33 公開日:2023-09-15
# ダイアクロニックデータ解析による概念的メタファ理論の支持と洗練

Diachronic Data Analysis Supports and Refines Conceptual Metaphor Theory ( http://arxiv.org/abs/2209.12234v2 )

ライセンス: Link先を確認
Marie Teich, Wilmer Leal, Juergen Jost(参考訳) メタファ分析への貢献として,長年にわたる推測の実証的分析と,メタファの体系的特徴を初めて経験的に探究した統計的データベース調査を提案する。 逆に、これはメタファー理論を意味の出現の基礎として利用し、NLPの枠組みを定量的に探求し統合することができる。

As a contribution to metaphor analysis, we introduce a statistical, data-based investigation with empirical analysis of long-standing conjectures and a first-ever empirical exploration of the systematic features of metaphors. Conversely, this also makes metaphor theory available as a basis of meaning emergence that can be quantitatively explored and integrated into the framework of NLP.
翻訳日:2023-09-18 19:07:12 公開日:2023-09-15
# deepfakeオーディオのためのシステム指紋認識 : 初期データセットと検討

System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation ( http://arxiv.org/abs/2208.10489v3 )

ライセンス: Link先を確認
Xinrui Yan, Jiangyan Yi, Chenglong Wang, Jianhua Tao, Junzuo Zhou, Hao Gu, Ruibo Fu(参考訳) 深層音声合成モデルの急速な進歩は、悪質なコンテンツ操作のような社会に大きな脅威をもたらした。 そのため、いわゆるディープフェイク音声を検出するために多くの研究がなされている。 しかし、既存の研究は、実際のオーディオと偽オーディオのバイナリ検出に焦点を当てている。 モデル著作権保護やデジタル証拠法医学のような現実世界のシナリオでは、決定を説明するためにどのツールやモデルがディープフェイク音声を生成するかを知る必要がある。 ディープフェイクオーディオのシステム指紋を認識できますか? 本稿では,システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提示し,初期調査を行う。 クリーンセットと圧縮セットの両方を含む最新のディープラーニング技術を使用している7つの中国ベンダーの音声合成システムからデータセットを収集した。 さらに,システム指紋認識手法のさらなる開発を促進するために,比較可能な広範囲なベンチマークと研究結果を提供する。 データセットは公開される予定だ。 .

The rapid progress of deep speech synthesis models has posed significant threats to society such as malicious content manipulation. Therefore, many studies have emerged to detect the so-called deepfake audio. However, existing works focus on the binary detection of real audio and fake audio. In real-world scenarios such as model copyright protection and digital evidence forensics, it is needed to know what tool or model generated the deepfake audio to explain the decision. This motivates us to ask: Can we recognize the system fingerprints of deepfake audio? In this paper, we present the first deepfake audio dataset for system fingerprint recognition (SFR) and conduct an initial investigation. We collected the dataset from the speech synthesis systems of seven Chinese vendors that use the latest state-of-the-art deep learning technologies, including both clean and compressed sets. In addition, to facilitate the further development of system fingerprint recognition methods, we provide extensive benchmarks that can be compared and research findings. The dataset will be publicly available. .
翻訳日:2023-09-18 19:07:04 公開日:2023-09-15
# 未知のカーネルサイズと実体雑音によるブラインド画像の劣化

Blind Image Deblurring with Unknown Kernel Size and Substantial Noise ( http://arxiv.org/abs/2208.09483v2 )

ライセンス: Link先を確認
Zhong Zhuang, Taihui Li, Hengkang Wang, Ju Sun(参考訳) blind image deblurling (bid) はコンピュータビジョンや隣接分野で広く研究されている。 最新の入札方法は、統計的推論と数値最適化を使って個々のインスタンスを扱うシングルインスタンスメソッドと、ディープラーニングモデルをトレーニングして将来のインスタンスを直接デブラリングするデータ駆動メソッドの2つのカテゴリに分類できる。 データ駆動の手法は、正確な曖昧なモデルを導き出すことの難しさから解放されるが、トレーニングデータの多様性と品質によって根本的に制限されている。 本稿では,競争的かつ不可欠であり続けるシングルインスタンス手法に着目する。 しかし、そのような手法の多くは、未知のカーネルサイズと実質的なノイズに対処する方法を規定していない。 実際、カーネルサイズが過度に指定された場合、および/またはノイズレベルが高い場合、いくつかの現状(SOTA)シングルインスタンス法が不安定であることを示す。 肯定的な側面から, 両者に対して安定な実用的BID法を提案する。 本手法は, 物理モデルと構造化深層ニューラルネットワークを, トレーニングデータなしで統合することで, 逆問題を解くという最近の考え方に基づいている。 所望の安定性を達成するためにいくつかの重要な修正を導入する。 標準合成データセットおよび実世界のNTIRE2020およびRealBlurデータセットに対する広範な実証実験は、SOTA単一インスタンスやデータ駆動手法と比較して、我々のBID手法の有効性と実用性を示している。 このメソッドのコードは、 \url{https://github.com/sun-umn/blind-image-deblurring} で入手できる。

Blind image deblurring (BID) has been extensively studied in computer vision and adjacent fields. Modern methods for BID can be grouped into two categories: single-instance methods that deal with individual instances using statistical inference and numerical optimization, and data-driven methods that train deep-learning models to deblur future instances directly. Data-driven methods can be free from the difficulty in deriving accurate blur models, but are fundamentally limited by the diversity and quality of the training data -- collecting sufficiently expressive and realistic training data is a standing challenge. In this paper, we focus on single-instance methods that remain competitive and indispensable. However, most such methods do not prescribe how to deal with unknown kernel size and substantial noise, precluding practical deployment. Indeed, we show that several state-of-the-art (SOTA) single-instance methods are unstable when the kernel size is overspecified, and/or the noise level is high. On the positive side, we propose a practical BID method that is stable against both, the first of its kind. Our method builds on the recent ideas of solving inverse problems by integrating the physical models and structured deep neural networks, without extra training data. We introduce several crucial modifications to achieve the desired stability. Extensive empirical tests on standard synthetic datasets, as well as real-world NTIRE2020 and RealBlur datasets, show the superior effectiveness and practicality of our BID method compared to SOTA single-instance as well as data-driven methods. The code of our method is available at: \url{https://github.com/sun-umn/Blind-Image-Deblurring}.
翻訳日:2023-09-18 19:06:50 公開日:2023-09-15
# DPA-1:分子シミュレーションのための注意に基づく深部電位モデルの事前学習

DPA-1: Pretraining of Attention-based Deep Potential Model for Molecular Simulation ( http://arxiv.org/abs/2208.08236v4 )

ライセンス: Link先を確認
Duo Zhang, Hangrui Bi, Fu-Zhi Dai, Wanrun Jiang, Linfeng Zhang, Han Wang(参考訳) 原子間ポテンシャルエネルギー表面(PES)のモデリングを支援する機械学習は、分子シミュレーションの分野に革命をもたらした。 高品質な電子構造データの蓄積により、利用可能なすべてのデータで事前トレーニングされ、小さな労力で下流タスクに微調整されるモデルによって、新たなステージにフィールドがもたらされる。 本稿では,原子系のコンフォメーションと化学空間の表現やpesの学習に非常に有効である,新しい注意機構を持つ深層ポテンシャルモデルであるdpa-1を提案する。 dpa-1を複数のシステムでテストし,既存のベンチマークと比較して優れた性能を示した。 56個の要素を含む大規模データセットに事前トレーニングされた場合、DPA-1はサンプル効率を大幅に向上させ、様々な下流タスクにうまく適用できる。 驚くべきことに、異なる要素に対して、学習された型埋め込みパラメータは潜時空間において$spiral$を形成し、周期表上のそれらの位置と自然な対応を持ち、事前訓練されたDPA-1モデルの興味深い解釈可能性を示す。

Machine learning assisted modeling of the inter-atomic potential energy surface (PES) is revolutionizing the field of molecular simulation. With the accumulation of high-quality electronic structure data, a model that can be pretrained on all available data and finetuned on downstream tasks with a small additional effort would bring the field to a new stage. Here we propose DPA-1, a Deep Potential model with a novel attention mechanism, which is highly effective for representing the conformation and chemical spaces of atomic systems and learning the PES. We tested DPA-1 on a number of systems and observed superior performance compared with existing benchmarks. When pretrained on large-scale datasets containing 56 elements, DPA-1 can be successfully applied to various downstream tasks with a great improvement of sample efficiency. Surprisingly, for different elements, the learned type embedding parameters form a $spiral$ in the latent space and have a natural correspondence with their positions on the periodic table, showing interesting interpretability of the pretrained DPA-1 model.
翻訳日:2023-09-18 19:06:23 公開日:2023-09-15
# 連続時間線形2次強化学習のためのエントロピー正規化器の最適スケジューリング

Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning ( http://arxiv.org/abs/2208.04466v3 )

ライセンス: Link先を確認
Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang(参考訳) 本研究は、エントロピー正規化緩和確率制御視点を、強化学習(rl)アルゴリズムを設計するための原理的枠組みとして用いる。 ここでエージェントは、最適な緩和ポリシーに従って分布するノイズ制御を生成して環境と相互作用する。 一方、ノイズの多い政策は、空間を探索し、学習を促進するが、一方、非最適行動に正の確率を割り当てることでバイアスを導入する。 この探索-探索トレードオフはエントロピー正規化の強さによって決定される。 本研究では,エントロピーをコスト目標に加える探索的制御手法と,エントロピーが連続エピソード間のポリシーの相違を補う近位政策更新手法という,2つのエントロピー正規化の定式化によるアルゴリズムについて検討する。 未知のドリフト係数を持つ線形ダイナミクスを二次コストで制御する有限地平線連続時間線形二次(lq)rl問題に焦点を当てた。 この設定では、両方のアルゴリズムはガウス緩和ポリシーを生成する。 ガウスポリシーの値関数とノイズ評価との正確な差を定量化し、実行ノイズが時間とともに独立でなければならないことを示す。 緩和されたポリシーからのサンプリング頻度とエントロピー正規化の強さを規定するパラメータをチューニングすることにより、両方の学習アルゴリズムにとって後悔は、$\mathcal{o}(\sqrt{n}) $(対数係数まで)が$n$のエピソード以上であり、文献から最もよく知られた結果と一致することを証明する。

This work uses the entropy-regularised relaxed stochastic control perspective as a principled framework for designing reinforcement learning (RL) algorithms. Herein agent interacts with the environment by generating noisy controls distributed according to the optimal relaxed policy. The noisy policies on the one hand, explore the space and hence facilitate learning but, on the other hand, introduce bias by assigning a positive probability to non-optimal actions. This exploration-exploitation trade-off is determined by the strength of entropy regularisation. We study algorithms resulting from two entropy regularisation formulations: the exploratory control approach, where entropy is added to the cost objective, and the proximal policy update approach, where entropy penalises policy divergence between consecutive episodes. We focus on the finite horizon continuous-time linear-quadratic (LQ) RL problem, where a linear dynamics with unknown drift coefficients is controlled subject to quadratic costs. In this setting, both algorithms yield a Gaussian relaxed policy. We quantify the precise difference between the value functions of a Gaussian policy and its noisy evaluation and show that the execution noise must be independent across time. By tuning the frequency of sampling from relaxed policies and the parameter governing the strength of entropy regularisation, we prove that the regret, for both learning algorithms, is of the order $\mathcal{O}(\sqrt{N}) $ (up to a logarithmic factor) over $N$ episodes, matching the best known result from the literature.
翻訳日:2023-09-18 19:06:05 公開日:2023-09-15
# 周波数変換を用いたディープラーニングに基づく時系列解析の検討

A Survey on Deep Learning based Time Series Analysis with Frequency Transformation ( http://arxiv.org/abs/2302.02173v2 )

ライセンス: Link先を確認
Kun Yi and Qi Zhang and Longbing Cao and Shoujin Wang and Guodong Long and Liang Hu and Hui He and Zhendong Niu and Wei Fan and Hui Xiong(参考訳) 近年、周波数変換(FT)が深層学習モデルに組み込まれ、時系列解析における最先端の精度と効率を大幅に向上させている。 高効率性やグローバルな視点といったFTの利点は、様々な時系列タスクやアプリケーションで急速に探求され、時系列分析のための新しいディープラーニングパラダイムとしてのFTの有望な可能性を示している。 この新興分野での注目の高まりと研究の急増にもかかわらず、ftによるディープラーニングベースの時系列モデルの体系的なレビューと詳細な分析が欠如している。 また、FTが時系列解析を拡張できる理由や、その分野における制限については不明である。 そこで本研究では,ftを用いた深層学習に基づく時系列解析における最近の研究成果を体系的に調査し,概説する。 具体的には、FTを取り入れた現在のモデル、FTを利用するニューラルネットワークのタイプ、深層時系列解析におけるFT対応モデルの代表的アプローチについて検討する。 本稿では,この分野における既存の手法を分類する新たな分類法を提案し,時系列解析のための深層学習モデルにFTを取り入れた多様なアプローチについて概説する。 最後に、時系列モデリングにおけるFTの利点と限界を強調し、時系列分析のコミュニティにさらに貢献できる将来的な研究方向を特定する。

Recently, frequency transformation (FT) has been increasingly incorporated into deep learning models to significantly enhance state-of-the-art accuracy and efficiency in time series analysis. The advantages of FT, such as high efficiency and a global view, have been rapidly explored and exploited in various time series tasks and applications, demonstrating the promising potential of FT as a new deep learning paradigm for time series analysis. Despite the growing attention and the proliferation of research in this emerging field, there is currently a lack of a systematic review and in-depth analysis of deep learning-based time series models with FT. It is also unclear why FT can enhance time series analysis and what its limitations in the field are. To address these gaps, we present a comprehensive review that systematically investigates and summarizes the recent research advancements in deep learning-based time series analysis with FT. Specifically, we explore the primary approaches used in current models that incorporate FT, the types of neural networks that leverage FT, and the representative FT-equipped models in deep time series analysis. We propose a novel taxonomy to categorize the existing methods in this field, providing a structured overview of the diverse approaches employed in incorporating FT into deep learning models for time series analysis. Finally, we highlight the advantages and limitations of FT for time series modeling and identify potential future research directions that can further contribute to the community of time series analysis.
翻訳日:2023-09-18 18:58:20 公開日:2023-09-15
# 高分解能銀河シミュレーションに向けた深層学習による超新星シェル膨張の3次元時空間予測

3D-Spatiotemporal Forecasting the Expansion of Supernova Shells Using Deep Learning toward High-Resolution Galaxy Simulations ( http://arxiv.org/abs/2302.00026v2 )

ライセンス: Link先を確認
Keiya Hirashima, Kana Moriwaki, Michiko S. Fujii, Yutaka Hirai, Takayuki R. Saitoh, Junichiro Makino(参考訳) 超新星(SN)は銀河の形成と進化に重要な役割を果たしている。 超並列計算を用いた高解像度銀河シミュレーションでは、sneの短い積分時間ステップは深刻なボトルネックである。 これは、将来の高解像度銀河シミュレーションのために解決する必要がある緊急問題である。 可能な1つの解決策はハミルトニアン分割法で、短い時間ステップを必要とする領域はシステム全体から分離して統合される。 平滑化粒子の流体力学シミュレーションにおいて, sneの影響を受ける粒子に適用するには, その後の大域的ステップにおいて, このようなsn影響を受ける粒子の殻の形状を事前に検出する必要がある。 本稿では,SN爆発後の殻膨張を予測する深層学習モデルである3D-MIMを開発する。 粒子質量$m_{\rm gas}$~=~1 m$_\odot$の乱流シミュレーションに基づいて訓練されたこのモデルは、爆発によって密度が10%以上減少する異方性殻の形を正確に再現する。 また,不均質乱流雲のトレーニングデータセットを超えた均一媒質中の殻半径を適切に予測することを示した。 本モデルにより,SNの影響のある粒子が存在する貝殻とその内部の予測が可能となる。

Supernova (SN) plays an important role in galaxy formation and evolution. In high-resolution galaxy simulations using massively parallel computing, short integration timesteps for SNe are serious bottlenecks. This is an urgent issue that needs to be resolved for future higher-resolution galaxy simulations. One possible solution would be to use the Hamiltonian splitting method, in which regions requiring short timesteps are integrated separately from the entire system. To apply this method to the particles affected by SNe in a smoothed-particle hydrodynamics simulation, we need to detect the shape of the shell on and within which such SN-affected particles reside during the subsequent global step in advance. In this paper, we develop a deep learning model, 3D-MIM, to predict a shell expansion after a SN explosion. Trained on turbulent cloud simulations with particle mass $m_{\rm gas}$~=~1 M$_\odot$, the model accurately reproduces the anisotropic shell shape, where densities decrease by over 10 per cent by the explosion. We also demonstrate that the model properly predicts the shell radius in the uniform medium beyond the training dataset of inhomogeneous turbulent clouds. We conclude that our model enables the forecast of the shell and its interior where SN-affected particles will be present.
翻訳日:2023-09-18 18:57:58 公開日:2023-09-15
# Universal Neural-Cracking-Machines:補助データからの自己構成可能なパスワードモデル

Universal Neural-Cracking-Machines: Self-Configurable Password Models from Auxiliary Data ( http://arxiv.org/abs/2301.07628v4 )

ライセンス: Link先を確認
Dario Pasquini, Giuseppe Ateniese and Carmela Troncoso(参考訳) パスワードモデル(Universal password model)の概念を導入し、一度事前訓練されたら、ターゲットシステムに基づいた推測戦略を自動的に適用できる。 これを実現するために、モデルはターゲットの認証情報から平文パスワードにアクセスする必要はない。 代わりに、メールアドレスなどのユーザの補助情報をプロキシ信号として利用して、基盤となるパスワードの配布を予測する。 具体的には、ディープラーニングを使用して、ユーザグループ(例えば、webアプリケーションのユーザ)の補助データとパスワードの相関関係をキャプチャする。 そしてそれらのパターンを利用して、推論時にターゲットシステム用に調整されたパスワードモデルを作成する。 さらなるトレーニングステップ、ターゲットデータ収集、コミュニティのパスワード配布に関する事前知識は不要である。 現在のパスワード強度推定技術や攻撃の改善に加えて、任意のエンドユーザ(例えばシステム管理者)が、適切なトレーニングデータを収集し、基盤となる機械学習モデルに適合するという、しばしば作業不能な要求を伴わずに、システム用にカスタマイズされたパスワードモデルを自律的に生成することができる。 最終的に、当社のフレームワークは、十分に調整されたパスワードモデルのコミュニティへの民主化を可能にし、大規模なパスワードセキュリティソリューションの展開における大きな課題に対処します。

We introduce the concept of "universal password model" -- a password model that, once pre-trained, can automatically adapt its guessing strategy based on the target system. To achieve this, the model does not need to access any plaintext passwords from the target credentials. Instead, it exploits users' auxiliary information, such as email addresses, as a proxy signal to predict the underlying password distribution. Specifically, the model uses deep learning to capture the correlation between the auxiliary data of a group of users (e.g., users of a web application) and their passwords. It then exploits those patterns to create a tailored password model for the target system at inference time. No further training steps, targeted data collection, or prior knowledge of the community's password distribution is required. Besides improving over current password strength estimation techniques and attacks, the model enables any end-user (e.g., system administrators) to autonomously generate tailored password models for their systems without the often unworkable requirements of collecting suitable training data and fitting the underlying machine learning model. Ultimately, our framework enables the democratization of well-calibrated password models to the community, addressing a major challenge in the deployment of password security solutions at scale.
翻訳日:2023-09-18 18:56:56 公開日:2023-09-15
# 非エルミート系における欠陥凍結の量子計量

Quantum metric unveils defect freezing in non-Hermitian systems ( http://arxiv.org/abs/2301.02247v2 )

ライセンス: Link先を確認
Karin Sim, Nicol\`o Defenu, Paolo Molignini, R. Chitra(参考訳) 量子ハミルトニアンにおける非エルミート性は、非単位時間進化とおそらく複雑なエネルギー固有値をもたらし、エルミート的でない豊富な現象論をもたらす。 本研究では, 完全可解な非エルミート系のダイナミクスを研究し, 線形クエンチを受ける$\mathcal{pt}$-symmetric モードと$\mathcal{pt}$-brokenモードの両方をホストする。 ヒルベルト空間に非自明な動的計量が与えられる完全に一貫したフレームワークを用いることで、生成された欠陥のダイナミクスを分析する。 エルミート系とは対照的に、この研究では、$\mathcal{PT}$-breakken time evolutionが欠陥凍結を引き起こし、したがって断熱性に反することを示した。 この物理学は、状態の時間依存ノルムによる量正規化の法則によって見逃されるため、いわゆるメートル法フレームワークを必要とする。 我々の結果は幅広い実験システムに関係している。

Nonhermiticity in quantum Hamiltonians leads to non-unitary time evolution and possibly complex energy eigenvalues, which can lead to a rich phenomenology with no Hermitian counterpart. In this work, we study the dynamics of an exactly solvable non-Hermitian system, hosting both $\mathcal{PT}$-symmetric and $\mathcal{PT}$-broken modes subject to a linear quench. Employing a fully consistent framework, in which the Hilbert space is endowed with a nontrivial dynamical metric, we analyze the dynamics of the generated defects. In contrast to Hermitian systems, our study reveals that $\mathcal{PT}$-broken time evolution leads to defect freezing and hence the violation of adiabaticity. This physics necessitates the so-called metric framework, as it is missed by the oft used approach of normalizing quantities by the time-dependent norm of the state. Our results are relevant for a wide class of experimental systems.
翻訳日:2023-09-18 18:56:34 公開日:2023-09-15
# バイアス補正型CMIP6クラス地球系の深層学習

Deep learning for bias-correcting CMIP6-class Earth system models ( http://arxiv.org/abs/2301.01253v2 )

ライセンス: Link先を確認
Philipp Hess, Stefan Lange, Christof Sch\"otz and Niklas Boers(参考訳) 地球系モデル(esms)における降水の正確な表現は、地球温暖化に対する生態学的および社会経済的影響の信頼できる予測に不可欠である。 しかし、降水を生み出す過程の複雑なクロススケール相互作用はモデル化が困難であり、特に極性に関して、ESM分野において潜在的に強いバイアスを引き起こす。 最先端バイアス補正法は、各格子セルの局所的なシミュレーション周波数分布における誤差にのみ対処する。 空間コンテキストを必要とするESM出力の非現実的な空間パターンを改善することは、これまで不可能であった。 そこで本研究では,cGANを用いた後処理により,局所周波数分布と空間パターンの両方において,最先端のCMIP6クラスESMのバイアスを補正できることを示す。 本手法は, 金標準バイアス調整フレームワークと同様に局所周波数分布を等しく改善するが, 特に降水極端の特徴的な空間間欠性の観点から, 既存の空間パターンの補正法を大きく上回っている。

The accurate representation of precipitation in Earth system models (ESMs) is crucial for reliable projections of the ecological and socioeconomic impacts in response to anthropogenic global warming. The complex cross-scale interactions of processes that produce precipitation are challenging to model, however, inducing potentially strong biases in ESM fields, especially regarding extremes. State-of-the-art bias correction methods only address errors in the simulated frequency distributions locally at every individual grid cell. Improving unrealistic spatial patterns of the ESM output, which would require spatial context, has not been possible so far. Here, we show that a post-processing method based on physically constrained generative adversarial networks (cGANs) can correct biases of a state-of-the-art, CMIP6-class ESM both in local frequency distributions and in the spatial patterns at once. While our method improves local frequency distributions equally well as gold-standard bias-adjustment frameworks, it strongly outperforms any existing methods in the correction of spatial patterns, especially in terms of the characteristic spatial intermittency of precipitation extremes.
翻訳日:2023-09-18 18:56:15 公開日:2023-09-15
# 説明可能な変圧器に基づく時系列予測に向けた時相検出

Temporal Saliency Detection Towards Explainable Transformer-based Timeseries Forecasting ( http://arxiv.org/abs/2212.07771v3 )

ライセンス: Link先を確認
Nghia Duong-Trung, Duc-Manh Nguyen, Danh Le-Phuoc(参考訳) トランスフォーマーベースのモデルでは顕著な進歩があったが、長いマルチホライゾン時系列予測の課題は、特に説明可能性に対する永続的な課題である。 一般的なDNNの説明において、一般的なサリエンシマップに注目し、適切なアテンションヘッドとの接続を確立することで、サリエンシ関連時間パターンを自動的にエンコードできるアテンションベースのアーキテクチャを構築することを目指している。 そこで本稿では,注意機構に基づく効果的なアプローチであるtsd(temporal saliency detection)を提案し,マルチホリゾン時系列予測に適用する。 提案するアーキテクチャは一般的なエンコーダ-デコーダ構造に忠実であるが,エンコーダコンポーネントの大幅な改修が行われ,U-Netアーキテクチャにインスパイアされた一連の情報コントラクトと拡張ブロックが組み込まれている。 tsdアプローチは,多重ヘッドを凝縮することにより,塩分パターンのマルチレゾリューション解析を促進し,複雑な時系列データの予測を段階的に向上させる。 実験的な評価は、様々な極水平予測設定における複数の標準ベンチマークデータセットにおける他のモデルと比較して、提案手法の優位性を示している。 初期tsdは、多変量予測と不定値予測の文脈において、複数のモデルに対して31%と46%の相対的な改善を達成している。 この研究で示された包括的な調査は、将来の研究に貴重な洞察と利益をもたらすと信じている。

Despite the notable advancements in numerous Transformer-based models, the task of long multi-horizon time series forecasting remains a persistent challenge, especially towards explainability. Focusing on commonly used saliency maps in explaining DNN in general, our quest is to build attention-based architecture that can automatically encode saliency-related temporal patterns by establishing connections with appropriate attention heads. Hence, this paper introduces Temporal Saliency Detection (TSD), an effective approach that builds upon the attention mechanism and applies it to multi-horizon time series prediction. While our proposed architecture adheres to the general encoder-decoder structure, it undergoes a significant renovation in the encoder component, wherein we incorporate a series of information contracting and expanding blocks inspired by the U-Net style architecture. The TSD approach facilitates the multiresolution analysis of saliency patterns by condensing multi-heads, thereby progressively enhancing the forecasting of complex time series data. Empirical evaluations illustrate the superiority of our proposed approach compared to other models across multiple standard benchmark datasets in diverse far-horizon forecasting settings. The initial TSD achieves substantial relative improvements of 31% and 46% over several models in the context of multivariate and univariate prediction. We believe the comprehensive investigations presented in this study will offer valuable insights and benefits to future research endeavors.
翻訳日:2023-09-18 18:55:58 公開日:2023-09-15
# TIDE: グラフによるディープラーニングのための時間微分拡散

TIDE: Time Derivative Diffusion for Deep Learning on Graphs ( http://arxiv.org/abs/2212.02483v3 )

ライセンス: Link先を確認
Maysam Behmanesh, Maximilian Krahn, Maks Ovsjanikov(参考訳) グラフニューラルネットワークの顕著なパラダイムは、メッセージパッシングフレームワークに基づいている。 この枠組みでは、隣接ノード間のみの情報通信を実現する。 このパラダイムを使用するアプローチの課題は、深層畳み込みネットワークが過密になりやすいため、ノード間の効率的で正確な長距離通信を保証することである。 本稿では,メッセージパッシングフレームワークの構造的制約を克服するために,時間微分グラフ拡散(tide)に基づく新しい手法を提案する。 提案手法により,様々なタスクやネットワークチャネル間の空間的拡散範囲を最適化し,中長距離通信を効率的に行うことができる。 さらに, アーキテクチャ設計により, ローカルメッセージパッシングが可能であり, ローカルメッセージパッシングの能力を継承できることを示す。 グラフベンチマークと合成メッシュとグラフデータセットの両方において,提案フレームワークが最先端手法を著しく上回っていることを示す。

A prominent paradigm for graph neural networks is based on the message-passing framework. In this framework, information communication is realized only between neighboring nodes. The challenge of approaches that use this paradigm is to ensure efficient and accurate long-distance communication between nodes, as deep convolutional networks are prone to oversmoothing. In this paper, we present a novel method based on time derivative graph diffusion (TIDE) to overcome these structural limitations of the message-passing framework. Our approach allows for optimizing the spatial extent of diffusion across various tasks and network channels, thus enabling medium and long-distance communication efficiently. Furthermore, we show that our architecture design also enables local message-passing and thus inherits from the capabilities of local message-passing approaches. We show that on both widely used graph benchmarks and synthetic mesh and graph datasets, the proposed framework outperforms state-of-the-art methods by a significant margin
翻訳日:2023-09-18 18:55:17 公開日:2023-09-15
# グローバル量子通信のための時間遅延単一衛星量子中継ノード

Time-delayed single satellite quantum repeater node for global quantum communications ( http://arxiv.org/abs/2303.04174v2 )

ライセンス: Link先を確認
Mustafa G\"undo\u{g}an, Jasminder S. Sidhu, Markus Krutzik, Daniel K. L. Oi(参考訳) グローバルスケールの量子ネットワークは、技術的および科学的障害に直面している。 量子リピータ(QR)は光ファイバーによる直接伝送範囲制限を克服するために提案されている。 しかし、QRは通常、数千kmの距離に制限され、またはハードウェアのオーバーヘッドが大きくなる。 最近の提案では、搭載量子メモリ(QM)による空間的QRの文字列が、グローバルなカバレッジを提供できることが示唆されている。 本稿では、2つのQMを持つ1つの衛星を用いて1つのQRノードの時間遅延バージョンとして機能するリピータコンステレーションの代替案を提案する。 ベンチマークとしてQKDを用いて、有限鍵の生成量を推定し、1つのQMに依存する従来のシングルサテライト法よりも少なくとも3桁改善し、同時に必要なメモリ容量を削減した。 本研究では, 希土類イオンドープ結晶を適切な性能パラメータで実現するための実験プラットフォームを提案する。

Global-scale quantum networking faces significant technical and scientific obstacles. Quantum repeaters (QRs) have been proposed to overcome the inherent direct transmission range limit through optical fibre. However, QRs are typically limited to a total distance of a few thousand kilometres and/or require extensive hardware overhead. Recent proposals suggest that strings of space-borne QRs with on-board quantum memories (QMs) are able to provide global coverage. Here, we propose an alternative to such repeater constellations using a single satellite with two QMs that effectively acts as a time-delayed version of a single QR node. Using QKD as a benchmark, we estimate the amount of finite secure key generated and demonstrate an improvement of at least three orders of magnitude over prior single-satellite methods that rely on a single QM, while simultaneously reducing the necessary memory capacity similarly. We propose an experimental platform to realise this scheme based on rare-Earth ion doped crystals with appropriate performance parameters.
翻訳日:2023-09-18 18:49:06 公開日:2023-09-15
# beyond discrete selection: 生成的特徴選択のための連続埋め込み空間最適化

Beyond Discrete Selection: Continuous Embedding Space Optimization for Generative Feature Selection ( http://arxiv.org/abs/2302.13221v4 )

ライセンス: Link先を確認
Meng Xiao and Dongjie Wang and Min Wu and Pengfei Wang and Yuanchun Zhou and Yanjie Fu(参考訳) フィルタ、ラッパー、組み込みアプローチを含む機能選択の目的は、指定された下流タスクに最適な機能サブセットを見つけることである。 それにもかかわらず、現在の特徴選択方法は以下のとおりである。 1) これらの方法の選択基準は,異なる領域に対して異なっており,一般化が困難である。 2) 試料径の小さい高次元特徴空間の処理において, これらの手法の選択性能は著しく低下する。 選択された機能サブセットは、より堅牢で、正確で、入力次元に依存しないものになるか? 本稿では,特徴選択問題を深い微分可能最適化タスクとして再構成し,連続埋め込み空間最適化として離散的特徴分割を概念化する新たな研究視点を提案する。 本稿では,シーケンシャルエンコーダ,精度評価器,シーケンシャルデコーダ,勾配上昇最適化器を包含する,新しい原理付きフレームワークを提案する。 この包括的なフレームワークは、4つの重要なステップを含む: 特徴精度トレーニングデータの作成、深い特徴部分集合の埋め込み、勾配最適化検索、特徴部分集合の再構築。 具体的には,強化特徴選択学習を用いて多様で高品質なトレーニングデータを生成し,一般化を促進する。 再構成と精度損失を最適化することにより、エンコーダ-評価器-デコーダモデル構造を用いて特徴選択知識を連続空間に埋め込む。 我々は、学習した埋め込み空間により良い埋め込みを求めるために勾配上昇探索アルゴリズムを用いる。 さらに、これらの埋め込みを用いて特徴選択ソリューションを再構築し、下流タスクを最適なサブセットとして最高の性能で特徴サブセットを選択する。

The goal of Feature Selection - comprising filter, wrapper, and embedded approaches - is to find the optimal feature subset for designated downstream tasks. Nevertheless, current feature selection methods are limited by: 1) the selection criteria of these methods are varied for different domains, making them hard to generalize; 2) the selection performance of these approaches drops significantly when processing high-dimensional feature space coupled with small sample size. In light of these challenges, we pose the question: can selected feature subsets be more robust, accurate, and input dimensionality agnostic? In this paper, we reformulate the feature selection problem as a deep differentiable optimization task and propose a new research perspective: conceptualizing discrete feature subsetting as continuous embedding space optimization. We introduce a novel and principled framework that encompasses a sequential encoder, an accuracy evaluator, a sequential decoder, and a gradient ascent optimizer. This comprehensive framework includes four important steps: preparation of features-accuracy training data, deep feature subset embedding, gradient-optimized search, and feature subset reconstruction. Specifically, we utilize reinforcement feature selection learning to generate diverse and high-quality training data and enhance generalization. By optimizing reconstruction and accuracy losses, we embed feature selection knowledge into a continuous space using an encoder-evaluator-decoder model structure. We employ a gradient ascent search algorithm to find better embeddings in the learned embedding space. Furthermore, we reconstruct feature selection solutions using these embeddings and select the feature subset with the highest performance for downstream tasks as the optimal subset.
翻訳日:2023-09-18 18:48:49 公開日:2023-09-15
# 神秘的で操作的なブラックボックス:レコメンダシステムにおける知覚の質的分析

Mysterious and Manipulative Black Boxes: A Qualitative Analysis of Perceptions on Recommender Systems ( http://arxiv.org/abs/2302.09933v2 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 推薦システムは、様々な事項に関する適切な提案を提供するために使用される。 これらの制度は古典的な研究テーマであるが、これらの制度に関する世論についてはまだ知識が限られている。 システムは様々な問題を引き起こすことが知られているため、世論も重要である。 そこで本研究では,欧州における一般市民,市民団体,企業等の推薦制度に対する認識の質的分析について述べる。 調査されたデータセットは、欧州連合(EU)で最近施行されたデジタルサービス法(DSA)に関する協議に提出された回答に基づいています。 したがって,本論文は,新たな技術やオンラインプラットフォームを規制する上での圧力的問題に寄与するだけでなく,DSAの政策決定に関する洞察も明らかにする。 定性的な結果によると、ヨーロッパ人は概してレコメンダシステムとレコメンデーションの品質について否定的な意見を持っている。 このシステムは、プライバシーやその他の基本的権利を侵害していると広く見られている。 多くのヨーロッパ人によれば、これらもまた民主主義への脅威を含む様々な社会問題を引き起こしている。 さらに、EUの既存の規制は、適切な執行力の欠如により失敗していたと一般的にみられている。 状況改善のための協議について,多くの意見が寄せられたが,DSAに終わったのはごくわずかであった。

Recommender systems are used to provide relevant suggestions on various matters. Although these systems are a classical research topic, knowledge is still limited regarding the public opinion about these systems. Public opinion is also important because the systems are known to cause various problems. To this end, this paper presents a qualitative analysis of the perceptions of ordinary citizens, civil society groups, businesses, and others on recommender systems in Europe. The dataset examined is based on the answers submitted to a consultation about the Digital Services Act (DSA) recently enacted in the European Union (EU). Therefore, not only does the paper contribute to the pressing question about regulating new technologies and online platforms, but it also reveals insights about the policy-making of the DSA. According to the qualitative results, Europeans have generally negative opinions about recommender systems and the quality of their recommendations. The systems are widely seen to violate privacy and other fundamental rights. According to many Europeans, these also cause various societal problems, including even threats to democracy. Furthermore, existing regulations in the EU are commonly seen to have failed due to a lack of proper enforcement. Numerous suggestions were made by the respondents to the consultation for improving the situation, but only a few of these ended up to the DSA.
翻訳日:2023-09-18 18:48:24 公開日:2023-09-15
# 非オーナメンテッドディープニューラルネットワークを用いた地中および低地中励起状態の多体波動関数

Multi-body wave function of ground and low-lying excited states using unornamented deep neural networks ( http://arxiv.org/abs/2302.08965v2 )

ライセンス: Link先を確認
Tomoya Naito, Hisashi Naito, and Koji Hashimoto(参考訳) 本研究では,深層ニューラルネットワークと教師なし機械学習手法を用いて,基底状態だけでなく低次励起状態の波動関数やエネルギーを計算する手法を提案する。 また, 同一粒子からなる系に対しては, ボソニック系のシンメトリゼーションとフェルミオン系のアンチシンメトリゼーションを簡易に行う方法も提案した。

We propose a method to calculate wave functions and energies not only of the ground state but also of low-lying excited states using a deep neural network and the unsupervised machine learning technique. For systems composed of identical particles, a simple method to perform symmetrization for bosonic systems and antisymmetrization for fermionic systems is also proposed.
翻訳日:2023-09-18 18:48:07 公開日:2023-09-15
# エッジ機械学習の包括的レビューと分類:要件,パラダイム,テクニック

A Comprehensive Review and a Taxonomy of Edge Machine Learning: Requirements, Paradigms, and Techniques ( http://arxiv.org/abs/2302.08571v2 )

ライセンス: Link先を確認
Wenbin Li, Hakim Hacid, Ebtesam Almazrouei, Merouane Debbah(参考訳) エッジコンピューティング(EC)と人工知能(AI)の連合はEdge AIの概念を推進し、エンドユーザ環境に近いインテリジェントなソリューションを提供し、プライバシ保護、リアルタイムパフォーマンスへの低レイテンシ、リソース最適化を実現した。 機械学習(ML)は、ここ数年でAIの最も先進的な分野であり、エッジ環境における奨励的な結果と応用を示している。 それにもかかわらず、エッジコンピューティングとAIドメインの両方のジョイント制約のため、エッジパワーのMLソリューションはより複雑であり、対応するソリューションは、データ処理、モデル圧縮、分散推論、エッジML要求のための高度な学習パラダイムといった技術で効率的かつ適応することが期待されている。 Edge MLの注目が学術的および工業的コミュニティの両方で集まっているという事実にもかかわらず、この概念の共通理解を提供するために、既存のEdge ML技術に関する完全な調査が欠如していることに気づきました。 そこで本研究では,既存のパラダイムやテクニックのソフトコンピューティング的側面に着目し,包括的分類とエッジML手法の体系的レビューを実現することを目的とする。 まず、共同制約によって駆動されるEdge ML要件を特定します。 次に、エッジ推論とエッジ学習という2つの主要な部分をカバーする、20以上のパラダイムとテクニックとその代表的作業を調査します。 特に,特定要件のサブセットを満たすことで,各手法がエッジmlにどのように適合するかを分析する。 Edge MLフレームワークとオープンイシューを要約して、Edge MLの今後の方向性を明らかにします。

The union of Edge Computing (EC) and Artificial Intelligence (AI) has brought forward the Edge AI concept to provide intelligent solutions close to the end-user environment, for privacy preservation, low latency to real-time performance, and resource optimization. Machine Learning (ML), as the most advanced branch of AI in the past few years, has shown encouraging results and applications in the edge environment. Nevertheless, edge-powered ML solutions are more complex to realize due to the joint constraints from both edge computing and AI domains, and the corresponding solutions are expected to be efficient and adapted in technologies such as data processing, model compression, distributed inference, and advanced learning paradigms for Edge ML requirements. Despite the fact that a great deal of the attention garnered by Edge ML is gained in both the academic and industrial communities, we noticed the lack of a complete survey on existing Edge ML technologies to provide a common understanding of this concept. To tackle this, this paper aims at providing a comprehensive taxonomy and a systematic review of Edge ML techniques, focusing on the soft computing aspects of existing paradigms and techniques. We start by identifying the Edge ML requirements driven by the joint constraints. We then extensively survey more than twenty paradigms and techniques along with their representative work, covering two main parts: edge inference, and edge learning. In particular, we analyze how each technique fits into Edge ML by meeting a subset of the identified requirements. We also summarize Edge ML frameworks and open issues to shed light on future directions for Edge ML.
翻訳日:2023-09-18 18:47:59 公開日:2023-09-15
# RGBによるモデルベース水中6次元位置推定

Model-Based Underwater 6D Pose Estimation from RGB ( http://arxiv.org/abs/2302.06821v2 )

ライセンス: Link先を確認
Davide Sapienza, Elena Govi, Sara Aldhaheri, Marko Bertogna, Eloy Roura, \`Eric Pairet, Micaela Verucchi, Paola Ard\'on(参考訳) 水中でのオブジェクトのポーズ推定により、自律システムは追跡と介入のタスクを実行できる。 それにもかかわらず、水中のターゲットのポーズ推定は、可視性、光散乱、乱雑な環境、絶えず変化する水環境など、多くの要因の中で著しく困難である。 ソナーやレーザーセンシングを使って3dデータを取得するアプローチだが、データは明確ではなく、センサーは高価である。 そのため、コミュニティはRGB入力からポーズ推定を抽出することに重点を置いている。 本研究では,2次元物体検出を利用して水中の異なるシナリオにおける6次元ポーズ推定を確実に計算する手法を提案する。 提案手法は,33,920の合成シーンと10の実際のシーンにまたがる対称形状と質感の悪い4つのオブジェクトを用いて検証した。 すべてのオブジェクトとシーンは、オブジェクト検出とポーズ推定のためのアノテーションを含むオープンソースのデータセットで利用可能である。 6次元オブジェクトのポーズ推定に類似したエンドツーエンドの方法論をベンチマークすると、パイプラインはより8%精度の高い見積もりを提供する。 また,水中ロボットマニピュレータ上でのポーズ推定パイプラインの到達作業における実際のユーザビリティを実証した。

Object pose estimation underwater allows an autonomous system to perform tracking and intervention tasks. Nonetheless, underwater target pose estimation is remarkably challenging due to, among many factors, limited visibility, light scattering, cluttered environments, and constantly varying water conditions. An approach is to employ sonar or laser sensing to acquire 3D data, however, the data is not clear and the sensors expensive. For this reason, the community has focused on extracting pose estimates from RGB input. In this work, we propose an approach that leverages 2D object detection to reliably compute 6D pose estimates in different underwater scenarios. We test our proposal with 4 objects with symmetrical shapes and poor texture spanning across 33,920 synthetic and 10 real scenes. All objects and scenes are made available in an open-source dataset that includes annotations for object detection and pose estimation. When benchmarking against similar end-to-end methodologies for 6D object pose estimation, our pipeline provides estimates that are 8% more accurate. We also demonstrate the real world usability of our pose estimation pipeline on an underwater robotic manipulator in a reaching task.
翻訳日:2023-09-18 18:47:31 公開日:2023-09-15
# 大規模言語モデルを用いた強化学習における事前学習の指導

Guiding Pretraining in Reinforcement Learning with Large Language Models ( http://arxiv.org/abs/2302.06692v2 )

ライセンス: Link先を確認
Yuqing Du, Olivia Watkins, Zihan Wang, C\'edric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta, Jacob Andreas(参考訳) 強化学習アルゴリズムは、通常、密集した形をした報酬関数の欠如に苦労する。 本質的に動機づけられた探索方法は、新しい状態や遷移を訪れるエージェントに報酬を与えることでこの制限に対処するが、これらの方法は、最も発見されるノベルティが下流タスクに無関係な大きな環境では限定的な利点を提供する。 本稿では,テキストコーパスの背景知識を用いた探索手法について述べる。 このメソッドは ELLM (Exploring with LLMs) と呼ばれ、エージェントの現在の状態を記述した言語モデルによって提案された目標を達成するエージェントに報酬を与える。 大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。 本研究は,造形ゲーム環境およびハウスキープロボットシミュレータにおけるellmの評価を行い,学習中の共通感覚行動のカバレッジが向上し,通常,下流タスクにおけるパフォーマンスが向上することを示す。 コードはhttps://github.com/yuqingd/ellm。

Reinforcement learning algorithms typically struggle in the absence of a dense, well-shaped reward function. Intrinsically motivated exploration methods address this limitation by rewarding agents for visiting novel states or transitions, but these methods offer limited benefits in large environments where most discovered novelty is irrelevant for downstream tasks. We describe a method that uses background knowledge from text corpora to shape exploration. This method, called ELLM (Exploring with LLMs) rewards an agent for achieving goals suggested by a language model prompted with a description of the agent's current state. By leveraging large-scale language model pretraining, ELLM guides agents toward human-meaningful and plausibly useful behaviors without requiring a human in the loop. We evaluate ELLM in the Crafter game environment and the Housekeep robotic simulator, showing that ELLM-trained agents have better coverage of common-sense behaviors during pretraining and usually match or improve performance on a range of downstream tasks. Code available at https://github.com/yuqingd/ellm.
翻訳日:2023-09-18 18:47:14 公開日:2023-09-15
# ディジタル量子コンピュータにおける核シェルモデルシミュレーション

Nuclear shell-model simulation in digital quantum computers ( http://arxiv.org/abs/2302.03641v3 )

ライセンス: Link先を確認
A. P\'erez-Obiol, A. M. Romero, J. Men\'endez and A. Rios, A. Garc\'ia-S\'aez, B. Juli\'a-D\'iaz(参考訳) 原子殻モデルは原子核の構造を研究するための素多体モデルの一つであるが、粒子の数が増えるにつれて基底の大きさの指数関数的スケーリングによって妨げられる。 適応型変分量子固有解法アルゴリズムを用いて核基底状態を見つけるためのシェルモデル量子回路設計手法を提案する。 我々の回路実装は、ネオンやカルシウム同位体を含む数十の光・中質量核の古典的なシェルモデルシミュレーションとよく一致している。 ゲートの回路深さ,幅,数を定量化し,現実的なシェルモデル波動関数を符号化する。 我々の戦略は、エネルギー測定とそれを実行するために必要な回路数にも対処する。 シミュレーション回路は、各原子核の量子資源の多項式スケーリングで指数関数的にベンチマーク結果にアプローチする。 この研究は、原子核チャート全体の量子計算シェルモデルの研究への道を開き、我々の量子リソースの定量化は、他のフェルミオン系の構成-相互作用計算に応用できるかもしれない。

The nuclear shell model is one of the prime many-body methods to study the structure of atomic nuclei, but it is hampered by an exponential scaling on the basis size as the number of particles increases. We present a shell-model quantum circuit design strategy to find nuclear ground states by exploiting an adaptive variational quantum eigensolver algorithm. Our circuit implementation is in excellent agreement with classical shell-model simulations for a dozen of light and medium-mass nuclei, including neon and calcium isotopes. We quantify the circuit depth, width and number of gates to encode realistic shell-model wavefunctions. Our strategy also addresses explicitly energy measurements and the required number of circuits to perform them. Our simulated circuits approach the benchmark results exponentially with a polynomial scaling in quantum resources for each nucleus. This work paves the way for quantum computing shell-model studies across the nuclear chart and our quantum resource quantification may be used in configuration-interaction calculations of other fermionic systems.
翻訳日:2023-09-18 18:46:56 公開日:2023-09-15
# アルゴリズム的透明性と説明可能性の5つの政策利用

Five policy uses of algorithmic transparency and explainability ( http://arxiv.org/abs/2302.03080v2 )

ライセンス: Link先を確認
Matthew O'Shaughnessy(参考訳) アルゴリズムシステムは「透明」で「説明可能な」という概念は、政府、企業、擁護団体によって開発された合意原則の多くの言明に共通している。 しかし、これらの技術的概念から政策や法的なアクターが正確に何を望んでいるのか、そしてそのデシラタは、機械学習の文献で開発された説明可能性技術とどのように比較するのか? 政策と技術コミュニティをより良く結びつけるために、我々は、アルゴリズムの透明性と説明可能性が政策設定で使用される5つの方法を示すケーススタディを提供する: 説明のための具体的な要件、アルゴリズムの内部ガバナンスのための非拘束的ガイドライン、高度に規制された設定に適用可能な規制、アルゴリズムの法的責任の有効性を高めるためのガイドライン、モデルとデータの透明性に対する幅広い要件。 ケーススタディは、特定のタイプの説明に対する正確な要求から、透明性のより広い概念に焦点を当てた非特定の要求まで、様々な政策担当者や文脈の多様なニーズ、制約、能力を示す範囲にまたがる。 これらのケーススタディに基づき、政策における透明性と説明の活用の有望な方法と、政策立案者のアルゴリズム的説明可能性の使用を制限する共通要因について論じる。 研究者や政策立案者に対する勧告で締めくくります。

The notion that algorithmic systems should be "transparent" and "explainable" is common in the many statements of consensus principles developed by governments, companies, and advocacy organizations. But what exactly do policy and legal actors want from these technical concepts, and how do their desiderata compare with the explainability techniques developed in the machine learning literature? In hopes of better connecting the policy and technical communities, we provide case studies illustrating five ways in which algorithmic transparency and explainability have been used in policy settings: specific requirements for explanations; in nonbinding guidelines for internal governance of algorithms; in regulations applicable to highly regulated settings; in guidelines meant to increase the utility of legal liability for algorithms; and broad requirements for model and data transparency. The case studies span a spectrum from precise requirements for specific types of explanations to nonspecific requirements focused on broader notions of transparency, illustrating the diverse needs, constraints, and capacities of various policy actors and contexts. Drawing on these case studies, we discuss promising ways in which transparency and explanation could be used in policy, as well as common factors limiting policymakers' use of algorithmic explainability. We conclude with recommendations for researchers and policymakers.
翻訳日:2023-09-18 18:46:40 公開日:2023-09-15
# Hierarchical Feature Conditional Diffusion を用いたMRIスライス間隔の任意化

Arbitrary Reduction of MRI Inter-slice Spacing Using Hierarchical Feature Conditional Diffusion ( http://arxiv.org/abs/2304.07756v3 )

ライセンス: Link先を確認
Xin Wang, Zhenrong Shen, Zhiyun Song, Sheng Wang, Mengjun Liu, Lichi Zhang, Kai Xuan, Qian Wang(参考訳) 2次元走査プロトコルで収集された磁気共鳴(MR)画像は、通常、大きなスライス間隔を持ち、高平面分解能を持つが、平面分解能は低下する。 超高解像度技術は、2DスキャンしたMR画像のスライス間隔を減らし、下流での視覚体験とコンピュータ支援診断を容易にする。 しかし、既存のほとんどの超解像法は一定のスケーリング比で訓練されており、MRスキャンがスライス間隔の異なる臨床環境では不都合である。 そこで本稿では,mrインタースライス間隔を任意に低減するための階層的特徴条件拡散(hifi-diff)を提案する。 隣接した2つのMRスライスと相対的な位置オフセットが与えられた場合、HiFi-Diffはガウスノイズマップを任意の所望のMRスライスに変換する。 さらに, 階層的特徴抽出 (HiFE) モジュールは, 階層的に条件特徴を抽出し, 要素ワイド変調を行う。 HCP-1200データセットを用いた実験結果から,HiFi-Diffの高忠実度超解像能と下流セグメンテーション性能の向上効果が示された。

Magnetic resonance (MR) images collected in 2D scanning protocols typically have large inter-slice spacing, resulting in high in-plane resolution but reduced through-plane resolution. Super-resolution techniques can reduce the inter-slice spacing of 2D scanned MR images, facilitating the downstream visual experience and computer-aided diagnosis. However, most existing super-resolution methods are trained at a fixed scaling ratio, which is inconvenient in clinical settings where MR scanning may have varying inter-slice spacings. To solve this issue, we propose Hierarchical Feature Conditional Diffusion (HiFi-Diff)} for arbitrary reduction of MR inter-slice spacing. Given two adjacent MR slices and the relative positional offset, HiFi-Diff can iteratively convert a Gaussian noise map into any desired in-between MR slice. Furthermore, to enable fine-grained conditioning, the Hierarchical Feature Extraction (HiFE) module is proposed to hierarchically extract conditional features and conduct element-wise modulation. Our experimental results on the publicly available HCP-1200 dataset demonstrate the high-fidelity super-resolution capability of HiFi-Diff and its efficacy in enhancing downstream segmentation performance.
翻訳日:2023-09-18 18:38:30 公開日:2023-09-15
# 法律qaシステムにおける技術の現状を探る

Exploring the State of the Art in Legal QA Systems ( http://arxiv.org/abs/2304.06623v3 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Bhawna Piryani, Adam Jatowt(参考訳) 法的領域に関する質問に対する回答は、主に複雑な性質と多種多様な法的文書システムのために複雑なタスクである。 法的クエリに対する正確な回答を提供するには、典型的には関連する分野の専門知識が必要である。 質問応答(qa)システムは、人間の言語で質問に対する回答を生成するように設計されている。 QAは自然言語処理を使用して質問を理解し、情報を通して関連する回答を見つける。 QAには、カスタマーサービス、教育、研究、言語間コミュニケーションなど、さまざまな実践的応用がある。 しかし、qaは自然言語理解の改善や複雑であいまいな質問の扱いといった課題に直面している。 法的領域に関する質問に対する回答は、主に複雑な性質と多種多様な法的文書システムのために複雑なタスクである。 法的クエリに対する正確な回答を提供するには、典型的には関連する分野の専門知識が必要である。 現時点では、法的質問に対する回答を議論する調査が不足している。 この問題を解決するために,法分野における質問応答のための14のベンチマークデータセットをレビューし,ディープラーニングモデルに対する最新の法的質問を総合的にレビューする包括的な調査を行う。 これらの研究で使用される異なるアーキテクチャとテクニック、およびこれらのモデルの性能と限界について取り上げる。 さらに、最新の記事やオープンデータ、ソースコードを定期的にアップロードするGitHubリポジトリも公開しています。 リポジトリは \url{https://github.com/abdoelsayed2016/legal-question-answering-review} で利用可能である。

Answering questions related to the legal domain is a complex task, primarily due to the intricate nature and diverse range of legal document systems. Providing an accurate answer to a legal query typically necessitates specialized knowledge in the relevant domain, which makes this task all the more challenging, even for human experts. Question answering (QA) systems are designed to generate answers to questions asked in human languages. QA uses natural language processing to understand questions and search through information to find relevant answers. QA has various practical applications, including customer service, education, research, and cross-lingual communication. However, QA faces challenges such as improving natural language understanding and handling complex and ambiguous questions. Answering questions related to the legal domain is a complex task, primarily due to the intricate nature and diverse range of legal document systems. Providing an accurate answer to a legal query typically necessitates specialized knowledge in the relevant domain, which makes this task all the more challenging, even for human experts. At this time, there is a lack of surveys that discuss legal question answering. To address this problem, we provide a comprehensive survey that reviews 14 benchmark datasets for question-answering in the legal field as well as presents a comprehensive review of the state-of-the-art Legal Question Answering deep learning models. We cover the different architectures and techniques used in these studies and the performance and limitations of these models. Moreover, we have established a public GitHub repository where we regularly upload the most recent articles, open data, and source code. The repository is available at: \url{https://github.com/abdoelsayed2016/Legal-Question-Answering-Review}.
翻訳日:2023-09-18 18:38:07 公開日:2023-09-15
# MOPA: PointGoal Agentによるモジュールオブジェクトナビゲーション

MOPA: Modular Object Navigation with PointGoal Agents ( http://arxiv.org/abs/2304.03696v2 )

ライセンス: Link先を確認
Sonia Raychaudhuri, Tommaso Campari, Unnat Jain, Manolis Savva, Angel X. Chang(参考訳) 本稿では,具体化aiにおけるオブジェクトナビゲーションタスク固有のモジュラリティを体系的に検討するために,単純かつ効果的なモジュラーアプローチmopa(modular objectnav with pointgoal agents)を提案する。 MOPAは4つのモジュールから構成される。 (a)RGB画像からオブジェクトを識別するよう訓練されたオブジェクト検出モジュール (b)観測対象のセマンティックマップを構築するためのマップ構築モジュール (c)エージェントが環境を探索できる探索モジュール、及び (d) 特定対象オブジェクトに移動するためのナビゲーションモジュール。 我々は,スクラッチから学習する代わりに,事前学習したPointGoalエージェントをナビゲーションモデルとして効果的に再利用できることを示す。 また、MOPAの様々な探査戦略を比較し、単純な統一戦略がより高度な探査方法よりも優れていることを見出した。

We propose a simple but effective modular approach MOPA (Modular ObjectNav with PointGoal agents) to systematically investigate the inherent modularity of the object navigation task in Embodied AI. MOPA consists of four modules: (a) an object detection module trained to identify objects from RGB images, (b) a map building module to build a semantic map of the observed objects, (c) an exploration module enabling the agent to explore the environment, and (d) a navigation module to move to identified target objects. We show that we can effectively reuse a pretrained PointGoal agent as the navigation model instead of learning to navigate from scratch, thus saving time and compute. We also compare various exploration strategies for MOPA and find that a simple uniform strategy significantly outperforms more advanced exploration methods.
翻訳日:2023-09-18 18:37:42 公開日:2023-09-15
# 散逸・縮退型ニューラルディファレンシャル方程式の非拘束パラメトリゼーション

Unconstrained Parametrization of Dissipative and Contracting Neural Ordinary Differential Equations ( http://arxiv.org/abs/2304.02976v2 )

ライセンス: Link先を確認
Daniele Martinelli, Clara Luc\'ia Galimberti, Ian R. Manchester, Luca Furieri, and Giancarlo Ferrari-Trecate(参考訳) 本研究では,Deep Neural Networks(DNN)のクラスを連続的に導入し,研究する。 提案アーキテクチャは,最近導入されたRecurrent Equilibrium Networks (RENs) のモデル構造とニューラル正規微分方程式(Neural ODEs)の組み合わせに由来する。 私たちは、提案されているNodeRENを、堅牢な学習と制御にとって重要な特性である、収縮性と分散性で支援する方法を示します。 最も重要なことは、RENに関して、制約のない、収縮的かつ散逸的なNodeRENのパラメトリゼーションを導き、それによって、多くのパラメータを学習できるということです。 非線形システム同定におけるケーススタディにおいて、不規則サンプルデータを扱う可能性を含むNodeRENの特性を検証する。

In this work, we introduce and study a class of Deep Neural Networks (DNNs) in continuous-time. The proposed architecture stems from the combination of Neural Ordinary Differential Equations (Neural ODEs) with the model structure of recently introduced Recurrent Equilibrium Networks (RENs). We show how to endow our proposed NodeRENs with contractivity and dissipativity -- crucial properties for robust learning and control. Most importantly, as for RENs, we derive parametrizations of contractive and dissipative NodeRENs which are unconstrained, hence enabling their learning for a large number of parameters. We validate the properties of NodeRENs, including the possibility of handling irregularly sampled data, in a case study in nonlinear system identification.
翻訳日:2023-09-18 18:37:29 公開日:2023-09-15
# CompoNeRF:編集可能な3Dシーンレイアウトによるテキスト誘導多目的合成型NeRF

CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout ( http://arxiv.org/abs/2303.13843v2 )

ライセンス: Link先を確認
Haotian Bai, Yuanhuiyi Lyu, Lutao Jiang, Sijia Li, Haonan Lu, Xiaodong Lin, Lin Wang(参考訳) 近年の研究では、NeRF(Near Radiance Field)と事前学習した拡散モデルを組み合わせることが、テキストから3D生成に大きな可能性を示唆している。 しかし、比較的長い文で多目的シーンをレンダリングする際に、しばしば誘導崩壊に遭遇するハードルがある。 具体的には、テキストと画像の拡散モデルは本質的に制約がなく、オブジェクトのセマンティクスと3D構造を正確に関連付ける能力が低い。 そこで我々は,編集可能な3dシーンレイアウトを明示的に組み込んで,オブジェクト(ローカル)とシーン(グローバル)の効果的なガイダンスを提供する,componerfと呼ばれる新しいフレームワークを提案する。 まず、オブジェクト固有の3Dボックスとテキストプロンプトに関連する複数のローカルNeRFを含む編集可能な3Dシーンレイアウトとして、多目的テキストを解釈する。 次に,局所的なNeRFからの潜伏特徴を校正する合成モジュールを導入し,異なる局所的なNeRF間の視界の整合性を驚くほど改善する。 最後に,グローバルレベルとローカルレベルに対するテキストガイダンスを,対応するビューを通じて適用することで,ガイダンスあいまいさを回避できる。 さらに、NeRFは分解され、微調整で他のシーンを構成するためにキャッシュされる。 このようにして、当社のCompoNeRFは、3Dレイアウトやテキストプロンプトを操作することで、訓練されたローカルNeRFのフレキシブルなシーン編集と再構成を可能にします。 オープンソースの安定拡散モデルを利用することで,編集可能な3dシーンレイアウトを通じて,テキスト誘導型多目的合成の潜在的方向を開放しつつ,忠実かつ編集可能なテキストから3dへの結果を生成することができる。 特に、私たちのCompoNeRFは、CLIPスコアメトリックに基づいて、少なくとも54%のパフォーマンス向上を達成できます。 コードはhttps://.com/で入手できる。

Recent research endeavors have shown that combining neural radiance fields (NeRFs) with pre-trained diffusion models holds great potential for text-to-3D generation. However, a hurdle is that they often encounter guidance collapse when rendering multi-object scenes with relatively long sentences. Specifically, text-to-image diffusion models are inherently unconstrained, making them less competent to accurately associate object semantics with 3D structures. To address it, we propose a novel framework, dubbed CompoNeRF, to explicitly incorporates an editable 3D scene layout to provide effective guidance at the object (i.e., local) and scene (i.e., global) levels. Firstly, we interpret the multi-object text as an editable 3D scene layout containing multiple local NeRFs associated with the object-specific 3D boxes and text prompt. Then, we introduce a composition module to calibrate the latent features from local NeRFs, which surprisingly improves the view consistency across different local NeRFs. Lastly, we apply text guidance on global and local levels through their corresponding views to avoid guidance ambiguity. Additionally, NeRFs can be decomposed and cached for composing other scenes with fine-tuning. This way, our CompoNeRF allows for flexible scene editing and re-composition of trained local NeRFs into a new scene by manipulating the 3D layout or text prompt. Leveraging the open-source Stable Diffusion model, our CompoNeRF can generate faithful and editable text-to-3D results while opening a potential direction for text-guided multi-object composition via the editable 3D scene layout. Notably, our CompoNeRF can achieve at most 54% performance gain based on the CLIP score metric. Code is available at https://.
翻訳日:2023-09-18 18:37:18 公開日:2023-09-15
# reorientdiff:オブジェクト操作のための拡散モデルに基づくリオリエンテーション

ReorientDiff: Diffusion Model based Reorientation for Object Manipulation ( http://arxiv.org/abs/2303.12700v2 )

ライセンス: Link先を確認
Utkarsh A. Mishra and Yongxin Chen(参考訳) 望ましい構成でオブジェクトを操作する能力は、ロボットが様々な実用的な応用を完了するための基本的な要件である。 関心のあるオブジェクトを直接選択して配置することで、特定の目標を達成できるが、ほとんどのタスクにおける正確な配置には、オブジェクトの向き付けが必要である。 このようなシナリオでは、オブジェクトは、ターゲットのポーズにおける正確な配置を容易にする中間のポーズに再配置されなければならない。 そこで本研究では,拡散モデルに基づく手法を用いたリオリエンテーション計画手法であるReorientDiffを提案する。 提案手法では,シーンからの視覚的入力と目標固有言語を併用し,中間配置ポーズを計画する。 具体的には、シーンと言語タスク情報を共同シーンタスク表現特徴空間にマッピングし、拡散モデルを条件付けする。 拡散モデルは、分類子なし誘導を用いた表現に基づいて中間ポーズをサンプリングし、暗黙の反復的ポーズ修正のために学習可能スコアモデルの勾配を使用する。 提案手法は,YCBオブジェクトの集合と吸引グリップを用いて評価し,95.2%のシミュレーション成功率を示す。 本研究は,より一般化可能な物体操作に向けた効果的な方法として,条件分布の学習による操作の方向転換問題に対処する,有望なアプローチを提案する。 詳細については、webサイトをご覧ください。 https://utkarshmishra04.github.io/reorientdiff。

The ability to manipulate objects in a desired configurations is a fundamental requirement for robots to complete various practical applications. While certain goals can be achieved by picking and placing the objects of interest directly, object reorientation is needed for precise placement in most of the tasks. In such scenarios, the object must be reoriented and re-positioned into intermediate poses that facilitate accurate placement at the target pose. To this end, we propose a reorientation planning method, ReorientDiff, that utilizes a diffusion model-based approach. The proposed method employs both visual inputs from the scene, and goal-specific language prompts to plan intermediate reorientation poses. Specifically, the scene and language-task information are mapped into a joint scene-task representation feature space, which is subsequently leveraged to condition the diffusion model. The diffusion model samples intermediate poses based on the representation using classifier-free guidance and then uses gradients of learned feasibility-score models for implicit iterative pose-refinement. The proposed method is evaluated using a set of YCB-objects and a suction gripper, demonstrating a success rate of 95.2% in simulation. Overall, our study presents a promising approach to address the reorientation challenge in manipulation by learning a conditional distribution, which is an effective way to move towards more generalizable object manipulation. For more results, checkout our website: https://utkarshmishra04.github.io/ReorientDiff.
翻訳日:2023-09-18 18:36:44 公開日:2023-09-15
# 中性水素分子形成における核スピンと電子スピンの効果の比較

Comparing the effects of nuclear and electron spins on the formation of neutral hydrogen molecule ( http://arxiv.org/abs/2303.10413v5 )

ライセンス: Link先を確認
Miao Hui-hui and Ozhigov Yuri Igorevich(参考訳) 光学キャビティ内の量子ドット上に2つの2層人工原子を持つ化学の有限次元空洞量子力学モデルである中性水素分子の結合解離モデルについて,Tavis-Cummings-Hubbardモデルに基づく。 原子核の運動は量子形式で表される。 電子スピン転移とスピンスピン相互作用はどちらも考慮される。 また、中性水素分子の形成に対する核スピンと電子スピンの影響についても考察する。

We introduce the association-dissociation model of neutral hydrogen molecule, which is a finite-dimensional cavity quantum electrodynamics model of chemistry with two two-level artificial atoms on quantum dots placed in optical cavities, based on the Tavis-Cummings-Hubbard model. The motion of the nuclei can be represented in quantum form. Electron spin transition and spin-spin interaction between electron and nucleus are both considered. Consideration is also given to the effects of nuclear and electron spins on the formation of neutral hydrogen molecule.
翻訳日:2023-09-18 18:36:21 公開日:2023-09-15
# ISLE: 画像レベルのセマンティックセマンティックセグメンテーションのためのフレームワーク

ISLE: A Framework for Image Level Semantic Segmentation Ensemble ( http://arxiv.org/abs/2303.07898v4 )

ライセンス: Link先を確認
Erik Ostrowski and Muhammad Shafique(参考訳) 最先端のセマンティックセグメンテーションネットワークを現実世界で採用する上で重要なボトルネックのひとつは、トレーニングラベルの可用性だ。 従来のセマンティクスセグメンテーションネットワークは、最先端の予測品質に達するために大量のピクセル単位で注釈付きラベルを必要とする。 したがって、いくつかの作品は画像レベルのアノテーションだけで訓練されたセマンティックセグメンテーションネットワークに焦点を当てている。 しかし、最先端の成果をより詳細に調べると、平均予測品質において互いに非常に近いことが分かり、異なるアプローチが異なるクラスでより良く機能し、他のクラスで低い品質を提供する。 この問題に対処するため,我々は,クラスレベルで異なる意味セグメンテーション手法のセットに対して,"pseudo-labels" のアンサンブルを用いた新しい枠組みである isle を提案する。 Pseudo-labelsは、最終的なセグメンテーションモデルをトレーニングするために使用される画像レベルのセグメンテーションフレームワークのピクセルワイズ予測である。 擬似ラベルは複数のセグメンテーション手法の強い点をシームレスに組み合わせて予測精度を向上させる。 私たちはISLEの個々のコンポーネントよりも2.4%改善しています。 画像レベルのセマンティックセグメンテーションのための最先端フレームワークに対するISLEの有効性を示すために、徹底的な分析を行った。

One key bottleneck of employing state-of-the-art semantic segmentation networks in the real world is the availability of training labels. Conventional semantic segmentation networks require massive pixel-wise annotated labels to reach state-of-the-art prediction quality. Hence, several works focus on semantic segmentation networks trained with only image-level annotations. However, when scrutinizing the results of state-of-the-art in more detail, we notice that they are remarkably close to each other on average prediction quality, different approaches perform better in different classes while providing low quality in others. To address this problem, we propose a novel framework, ISLE, which employs an ensemble of the "pseudo-labels" for a given set of different semantic segmentation techniques on a class-wise level. Pseudo-labels are the pixel-wise predictions of the image-level semantic segmentation frameworks used to train the final segmentation model. Our pseudo-labels seamlessly combine the strong points of multiple segmentation techniques approaches to reach superior prediction quality. We reach up to 2.4% improvement over ISLE's individual components. An exhaustive analysis was performed to demonstrate ISLE's effectiveness over state-of-the-art frameworks for image-level semantic segmentation.
翻訳日:2023-09-18 18:36:04 公開日:2023-09-15
# ReFit: 医用画像におけるオブジェクト境界フィッティングを用いた弱監視セマンティックセグメンテーションの補正フレームワーク

ReFit: A Framework for Refinement of Weakly Supervised Semantic Segmentation using Object Border Fitting for Medical Images ( http://arxiv.org/abs/2303.07853v3 )

ライセンス: Link先を確認
Bharath Srinivas Prabakaran and Erik Ostrowski and Muhammad Shafique(参考訳) 画像レベルの監視のみに依存する弱い教師付きセマンティックセグメンテーション(wsss)は、セグメンテーションネットワークの必要性に対処するための有望なアプローチである。 しかし、ほとんどの最先端の画像レベルWSSS技術は、ネットワークが単に画像レベルラベルからオブジェクト境界情報を導き出すことができないため、画像に埋め込まれた幾何学的特徴の理解を欠いている。 ここで境界を、オブジェクトとその背景を分離する線、または2つの異なるオブジェクトとして定義する。 この欠点に対処するために,我々は,最先端のクラスアクティベーションマップと様々なポストプロセッシング技術を組み合わせた,詳細な高精度セグメンテーションマスクを実現するための新しいrefitフレームワークを提案する。 これを実現するために,ReFitがよりシャープな境界を持つ物体の位置を予測できる境界マップの構築に使用できる最先端の教師なしセグメンテーションネットワークについて検討する。 本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。 このフレームワークはオープンソースで、結果が再現可能で、https://github.com/bharathprabakaran/ReFit.comでオンラインでアクセスできます。

Weakly Supervised Semantic Segmentation (WSSS) relying only on image-level supervision is a promising approach to deal with the need for Segmentation networks, especially for generating a large number of pixel-wise masks in a given dataset. However, most state-of-the-art image-level WSSS techniques lack an understanding of the geometric features embedded in the images since the network cannot derive any object boundary information from just image-level labels. We define a boundary here as the line separating an object and its background, or two different objects. To address this drawback, we are proposing our novel ReFit framework, which deploys state-of-the-art class activation maps combined with various post-processing techniques in order to achieve fine-grained higher-accuracy segmentation masks. To achieve this, we investigate a state-of-the-art unsupervised segmentation network that can be used to construct a boundary map, which enables ReFit to predict object locations with sharper boundaries. By applying our method to WSSS predictions, we achieved up to 10% improvement over the current state-of-the-art WSSS methods for medical imaging. The framework is open-source, to ensure that our results are reproducible, and accessible online at https://github.com/bharathprabakaran/ReFit.
翻訳日:2023-09-18 18:35:42 公開日:2023-09-15
# Probe: 時間的選択におけるユーザの個人化された投影バイアスの学習

Probe: Learning Users' Personalized Projection Bias in Intertemporal Choices ( http://arxiv.org/abs/2303.06016v4 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 時間的選択は、将来的な利益に対する現在のコストの重み付けを必要とする決定を下す。 特定のタイプの一時的な選択は、個々のアイテムを購入するか、そのアイテムを含むバンドルを選択するかのどちらかである。 従来の研究は、個人がこれらの選択に関わる要因を正確に予測していると仮定していた。 しかし、実際には、これらの要因に対するユーザの認識は、しばしばバイアスを受け、不合理かつ準最適意思決定につながる。 本研究では、投射バイアスと基準点効果という2つのよく観察されるバイアスに焦点を当てる。 これらのバイアスに対処するために, Probe と呼ばれる新しいバイアス埋め込み選好モデルを提案する。 このプローブは、ユーザの投影バイアスをキャプチャする重み関数と、参照点効果を考慮した値関数とを組み込んで、重み関数と値関数を組み合わせるための行動経済学からの予測理論を導入する。 これにより、ユーザがバンドルまたは1つのアイテムを選択する確率を判断できます。 我々は,バンドル販売戦略の設計における予測バイアスの影響を示すために,詳細な理論解析を行う。 実験の結果,提案手法は既存手法よりも優れており,バンドル購入におけるユーザの不合理な振る舞いの理解に寄与することが示された。 この調査は、ユーザの意思決定メカニズムをより深く理解し、パーソナライズされたサービスの提供を可能にし、より合理的で最適な意思決定を支援する。

Intertemporal choices involve making decisions that require weighing the costs in the present against the benefits in the future. One specific type of intertemporal choice is the decision between purchasing an individual item or opting for a bundle that includes that item. Previous research assumes that individuals have accurate expectations of the factors involved in these choices. However, in reality, users' perceptions of these factors are often biased, leading to irrational and suboptimal decision-making. In this work, we specifically focus on two commonly observed biases: projection bias and the reference-point effect. To address these biases, we propose a novel bias-embedded preference model called Probe. The Probe incorporates a weight function to capture users' projection bias and a value function to account for the reference-point effect, and introduce prospect theory from behavioral economics to combine the weight and value functions. This allows us to determine the probability of users selecting the bundle or a single item. We provide a thorough theoretical analysis to demonstrate the impact of projection bias on the design of bundle sales strategies. Through experimental results, we show that the proposed Probe model outperforms existing methods and contributes to a better understanding of users' irrational behaviors in bundle purchases. This investigation can facilitate a deeper comprehension of users' decision-making mechanisms, enable the provision of personalized services, and assist users in making more rational and optimal decisions.
翻訳日:2023-09-18 18:35:14 公開日:2023-09-15
# AIを用いた実用的アノテーションの可能性評価:謝罪の事例

Assessing the potential of AI-assisted pragmatic annotation: The case of apologies ( http://arxiv.org/abs/2305.08339v3 )

ライセンス: Link先を確認
Danni Yu, Luyang Li, Hang Su, Matteo Fuoli(参考訳) 音声や意味的タグ付けなどの言語アノテーションの特定の形態は、高精度で自動化することができる。 しかし、手動アノテーションは、語彙形式への直接マッピングを欠く複雑な実用的かつ非帰納的な特徴に対して必要である。 この手動のプロセスは時間をかけてエラーを起こし、コーパス言語学における関数間アプローチのスケーラビリティを制限する。 そこで本研究では,大規模言語モデル(LLM)を用いたプラグマ離散コーパスアノテーションの自動化について検討する。 chatgptとbingチャットボット、そしてローカル文法フレームワークに基づいて英語で謝罪の要素を注釈する人間のコーダーを比較した。 BingチャットボットはChatGPTより優れており、精度は人間のコーダに近づいた。 これらの結果から,AIは実用的コーパスアノテーションの支援に成功し,プロセスをより効率的かつスケーラブルにすることができることが示唆された。 キーワード:言語アノテーション、関数間アプローチ、大言語モデル、局所文法解析、Bingチャットボット、ChatGPT

Certain forms of linguistic annotation, like part of speech and semantic tagging, can be automated with high accuracy. However, manual annotation is still necessary for complex pragmatic and discursive features that lack a direct mapping to lexical forms. This manual process is time-consuming and error-prone, limiting the scalability of function-to-form approaches in corpus linguistics. To address this, our study explores automating pragma-discursive corpus annotation using large language models (LLMs). We compare ChatGPT, the Bing chatbot, and a human coder in annotating apology components in English based on the local grammar framework. We find that the Bing chatbot outperformed ChatGPT, with accuracy approaching that of a human coder. These results suggest that AI can be successfully deployed to aid pragma-discursive corpus annotation, making the process more efficient and scalable. Keywords: linguistic annotation, function-to-form approaches, large language models, local grammar analysis, Bing chatbot, ChatGPT
翻訳日:2023-09-18 18:28:42 公開日:2023-09-15
# 不均一データに対する予測的変化点検出

Predictive change point detection for heterogeneous data ( http://arxiv.org/abs/2305.06630v2 )

ライセンス: Link先を確認
Anna-Christina Glock, Florian Sobieczky, Johannes F\"urnkranz, Peter Filzmoser, Martin Jech(参考訳) 予測と比較」と呼ばれる予測機械学習モデルによって支援される変化点検出(CPD)フレームワークを導入し、偽陽性率と制御外平均ラン長で優れる他の最先端のオンラインCDDルーチンと関連して特徴付ける。 この方法の焦点は、クサム則のような逐次分析から、これらの品質測定の観点から標準的手法を改善することである。 これは、ランニング平均のような一般的な傾向推定関数をより洗練された予測モデル(予測ステップ)に置き換え、それらの予後を実際のデータと比較することで達成される(比較ステップ)。 予測ステップで使用される2つのモデルは、ARIMAモデルとLSTM再帰ニューラルネットワークである。 しかし、このフレームワークは一般的な用語で定式化されており、ここでテストされたものとは異なる他の予測や比較手法の使用を可能にする。 提案手法のパワーは, ごく少数の偽陽性状態において, ランイン, 定常状態, 発散する摩耗相を分離する変化点を検出するトライボロジーケーススタディで実証された。

A change point detection (CPD) framework assisted by a predictive machine learning model called "Predict and Compare" is introduced and characterised in relation to other state-of-the-art online CPD routines which it outperforms in terms of false positive rate and out-of-control average run length. The method's focus is on improving standard methods from sequential analysis such as the CUSUM rule in terms of these quality measures. This is achieved by replacing typically used trend estimation functionals such as the running mean with more sophisticated predictive models (Predict step), and comparing their prognosis with actual data (Compare step). The two models used in the Predict step are the ARIMA model and the LSTM recursive neural network. However, the framework is formulated in general terms, so as to allow the use of other prediction or comparison methods than those tested here. The power of the method is demonstrated in a tribological case study in which change points separating the run-in, steady-state, and divergent wear phases are detected in the regime of very few false positives.
翻訳日:2023-09-18 18:28:03 公開日:2023-09-15
# パーシステンス図のwasserstein辞書

Wasserstein Dictionaries of Persistence Diagrams ( http://arxiv.org/abs/2304.14852v2 )

ライセンス: Link先を確認
Keanu Sisouk, Julie Delon, Julien Tierny(参考訳) 本稿では,原子図辞書の重み付きwasserstein barycenters [100],[102]という形で,永続図のアンサンブルを簡潔に符号化するための計算枠組みを提案する。 本稿では,原子図の最適化と重心重みの最適化をインターリーブする,対応する最小化問題の効率的な解法として,多スケール勾配降下法を提案する。 提案手法は,両サブプロブレムの勾配解析式を活用し,高速なイテレーションを保証するとともに,共有メモリ並列性も活用する。 公的なアンサンブルに関する広範な実験は,wassersteinの辞書計算を最大例の1分単位で行うことで,このアプローチの効率性を示している。 2つのアプリケーションで貢献の効用を示します。 まず,wasserstein辞書をデータ削減に適用し,その重みを辞書で簡潔に表現することにより,永続化図を確実に圧縮する。 次に,少数の原子(典型的には3個)で定義されるワッサースタイン辞書に基づく次元減少フレームワークを示し,その辞書を視覚空間(典型的には2d)に埋め込まれた低次元のシンプレックスとして符号化する。 どちらのアプリケーションでも、定量的実験は我々のフレームワークの関連性を評価する。 最後に、結果の再現に使用できるC++の実装を提供します。

This paper presents a computational framework for the concise encoding of an ensemble of persistence diagrams, in the form of weighted Wasserstein barycenters [100], [102] of a dictionary of atom diagrams. We introduce a multi-scale gradient descent approach for the efficient resolution of the corresponding minimization problem, which interleaves the optimization of the barycenter weights with the optimization of the atom diagrams. Our approach leverages the analytic expressions for the gradient of both sub-problems to ensure fast iterations and it additionally exploits shared-memory parallelism. Extensive experiments on public ensembles demonstrate the efficiency of our approach, with Wasserstein dictionary computations in the orders of minutes for the largest examples. We show the utility of our contributions in two applications. First, we apply Wassserstein dictionaries to data reduction and reliably compress persistence diagrams by concisely representing them with their weights in the dictionary. Second, we present a dimensionality reduction framework based on a Wasserstein dictionary defined with a small number of atoms (typically three) and encode the dictionary as a low dimensional simplex embedded in a visual space (typically in 2D). In both applications, quantitative experiments assess the relevance of our framework. Finally, we provide a C++ implementation that can be used to reproduce our results.
翻訳日:2023-09-18 18:27:42 公開日:2023-09-15
# 対称性破壊の交叉における量子蝶効果

Quantum butterfly effect at the crossroads of symmetry breaking ( http://arxiv.org/abs/2304.14272v3 )

ライセンス: Link先を確認
Pranaya Pratik Das, Biplab Ganguli(参考訳) 数値カオス診断ツール Out-of-Time-Order Correlator (OTOC) を用いた1次元量子力学モデルのカオスに対する対称性の破れの影響を検討した。 従来の研究は、OTOCが局所的な最大値の近傍で指数関数的な成長を示すことを主に示していた。 これが真実であれば、局所的な最大値がシステムから取り除かれると指数的な成長は消える。 しかし、ハミルトニアンへの小さな対称性破れ(摂動)項による局所的な最大値の除去は、OTOCの挙動に大きな影響を与えない。 代わりに、摂動強度の増大により、壊れた対称領域は拡大し、OTOCの指数的な成長は幅広い固有状態にわたって広がる。 我々は様々な可能性を採用し、この行動は普遍的である。 loschmidt echo(le)やspectrum form factor(sff)といった他のカオス診断ツールも使用して確認しています。 本研究は、破壊された対称領域が局所的な最大値ではなく、ミクロカノニカルおよび熱OTOCの指数的な成長に寄与していることを確認する。 言い換えれば、OTOCはハミルトニアンにおける対称性の破れに敏感であり、バタフライ効果と同義であることが多い。

We investigate the effect of symmetry breaking on chaos in one-dimensional quantum mechanical models using the numerical chaos diagnostic tool, Out-of-Time-Order Correlator(OTOC). Previous research has primarily shown that OTOC shows exponential growth in the neighbourhood of a local maximum. If this is true, the exponential growth should disappear once the local maximum is removed from the system. However, we find that removing the local maximum by a small symmetry-breaking(perturbation) term to the Hamiltonian does not drastically affect the behaviour of OTOC. Instead, with the increase of perturbation strength, the broken symmetric region expands, causing the exponential growth of OTOC to spread over a broader range of eigenstates. We adopt various potentials and find this behaviour universal. We also use other chaos diagnostic tools, such as Loschmidt Echo(LE) and spectral form factor(SFF), to confirm this. This study confirms that a broken symmetric region is responsible for the exponential growth of the microcanonical and thermal OTOC rather than the local maximum. In other words, OTOC is sensitive to symmetry breaking in the Hamiltonian, which is often synonymous with the butterfly effect.
翻訳日:2023-09-18 18:27:01 公開日:2023-09-15
# 非分極雑音を有するグラフ状態の最も簡単な忠実度推定法

Simplest fidelity-estimation method for graph states with depolarizing noise ( http://arxiv.org/abs/2304.10952v2 )

ライセンス: Link先を確認
Tomonori Tanizawa, Yuki Takeuchi, Shion Yamashika, Ryosuke Yoshii, and Shunji Tsuchiya(参考訳) グラフ状態は、測定に基づく量子計算や量子メトロロジーのようないくつかの量子情報処理タスクに有用な絡み合った状態である。 実験で実現されるグラフ状態の大きさが大きくなるにつれて、理想グラフ状態と実験的に実現された実状態との間の忠実度を推定する効率的な手法を考案することがより不可欠となる。 効率的な忠実度推定法は、一般に複数の実験的な設定、すなわち少なくとも2つの測定を切り替える必要がある。 近年,位相フリップ誤差としてノイズをモデル化できる場合には,単一の測定で十分であることが示されている。 ビットフリップ誤差もいくつかの実験で発生すべきであるため、この最も単純な手法を位相とビットフリップ誤差を含むノイズモデルに拡張することが望まれる。 しかし、この結果は位相フリップ誤差の性質に強く依存するため、非自明であると思われる。 本稿では,グラフ状態の安定化演算子に対するビットフリップ誤差の影響を解析することにより,位相とビットフリップ誤差を含む主要なノイズモデルである偏極雑音の拡張を実現する。 また,位相ゆらぎと非分極化ノイズを補間するノイズモデルについて,最も簡単な手法を数値的に評価した。

Graph states are entangled states useful for several quantum information processing tasks such as measurement-based quantum computation and quantum metrology. As the size of graph states realized in experiments increases, it becomes more essential to devise efficient methods estimating the fidelity between the ideal graph state and an experimentally-realized actual state. Any efficient fidelity-estimation method, in general, must use multiple experimental settings, i.e., needs to switch between at least two measurements. Recently, it has been shown that a single measurement is sufficient if the noise can be modeled as the phase-flip error. Since the bit-flip error should also occur in several experiments, it is desired to extend this simplest method to noise models that include phase and bit-flip errors. However, it seems to be nontrivial because their result strongly depends on properties of the phase-flip error. In this paper, by analyzing effects of the bit-flip error on stabilizer operators of graph states, we achieve the extension to the depolarizing noise, which is a major noise model including phase and bit-flip errors. We also numerically evaluate our simplest method for noise models interpolating between the phase-flip and depolarizing noises.
翻訳日:2023-09-18 18:26:25 公開日:2023-09-15
# 対向移動性向上のための高レベル機能の多様化

Diversifying the High-level Features for better Adversarial Transferability ( http://arxiv.org/abs/2304.10136v2 )

ライセンス: Link先を確認
Zhiyuan Wang, Zeliang Zhang, Siyuan Liang, Xiaosen Wang(参考訳) ディープニューラルネットワーク(DNN)に対する敵対的攻撃の脅威を考えると、現実のアプリケーションを攻撃するための転送可能性を高めるために多くの研究が提案されている。 しかし、既存の攻撃はしばしば高度な勾配計算や入力変換を用いるが、ホワイトボックスモデルは無視する。 DNNは優れた性能のために過度にパラメータ化されているという事実に着想を得て、より伝達可能な対向例のために高次特徴(DHF)を多様化することを提案する。 特にDHFは、高レベルの特徴をランダムに変換し、各イテレーションの勾配を計算する際に良質なサンプルの特徴と混合することにより、高レベルの特徴を摂動させる。 パラメータの冗長性のため、このような変換は分類性能に影響を与えるものではなく、異なるモデル間で不変な特徴を特定するのに役立つ。 ImageNetデータセットの実証的な評価は、DHFが既存のモーメントベースの攻撃の転送性を効果的に改善できることを示している。 入力変換に基づく攻撃に組み込まれ、dhfはより転送可能な攻撃例を生成し、複数の防御モデルを攻撃する際、ベースラインを明確なマージンで上回り、様々な攻撃への一般化と転送可能性の向上に高い効果を示す。 コードはhttps://github.com/Trustworthy-AI-Group/DHFで入手できる。

Given the great threat of adversarial attacks against Deep Neural Networks (DNNs), numerous works have been proposed to boost transferability to attack real-world applications. However, existing attacks often utilize advanced gradient calculation or input transformation but ignore the white-box model. Inspired by the fact that DNNs are over-parameterized for superior performance, we propose diversifying the high-level features (DHF) for more transferable adversarial examples. In particular, DHF perturbs the high-level features by randomly transforming the high-level features and mixing them with the feature of benign samples when calculating the gradient at each iteration. Due to the redundancy of parameters, such transformation does not affect the classification performance but helps identify the invariant features across different models, leading to much better transferability. Empirical evaluations on ImageNet dataset show that DHF could effectively improve the transferability of existing momentum-based attacks. Incorporated into the input transformation-based attacks, DHF generates more transferable adversarial examples and outperforms the baselines with a clear margin when attacking several defense models, showing its generalization to various attacks and high effectiveness for boosting transferability. Code is available at https://github.com/Trustworthy-AI-Group/DHF.
翻訳日:2023-09-18 18:26:06 公開日:2023-09-15
# リモートセンシングにおける画像分類と物体検出のロバスト性に関する総合的研究:サーベイとベンチマーク

A Comprehensive Study on the Robustness of Image Classification and Object Detection in Remote Sensing: Surveying and Benchmarking ( http://arxiv.org/abs/2306.12111v2 )

ライセンス: Link先を確認
Shaohui Mei, Jiawei Lian, Xiaofei Wang, Yuru Su, Mingyang Ma, and Lap-Pui Chau(参考訳) ディープニューラルネットワーク(DNN)は、リモートセンシング(RS)画像の解釈に広く応用されている。 しかし、従来の研究では、DNNは様々な種類のノイズ、特に対向雑音に弱いことが示されている。 意外なことに、RSタスクの堅牢性に関する包括的な研究が欠如しており、画像分類とオブジェクト検出の堅牢性に関する徹底的な調査とベンチマークを行う必要がある。 本研究は,RSタスクにおける自然的頑健性と敵的頑健性の両方を包括的に検討した初めての事例である。 具体的には、自然と逆のノイズを含むデータセットをキュレートし、公開しました。 これらのデータセットは、DNNベースのモデルの堅牢性を評価するための貴重なリソースとなる。 モデルロバスト性を包括的に評価するために,様々な分類器と検出器を用いて細心の注意を払って実験を行った。 厳密な評価を通じて,実感と興味をそそる知見が明らかとなり,反面的なノイズ作りとモデルトレーニングの関係に光を当て,様々なモデルの感受性と限界をより深く理解し,よりレジリエントでロバストなモデルの開発のためのガイダンスを提供する。

Deep neural networks (DNNs) have found widespread applications in interpreting remote sensing (RS) imagery. However, it has been demonstrated in previous works that DNNs are vulnerable to different types of noises, particularly adversarial noises. Surprisingly, there has been a lack of comprehensive studies on the robustness of RS tasks, prompting us to undertake a thorough survey and benchmark on the robustness of image classification and object detection in RS. To our best knowledge, this study represents the first comprehensive examination of both natural robustness and adversarial robustness in RS tasks. Specifically, we have curated and made publicly available datasets that contain natural and adversarial noises. These datasets serve as valuable resources for evaluating the robustness of DNNs-based models. To provide a comprehensive assessment of model robustness, we conducted meticulous experiments with numerous different classifiers and detectors, encompassing a wide range of mainstream methods. Through rigorous evaluation, we have uncovered insightful and intriguing findings, which shed light on the relationship between adversarial noise crafting and model training, yielding a deeper understanding of the susceptibility and limitations of various models, and providing guidance for the development of more resilient and robust models
翻訳日:2023-09-18 18:17:14 公開日:2023-09-15
# 潜時拡散モデルを用いたテキスト駆動型フォリー音生成

Text-Driven Foley Sound Generation With Latent Diffusion Model ( http://arxiv.org/abs/2306.10359v4 )

ライセンス: Link先を確認
Yi Yuan, Haohe Liu, Xubo Liu, Xiyuan Kang, Peipei Wu, Mark D. Plumbley, Wenwu Wang(参考訳) Foley Sound Generationはマルチメディアコンテンツのための背景音の合成を目的としている。 従来のモデルは通常、ラベルを入力として大規模な開発セット(シングルナンバーやワンホットベクトルなど)を使用する。 本研究では,テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。 データ不足の問題を緩和するため,本モデルはまず,大規模データセットを事前学習し,コントラスト言語-オーディオ関連(clap)手法を用いた転送学習により,このタスクを微調整した。 テキストエンコーダによって抽出された特徴埋め込みは,生成モデルの性能に大きな影響を与える可能性がある。 したがって、エンコーダの後、トレーニング可能な層を導入し、エンコーダによって生成されたテキスト埋め込みを改善する。 また、複数の候補音声クリップを同時に生成し、候補クリップの埋め込みと対象テキストラベルの埋め込みとの類似度スコアで決定される最良波形を選択することにより、生成された波形をさらに洗練する。 提案手法を用いて,DCASEチャレンジ2023タスク7に提出されたシステムのうち,${1}^{st}$をランク付けする。 アブレーション実験の結果,提案手法は音響発生性能を著しく向上させることが示された。 提案するシステムの実装コードはオンラインで公開されている。

Foley sound generation aims to synthesise the background sound for multimedia content. Previous models usually employ a large development set with labels as input (e.g., single numbers or one-hot vector). In this work, we propose a diffusion model based system for Foley sound generation with text conditions. To alleviate the data scarcity issue, our model is initially pre-trained with large-scale datasets and fine-tuned to this task via transfer learning using the contrastive language-audio pertaining (CLAP) technique. We have observed that the feature embedding extracted by the text encoder can significantly affect the performance of the generation model. Hence, we introduce a trainable layer after the encoder to improve the text embedding produced by the encoder. In addition, we further refine the generated waveform by generating multiple candidate audio clips simultaneously and selecting the best one, which is determined in terms of the similarity score between the embedding of the candidate clips and the embedding of the target text label. Using the proposed method, our system ranks ${1}^{st}$ among the systems submitted to DCASE Challenge 2023 Task 7. The results of the ablation studies illustrate that the proposed techniques significantly improve sound generation performance. The codes for implementing the proposed system are available online.
翻訳日:2023-09-18 18:16:55 公開日:2023-09-15
# 2値化と重み付けによるニューラルネットワーク圧縮

Neural Network Compression using Binarization and Few Full-Precision Weights ( http://arxiv.org/abs/2306.08960v2 )

ライセンス: Link先を確認
Franco Maria Nardini, Cosimo Rulli, Salvatore Trani, Rossano Venturini(参考訳) 量子化とプルーニングは2つの有効なディープニューラルネットワークモデル圧縮方法である。 本稿では,量子化とプルーニングを組み合わせた新しい圧縮手法であるAutomatic Prune Binarization (APB)を提案する。 APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。 この手法はネットワークの精度を最大化するとともに,各重みが2値化されるべきか,あるいは完全精度で保持すべきかを判断することで,メモリへの影響を最小化する。 APBを用いて圧縮した層を2進数とスパース距離行列乗算に分解して転送パスを効率的に行う方法を示す。 さらに,CPU上での極端に量子化された行列乗算のための2つの新しいアルゴリズムを設計する。 提案アルゴリズムは6.9倍、1.5倍高速である。 我々は、広く採用されている2つのモデル圧縮データセット、cifar10とimagenet上でapbを広範囲に評価する。 APBは最先端の手法に比べて精度/メモリトレードオフが良い i) 量子化 pruning (複数形 prunings) 三 刈り取りと定量化の組合せ APBは精度/効率トレードオフにおいて量子化を上回り、2ビットの量子化モデルよりも最大2倍高速で精度を損なわない。

Quantization and pruning are two effective Deep Neural Networks model compression methods. In this paper, we propose Automatic Prune Binarization (APB), a novel compression technique combining quantization with pruning. APB enhances the representational capability of binary networks using a few full-precision weights. Our technique jointly maximizes the accuracy of the network while minimizing its memory impact by deciding whether each weight should be binarized or kept in full precision. We show how to efficiently perform a forward pass through layers compressed using APB by decomposing it into a binary and a sparse-dense matrix multiplication. Moreover, we design two novel efficient algorithms for extremely quantized matrix multiplication on CPU, leveraging highly efficient bitwise operations. The proposed algorithms are 6.9x and 1.5x faster than available state-of-the-art solutions. We extensively evaluate APB on two widely adopted model compression datasets, namely CIFAR10 and ImageNet. APB delivers better accuracy/memory trade-off compared to state-of-the-art methods based on i) quantization, ii) pruning, and iii) combination of pruning and quantization. APB outperforms quantization in the accuracy/efficiency trade-off, being up to 2x faster than the 2-bit quantized model with no loss in accuracy.
翻訳日:2023-09-18 18:16:35 公開日:2023-09-15
# スパイクニューラルネットワークにおける計算と学習のための資源としてのノイズの利用

Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks ( http://arxiv.org/abs/2305.16044v6 )

ライセンス: Link先を確認
Gehua Ma, Rui Yan, Huajin Tang(参考訳) https://cell.com/patterns/fulltext/s2666-3899(23)00200-3 スパイキングニューロンのネットワークは、脳の異常な情報処理能力を支えるものであり、神経形態的人工知能における柱モデルとなっている。 スパイキングニューラルネットワーク(SNN)に関する広範な研究にもかかわらず、ほとんどの研究は決定論的モデルに基づいており、神経計算の本質的に非決定論的でノイズの多い性質を見下ろしている。 そこで本研究では,ノイズスパイキングニューラルネットワーク (nsnn) とノイズ駆動学習規則 (ndl) を導入し,雑音ニューロンのダイナミクスを組み込んで,ノイズニューラルプロセッシングの計算的利点を生かした。 NSNNは、スケーラブルでフレキシブルで信頼性の高い計算をもたらす理論的なフレームワークを提供する。 我々は、NSNNが競合性能を持つニューラルモデルをスパイクし、決定論的SNNよりも困難な摂動に対する堅牢性を改善し、ニューラルコーディングにおける確率的計算を再現することを示した。 本研究は、機械学習、ニューロモルフィックインテリジェンス実践者、計算神経科学研究者に強力で使いやすいツールを提供する。

$\textbf{Formal version available at}$ https://cell.com/patterns/fulltext/S2666-3899(23)00200-3 Networks of spiking neurons underpin the extraordinary information-processing capabilities of the brain and have become pillar models in neuromorphic artificial intelligence. Despite extensive research on spiking neural networks (SNNs), most studies are established on deterministic models, overlooking the inherent non-deterministic, noisy nature of neural computations. This study introduces the noisy spiking neural network (NSNN) and the noise-driven learning rule (NDL) by incorporating noisy neuronal dynamics to exploit the computational advantages of noisy neural processing. NSNN provides a theoretical framework that yields scalable, flexible, and reliable computation. We demonstrate that NSNN leads to spiking neural models with competitive performance, improved robustness against challenging perturbations than deterministic SNNs, and better reproducing probabilistic computations in neural coding. This study offers a powerful and easy-to-use tool for machine learning, neuromorphic intelligence practitioners, and computational neuroscience researchers.
翻訳日:2023-09-18 18:15:38 公開日:2023-09-15
# 複数のラベルなしデータセットからのAUC最適化

AUC Optimization from Multiple Unlabeled Datasets ( http://arxiv.org/abs/2305.15776v3 )

ライセンス: Link先を確認
Zheng Xie, Yu Liu, Ming Li(参考訳) 弱い教師付き学習は、完璧な監督が利用できない時に機械学習を強化することを目的としており、研究者から大きな注目を集めている。 様々な弱い監督のうち、最も難しい事例の1つは、クラス事前の知識がほとんどない複数のラベルのない(u)データセットから学ぶか、略してu$^m$学習するかである。 本稿では,複数のラベル付きデータセットから auc (area under roc curve) 最適化モデルを構築する際の問題点について検討する。 U$^m$-AUCは、U$^m$データを多ラベルAUC最適化問題に変換するAUC最適化手法であり、効率的に訓練することができる。 提案したU$^m$-AUCは理論的および実験的に有効であることを示す。

Weakly supervised learning aims to empower machine learning when the perfect supervision is unavailable, which has drawn great attention from researchers. Among various types of weak supervision, one of the most challenging cases is to learn from multiple unlabeled (U) datasets with only a little knowledge of the class priors, or U$^m$ learning for short. In this paper, we study the problem of building an AUC (area under ROC curve) optimization model from multiple unlabeled datasets, which maximizes the pairwise ranking ability of the classifier. We propose U$^m$-AUC, an AUC optimization approach that converts the U$^m$ data into a multi-label AUC optimization problem, and can be trained efficiently. We show that the proposed U$^m$-AUC is effective theoretically and empirically.
翻訳日:2023-09-18 18:15:14 公開日:2023-09-15
# emoDARTS : 微分可能なアーキテクチャ検索による音声感情認識の強化

emoDARTS : Enhancing Speech Emotion Recognition Through Differentiable Architecture Search ( http://arxiv.org/abs/2305.14402v2 )

ライセンス: Link先を確認
Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bj\"orn Schuller(参考訳) 音声感情認識(ser)は、人間とコンピュータの相互作用における感情認識コミュニケーションの重要な実現要因である。 近年のディープラーニング(DL)の進歩により,SERモデルの性能は大幅に向上した。 しかし、最適なDLアーキテクチャを設計するには、事前の経験と実験的な評価が必要である。 Neural Architecture Search (NAS)は、最適なDLモデルを自動的に決定するための有望な道を提供する。 特に、微分可能なアーキテクチャ探索(DARTS)は、NASを用いて最適化されたモデルを探索する効率的な方法である。 本稿では,DARTSを最適化した共同CNNとLSTMアーキテクチャであるemoDARTSを提案する。 DARTSは従来,CNNとLSTMの組み合わせに応用されてきたが,本手法では新しい機構を導入し,特にDARTSを用いたCNN操作を選択する。 従来の研究とは対照的に、我々はDARTS細胞内のCNNの層秩序に制約を課すことを控え、代わりにDARTSが自律的に最適な層秩序を決定することを許している。 IEMOCAP と MSP-IMPROV のデータセットを用いて実験したところ,emoDARTS は CNN-LSTM 構成を手作業で操作するよりも,SER の精度が有意に高いことがわかった。 また、CNN-LSTM上でDARTSを用いて達成された最高のSER結果よりも優れている。

Speech Emotion Recognition (SER) is a critical enabler of emotion-aware communication in human-computer interactions. Recent advancements in Deep Learning (DL) have substantially enhanced the performance of SER models through increased model complexity. However, designing optimal DL architectures requires prior experience and experimental evaluations. Encouragingly, Neural Architecture Search (NAS) offers a promising avenue to automatically determine an optimal DL model. In particular, Differentiable Architecture Search (DARTS) is an efficient method of using NAS to search for optimised models. This paper proposes emoDARTS, a DARTS-optimised joint CNN and LSTM architecture, to improve SER performance, where the literature informs the selection of CNN and LSTM coupling to offer improved performance. While DARTS has previously been applied to CNN and LSTM combinations, our approach introduces a novel mechanism, particularly in selecting CNN operations using DARTS. In contrast to previous studies, we refrain from imposing constraints on the layer order for the CNN within the DARTS cell; instead, we allow DARTS to determine the optimal layer order autonomously. Experimenting with the IEMOCAP and MSP-IMPROV datasets, we demonstrate that emoDARTS achieves significantly higher SER accuracy than hand-engineering the CNN-LSTM configuration. It also outperforms the best-reported SER results achieved using DARTS on CNN-LSTM.
翻訳日:2023-09-18 18:14:45 公開日:2023-09-15
# Chupa: 2次元拡散確率モデルを用いた3Dクローンヒトの皮膚形状推定

Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.11870v3 )

ライセンス: Link先を確認
Byungjun Kim, Patrick Kwon, Kwangho Lee, Myunggi Lee, Sookwan Han, Daesik Kim, Hanbyul Joo(参考訳) 拡散モデルを用いてリアルな人間のデジタルアバターを生成する3D生成パイプラインを提案する。 人間の身元、ポーズ、そして確率的詳細が多種多様であるため、3dのメッシュの生成は難しい問題となっている。 そこで本研究では,この問題を2次元正規地図生成と正規地図に基づく3次元再構成に分解する。 具体的には、まず、ポーズ条件拡散モデルを用いて、服を着た人間の正面と後方の現実的な正規写像を同時に生成する。 3D再構成では、従来のSMPL-Xメッシュをメッシュ最適化による通常のマップに従って詳細な3Dメッシュに“彫り込む”。 高周波の詳細をさらに高めるため,身体領域と顔面領域の拡散サンプリング方式を提案し,現実的なデジタルアバターの創出を奨励する。 また,最近のテキストから画像への拡散モデルをシームレスに組み込んで,テキストベースの個人識別制御をサポートする。 われわれの方法であるChupaは、知覚品質とアイデンティティの多様性を向上したリアルな3D衣服を作成できる。

We propose a 3D generation pipeline that uses diffusion models to generate realistic human digital avatars. Due to the wide variety of human identities, poses, and stochastic details, the generation of 3D human meshes has been a challenging problem. To address this, we decompose the problem into 2D normal map generation and normal map-based 3D reconstruction. Specifically, we first simultaneously generate realistic normal maps for the front and backside of a clothed human, dubbed dual normal maps, using a pose-conditional diffusion model. For 3D reconstruction, we "carve" the prior SMPL-X mesh to a detailed 3D mesh according to the normal maps through mesh optimization. To further enhance the high-frequency details, we present a diffusion resampling scheme on both body and facial regions, thus encouraging the generation of realistic digital avatars. We also seamlessly incorporate a recent text-to-image diffusion model to support text-based human identity control. Our method, namely, Chupa, is capable of generating realistic 3D clothed humans with better perceptual quality and identity variety.
翻訳日:2023-09-18 18:14:24 公開日:2023-09-15
# PottsMGNet:エンコーダデコーダに基づくニューラルネットワークの数学的説明

PottsMGNet: A Mathematical Explanation of Encoder-Decoder Based Neural Networks ( http://arxiv.org/abs/2307.09039v2 )

ライセンス: Link先を確認
Xue-Cheng Tai, Hao Liu, Raymond Chan(参考訳) 画像処理やその他の多くの分野の問題に対して、大規模なニューラルネットワークはエンコーダデコーダベースのアーキテクチャを持つ。 これらのネットワークは印象的な性能を発揮しているが、アーキテクチャの数学的説明はまだ未開発である。 本稿では,エンコーダ・デコーダに基づくネットワークアーキテクチャをアルゴリズム的観点から検討し,数学的説明を行う。 画像分割には二相ポットモデルを用いる。 セグメント化問題と連続的な設定における制御問題とを関連付ける。 次に,マルチグリッド法と演算子分割方式であるPottsMGNetを用いて連続制御モデルを識別する。 離散的なPottsMGNetはエンコーダデコーダベースのネットワークと等価であることを示す。 マイナーチェンジでは、多くの人気のあるエンコーダデコーダベースのニューラルネットワークが提案されているPottsMGNetのインスタンスであることが示された。 pottsmgnetにソフトthreshold-dynamicsをレギュラライザとして組み込むことにより、pottsmgnetはネットワーク幅や深さといったネットワークパラメータに頑健であることを示し、非常に大きなノイズを持つデータセットで顕著な性能を達成した。 ほぼすべての実験で、新しいネットワークは、画像分割のための既存のネットワークよりも、精度とサイコロスコアにおいて常に優れています。

For problems in image processing and many other fields, a large class of effective neural networks has encoder-decoder-based architectures. Although these networks have made impressive performances, mathematical explanations of their architectures are still underdeveloped. In this paper, we study the encoder-decoder-based network architecture from the algorithmic perspective and provide a mathematical explanation. We use the two-phase Potts model for image segmentation as an example for our explanations. We associate the segmentation problem with a control problem in the continuous setting. Then, multigrid method and operator splitting scheme, the PottsMGNet, are used to discretize the continuous control model. We show that the resulting discrete PottsMGNet is equivalent to an encoder-decoder-based network. With minor modifications, it is shown that a number of the popular encoder-decoder-based neural networks are just instances of the proposed PottsMGNet. By incorporating the Soft-Threshold-Dynamics into the PottsMGNet as a regularizer, the PottsMGNet has shown to be robust with the network parameters such as network width and depth and achieved remarkable performance on datasets with very large noise. In nearly all our experiments, the new network always performs better or as good on accuracy and dice score than existing networks for image segmentation.
翻訳日:2023-09-18 18:08:39 公開日:2023-09-15
# テンソルネットワークの資源理論

The resource theory of tensor networks ( http://arxiv.org/abs/2307.07394v2 )

ライセンス: Link先を確認
Matthias Christandl, Vladimir Lysikov, Vincent Steffan, Albert H. Werner, Freek Witteveen(参考訳) テンソルネットワークは、量子多体状態の簡潔な表現を提供し、強い相関量子系の重要な計算ツールである。 それらの表現力と計算力は、格子またはより一般的には(ハイパー)グラフ上の下層の絡み合い構造によって特徴づけられ、仮想絡み合いペアまたは(ハイパー)エッジに関連付けられた多部絡み合い状態を持つ。 この基盤となる絡み合い構造を別の構造に変えることは、理論的および計算的利益をもたらす。 結合次元の概念を多部交絡を用いた絡み合い構造に一般化する自然資源理論について検討する。 これは多部交絡と代数的複雑性理論の文脈で研究されたテンソルの資源理論の直接拡張であり、これらの分野で開発された洗練された手法をテンソルネットワークに適用することができる。 テンソルネットワークの資源理論は、量子多体状態の局所的絡み合い構造と、この絡み合い構造を用いたテンソルネットワーク収縮の(代数的)複雑さの両方に関係している。 より優れた行列乗算アルゴリズムの探索で得られたものを反映した資源理論の効率向上を強調し, エッジ・バイ・エッジ変換を超えた絡み合い構造間の変換が存在することを示す。 また、代数的複雑性理論でもともと開発された様々な方法を拡張して、複雑性の低い境界を求めることによって、そのような変換の存在を阻害する。 テンソルネットワークの資源理論は、異なる絡み合い構造の比較を可能にし、より効率的なテンソルネットワーク表現と収縮アルゴリズムをもたらす。

Tensor networks provide succinct representations of quantum many-body states and are an important computational tool for strongly correlated quantum systems. Their expressive and computational power is characterized by an underlying entanglement structure, on a lattice or more generally a (hyper)graph, with virtual entangled pairs or multipartite entangled states associated to (hyper)edges. Changing this underlying entanglement structure into another can lead to both theoretical and computational benefits. We study a natural resource theory which generalizes the notion of bond dimension to entanglement structures using multipartite entanglement. It is a direct extension of resource theories of tensors studied in the context of multipartite entanglement and algebraic complexity theory, allowing for the application of the sophisticated methods developed in these fields to tensor networks. The resource theory of tensor networks concerns both the local entanglement structure of a quantum many-body state and the (algebraic) complexity of tensor network contractions using this entanglement structure. We show that there are transformations between entanglement structures which go beyond edge-by-edge conversions, highlighting efficiency gains of our resource theory that mirror those obtained in the search for better matrix multiplication algorithms. We also provide obstructions to the existence of such transformations by extending a variety of methods originally developed in algebraic complexity theory for obtaining complexity lower bounds. The resource theory of tensor networks allows to compare different entanglement structures and should lead to more efficient tensor network representations and contraction algorithms.
翻訳日:2023-09-18 18:08:16 公開日:2023-09-15
# CoactSeg:新しい多発性硬化症病変分類のための異種データからの学習

CoactSeg: Learning from Heterogeneous Data for New Multiple Sclerosis Lesion Segmentation ( http://arxiv.org/abs/2307.04513v2 )

ライセンス: Link先を確認
Yicheng Wu, Zhonghua Wu, Hengcan Shi, Bjoern Picker, Winston Chong, and Jianfei Cai(参考訳) 多発性硬化症(MS)の臨床治療における疾患進展と治療効果を推定するためには,新しい病変セグメンテーションが不可欠である。 しかしながら、高価なデータ取得とエキスパートアノテーションは、大規模ディープラーニングモデルの適用可能性を制限する。 オールレジオンラベルを持つシングルタイムポイントサンプルの収集は比較的容易であるため, 深部モデルの訓練に活用することが, 新たな病変セグメンテーションを改善する上で非常に望ましい。 そこで本研究では,不均一なデータ(ニューレシオンアノテート2点データとオールレシオンアノテート1点データ)を新たなms病変セグメンテーションに活用するためのコアクションセグメンテーション(coactseg)フレームワークを提案する。 coactsegモデルは統一モデルとして設計されており、同じ3つの入力(ベースライン、フォローアップ、およびその縦方向の脳の違い)と、同じ3つの出力(対応するオールレシオンとニューレシオン予測)が、どの種類の異種データを使用しているかに関わらず使用される。 さらに、モデル学習を改善するために、3つの出力間の長手関係を確保するために、単純で効果的な関係正規化を提案する。 広範囲にわたる実験により,不均質データと提案する縦関係制約を用いることで,新レシオンおよび全レシオンセグメンテーションタスクの性能が著しく向上することが示された。 また、Oceaniaシングルタイムポイント38サンプルを含む社内のMS-23v1データセットも導入しました。 コードとデータセットはhttps://github.com/ycwu1997/coactsegでリリースされる。

New lesion segmentation is essential to estimate the disease progression and therapeutic effects during multiple sclerosis (MS) clinical treatments. However, the expensive data acquisition and expert annotation restrict the feasibility of applying large-scale deep learning models. Since single-time-point samples with all-lesion labels are relatively easy to collect, exploiting them to train deep models is highly desirable to improve new lesion segmentation. Therefore, we proposed a coaction segmentation (CoactSeg) framework to exploit the heterogeneous data (i.e., new-lesion annotated two-time-point data and all-lesion annotated single-time-point data) for new MS lesion segmentation. The CoactSeg model is designed as a unified model, with the same three inputs (the baseline, follow-up, and their longitudinal brain differences) and the same three outputs (the corresponding all-lesion and new-lesion predictions), no matter which type of heterogeneous data is being used. Moreover, a simple and effective relation regularization is proposed to ensure the longitudinal relations among the three outputs to improve the model learning. Extensive experiments demonstrate that utilizing the heterogeneous data and the proposed longitudinal relation constraint can significantly improve the performance for both new-lesion and all-lesion segmentation tasks. Meanwhile, we also introduce an in-house MS-23v1 dataset, including 38 Oceania single-time-point samples with all-lesion labels. Codes and the dataset are released at https://github.com/ycwu1997/CoactSeg.
翻訳日:2023-09-18 18:07:47 公開日:2023-09-15
# 光の空間、波長、分極の相関:空間スペクトルベクトルビーム

Correlating space, wavelength, and polarization of light: Spatio-Spectral Vector Beams ( http://arxiv.org/abs/2307.02965v2 )

ライセンス: Link先を確認
Lea Kopf, Rafael Barros, Robert Fickler(参考訳) 自由度(dof)の高度な操作によって光場の複雑さが増すことは、基礎研究や技術にとって新たな機会となる。 光の空間的またはスペクトル的な形状に関連する偏光は、完全に偏光され、空間的またはスペクトル的に変化する偏光構造を持ついわゆる空間的またはスペクトル的ベクトルビームをもたらす。 ここでは、両方のアプローチを組み合わせることでベクトルビームの一般的な考え方を拡張し、空間、波長、偏光の3つの非分離性DoFにおける新しい光状態を構築する。 我々は、それらの複素偏光構造を詳細に研究し、場の偏光の度合いは、空間と波長が狭く定義されているときにのみ明らかにすることを示し、非分離量子系におけるコヒーレンス損失の類似性を実証する。 このような光場は、古典的な光場の非分離性や新しい技術機会、例えばイメージングや分光の応用に関する基礎研究を可能にする。

Increasing the complexity of a light field through the advanced manipulation of its degrees of freedom (DoF) provides new opportunities for fundamental studies and technologies. Correlating polarization with the light's spatial or spectral shape results in so-called spatial or spectral vector beams that are fully polarized and have a spatially or spectrally varying polarization structure. Here, we extend the general idea of vector beams by combining both approaches and structuring a novel state of light in three non-separable DoF's, i.e. space, wavelength, and polarization. We study in detail their complex polarization structure, show that the degree of polarization of the field is only unveiled when the field is narrowly defined in space and wavelength, and demonstrate the analogy to the loss of coherence in non-separable quantum systems. Such light fields allow fundamental studies on the non-separable nature of a classical light field and new technological opportunities, e.g. through applications in imaging or spectroscopy.
翻訳日:2023-09-18 18:07:15 公開日:2023-09-15
# エングレース:非線形回帰の補間?

Engression: Extrapolation for Nonlinear Regression? ( http://arxiv.org/abs/2307.00835v2 )

ライセンス: Link先を確認
Xinwei Shen and Nicolai Meinshausen(参考訳) 補間は多くの統計アプリケーションや機械学習アプリケーションにおいて不可欠であり、トレーニングサポートの外でテストデータに遭遇することが一般的である。 しかし、外挿は非線形モデルにとって大きな課題である。 ツリーアンサンブルはサポートを超えて一定の予測を提供するが、ニューラルネットワークの予測は制御不能になりがちである。 本研究の目的は,トレーニングサポートの境界において,信頼性がすぐに崩壊しない非線形回帰手法を提供することである。 我々の主な貢献は'engression'と呼ばれる新しい手法であり、そのコアは、非線形変換を適用する前に共変量体にノイズを付加する前付加型雑音モデルのための分布回帰手法である。 実験結果から,本モデルが多くの実データに適していることが示唆された。 厳密な単調関数クラスのようないくつかの仮定の下では外挿がうまく行え、一方、最小二乗回帰や分位回帰のような従来の回帰アプローチは同じ仮定の下では不足する。 我々は、外挿の観点から既存のアプローチに対するエングレースの利点を確立し、エングレースが一貫して有意義な改善をもたらすことを示す。 シミュレーションデータと実データの両方から得られた実験結果から,本手法の有効性について検証した。 engressionのソフトウェア実装は、RとPythonの両方で利用可能である。

Extrapolation is crucial in many statistical and machine learning applications, as it is common to encounter test data outside the training support. However, extrapolation is a considerable challenge for nonlinear models. Conventional models typically struggle in this regard: while tree ensembles provide a constant prediction beyond the support, neural network predictions tend to become uncontrollable. This work aims at providing a nonlinear regression methodology whose reliability does not break down immediately at the boundary of the training support. Our primary contribution is a new method called `engression' which, at its core, is a distributional regression technique for pre-additive noise models, where the noise is added to the covariates before applying a nonlinear transformation. Our experimental results indicate that this model is typically suitable for many real data sets. We show that engression can successfully perform extrapolation under some assumptions such as a strictly monotone function class, whereas traditional regression approaches such as least-squares regression and quantile regression fall short under the same assumptions. We establish the advantages of engression over existing approaches in terms of extrapolation, showing that engression consistently provides a meaningful improvement. Our empirical results, from both simulated and real data, validate these findings, highlighting the effectiveness of the engression method. The software implementations of engression are available in both R and Python.
翻訳日:2023-09-18 18:06:30 公開日:2023-09-15
# 大規模言語モデルによる中国のきめ細かな金融感情分析

Chinese Fine-Grained Financial Sentiment Analysis with Large Language Models ( http://arxiv.org/abs/2306.14096v5 )

ライセンス: Link先を確認
Yinyu Lan, Yanru Wu, Wang Xu, Weiqiang Feng, Youhao Zhang(参考訳) 金融ドメインにおけるエンティティレベルのきめ細かい感情分析は、感情分析の重要なサブタスクであり、現在多くの課題に直面している。 主な課題は、財務的なテキスト感情分析用に特別に設計された高品質で大規模な注釈付きコーパスが欠如していることであり、それによって効果的なテキスト処理技術を開発するために必要なデータの利用が制限される。 大規模言語モデル(llm)の最近の進歩は、自然言語処理タスクにおいて、主に言語パターンマッチングを中心に顕著なパフォーマンスをもたらした。 本稿では,企業早期警戒のための中国における財務感情分析データセットFinChina SAを提案する。 我々のデータセットを用いて、よく知られたオープンソースのLCMを徹底的に評価し、実験した。 我々は、我々のデータセットが、将来の研究の焦点となる実世界の財務感情分析タスクの探索を進めるための貴重なリソースとなると強く信じている。 Fin China SAデータセットはhttps://github.com/YerayL/FinChina-SAで公開されている。

Entity-level fine-grained sentiment analysis in the financial domain is a crucial subtask of sentiment analysis and currently faces numerous challenges. The primary challenge stems from the lack of high-quality and large-scale annotated corpora specifically designed for financial text sentiment analysis, which in turn limits the availability of data necessary for developing effective text processing techniques. Recent advancements in large language models (LLMs) have yielded remarkable performance in natural language processing tasks, primarily centered around language pattern matching. In this paper, we propose a novel and extensive Chinese fine-grained financial sentiment analysis dataset, FinChina SA, for enterprise early warning. We thoroughly evaluate and experiment with well-known existing open-source LLMs using our dataset. We firmly believe that our dataset will serve as a valuable resource to advance the exploration of real-world financial sentiment analysis tasks, which should be the focus of future research. The FinChina SA dataset is publicly available at https://github.com/YerayL/FinChina-SA
翻訳日:2023-09-18 18:05:53 公開日:2023-09-15
# 種子:拡散モデルを用いた気象予報アンサンブルのエミュレーション

SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models ( http://arxiv.org/abs/2306.14066v2 )

ライセンス: Link先を確認
Lizao Li, Rob Carver, Ignacio Lopez-Gomez, Fei Sha, John Anderson(参考訳) 不確かさの定量化は意思決定に不可欠である。 顕著な例は、数値天気予報における確率予測である。 天気予報の不確実性を表す主要なアプローチは、予測の集合を生成することである。 これは計算コストの高いプロセスである異なる条件下で多くの物理ベースのシミュレーションを実行することによって行われる。 過去のデータから得られた深部生成拡散モデルを用いて,これらの予測をエミュレートして計算コストを償却する。 学習したモデルは高性能コンピューティングアクセラレーターに対して非常にスケーラブルで、数百から数万の現実的な天気予報を低コストでサンプリングすることができる。 操作的なアンサンブル予測をエミュレートするために設計された場合、生成したアンサンブルは重要な統計特性と予測スキルの物理に基づくアンサンブルと似ている。 運用予測システムに存在するバイアスを補正するために設計された場合、生成したアンサンブルは確率予測指標の改善を示す。 より信頼性が高く、極端な気象現象の確率をより正確に予測する。 この研究は気象予報に焦点をあててこの方法論の有用性を実証するものであるが、気候モデリングにおける不確実性定量化のためには、生成的人工知能手法が拡張され、気候予測の非常に大きなアンサンブルの生成が、気候リスク評価においてますます重要な役割を果たすと我々は信じている。

Uncertainty quantification is crucial to decision-making. A prominent example is probabilistic forecasting in numerical weather prediction. The dominant approach to representing uncertainty in weather forecasting is to generate an ensemble of forecasts. This is done by running many physics-based simulations under different conditions, which is a computationally costly process. We propose to amortize the computational cost by emulating these forecasts with deep generative diffusion models learned from historical data. The learned models are highly scalable with respect to high-performance computing accelerators and can sample hundreds to tens of thousands of realistic weather forecasts at low cost. When designed to emulate operational ensemble forecasts, the generated ones are similar to physics-based ensembles in important statistical properties and predictive skill. When designed to correct biases present in the operational forecasting system, the generated ensembles show improved probabilistic forecast metrics. They are more reliable and forecast probabilities of extreme weather events more accurately. While this work demonstrates the utility of the methodology by focusing on weather forecasting, the generative artificial intelligence methodology can be extended for uncertainty quantification in climate modeling, where we believe the generation of very large ensembles of climate projections will play an increasingly important role in climate risk assessment.
翻訳日:2023-09-18 18:05:35 公開日:2023-09-15
# 任意の次元における可解 BCS-Hubbard Liouvillians

Solvable BCS-Hubbard Liouvillians in arbitrary dimensions ( http://arxiv.org/abs/2306.13148v2 )

ライセンス: Link先を確認
Xu-Dong Dai, Fei Song, Zhong Wang(参考訳) 本稿では,任意の次元の可解リンドブラッドモデルを構築し,リウヴィリアンを虚数相互作用を特徴とするbcs-ハバードモデルにマッピングする。 システムのヒルベルト空間は複数のセクタに分割され、それぞれがオンサイト不変な構成で特徴づけられる。 このモデルは全ての空間次元において双安定な定常状態を示し、フェルミオン数パリティによって保証される。 特に、リウヴィリアの隙間はゼノ転移を示し、その下にあるリウヴィリアの隙間は散逸に関して線型である。 1次元では、ギャップはスペクトル交差を持つ複数のセクタから始まり、より高い次元では1つのセクタがギャップを決定する。

We present the construction of a solvable Lindblad model in arbitrary dimensions, wherein the Liouvillian can be mapped to a BCS-Hubbard model featuring an imaginary interaction. The Hilbert space of the system can be divided into multiple sectors, each characterized by an onsite invariant configuration. The model exhibits bistable steady states in all spatial dimensions, which is guaranteed by the fermion-number parity. Notably, the Liouvillian gap exhibits a Zeno transition, below which the Liouvillian gap is linear with respect to the dissipation. We also uncover a generic dimension-dependent gap behavior: In one dimension, the gap originates from multiple sectors with spectral crossing; in higher dimensions, a single sector determines the gap.
翻訳日:2023-09-18 18:05:16 公開日:2023-09-15
# 前立腺mriセグメンテーションにおけるアノテーションなしのマルチビューデータ活用 : 対比的アプローチ

Leveraging multi-view data without annotations for prostate MRI segmentation: A contrastive approach ( http://arxiv.org/abs/2308.06477v2 )

ライセンス: Link先を確認
Tim Nikolass Lindeijer, Tord Martin Ytredal, Trygve Eftest{\o}l, Tobias Nordstr\"om, Fredrik J\"aderling, Martin Eklund and Alvaro Fernandez-Quilez(参考訳) 正確な前立腺郭清と量的特徴付けは、前立腺癌の臨床的評価を支援することができる。 多視点データの取得プロトコルとして利用可能なにもかかわらず、多数の自動前立腺分割ツールは、軸方向のMRI方向のみを考慮に入れている。 さらに、マルチビューデータを利用する場合、すべてのビューに対する手動アノテーションとテスト時の可用性が一般的に仮定される。 本研究では,アノテーションを使わずにマルチビューデータを活用するためのトレーニング時の対比的アプローチを検討し,ビュー不足時にデプロイ時に柔軟性を提供する。 U-Net, tU-Net (triplet U-Net) に基づくトリプルトエンコーダとシングルデコーダネットワークを提案する。 提案するアーキテクチャは,音量的観点からのセグメンテーション改善のためのコントラスト学習を通じて,非注釈的矢状およびコロナビューを活用できる。 そこで我々は,潜在空間におけるビュー間類似性の概念を導入する。 トレーニングを指導するために、軸方向のビューと手動のアノテーションに対して計算されたサイススコアの損失と、マルチビューのコントラッシブ・ロスとを組み合わせる。 tU-Netは、軸方向(86.40+-1.50%、P<.001)のみに対するダイススコア係数(DSC)の統計的改善を示す。 感度分析は、tU-Netと組み合わせた場合の対向損失の体積的正の影響(3.81+-1.88%,P<.001)を明らかにする。 さらに,マルチビューデータを用いた場合 (3.92+-3.31%,P=.002) に比較して2.76+-1.89%) , コントラスト学習による非アノテーション付きマルチビューデータの活用の可能性を示した。

An accurate prostate delineation and volume characterization can support the clinical assessment of prostate cancer. A large amount of automatic prostate segmentation tools consider exclusively the axial MRI direction in spite of the availability as per acquisition protocols of multi-view data. Further, when multi-view data is exploited, manual annotations and availability at test time for all the views is commonly assumed. In this work, we explore a contrastive approach at training time to leverage multi-view data without annotations and provide flexibility at deployment time in the event of missing views. We propose a triplet encoder and single decoder network based on U-Net, tU-Net (triplet U-Net). Our proposed architecture is able to exploit non-annotated sagittal and coronal views via contrastive learning to improve the segmentation from a volumetric perspective. For that purpose, we introduce the concept of inter-view similarity in the latent space. To guide the training, we combine a dice score loss calculated with respect to the axial view and its manual annotations together with a multi-view contrastive loss. tU-Net shows statistical improvement in dice score coefficient (DSC) with respect to only axial view (91.25+-0.52% compared to 86.40+-1.50%,P<.001). Sensitivity analysis reveals the volumetric positive impact of the contrastive loss when paired with tU-Net (2.85+-1.34% compared to 3.81+-1.88%,P<.001). Further, our approach shows good external volumetric generalization in an in-house dataset when tested with multi-view data (2.76+-1.89% compared to 3.92+-3.31%,P=.002), showing the feasibility of exploiting non-annotated multi-view data through contrastive learning whilst providing flexibility at deployment in the event of missing views.
翻訳日:2023-09-18 17:57:10 公開日:2023-09-15
# dcnfis:深層畳み込み型ニューロファジー推論システム

DCNFIS: Deep Convolutional Neuro-Fuzzy Inference System ( http://arxiv.org/abs/2308.06378v2 )

ライセンス: Link先を確認
Mojtaba Yeganejou, Kimia Honari, Ryan Kluzinski, Scott Dick, Michael Lipsett, James Miller(参考訳) eXplainable Artificial Intelligenceの鍵となる課題は、アルゴリズムの透明性(つまり、人間がポストホックな説明を受けるのとは対照的に、どのようにしてアルゴリズムを直接理解できるか)と、その正確さの間のよく知られたトレードオフである。 精度を犠牲にすることなく透明性を向上させる新しいディープネットワークの設計について報告する。 ファジィ論理とディープラーニングモデルのハイブリッド化による深部畳み込みニューラルファジィ推論システム(DCNFIS)を設計し、DCNFISが4つのよく知られたデータセット上で3つの既存の畳み込みニューラルネットの精度を示す。 さらに、DCNFISは最先端の深層ファジィシステムより優れています。 そこで我々は,DCNFISで符号化されたファジィ規則から,ファジィ論理の透明性を,サリエンシマップの形で導出した。 ファッショナリズムデータセットを用いて,これらの説明の性質をより深く検討する。

A key challenge in eXplainable Artificial Intelligence is the well-known tradeoff between the transparency of an algorithm (i.e., how easily a human can directly understand the algorithm, as opposed to receiving a post-hoc explanation), and its accuracy. We report on the design of a new deep network that achieves improved transparency without sacrificing accuracy. We design a deep convolutional neuro-fuzzy inference system (DCNFIS) by hybridizing fuzzy logic and deep learning models and show that DCNFIS performs as accurately as three existing convolutional neural networks on four well-known datasets. We furthermore that DCNFIS outperforms state-of-the-art deep fuzzy systems. We then exploit the transparency of fuzzy logic by deriving explanations, in the form of saliency maps, from the fuzzy rules encoded in DCNFIS. We investigate the properties of these explanations in greater depth using the Fashion-MNIST dataset.
翻訳日:2023-09-18 17:56:38 公開日:2023-09-15
# マーカーレスモバイルARのための視覚慣性オドメトリー制約を用いたロバスト位置決め

Robust Localization with Visual-Inertial Odometry Constraints for Markerless Mobile AR ( http://arxiv.org/abs/2308.05394v2 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud(参考訳) 視覚慣性オドメトリー(VIO)は、現代の拡張現実(AR)アプリケーションにおいて不可欠なコンポーネントである。 しかし、VIOはデバイスの相対的なポーズのみを追跡し、時間の経過とともにドリフトする。 絶対ポーズ推定手法はデバイスの絶対ポーズを推定するが、その精度は入力品質に依存する。 本稿では、絶対ポーズ回帰器(APR)とローカルVIOトラッキングシステムを組み合わせた、マーカーレスモバイルARのための新しいフレームワークであるVIO-APRを紹介する。 VIO-APRはVIOを用いてAPRとAPRの信頼性を評価し、VIOドリフトの識別と補償を行う。 このフィードバックループはより正確な位置決めとより安定したAR体験をもたらす。 VIO-APRを評価するために、さまざまなスケールの6つの屋内・屋外シーンに対して、カメラ画像とARKitのVIOシステム出力を組み合わせたデータセットを作成しました。 このデータセットを通して、VIO-APRは、一般的なAPRの中央値の精度を最大36\%、オリエンテーション29\%改善し、高い(0.25m, 2^{\circ}$)精度のフレームの割合を最大112\%向上させ、低い(5m, 10^\circ$)精度以下で予測されるフレームの割合を大幅に削減する。 私たちは、その能力を実証するためにUnityを使用してモバイルARアプリケーションにVIO-APRを実装します。 VIO-APRは明らかに精度が高く、全体的な経験も安定している。

Visual Inertial Odometry (VIO) is an essential component of modern Augmented Reality (AR) applications. However, VIO only tracks the relative pose of the device, leading to drift over time. Absolute pose estimation methods infer the device's absolute pose, but their accuracy depends on the input quality. This paper introduces VIO-APR, a new framework for markerless mobile AR that combines an absolute pose regressor (APR) with a local VIO tracking system. VIO-APR uses VIO to assess the reliability of the APR and the APR to identify and compensate for VIO drift. This feedback loop results in more accurate positioning and more stable AR experiences. To evaluate VIO-APR, we created a dataset that combines camera images with ARKit's VIO system output for six indoor and outdoor scenes of various scales. Over this dataset, VIO-APR improves the median accuracy of popular APR by up to 36\% in position and 29\% in orientation, increases the percentage of frames in the high ($0.25 m, 2^{\circ}$) accuracy level by up to 112\% and reduces the percentage of frames predicted below the low ($5 m, 10^\circ$) accuracy greatly. We implement VIO-APR into a mobile AR application using Unity to demonstrate its capabilities. VIO-APR results in noticeably more accurate localization and a more stable overall experience.
翻訳日:2023-09-18 17:56:19 公開日:2023-09-15
# 深層学習支援自動検出による頭部ct画像再構成標準化に向けて

Towards Head Computed Tomography Image Reconstruction Standardization with Deep Learning Assisted Automatic Detection ( http://arxiv.org/abs/2307.16440v2 )

ライセンス: Link先を確認
Bowen Zheng, Chenxi Huang, Yuemei Luo(参考訳) 頭部CT像の3次元再構成は, 組織構造の複雑な空間的関係を解明し, 正確な診断を支援する。 いずれにせよ,患者の身体的制約やCTスキャナの傾斜角度制限など,臨床現場では,偏差のない最適な頭部CTスキャンの確保は困難である。 手動のフォーマッティングと再構築は主観性だけでなく、時間と労働資源も導入する。 これらの課題に対処するため,手動による介入を低減し,精度と再現性を向上する効率的な頭部CT画像再構成手法を提案する。 本手法では,深層学習に基づく物体検出アルゴリズムを用いて軌道線ランドマークを同定・評価し,再構成前の画像の自動再構成を行う。 頭部ct画像の文脈における物体検出アルゴリズムの既存評価の多さを考慮し,理論的および実験的視点から10の手法を比較した。 精度、効率、ロバスト性を探ることで、軽量のYOLOv8を92.77%のmAPと、クラス不均衡に対する顕著な堅牢性で、タスクのアペストアルゴリズムとして取り上げました。 標準化された再建成績の質的評価は,本手法の臨床的実践性と妥当性を示すものである。

Three-dimensional (3D) reconstruction of head Computed Tomography (CT) images elucidates the intricate spatial relationships of tissue structures, thereby assisting in accurate diagnosis. Nonetheless, securing an optimal head CT scan without deviation is challenging in clinical settings, owing to poor positioning by technicians, patient's physical constraints, or CT scanner tilt angle restrictions. Manual formatting and reconstruction not only introduce subjectivity but also strain time and labor resources. To address these issues, we propose an efficient automatic head CT images 3D reconstruction method, improving accuracy and repeatability, as well as diminishing manual intervention. Our approach employs a deep learning-based object detection algorithm, identifying and evaluating orbitomeatal line landmarks to automatically reformat the images prior to reconstruction. Given the dearth of existing evaluations of object detection algorithms in the context of head CT images, we compared ten methods from both theoretical and experimental perspectives. By exploring their precision, efficiency, and robustness, we singled out the lightweight YOLOv8 as the aptest algorithm for our task, with an mAP of 92.77% and impressive robustness against class imbalance. Our qualitative evaluation of standardized reconstruction results demonstrates the clinical practicability and validity of our method.
翻訳日:2023-09-18 17:55:52 公開日:2023-09-15
# 関係指向:知識整合因果aiへ向けて

Relation-Oriented: Toward Knowledge-Aligned Causal AI ( http://arxiv.org/abs/2307.16387v5 )

ライセンス: Link先を確認
Jia Li, Xiang Li(参考訳) 本研究では,一意の次元から見た関係学習にアプローチすることで,一般的な観測指向モデリングパラダイムの限界について検討する。 このパラダイムは、関係を定義する前にモデリングオブジェクトの識別を必要とし、モデルを観測空間に閉じ込め、時間的特徴へのアクセスを制限する。 特異で絶対的なタイムラインに依存すると、しばしば時間的特徴空間の多次元的性質が見過ごされる。 この監視はモデルの堅牢性と一般化性を妥協し、AIのミスアライメント問題に大きく貢献する。 本研究では,人間認知における関係中心の本質から,その方法論的側面である関係定義表現学習を補完する新たな関係指向パラダイムを提案する。

This study examines the inherent limitations of the prevailing Observation-Oriented modeling paradigm by approaching relationship learning from a unique dimensionality perspective. This paradigm necessitates the identification of modeling objects prior to defining relations, confining models to observational space, and limiting their access to temporal features. Relying on a singular, absolute timeline often leads to an oversight of the multi-dimensional nature of the temporal feature space. This oversight compromises model robustness and generalizability, contributing significantly to the AI misalignment issue. Drawing from the relation-centric essence of human cognition, this study presents a new Relation-Oriented paradigm, complemented by its methodological counterpart, the relation-defined representation learning, supported by extensive efficacy experiments.
翻訳日:2023-09-18 17:55:29 公開日:2023-09-15
# ニューラル多項式法による解釈可能な弾塑性モデルの発見と記号回帰

Discovering interpretable elastoplasticity models via the neural polynomial method enabled symbolic regressions ( http://arxiv.org/abs/2307.13149v2 )

ライセンス: Link先を確認
Bahador Bahmani, Hyoung Suk Suh and WaiChing Sun(参考訳) 従来のニューラルネットワークの弾塑性モデルは解釈性に欠けると見なされることが多い。 本稿では,人間の専門家が解釈可能な数学モデルを返す2段階の機械学習手法を提案する。 特に,教師付き学習から得られる一変量特徴写像の集合を用いて,収率曲面を表現した代理モデルを提案する。 その後、後処理ステップを使用して、単変数ニューラルネットワークマッピング関数の集合を記号回帰によって数学的形式に再解釈する。 この分割と分割のアプローチは、いくつかの重要な利点を提供する。 まず、シンボリック回帰アルゴリズムのスケーリング問題を克服できます。 実用の観点からは、異なるプログラミング言語で記述された偏微分方程式解法に対する学習モデルの可搬性を高める。 最後に, モデルの凸性や対称性などの材料特性を, 自動導出や推論によって具体的に把握することを可能にする。 サードパーティによる検証を可能にするオープンソースコードとともに,数値的な例が提供されている。

Conventional neural network elastoplasticity models are often perceived as lacking interpretability. This paper introduces a two-step machine-learning approach that returns mathematical models interpretable by human experts. In particular, we introduce a surrogate model where yield surfaces are expressed in terms of a set of single-variable feature mappings obtained from supervised learning. A postprocessing step is then used to re-interpret the set of single-variable neural network mapping functions into mathematical form through symbolic regression. This divide-and-conquer approach provides several important advantages. First, it enables us to overcome the scaling issue of symbolic regression algorithms. From a practical perspective, it enhances the portability of learned models for partial differential equation solvers written in different programming languages. Finally, it enables us to have a concrete understanding of the attributes of the materials, such as convexity and symmetries of models, through automated derivations and reasoning. Numerical examples have been provided, along with an open-source code to enable third-party validation.
翻訳日:2023-09-18 17:55:18 公開日:2023-09-15
# モンテカルロシミュレーションと最大最適輸送における分散低減のためのポリシー勾配最適相関探索

Policy Gradient Optimal Correlation Search for Variance Reduction in Monte Carlo simulation and Maximum Optimal Transport ( http://arxiv.org/abs/2307.12703v2 )

ライセンス: Link先を確認
Pierre Bras, Gilles Pag\`es(参考訳) 我々は、ある確率微分方程式の解として$f(X_T)$を推定し、$f$をテスト関数として、分散還元のための新しいアルゴリズムを提案する。 新しい推定器は$(f(X^1_T) + f(X^2_T))/2$ であり、$X^1$ と $X^2$ は$X$ と同じ限界法則を持つが、相似的に相関して分散を減少させる。 最適相関関数$\rho$はディープニューラルネットワークによって近似され、ポリシー勾配と強化学習技術により$(X^1, X^2)$の軌道に沿って校正される。 限界法則が与えられた最適結合を見つけることは、最大最適移動と結びつく。

We propose a new algorithm for variance reduction when estimating $f(X_T)$ where $X$ is the solution to some stochastic differential equation and $f$ is a test function. The new estimator is $(f(X^1_T) + f(X^2_T))/2$, where $X^1$ and $X^2$ have same marginal law as $X$ but are pathwise correlated so that to reduce the variance. The optimal correlation function $\rho$ is approximated by a deep neural network and is calibrated along the trajectories of $(X^1, X^2)$ by policy gradient and reinforcement learning techniques. Finding an optimal coupling given marginal laws has links with maximum optimal transport.
翻訳日:2023-09-18 17:55:06 公開日:2023-09-15
# 分布外一般化のための位相マッチング

Phase Matching for Out-of-Distribution Generalization ( http://arxiv.org/abs/2307.12622v5 )

ライセンス: Link先を確認
Chengming Hu, Yeqian Du, Rui Wang, Hao Chen(参考訳) 視覚信号の明確な分解法として機能するフーリエ変換は、畳み込みニューラルネットワーク(CNN)の分布外一般化挙動を説明するために用いられる。 従来の研究では、振幅スペクトルは分布シフトによる乱れの影響を受けやすいことが示されている。 一方、位相スペクトルは、堅牢な視覚表現学習に不可欠である高度に構造化された空間情報を保存する。 しかし、相スペクトルの空間的関係は、これまでの研究では未解明のままである。 本稿では,領域一般化(dg)と周波数成分の関係を明らかにし,位相スペクトルの空間的関係を明らかにすることを目的とする。 具体的には,まず位相スペクトルを半因果因子,振幅スペクトルを非因果因子として解釈するフーリエ型構造因果モデルを提案する。 次に,DG問題に対処するための位相マッチング(PhaMa)を提案する。 本手法は振幅スペクトルの摂動を導入し,位相成分に一致する空間関係を確立する。 提案手法は,複数のベンチマーク実験により,領域一般化および分布外ロバスト性タスクにおける最先端性能を実現することを示す。

The Fourier transform, serving as an explicit decomposition method for visual signals, has been employed to explain the out-of-distribution generalization behaviors of Convolutional Neural Networks (CNNs). Previous studies have indicated that the amplitude spectrum is susceptible to the disturbance caused by distribution shifts. On the other hand, the phase spectrum preserves highly-structured spatial information, which is crucial for robust visual representation learning. However, the spatial relationships of phase spectrum remain unexplored in previous research. In this paper, we aim to clarify the relationships between Domain Generalization (DG) and the frequency components, and explore the spatial relationships of the phase spectrum. Specifically, we first introduce a Fourier-based structural causal model which interprets the phase spectrum as semi-causal factors and the amplitude spectrum as non-causal factors. Then, we propose Phase Matching (PhaMa) to address DG problems. Our method introduces perturbations on the amplitude spectrum and establishes spatial relationships to match the phase components. Through experiments on multiple benchmarks, we demonstrate that our proposed method achieves state-of-the-art performance in domain generalization and out-of-distribution robustness tasks.
翻訳日:2023-09-18 17:54:50 公開日:2023-09-15
# 学習サーロゲートと制約を用いた多物理系逆問題の解法

Solving multiphysics-based inverse problems with learned surrogates and constraints ( http://arxiv.org/abs/2307.11099v2 )

ライセンス: Link先を確認
Ziyi Yin and Rafael Orozco and Mathias Louboutin and Felix J. Herrmann(参考訳) マルチモーダル・タイムラプスデータが収集コストが高く,数値シミュレーションに費用がかかる場合, 地質学的な炭素貯蔵モニタリングのための多物理ベースの逆問題の解決は困難である。 我々は,計算量的に安価に学習できるサロゲートと学習制約を組み合わせることで,これらの課題を克服した。 この組み合わせによって、重要な流体流動特性、透水性の反転が大幅に改善されるだけでなく、十分な測定値やアクティブ・ソース・タイムラプス地震データを含むマルチモーダルデータを反転するための自然なプラットフォームも提供される。 学習した制約を加えることで、計算可能で正確な逆転のアプローチにたどり着く。 これは、正規化フローとして知られる訓練された深層ニューラルネットワークを含むことで達成される。これはモデルを反復させ、偏微分方程式の解を含む計算コストの高い多相流シミュレーションのサロゲートとして機能する訓練されたフーリエニューラルネットワークの精度を保護する。 地質炭素貯蔵問題を中心に, 慎重に選択した実験により, 時間経過井戸と時間経過地震データという2つの異なるデータモダリティに対する制約付き最適化手法の有効性を実証した。 これら2つのモードからの透過性反転にはプラスとミヌースがあるが、両者の合同反転はどちらからも利点があり、監視井戸から近距離、遠距離で優れた透過性反転とco2プルーム予測をもたらす。

Solving multiphysics-based inverse problems for geological carbon storage monitoring can be challenging when multimodal time-lapse data are expensive to collect and costly to simulate numerically. We overcome these challenges by combining computationally cheap learned surrogates with learned constraints. Not only does this combination lead to vastly improved inversions for the important fluid-flow property, permeability, it also provides a natural platform for inverting multimodal data including well measurements and active-source time-lapse seismic data. By adding a learned constraint, we arrive at a computationally feasible inversion approach that remains accurate. This is accomplished by including a trained deep neural network, known as a normalizing flow, which forces the model iterates to remain in-distribution, thereby safeguarding the accuracy of trained Fourier neural operators that act as surrogates for the computationally expensive multiphase flow simulations involving partial differential equation solves. By means of carefully selected experiments, centered around the problem of geological carbon storage, we demonstrate the efficacy of the proposed constrained optimization method on two different data modalities, namely time-lapse well and time-lapse seismic data. While permeability inversions from both these two modalities have their pluses and minuses, their joint inversion benefits from either, yielding valuable superior permeability inversions and CO2 plume predictions near, and far away, from the monitoring wells.
翻訳日:2023-09-18 17:54:16 公開日:2023-09-15
# r^3: 自律ロボットのためのリアルタイム深層強化学習

R^3: On-device Real-Time Deep Reinforcement Learning for Autonomous Robotics ( http://arxiv.org/abs/2308.15039v2 )

ライセンス: Link先を確認
Zexin Li, Aritra Samanta, Yufei Li, Andrea Soltoggio, Hyoseung Kim and Cong Liu(参考訳) 自律型ロボットシステム(自動運転車やロボット検索や救助など)は、動的環境におけるdrl(deep reinforcement learning)モデルの継続的適応のために、効率的なオンデバイストレーニングを必要とする。 この研究は、大規模な実証研究を通じて明らかになったように、メモリ制約下でのタイミングとアルゴリズム性能のバランスをとるオンデバイスリアルタイムDRLの課題を理解し、解決する必要があることによる。 この複雑なバランスは、DRLトレーニングの2つの重要なパラメータ、バッチサイズとバッファサイズの共最適化を必要とする。 これらのパラメータの設定はタイミングやアルゴリズムのパフォーマンスに大きく影響するが、(残念なことに)ほぼ最適の性能を達成するには相当なメモリ割り当てが必要となる。 本稿では,リアルタイムdrlトレーニングにおけるタイミング,メモリ,アルゴリズム性能を管理するための総合的なソリューションであるr^3を提案する。 R^3 採用 (i)時間最適化のための動的バッチサイズ付き期限駆動フィードバックループ。 (ii)メモリフットプリントを削減し、再生バッファサイズを大きくするための効率的なメモリ管理 (iii)ヒューリスティック解析により誘導されるランタイムコーディネータと、メモリリソース予約を動的に調整するランタイムプロファイラ。 これらのコンポーネントは、オンデバイスDRLトレーニングのトレードオフに協力的に取り組み、メモリ外エラー(OOM)のリスクを最小限に抑えながら、タイミングとアルゴリズムのパフォーマンスを改善する。 自律ロボットシステムで一般的に採用されている3つのハードウェアプラットフォーム上で,様々なDRLフレームワークとベンチマークを用いてR^3を広範囲に実装し,評価した。 さらに、R^3と一般的な現実的な自律走行車シミュレータを統合し、実世界の応用性を実証する。 評価の結果、R^3は様々なプラットフォームで有効であり、一貫したレイテンシ性能とタイミング予測性を最小限のオーバーヘッドで確保できることがわかった。

Autonomous robotic systems, like autonomous vehicles and robotic search and rescue, require efficient on-device training for continuous adaptation of Deep Reinforcement Learning (DRL) models in dynamic environments. This research is fundamentally motivated by the need to understand and address the challenges of on-device real-time DRL, which involves balancing timing and algorithm performance under memory constraints, as exposed through our extensive empirical studies. This intricate balance requires co-optimizing two pivotal parameters of DRL training -- batch size and replay buffer size. Configuring these parameters significantly affects timing and algorithm performance, while both (unfortunately) require substantial memory allocation to achieve near-optimal performance. This paper presents R^3, a holistic solution for managing timing, memory, and algorithm performance in on-device real-time DRL training. R^3 employs (i) a deadline-driven feedback loop with dynamic batch sizing for optimizing timing, (ii) efficient memory management to reduce memory footprint and allow larger replay buffer sizes, and (iii) a runtime coordinator guided by heuristic analysis and a runtime profiler for dynamically adjusting memory resource reservations. These components collaboratively tackle the trade-offs in on-device DRL training, improving timing and algorithm performance while minimizing the risk of out-of-memory (OOM) errors. We implemented and evaluated R^3 extensively across various DRL frameworks and benchmarks on three hardware platforms commonly adopted by autonomous robotic systems. Additionally, we integrate R^3 with a popular realistic autonomous car simulator to demonstrate its real-world applicability. Evaluation results show that R^3 achieves efficacy across diverse platforms, ensuring consistent latency performance and timing predictability with minimal overhead.
翻訳日:2023-09-18 17:48:39 公開日:2023-09-15
# 位相変調パルスによる高忠実性量子ビット制御

High-fidelity robust qubit control by phase-modulated pulses ( http://arxiv.org/abs/2308.13353v2 )

ライセンス: Link先を確認
Marko Kuzmanovi\'c, Isak Bj\"orkman, John J. McCord, Shruti Dogra, and Gheorghe Sorin Paraoanu(参考訳) 本稿では, 基底状態の励起状態への移動やブロッホ球上での任意の$X/Y$回転などのパラダイム操作を実現する, 頑健で高忠実なパルスの集合を示す。 これらのパルスは制御場の位相変調に基づいている。 我々はこれらの操作をトランスモンキュービット上で実装し、$\approx 20\%$以上の駆動振幅における偏差に対するレジリエンスを実証し、10〜\mathrm{MHz}$の順でキュービット遷移周波数からデチューニングする。 概念と変調方式は実装が簡単であり、他の量子技術実験プラットフォームと互換性がある。

We present a set of robust and high-fidelity pulses that realize paradigmatic operations such as the transfer of the ground state population into the excited state and arbitrary $X/Y$ rotations on the Bloch sphere. These pulses are based on the phase modulation of the control field. We implement these operations on a transmon qubit, demonstrating resilience against deviations in the drive amplitude of more than $\approx 20\%$ and/or detuning from the qubit transition frequency in the order of $10~\mathrm{MHz}$. The concept and modulation scheme is straightforward to implement and it is compatible with other quantum-technology experimental platforms.
翻訳日:2023-09-18 17:48:08 公開日:2023-09-15
# AI/MLアプリケーションのためのMajorana Demonstratorデータリリース

Majorana Demonstrator Data Release for AI/ML Applications ( http://arxiv.org/abs/2308.10856v3 )

ライセンス: Link先を確認
I.J. Arnquist, F.T. Avignone III, A.S. Barabash, C.J. Barton, K.H. Bhimani, E. Blalock, B. Bos, M. Busch, M. Buuck, T.S. Caldwell, Y.-D. Chan, C.D. Christofferson, P.-H. Chu, M.L. Clark, C. Cuesta, J.A. Detwiler, Yu. Efremenko, H. Ejiri, S.R. Elliott, N. Fuad, G.K. Giovanetti, M.P. Green, J. Gruszko, I.S. Guinn, V.E. Guiseppe, C.R. Haufe, R. Henning, D. Hervas Aguilar, E.W. Hoppe, A. Hostiuc, M.F. Kidd, I. Kim, R.T. Kouzes, T.E. Lannen V, A. Li, J.M. Lopez-Castano, R.D. Martin, R. Massarczyk, S.J. Meijer, S. Mertens, T.K. Oli, L.S. Paudel, W. Pettus, A.W.P. Poon, B. Quenallata, D.C. Radford, A.L. Reine, K. Rielage, N.W. Ruof, D.C. Schaper, S.J. Schleich, D. Tedeschi, R.L. Varner, S. Vasilyev, S.L. Watkins, J.F. Wilkerson, C. Wiseman, W. Xu, C.-H. Yu, and B.X. Zhu(参考訳) 囲われたデータリリースは、Majorana Demonstrator実験のキャリブレーションデータのサブセットで構成されている。 各マヨラナイベントには、生のゲルマニウム検出器波形、パルス形状識別カット、校正された最終エネルギーが伴い、全てhdf5ファイルフォーマットで共有される。 このリリースは、データに対する人工知能(AI)と機械学習(ML)アルゴリズムのトレーニングとテストをサポートするように設計されている。 この文書は次のように構成されている。 第1節ではデータセットの内容とフォーマットの概要、第2節ではデータセットの位置とアクセス方法の概要、第3節ではデータセットに関連するNPML機械学習チャレンジ、第4節ではデータセットの使用に関するMajoranaのコラボレーションからの報告、第A節ではこのデータリリースに関する技術的な詳細が記載されている。 このリリースで提供される資料については、liaobo77@ucsd.edu (A. Li)に直接質問してください。

The enclosed data release consists of a subset of the calibration data from the Majorana Demonstrator experiment. Each Majorana event is accompanied by raw Germanium detector waveforms, pulse shape discrimination cuts, and calibrated final energies, all shared in an HDF5 file format along with relevant metadata. This release is specifically designed to support the training and testing of Artificial Intelligence (AI) and Machine Learning (ML) algorithms upon our data. This document is structured as follows. Section I provides an overview of the dataset's content and format; Section II outlines the location of this dataset and the method for accessing it; Section III presents the NPML Machine Learning Challenge associated with this dataset; Section IV contains a disclaimer from the Majorana collaboration regarding the use of this dataset; Appendix A contains technical details of this data release. Please direct questions about the material provided within this release to liaobo77@ucsd.edu (A. Li).
翻訳日:2023-09-18 17:47:37 公開日:2023-09-15
# wanjuan: 英語と中国語の大規模モデルの総合的マルチモーダルデータセット

WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models ( http://arxiv.org/abs/2308.10755v3 )

ライセンス: Link先を確認
Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, Dahua Lin(参考訳) ChatGPTとGPT-4の人気が高まり、大きなモデルの開発が大幅に加速し、多数の大きな言語モデル(LLM)とマルチモーダルな言語モデル(MLLM)が作成された。 これらの最先端モデルは、高品質なデータに優れた性能を与えている。 しかしながら、主要なパラダイムで使用されるトレーニングデータの詳細は、しばしば秘密にされる。 この透明性の欠如と、オープンソースデータの不足は、コミュニティ内のさらなる発展を妨げている。 そこで本研究では、中国語と英語のデータからなる大規模マルチモーダルデータセットであるWan Juanについて、幅広いWebソースから収集した。 データセットにはテキスト、画像テキスト、ビデオモダリティが含まれており、総ボリュームは2TBを超える。 同様のスケールのモデルと比較して,多次元評価において有意なアドバンテージを示したモデルであるinternlmのトレーニングに活用した。 すべてのデータはhttps://opendatalab.org.cn/WanJuan1.0でアクセスできる。

The rise in popularity of ChatGPT and GPT-4 has significantly accelerated the development of large models, leading to the creation of numerous impressive large language models(LLMs) and multimodal large language models (MLLMs). These cutting-edge models owe their remarkable performance to high-quality data. However, the details of the training data used in leading paradigms are often kept confidential. This lack of transparency, coupled with the scarcity of open-source data, impedes further developments within the community. As a response, this paper presents "Wan Juan", a large-scale multimodal dataset composed of both Chinese and English data, collected from a wide range of web sources. The dataset incorporates text, image-text, and video modalities, with a total volume exceeding 2TB. It was utilized in the training of InternLM, a model that demonstrated significant advantages in multi-dimensional evaluations when compared to models of a similar scale. All data can be accessed at https://opendatalab.org.cn/WanJuan1.0.
翻訳日:2023-09-18 17:47:19 公開日:2023-09-15
# mindmap: 知識グラフプロンプト - 大規模言語モデルにおける思考グラフの火花

MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models ( http://arxiv.org/abs/2308.09729v4 )

ライセンス: Link先を確認
Yilin Wen, Zifeng Wang, Jimeng Sun(参考訳) LLMは、通常、新しい知識を取り入れる能力、幻覚の生成、意思決定プロセスの透明性の限界を示す。 本稿では,LLMを知識グラフ(KG)で促進する方法について検討し,LLMを最新の知識で活用し,LLMから推論経路を引き出すための対策として機能する。 具体的には、KG入力を解釈し、暗黙の知識と抽出した外部知識を組み合わせて推論する能力を備えたLLMを実現するプロンプトパイプラインを構築する。 さらに,LLMが推論を行うマインドマップを抽出し,回答を生成する。 生成したマインドマップは、知識のオントロジーに基づくLLMの推論経路を示しており、それによって、生産におけるLLM推論の探索と拡大の見通しがもたらされる。 3つの質問と回答データセットに関する実験では、マインドマップのプロンプトが経験的な成果をもたらすことも示されている。 例えば、MindMap で GPT-3.5 をプロンプトすると、GPT-4 よりも圧倒的なパフォーマンスが得られる。 また、KGから抽出した構造化事実により、MindMapは、KGsのより正確で簡潔で包括的な知識の恩恵を受けながら、一連のプロンプト・ウィズ・ドキュメンテーション・検索手法より優れていることを示す。 結果を再現し、フレームワークをさらに拡張するために、コードベースはhttps://github.com/wyl.willing/MindMap.comで公開しています。

LLMs usually exhibit limitations in their ability to incorporate new knowledge, the generation of hallucinations, and the transparency of their decision-making process. In this paper, we explore how to prompt LLMs with knowledge graphs (KG), working as a remedy to engage LLMs with up-to-date knowledge and elicit the reasoning pathways from LLMs. Specifically, we build a prompting pipeline that endows LLMs with the capability of comprehending KG inputs and inferring with a combined implicit knowledge and the retrieved external knowledge. In addition, we investigate eliciting the mind map on which LLMs perform the reasoning and generate the answers. It is identified that the produced mind map exhibits the reasoning pathways of LLMs grounded on the ontology of knowledge, hence bringing the prospects of probing and gauging LLM inference in production. The experiments on three question & answering datasets also show that MindMap prompting leads to a striking empirical gain. For instance, prompting a GPT-3.5 with MindMap yields an overwhelming performance over GPT-4 consistently. We also demonstrate that with structured facts retrieved from KG, MindMap can outperform a series of prompting-with-document-retrieval methods, benefiting from more accurate, concise, and comprehensive knowledge from KGs. To reproduce our results and extend the framework further, we make our codebase available at https://github.com/wyl.willing/MindMap.
翻訳日:2023-09-18 17:47:03 公開日:2023-09-15
# E-Commerce Query Intent 分類のための生成言語モデリングによる検索精度の向上

Differentiable Retrieval Augmentation via Generative Language Modeling for E-commerce Query Intent Classification ( http://arxiv.org/abs/2308.09308v3 )

ライセンス: Link先を確認
Chenyu Zhao, Yunjiang Jiang, Yiming Qiu, Han Zhang, Wen-Yun Yang(参考訳) 知識検索と外部コーパスによる下流モデルを強化し,単にモデルパラメータの数を増大させるだけでなく,テキスト分類や質問応答など多くの自然言語処理(NLP)タスクにもうまく適用されている。 しかしながら、レトリバーと下流モデルを別々にあるいは非同期にトレーニングする既存の方法は、主に2つの部分間の非微分性のため、通常、エンドツーエンドのジョイントトレーニングと比較して性能が劣化する。 本稿では,新しい微分可能再構成によってこの問題に対処するために,生成言語モデル(dragan)による微分可能検索拡張を提案する。 本稿では,eコマース検索における難解なNLPタスク,すなわちクエリ意図分類における提案手法の有効性を示す。 実験結果とアブレーションの結果から,提案手法はオフライン評価とオンラインA/Bテストの両方において,最先端のベースラインを著しく改善することが示された。

Retrieval augmentation, which enhances downstream models by a knowledge retriever and an external corpus instead of by merely increasing the number of model parameters, has been successfully applied to many natural language processing (NLP) tasks such as text classification, question answering and so on. However, existing methods that separately or asynchronously train the retriever and downstream model mainly due to the non-differentiability between the two parts, usually lead to degraded performance compared to end-to-end joint training. In this paper, we propose Differentiable Retrieval Augmentation via Generative lANguage modeling(Dragan), to address this problem by a novel differentiable reformulation. We demonstrate the effectiveness of our proposed method on a challenging NLP task in e-commerce search, namely query intent classification. Both the experimental results and ablation study show that the proposed method significantly and reasonably improves the state-of-the-art baselines on both offline evaluation and online A/B test.
翻訳日:2023-09-18 17:46:35 公開日:2023-09-15
# 機能強化PINN(FE-PINN) - 目的関数項におけるアンバランシングの解法を学ぶためのフレームワーク

Feature Enforcing PINN (FE-PINN): A Framework for Learning the Underlying-Physics to Resolve Unbalancing in the Objective Function Terms ( http://arxiv.org/abs/2308.08873v2 )

ライセンス: Link先を確認
Mahyar Jahaninasab, Mohamad Ali Bijarchi(参考訳) 本研究では,バニラPINNにおける不均衡損失関数の課題を克服するために,新しいデータフリーフレームワークであるFeature Enforcecing Physics Informed Neural Network (FE-PINN)を提案する。 この不均衡は損失関数における2つの項(偏微分損失と境界条件平均二乗誤差)の存在によって引き起こされる。 標準的なソリューションは損失重み付けを使うが、ハイパーパラメータチューニングを必要とする。 この課題に対処するために、設計プロセスの最終トレーニング前にニューラルネットワークに境界条件のみを学習させるスマート初期化と呼ばれるプロセスを導入する。 この方法では、クラスタ化されたドメインポイントを使用して、設計された重みでニューラルネットワークをトレーニングし、foundation networkと呼ばれるニューラルネットワークを作成する。 これにより、境界条件を理解する独自の重みを持つネットワークが得られる。 次に、さらなるレイヤを使用して精度を向上させる。 これにより、ハイパーパラメータチューニングを必要とせずに、不均衡損失関数の問題を解決できる。 ベンチマークとしてシリンダー上の2次元フローでは、FE-PINNのスマート初期化はバニラPINNのハイパーパラメータチューニングよりも574倍高速である。 最適損失重量値であっても、FE-PINNは平均トレーニング時間を1.98倍にすることでバニラPINNを上回っている。 また, 逆問題に対して提案手法の有効性を示す。 シリンダー上の2次元流れの入口速度を求めるため、FE-PINNはバニラPINNの最適重量損失値の知識でバニラPINNの2倍高速である。 その結果, FE-PINNは損失重み付けの時間を短縮するだけでなく, バニラPINNと比較して, 損失関数の最適重み値を用いても収束速度を向上することがわかった。 結論として、このフレームワークは様々な分野にまたがる幅広い部分微分方程式を解くための高速で正確なツールとして利用できる。

In this study, we propose a new data-free framework, Feature Enforcing Physics Informed Neural Network (FE-PINN), to overcome the challenge of an imbalanced loss function in vanilla PINNs. The imbalance is caused by the presence of two terms in the loss function: the partial differential loss and the boundary condition mean squared error. A standard solution is to use loss weighting, but it requires hyperparameter tuning. To address this challenge, we introduce a process called smart initialization to force the neural network to learn only the boundary conditions before the final training in a designed process. In this method, clustered domain points are used to train a neural network with designed weights, resulting in the creation of a neural network called Foundation network. This results in a network with unique weights that understand boundary conditions. Then, additional layers are used to improve the accuracy. This solves the problem of an imbalanced loss function without further need for hyperparameter tuning. For 2D flow over a cylinder as a benchmark, smart initialization in FE-PINN is 574 times faster than hyperparameter tuning in vanilla PINN. Even with the optimal loss weight value, FE-PINN outperforms vanilla PINN by speeding up the average training time by 1.98. Also, the ability of the proposed approach is shown for an inverse problem. To find the inlet velocity for a 2D flow over a cylinder, FE-PINN is twice faster than vanilla PINN with the knowledge of optimal weight loss value for vanilla PINN. Our results show that FE-PINN not only eliminates the time-consuming process of loss weighting but also improves convergence speed compared to vanilla PINN, even when the optimal weight value is used in its loss function. In conclusion, this framework can be used as a fast and accurate tool for solving a wide range of Partial Differential Equations across various fields.
翻訳日:2023-09-18 17:46:19 公開日:2023-09-15
# LLM4TS:LLMによる時系列予測のための2段階ファインチューニング

LLM4TS: Two-Stage Fine-Tuning for Time-Series Forecasting with Pre-Trained LLMs ( http://arxiv.org/abs/2308.08469v2 )

ライセンス: Link先を確認
Ching Chang, Wen-Chih Peng, Tien-Fu Chen(参考訳) 本研究では,事前学習されたLarge Language Models(LLM)を利用して時系列予測を強化する。 自然言語処理とコンピュータビジョンの統一モデルへの関心の高まりを反映し,長期時系列予測のための類似モデルの作成を想定する。 強靭な基礎モデルを構築するための大規模時系列データが少ないため,本手法では,事前学習したLLMの強みを活用することに重点を置いている。 時系列パッチングとテンポラリエンコーディングを組み合わせることで,時系列データを効果的に処理できるllmの能力を高めた。 まずは、llmを時系列データに向き付けるための教師付き微調整を行い、次にタスク固有の下流の微調整を行います。 さらに,パラメータ調整を行なわずに事前学習したLLMの柔軟性を解放するために,パラメータ効率の良い細調整(PEFT)技術を採用した。 これらの革新に基づき、LLM4TSは長期的な予測において最先端の結果を得た。 我々のモデルは、事前学習されたLLMから受け継がれた知識のおかげで、頑健な表現学習者および効果的な数ショット学習者としての優れた能力も示している。

In this work, we leverage pre-trained Large Language Models (LLMs) to enhance time-series forecasting. Mirroring the growing interest in unifying models for Natural Language Processing and Computer Vision, we envision creating an analogous model for long-term time-series forecasting. Due to limited large-scale time-series data for building robust foundation models, our approach LLM4TS focuses on leveraging the strengths of pre-trained LLMs. By combining time-series patching with temporal encoding, we have enhanced the capability of LLMs to handle time-series data effectively. Inspired by the supervised fine-tuning in chatbot domains, we prioritize a two-stage fine-tuning process: first conducting supervised fine-tuning to orient the LLM towards time-series data, followed by task-specific downstream fine-tuning. Furthermore, to unlock the flexibility of pre-trained LLMs without extensive parameter adjustments, we adopt several Parameter-Efficient Fine-Tuning (PEFT) techniques. Drawing on these innovations, LLM4TS has yielded state-of-the-art results in long-term forecasting. Our model has also shown exceptional capabilities as both a robust representation learner and an effective few-shot learner, thanks to the knowledge transferred from the pre-trained LLM.
翻訳日:2023-09-18 17:45:47 公開日:2023-09-15
# 医用画像分類におけるロバストネスストレステスト

Robustness Stress Testing in Medical Image Classification ( http://arxiv.org/abs/2308.06889v2 )

ライセンス: Link先を確認
Mobarakol Islam and Zeju Li and Ben Glocker(参考訳) ディープニューラルネットワークは、画像に基づく疾患検出で素晴らしいパフォーマンスを示している。 臨床的に許容できる精度を示すために、独立したテストセットに対する臨床検証を通じて、パフォーマンスを一般的に評価する。 しかし、テストセットで優れたパフォーマンスメトリクスを報告することは、アルゴリズムの一般化可能性と堅牢性を示すのに十分ではない。 特に、試験データがトレーニングデータと同じ分布から引き出される場合、iidテストセットの性能は、新規データにおける精度の信頼性の低下を推定することができる。 本稿では,疾患検出モデルにおけるモデルロバスト性とサブグループ性能の差を評価するためにストレステストを行う。 我々は6つの重度レベルを持つ5つの異なる双方向および一方向の画像摂動を用いた進行応力試験を設計する。 症例として,胸部X線画像と皮膚病変画像に対する疾患検出モデルの堅牢性の測定にストレステストを適用し,クラスおよびドメイン固有のモデル行動を研究することの重要性を示す。 我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。 また、下流のロバストネスにおいて、事前学習特性が重要な役割を担っていることも判明した。 プログレッシブストレステストは有用かつ重要なツールであり、画像に基づく疾患検出モデルの臨床的検証の標準となるべきであると結論づけた。

Deep neural networks have shown impressive performance for image-based disease detection. Performance is commonly evaluated through clinical validation on independent test sets to demonstrate clinically acceptable accuracy. Reporting good performance metrics on test sets, however, is not always a sufficient indication of the generalizability and robustness of an algorithm. In particular, when the test data is drawn from the same distribution as the training data, the iid test set performance can be an unreliable estimate of the accuracy on new data. In this paper, we employ stress testing to assess model robustness and subgroup performance disparities in disease detection models. We design progressive stress testing using five different bidirectional and unidirectional image perturbations with six different severity levels. As a use case, we apply stress tests to measure the robustness of disease detection models for chest X-ray and skin lesion images, and demonstrate the importance of studying class and domain-specific model behaviour. Our experiments indicate that some models may yield more robust and equitable performance than others. We also find that pretraining characteristics play an important role in downstream robustness. We conclude that progressive stress testing is a viable and important tool and should become standard practice in the clinical validation of image-based disease detection models.
翻訳日:2023-09-18 17:45:24 公開日:2023-09-15
# 3モードガウス状態の非対称量子照明

Asymmetric Quantum Illumination with three-mode Gaussian State ( http://arxiv.org/abs/2309.04086v2 )

ライセンス: Link先を確認
Mi-Ra Hwang and DaeKil Park(参考訳) 非対称戦略を持つ量子照明は、1つの信号と2つのアイドラービームを含む3つのモードの最大絡み合ったガウス状態を用いて検討される。 このシナリオは、信号当たり平均光子数であるn_s$が0.46$未満の2モードのスクイーズ真空状態と比較して誤差の少ない確率をもたらすことが示されている。

Quantum illumination with asymmetric strategy is examined by making use of the three-mode maximally entangled Gaussian state, which involves one signal and two idler beams. It is shown that this scenario gives less-error probability compared to that with the two-mode squeezed vacuum state when $N_S$, average photon number per signal, is less than $0.46$.
翻訳日:2023-09-18 17:37:26 公開日:2023-09-15
# CDFSL-V:ビデオ用クロスドメインFew-Shot学習

CDFSL-V: Cross-Domain Few-Shot Learning for Videos ( http://arxiv.org/abs/2309.03989v2 )

ライセンス: Link先を確認
Sarinda Samarasinghe, Mamshad Nayeem Rizve, Navid Kardan, Mubarak Shah(参考訳) 少数のラベル付きサンプルしか持たない新しいカテゴリを識別するには、少数のビデオアクション認識が有効なアプローチであり、大規模なビデオデータセットの収集と注釈付けに関する課題を軽減している。 既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存する。 しかし、この設定は、異なる空間的・時間的特性を持つ異なるデータ領域から新しいカテゴリが生まれる可能性があるため、現実的ではない。 このソースドメインとターゲットドメインの相違は大きな課題となり、従来の少数ショットのアクション認識技術では効果がない。 この問題に対処するため,本研究では,自己教師付き学習とカリキュラム学習を活用し,ソース領域とターゲット領域の情報のバランスをとるクロスドメイン・ビデオ・アクション認識手法を提案する。 具体的には,マスク付きオートエンコーダに基づく自己教師付き学習目標を用いて,ソースデータとターゲットデータの両方から自己教師付きで学習する。 そして、プログレッシブカリキュラムは、ソースデータセットから識別情報とターゲットドメインから学習した汎用情報とのバランスをとる。 まず,教師付き学習を用いてソースデータからクラス識別特徴を学習する。 トレーニングが進むにつれて、ターゲットドメイン固有の特徴の学習に移行する。 我々は,ソースドメインのクラス識別的教師付き特徴に基づいて,対象ドメインにおけるリッチな特徴の出現を促すプログレッシブカリキュラムを提案する。 提案手法をいくつかの挑戦的なベンチマークデータセットで評価し,既存のドメイン間数ショット学習技術より優れていることを示す。 私たちのコードはhttps://github.com/Sarinda251/CDFSL-Vで利用可能です。

Few-shot video action recognition is an effective approach to recognizing new categories with only a few labeled examples, thereby reducing the challenges associated with collecting and annotating large-scale video datasets. Existing methods in video action recognition rely on large labeled datasets from the same domain. However, this setup is not realistic as novel categories may come from different data domains that may have different spatial and temporal characteristics. This dissimilarity between the source and target domains can pose a significant challenge, rendering traditional few-shot action recognition techniques ineffective. To address this issue, in this work, we propose a novel cross-domain few-shot video action recognition method that leverages self-supervised learning and curriculum learning to balance the information from the source and target domains. To be particular, our method employs a masked autoencoder-based self-supervised training objective to learn from both source and target data in a self-supervised manner. Then a progressive curriculum balances learning the discriminative information from the source dataset with the generic information learned from the target domain. Initially, our curriculum utilizes supervised learning to learn class discriminative features from the source data. As the training progresses, we transition to learning target-domain-specific features. We propose a progressive curriculum to encourage the emergence of rich features in the target domain based on class discriminative supervised features in the source domain. We evaluate our method on several challenging benchmark datasets and demonstrate that our approach outperforms existing cross-domain few-shot learning techniques. Our code is available at https://github.com/Sarinda251/CDFSL-V
翻訳日:2023-09-18 17:37:20 公開日:2023-09-15
# CenTime: 生存分析におけるセンサのイベントコンディションモデリング

CenTime: Event-Conditional Modelling of Censoring in Survival Analysis ( http://arxiv.org/abs/2309.03851v2 )

ライセンス: Link先を確認
Ahmed H. Shahin, An Zhao, Alexander C. Whitehead, Daniel C. Alexander, Joseph Jacob, David Barber(参考訳) 生存分析は、死やがんの再発などの特定の事象が観測されるまでの時間を推定するための貴重なツールである。 これは、患者データに基づいて臨床的に重要な事象を予測する医療において特に有用である。 しかし、既存のアプローチには、生存可能性による患者のランク付けのみに焦点を当て、実際のイベント時間を見積もることを無視する者もいれば、イベント固有の時間順構造を無視して、問題を分類タスクとして扱う者もいる。 さらに、モデルの予測精度を向上させるためには、検閲済みサンプル(正確な事象時刻が不明なデータポイントをトレーニングする)の有効利用が不可欠である。 本稿では,イベント発生時刻を直接推定する生存分析の新しい手法であるCenTimeを紹介する。 本手法は,非検閲データが少ない場合でも堅牢なイベント条件検閲機構を特徴とする。 我々の手法は、無検閲のデータがなくても、イベントモデルパラメータの一貫性のある推定器を形成することを示す。 さらに、CenTimeはバッチサイズや非検閲サンプルの数に制限がなく、ディープラーニングモデルと簡単に統合できる。 我々は,Cox比例ハザードモデルやDeepHitなど,標準的な生存分析手法との比較を行った。 以上の結果から,CenTimeは同等の性能を維持しつつ,死までの時間を予測する上で,最先端のパフォーマンスを提供することが示された。 私たちの実装はhttps://github.com/ahmedhshahin/centimeで公開しています。

Survival analysis is a valuable tool for estimating the time until specific events, such as death or cancer recurrence, based on baseline observations. This is particularly useful in healthcare to prognostically predict clinically important events based on patient data. However, existing approaches often have limitations; some focus only on ranking patients by survivability, neglecting to estimate the actual event time, while others treat the problem as a classification task, ignoring the inherent time-ordered structure of the events. Furthermore, the effective utilization of censored samples - training data points where the exact event time is unknown - is essential for improving the predictive accuracy of the model. In this paper, we introduce CenTime, a novel approach to survival analysis that directly estimates the time to event. Our method features an innovative event-conditional censoring mechanism that performs robustly even when uncensored data is scarce. We demonstrate that our approach forms a consistent estimator for the event model parameters, even in the absence of uncensored data. Furthermore, CenTime is easily integrated with deep learning models with no restrictions on batch size or the number of uncensored samples. We compare our approach with standard survival analysis methods, including the Cox proportional-hazard model and DeepHit. Our results indicate that CenTime offers state-of-the-art performance in predicting time-to-death while maintaining comparable ranking performance. Our implementation is publicly available at https://github.com/ahmedhshahin/CenTime.
翻訳日:2023-09-18 17:36:54 公開日:2023-09-15
# 再帰分解による侵入応答のスケーラブル学習

Scalable Learning of Intrusion Responses through Recursive Decomposition ( http://arxiv.org/abs/2309.03292v2 )

ライセンス: Link先を確認
Kim Hammar and Rolf Stadler(参考訳) 本稿では,ITインフラにおける自動侵入応答について検討し,攻撃者と防御者の相互作用を部分的に観察された確率ゲームとして定式化する。 この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃と防衛戦略が共進化するアプローチに従う。 以前の研究で提案されたソリューションは、このアプローチが小さなインフラストラクチャで実現可能であることを証明しているが、インフラストラクチャサイズによる計算複雑性の指数関数的な増加のため、現実的なシナリオにはスケールしない。 本稿では,ゲームを並列に解けるサブゲームに再帰的に分解する手法を導入することで,この問題に対処する。 最適停止理論を適用することで,これらのサブゲームにおける最善の応答戦略が閾値構造を示し,効率的に計算できることを示す。 この分解ゲームを解決するために,確率近似を用いてナッシュ平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを導入する。 実際の侵入行動と応答行動の実行が可能なエミュレーション環境で学習戦略を評価する。 以上の結果から,dfspは平衡を近似し,現実的インフラ構成の最先端アルゴリズムを有意に上回ることがわかった。

We study automated intrusion response for an IT infrastructure and formulate the interaction between an attacker and a defender as a partially observed stochastic game. To solve the game we follow an approach where attack and defense strategies co-evolve through reinforcement learning and self-play toward an equilibrium. Solutions proposed in previous work prove the feasibility of this approach for small infrastructures but do not scale to realistic scenarios due to the exponential growth in computational complexity with the infrastructure size. We address this problem by introducing a method that recursively decomposes the game into subgames which can be solved in parallel. Applying optimal stopping theory we show that the best response strategies in these subgames exhibit threshold structures, which allows us to compute them efficiently. To solve the decomposed game we introduce an algorithm called Decompositional Fictitious Self-Play (DFSP), which learns Nash equilibria through stochastic approximation. We evaluate the learned strategies in an emulation environment where real intrusions and response actions can be executed. The results show that the learned strategies approximate an equilibrium and that DFSP significantly outperforms a state-of-the-art algorithm for a realistic infrastructure configuration.
翻訳日:2023-09-18 17:36:32 公開日:2023-09-15
# 誰でもリワードを保存する: カスタマイズされた人間の選好を学ぶ

Everyone Deserves A Reward: Learning Customized Human Preferences ( http://arxiv.org/abs/2309.03126v2 )

ライセンス: Link先を確認
Pengyu Cheng, Jiawen Xie, Ke Bai, Yong Dai, Nan Du(参考訳) リワードモデル(RM)は、対話品質を改善するために、大きな言語モデル(LLM)と人間の好みを合わせるために不可欠である。 しかし、現実の世界は多元的であり、異なる宗教や政治、文化などに関して、人間の嗜好が多様化する。 さらに、各個人は様々なトピックに対して独自の好みを持つことができる。 人間の好みの多様性を無視して、現在の人間のフィードバック調整方法は、カスタマイズまたはパーソナライズされたアプリケーションシナリオに対する満足度よりも低い一般的な報酬モデルのみを考慮する。 カスタマイズされた嗜好学習を探索するために、各クエリに対する4つの実用的なドメインからの優先応答を含むドメイン固有選好(DSP)データセットを収集する。 さらに,データ効率の観点から3段階のRM学習手法を提案し,その効果を一般嗜好データセットとDSPセットの両方で実証的に検証する。 さらに,3つの学習段階において,複数のトレーニングとデータ戦略をテストする。 我々は,カスタマイズされたrms,特に一般選好エンリッチメント,およびカスタマイズされた選好模倣学習を訓練しながら,一般選好能力を維持するためのいくつかの方法を見出した。 DSPデータセットとコードはhttps://github.com/Linear95/DSPで公開されている。

Reward models (RMs) are essential for aligning large language models (LLMs) with human preferences to improve interaction quality. However, the real world is pluralistic, which leads to diversified human preferences with respect to different religions, politics, cultures, etc. Moreover, each individual can have their unique preferences on various topics. Neglecting the diversity of human preferences, current human feedback aligning methods only consider a general reward model, which is below satisfaction for customized or personalized application scenarios. To explore customized preference learning, we collect a domain-specific preference (DSP) dataset, which includes preferred responses for each given query from four practical domains. Besides, from the perspective of data efficiency, we propose a three-stage customized RM learning scheme, then empirically verify its effectiveness on both general preference datasets and our DSP set. Furthermore, we test multiple training and data strategies on the three learning stages. We find several ways to better preserve the general preferring ability while training the customized RMs, especially general preference enrichment, and customized preference imitation learning. The DSP dataset and code are available at https://github.com/Linear95/DSP.
翻訳日:2023-09-18 17:36:12 公開日:2023-09-15
# HAE-RAE Bench: 言語モデルにおける韓国語知識の評価

HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models ( http://arxiv.org/abs/2309.02706v3 )

ライセンス: Link先を確認
Guijin Son, Hanwool Lee, Suwan Kim, Huiseo Kim, Jaecheol Lee, Je Won Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim(参考訳) 大規模コーパスに事前学習された大規模言語モデル(llm)は、幅広いタスクにわたって顕著な能力を発揮するが、非英語言語への注目はこの分野で限定されている。 このギャップに対処し,韓国語・文化における言語モデルの習熟度を評価するために,語彙,歴史,一般知識を含む6つのタスクをカバーするhae-raeベンチを提案する。 本ベンチマークでは, GPT-3.5のような包括的, 普遍的モデルに対して, LLSM(Large Language-Specific Models)を用いることの潜在的な利点を強調した。 本研究は,GPT-3.5の約13倍のモデルで,言語固有の知識検索において,同様の性能を示すことを示す。 この観察は、プロレベルの言語特化モデルを訓練するための均質コーパスの重要性を強調している。 それとは対照的に、構造化された回答を生成するよう指示されたとき、これらの小さなLMのパープレッション性能の低下も観察する。

Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable capabilities across a wide range of tasks, however, the attention given to non-English languages has been limited in this field of research. To address this gap and assess the proficiency of language models in the Korean language and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary, history, and general knowledge. Our evaluation of language models on this benchmark highlights the potential advantages of employing Large Language-Specific Models(LLSMs) over a comprehensive, universal model like GPT-3.5. Remarkably, our study reveals that models approximately 13 times smaller than GPT-3.5 can exhibit similar performance levels in terms of language-specific knowledge retrieval. This observation underscores the importance of homogeneous corpora for training professional-level language-specific models. On the contrary, we also observe a perplexing performance dip in these smaller LMs when they are tasked to generate structured answers.
翻訳日:2023-09-18 17:35:51 公開日:2023-09-15
# PROMISE:スケーラブルな曲率推定を組み込んだ事前条件付き確率最適化手法

PROMISE: Preconditioned Stochastic Optimization Methods by Incorporating Scalable Curvature Estimates ( http://arxiv.org/abs/2309.02014v2 )

ライセンス: Link先を確認
Zachary Frangella, Pratik Rathore, Shipu Zhao, and Madeleine Udell(参考訳) 本稿では,機械学習における大規模凸最適化問題を解くための,スケッチに基づく事前条件付き確率勾配アルゴリズムである PROMISE ($\textbf{Pr}$econditioned Stochastic $\textbf{O}$ptimization $\textbf{M}$ethods by $\textbf{I}$ncorporating $\textbf{S}$calable Curvature $\textbf{E}$stimates を紹介する。 PROMISEには、SVRG、SAGA、Katyushaのプレコンディション版が含まれており、それぞれのアルゴリズムには強力な理論解析と効果的なデフォルトのハイパーパラメータ値がある。 対照的に、従来の確率的勾配法では、機械学習においてユビキタスな現象である悪条件の存在下では、注意深いハイパーパラメータチューニングが必要となる。 実験では,デフォルトのハイパーパラメータ値を用いて,511ドルのリッジテストベッドとベンチマーク機械学習リポジトリから組み立てたロジスティック回帰問題に対して,一般的なチューン確率勾配最適化器を上回ったり、一致させたりすることで,提案アルゴリズムの優位性を検証する。 理論的には, プリコンディショナーが不定期に更新された場合でも, 提案手法の線形収束を確立するために, 二次正則性の概念を導入する。 線形収束の速度は2次正規度比によって決定されるが、これは理論上も実際上も条件数よりも収束率に厳密な制約を与え、提案手法の高速大域的線形収束を説明する。

This paper introduces PROMISE ($\textbf{Pr}$econditioned Stochastic $\textbf{O}$ptimization $\textbf{M}$ethods by $\textbf{I}$ncorporating $\textbf{S}$calable Curvature $\textbf{E}$stimates), a suite of sketching-based preconditioned stochastic gradient algorithms for solving large-scale convex optimization problems arising in machine learning. PROMISE includes preconditioned versions of SVRG, SAGA, and Katyusha; each algorithm comes with a strong theoretical analysis and effective default hyperparameter values. In contrast, traditional stochastic gradient methods require careful hyperparameter tuning to succeed, and degrade in the presence of ill-conditioning, a ubiquitous phenomenon in machine learning. Empirically, we verify the superiority of the proposed algorithms by showing that, using default hyperparameter values, they outperform or match popular tuned stochastic gradient optimizers on a test bed of $51$ ridge and logistic regression problems assembled from benchmark machine learning repositories. On the theoretical side, this paper introduces the notion of quadratic regularity in order to establish linear convergence of all proposed methods even when the preconditioner is updated infrequently. The speed of linear convergence is determined by the quadratic regularity ratio, which often provides a tighter bound on the convergence rate compared to the condition number, both in theory and in practice, and explains the fast global linear convergence of the proposed methods.
翻訳日:2023-09-18 17:35:36 公開日:2023-09-15
# スパースセルコンプレックスによるグラフ上のエッジフローの表現

Representing Edge Flows on Graphs via Sparse Cell Complexes ( http://arxiv.org/abs/2309.01632v2 )

ライセンス: Link先を確認
Josef Hoppe and Michael T. Schaub(参考訳) 多くの機械学習や信号処理タスクにおいて、可観測データのスパースで解釈可能な表現が不可欠である。 グラフの辺に沿った流れを表すデータに対して、そのような表現を得る直感的に解釈可能な方法は、グラフ構造をsimplicial complexへ持ち上げることである: 関連するホッジ・ラプラシアンの固有ベクトルはそれぞれ、対応するsimplicial complexの入射行列を導出する。 本稿では, セルコンプレックスへのこのアプローチの一般化とセル推論最適化問題, すなわち, セルの集合によって観測されたグラフを増大させる問題, すなわち, 関連するホッジラプラシアンの固有ベクトルが, グラフ上の観測されたエッジフローのスパースで解釈可能な表現を提供する。 この問題はNPハードであり,その解に対する効率的な近似アルゴリズムを導入する。 実世界のデータと合成データの実験により、我々のアルゴリズムは計算効率を保ちながら最先端の手法より優れていることを示した。

Obtaining sparse, interpretable representations of observable data is crucial in many machine learning and signal processing tasks. For data representing flows along the edges of a graph, an intuitively interpretable way to obtain such representations is to lift the graph structure to a simplicial complex: The eigenvectors of the associated Hodge-Laplacian, respectively the incidence matrices of the corresponding simplicial complex then induce a Hodge decomposition, which can be used to represent the observed data in terms of gradient, curl, and harmonic flows. In this paper, we generalize this approach to cellular complexes and introduce the cell inference optimization problem, i.e., the problem of augmenting the observed graph by a set of cells, such that the eigenvectors of the associated Hodge Laplacian provide a sparse, interpretable representation of the observed edge flows on the graph. We show that this problem is NP-hard and introduce an efficient approximation algorithm for its solution. Experiments on real-world and synthetic data demonstrate that our algorithm outperforms current state-of-the-art methods while being computationally efficient.
翻訳日:2023-09-18 17:34:55 公開日:2023-09-15
# Python RTNIの第2版による各種ランダムテンソル上のテンソルネットワークのシンボリック統合

Symbolically integrating tensor networks over various random tensors by the second version of Python RTNI ( http://arxiv.org/abs/2309.01167v3 )

ライセンス: Link先を確認
Motohisa Fukuda(参考訳) 我々は、Haar分散ユニタリ行列上のテンソルネットワークを象徴的に統合するRTNIのPythonバージョンをアップグレードしている。 現在、PyRTNI2 はハール分布直交行列と実かつ複素正規ガウステンソルも扱うことができる。 さらに、テンソルネットワークをテンソルネットワークの形式でエクスポートすることで、低次元でも具体的なテンソルでさらなる計算を行うことができる。 チュートリアルノートブックはgithubにある。 https://github.com/motohisafukuda/pyrtni2。 本稿では,プログラムの背後にある数学を説明し,それを用いてどのようなテンソルネットワーク計算ができるかを示す。 前者については、上述のランダム行列とテンソルの要素的モーメント計算をテンソルネットワークダイアグラムで解釈し、このビューは自然であり、テンソルネットワークダイアグラム内のデルタ関数をテンソルネットワークダイアグラムのエッジに関連付けていると主張する。

We are upgrading the Python-version of RTNI, which symbolically integrates tensor networks over the Haar-distributed unitary matrices. Now, PyRTNI2 can treat the Haar-distributed orthogonal matrices and the real and complex normal Gaussian tensors as well. Moreover, it can export tensor networks in the format of TensorNetwork so that one can make further calculations with concrete tensors, even for low dimensions, where the Weingarten functions differ from the ones for high dimensions. The tutorial notebooks are found at GitHub: https://github.com/MotohisaFukuda/PyRTNI2. In this paper, we explain maths behind the program and show what kind of tensor network calculations can be made with it. For the former, we interpret the element-wise moment calculus of the above random matrices and tensors in terms of tensor network diagrams, and argue that the view is natural, relating delta functions in the calculus to edges in tensor network diagrams.
翻訳日:2023-09-18 17:34:32 公開日:2023-09-15
# コンプレックスシフト作用素の周波数収束(拡張版)

Frequency Convergence of Complexon Shift Operators (Extended Version) ( http://arxiv.org/abs/2309.07169v2 )

ライセンス: Link先を確認
Purui Zhang, Xingchao Jian, Feng Ji, Wee Peng Tay, Bihan Wen(参考訳) トポロジカル信号処理(TSP)は、単純錯体を用いて頂点や辺よりも高次構造をモデル化する。 本稿では, 一般化された高次グラフトンを用いたTSPの転送可能性について検討する。 複素数列の概念を単純複素列の極限として覚えている。 グラフトンシフト作用素の積分作用素形式に着想を得て、複素数から得られるすべての可能な次元の成分に従って境界複素数および複素数シフト作用素(CSO)を構築する。 我々はCSOの固有値と固有ベクトルを調査し、それらを重み付き隣接行列の新しい族に関連付ける。 simplicial complex sequence が複素数に収束すると、対応する CSO の固有値は極限複素数に収束する。 この結論は数値実験によってさらに検証される。 これらの結果は, グラフ信号処理フレームワークを一般化した, 大規模単純複素数あるいは単純複素数列上での伝達可能性の学習を示唆している。

Topological Signal Processing (TSP) utilizes simplicial complexes to model structures with higher order than vertices and edges. In this paper, we study the transferability of TSP via a generalized higher-order version of graphon, known as complexon. We recall the notion of a complexon as the limit of a simplicial complex sequence. Inspired by the integral operator form of graphon shift operators, we construct a marginal complexon and complexon shift operator (CSO) according to components of all possible dimensions from the complexon. We investigate the CSO's eigenvalues and eigenvectors, and relate them to a new family of weighted adjacency matrices. We prove that when a simplicial complex sequence converges to a complexon, the eigenvalues of the corresponding CSOs converge to that of the limit complexon. This conclusion is further verified by a numerical experiment. These results hint at learning transferability on large simplicial complexes or simplicial complex sequences, which generalize the graphon signal processing framework.
翻訳日:2023-09-18 17:27:53 公開日:2023-09-15
# LQRにおける勾配型MAMLの収束性

Convergence of Gradient-based MAML in LQR ( http://arxiv.org/abs/2309.06588v2 )

ライセンス: Link先を確認
Negin Musavi and Geir E. Dullerud(参考訳) 本研究の目的は,線形系2次最適制御(lqr)に適用されるモデル非依存メタラーニング(maml)の局所収束特性を検討することである。 MAMLとそのバリエーションは、回帰、分類、強化学習といった分野における過去の学習知識を活用することで、新しいタスクに迅速に適応するための一般的な技術となっている。 しかし、その理論的保証は非凸性と構造のため未知のままであり、動的システム設定における安定性の確保がさらに困難である。 本研究は, 動的システムの安定性を維持しつつ, 局所収束保証を提供するLQR設定におけるMAMLの探索に焦点を当てた。 また,LQRタスクにおけるMAMLの収束特性を示すため,単純な数値計算結果も提示する。

The main objective of this research paper is to investigate the local convergence characteristics of Model-agnostic Meta-learning (MAML) when applied to linear system quadratic optimal control (LQR). MAML and its variations have become popular techniques for quickly adapting to new tasks by leveraging previous learning knowledge in areas like regression, classification, and reinforcement learning. However, its theoretical guarantees remain unknown due to non-convexity and its structure, making it even more challenging to ensure stability in the dynamic system setting. This study focuses on exploring MAML in the LQR setting, providing its local convergence guarantees while maintaining the stability of the dynamical system. The paper also presents simple numerical results to demonstrate the convergence properties of MAML in LQR tasks.
翻訳日:2023-09-18 17:27:36 公開日:2023-09-15
# 短時間リモートセンシング画像セマンティクスセグメンテーションのための自己相関と相互相関学習

Self-Correlation and Cross-Correlation Learning for Few-Shot Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2309.05840v2 )

ライセンス: Link先を確認
Linhan Wang, Shuo Lei, Jianfeng He, Shengkun Wang, Min Zhang, Chang-Tien Lu(参考訳) リモートセンシング画像セマンティクスセグメンテーションは、リモートセンシング画像解釈の重要な問題である。 目覚ましい進歩を遂げたものの、既存のディープニューラルネットワーク手法は大規模なトレーニングデータに依存している。 少数のリモートセンシング セマンティクスセグメンテーションは、ターゲットクラスの注釈付きサポートイメージのみを使用して、クエリ画像からターゲットオブジェクトをセグメンテーションすることを目的としている。 既存の少数ショット学習手法の多くは、主に支援画像から情報を取り出すことに集中しており、地理的物体の外観や規模に大きなばらつきを効果的に解決できない。 これらの課題に対処するために,数発のリモートセンシング画像セマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。 本モデルは,セグメンテーション予測を行うために,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進する。 問合せ画像との自己相関を更に探求するため,画像の基本的視覚情報に基づいて,クラス非依存のセグメンテーションマスクを作成するための古典スペクトル法を提案する。 2つのリモートセンシング画像データセットに関する広範囲な実験により、短時間リモートセンシング画像セマンティクスセグメンテーションにおけるモデルの有効性と優位性が証明された。 コードとモデルはhttps://github.com/linhanwang/sccnetでアクセスできる。

Remote sensing image semantic segmentation is an important problem for remote sensing image interpretation. Although remarkable progress has been achieved, existing deep neural network methods suffer from the reliance on massive training data. Few-shot remote sensing semantic segmentation aims at learning to segment target objects from a query image using only a few annotated support images of the target class. Most existing few-shot learning methods stem primarily from their sole focus on extracting information from support images, thereby failing to effectively address the large variance in appearance and scales of geographic objects. To tackle these challenges, we propose a Self-Correlation and Cross-Correlation Learning Network for the few-shot remote sensing image semantic segmentation. Our model enhances the generalization by considering both self-correlation and cross-correlation between support and query images to make segmentation predictions. To further explore the self-correlation with the query image, we propose to adopt a classical spectral method to produce a class-agnostic segmentation mask based on the basic visual information of the image. Extensive experiments on two remote sensing image datasets demonstrate the effectiveness and superiority of our model in few-shot remote sensing image semantic segmentation. Code and models will be accessed at https://github.com/linhanwang/SCCNet.
翻訳日:2023-09-18 17:26:59 公開日:2023-09-15
# ビザンチンMLにおける一様アグリゲーション

Practical Homomorphic Aggregation for Byzantine ML ( http://arxiv.org/abs/2309.05395v2 )

ライセンス: Link先を確認
Antoine Choffrut, Rachid Guerraoui, Rafael Pinot, Renaud Sirdey, John Stephan, and Martin Zuber(参考訳) 大規模なデータ可用性のため、機械学習(ML)アルゴリズムは分散トポロジにデプロイされており、各ノードは中央サーバとモデル関連情報(例えば勾配)を交換することで、個々のデータ上でMLモデルをトレーニングする。 しかし、分散学習スキームは2つの脅威に対して特に脆弱である。 まず、Byzantineノードは誤った情報をサーバに送信することで学習をシングルハンドで破壊することができる。 このような振る舞いを緩和するための標準的なアプローチは、サーバで非線形ロバストアグリゲーションメソッドを使用することである。 第二に、サーバはノードのプライバシーを侵害することができる。 最近の攻撃は、(暗号化されていない)グラデーションを交換することで、好奇心の強いサーバがノードのデータの総量を回復できることを示している。 金の標準セキュリティプリミティブである準同型暗号(he)の使用は、非ビザンチンシナリオにおける分散学習に対するプライバシー保護ソリューションとして広く研究されてきた。 しかし、特に高次元MLモデルに対するHEの計算要求が大きいため、非線形ロバストアグリゲータに対して純粋に同型演算子を設計する試みはまだ行われていない。 本稿では,最初の完全準同型でビザンチンロバストな分散学習アルゴリズムであるsableを提案する。 SABLEは基本的に,バッチ処理に適したBGVに対して,ロバストなアグリゲータを実装可能な,新しい平文符号化方式に依存している。 さらに、この符号化方式は、セキュリティマージンが大きく、暗号文サイズが小さい最先端の同型ソートを高速化する。 画像分類タスクに関する広範囲な実験を行い,非プライベートなml性能に適合しながら,実用的な実行時間を実現することを示す。

Due to the large-scale availability of data, machine learning (ML) algorithms are being deployed in distributed topologies, where different nodes collaborate to train ML models over their individual data by exchanging model-related information (e.g., gradients) with a central server. However, distributed learning schemes are notably vulnerable to two threats. First, Byzantine nodes can single-handedly corrupt the learning by sending incorrect information to the server, e.g., erroneous gradients. The standard approach to mitigate such behavior is to use a non-linear robust aggregation method at the server. Second, the server can violate the privacy of the nodes. Recent attacks have shown that exchanging (unencrypted) gradients enables a curious server to recover the totality of the nodes' data. The use of homomorphic encryption (HE), a gold standard security primitive, has extensively been studied as a privacy-preserving solution to distributed learning in non-Byzantine scenarios. However, due to HE's large computational demand especially for high-dimensional ML models, there has not yet been any attempt to design purely homomorphic operators for non-linear robust aggregators. In this work, we present SABLE, the first completely homomorphic and Byzantine robust distributed learning algorithm. SABLE essentially relies on a novel plaintext encoding method that enables us to implement the robust aggregator over batching-friendly BGV. Moreover, this encoding scheme also accelerates state-of-the-art homomorphic sorting with larger security margins and smaller ciphertext size. We perform extensive experiments on image classification tasks and show that our algorithm achieves practical execution times while matching the ML performance of its non-private counterpart.
翻訳日:2023-09-18 17:26:21 公開日:2023-09-15
# decur:マルチモーダル自己スーパービジョンのための共通表現と一意表現の分離

DeCUR: decoupling common & unique representations for multimodal self-supervision ( http://arxiv.org/abs/2309.05300v2 )

ライセンス: Link先を確認
Yi Wang, Conrad M Albrecht, Nassim Ait Ali Braham, Chenying Liu, Zhitong Xiong, Xiao Xiang Zhu(参考訳) マルチセンサーデータの可用性が高まると、マルチモーダル自己教師付き学習への関心が高まる。 しかしながら、既存のアプローチのほとんどはモダリティ間の共通表現のみを学習し、モダリティ内トレーニングやモダリティ・ユニティ表現は無視している。 マルチモーダルな自己教師型学習のための簡易かつ効果的な方法として,Decoupling Common and Unique Representations (DeCUR)を提案する。 モーダル内埋め込みとモーダル内埋め込みを区別することにより、DeCURは異なるモーダル間で補完情報を統合するように訓練される。 我々はDECURを3つの一般的なマルチモーダルシナリオ(レーダー光学、RGB標高、RGB深度)で評価し、シーン分類とセマンティックセグメンテーションにおける一貫した利点を示す。 特に、トレーニング済みのバックボーンをハイパーパラメータチューニングなしで、最先端の教師付きマルチモーダルメソッドに転送することで、簡単に改善できる。 さらに,マルチモーダルアプローチにおける共通点と特異点の解釈について,包括的説明可能性分析を行った。 コードは \url{https://github.com/zhu-xlab/decur} で入手できる。

The increasing availability of multi-sensor data sparks interest in multimodal self-supervised learning. However, most existing approaches learn only common representations across modalities while ignoring intra-modal training and modality-unique representations. We propose Decoupling Common and Unique Representations (DeCUR), a simple yet effective method for multimodal self-supervised learning. By distinguishing inter- and intra-modal embeddings, DeCUR is trained to integrate complementary information across different modalities. We evaluate DeCUR in three common multimodal scenarios (radar-optical, RGB-elevation, and RGB-depth), and demonstrate its consistent benefits on scene classification and semantic segmentation downstream tasks. Notably, we get straightforward improvements by transferring our pretrained backbones to state-of-the-art supervised multimodal methods without any hyperparameter tuning. Furthermore, we conduct a comprehensive explainability analysis to shed light on the interpretation of common and unique features in our multimodal approach. Codes are available at \url{https://github.com/zhu-xlab/DeCUR}.
翻訳日:2023-09-18 17:25:51 公開日:2023-09-15
# 古典量子ハイブリッドモデル

Classical-Quantum Hybrid Models ( http://arxiv.org/abs/2309.05014v2 )

ライセンス: Link先を確認
Daniel R. Terno(参考訳) ハイブリッド古典量子モデル(Hybrid classical-quantum model)は、ある種の自由度が古典的に扱われるシステムの時間進化を研究する計算スキームである。 まず,これらのモデルに対するモチベーションを提示し,満たさなければならない要件を概説し,その開発に説明を与える。 次に, 様々な非相対論的スキームとその関連する制約について, 特に可逆力学に着目して検討する。

Hybrid classical-quantum models are computational schemes that investigate the time evolution of systems, where some degrees of freedom are treated classically, while others are described quantum-mechanically. First, we present the motivation for such models, outline the requirements they must satisfy, and provide explanations for their development. Then we review various popular non-relativistic schemes and their associated limitations, with a particular emphasis on reversible dynamics.
翻訳日:2023-09-18 17:25:30 公開日:2023-09-15
# 周波数対応型自己監督型長期学習

Frequency-Aware Self-Supervised Long-Tailed Learning ( http://arxiv.org/abs/2309.04723v2 )

ライセンス: Link先を確認
Ci-Siang Lin, Min-Hung Chen, Yu-Chiang Frank Wang(参考訳) 現実世界から収集されたデータは、典型的には長い尾の分布を示し、希少なものは限られた数のサンプルしか持たない。 このようなデータ不均衡に対処するために、既存の教師付き学習アプローチが提案されているが、ラベル管理の要件は、ラベルアノテーションが利用できない現実のシナリオに適用性を制限する。 本稿では,クラスラベルへのアクセスや関連するクラス周波数を使わずに,FASSL( Frequency-Aware Self-Supervised Learning)を提案する。 FASSLの目的は、下流の分類タスクのための差別的な特徴表現を作ることである。 FASSLでは、まず周波数対応のプロトタイプを学習し、関連する長い尾の分布を反映する。 特にレアクラスのサンプルに着目し,画像データと派生したプロトタイプの関係を自己教師付き学習方式によりさらに活用する。 学習手法の有効性を定量的・定性的に検証したロングテール画像データセット実験を行った。

Data collected from the real world typically exhibit long-tailed distributions, where frequent classes contain abundant data while rare ones have only a limited number of samples. While existing supervised learning approaches have been proposed to tackle such data imbalance, the requirement of label supervision would limit their applicability to real-world scenarios in which label annotation might not be available. Without the access to class labels nor the associated class frequencies, we propose Frequency-Aware Self-Supervised Learning (FASSL) in this paper. Targeting at learning from unlabeled data with inherent long-tailed distributions, the goal of FASSL is to produce discriminative feature representations for downstream classification tasks. In FASSL, we first learn frequency-aware prototypes, reflecting the associated long-tailed distribution. Particularly focusing on rare-class samples, the relationships between image data and the derived prototypes are further exploited with the introduced self-supervised learning scheme. Experiments on long-tailed image datasets quantitatively and qualitatively verify the effectiveness of our learning scheme.
翻訳日:2023-09-18 17:25:18 公開日:2023-09-15
# プロセスマイニング技術を用いた人工装具におけるデータ駆動ゴール認識

Data-Driven Goal Recognition in Transhumeral Prostheses Using Process Mining Techniques ( http://arxiv.org/abs/2309.08106v1 )

ライセンス: Link先を確認
Zihang Su, Tianshi Yu, Nir Lipovetzky, Alireza Mohammadi, Denny Oetomo, Artem Polyvyanyy, Sebastian Sardina, Ying Tan, Nick van Beest(参考訳) 経湿式人工装具は、手を含む肩の下の欠損した解剖学的セグメントを修復する。 アクティブ義肢は、患者対象のポーズや目標を認識し、人工肢を積極的に動かすために、リアルタイムで連続的なセンサーデータを利用する。 これまでの研究では、静止したポーズで収集されたデータは、時間ステップを考慮せずに、目標の判別にどの程度役立つかを調査している。 本稿では,表面筋電図電極と運動センサの時系列データを用いて患者の目標を逐次認識することに焦点を当てた。 我々のアプローチでは、データを離散的なイベントに変換し、既存のプロセスマイニングベースのゴール認識システムを訓練する。 提案手法は最先端の機械学習技術よりも精度とリコールが著しく向上し,誤動作に対する信頼性が低く,義肢のスムーズな動作を近似する上で有益である。

A transhumeral prosthesis restores missing anatomical segments below the shoulder, including the hand. Active prostheses utilize real-valued, continuous sensor data to recognize patient target poses, or goals, and proactively move the artificial limb. Previous studies have examined how well the data collected in stationary poses, without considering the time steps, can help discriminate the goals. In this case study paper, we focus on using time series data from surface electromyography electrodes and kinematic sensors to sequentially recognize patients' goals. Our approach involves transforming the data into discrete events and training an existing process mining-based goal recognition system. Results from data collected in a virtual reality setting with ten subjects demonstrate the effectiveness of our proposed goal recognition approach, which achieves significantly better precision and recall than the state-of-the-art machine learning techniques and is less confident when wrong, which is beneficial when approximating smoother movements of prostheses.
翻訳日:2023-09-18 16:26:33 公開日:2023-09-15
# フェルミオン位置空間 Schr\\odinger 方程式を用いた断熱量子計算

Adiabatic Quantum Computation with the Fermionic Position Space Schr\"odinger Equation ( http://arxiv.org/abs/2309.08101v1 )

ライセンス: Link先を確認
Kenneth S. McElvain(参考訳) フェルミオンシュル=オディンガー方程式をスピン系ハミルトニアンとして効率的なエンコーディングは、長期的な問題である。 局所ポテンシャルを持つ有限体積周期格子上のフェルミオン的位置空間 schr\"odinger 方程式の符号化について述べる。 建設の難しい部分は運動エネルギー演算子の実装であり、これは本質的にラプラシアンである。 格子上の有限差分実装は、フェルミオン交換対称性が複雑である隣接する格子サイトからの寄与を結合する。 ここで開発された2つの独立して有用な技術は、演算子フィルタリングと絡み合わせガジェットである。 作用素フィルタリングは、ヒルベルト空間の部分空間に作用する単純作用素が所望の相互作用を持つときに有用である。 部分空間の補空間の占有抑制は、演算子の望まないコントリビューションをフィルタリングする。 エンタングルメントガジェットは同じ情報を2セットのキュービットで異なる方法でエンコードする。 次に、量子ビットに作用する演算子の最も効率的な符号化を独立に選択することができる。 ここで述べられているラプラシアンの構成は、有界パウリ重みの項で$\mathcal{O}\left(An 2^D\right)$コストを持ち、$A$は同一スピンレスフェルミオンの数、$N=2^n$は各方向の格子点の数、$D$は次元の数である。 有限体積コンテキストは基底状態と第1励起状態の間のギャップを保護し、ボックスサイズに多項式時間複雑性をもたらす。

The efficient encoding of the fermionic Schr\"odinger equation as a spin system Hamiltonian is a long-term problem. I describe an encoding for the fermionic position space Schr\"odinger equation on a finite-volume periodic lattice with a local potential. The challenging part of the construction is the implementation of the kinetic energy operator, which is essentially the Laplacian. The finite difference implementation on the lattice combines contributions from neighboring lattice sites, which is complicated by fermionic exchange symmetry. Two independently useful techniques developed here are operator filtering and entanglement gadgets. Operator filtering is useful when a simple operator acting on a subspace of the full Hilbert space has a desired set of interactions. Occupation suppression of the complement of the subspace then filters away unwanted contributions of the operator. Entanglement gadgets encode the same information differently in two sets of qubits. We may then independently choose the most efficient encoding for operators acting on the qubits. The construction for the Laplacian described here has $\mathcal{O}\left(An 2^D\right)$ cost in bounded Pauli weight terms where $A$ is the number of identical spinless fermions, $N=2^n$ is the number of lattice points in each direction, and $D$ is the number of dimensions. The finite volume context protects the gap between the ground state and the first excited state, yielding polynomial time complexity with the box size.
翻訳日:2023-09-18 16:26:18 公開日:2023-09-15
# エンティティ近隣情報と記述情報のための共同表現学習法に関する研究

Research on Joint Representation Learning Methods for Entity Neighborhood Information and Description Information ( http://arxiv.org/abs/2309.08100v1 )

ライセンス: Link先を確認
Le Xiao and Xin Shan and Yuhua Wang and Miaolei Deng(参考訳) プログラミングデザインコースの知識グラフに組込み性能が劣る問題に対処するために,エンティティ・エリア・インフォメーションと記述情報を組み合わせた共同再帰的学習モデルを提案する。 まず、構造情報を充実させるために関係性を組み込んだ、エンティティニーボーリングノードの特徴を得るために、グラフアテンションネットワークを用いる。 次に、BERT-WWMモデルとアテンション機構を併用してエンティティ記述情報の表現を得る。 最後に、エンティティ近傍情報のベクトル表現と記述情報の組合せにより、最終的なエンティティベクトル表現を得る。 実験の結果,提案モデルがプログラミング設計コースの知識グラフデータセットにおいて,他のベースラインモデルよりも優れた性能が得られることがわかった。

To address the issue of poor embedding performance in the knowledge graph of a programming design course, a joint represen-tation learning model that combines entity neighborhood infor-mation and description information is proposed. Firstly, a graph at-tention network is employed to obtain the features of entity neigh-boring nodes, incorporating relationship features to enrich the structural information. Next, the BERT-WWM model is utilized in conjunction with attention mechanisms to obtain the representation of entity description information. Finally, the final entity vector representation is obtained by combining the vector representations of entity neighborhood information and description information. Experimental results demonstrate that the proposed model achieves favorable performance on the knowledge graph dataset of the pro-gramming design course, outperforming other baseline models.
翻訳日:2023-09-18 16:25:52 公開日:2023-09-15
# 一般化可能なディープフェイク検出のための普遍音声表現の時間ダイナミクスの特徴付け

Characterizing the temporal dynamics of universal speech representations for generalizable deepfake detection ( http://arxiv.org/abs/2309.08099v1 )

ライセンス: Link先を確認
Yi Zhu, Saurabh Powar, and Tiago H. Falk(参考訳) 既存のディープフェイク音声検出システムは、見えない攻撃(つまり訓練中に見ない生成アルゴリズムによって生成されたサンプル)の一般化を欠いている。 近年,この問題に対処するための普遍的な音声表現の活用を探求し,刺激的な結果を得た。 しかし、これらの研究は下流の分類器の革新に焦点を合わせ、表現自体に手を加えないままにしている。 本研究では,これらの表現の長期的時間ダイナミクスを特徴付けることは一般化可能性に不可欠であり,表現ダイナミクスを評価する新しい手法を提案する。 実際、異なる生成モデルが提案手法で類似表現ダイナミクスパターンを生成することを示す。 2019年と2021年のasvspoofデータセットにおける実験は、トレーニング中に検出されない方法からディープフェイクを検出するための提案手法の利点を検証する。

Existing deepfake speech detection systems lack generalizability to unseen attacks (i.e., samples generated by generative algorithms not seen during training). Recent studies have explored the use of universal speech representations to tackle this issue and have obtained inspiring results. These works, however, have focused on innovating downstream classifiers while leaving the representation itself untouched. In this study, we argue that characterizing the long-term temporal dynamics of these representations is crucial for generalizability and propose a new method to assess representation dynamics. Indeed, we show that different generative models generate similar representation dynamics patterns with our proposed method. Experiments on the ASVspoof 2019 and 2021 datasets validate the benefits of the proposed method to detect deepfakes from methods unseen during training, significantly improving on several benchmark methods.
翻訳日:2023-09-18 16:25:38 公開日:2023-09-15
# 詳細強化拡散モデル:数ショット条件下での微粒化視覚カテゴリー化

Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions ( http://arxiv.org/abs/2309.08097v1 )

ライセンス: Link先を確認
Tianxu Wu and Shuo Ye and Shuhuang Chen and Qinmu Peng and Xinge You(参考訳) きめ細かい視覚分類の課題は、異なるサブクラス間の微妙な違いを調べ、正確な識別を実現する方法にある。 これまでの研究は、目的を達成するために大規模な注釈付きデータと事前訓練された深層モデルに依存してきた。 しかし、限られた量のサンプルしか利用できない場合、同様の手法は効果が低下する可能性がある。 拡散モデルはデータ生成において顕著な多様性のため、データ拡張において広く採用されている。 しかし,細粒度画像の精細度が高いため,既存の手法を直接利用するのが困難である。 そこで本研究では,DSR (Driminative semantic recombination) と空間知識参照 (SKR) の2つの重要な要素を含む,大規模モデルの豊富な知識を微粒化に活用した詳細強化拡散モデル~(DRDM)を提案する。 具体的には、ラベルから暗黙的な類似関係を抽出し、ラベルとインスタンス間のセマンティックマッピングを再構築し、異なるサブクラス間の微妙な差異の識別をより良くするように設計されている。 さらに,異なるデータセットの分布を特徴空間の参照として組み込んだSKRモジュールについても紹介する。 これにより、SKRはFGVCタスクのサブクラスの高次元分布を集約し、決定境界を拡大することができる。 これら2つの重要なコンポーネントを通じて,データ不足の問題に対処するために,大規模モデルからの知識を効果的に活用し,きめ細かい視覚認識タスクの性能を向上させる。 DRDMによる一貫した性能向上の実証実験を行った。

The challenge in fine-grained visual categorization lies in how to explore the subtle differences between different subclasses and achieve accurate discrimination. Previous research has relied on large-scale annotated data and pre-trained deep models to achieve the objective. However, when only a limited amount of samples is available, similar methods may become less effective. Diffusion models have been widely adopted in data augmentation due to their outstanding diversity in data generation. However, the high level of detail required for fine-grained images makes it challenging for existing methods to be directly employed. To address this issue, we propose a novel approach termed the detail reinforcement diffusion model~(DRDM), which leverages the rich knowledge of large models for fine-grained data augmentation and comprises two key components including discriminative semantic recombination (DSR) and spatial knowledge reference~(SKR). Specifically, DSR is designed to extract implicit similarity relationships from the labels and reconstruct the semantic mapping between labels and instances, which enables better discrimination of subtle differences between different subclasses. Furthermore, we introduce the SKR module, which incorporates the distributions of different datasets as references in the feature space. This allows the SKR to aggregate the high-dimensional distribution of subclass features in few-shot FGVC tasks, thus expanding the decision boundary. Through these two critical components, we effectively utilize the knowledge from large models to address the issue of data scarcity, resulting in improved performance for fine-grained visual recognition tasks. Extensive experiments demonstrate the consistent performance gain offered by our DRDM.
翻訳日:2023-09-18 16:25:23 公開日:2023-09-15
# 超音波アクティブセンシングによる人間の行動認識

hear-your-action: human action recognition by ultrasound active sensing ( http://arxiv.org/abs/2309.08087v1 )

ライセンス: Link先を確認
Risako Tanigawa, Yasunori Ishii(参考訳) アクション認識は多くの産業用途において重要な技術である。 画像などの視覚情報を利用する方法は非常に人気がある。 しかし、プライバシー問題は、ユーザアクションを認識するのに不要な、目に見える顔や背景などのプライベート情報が含まれているため、広く使われることを防止する。 本稿では,超音波アクティブセンシングによるプライバシー保護行動認識を提案する。 非侵襲的な超音波アクティブセンシングによる行動認識は十分に研究されていないため,行動認識のための新しいデータセットを作成し,分類の特徴の比較を行う。 超音波反射波の振幅の時間的変動に着目して特徴値を算出し,8つの基本動作クラスに対する支持ベクトルマシンとVGGを用いた分類を行った。 その結果,同一人物と同一環境での訓練と評価を行った場合の精度は97.9%であった。 また,異なる人を対象に訓練・評価した場合でも,89.5%の精度が得られた。 また,様々な条件と限界における精度の分析についても報告する。

Action recognition is a key technology for many industrial applications. Methods using visual information such as images are very popular. However, privacy issues prevent widespread usage due to the inclusion of private information, such as visible faces and scene backgrounds, which are not necessary for recognizing user action. In this paper, we propose a privacy-preserving action recognition by ultrasound active sensing. As action recognition from ultrasound active sensing in a non-invasive manner is not well investigated, we create a new dataset for action recognition and conduct a comparison of features for classification. We calculated feature values by focusing on the temporal variation of the amplitude of ultrasound reflected waves and performed classification using a support vector machine and VGG for eight fundamental action classes. We confirmed that our method achieved an accuracy of 97.9% when trained and evaluated on the same person and in the same environment. Additionally, our method achieved an accuracy of 89.5% even when trained and evaluated on different people. We also report the analyses of accuracies in various conditions and limitations.
翻訳日:2023-09-18 16:24:53 公開日:2023-09-15
# 信頼性LiDAR SLAMの高速かつ高精度な深部ループ閉鎖と再局在

Fast and Accurate Deep Loop Closing and Relocalization for Reliable LiDAR SLAM ( http://arxiv.org/abs/2309.08086v1 )

ライセンス: Link先を確認
Chenghao Shi, Xieyuanli Chen, Junhao Xiao, Bin Dai, Huimin Lu(参考訳) ループの閉鎖と再局在化は,ポーズ推定ドリフトとデジェネレーションに対応することによって,信頼性とロバストな長期スラムを確立する上で重要な技術である。 この記事では、統一フレームワーク内でループのクローズと再ローカライズを定式化することから始まる。 そこで我々は,両課題に効果的に取り組むために,新しいマルチヘッドネットワークLCR-Netを提案する。 特徴抽出とポーズ対応アテンション機構を利用して、類似性とLiDARスキャン間の6-DoFポーズを正確に推定する。 最後に、LCR-NetをSLAMシステムに統合し、屋外運転環境における堅牢で正確なLiDAR SLAMを実現する。 我々は,ループ閉鎖と再ローカライゼーションから導かれる3つのセットアップ,候補検索,閉ループ点クラウド登録,複数データセットを用いた継続的再ローカライゼーションなどを通じて,LCR-Netを徹底的に評価した。 その結果、LCR-Netは3つのタスク全てに優れ、最先端の手法を超越し、顕著な一般化能力を示した。 特に,我々のLCR-Netは,時間を要するロバストポーズ推定器を使わずに,ベースライン手法より優れており,オンラインSLAMアプリケーションに適している。 我々の知る限り、LCR-Netの統合は、深いループ閉鎖と再局在の能力を備えた最初のLiDAR SLAMをもたらす。 私たちのメソッドの実装はオープンソースにします。

Loop closing and relocalization are crucial techniques to establish reliable and robust long-term SLAM by addressing pose estimation drift and degeneration. This article begins by formulating loop closing and relocalization within a unified framework. Then, we propose a novel multi-head network LCR-Net to tackle both tasks effectively. It exploits novel feature extraction and pose-aware attention mechanism to precisely estimate similarities and 6-DoF poses between pairs of LiDAR scans. In the end, we integrate our LCR-Net into a SLAM system and achieve robust and accurate online LiDAR SLAM in outdoor driving environments. We thoroughly evaluate our LCR-Net through three setups derived from loop closing and relocalization, including candidate retrieval, closed-loop point cloud registration, and continuous relocalization using multiple datasets. The results demonstrate that LCR-Net excels in all three tasks, surpassing the state-of-the-art methods and exhibiting a remarkable generalization ability. Notably, our LCR-Net outperforms baseline methods without using a time-consuming robust pose estimator, rendering it suitable for online SLAM applications. To our best knowledge, the integration of LCR-Net yields the first LiDAR SLAM with the capability of deep loop closing and relocalization. The implementation of our methods will be made open-source.
翻訳日:2023-09-18 16:24:38 公開日:2023-09-15
# コントラスト学習を用いた確率的隣人埋め込み

Supervised Stochastic Neighbor Embedding Using Contrastive Learning ( http://arxiv.org/abs/2309.08077v1 )

ライセンス: Link先を確認
Yi Zhang(参考訳) 確率的隣接埋め込み (SNE) 法$t$-SNE, UMAP はデータ可視化のための2つの最も一般的な次元削減法である。 コントラスト学習、特に自己教師付きコントラスト学習(SSCL)は、ラベルのないデータから特徴を埋め込むことで大きな成功を収めている。 SNEとSSCLのコンセプト接続が活用されている。 本研究では,データセットの隣接情報保存の範囲内で,自己教師付きコントラストアプローチを完全教師付き設定に拡張し,ラベル情報を効果的に活用する。 同じクラスに属するサンプルのクラスタは、異なるクラスからサンプルのクラスタを同時にプッシュしながら、低次元の埋め込み空間にまとめられる。

Stochastic neighbor embedding (SNE) methods $t$-SNE, UMAP are two most popular dimensionality reduction methods for data visualization. Contrastive learning, especially self-supervised contrastive learning (SSCL), has showed great success in embedding features from unlabeled data. The conceptual connection between SNE and SSCL has been exploited. In this work, within the scope of preserving neighboring information of a dataset, we extend the self-supervised contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of samples belonging to the same class are pulled together in low-dimensional embedding space, while simultaneously pushing apart clusters of samples from different classes.
翻訳日:2023-09-18 16:24:14 公開日:2023-09-15
# パキスタンの政治同盟の変化を反映したソーシャルメディアの分極

Social media polarization reflects shifting political alliances in Pakistan ( http://arxiv.org/abs/2309.08075v1 )

ライセンス: Link先を確認
Anees Baqir, Alessandro Galeazzi, Andrea Drocco, Fabiana Zollo(参考訳) 公共の言論におけるイデオロギー的な分裂の高まりは近年大きな注目を集めている。 しかし、この研究の多くは西側の民主国家に集中しており、他の地域はほとんど探索されていない。 ここでは、複雑な政治ダイナミクスと絶え間ない混乱を特徴とするパキスタンの政治状況について考察する。 2018年から2022年にかけて、twitterのデータを分析することで、パキスタンの政治分野における重要な変化と発展を捉えることができます。 主要政党に属する政治家が生み出す相互作用や内容を調べることで、Twitter上で政治家が一貫して活発に活動していることを明らかにする。 我々は、党の聴衆の整合性を探究し、時とともに野党の派閥間の顕著な収束を浮き彫りにした。 我々の分析は、政治家の野党同盟への移行など、政治的提携の重大な変化も明らかにしている。 定量的に,対立相手の観衆の間での相互関係の増大を識別しながら,同胞関係の出現率を定量的に評価した。 本研究は,政治情勢の変化を正確に反映することにより,我々の方法論とソーシャルメディアデータの信頼性を,政治的分極をモニタリングし,マクロレベルのトレンドと個人レベルのトランスフォーメーションをニュアンス的に理解するための貴重なツールとして強調する。

The rise of ideological divides in public discourse has received considerable attention in recent years. However, much of this research has been concentrated on Western democratic nations, leaving other regions largely unexplored. Here, we delve into the political landscape of Pakistan, a nation marked by intricate political dynamics and persistent turbulence. Spanning from 2018 to 2022, our analysis of Twitter data allows us to capture pivotal shifts and developments in Pakistan's political arena. By examining interactions and content generated by politicians affiliated with major political parties, we reveal a consistent and active presence of politicians on Twitter, with opposition parties exhibiting particularly robust engagement. We explore the alignment of party audiences, highlighting a notable convergence among opposition factions over time. Our analysis also uncovers significant shifts in political affiliations, including the transition of politicians to the opposition alliance. Quantitatively, we assess evolving interaction patterns, showcasing the prevalence of homophilic connections while identifying a growing interconnection among audiences of opposition parties. Our study, by accurately reflecting shifts in the political landscape, underscores the reliability of our methodology and social media data as a valuable tool for monitoring political polarization and providing a nuanced understanding of macro-level trends and individual-level transformations.
翻訳日:2023-09-18 16:24:02 公開日:2023-09-15
# オンデマンド駆動ナビゲーションのための要求条件付きオブジェクト属性空間の学習

Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation ( http://arxiv.org/abs/2309.08138v1 )

ライセンス: Link先を確認
Hongcheng Wang, Andy Guan Hong Chen, Xiaoqi Li, Mingdong Wu, Hao Dong(参考訳) 視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。 vonタスクを成功させるためには、2つの必須条件を満たさなければならない:1) ユーザが希望するオブジェクトの名前を知る必要がある。 2) ユーザ指定オブジェクトは実際にシーン内に存在しなければならない。 これらの条件を満たすために、シミュレータはシーンのメタデータに予め定義されたオブジェクト名と位置を組み込むことができる。 しかし、現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。 馴染みのない環境の人間は、どのオブジェクトがシーンに存在するのかを知らないかもしれないし、実際に存在しないオブジェクトを誤って特定するかもしれない。 しかしながら、これらの課題にもかかわらず、人間は依然としてオブジェクトに対する要求があり、それは、シーン内に存在する他のオブジェクトと同等の方法で満たされる可能性がある。 そこで本研究では,ユーザの要求をタスク命令として活用し,その要求にマッチするオブジェクトを見つけるようエージェントに促す,要求駆動ナビゲーション(DDN)を提案する。 DDNは、事前に定義されたオブジェクトのカテゴリや名前にのみ依存するのではなく、ユーザの要求を満たすことに集中することで、VONの厳しい条件を緩和することを目的としている。 本稿では,大言語モデルから共通知識を抽出することにより,まずオブジェクトのテキスト属性特徴を取得する手法を提案する。 これらのテキスト属性機能は、Contrastive Language-Image Pre-training (CLIP)を使用して視覚的属性特徴と整列する。 視覚属性の特徴を事前知識として組み込むことで,ナビゲーションプロセスを強化する。 ProcThorデータセットによるAI2Thorの実験では、視覚特性の特徴がエージェントのナビゲーション性能を改善し、VONで一般的に使用されるベースラインメソッドよりも優れていた。

The task of Visual Object Navigation (VON) involves an agent's ability to locate a particular object within a given scene. In order to successfully accomplish the VON task, two essential conditions must be fulfilled:1) the user must know the name of the desired object; and 2) the user-specified object must actually be present within the scene. To meet these conditions, a simulator can incorporate pre-defined object names and positions into the metadata of the scene. However, in real-world scenarios, it is often challenging to ensure that these conditions are always met. Human in an unfamiliar environment may not know which objects are present in the scene, or they may mistakenly specify an object that is not actually present. Nevertheless, despite these challenges, human may still have a demand for an object, which could potentially be fulfilled by other objects present within the scene in an equivalent manner. Hence, we propose Demand-driven Navigation (DDN), which leverages the user's demand as the task instruction and prompts the agent to find the object matches the specified demand. DDN aims to relax the stringent conditions of VON by focusing on fulfilling the user's demand rather than relying solely on predefined object categories or names. We propose a method first acquire textual attribute features of objects by extracting common knowledge from a large language model. These textual attribute features are subsequently aligned with visual attribute features using Contrastive Language-Image Pre-training (CLIP). By incorporating the visual attribute features as prior knowledge, we enhance the navigation process. Experiments on AI2Thor with the ProcThor dataset demonstrate the visual attribute features improve the agent's navigation performance and outperform the baseline methods commonly used in VON.
翻訳日:2023-09-18 16:16:07 公開日:2023-09-15
# Let's Roll: 異なるシャッタータイプにわたる歩行者検出のための合成データセット解析

Let's Roll: Synthetic Dataset Analysis for Pedestrian Detection Across Different Shutter Types ( http://arxiv.org/abs/2309.08136v1 )

ライセンス: Link先を確認
Yue Hu, Gourav Datta, Kira Beerel, Peter Beerel(参考訳) コンピュータビジョン(CV)パイプラインは通常、画像信号処理(ISP)パイプラインによって処理されるデータセットで評価されるが、リソース制約のあるアプリケーションでは、可能な限り多くのISPステップを避けることが重要な研究目標である。 特に、ほとんどのCVデータセットは、現在ほとんどのカメラがローリングシャッター(RS)を使用しているにもかかわらず、グローバルシャッター(GS)画像で構成されている。 本論文では,Unreal Engine 5 (UE5) の高度なシミュレーション機能を用いて生成する合成データセットに対して,異なるシャッター機構が機械学習(ML)オブジェクト検出モデルに与える影響について検討する。 特に,これらの2つのシャッターモード間の検出精度に有意差があるかどうか,特に低速物体(歩行者など)を捕捉する場合に,合成合成したGSデータセットとRSデータセットを用いて主流検出モデルを訓練し,評価する。 このエミュレーション・フレームワークの結果から, 粗粒度検出(iou=0.5の平均精度(map))は著しく一致したが, 細粒度検出精度(iou=0.5:0.95マップ)には有意差が認められた。 これは、多くのオブジェクト検出アプリケーションにおいて、MLパイプラインはRSの明示的な修正を必要としないかもしれないが、オブジェクトのきめ細かい位置をターゲットとするISPのないMLパイプラインにおけるRS効果を緩和するには、さらなる研究が必要であることを意味している。

Computer vision (CV) pipelines are typically evaluated on datasets processed by image signal processing (ISP) pipelines even though, for resource-constrained applications, an important research goal is to avoid as many ISP steps as possible. In particular, most CV datasets consist of global shutter (GS) images even though most cameras today use a rolling shutter (RS). This paper studies the impact of different shutter mechanisms on machine learning (ML) object detection models on a synthetic dataset that we generate using the advanced simulation capabilities of Unreal Engine 5 (UE5). In particular, we train and evaluate mainstream detection models with our synthetically-generated paired GS and RS datasets to ascertain whether there exists a significant difference in detection accuracy between these two shutter modalities, especially when capturing low-speed objects (e.g., pedestrians). The results of this emulation framework indicate the performance between them are remarkably congruent for coarse-grained detection (mean average precision (mAP) for IOU=0.5), but have significant differences for fine-grained measures of detection accuracy (mAP for IOU=0.5:0.95). This implies that ML pipelines might not need explicit correction for RS for many object detection applications, but mitigating RS effects in ISP-less ML pipelines that target fine-grained location of the objects may need additional research.
翻訳日:2023-09-18 16:15:41 公開日:2023-09-15
# $\kappa$-deformed spacetimeにおける絡み合いダイナミクス

Entanglement dynamics in $\kappa$-deformed spacetime ( http://arxiv.org/abs/2309.08135v1 )

ライセンス: Link先を確認
Xiaobao Liu, Zehua Tian, Jiliang Jing(参考訳) 量子場に結合した2つの同一かつ相互独立な2レベル原子を開量子系として扱う。 その進化を支配するマスター方程式は、場の自由度を辿ることによって導かれる。 これを用いて、$\kappa$-deformed 時空とMinkowski 時空で異なる軌道で移動する2つの原子の絡み合いのダイナミクスを比較検討する。 環境に誘起される原子間相互作用が存在しない場合、時空変形パラメータである$\kappa$が理論的に予測されるほど巨大である場合、$\kappa$-deformed spacetimeにおける2つの静的原子の絡み合いダイナミクスはミンコフスキー時空の場合に還元される。 しかし、慣性でも非慣性でも相対論的運動の原子の絡み合いは、ミンコフスキー時空においてさえも、$\kappa$-変形した時空の絡み合いは巨大である。 崩壊や生成などの様々な絡み合い挙動を調査し,直線中の一様運動や円運動といった相対論的運動の違いが,$\kappa$-deformed spacetime case と minkowski spacetime case の絡み合いダイナミクスの違いをいかに増幅するかを考察した。 さらに, 環境が引き起こす原子間相互作用を考慮すると, この2つの時空間の絡み合いのダイナミクスの違いを増大させる可能性がある。 したがって、原則として、2つの原子間の絡み合いの挙動を特定の状況下で確認することで、彼は$\kappa$-deformed spacetime かminkowski spacetime のどちらにいるのかを知ることができる。

We treat two identical and mutually independent two-level atoms that are coupled to quantum field as an open quantum system. The master equation that governs their evolution is derived by tracing over the degree of freedom of field. With this, we comparatively study the entanglement dynamics of the two atoms moving with different trajectories in $\kappa$-deformed spacetime and Minkowski spacetime. It is found that when there is no the environment-induced interatomic interaction, the entanglement dynamics of two static atoms in $\kappa$-deformed spacetime are reduced to the case in Minkowski spacetime in the case that the spacetime deformation parameter $\kappa$ is huge enough as theoretically predicted. However, if the atoms undergo relativistic motion, no matter inertial or non-inertial, their entanglement dynamics in $\kappa$-deformed spacetime behave quite differently with that in Minkowski spacetime even $\kappa$ is huge. We investigate various entanglement behaviors, such as decay and generation, and discuss how different relativistic motion, such as uniform motion in a straight line and circular motion, amplifies the difference of entanglement dynamics between the $\kappa$-deformed spacetime case and the Minkowski spacetime case. Besides, when the environment-induced interatomic interaction is considered, we find that it may also enhance the difference of entanglement dynamics between in these two spacetimes. So, in principle, one can tell whether he is in $\kappa$-deformed spacetime or in Minkowski spacetime by checking the entanglement behaviors between two atoms in certain circumstances.
翻訳日:2023-09-18 16:14:50 公開日:2023-09-15
# AnyOKP: 事前トレーニングVTTによるワンショットおよびインスタンス対応オブジェクトキーポイント抽出

AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with Pretrained ViT ( http://arxiv.org/abs/2309.08134v1 )

ライセンス: Link先を確認
Fangbo Qin, Taogang Hou, Shan Lin, Kaiyuan Wang, Michael C. Yip, Shan Yu(参考訳) フレキシブルなオブジェクト中心の視覚知覚に向けて、事前学習された視覚変換器(ViT)の強力な表現能力を活用し、支援画像から学習した任意のカテゴリの複数のオブジェクトインスタンス上のキーポイントを得ることのできる、一発のインスタンス対応オブジェクトキーポイント(OKP)抽出手法AnyOKPを提案する。 市販のpetrained vitは、一般化および転送可能な特徴抽出のために直接デプロイされ、トレーニング不要の機能拡張が続く。 最良プロトタイプペア (BPP) は, 外観の類似性に基づく検索画像の検索と検索を行い, 候補キーポイントを問わない候補キーポイントの検索を行い, グラフエッジ上の特徴分布に応じて, 頂点として候補キーポイントが全てサブグラフに分割する。 最後に、各サブグラフはオブジェクトインスタンスを表す。 AnyOKPは、ロボットアーム、移動ロボット、および手術ロボットのカメラで収集された実際のオブジェクト画像に基づいて評価される。

Towards flexible object-centric visual perception, we propose a one-shot instance-aware object keypoint (OKP) extraction approach, AnyOKP, which leverages the powerful representation ability of pretrained vision transformer (ViT), and can obtain keypoints on multiple object instances of arbitrary category after learning from a support image. An off-the-shelf petrained ViT is directly deployed for generalizable and transferable feature extraction, which is followed by training-free feature enhancement. The best-prototype pairs (BPPs) are searched for in support and query images based on appearance similarity, to yield instance-unaware candidate keypoints.Then, the entire graph with all candidate keypoints as vertices are divided to sub-graphs according to the feature distributions on the graph edges. Finally, each sub-graph represents an object instance. AnyOKP is evaluated on real object images collected with the cameras of a robot arm, a mobile robot, and a surgical robot, which not only demonstrates the cross-category flexibility and instance awareness, but also show remarkable robustness to domain shift and viewpoint change.
翻訳日:2023-09-18 16:14:17 公開日:2023-09-15
# 講演「Bout AI生成:著作権と生成AIサプライチェーン」

Talkin' 'Bout AI Generation: Copyright and the Generative-AI Supply Chain ( http://arxiv.org/abs/2309.08133v1 )

ライセンス: Link先を確認
Katherine Lee and A. Feder Cooper and James Grimmelmann(参考訳) 「生成aiは著作権を侵害するのか?」は緊急の質問である。 2つの理由から、これは難しい問題でもある。 第一に、“ジェネレーティブAI”はひとつの企業の製品だけではない。 chatgptのような会話型テキストチャットボット、midjourneyやdall-eのような画像生成、github copilotのようなコーディングアシスタント、音楽を作成しビデオを作成するシステムなど、ゆるやかな関連技術の巨大なエコシステムのキャッチフレーズです。 これらの制度は異なった振る舞いをし、異なる法的問題を引き起こす。 第2の問題は、著作権法が複雑であることで知られており、生成型AIシステムは、作者、類似性、直接的および間接的責任、フェアユース、ライセンスなど、その大きな面に触れている。 これらの問題は、至る所に接続があるため、分離して分析することはできない。 本条では、混乱に秩序をもたらすことを目的とする。 そこで本研究では,学習データ(猫の写真)を世代に変換する相互に相互に相互に相互に相互に連携する,生成型AIサプライチェーンを紹介した。 生成的AIをこれらの構成段階に分解すると、企業やユーザーが著作権上の影響のある選択を行うすべての場所が明らかになる。 これにより、上流の技術的設計が下流の用途に与える影響を追跡でき、複雑な社会技術システムの中で誰が侵害の責任を負うかを評価することができる。 生成的AIの技術に非常に精通しているので、著作権問題にもっと光を当てることができます。 責任を負うべきであり、そうすべきでない人に対して、決定的な答えは与えません。 その代わり、我々は裁判所がこれらの問題に対処しなくてはならない重要な決定を特定し、異なる責任体制から引き起こされる可能性のある結果を示す。

"Does generative AI infringe copyright?" is an urgent question. It is also a difficult question, for two reasons. First, "generative AI" is not just one product from one company. It is a catch-all name for a massive ecosystem of loosely related technologies, including conversational text chatbots like ChatGPT, image generators like Midjourney and DALL-E, coding assistants like GitHub Copilot, and systems that compose music and create videos. These systems behave differently and raise different legal issues. The second problem is that copyright law is notoriously complicated, and generative-AI systems manage to touch on a great many corners of it: authorship, similarity, direct and indirect liability, fair use, and licensing, among much else. These issues cannot be analyzed in isolation, because there are connections everywhere. In this Article, we aim to bring order to the chaos. To do so, we introduce the generative-AI supply chain: an interconnected set of stages that transform training data (millions of pictures of cats) into generations (a new, potentially never-seen-before picture of a cat that has never existed). Breaking down generative AI into these constituent stages reveals all of the places at which companies and users make choices that have copyright consequences. It enables us to trace the effects of upstream technical designs on downstream uses, and to assess who in these complicated sociotechnical systems bears responsibility for infringement when it happens. Because we engage so closely with the technology of generative AI, we are able to shed more light on the copyright questions. We do not give definitive answers as to who should and should not be held liable. Instead, we identify the key decisions that courts will need to make as they grapple with these issues, and point out the consequences that would likely flow from different liability regimes.
翻訳日:2023-09-18 16:13:55 公開日:2023-09-15
# MLPMixerに基づくcGANを用いた一方向画像の多様性の向上

Increasing diversity of omni-directional images generated from single image using cGAN based on MLPMixer ( http://arxiv.org/abs/2309.08129v1 )

ライセンス: Link先を確認
Atsuya Nakata, Ryuto Miyazaki, Takao Yamanaka(参考訳) 本稿では,単一のスナップショット画像から全方位画像を生成する新しい手法を提案する。 従来の手法は畳み込みニューラルネットワーク(CNN)に基づく生成的敵ネットワークに依存していた。 この手法は全方位画像の生成に成功しているが,CNNには2つの欠点がある。 まず、畳み込み層が局所領域のみを処理するため、全方位画像の中央に埋め込まれた入力スナップショット画像の情報を画像のエッジに伝播させることは困難である。 したがって、cnnベースのジェネレータによって作成された全方位画像は、生成された画像の端において多様性が少なくなり、類似したシーン画像を生成する傾向がある。 第二に、CNNベースのモデルは、浅い層ネットワークが受容領域の限られた範囲からのみ信号を受信するため、CNNの深い構造の性質のため、グラフィックス処理ユニットにおいて大きなビデオメモリを必要とする。 これらの問題を解決するために,MLPMixer を用いた手法を提案する。 MLPMixerは、長距離依存関係とコンテキスト情報をキャプチャするトランスフォーマーにおける自己注意の代替として提案されている。 これにより、全方向画像生成タスクにおいて、情報を効率的に伝播することができる。 その結果、生成した全方位画像の多様性の向上に加えて、メモリ消費と計算コストの削減により競合性能が達成された。

This paper proposes a novel approach to generating omni-directional images from a single snapshot picture. The previous method has relied on the generative adversarial networks based on convolutional neural networks (CNN). Although this method has successfully generated omni-directional images, CNN has two drawbacks for this task. First, since a convolutional layer only processes a local area, it is difficult to propagate the information of an input snapshot picture embedded in the center of the omni-directional image to the edges of the image. Thus, the omni-directional images created by the CNN-based generator tend to have less diversity at the edges of the generated images, creating similar scene images. Second, the CNN-based model requires large video memory in graphics processing units due to the nature of the deep structure in CNN since shallow-layer networks only receives signals from a limited range of the receptive field. To solve these problems, MLPMixer-based method was proposed in this paper. The MLPMixer has been proposed as an alternative to the self-attention in the transformer, which captures long-range dependencies and contextual information. This enables to propagate information efficiently in the omni-directional image generation task. As a result, competitive performance has been achieved with reduced memory consumption and computational cost, in addition to increasing diversity of the generated omni-directional images.
翻訳日:2023-09-18 16:13:25 公開日:2023-09-15
# Oobleck: パイプラインテンプレートを使用した大規模モデルのレジリエントな分散トレーニング

Oobleck: Resilient Distributed Training of Large Models Using Pipeline Templates ( http://arxiv.org/abs/2309.08125v1 )

ライセンス: Link先を確認
Insu Jang, Zhenning Yang, Zhen Zhang, Xin Jin, Mosharaf Chowdhury(参考訳) Oobleckは,フォールトトレランスを保証した大規模DNNモデルのレジリエントな分散トレーニングを可能にする。 プランニング・エグゼクティブの共同設計アプローチを採用し、まず不均一なパイプラインテンプレートのセットを生成し、少なくとも$f+1$論理的に等価なパイプラインレプリカをインスタンス化し、$f$同時障害を許容する。 実行中は、高速なリカバリを実現するために、レプリカ全体で既にレプリケーション済みのモデルステートに依存する。 Oobleckは、初期生成されたパイプラインテンプレートの組み合わせによって、$f$以下の同時障害後に利用可能なすべてのリソースをカバーできることを確実に保証している。 数十億のパラメータを持つ大規模なDNNモデルを評価すると、Oobleckは一貫して高いスループットを提供し、BambooやVarunaのような最先端のフォールトトレランスソリューションを最大13.9x$で上回っている。

Oobleck enables resilient distributed training of large DNN models with guaranteed fault tolerance. It takes a planning-execution co-design approach, where it first generates a set of heterogeneous pipeline templates and instantiates at least $f+1$ logically equivalent pipeline replicas to tolerate any $f$ simultaneous failures. During execution, it relies on already-replicated model states across the replicas to provide fast recovery. Oobleck provably guarantees that some combination of the initially created pipeline templates can be used to cover all available resources after $f$ or fewer simultaneous failures, thereby avoiding resource idling at all times. Evaluation on large DNN models with billions of parameters shows that Oobleck provides consistently high throughput, and it outperforms state-of-the-art fault tolerance solutions like Bamboo and Varuna by up to $13.9x$.
翻訳日:2023-09-18 16:13:04 公開日:2023-09-15
# I'm not Confident in Debiasing AI Systems since I Know too Little”: AIクリエーターに手持ちの授業を通してバイアスについて教える

"I'm Not Confident in Debiasing AI Systems Since I Know Too Little": Teaching AI Creators About Gender Bias Through Hands-on Tutorials ( http://arxiv.org/abs/2309.08121v1 )

ライセンス: Link先を確認
Kyrie Zhixuan Zhou, Jiaxun Cao, Xiaowen Yuan, Daniel E. Weissglass, Zachary Kilhoffer, Madelyn Rose Sanfilippo, Xin Tong(参考訳) ジェンダーバイアスはAIシステムにおいて増加し、悪いユーザー体験、不正、そして女性に精神的危害をもたらす。 学校のカリキュラムは、このトピックでAIクリエイターを教育することに失敗し、AIにおける性別バイアスを軽減する準備が整っていないままである。 本稿では,AIクリエータのジェンダーバイアスに対する意識を高め,ジェンダーバイアスやデバイアス技術に関する知識を高めるために,ハンズオンチュートリアルを設計した。 チュートリアルは、AI研究者、AI産業実践者(開発者とプロダクトマネージャ)、AIを学んだ学生を含む18人のAIクリエーターによって評価された。 彼らの認識と知識の向上は、cs/aiコースで不十分なaiジェンダーバイアス教育を補完する可能性を持つチュートリアルの有効性を実証した。 この結果に基づき, 今後の研究, 教育, デザイン努力を導くために, デザインの意味とルーブリックを合成する。

Gender bias is rampant in AI systems, causing bad user experience, injustices, and mental harm to women. School curricula fail to educate AI creators on this topic, leaving them unprepared to mitigate gender bias in AI. In this paper, we designed hands-on tutorials to raise AI creators' awareness of gender bias in AI and enhance their knowledge of sources of gender bias and debiasing techniques. The tutorials were evaluated with 18 AI creators, including AI researchers, AI industrial practitioners (i.e., developers and product managers), and students who had learned AI. Their improved awareness and knowledge demonstrated the effectiveness of our tutorials, which have the potential to complement the insufficient AI gender bias education in CS/AI courses. Based on the findings, we synthesize design implications and a rubric to guide future research, education, and design efforts.
翻訳日:2023-09-18 16:12:44 公開日:2023-09-15
# 制約付き組合せ最適化問題に対する後処理変分量子アルゴリズム

Post-processing variational quantum algorithm for constrained combinatorial optimization problems ( http://arxiv.org/abs/2309.08120v1 )

ライセンス: Link先を確認
Tatsuhiko Shirai, Nozomu Togawa(参考訳) 本稿では,制約付き組合せ最適化問題(COP)を解決するための後処理変分量子アルゴリズム(pVQA)を提案する。 一般的に、COPは量子アニールまたはゲート型量子デバイス上のイジングモデルの基底状態探索問題に変換される。 変分量子アルゴリズムは、短時間でグランドステートにつながるアニーリングパスを見つけるために用いられる。 後処理技術は、量子デバイスの出力解をCOPの制約を満たすように変換する。 pVQAは変分量子アルゴリズムと後処理技術を組み合わせたものである。 グラフ分割問題と二次クナップサック問題という2つの制約付きNPハード型COPに適用する。 シミュレータ上のpVQAは,所定演算時間内に最適な性能を達成するのに,少数の変動パラメータが十分であることを示す。 次に,シミュレーション結果に基づいて,量子アニールとゲート型量子デバイス上にpVQAを実装した。 pVQAは従来の量子アルゴリズムよりも優れた性能を示す。

We propose post-processing variational quantum algorithm (pVQA) for solving constrained combinatorial optimization problems (COPs). COPs are typically transformed into ground-state search problems of the Ising model on a quantum annealer or gate-type quantum device. Variational quantum algorithms are used to find an annealing path that leads to the grand state in a short amount of time. Post-processing techniques convert the output solutions of the quantum devices to satisfy the constraints of the COPs. pVQA combines the variational quantum algorithm and the post-processing technique. We apply it to two constrained NP-hard COPs: the graph partitioning problem and the quadratic knapsack problem. pVQA on a simulator shows that a small number of variational parameters is sufficient to achieve an optimal performance within a predetermined operation time. Then building upon the simulator results, we implement pVQA on a quantum annealer and a gate-type quantum device. pVQA exhibits a superior performance compared with conventional quantum algorithms.
翻訳日:2023-09-18 16:12:25 公開日:2023-09-15
# MetaF2N: 顔からの効率的なモデル適応学習によるブラインド画像の超解像

MetaF2N: Blind Image Super-Resolution by Learning Efficient Model Adaptation from Faces ( http://arxiv.org/abs/2309.08113v1 )

ライセンス: Link先を確認
Zhicun Yin, Ming Liu, Xiaoming Li, Hui Yang, Longan Xiao, Wangmeng Zuo(参考訳) 特徴が高度に構造化されているため、視覚障害者の顔は自然界よりも復元が容易である。 そこで,低品質かつ復元された顔対から画像の劣化表現を抽出することができる。 分解表現を用いて、現実的な低画質画像を合成して、現実世界の低画質画像の超解像モデルを微調整することができる。 しかし、そのような手順は時間と労力がかかり、回収された顔と地面の間の隙間は最適化の不確実性をさらに高める。 画像特異的な劣化に対する効率的なモデル適応を容易にするために,メタラーニングフレームワークにおける自然画像全体に適応するためのモデルパラメータを微調整するために含有顔を利用するmetaf2nという手法を提案する。 そのため、MetaF2Nでは劣化抽出と低画質画像合成工程が回避され、良好な性能を得るためには1つの微調整ステップしか必要としない。 得られた顔と接地構造とのギャップを考慮し,各位置における損失重みを適応的に予測するMaskNetを配置し,低信頼領域の影響を低減する。 提案したMetaF2Nを評価するために,各画像に1つないし複数の顔を持つ実世界の低品質データセットを収集した。 ソースコード、事前トレーニングされたモデル、収集されたデータセットはhttps://github.com/yinzhicun/MetaF2N.comで入手できる。

Due to their highly structured characteristics, faces are easier to recover than natural scenes for blind image super-resolution. Therefore, we can extract the degradation representation of an image from the low-quality and recovered face pairs. Using the degradation representation, realistic low-quality images can then be synthesized to fine-tune the super-resolution model for the real-world low-quality image. However, such a procedure is time-consuming and laborious, and the gaps between recovered faces and the ground-truths further increase the optimization uncertainty. To facilitate efficient model adaptation towards image-specific degradations, we propose a method dubbed MetaF2N, which leverages the contained Faces to fine-tune model parameters for adapting to the whole Natural image in a Meta-learning framework. The degradation extraction and low-quality image synthesis steps are thus circumvented in our MetaF2N, and it requires only one fine-tuning step to get decent performance. Considering the gaps between the recovered faces and ground-truths, we further deploy a MaskNet for adaptively predicting loss weights at different positions to reduce the impact of low-confidence areas. To evaluate our proposed MetaF2N, we have collected a real-world low-quality dataset with one or multiple faces in each image, and our MetaF2N achieves superior performance on both synthetic and real-world datasets. Source code, pre-trained models, and collected datasets are available at https://github.com/yinzhicun/MetaF2N.
翻訳日:2023-09-18 16:12:12 公開日:2023-09-15
# RADE:オープンドメイン対話のための参照支援対話評価

RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue ( http://arxiv.org/abs/2309.08156v1 )

ライセンス: Link先を確認
Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren, Zhaochun Ren(参考訳) オープンドメイン対話システムの評価は、一対多の問題、すなわちゴールデンレスポンス以外の多くの適切な応答のために困難である。 現在、自動評価手法では人間との整合性が向上し、信頼性の高い人体評価は時間と費用がかかる可能性がある。 そこで本研究では,前作成した発話を,一対多の問題を解決するための金の応答以外の基準として利用するマルチタスク学習フレームワークにおいて,参照支援対話評価(rade)手法を提案する。 具体的には、radeは参照と候補応答を明示的に比較して全体のスコアを予測する。 さらに、補助応答生成タスクは、共有エンコーダによる予測を強化する。 radeをサポートするために、3つのデータセットを拡張し、人間のアノテーションによるゴールデンレスポンス以外の評価された応答を追加します。 Pearson, Spearman, Kendallの3つのデータセットと2つの既存のベンチマーク実験により,Pearson, Spearman, Kendallの3つの手法の有効性が実証された。

Evaluating open-domain dialogue systems is challenging for reasons such as the one-to-many problem, i.e., many appropriate responses other than just the golden response. As of now, automatic evaluation methods need better consistency with humans, while reliable human evaluation can be time- and cost-intensive. To this end, we propose the Reference-Assisted Dialogue Evaluation (RADE) approach under the multi-task learning framework, which leverages the pre-created utterance as reference other than the gold response to relief the one-to-many problem. Specifically, RADE explicitly compares reference and the candidate response to predict their overall scores. Moreover, an auxiliary response generation task enhances prediction via a shared encoder. To support RADE, we extend three datasets with additional rated responses other than just a golden response by human annotation. Experiments on our three datasets and two existing benchmarks demonstrate the effectiveness of our method, where Pearson, Spearman, and Kendall correlations with human evaluation outperform state-of-the-art baselines.
翻訳日:2023-09-18 16:06:22 公開日:2023-09-15
# SU(d)対称性を持つ局所ランダム量子回路の設計

Designs from Local Random Quantum Circuits with SU(d) Symmetry ( http://arxiv.org/abs/2309.08155v1 )

ライセンス: Link先を確認
Zimu Li, Han Zheng, Junyu Liu, Liang Jiang, Zi-Wen Liu(参考訳) 局所ユニタリ回路のアンサンブルが$k$-designs(Haar測度を最大$k$-th momentsにエミュレートする分布)に収束することは、量子情報や物理学の研究において重要な役割を果たすランダム量子回路モデルにおいて中心的な問題である。 ハール(完全に)ランダム回路におけるこの問題の広範な研究にもかかわらず、対称性や保存法則が存在する重要な状況はほとんど理解されておらず、重大な課題を生じさせることが知られている。 我々は、SU$(d)$対称性を持つユニタリな$k$-設計を達成できる明示的な局所ユニタリアンサンブルを初めて提案する。 これを達成するために、量子物理学において、Okounkov-Vershikアプローチを$S_n$表現理論に適用する。 畳み込み量子交代群 (cqa) を 4-局所su$(d)$-対称ユニタリによって生成される対応するアンサンブルで定義し、すべての$k < n(n-3)/2$ に対して、正確にも近似的にsu$(d)$-symmetric$k$-designsを形成することを証明する。 我々は,CQAアンサンブルの収束時間を研究するために,ヤング直交形式と$S_n$分岐規則を用いて数値計算法を開発し,非定常スペクトルギャップの強い証拠を提供する。 次に、1d cqaアンサンブルの収束時間$\theta(n^4 \log(1/\epsilon))$を$\epsilon$-approximate 2-designと推定する。 また,局所ギャップしきい値,martingale法,su$(d)$対称性に基づく表現理論などの対称性のない場合に適した古典的手法を用いて,収束時間を数学的に解析するための潜在的な困難と限界を包括的に説明し,su$(d)$対称性を持つ局所ランダム回路の収束時間を厳密に理解するために新しい手法が必要であることを示唆する。

The convergence of local unitary circuit ensembles to $k$-designs (distributions that emulate the Haar measure up to $k$-th moments) is a central problem in random quantum circuit models which play key roles in the study of quantum information as well as physics. Despite the extensive study of this problem for Haar (completely) random circuits, the crucial situations where symmetries or conservation laws are present remain little understood and are known to pose significant challenges. We propose, for the first time, an explicit local unitary ensemble that is capable of achieving unitary $k$-designs with SU$(d)$ symmetry. To achieve this, we employ the novel Okounkov-Vershik approach to $S_n$ representation theory in quantum physics. We define the Convolutional Quantum Alternating group (CQA) with the corresponding ensemble generated by 4-local SU$(d)$-symmetric unitaries and prove that for all $k < n(n-3)/2$, they form SU$(d)$-symmetric $k$-designs in both exact and approximate ways. We develop a numerical method using the Young orthogonal form and $S_n$ branching rule to study the convergence time of CQA ensemble and provide a strong evidence for nonconstant spectral gap. Then we conjecture a convergence time $\Theta(n^4 \log(1/\epsilon))$ of 1D CQA ensemble to $\epsilon$-approximate 2-design in contrast to its counterpart $O(n^2 \log (1/\epsilon))$ with no symmetry. We also provide comprehensive explanations of the potential difficulties and limitations to analyze the convergence time mathematically through classical methods that worked well for the case without symmetries including local gap threshold, martingale method, and representation theory under SU$(d)$ symmetry, suggesting that a new approach is likely needed to rigorously understand the convergence time of local random circuits with SU$(d)$ symmetry.
翻訳日:2023-09-18 16:06:02 公開日:2023-09-15
# 不確実性を考慮したマルチビュービジュアルセマンティック埋め込み

Uncertainty-Aware Multi-View Visual Semantic Embedding ( http://arxiv.org/abs/2309.08154v1 )

ライセンス: Link先を確認
Wenzhang Wei, Zhipeng Gui, Changguang Wu, Anqi Zhao, Xingguang Wang, Huayi Wu(参考訳) 画像テキスト検索における重要な課題は、視覚と言語データの類似性を測定するために意味情報を有効に活用することである。 しかし、各画像が1つのテキストとペアリングされるインスタンスレベルのバイナリラベルを使用すると、異なるセマンティックユニット間の複数の対応をキャプチャできないため、マルチモーダルなセマンティック理解の不確実性が生じる。 近年の研究は、より複雑なモデル構造や事前学習技術を通じてきめ細かい情報を捉えているが、バイナリラベルを十分に活用するための対応の不確実性を直接モデル化した研究はほとんどない。 この問題に対処するために,画像テキストマッチング全体を複数のビューテキストマッチングに分解するUncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) フレームワークを提案する。 本研究では,各ビューテキスト対応における不確かさを適応的にモデル化することにより,各ビューテキスト損失の重み付けを計算するための不確実性認識損失関数(ualoss)を導入する。 重み付けの違いは、モデルが異なる意味情報に焦点を当てることを示し、モデルが画像とテキストの対応を理解する能力を高める。 また、類似度行列を正規化し、モデル性能を改善することで、最適化された画像テキストマッチング戦略を設計する。 Flicker30kとMS-COCOデータセットの実験結果は、UAMVSEが最先端モデルより優れていることを示している。

The key challenge in image-text retrieval is effectively leveraging semantic information to measure the similarity between vision and language data. However, using instance-level binary labels, where each image is paired with a single text, fails to capture multiple correspondences between different semantic units, leading to uncertainty in multi-modal semantic understanding. Although recent research has captured fine-grained information through more complex model structures or pre-training techniques, few studies have directly modeled uncertainty of correspondence to fully exploit binary labels. To address this issue, we propose an Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE)} framework that decomposes the overall image-text matching into multiple view-text matchings. Our framework introduce an uncertainty-aware loss function (UALoss) to compute the weighting of each view-text loss by adaptively modeling the uncertainty in each view-text correspondence. Different weightings guide the model to focus on different semantic information, enhancing the model's ability to comprehend the correspondence of images and texts. We also design an optimized image-text matching strategy by normalizing the similarity matrix to improve model performance. Experimental results on the Flicker30k and MS-COCO datasets demonstrate that UAMVSE outperforms state-of-the-art models.
翻訳日:2023-09-18 16:05:21 公開日:2023-09-15
# DA-RAW:現実世界の逆気象条件に対するドメイン適応物体検出

DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions ( http://arxiv.org/abs/2309.08152v1 )

ライセンス: Link先を確認
Minsik Jeon, Junwon Seo, Jihong Min(参考訳) 近年、深層学習に基づく物体検出手法が成功しているが、雨雪などの悪天候下で物体検出を信頼できるものにすることは依然として困難である。 物体検出器の頑健な性能のために,無教師領域適応は,晴天画像に訓練された検出ネットワークを悪天候画像に適用するために利用されてきた。 従来の手法では、適応中の気象破壊を明示的に扱っていないが、クリアと悪天候のドメインギャップは、スタイルギャップとウェザーギャップの2つの異なる特性を持つ2つの要素に分解することができる。 本稿では,これら2つのギャップを別々に解決することで,気象条件の悪い実環境に対してより効果的に適応できるオブジェクト検出のための教師なしドメイン適応フレームワークを提案する。 本手法は,注目モジュールを用いた高次特徴のスタイル関連情報に集中することで,スタイルギャップを解消する。 自己教師付きコントラスト学習を用いて、我々のフレームワークは、気象のギャップを減らし、気象汚染に対して堅牢な事例特徴を取得する。 広範な実験により, 気象条件下での物体検出方法が他の手法よりも優れていることが示された。

Despite the success of deep learning-based object detection methods in recent years, it is still challenging to make the object detector reliable in adverse weather conditions such as rain and snow. For the robust performance of object detectors, unsupervised domain adaptation has been utilized to adapt the detection network trained on clear weather images to adverse weather images. While previous methods do not explicitly address weather corruption during adaptation, the domain gap between clear and adverse weather can be decomposed into two factors with distinct characteristics: a style gap and a weather gap. In this paper, we present an unsupervised domain adaptation framework for object detection that can more effectively adapt to real-world environments with adverse weather conditions by addressing these two gaps separately. Our method resolves the style gap by concentrating on style-related information of high-level features using an attention module. Using self-supervised contrastive learning, our framework then reduces the weather gap and acquires instance features that are robust to weather corruption. Extensive experiments demonstrate that our method outperforms other methods for object detection in adverse weather conditions.
翻訳日:2023-09-18 16:04:55 公開日:2023-09-15
# CTCに基づく音声認識のための一様アグリゲーション

Unimodal Aggregation for CTC-based Speech Recognition ( http://arxiv.org/abs/2309.08150v1 )

ライセンス: Link先を確認
Ying Fang, Xiaofei Li(参考訳) 本稿では,非自己回帰型自動音声認識について述べる。 ユニモーダルアグリゲーション(UMA)は、同じテキストトークンに属する特徴フレームをセグメント化し統合し、テキストトークンのより良い特徴表現を学習するために提案される。 フレームワイドの特徴と重みはどちらもエンコーダから派生している。 そして、単調重みを持つ特徴フレームを統合し、デコーダによりさらに処理する。 コネクショニスト時間分類(ctc)の損失はトレーニングに適用される。 通常のCTCと比較して,提案手法はより優れた特徴表現を学習し,シーケンス長を短縮し,認識誤差と計算複雑性を低減させる。 3つのマンダリンデータセットの実験では、UMAは自己条件のCTCのような他の高度な非自己回帰的手法よりも優れているか同等のパフォーマンスを示している。 さらに,提案フレームワークにセルフコンディショニングctcを統合することにより,性能をさらに向上させることができる。

This paper works on non-autoregressive automatic speech recognition. A unimodal aggregation (UMA) is proposed to segment and integrate the feature frames that belong to the same text token, and thus to learn better feature representations for text tokens. The frame-wise features and weights are both derived from an encoder. Then, the feature frames with unimodal weights are integrated and further processed by a decoder. Connectionist temporal classification (CTC) loss is applied for training. Compared to the regular CTC, the proposed method learns better feature representations and shortens the sequence length, resulting in lower recognition error and computational complexity. Experiments on three Mandarin datasets show that UMA demonstrates superior or comparable performance to other advanced non-autoregressive methods, such as self-conditioned CTC. Moreover, by integrating self-conditioned CTC into the proposed framework, the performance can be further noticeably improved.
翻訳日:2023-09-18 16:04:34 公開日:2023-09-15
# Syn-Att: 半教師付き未知のCNNアンサンブルによる合成音声属性

Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown Multi-Class Ensemble of CNNs ( http://arxiv.org/abs/2309.08146v1 )

ライセンス: Link先を確認
Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 音声および音声処理における深層学習による大きな技術進歩により、多くの新しい合成音声技術は驚くほど現実的な結果を得た。 これらの手法は、現実的な偽の人間の声を生成するため、擬人化、偽ニュース、拡散、偽造、メディア操作などの悪意ある行為に使用できる。 したがって、合成音声や自然な音声を検出する能力は、必要不可欠なものとなっている。 さらに、合成音声トラックを生成するためにどのアルゴリズムが使われたかを知ることは、犯人を追跡する上で極めて重要である。 本稿では,合成音声トラックを合成に使用する生成器に分類する新しい手法を提案する。 提案する検出器は、音声をログメルスペクトログラムに変換し、cnnを用いて特徴を抽出し、5つの既知のアルゴリズムと未知のアルゴリズムに分類し、半スーパービジョンとアンサンブルを用いて頑健さと一般化性を大幅に改善する。 提案する検出器は,合計18,000個の弱摂動(eval)からなる2つの評価データセット上で検証される。 1)及び10,000の強い摂動(Eval) 2)合成音声 提案手法は、ICASSP 2022のIEEE SP Cupチャレンジにおいて、Eval 2で12-13%、Eval 1で1-2%の精度で他のトップチームを上回った。

With the huge technological advances introduced by deep learning in audio & speech processing, many novel synthetic speech techniques achieved incredible realistic results. As these methods generate realistic fake human voices, they can be used in malicious acts such as people imitation, fake news, spreading, spoofing, media manipulations, etc. Hence, the ability to detect synthetic or natural speech has become an urgent necessity. Moreover, being able to tell which algorithm has been used to generate a synthetic speech track can be of preeminent importance to track down the culprit. In this paper, a novel strategy is proposed to attribute a synthetic speech track to the generator that is used to synthesize it. The proposed detector transforms the audio into log-mel spectrogram, extracts features using CNN, and classifies it between five known and unknown algorithms, utilizing semi-supervision and ensemble to improve its robustness and generalizability significantly. The proposed detector is validated on two evaluation datasets consisting of a total of 18,000 weakly perturbed (Eval 1) & 10,000 strongly perturbed (Eval 2) synthetic speeches. The proposed method outperforms other top teams in accuracy by 12-13% on Eval 2 and 1-2% on Eval 1, in the IEEE SP Cup challenge at ICASSP 2022.
翻訳日:2023-09-18 16:04:17 公開日:2023-09-15
# Tiny音声強調のための二段階知識蒸留

Two-Step Knowledge Distillation for Tiny Speech Enhancement ( http://arxiv.org/abs/2309.08144v1 )

ライセンス: Link先を確認
Rayan Daod Nathoo, Mikolaj Kegler, Marko Stamenovic(参考訳) 組み込みオーディオ機械学習アプリケーションでは、小さな因果モデルが不可欠である。 モデル圧縮は、大きな教師からの知識を小さな学生モデルに蒸留することで実現できる。 本研究では,小型音声強調モデル蒸留のための新しい2段階法を提案する。 蒸留の重み付き混合と教師付き損失の標準的なアプローチとは対照的に,我々はまず知識蒸留(KD)目標のみを用いて学生を事前訓練し,その後完全に教師付き訓練体制に切り替える。 また,学生の運動内グラム行列を教師のものと一致させることを目的とした,詳細な類似性保存KD損失を提案する。 提案手法は,高い圧縮率と低信号対雑音比 (SNR) を含む低信号対雑音比 (SNR) , それぞれ0.9dBと1.1dBの歪み比利得を, ベースラインに比べて5dBの入力SNRと63倍の圧縮で達成する。

Tiny, causal models are crucial for embedded audio machine learning applications. Model compression can be achieved via distilling knowledge from a large teacher into a smaller student model. In this work, we propose a novel two-step approach for tiny speech enhancement model distillation. In contrast to the standard approach of a weighted mixture of distillation and supervised losses, we firstly pre-train the student using only the knowledge distillation (KD) objective, after which we switch to a fully supervised training regime. We also propose a novel fine-grained similarity-preserving KD loss, which aims to match the student's intra-activation Gram matrices to that of the teacher. Our method demonstrates broad improvements, but particularly shines in adverse conditions including high compression and low signal to noise ratios (SNR), yielding signal to distortion ratio gains of 0.9 dB and 1.1 dB, respectively, at -5 dB input SNR and 63x compression compared to baseline.
翻訳日:2023-09-18 16:03:51 公開日:2023-09-15
# 音声キャプションのための音声差分学習

Audio Difference Learning for Audio Captioning ( http://arxiv.org/abs/2309.08141v1 )

ライセンス: Link先を確認
Tatsuya Komatsu, Yusuke Fujita, Kazuya Takeda, Tomoki Toda(参考訳) 本研究は,音声キャプション改善のための新しい学習パラダイムである音声差分学習を提案する。 提案手法の基本概念は,音声間の関係を保存し,複雑な音声情報を含むキャプションの生成を可能にする特徴表現空間を作ることである。 この方法は、入力された音声と共に参照オーディオを使用し、どちらも共有エンコーダを介して特徴表現に変換される。 キャプションはこれらの差分特徴から生成され、その差分を記述する。 さらに、入力オーディオと追加オーディオを混合し、追加オーディオを参照として使用するというユニークな手法が提案されている。 これにより、混合オーディオと参照オーディオとの差が生じ、元の入力オーディオに戻される。 これにより、元の入力のキャプションを違いのキャプションとして使用することができ、違いに対する追加アノテーションが不要になる。 Clotho と ESC50 のデータセットを用いた実験では,従来の手法と比較してSPIDEr のスコアが7%向上した。

This study introduces a novel training paradigm, audio difference learning, for improving audio captioning. The fundamental concept of the proposed learning method is to create a feature representation space that preserves the relationship between audio, enabling the generation of captions that detail intricate audio information. This method employs a reference audio along with the input audio, both of which are transformed into feature representations via a shared encoder. Captions are then generated from these differential features to describe their differences. Furthermore, a unique technique is proposed that involves mixing the input audio with additional audio, and using the additional audio as a reference. This results in the difference between the mixed audio and the reference audio reverting back to the original input audio. This allows the original input's caption to be used as the caption for their difference, eliminating the need for additional annotations for the differences. In the experiments using the Clotho and ESC50 datasets, the proposed method demonstrated an improvement in the SPIDEr score by 7% compared to conventional methods.
翻訳日:2023-09-18 16:03:30 公開日:2023-09-15
# PromptTTS++:自然言語記述を用いたPrompt-based Text-to-Speechにおける話者識別制御

PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech Using Natural Language Descriptions ( http://arxiv.org/abs/2309.08140v1 )

ライセンス: Link先を確認
Reo Shimizu, Ryuichi Yamamoto, Masaya Kawamura, Yuma Shirahata, Hironori Doi, Tatsuya Komatsu, Kentaro Tachibana(参考訳) 本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。 本稿では,アクセプティブに基づくTTSフレームワーク内での話者識別を制御するために,音声の特徴(性中立性,若年者,老年者,マフラーなど)をほぼ独立に記述した話者プロンプトの概念を導入する。 話者プロンプトを含む大規模データセットは存在しないため、まず手動で注釈付き話者プロンプトを用いたLibriTTS-Rコーパスに基づくデータセットを構築する。 次に,混合密度ネットワークを用いた拡散型音響モデルを用いて,学習データ中の多様な話者因子をモデル化する。 ピッチ, 発話速度, エネルギーなど, 話者の個性の限定的な側面のみを記述する従来の研究とは異なり, 自然言語記述から多様な話者の音響特徴へのマッピングを効果的に学習するために, 追加の話者プロンプトを用いる。 主観評価の結果から,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。 オーディオサンプルはhttps://reppy4620.github.io/demo.prompttspp/で入手できる。

We propose PromptTTS++, a prompt-based text-to-speech (TTS) synthesis system that allows control over speaker identity using natural language descriptions. To control speaker identity within the prompt-based TTS framework, we introduce the concept of speaker prompt, which describes voice characteristics (e.g., gender-neutral, young, old, and muffled) designed to be approximately independent of speaking style. Since there is no large-scale dataset containing speaker prompts, we first construct a dataset based on the LibriTTS-R corpus with manually annotated speaker prompts. We then employ a diffusion-based acoustic model with mixture density networks to model diverse speaker factors in the training data. Unlike previous studies that rely on style prompts describing only a limited aspect of speaker individuality, such as pitch, speaking speed, and energy, our method utilizes an additional speaker prompt to effectively learn the mapping from natural language descriptions to the acoustic features of diverse speakers. Our subjective evaluation results show that the proposed method can better control speaker characteristics than the methods without the speaker prompt. Audio samples are available at https://reppy4620.github.io/demo.promptttspp/.
翻訳日:2023-09-18 16:03:17 公開日:2023-09-15
# 学習可能な赤道偏差を用いた全方位サリエンシーマップのマルチスケール推定

Multi-Scale Estimation for Omni-Directional Saliency Maps Using Learnable Equator Bias ( http://arxiv.org/abs/2309.08139v1 )

ライセンス: Link先を確認
Takao Yamanaka, Tatsuya Suzuki, Taiki Nobutsune, Chenjunlin Wu(参考訳) Omni方向画像は幅広い用途で使われている。 本研究は,全方位画像中の重要領域を検出するため,頭部搭載ディスプレイを用いた視線の確率分布を表すサリエンシーマップの推定に有用である。 本稿では,全方位画像から重なり合う2次元平面像を様々な方向と角度で抽出し,全方位画像に対する新たなサリエンシマップ推定モデルを提案する。 2Dサリエンシマップは画像中心(中心バイアス)で高い確率を持つ傾向にあるが、ヘッドマウントディスプレイ(赤道バイアス)を使用する場合、全方向サリエンシマップの水平方向に高確率領域が現れる。 そこで, 2次元平面画像抽出のための標高角に基づく赤道バイアス層に, 中心バイアス層を置換することにより, 中心バイアス層を有する2次元塩分モデルを全方位データセットに微調整した。 サラレンシデータセットにおける全方位画像の可用性の制限は、2Dサリエンシマップの基礎となる多くのトレーニング画像によって事前訓練された確立された2Dサリエンシモデルを使用することで補償することができる。 さらに,様々な大きさの物体を可変受容場で検出するために,複数の角度から2次元画像を抽出するマルチスケール推定手法を提案する。 各対象物に対して最適なスケールを重み付けするために積分層で計算された画素毎の注意重みを用いて,多角視から推定される塩分マップを統合した。 提案手法は,全方向サリエンシマップの評価指標を用いた公開データセットを用いて評価した。 提案手法により,サリエンシマップの精度が向上することが確認された。

Omni-directional images have been used in wide range of applications. For the applications, it would be useful to estimate saliency maps representing probability distributions of gazing points with a head-mounted display, to detect important regions in the omni-directional images. This paper proposes a novel saliency-map estimation model for the omni-directional images by extracting overlapping 2-dimensional (2D) plane images from omni-directional images at various directions and angles of view. While 2D saliency maps tend to have high probability at the center of images (center bias), the high-probability region appears at horizontal directions in omni-directional saliency maps when a head-mounted display is used (equator bias). Therefore, the 2D saliency model with a center-bias layer was fine-tuned with an omni-directional dataset by replacing the center-bias layer to an equator-bias layer conditioned on the elevation angle for the extraction of the 2D plane image. The limited availability of omni-directional images in saliency datasets can be compensated by using the well-established 2D saliency model pretrained by a large number of training images with the ground truth of 2D saliency maps. In addition, this paper proposes a multi-scale estimation method by extracting 2D images in multiple angles of view to detect objects of various sizes with variable receptive fields. The saliency maps estimated from the multiple angles of view were integrated by using pixel-wise attention weights calculated in an integration layer for weighting the optimal scale to each object. The proposed method was evaluated using a publicly available dataset with evaluation metrics for omni-directional saliency maps. It was confirmed that the accuracy of the saliency maps was improved by the proposed method.
翻訳日:2023-09-18 16:02:52 公開日:2023-09-15
# laser: webナビゲーションのためのステートスペース探索を備えたllmエージェント

LASER: LLM Agent with State-Space Exploration for Web Navigation ( http://arxiv.org/abs/2309.08172v1 )

ライセンス: Link先を確認
Kaixin Ma, Hongming Zhang, Hongwei Wang, Xiaoman Pan, Dong Yu(参考訳) 大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。 まともなパフォーマンスを実現する一方で、これまでのメソッドでは、モデルに対してフォワードのみの実行モードを暗黙的に想定しており、インタラクティブな環境での推論方法を教えるために、oracleの軌道をインコンテキストの例としてのみ提供する。 したがって、モデルがコンテキスト内の例でカバーされていない、より困難なシナリオ、例えばミスを処理できないため、最適化されたパフォーマンスが得られない。 そこで本研究では,対話型タスクを状態空間探索としてモデル化し,llmエージェントがタスクを完了するためのアクションを実行することにより,事前定義された状態群に遷移する手法を提案する。 この定式化は柔軟なバックトラッキングを可能にし、モデルがエラーから容易に回復できるようにする。 WebShopタスク上で,状態空間爆発(LASER)を用いたLLMエージェントの評価を行った。 実験結果から, 従来手法よりも高い性能を示し, ウェブナビゲーション作業における人的性能とのギャップを埋めることができた。

Large language models (LLMs) have been successfully adapted for interactive decision-making tasks like web navigation. While achieving decent performance, previous methods implicitly assume a forward-only execution mode for the model, where they only provide oracle trajectories as in-context examples to teach the model how to reason in the interactive environment. Consequently, the model could not handle more challenging scenarios not covered in the in-context examples, e.g., mistakes, leading to sub-optimal performance. To address this issue, we propose to model the interactive task as state space exploration, where the LLM agent transitions among a pre-defined set of states by performing actions to complete the task. This formulation enables flexible back-tracking, allowing the model to easily recover from errors. We evaluate our proposed LLM Agent with State-Space ExploRation (LASER) on the WebShop task. Experimental results show that our LASER agent significantly outperforms previous methods and closes the gap with human performance on the web navigation task.
翻訳日:2023-09-18 15:54:51 公開日:2023-09-15
# ニューラルネットワーク・プルーニングによる分散の解き方

Unveiling Invariances via Neural Network Pruning ( http://arxiv.org/abs/2309.08171v1 )

ライセンス: Link先を確認
Derek Xu, Yizhou Sun, Wei Wang(参考訳) 不変性は、データの基本となるセマンティクスを変更しない変換を記述する。 自然不変性を保存するニューラルネットワークは、優れた帰納バイアスを捕捉し、優れた性能を達成する。 したがって、現代のネットワークはよく知られた不変性(例えば翻訳)を扱うために手作りされている。 本稿では,データ依存不変性をpruningで捉える新しいネットワークアーキテクチャを学ぶためのフレームワークを提案する。 学習したアーキテクチャは、視覚と表のデータセットの両方において、効率と有効性の両方で、ニューラルネットワークよりも一貫して優れています。 3つのビジョンと40のグラフデータセットにまたがる、複数のディープラーニングモデルに関するフレームワークを実演します。

Invariance describes transformations that do not alter data's underlying semantics. Neural networks that preserve natural invariance capture good inductive biases and achieve superior performance. Hence, modern networks are handcrafted to handle well-known invariances (ex. translations). We propose a framework to learn novel network architectures that capture data-dependent invariances via pruning. Our learned architectures consistently outperform dense neural networks on both vision and tabular datasets in both efficiency and effectiveness. We demonstrate our framework on multiple deep learning models across 3 vision and 40 tabular datasets.
翻訳日:2023-09-18 15:54:32 公開日:2023-09-15
# draft & verify: 自己投機的デコードによるロスレス大規模言語モデル加速

Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding ( http://arxiv.org/abs/2309.08168v1 )

ライセンス: Link先を確認
Jun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Gang Chen, Sharad Mehrotra(参考訳) 本稿では,Large Language Models (LLM) を補助モデルなしで高速化するための新しい推論手法,自己投機的デコーディングを提案する。 このアプローチの特徴は、ドラフトと検証という2段階のプロセスである。 ドラフト段階は、わずかに低い品質でドラフトトークンを生成するが、より迅速に、ドラフト期間中に特定の中間層を選択的にスキップして達成し、検証段階は、元のLCMを用いて、これらのドラフト出力トークンを1つの前方通過で検証する。 このプロセスは、最終的な出力が未修正LLMの出力と変わらないことを保証し、出力品質を維持する。 提案手法では、追加のニューラルネットワークトレーニングを必要とせず、メモリフットプリントを必要とせず、推論アクセラレーションのためのプラグアンドプレイで費用対効果の高いソリューションとなる。 LLaMA-2とその微調整されたモデルによるベンチマークでは、最大1.73$\times$まで高速化された。

We present a novel inference scheme, self-speculative decoding, for accelerating Large Language Models (LLMs) without the need for an auxiliary model. This approach is characterized by a two-stage process: drafting and verification. The drafting stage generates draft tokens at a slightly lower quality but more quickly, which is achieved by selectively skipping certain intermediate layers during drafting Subsequently, the verification stage employs the original LLM to validate those draft output tokens in one forward pass. This process ensures the final output remains identical to that produced by the unaltered LLM, thereby maintaining output quality. The proposed method requires no additional neural network training and no extra memory footprint, making it a plug-and-play and cost-effective solution for inference acceleration. Benchmarks with LLaMA-2 and its fine-tuned models demonstrated a speedup up to 1.73$\times$.
翻訳日:2023-09-18 15:54:24 公開日:2023-09-15
# 効率的な映像分類と検索のための分解能圧縮とアライメント

Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval ( http://arxiv.org/abs/2309.08167v1 )

ライセンス: Link先を確認
Rui Deng, Qian Wu, Yuke Li, Haoran Fu(参考訳) 様々な分野における映像分析の需要の増加に伴い,映像推定効率の最適化がますます重要になっている。 既存の手法では空間的情報や時間的情報を明示的に破棄することで高い効率性を実現している。 これらの問題に対処するため,時間的相関性を維持しつつ計算コストを削減するため,ネットワークの初期段階において非重要情報を圧縮する分割圧縮調整機構を備えた効率的な映像表現ネットワークを提案する。 具体的には,カスタマイズ可能なコンテキスト認識圧縮モジュールを用いて,サリエンシーと非サリエンシーのフレーム特徴をエンコードし,高解像度の映像列に特徴を洗練・更新する。 新たなシーケンスを処理するために,低分解能フレームにおける空間トークンが少なくなることにより,空間計算コストを2次的に削減し,フレーム特徴間の時間的相関を異なる解像度で捉えた。 ネットワーク全体が、差別化可能な圧縮モジュールを統合することで、エンドツーエンドで最適化できる。 実験の結果,近重複ビデオ検索における効率と性能のトレードオフと,最先端手法と比較して動的ビデオ分類の競合結果が最良であることが判明した。 コード:https://github.com/dun-research/DRCA

Optimizing video inference efficiency has become increasingly important with the growing demand for video analysis in various fields. Some existing methods achieve high efficiency by explicit discard of spatial or temporal information, which poses challenges in fast-changing and fine-grained scenarios. To address these issues, we propose an efficient video representation network with Differentiable Resolution Compression and Alignment mechanism, which compresses non-essential information in the early stage of the network to reduce computational costs while maintaining consistent temporal correlations. Specifically, we leverage a Differentiable Context-aware Compression Module to encode the saliency and non-saliency frame features, refining and updating the features into a high-low resolution video sequence. To process the new sequence, we introduce a new Resolution-Align Transformer Layer to capture global temporal correlations among frame features with different resolutions, while reducing spatial computation costs quadratically by utilizing fewer spatial tokens in low-resolution non-saliency frames. The entire network can be end-to-end optimized via the integration of the differentiable compression module. Experimental results show that our method achieves the best trade-off between efficiency and performance on near-duplicate video retrieval and competitive results on dynamic video classification compared to state-of-the-art methods. Code:https://github.com/dun-research/DRCA
翻訳日:2023-09-18 15:54:09 公開日:2023-09-15
# 予測・拒否:ネットワークデータの不確実性を考慮した因果効果推定

To Predict or to Reject: Causal Effect Estimation with Uncertainty on Networked Data ( http://arxiv.org/abs/2309.08165v1 )

ライセンス: Link先を確認
Hechuan Wen, Tong Chen, Li Kheng Chai, Shazia Sadiq, Kai Zheng, Hongzhi Yin(参考訳) ネットワーク化された観測データの不均衡性のため、一部の個体の因果効果予測は肯定的/オーバーラップの仮定を厳しく破り、信頼性の低い推定を行う。 それにもかかわらず、ネットワーク化されたデータに対する個人レベルの治療効果推定の潜在的なリスクは、概ね過小評価されている。 より信頼できる因果効果推定器を作成するために、リプシッツ制約付き不確実性認識グラフディープカーネル学習(graphdkl)フレームワークを提案し、ガウス過程による予測の不確実性をモデル化し、信頼できない推定を同定する。 我々の知る限りでは、グラフによる因果効果推定を行う際に正の仮定違反に対処する最初のフレームワークはGraphDKLである。 ネットワークデータに対する不確実性を考慮した因果効果推定における提案手法の優位性を示す。

Due to the imbalanced nature of networked observational data, the causal effect predictions for some individuals can severely violate the positivity/overlap assumption, rendering unreliable estimations. Nevertheless, this potential risk of individual-level treatment effect estimation on networked data has been largely under-explored. To create a more trustworthy causal effect estimator, we propose the uncertainty-aware graph deep kernel learning (GraphDKL) framework with Lipschitz constraint to model the prediction uncertainty with Gaussian process and identify unreliable estimations. To the best of our knowledge, GraphDKL is the first framework to tackle the violation of positivity assumption when performing causal effect estimation with graphs. With extensive experiments, we demonstrate the superiority of our proposed method in uncertainty-aware causal effect estimation on networked data.
翻訳日:2023-09-18 15:53:43 公開日:2023-09-15
# 非構造道路における点雲マップに基づく地盤区分法

A Ground Segmentation Method Based on Point Cloud Map for Unstructured Roads ( http://arxiv.org/abs/2309.08164v1 )

ライセンス: Link先を確認
Zixuan Li, Haiying Lin, Zhangyu Wang, Huazhi Li, Miao Yu and Jie Wang(参考訳) 地上セグメンテーションは、無人知的知覚の基本タスクとして、ターゲット検出タスクに対する重要なサポートを提供する。 開放式地雷に代表される非構造道路シーンは不規則な境界線と不均一な路面を有しており、現在の地盤区分法ではセグメンテーション誤差が生じる。 この問題を解決するために, 関心領域抽出, ポイントクラウド登録, 背景減算の3つの部分を含む, ポイントクラウドマップに基づく地盤区分法を提案する。 まず、非構造道路における関心領域を得るための境界意味関係を確立する。 次に、ポイントクラウドマップと、意味情報による関心領域のリアルタイムポイントクラウド間の位置関連を確立する。 第3に,位置情報に基づくガウス分布に基づく背景モデルを構築し,背景サブストラクション法によるリアルタイムポイントクラウド内の地盤を分割する。 実験の結果, グラウンドポイントの正確なセグメンテーション率は99.95%であり, ランニング時間は26msであった。 アートグラウンドセグメンテーションアルゴリズムPatchwork++の状態と比較して、グラウンドポイントセグメンテーションの平均精度は7.43%向上し、ランニング時間は17ms向上する。 さらに, オープンピット鉱山に代表される非構造道路シナリオに対して, 提案手法を実用的に適用した。

Ground segmentation, as the basic task of unmanned intelligent perception, provides an important support for the target detection task. Unstructured road scenes represented by open-pit mines have irregular boundary lines and uneven road surfaces, which lead to segmentation errors in current ground segmentation methods. To solve this problem, a ground segmentation method based on point cloud map is proposed, which involves three parts: region of interest extraction, point cloud registration and background subtraction. Firstly, establishing boundary semantic associations to obtain regions of interest in unstructured roads. Secondly, establishing the location association between point cloud map and the real-time point cloud of region of interest by semantics information. Thirdly, establishing a background model based on Gaussian distribution according to location association, and segments the ground in real-time point cloud by the background substraction method. Experimental results show that the correct segmentation rate of ground points is 99.95%, and the running time is 26ms. Compared with state of the art ground segmentation algorithm Patchwork++, the average accuracy of ground point segmentation is increased by 7.43%, and the running time is increased by 17ms. Furthermore, the proposed method is practically applied to unstructured road scenarios represented by open pit mines.
翻訳日:2023-09-18 15:53:29 公開日:2023-09-15
# 大規模言語モデルのパーソナリティ測定における自己評価テストの適用性の検討

Investigating the Applicability of Self-Assessment Tests for Personality Measurement of Large Language Models ( http://arxiv.org/abs/2309.08163v1 )

ライセンス: Link先を確認
Akshat Gupta, Xiaoyang Song, Gopala Anumanchipalli(参考訳) 大規模言語モデル(LLM)の能力が進化するにつれて、様々な研究が人間の行動を研究するための心理的ツールを用いて行動の定量化を試みた。 そのような例として、パーソナリティ自己評価テストを用いたLLMの「個性」の測定がある。 本稿では、人間の行動を研究するために人格自己評価テストを用いたLDMの人格測定について3つの研究を行った。 我々はこれらの3つの異なる論文で用いられるプロンプトを用いて、同じLDMの性格を測定する。 3つのプロンプトが全く異なるパーソナリティスコアを導くことが分かりました。 この簡単なテストにより、LSMにおける自己評価スコアはプロンプトの主観的選択に依存することが明らかになった。 LLMのパーソナリティスコアの基本的な真理値が分かっていないため、そのような質問に対する正しい答えがないため、一方のプロンプトが他方よりも多かれ少なかれ正しいという主張はできない。 次に, LLMの個性測定におけるオプション次対称性の特性を紹介する。 自己評価テストのほとんどは、多重選択質問(multiple choice question:mcq)という形式で存在するため、スコアはプロンプトテンプレートだけでなく、オプションが提示される順序にも頑健であるべきだと論じている。 このテストは当然のことながら、自己評価テストに対する回答がオプションの順序に対して堅牢でないことを明らかにしている。 chatgptとllama2のモデルで行ったこれらの単純なテストは、人間のために作られた自己評価のパーソナリティテストがllmのパーソナリティを測定するのに適していないことを示している。

As large language models (LLM) evolve in their capabilities, various recent studies have tried to quantify their behavior using psychological tools created to study human behavior. One such example is the measurement of "personality" of LLMs using personality self-assessment tests. In this paper, we take three such studies on personality measurement of LLMs that use personality self-assessment tests created to study human behavior. We use the prompts used in these three different papers to measure the personality of the same LLM. We find that all three prompts lead very different personality scores. This simple test reveals that personality self-assessment scores in LLMs depend on the subjective choice of the prompter. Since we don't know the ground truth value of personality scores for LLMs as there is no correct answer to such questions, there's no way of claiming if one prompt is more or less correct than the other. We then introduce the property of option order symmetry for personality measurement of LLMs. Since most of the self-assessment tests exist in the form of multiple choice question (MCQ) questions, we argue that the scores should also be robust to not just the prompt template but also the order in which the options are presented. This test unsurprisingly reveals that the answers to the self-assessment tests are not robust to the order of the options. These simple tests, done on ChatGPT and Llama2 models show that self-assessment personality tests created for humans are not appropriate for measuring personality in LLMs.
翻訳日:2023-09-18 15:53:07 公開日:2023-09-15
# 条件付きVT-GANを用いた構造MRIと機能接続ネットワークのクロスモーダル合成

Cross-Modal Synthesis of Structural MRI and Functional Connectivity Networks via Conditional ViT-GANs ( http://arxiv.org/abs/2309.08160v1 )

ライセンス: Link先を確認
Yuda Bi, Anees Abrol, Jing Sui, and Vince Calhoun(参考訳) 構造的磁気共鳴画像(sMRI)と機能的ネットワーク接続(FNC)の相互合成は、特に統合失調症に関して、医学的画像において比較的未発見領域である。 本研究は,条件付き視覚トランスフォーマティブ生成逆ネットワーク(cvit-gans)を用いて,smri入力に基づくfncデータを生成する。 統合失調症の患者と健常者の両方を含む包括的データセットをトレーニングした後、我々のcViT-GANモデルは、各被験者のFNCマトリックスを効果的に合成し、グループ差FNCマトリックスを作成し、実際のFNCマトリックスとのピアソン相関を0.73とした。 さらに,脳皮質下領域に有意な相関を示し,詳細な構造的・機能的関連をとらえるモデルの能力を強調した。 この性能は、pix2pixのような条件付きcnnベースのgan代替品と我々のモデルを区別する。 我々の研究は、MRIとFNC合成を結びつける最初の試みの1つであり、T1-およびT2-weighted MR画像やMRIとCTの融合に焦点を当てた他のクロスモーダル研究とは別のものである。

The cross-modal synthesis between structural magnetic resonance imaging (sMRI) and functional network connectivity (FNC) is a relatively unexplored area in medical imaging, especially with respect to schizophrenia. This study employs conditional Vision Transformer Generative Adversarial Networks (cViT-GANs) to generate FNC data based on sMRI inputs. After training on a comprehensive dataset that included both individuals with schizophrenia and healthy control subjects, our cViT-GAN model effectively synthesized the FNC matrix for each subject, and then formed a group difference FNC matrix, obtaining a Pearson correlation of 0.73 with the actual FNC matrix. In addition, our FNC visualization results demonstrate significant correlations in particular subcortical brain regions, highlighting the model's capability of capturing detailed structural-functional associations. This performance distinguishes our model from conditional CNN-based GAN alternatives such as Pix2Pix. Our research is one of the first attempts to link sMRI and FNC synthesis, setting it apart from other cross-modal studies that concentrate on T1- and T2-weighted MR images or the fusion of MRI and CT scans.
翻訳日:2023-09-18 15:52:41 公開日:2023-09-15
# adsee: 画像のスタイル編集が広告の魅力に及ぼす影響を調査

AdSEE: Investigating the Impact of Image Style Editing on Advertisement Attractiveness ( http://arxiv.org/abs/2309.08159v1 )

ライセンス: Link先を確認
Liyao Jiang, Chenglin Li, Haolan Chen, Xiaodong Gao, Xinwang Zhong, Yang Qiu, Shani Ye, Di Niu(参考訳) オンライン広告は、eコマースサイト、ソーシャルメディアプラットフォーム、検索エンジンにおいて重要な要素である。 モバイルブラウジングの普及に伴い、多くのオンライン広告は、ユーザの注意を引くためのテキスト記述に加えて、カバーイメージの形で視覚情報とともに表示される。 近年,視覚的特徴を認識したオンライン広告のクリック率の予測や,可視性を高めるための最適な広告要素の構築に焦点が当てられている。 本稿では,広告画像に対する意味的編集がオンライン広告の人気に影響を与えるかどうかを検討する広告スタイル編集・魅力向上(adsee)を提案する。 本稿では,従来の視覚的特徴やテキスト的特徴に加えて,GANに基づく顔のセマンティック編集と広告画像への逆変換を導入し,GANに基づく顔の潜伏表現に起因するクリック率予測を訓練する。 20,527のオンライン広告を含む大規模なデータセットQQ-ADを通じて、私たちは広範囲なオフラインテストを行い、セマンティックな方向と編集係数がクリック率に与える影響について調査する。 さらに、入力された広告カバー画像に対して最適な編集方向と強度を効率的に検索し、その投影クリック率を高めるために、遺伝的広告エディタをデザインする。 5日間にわたって行われたオンラインA/Bテストでは、AdSEE編集サンプルのクリックスルー率の増加が、オリジナル広告のコントロールグループと比較して検証され、画像スタイルと広告人気との関係が検証された。 我々はAdSEE研究のコードをhttps://github.com/LiyaoJiang1998/adseeでオープンソースにしています。

Online advertisements are important elements in e-commerce sites, social media platforms, and search engines. With the increasing popularity of mobile browsing, many online ads are displayed with visual information in the form of a cover image in addition to text descriptions to grab the attention of users. Various recent studies have focused on predicting the click rates of online advertisements aware of visual features or composing optimal advertisement elements to enhance visibility. In this paper, we propose Advertisement Style Editing and Attractiveness Enhancement (AdSEE), which explores whether semantic editing to ads images can affect or alter the popularity of online advertisements. We introduce StyleGAN-based facial semantic editing and inversion to ads images and train a click rate predictor attributing GAN-based face latent representations in addition to traditional visual and textual features to click rates. Through a large collected dataset named QQ-AD, containing 20,527 online ads, we perform extensive offline tests to study how different semantic directions and their edit coefficients may impact click rates. We further design a Genetic Advertisement Editor to efficiently search for the optimal edit directions and intensity given an input ad cover image to enhance its projected click rates. Online A/B tests performed over a period of 5 days have verified the increased click-through rates of AdSEE-edited samples as compared to a control group of original ads, verifying the relation between image styles and ad popularity. We open source the code for AdSEE research at https://github.com/LiyaoJiang1998/adsee.
翻訳日:2023-09-18 15:52:18 公開日:2023-09-15
# モバイルデバイスの自動化と分析のためのテストベッドとその応用

A Testbed for Automating and Analysing Mobile Devices and their Applications ( http://arxiv.org/abs/2309.08158v1 )

ライセンス: Link先を確認
Lachlan Simpson, Kyle Millar, Adriel Cheng, Hong Gunn Chew, Cheng-Chew Lim(参考訳) ネットワーク状況認識の改善の必要性は、サイバー攻撃の複雑さと重大さが強調されている。 携帯電話は,ネットワーク上での動的動作や視認性の欠如により,ネットワークの状況認識に重大なリスクを負う。 機械学習技術は、ネットワークを形成するデバイスやアクティビティについて管理者に洞察を提供することで、状況認識を高める。 状況認識のための機械学習技術の開発には、ネットワークトラフィックの生成とラベル付けのためのテストベッドが必要である。 しかし、現在のテストベッドでは、現実的なネットワークトラフィックの生成とラベル付けを自動化できない。 これに対処するために,モバイル機器上のアプリケーションを自動化して現実的なトラフィックを生成しラベル付けするテストベッドについて述べる。 このテストベッドから、2つのラベル付きネットワークトラフィックデータセットが作成されている。 テストベッド自動化の信頼性を分析し,アプリケーション分類のタスク用にデータセットをベンチマークする。

The need for improved network situational awareness has been highlighted by the growing complexity and severity of cyber-attacks. Mobile phones pose a significant risk to network situational awareness due to their dynamic behaviour and lack of visibility on a network. Machine learning techniques enhance situational awareness by providing administrators insight into the devices and activities which form their network. Developing machine learning techniques for situational awareness requires a testbed to generate and label network traffic. Current testbeds, however, are unable to automate the generation and labelling of realistic network traffic. To address this, we describe a testbed which automates applications on mobile devices to generate and label realistic traffic. From this testbed, two labelled datasets of network traffic have been created. We provide an analysis of the testbed automation reliability and benchmark the datasets for the task of application classification.
翻訳日:2023-09-18 15:51:50 公開日:2023-09-15
# 自己変調畳み込みニューラルネットワークによるハイパースペクトル画像の雑音化

Hyperspectral Image Denoising via Self-Modulating Convolutional Neural Networks ( http://arxiv.org/abs/2309.08197v1 )

ライセンス: Link先を確認
Orhan Torun, Seniha Esen Yuksel, Erkut Erdem, Nevrez Imamoglu, Aykut Erdem(参考訳) 自然画像と比較すると、ハイパースペクトル画像(hsis)は多数のバンドで構成されており、それぞれのバンドは特定の波長から異なるスペクトル情報を捉えている。 これらの特徴は、リモートセンシングアプリケーションに非常に有効である。 とは言っても、既存のハイパースペクトルイメージング装置はHSIを著しく劣化させる。 そのため,近年,ハイパースペクトル画像の表示がコミュニティの注目を集めている。 近年の深部hsiデノイジング手法は効果的な解決策を提供してきたが、新しいデータへの適応性に欠けるため、実生活の複雑な雑音下での性能は相変わらず最適ではない。 これらの制限を克服するため、我々の研究では、相関スペクトルと空間情報を利用するSM-CNNと呼ばれる自己変調畳み込みニューラルネットワークを導入する。 モデルの中核は、スペクトル自己変調残差ブロック(ssmrb)と呼ばれる新しいブロックであり、これは、ネットワークが隣接するスペクトルデータに基づいて適応的に特徴を変換でき、複雑なノイズを処理するネットワークの能力を高める。 特に、SSMRBの導入により、予測された特徴に適応する動的ネットワークに変換され、各入力HSIを、その時空間特性について復調する。 合成データと実データの両方を実験的に解析した結果,sm-cnnは,公開ベンチマークデータセット上で定量的かつ定性的に,他の最先端hsi区切り法よりも優れていることがわかった。

Compared to natural images, hyperspectral images (HSIs) consist of a large number of bands, with each band capturing different spectral information from a certain wavelength, even some beyond the visible spectrum. These characteristics of HSIs make them highly effective for remote sensing applications. That said, the existing hyperspectral imaging devices introduce severe degradation in HSIs. Hence, hyperspectral image denoising has attracted lots of attention by the community lately. While recent deep HSI denoising methods have provided effective solutions, their performance under real-life complex noise remains suboptimal, as they lack adaptability to new data. To overcome these limitations, in our work, we introduce a self-modulating convolutional neural network which we refer to as SM-CNN, which utilizes correlated spectral and spatial information. At the core of the model lies a novel block, which we call spectral self-modulating residual block (SSMRB), that allows the network to transform the features in an adaptive manner based on the adjacent spectral data, enhancing the network's ability to handle complex noise. In particular, the introduction of SSMRB transforms our denoising network into a dynamic network that adapts its predicted features while denoising every input HSI with respect to its spatio-spectral characteristics. Experimental analysis on both synthetic and real data shows that the proposed SM-CNN outperforms other state-of-the-art HSI denoising methods both quantitatively and qualitatively on public benchmark datasets.
翻訳日:2023-09-18 15:46:29 公開日:2023-09-15
# ECEA:Few-Shotオブジェクト検出のための拡張可能な共存注意

ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection ( http://arxiv.org/abs/2309.08196v1 )

ライセンス: Link先を確認
Zhimeng Xin, Tianxu Wu, Shiming Chen, Yixiong Zou, Ling Shao, Xinge You(参考訳) Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。 近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。 しかし、そのような既存のFSODアプローチは、局所からグローバルへのオブジェクトの局所化をほとんど考慮しない。 fsodのトレーニングデータが少ないため、新しいクラスのトレーニングサンプルは一般的にオブジェクトの一部をキャプチャし、その結果fsodメソッドはテスト中に完全に見えないオブジェクトを検出することができない。 この問題に対処するために,局所的な部分に応じてグローバルオブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。 基本的に,提案するモジュールは,サンプルの豊富なベースステージ上で拡張能力を連続的に学習し,それを新しいステージに転送することで,局所領域を既存領域に拡張する上で,少数のショットモデルを支援することができる。 具体的には、まず、局所領域から始まり、所定の局所領域に類似し隣接している共存領域に注意を向ける拡張性注意機構を考案する。 次に,拡張性アテンション機構を様々な特徴尺度で実装し,様々な受容領域において徐々にフルオブジェクトを発見する。 PASCAL VOCとCOCOデータセットの大規模な実験により、我々のECEAモジュールは、トレーニングサンプルに現れなかった領域や既存のFSOD法と比較して新しい技術状態を達成するにもかかわらず、いくつかの領域でオブジェクトを予測できるように、いくつかのショット検出器をアシストできることがわかった。

Few-shot object detection (FSOD) identifies objects from extremely few annotated samples. Most existing FSOD methods, recently, apply the two-stage learning paradigm, which transfers the knowledge learned from abundant base classes to assist the few-shot detectors by learning the global features. However, such existing FSOD approaches seldom consider the localization of objects from local to global. Limited by the scarce training data in FSOD, the training samples of novel classes typically capture part of objects, resulting in such FSOD methods cannot detect the completely unseen object during testing. To tackle this problem, we propose an Extensible Co-Existing Attention (ECEA) module to enable the model to infer the global object according to the local parts. Essentially, the proposed module continuously learns the extensible ability on the base stage with abundant samples and transfers it to the novel stage, which can assist the few-shot model to quickly adapt in extending local regions to co-existing regions. Specifically, we first devise an extensible attention mechanism that starts with a local region and extends attention to co-existing regions that are similar and adjacent to the given local region. We then implement the extensible attention mechanism in different feature scales to progressively discover the full object in various receptive fields. Extensive experiments on the PASCAL VOC and COCO datasets show that our ECEA module can assist the few-shot detector to completely predict the object despite some regions failing to appear in the training samples and achieve the new state of the art compared with existing FSOD methods.
翻訳日:2023-09-18 15:46:05 公開日:2023-09-15
# 火星の陽子オーロラの説明可能な深層学習モデル

An Explainable Deep-learning Model of Proton Auroras on Mars ( http://arxiv.org/abs/2309.08195v1 )

ライセンス: Link先を確認
Dattaraj B. Dhuri, Dimitra Atri, Ahmed AlHantoobi(参考訳) プロトンオーロラは火星の日側で広く観測されており、120kmから150kmの高度で水素ライアルファ (121.6 nm) 放出の著しい強度向上が確認されている。 火星の熱圏にエネルギー的中性原子として侵入する太陽風プロトンは、これらのオーロラの原因と考えられている。 したがって、陽子オーロラを理解することは、火星の大気との太陽風の相互作用を特徴づけるために重要である。 空間的に局在した「パチー」プロトンオーロラの最近の観測は、不安定な太陽風条件下で火星の大気にプロトンが直接堆積する可能性を示唆している。 そこで我々は,2014年から2022年にかけて,火星大気と揮発性エボリューティオN (MAVEN) を用いて,Lyα放射のその場観察と下肢スキャンを行った。 我々は、パーソン相関0.95で個々のLyα強度を再現し、観測されたLyα放射高度プロファイルを忠実に再構築する人工ニューラルネットワークを訓練する。 SHAP (SHapley Additive exPlanations) 解析により, 太陽ゼニス角, 季節的なCO2大気変動, 太陽風温度, 密度が, モデル化された陽子オーロラの最も重要な特徴であることがわかった。 また, 季節風および上流太陽風条件下でのLyα応答をシミュレーションし, 特徴付けるための安価なツールとして, 本モデルが有効であることを示す。

Proton auroras are widely observed on the day side of Mars, identified as a significant intensity enhancement in the hydrogen Ly alpha (121.6 nm) emission between 120 and 150~km altitudes. Solar wind protons penetrating as energetic neutral atoms into the Martian thermosphere are thought to be responsible for these auroras. Understanding proton auroras is therefore important for characterizing the solar wind interaction with the atmosphere of Mars. Recent observations of spatially localized "patchy" proton auroras suggest a possible direct deposition of protons into the atmosphere of Mars during unstable solar wind conditions. Here, we develop a purely data-driven model of proton auroras using Mars Atmosphere and Volatile EvolutioN (MAVEN) in situ observations and limb scans of Ly alpha emissions between 2014 and 2022. We train an artificial neural network that reproduces individual Ly alpha intensities with a Pearson correlation of 0.95 along with a faithful reconstruction of the observed Ly alpha emission altitude profiles. By performing a SHapley Additive exPlanations (SHAP) analysis, we find that Solar Zenith Angle, seasonal CO2 atmosphere variability, solar wind temperature, and density are the most important features for the modelled proton auroras. We also demonstrate that our model can serve as an inexpensive tool for simulating and characterizing Ly alpha response under a variety of seasonal and upstream solar wind conditions.
翻訳日:2023-09-18 15:45:36 公開日:2023-09-15
# Encoded Summarization: 判例検索のための文書を連続ベクトル空間に要約する

Encoded Summarization: Summarizing Documents into Continuous Vector Space for Legal Case Retrieval ( http://arxiv.org/abs/2309.08187v1 )

ライセンス: Link先を確認
Vu Tran, Minh Le Nguyen, Satoshi Tojo, and Ken Satoh(参考訳) 本稿では, 深層ニューラルネットワークを用いたフレーズスコアリングフレームワークを用いて, 文書を連続ベクトル空間に要約し, 文書を符号化する手法を導入することにより, 訴訟検索タスクに対処する手法を提案する。 一方,ニューラルネットワークで生成した語彙特徴と潜在特徴を組み合わせることで得られる利点について検討する。 実験の結果,ニューラルネットワークによって生成された語彙的特徴と潜時特徴が相互に補完され,検索システムの性能が向上することがわかった。 さらに,実験結果から,提供された要約を用いて符号化した要約を行う場合,異なる側面におけるケース要約の重要性が示唆された。 本手法は, 判例検索タスクの実験データセットにおいて65.6%, 57.6%のF1を達成した。

We present our method for tackling a legal case retrieval task by introducing our method of encoding documents by summarizing them into continuous vector space via our phrase scoring framework utilizing deep neural networks. On the other hand, we explore the benefits from combining lexical features and latent features generated with neural networks. Our experiments show that lexical features and latent features generated with neural networks complement each other to improve the retrieval system performance. Furthermore, our experimental results suggest the importance of case summarization in different aspects: using provided summaries and performing encoded summarization. Our approach achieved F1 of 65.6% and 57.6% on the experimental datasets of legal case retrieval tasks.
翻訳日:2023-09-18 15:45:12 公開日:2023-09-15
# 極端エッジでのオンデバイス学習能力を有する精度スケーラブルRISC-V DNNプロセッサ

A Precision-Scalable RISC-V DNN Processor with On-Device Learning Capability at the Extreme Edge ( http://arxiv.org/abs/2309.08186v1 )

ライセンス: Link先を確認
Longwei Huang, Chao Fang, Qiong Li, Jun Lin, Zhongfeng Wang(参考訳) 車両内スマートデバイスのような極端なエッジプラットフォームでは、限られたエネルギー、メモリ、コンピューティングリソースを持つインテリジェントなアプリケーションを実現するために、量子化されたディープニューラルネットワーク(DNN)の効率的なデプロイが必要である。 しかし、多くのエッジデバイスは、様々な量子化レベルのため、様々な量子化DNNの推論スループットを向上させるのに苦労しており、これらのデバイスはデバイス上での学習に対する浮動小数点(FP)サポートを欠いているため、データのプライバシを確保しながらモデルの正確性を改善することができない。 そこで本研究では,デバイス上での学習能力を有する高精度risc-v dnnプロセッサを提案する。 2ビットから16ビットにまたがる固定点DNN推論の様々な精度レベルを促進し、FP16操作によるサポートの改善を通じてデバイス上での学習を強化する。 さらに,FP16乗算器の再利用やマルチ精度整数乗算器の再利用,FPGAリソースのバランスの取れたマッピングなどの複数の手法を用いて,ハードウェアリソースの利用率を大幅に向上する。 Xilinx ZCU102 FPGA の実験結果から,プロセッサの推論スループットは 1.6$\sim$14.6$\times$ で,エネルギー効率は 1.1$\sim$14.6$\times$ で,先行技術である XpulpNN よりも大幅に向上した。 さらに、我々のプロセッサはデバイス上での学習のために16.5$\times$高いFPスループットを実現する。

Extreme edge platforms, such as in-vehicle smart devices, require efficient deployment of quantized deep neural networks (DNNs) to enable intelligent applications with limited amounts of energy, memory, and computing resources. However, many edge devices struggle to boost inference throughput of various quantized DNNs due to the varying quantization levels, and these devices lack floating-point (FP) support for on-device learning, which prevents them from improving model accuracy while ensuring data privacy. To tackle the challenges above, we propose a precision-scalable RISC-V DNN processor with on-device learning capability. It facilitates diverse precision levels of fixed-point DNN inference, spanning from 2-bit to 16-bit, and enhances on-device learning through improved support with FP16 operations. Moreover, we employ multiple methods such as FP16 multiplier reuse and multi-precision integer multiplier reuse, along with balanced mapping of FPGA resources, to significantly improve hardware resource utilization. Experimental results on the Xilinx ZCU102 FPGA show that our processor significantly improves inference throughput by 1.6$\sim$14.6$\times$ and energy efficiency by 1.1$\sim$14.6$\times$ across various DNNs, compared to the prior art, XpulpNN. Additionally, our processor achieves a 16.5$\times$ higher FP throughput for on-device learning.
翻訳日:2023-09-18 15:44:59 公開日:2023-09-15
# メタ蒸留学習を用いた多言語文レベル意味探索

Multilingual Sentence-Level Semantic Search using Meta-Distillation Learning ( http://arxiv.org/abs/2309.08185v1 )

ライセンス: Link先を確認
Meryem M'hamdi, Jonathan May, Franck Dernoncourt, Trung Bui, and Seunghyun Yoon(参考訳) 多言語意味探索は、異なる言語の組み合わせで表現されたクエリに関連コンテンツを取得するタスクである。 これはユーザの意図とその文脈的意味をよりよく理解する必要がある。 多言語セマンティックサーチは、このタスクに多言語並列リソースが欠如しており、「言語バイアス」を回避する必要性があるため、モノリンガルやバイリンガルよりも探究が困難である。 本研究では,MAML-Align,特に低リソースシナリオを対象としたアライメント手法を提案する。 本手法は最適化に基づくモデル非依存なメタリーナーであるmamlに基づくメタ蒸留学習を利用する。 MAML-Alignは、単言語からバイリンガルへのセマンティックサーチを専門とする教師メタトランスファーモデルT-MAMLから、二言語から多言語セマンティックサーチへメタトランスファーする学生モデルS-MAMLへの知識を蒸留する。 我々の知る限りでは、メタ蒸留を多言語検索アプリケーションに拡張するのは初めてである。 実験の結果, 文トランスフォーマーに基づく強いベースラインに加えて, メタ蒸留法がmamlによる利得を増加させ, 有意な微調整法を著しく上回ることがわかった。 さらに,多言語メタ蒸留学習は,未知言語においても一般化が向上する。

Multilingual semantic search is the task of retrieving relevant contents to a query expressed in different language combinations. This requires a better semantic understanding of the user's intent and its contextual meaning. Multilingual semantic search is less explored and more challenging than its monolingual or bilingual counterparts, due to the lack of multilingual parallel resources for this task and the need to circumvent "language bias". In this work, we propose an alignment approach: MAML-Align, specifically for low-resource scenarios. Our approach leverages meta-distillation learning based on MAML, an optimization-based Model-Agnostic Meta-Learner. MAML-Align distills knowledge from a Teacher meta-transfer model T-MAML, specialized in transferring from monolingual to bilingual semantic search, to a Student model S-MAML, which meta-transfers from bilingual to multilingual semantic search. To the best of our knowledge, we are the first to extend meta-distillation to a multilingual search application. Our empirical results show that on top of a strong baseline based on sentence transformers, our meta-distillation approach boosts the gains provided by MAML and significantly outperforms naive fine-tuning methods. Furthermore, multilingual meta-distillation learning improves generalization even to unseen languages.
翻訳日:2023-09-18 15:44:26 公開日:2023-09-15
# 人間のレベルに近づく物理学的単語問題の解法と説明に大言語モデルを使う

Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level ( http://arxiv.org/abs/2309.08182v1 )

ライセンス: Link先を確認
Jingzhe Ding, Yan Cen, Xinyuan Wei(参考訳) 本研究は,テキスト上で事前学習した大規模言語モデル(LLM)が,純粋数学の単語問題を解くだけでなく,従来の物理知識に基づく計算と推論によって解ける物理語問題も提示する。 我々は,1000以上の中学校物理語問題(Kinematics,Mass&Density,Mechanics,Heat,Electricity)を含む最初の物理単語データセットPhysQAを収集し,注釈する。 そして、openaiのs gpt3.5を使ってこれらの問題の答えを生成し、gpt3.5がゼロショット学習の49.3%、少数ショット学習の73.2%を自動で解決できることを発見した。 この結果から,LLMは類似問題とその解法を即時化することにより,人間レベルに近づく物理用語問題を解くことができた。 Besides automatically solving problems, GPT3.5 could also summarize the knowledge or topic examined by the problem, generate the relevant explanation, and synthesis new physics word problems according tothe input problems.Our work is the first research on automatically solving, explaining and generating physics word problems of multiple types and scenes, and we gain an acceptable and state-of-art accuracy, which demonstrates the potential of LLM's further application in the field of secondary education.

Our work demonstrates that large language model (LLM) pre-trained on texts can not only solve pure math word problems, but also physics word problems-problems to be solved by calculation and inference based on some prior physical knowledge. We collect and annotate the first physics word problem dataset-PhysQA, which contains over 1000 junior high school physics word problems (on Kinematics, Mass&Density, Mechanics, Heat, Electricity). Then we use OpenAI' s GPT3.5 to generate the answer of these problems and found that GPT3.5 could automatically solve 49.3% of the problems on zero-shot learning and 73.2% on few-shot learning. This result show that by using similar problem and its answer as prompt, LLM could solve elementary physics word problems approaching human level. Besides automatically solving problems, GPT3.5 could also summarize the knowledge or topic examined by the problem, generate the relevant explanation, and synthesis new physics word problems according tothe input problems.Our work is the first research on automatically solving, explaining and generating physics word problems of multiple types and scenes, and we gain an acceptable and state-of-art accuracy, which demonstrates the potential of LLM's further application in the field of secondary education.
翻訳日:2023-09-18 15:44:01 公開日:2023-09-15
# 故障モード分類のための大規模言語モデルの検討

Large Language Models for Failure Mode Classification: An Investigation ( http://arxiv.org/abs/2309.08181v1 )

ライセンス: Link先を確認
Michael Stewart, Melinda Hodkiewicz, and Sirui Li(参考訳) 本稿では,障害モード分類(fmc)における大規模言語モデル(llms)の有効性について初めて検討する。 監視を対応する障害モードコードで自動的にラベル付けするタスクであるFMCは、作業順序を手作業で分析する信頼性エンジニアの必要性を減らすため、メンテナンス領域において重要なタスクである。 我々は、LLMが制限されたコードリストを使用して、与えられた観測の失敗モードを予測することができるように、エンジニアリングを促すアプローチについて詳述する。 gpt-3.5モデル(f1=0.80)の性能は、同じ注釈付きデータセットでトレーニングされた現在利用可能なテキスト分類モデル(f1=0.60)よりも大幅に向上している。 微調整モデルはgpt-3.5(f1=0.46)よりも優れている。 本研究は、LLMを用いたドメイン固有タスクのための高品質な微調整データセットの必要性を補強するものである。

In this paper we present the first investigation into the effectiveness of Large Language Models (LLMs) for Failure Mode Classification (FMC). FMC, the task of automatically labelling an observation with a corresponding failure mode code, is a critical task in the maintenance domain as it reduces the need for reliability engineers to spend their time manually analysing work orders. We detail our approach to prompt engineering to enable an LLM to predict the failure mode of a given observation using a restricted code list. We demonstrate that the performance of a GPT-3.5 model (F1=0.80) fine-tuned on annotated data is a significant improvement over a currently available text classification model (F1=0.60) trained on the same annotated data set. The fine-tuned model also outperforms the out-of-the box GPT-3.5 (F1=0.46). This investigation reinforces the need for high quality fine-tuning data sets for domain-specific tasks using LLMs.
翻訳日:2023-09-18 15:43:39 公開日:2023-09-15
# STDG: 深層誘導ワンステージグラフ生成のための半教師学習パラダイグラム

STDG: Semi-Teacher-Student Training Paradigram for Depth-guided One-stage Scene Graph Generation ( http://arxiv.org/abs/2309.08179v1 )

ライセンス: Link先を確認
Xukun Zhou, Zhenbo Song, Jun He, Hongyan Liu, Zhaoxin Fan(参考訳) シーングラフ生成は自律ロボットシステムにおける環境理解の重要な実現要因である。 しかし、既存の手法の多くは、環境に固有のトポロジー情報を完全に解読する能力を制限する背景複雑性の複雑なダイナミクスによって妨げられることが多い。 さらに、奥行きの手がかりにカプセル化されたコンテキスト情報が豊富に残され、既存のアプローチでは効果が低下することが多い。 これらの欠点に対処するために,前衛的深さ誘導の一段階グラフ生成手法であるstdgを提案する。 STDGの革新的なアーキテクチャは、Depth Guided HHA表現生成モジュール、Depth Guided Semi-Teaching Network Learningモジュール、Depth Guided Scene Graph Generationモジュールの3つのカスタムビルドモジュールである。 このモジュールのトリフェクトは、深度信号生成や深度特徴利用から最終シーングラフ予測まで、すべての側面をカバーする深度情報を相乗的に活用する。 重要なことに、これは推論フェーズ中に追加の計算負荷を課すことなく達成される。 実験により,一段階のシーングラフ生成ベースラインの性能が著しく向上することを確認した。

Scene Graph Generation is a critical enabler of environmental comprehension for autonomous robotic systems. Most of existing methods, however, are often thwarted by the intricate dynamics of background complexity, which limits their ability to fully decode the inherent topological information of the environment. Additionally, the wealth of contextual information encapsulated within depth cues is often left untapped, rendering existing approaches less effective. To address these shortcomings, we present STDG, an avant-garde Depth-Guided One-Stage Scene Graph Generation methodology. The innovative architecture of STDG is a triad of custom-built modules: The Depth Guided HHA Representation Generation Module, the Depth Guided Semi-Teaching Network Learning Module, and the Depth Guided Scene Graph Generation Module. This trifecta of modules synergistically harnesses depth information, covering all aspects from depth signal generation and depth feature utilization, to the final scene graph prediction. Importantly, this is achieved without imposing additional computational burden during the inference phase. Experimental results confirm that our method significantly enhances the performance of one-stage scene graph generation baselines.
翻訳日:2023-09-18 15:43:26 公開日:2023-09-15
# FedJudge:Federated Legal Large Language Model

FedJudge: Federated Legal Large Language Model ( http://arxiv.org/abs/2309.08173v1 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Yichao Du, Weibo Gao, Ye Liu, Fangzhou Yao(参考訳) 大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。 しかし、これらの法定llmの集中的な訓練は、機密情報を含む様々な機関に法定データが配布されるため、データのプライバシーに関する懸念を引き起こす。 本稿では,LLMとFL(Federated Learning)方法論の統合を検討することで,この問題に対処する。 FLを使用することで、LLMをデバイスやクライアント上でローカルに微調整し、パラメータを集約して中央サーバに分散することで、生データを直接共有することなくデータのプライバシを保証できる。 しかし、計算と通信のオーバーヘッドは、FL設定下でのLLMの完全な微調整を妨げる。 さらに、法データの分布シフトにより、fl法の有効性が低下する。 そこで本稿では,法定llmを効率的かつ効率的に微調整する最初のfederated legal large language model (fedjudge)フレームワークを提案する。 特に、FedJudgeはパラメータ効率のよい微調整手法を使用して、FLトレーニング中に追加のパラメータのみを更新する。 さらに,データシフトの問題を緩和するために,地域クライアントのトレーニングを行う際に,グローバルモデルの重要なパラメータを保存するための連続学習手法についても検討する。 実世界の3つのデータセットの大規模な実験結果から,FedJudgeの有効性が明らかとなった。 コードはhttps://github.com/yuelinan/fedjudgeでリリースされる。

Large Language Models (LLMs) have gained prominence in the field of Legal Intelligence, offering potential applications in assisting legal professionals and laymen. However, the centralized training of these Legal LLMs raises data privacy concerns, as legal data is distributed among various institutions containing sensitive individual information. This paper addresses this challenge by exploring the integration of Legal LLMs with Federated Learning (FL) methodologies. By employing FL, Legal LLMs can be fine-tuned locally on devices or clients, and their parameters are aggregated and distributed on a central server, ensuring data privacy without directly sharing raw data. However, computation and communication overheads hinder the full fine-tuning of LLMs under the FL setting. Moreover, the distribution shift of legal data reduces the effectiveness of FL methods. To this end, in this paper, we propose the first Federated Legal Large Language Model (FedJudge) framework, which fine-tunes Legal LLMs efficiently and effectively. Specifically, FedJudge utilizes parameter-efficient fine-tuning methods to update only a few additional parameters during the FL training. Besides, we explore the continual learning methods to preserve the global model's important parameters when training local clients to mitigate the problem of data shifts. Extensive experimental results on three real-world datasets clearly validate the effectiveness of FedJudge. Code is released at https://github.com/yuelinan/FedJudge.
翻訳日:2023-09-18 15:43:05 公開日:2023-09-15
# スパイクニューラルネットワークにおけるアストロサイト結合型動的機能交換

Astrocyte-Integrated Dynamic Function Exchange in Spiking Neural Networks ( http://arxiv.org/abs/2309.08232v1 )

ライセンス: Link先を確認
Murat Isik, Kayode Inadagbo(参考訳) 本稿ではニューロモルフィックコンピューティングにおいて重要なコンポーネントであるスパイキングニューラルネットワーク(SNN)の堅牢性と計算効率を改善するための革新的な手法を提案する。 提案手法はヒト脳に広く分布するグリア細胞であるアストロサイトをSNNに統合し、アストロサイトを増強したネットワークを形成する。 そこで我々は,CPU/GPUとFPGAの2つのプラットフォームでアストロサイトモデルを設計,実装した。 我々のFPGA実装は、動的関数交換(DFX)技術を利用しており、現在の動作条件に基づいたリアルタイムハードウェア再構成と適応モデル作成を可能にしている。 アストロサイトを活用する新しいアプローチは、SNNのフォールトトレランスを大幅に改善し、その堅牢性を高める。 特にastrocyte-augmented snnは、ほぼゼロのレイテンシと理論的には無限のスループットを示しており、計算効率が極めて高いことを示している。 先行研究との包括的比較分析により, 効率的な消費電力プロファイルを維持しつつ, ニューロン数とシナプス数で他のモデルを上回ることが確認された。 これらの結果は、ロバストでエネルギー効率の良いシステムを提供することで、神経形コンピューティングの未来を形作るための方法論の可能性を強調する。

This paper presents an innovative methodology for improving the robustness and computational efficiency of Spiking Neural Networks (SNNs), a critical component in neuromorphic computing. The proposed approach integrates astrocytes, a type of glial cell prevalent in the human brain, into SNNs, creating astrocyte-augmented networks. To achieve this, we designed and implemented an astrocyte model in two distinct platforms: CPU/GPU and FPGA. Our FPGA implementation notably utilizes Dynamic Function Exchange (DFX) technology, enabling real-time hardware reconfiguration and adaptive model creation based on current operating conditions. The novel approach of leveraging astrocytes significantly improves the fault tolerance of SNNs, thereby enhancing their robustness. Notably, our astrocyte-augmented SNN displays near-zero latency and theoretically infinite throughput, implying exceptional computational efficiency. Through comprehensive comparative analysis with prior works, it's established that our model surpasses others in terms of neuron and synapse count while maintaining an efficient power consumption profile. These results underscore the potential of our methodology in shaping the future of neuromorphic computing, by providing robust and energy-efficient systems.
翻訳日:2023-09-18 15:35:15 公開日:2023-09-15
# gauss-legendreノードにおける潜在空間正規化によるオートエンコーダ圧縮下でのトポロジカルデータ構造保存の確保

Ensuring Toplogical Data-Structure Preservation under Autoencoder Compression due to Latent Space Regularization in Gauss--Legendre nodes ( http://arxiv.org/abs/2309.08228v1 )

ライセンス: Link先を確認
Chethan Krishnamurthy Ramanaik, Juan-Esteban Suarez Cardona, Anna Willmann, Pia Hanfeld, Nico Hoffmann and Michael Hecht(参考訳) 一般教師なしオートエンコーダに対するデータ独立潜在空間正規化制約を定式化する。 正規化は、ルジャンドルノードの自己エンコーダヤコビアンをサンプリングし、ガウス=レーゲンドル二次函数の中心となる。 この古典を再検討することで、正規化オートエンコーダが初期データ多様体を潜在表現に1対1で再埋め込みすることを保証することができる。 実証は、契約的自己エンコーディングのような事前提案された正規化戦略が、単純な例で既に位相的欠陥を引き起こしていることを示している。 対照的に、我々の貢献により正規化されている場合、トポロジカル保存は標準多層パーセプトロンニューラルネットワークによって既に確保されている。 この観察は、古典的なFashionMNISTデータセットを通じて、MRI脳スキャンのリアルタイム符号化問題まで拡張され、この正規化技術により、複雑な高次元データセットの信頼性の高い低次元表現が提供可能であることを示唆している。

We formulate a data independent latent space regularisation constraint for general unsupervised autoencoders. The regularisation rests on sampling the autoencoder Jacobian in Legendre nodes, being the centre of the Gauss-Legendre quadrature. Revisiting this classic enables to prove that regularised autoencoders ensure a one-to-one re-embedding of the initial data manifold to its latent representation. Demonstrations show that prior proposed regularisation strategies, such as contractive autoencoding, cause topological defects already for simple examples, and so do convolutional based (variational) autoencoders. In contrast, topological preservation is ensured already by standard multilayer perceptron neural networks when being regularised due to our contribution. This observation extends through the classic FashionMNIST dataset up to real world encoding problems for MRI brain scans, suggesting that, across disciplines, reliable low dimensional representations of complex high-dimensional datasets can be delivered due to this regularisation technique.
翻訳日:2023-09-18 15:34:52 公開日:2023-09-15
# VERSE:任意の推論で生涯学習をストリーミングする仮想グラディエント・アウェア

VERSE: Virtual-Gradient Aware Streaming Lifelong Learning with Anytime Inference ( http://arxiv.org/abs/2309.08227v1 )

ライセンス: Link先を確認
Soumya Banerjee, Vinay K. Verma, Avideep Mukherjee, Deepak Gupta, Vinay P. Namboodiri, Piyush Rai(参考訳) 生涯学習は、連続学習とも呼ばれ、AIエージェントを継続的に訓練すると同時に、以前取得した知識を忘れないようにする問題である。 既存の手法のほとんどは、主に静的環境における生涯学習に焦点を当てており、急速に変化する動的環境における忘れを軽減できない。 ストリーミング生涯学習は、忘れずに動的非定常環境での継続的学習を目標として、生涯学習の難しい設定である。 本稿では,ストリーミングである生涯学習に新たなアプローチを導入し,データに1回のパスを要し,クラスインクリメンタルな学習を可能とし,オンザフライ(任意の推論)で評価することができる。 そこで我々は,破滅的な忘れ込みを防止し,指数的移動平均型セマンティックメモリを活用して性能を向上させるために,連続表現学習のための仮想勾配を提案する。 多様なデータセットに関する広範囲な実験により,提案手法の有効性と既存の手法よりも優れた性能を示す。

Lifelong learning, also referred to as continual learning, is the problem of training an AI agent continuously while also preventing it from forgetting its previously acquired knowledge. Most of the existing methods primarily focus on lifelong learning within a static environment and lack the ability to mitigate forgetting in a quickly-changing dynamic environment. Streaming lifelong learning is a challenging setting of lifelong learning with the goal of continuous learning in a dynamic non-stationary environment without forgetting. We introduce a novel approach to lifelong learning, which is streaming, requires a single pass over the data, can learn in a class-incremental manner, and can be evaluated on-the-fly (anytime inference). To accomplish these, we propose virtual gradients for continual representation learning to prevent catastrophic forgetting and leverage an exponential-moving-average-based semantic memory to further enhance performance. Extensive experiments on diverse datasets demonstrate our method's efficacy and superior performance over existing methods.
翻訳日:2023-09-18 15:34:35 公開日:2023-09-15
# UniST:ビデオの相性予測と検出のための相性変換器の統合を目指して

UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection ( http://arxiv.org/abs/2309.08220v1 )

ライセンス: Link先を確認
Junwen Xiong, Peng Zhang, Chuanyue Li, Wei Huang, Yufei Zha, Tao You(参考訳) video saliency prediction and detectionは、コンピュータが視覚的な注意の分布をシミュレートする研究領域で、人間のダイナミックなシーンの認識に似ています。 多くのアプローチは、ビデオサルジェンシー予測またはビデオサルエントオブジェクト検出タスクのためのタスク固有のトレーニングパラダイムを構築しているが、これら2つのタスクをシームレスに橋渡しする一般的なサルエンシーモデリングフレームワークを開発することにはほとんど注意が払われていない。 本研究では,ビデオサリエンシー予測と映像サリエント物体検出の必須特性を包括的に活用する統一サリエンシートランス(unist)フレームワークを提案する。 フレームシーケンスの表現の抽出に加えて,高解像度の時空間表現を漸進的に増加させるとともに,効果的なクロススケール・サリエンシ情報を活用してロバストな表現を生成する。 さらに,タスク毎の最終予測を行うために,タスク固有のデコーダを提案する。 私たちの知る限りでは、この作業は、両方のサリエンシーモデリングタスクのためのトランスフォーマー構造を設計するための最初の作業です。 検証可能な実験により、提案したUniSTは、2つのタスクに対して7つの挑戦的なベンチマークで優れた性能を達成し、他の最先端の手法よりも大幅に優れていることが示された。

Video saliency prediction and detection are thriving research domains that enable computers to simulate the distribution of visual attention akin to how humans perceiving dynamic scenes. While many approaches have crafted task-specific training paradigms for either video saliency prediction or video salient object detection tasks, few attention has been devoted to devising a generalized saliency modeling framework that seamlessly bridges both these distinct tasks. In this study, we introduce the Unified Saliency Transformer (UniST) framework, which comprehensively utilizes the essential attributes of video saliency prediction and video salient object detection. In addition to extracting representations of frame sequences, a saliency-aware transformer is designed to learn the spatio-temporal representations at progressively increased resolutions, while incorporating effective cross-scale saliency information to produce a robust representation. Furthermore, a task-specific decoder is proposed to perform the final prediction for each task. To the best of our knowledge, this is the first work that explores designing a transformer structure for both saliency modeling tasks. Convincible experiments demonstrate that the proposed UniST achieves superior performance across seven challenging benchmarks for two tasks, and significantly outperforms the other state-of-the-art methods.
翻訳日:2023-09-18 15:34:19 公開日:2023-09-15
# 弱教師付き学習における統一リスク分析

Unified Risk Analysis for Weakly Supervised Learning ( http://arxiv.org/abs/2309.08216v1 )

ライセンス: Link先を確認
Chao-Kai Chiang, Masashi Sugiyama(参考訳) 弱い教師付き学習(wsl)の隆盛する研究の中で,我々は,経験的リスク最小化アプローチにおける重要なステップであるリスク書き換え問題の体系的な処理を言うまでもなく,弱い教師付きシナリオの背後にあるメカニズムの統一的な解釈の欠如を認識している。 本稿では,WSLの包括的理解と統一的方法論を提供するフレームワークを紹介する。 フレームワークの定式化コンポーネントは、汚染の観点から、弱い監視方法の統一的な解釈を提供し、15の既存のWSL設定を仮定する。 誘導還元グラフはWSL上の包括的な接続を提供する。 フレームワークの分析コンポーネントは、汚染除去プロセスと見なされ、リスクの書き直しを行う体系的な方法を提供する。 従来の逆行列法に加えて, 分布の分解を目的とした辺鎖と呼ばれる新しい戦略を考案する。 文献で報告されている既存の書き直しを復元することにより,提案フレームワークの実現可能性の正当化を図る。

Among the flourishing research of weakly supervised learning (WSL), we recognize the lack of a unified interpretation of the mechanism behind the weakly supervised scenarios, let alone a systematic treatment of the risk rewrite problem, a crucial step in the empirical risk minimization approach. In this paper, we introduce a framework providing a comprehensive understanding and a unified methodology for WSL. The formulation component of the framework, leveraging a contamination perspective, provides a unified interpretation of how weak supervision is formed and subsumes fifteen existing WSL settings. The induced reduction graphs offer comprehensive connections over WSLs. The analysis component of the framework, viewed as a decontamination process, provides a systematic method of conducting risk rewrite. In addition to the conventional inverse matrix approach, we devise a novel strategy called marginal chain aiming to decontaminate distributions. We justify the feasibility of the proposed framework by recovering existing rewrites reported in the literature.
翻訳日:2023-09-18 15:33:51 公開日:2023-09-15
# 長文質問応答におけるllmの応答性の検討

Investigating Answerability of LLMs for Long-Form Question Answering ( http://arxiv.org/abs/2309.08210v1 )

ライセンス: Link先を確認
Meghana Moorthy Bhat, Rui Meng, Ye Liu, Yingbo Zhou and Semih Yavuz(参考訳) LLMの新しい時代に乗り出すにつれ、その能力、限界、差異を理解することがますます重要になってきています。 この方向をさらに進めるために,我々は,大規模なllm(chatgptなど)と,小型かつ効率的なオープンソースのllmとその蒸留液とのギャップをより深く理解することに努める。 この目的のために、我々は長文質問応答(LFQA)に特に焦点を合わせています。なぜなら、LLMには実用的で影響力のあるアプリケーション(トラブルシューティング、カスタマーサービスなど)がいくつかあるからですが、まだ検討が進んでおり、挑戦的です。 本稿では,要約要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成すると,llmが長い文脈から推論し推論するための困難な設定となることを示す。 実験結果から,(1)抽象要約から質問を生成する手法は,LCMにとって困難な設定であり,ChatGPTやオープンソースLSM(Alpaca, Llama)のようなLCM間の性能差を示す。(2)オープンソースLSMは,原文書から生成された質問に対する文脈依存度を低下させるが,その生成能力は要約から生成された質問に対して著しく低下する(>1024トークン)。

As we embark on a new era of LLMs, it becomes increasingly crucial to understand their capabilities, limitations, and differences. Toward making further progress in this direction, we strive to build a deeper understanding of the gaps between massive LLMs (e.g., ChatGPT) and smaller yet effective open-source LLMs and their distilled counterparts. To this end, we specifically focus on long-form question answering (LFQA) because it has several practical and impactful applications (e.g., troubleshooting, customer service, etc.) yet is still understudied and challenging for LLMs. We propose a question-generation method from abstractive summaries and show that generating follow-up questions from summaries of long documents can create a challenging setting for LLMs to reason and infer from long contexts. Our experimental results confirm that: (1) our proposed method of generating questions from abstractive summaries pose a challenging setup for LLMs and shows performance gaps between LLMs like ChatGPT and open-source LLMs (Alpaca, Llama) (2) open-source LLMs exhibit decreased reliance on context for generated questions from the original document, but their generation capabilities drop significantly on generated questions from summaries -- especially for longer contexts (>1024 tokens)
翻訳日:2023-09-18 15:33:36 公開日:2023-09-15
# HM-Conformer:階層プールとマルチレベル分類トークンアグリゲーション法を用いたコンフォーマに基づくオーディオディープフェイク検出システム

HM-Conformer: A Conformer-based audio deepfake detection system with hierarchical pooling and multi-level classification token aggregation methods ( http://arxiv.org/abs/2309.08208v1 )

ライセンス: Link先を確認
Hyun-seo Shin, Jungwoo Heo, Ju-ho Kim, Chan-yeong Lim, Wonbin Kim, and Ha-Jin Yu(参考訳) 音声ディープフェイク検出(Audio Deepfake Detection、ADD)は、音声や音声の音声変換システムによって発生する偽造攻撃を検出するタスクである。 スプーフとボナフッドの発話を区別するのに役立つスポーフエビデンス(Spofing evidence)は、入力機能にローカルまたはグローバルに存在する可能性がある。 これらをキャプチャするには、トランスフォーマーとcnnで構成されるコンフォーメータが適切な構造を持っている。 しかし、コンフォーマーはシーケンス・ツー・シーケンスタスク用に設計されているため、ADDタスクへの直接適用は準最適かもしれない。 この制限に対処するため,(1)階層型プーリング法によりシーケンス長を段階的に削減して重複情報を排除し,(2)分類トークンを利用して異なるブロックから情報を収集する多層分類トークン集約法を提案する。 これらのコンポーネントにより、HM-Conformerは、様々なシーケンス長を処理し、それらを集約することで、スプーフィングエビデンスを効率的に検出できる。 ASVspoof 2021 Deepfakeデータセットの実験結果において、HM-Conformerは15.71%のEERを達成した。

Audio deepfake detection (ADD) is the task of detecting spoofing attacks generated by text-to-speech or voice conversion systems. Spoofing evidence, which helps to distinguish between spoofed and bona-fide utterances, might exist either locally or globally in the input features. To capture these, the Conformer, which consists of Transformers and CNN, possesses a suitable structure. However, since the Conformer was designed for sequence-to-sequence tasks, its direct application to ADD tasks may be sub-optimal. To tackle this limitation, we propose HM-Conformer by adopting two components: (1) Hierarchical pooling method progressively reducing the sequence length to eliminate duplicated information (2) Multi-level classification token aggregation method utilizing classification tokens to gather information from different blocks. Owing to these components, HM-Conformer can efficiently detect spoofing evidence by processing various sequence lengths and aggregating them. In experimental results on the ASVspoof 2021 Deepfake dataset, HM-Conformer achieved a 15.71% EER, showing competitive performance compared to recent systems.
翻訳日:2023-09-18 15:33:13 公開日:2023-09-15
# 変圧器駆動光リモートセンシング画像における局所物体検出

Salient Object Detection in Optical Remote Sensing Images Driven by Transformer ( http://arxiv.org/abs/2309.08206v1 )

ライセンス: Link先を確認
Gongyang Li and Zhen Bai and Zhi Liu and Xinpeng Zhang and Haibin Ling(参考訳) 光リモートセンシング画像(ORSI-SOD)における有能物体検出のための既存の手法は、主にVGGやResNetなどのバックボーンとして畳み込みニューラルネットワーク(CNN)を採用している。 CNNは、特定の受容領域内でのみ特徴を抽出できるため、ほとんどのORSI-SODメソッドは、一般にローカルからコンテクストのパラダイムに従う。 本稿では, ORSI-SODのためのグローバル抽出ローカル探索ネットワーク(GeleNet)を提案する。 具体的には、gelenetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存性を持つ4レベル機能埋め込みを生成する。 次に、gelenetは方向認識型シャッフル重み付き空間注意モジュール(d-swsam)とその単純化バージョン(swsam)を使用して局所的な相互作用を強化し、ktm(知識伝達モジュール)によりクロスレベルなコンテキストインタラクションをさらに強化する。 d-swsamは、オリエント対象の様々なオリエンテーションに適応するための方向畳み込みにより、低レベル特徴のオリエンテーション情報を総合的に知覚し、注意機構を改良したサレント対象のディテールを効果的に向上させる。 SWSAMは、D-SWSAMの方向認識部分を捨てて、最高レベルの特徴における有能なオブジェクトのローカライズに集中する。 ktmは、自己照査機構に基づいて、異なるスケールの2つの中レベル特徴の文脈相関知識をモデル化し、知識を生特徴に移し、より識別的な特徴を生成する。 最後に、上記3つのモジュールの出力に基づいて、塩分予測器を用いて塩分マップを生成する。 3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。 このメソッドのコードと結果は、https://github.com/mathlee/gelenetで入手できます。

Existing methods for Salient Object Detection in Optical Remote Sensing Images (ORSI-SOD) mainly adopt Convolutional Neural Networks (CNNs) as the backbone, such as VGG and ResNet. Since CNNs can only extract features within certain receptive fields, most ORSI-SOD methods generally follow the local-to-contextual paradigm. In this paper, we propose a novel Global Extraction Local Exploration Network (GeleNet) for ORSI-SOD following the global-to-local paradigm. Specifically, GeleNet first adopts a transformer backbone to generate four-level feature embeddings with global long-range dependencies. Then, GeleNet employs a Direction-aware Shuffle Weighted Spatial Attention Module (D-SWSAM) and its simplified version (SWSAM) to enhance local interactions, and a Knowledge Transfer Module (KTM) to further enhance cross-level contextual interactions. D-SWSAM comprehensively perceives the orientation information in the lowest-level features through directional convolutions to adapt to various orientations of salient objects in ORSIs, and effectively enhances the details of salient objects with an improved attention mechanism. SWSAM discards the direction-aware part of D-SWSAM to focus on localizing salient objects in the highest-level features. KTM models the contextual correlation knowledge of two middle-level features of different scales based on the self-attention mechanism, and transfers the knowledge to the raw features to generate more discriminative features. Finally, a saliency predictor is used to generate the saliency map based on the outputs of the above three modules. Extensive experiments on three public datasets demonstrate that the proposed GeleNet outperforms relevant state-of-the-art methods. The code and results of our method are available at https://github.com/MathLee/GeleNet.
翻訳日:2023-09-18 15:32:44 公開日:2023-09-15
# 不完全マルチモーダル学習のための1段階モーダル蒸留

One-stage Modality Distillation for Incomplete Multimodal Learning ( http://arxiv.org/abs/2309.08204v1 )

ライセンス: Link先を確認
Shicai Wei, Yang Luo, Chunbo Luo(参考訳) 近年,マルチモーダルデータに基づく学習への関心が高まっている。 様々な感覚的モダリティがトレーニングのために収集されるが、開発シナリオで常に利用可能であるとは限らないため、不完全なモダリティを推測することの難しさが高まる。 この問題に対処するため,マルチタスク学習を通じて,特権的知識伝達とモダリティ情報融合を単一の最適化手順に統合する一段階のモダリティ蒸留フレームワークを提案する。 単独で行う従来のモダリティ蒸留と比較すると、これは最終モデル推論を直接支援できる貴重な表現を捉えるのに役立つ。 具体的には、特権情報を保存するモダリティ転送タスクのための協調適応ネットワークを提案する。 これは、結合分布適応による入力不一致に起因する表現の不均一性に対処する。 次に,モダリティ融合タスクのためのクロス翻訳ネットワークを導入し,復元および利用可能なモダリティ機能を集約する。 パラメータ共有戦略を利用して、クロスモーダルなキューを明示的にキャプチャする。 rgb-d分類とセグメンテーションタスクに関する広範な実験により、提案されたマルチモーダル継承フレームワークは、様々なシーンにおける不完全モダリティ入力の問題を克服し、最先端のパフォーマンスを達成することができる。

Learning based on multimodal data has attracted increasing interest recently. While a variety of sensory modalities can be collected for training, not all of them are always available in development scenarios, which raises the challenge to infer with incomplete modality. To address this issue, this paper presents a one-stage modality distillation framework that unifies the privileged knowledge transfer and modality information fusion into a single optimization procedure via multi-task learning. Compared with the conventional modality distillation that performs them independently, this helps to capture the valuable representation that can assist the final model inference directly. Specifically, we propose the joint adaptation network for the modality transfer task to preserve the privileged information. This addresses the representation heterogeneity caused by input discrepancy via the joint distribution adaptation. Then, we introduce the cross translation network for the modality fusion task to aggregate the restored and available modality features. It leverages the parameters-sharing strategy to capture the cross-modal cues explicitly. Extensive experiments on RGB-D classification and segmentation tasks demonstrate the proposed multimodal inheritance framework can overcome the problem of incomplete modality input in various scenes and achieve state-of-the-art performance.
翻訳日:2023-09-18 15:32:09 公開日:2023-09-15
# 線形多重カーネルを用いたガウス過程:スペクトル設計と多次元データの分散学習

Gaussian Processes with Linear Multiple Kernel: Spectrum Design and Distributed Learning for Multi-Dimensional Data ( http://arxiv.org/abs/2309.08201v1 )

ライセンス: Link先を確認
Richard Cornelius Suwandi, Zhidi Lin, Feng Yin(参考訳) ガウス過程(GP)は、機械学習と信号処理の顕著な技術として登場した。 GPモデリングにおける重要な要素はカーネルの選択であり、線形多重カーネル(LMK)はその強力なモデリング能力と解釈可能性のために魅力的なカーネルクラスになっている。 本稿では、任意の定常カーネルを近似可能なLMKであるグリッドスペクトル混合(GSM)カーネルに焦点を当てる。 具体的には,多次元データに対する新しいgsmカーネル定式化法を提案し,既存の定式化に比べてハイパーパラメータ数を減少させるとともに,最適化構造と近似能力も保持する。 さらに,GSMカーネルにおける大規模ハイパーパラメータ最適化を実現するために,まず分散SCA(DSCA)アルゴリズムを導入する。 そこで我々は,データプライバシを維持しながら,ビッグデータのコンテキストにおいてGSMカーネルを協調的に学習することのできる,乗算器(ADMM)フレームワークの交互方向法に基づく2倍分散SCA(D$^2$SCA)アルゴリズムを提案する。 さらに,D$^2$SCAのハイパーパラメータを定量化することにより,分散フレームワークにおける通信帯域幅制限に対処し,量子化された2倍分散SCA(QD$^2$SCA)アルゴリズムを実現する。 理論的解析により,提案アルゴリズムの収束保証が確立され,多様なデータセットを用いた実験により,提案手法の予測性能と効率が向上した。

Gaussian processes (GPs) have emerged as a prominent technique for machine learning and signal processing. A key component in GP modeling is the choice of kernel, and linear multiple kernels (LMKs) have become an attractive kernel class due to their powerful modeling capacity and interpretability. This paper focuses on the grid spectral mixture (GSM) kernel, an LMK that can approximate arbitrary stationary kernels. Specifically, we propose a novel GSM kernel formulation for multi-dimensional data that reduces the number of hyper-parameters compared to existing formulations, while also retaining a favorable optimization structure and approximation capability. In addition, to make the large-scale hyper-parameter optimization in the GSM kernel tractable, we first introduce the distributed SCA (DSCA) algorithm. Building on this, we propose the doubly distributed SCA (D$^2$SCA) algorithm based on the alternating direction method of multipliers (ADMM) framework, which allows us to cooperatively learn the GSM kernel in the context of big data while maintaining data privacy. Furthermore, we tackle the inherent communication bandwidth restriction in distributed frameworks, by quantizing the hyper-parameters in D$^2$SCA, resulting in the quantized doubly distributed SCA (QD$^2$SCA) algorithm. Theoretical analysis establishes convergence guarantees for the proposed algorithms, while experiments on diverse datasets demonstrate the superior prediction performance and efficiency of our methods.
翻訳日:2023-09-18 15:31:49 公開日:2023-09-15
# cartoondiff:拡散トランスフォーマーモデルを用いたトレーニングフリーマンガ画像生成

Cartoondiff: Training-free Cartoon Image Generation with Diffusion Transformer Models ( http://arxiv.org/abs/2309.08251v1 )

ライセンス: Link先を確認
Feihong He, Gang Li, Lingyu Si, Leilei Yan, Shimeng Hou, Hongwei Dong, Fanzhang Li(参考訳) 画像の漫画化は画像生成の分野で大きな関心を集めている。 しかし、既存の画像漫画化技術の多くは、漫画スタイルの画像を用いた再学習モデルを必要とする。 本稿では,拡散トランスフォーマーモデルを用いた画像マンガライゼーションを生成する,新しいトレーニングフリーサンプリング手法であるcartoondiffを提案する。 具体的には,拡散モデルの逆過程を意味生成フェーズと詳細生成フェーズに分解する。 さらに,ノイズ画像の高周波信号を特定段階で正規化することにより,画像のマンガ化処理を実現する。 cartoondiffは、追加の参照画像、複雑なモデル設計、複数のパラメータの面倒な調整を必要としない。 広範な実験結果から,CartoonDiffの強力な能力が確認された。 プロジェクトページは、https://cartoondiff.github.io/で入手できる。

Image cartoonization has attracted significant interest in the field of image generation. However, most of the existing image cartoonization techniques require re-training models using images of cartoon style. In this paper, we present CartoonDiff, a novel training-free sampling approach which generates image cartoonization using diffusion transformer models. Specifically, we decompose the reverse process of diffusion models into the semantic generation phase and the detail generation phase. Furthermore, we implement the image cartoonization process by normalizing high-frequency signal of the noisy image in specific denoising steps. CartoonDiff doesn't require any additional reference images, complex model designs, or the tedious adjustment of multiple parameters. Extensive experimental results show the powerful ability of our CartoonDiff. The project page is available at: https://cartoondiff.github.io/
翻訳日:2023-09-18 15:24:59 公開日:2023-09-15
# 画像検索のためのランク損失の最適化

Optimization of Rank Losses for Image Retrieval ( http://arxiv.org/abs/2309.08250v1 )

ライセンス: Link先を確認
Elias Ramzi, Nicolas Audebert, Cl\'ement Rambour, Andr\'e Araujo, Xavier Bitot, Nicolas Thome(参考訳) 画像検索において、標準評価指標はスコアランキング、平均精度(ap)、kでのリコール(r@k)、正規化ディスカウント累積ゲイン(ndcg)に依存する。 本研究では、ロバストで分解可能なランク損失最適化のための一般的なフレームワークを紹介する。 ディープニューラルネットワークのエンドツーエンドトレーニングにおいて、ランクロスを伴う2つの大きな課題に対処している。 まず、階数演算子 SupRank に対して、確率的勾配降下に順応可能な一般代名詞を提案する。 階級の損失に上限を与え、堅実な訓練を確実にする。 第2に,単純な有効損失関数を用いて,学習セット全体のランキング損失の平均バッチ近似値とそれらの値との非可逆性ギャップを低減する。 我々は、画像検索のための2つの標準指標、APとR@kに適用する。 さらに,このフレームワークを階層的画像検索に適用する。 我々は,階層的平均精度$\mathcal{H}$-APであるAPの拡張を導入し,NDCGと同様に最適化する。 最後に、最初の階層的ランドマーク検索データセットを作成する。 半自動パイプラインを使用して階層ラベルを作成し、大規模なGoogle Landmarks v2データセットを拡張しています。 階層データセットはhttps://github.com/cvdfoundation/google-landmarkで公開されている。 コードはhttps://github.com/elias-ramzi/suprankでリリースされる。

In image retrieval, standard evaluation metrics rely on score ranking, \eg average precision (AP), recall at k (R@k), normalized discounted cumulative gain (NDCG). In this work we introduce a general framework for robust and decomposable rank losses optimization. It addresses two major challenges for end-to-end training of deep neural networks with rank losses: non-differentiability and non-decomposability. Firstly we propose a general surrogate for ranking operator, SupRank, that is amenable to stochastic gradient descent. It provides an upperbound for rank losses and ensures robust training. Secondly, we use a simple yet effective loss function to reduce the decomposability gap between the averaged batch approximation of ranking losses and their values on the whole training set. We apply our framework to two standard metrics for image retrieval: AP and R@k. Additionally we apply our framework to hierarchical image retrieval. We introduce an extension of AP, the hierarchical average precision $\mathcal{H}$-AP, and optimize it as well as the NDCG. Finally we create the first hierarchical landmarks retrieval dataset. We use a semi-automatic pipeline to create hierarchical labels, extending the large scale Google Landmarks v2 dataset. The hierarchical dataset is publicly available at https://github.com/cvdfoundation/google-landmark. Code will be released at https://github.com/elias-ramzi/SupRank.
翻訳日:2023-09-18 15:24:48 公開日:2023-09-15
# ベータダイバージェンスを用いた深部非負行列因子分解

Deep Nonnegative Matrix Factorization with Beta Divergences ( http://arxiv.org/abs/2309.08249v1 )

ライセンス: Link先を確認
Valentin Leplat, Le Thi Khanh Hien, Akwum Onwunta, Nicolas Gillis(参考訳) ディープ非負行列因子化(Deep Non negative Matrix Factorization, ディープNMF)は、最近、異なるスケールで複数の特徴層を抽出する貴重な手法として登場した。 しかし、既存のディープNMFモデルとアルゴリズムは、主に最小二乗誤差に基づく評価が中心であり、多様なデータセットの近似の質を評価するのに最も適していないかもしれない。 例えば、音声信号や文書などのデータ型を扱う場合、$\beta$-divergencesはより適切な選択肢を提供すると広く認識されている。 本稿では,$\beta$-divergences を用いた深部NMFの新しいモデルとアルゴリズムを提案する。 次に,これらの手法を,顔の特徴の抽出,文書収集中の話題の同定,ハイパースペクトル画像中の資料の同定に応用する。

Deep Nonnegative Matrix Factorization (deep NMF) has recently emerged as a valuable technique for extracting multiple layers of features across different scales. However, all existing deep NMF models and algorithms have primarily centered their evaluation on the least squares error, which may not be the most appropriate metric for assessing the quality of approximations on diverse datasets. For instance, when dealing with data types such as audio signals and documents, it is widely acknowledged that $\beta$-divergences offer a more suitable alternative. In this paper, we develop new models and algorithms for deep NMF using $\beta$-divergences. Subsequently, we apply these techniques to the extraction of facial features, the identification of topics within document collections, and the identification of materials within hyperspectral images.
翻訳日:2023-09-18 15:24:27 公開日:2023-09-15
# オートエンコーダの幾何学的展望

A Geometric Perspective on Autoencoders ( http://arxiv.org/abs/2309.08247v1 )

ライセンス: Link先を確認
Yonghyeon Lee(参考訳) 本稿では,オートエンコーダフレームワークの幾何学的側面について述べる。 ある低次元多様体上に位置する高次元データ点の集合が与えられたとき、オートエンコーダは \textit{manifold} とその \textit{coordinate chart} を同時に学習する。 この幾何学的視点は自然に「有限個のデータ点の集合が単一の多様体に対応するか」や「多様体を表現できる座標チャートは1つしかないか? これらの質問に対する応答は否定的であり、データセットが与えられた複数のソリューションオートエンコーダが存在することを意味する。 結果として、しばしばひどく歪んだ潜在空間表現を持つ不正確な多様体を生み出す。 本稿ではこれらの問題に対処する最近の幾何学的アプローチを紹介する。

This paper presents the geometric aspect of the autoencoder framework, which, despite its importance, has been relatively less recognized. Given a set of high-dimensional data points that approximately lie on some lower-dimensional manifold, an autoencoder learns the \textit{manifold} and its \textit{coordinate chart}, simultaneously. This geometric perspective naturally raises inquiries like "Does a finite set of data points correspond to a single manifold?" or "Is there only one coordinate chart that can represent the manifold?". The responses to these questions are negative, implying that there are multiple solution autoencoders given a dataset. Consequently, they sometimes produce incorrect manifolds with severely distorted latent space representations. In this paper, we introduce recent geometric approaches that address these issues.
翻訳日:2023-09-18 15:24:15 公開日:2023-09-15
# 学習型LCMを用いたリアルタイムデブリ検出装置

A Real-time Faint Space Debris Detector With Learning-based LCM ( http://arxiv.org/abs/2309.08244v1 )

ライセンス: Link先を確認
Zherui Lu, Gangyi Wang, Xinguo Wei, and Jian Li(参考訳) 航空宇宙技術の発展により、宇宙ゴミの増加は宇宙船の安全性に大きな脅威となった。 しかし、反射光の低強度と宇宙ゴミの高角速度は抽出を妨げた。 また、地上観測手法の限界のため、小さな宇宙デブリは検出できないため、宇宙状況認識(SSA)のための宇宙船の能力を高める必要がある。 従来の手法では低snr目標検出にいくつかの欠陥があるため,snr 2.0で宇宙物体を効率的に検出できる局所コントラスト・最大推定法(mle)に基づく低snrストリーク抽出法を提案する。 提案するアルゴリズムでは,局所的なコントラストを粗い分類に適用し,先行的な結果として連結成分を返却し,mleを用いて目標の連結成分を定位成長によって再構築し,さらに精度を向上させる。 このアルゴリズムは、シミュレーションされたストリーク画像と実星追跡画像の両方で検証されており、提案アルゴリズムの平均セントロイド誤差はODCCのような最先端の手法に近い。 同時に,本論文のアルゴリズムはODCCと比較して効率の面で大きな利点がある。 結論として,本論文のアルゴリズムは高速かつ高精度であり,高い動的ターゲットの抽出に有望な応用を保証している。

With the development of aerospace technology, the increasing population of space debris has posed a great threat to the safety of spacecraft. However, the low intensity of reflected light and high angular velocity of space debris impede the extraction. Besides, due to the limitations of the ground observation methods, small space debris can hardly be detected, making it necessary to enhance the spacecraft's capacity for space situational awareness (SSA). Considering that traditional methods have some defects in low-SNR target detection, such as low effectiveness and large time consumption, this paper proposes a method for low-SNR streak extraction based on local contrast and maximum likelihood estimation (MLE), which can detect space objects with SNR 2.0 efficiently. In the proposed algorithm, local contrast will be applied for crude classifications, which will return connected components as preliminary results, and then MLE will be performed to reconstruct the connected components of targets via orientated growth, further improving the precision. The algorithm has been verified with both simulated streaks and real star tracker images, and the average centroid error of the proposed algorithm is close to the state-of-the-art method like ODCC. At the same time, the algorithm in this paper has significant advantages in efficiency compared with ODCC. In conclusion, the algorithm in this paper is of high speed and precision, which guarantees its promising applications in the extraction of high dynamic targets.
翻訳日:2023-09-18 15:24:01 公開日:2023-09-15
# 任意の自律量子系に対する熱力学の法則の延長」への回答

Reply to "Comment on `Extending the laws of thermodynamics for arbitrary autonomous quantum systems'" ( http://arxiv.org/abs/2309.08243v1 )

ライセンス: Link先を確認
Cyril Elouard and Camille Lombard Latune(参考訳) philip strasberg 氏のコメント [1] で、philip strasberg 氏 (ps) は、[2] で提示したフレームワークがマクロ教科書の熱力学の既知の結果を回復しない様々な例の分析から論じている。 ここでは,上記の既定結果が適用された場合に,このような明らかな矛盾が消失することを示す。 これらの仮定は、オブザーバの制御能力、記述された自由度の性質、システムの規模に関するものである。 これらの仮定を緩和する能力は、我々のフレームワークのモチベーションであり、教科書の熱力学では捉えられないスケールでも、仕事と熱を交換する量子システムの能力を調べることができる。 この回答の機会を利用して、私たちのフレームワークとその従来の熱力学とのつながりをさらに拡大します。

In his Comment [1], Philip Strasberg (PS) argues from the analysis of different examples that the framework we have presented in [2] does not recover known results of macroscopic textbook thermodynamics. Here, we show that such apparent contradictions disappear when the necessary assumptions the aforementioned known results pre-suppose are applied. Those assumptions concern the control ability of the observer, the nature of the described degree of freedom, or the scale of the systems. The ability to relax those assumptions is precisely a motivation of our framework, which can explore the capacity of quantum systems to exchange work and heat even at scales not captured by textbook thermodynamics. We take the opportunity of this reply to further expand on the use of our framework and its connections with traditional thermodynamics.
翻訳日:2023-09-18 15:23:40 公開日:2023-09-15
# Topological Node2vec: Persistent Homologyによるグラフ埋め込みの強化

Topological Node2vec: Enhanced Graph Embedding via Persistent Homology ( http://arxiv.org/abs/2309.08241v1 )

ライセンス: Link先を確認
Yasuaki Hiraoka, Yusuke Imoto, Killian Meehan, Th\'eo Lacombe, Toshiaki Yachimura(参考訳) node2vecは、重み付きグラフの各ノードのベクトル表現を学習し、相対的近接性と大域的構造を保存するグラフ埋め込み手法である。 数値実験によると、node2vecは入力グラフのトポロジーを再作成するのに苦労している。 これを解決するために、我々はNode2vecのトレーニング損失に追加すべきトポロジ的損失項を紹介します。 計算最適輸送の結果に従えば、エントロピー正則化をPDメトリクスに慎重に適応させ、PD間の相違を異なる方法で測定することができる。 修正された損失関数は勾配降下によって最小化し、入力グラフの幾何と位相の両方を再構成することができる。 この手法の利点を実証的な合成例を用いて紹介する。

Node2vec is a graph embedding method that learns a vector representation for each node of a weighted graph while seeking to preserve relative proximity and global structure. Numerical experiments suggest Node2vec struggles to recreate the topology of the input graph. To resolve this we introduce a topological loss term to be added to the training loss of Node2vec which tries to align the persistence diagram (PD) of the resulting embedding as closely as possible to that of the input graph. Following results in computational optimal transport, we carefully adapt entropic regularization to PD metrics, allowing us to measure the discrepancy between PDs in a differentiable way. Our modified loss function can then be minimized through gradient descent to reconstruct both the geometry and the topology of the input graph. We showcase the benefits of this approach using demonstrative synthetic examples.
翻訳日:2023-09-18 15:23:25 公開日:2023-09-15
# 目に見えない環境における視覚物体認識のための人為的トポロジカル表現

Human-Inspired Topological Representations for Visual Object Recognition in Unseen Environments ( http://arxiv.org/abs/2309.08239v1 )

ライセンス: Link先を確認
Ekta U. Samani and Ashis G. Banerjee(参考訳) 屋内環境における視覚物体認識は, 移動ロボットにとって難しい課題である。 この目標に向けて、我々は以前の研究を拡張し、tops2ディスクリプタと、それに伴う認識フレームワークであるthor2を、object unityとして知られる人間の推論機構にインスパイアした。 形状に基づくTOPSデクリプタと位相的ソフトクラスタリングのためのMapperアルゴリズムを用いて得られたカラー埋め込みをインターリーブし、TOPS2デクリプタを得る。 合成データを用いてトレーニングされたTHOR2は、形状ベースのTHORフレームワークよりもかなり高い認識精度を実現し、ベンチマークOCIDデータセットとUW-IS Occludedデータセットの2つの実世界のデータセットでRGB-D ViTを上回っている。 したがって、THOR2は低コストロボットにおける堅牢な認識を実現するための有望なステップである。

Visual object recognition in unseen and cluttered indoor environments is a challenging problem for mobile robots. Toward this goal, we extend our previous work to propose the TOPS2 descriptor, and an accompanying recognition framework, THOR2, inspired by a human reasoning mechanism known as object unity. We interleave color embeddings obtained using the Mapper algorithm for topological soft clustering with the shape-based TOPS descriptor to obtain the TOPS2 descriptor. THOR2, trained using synthetic data, achieves substantially higher recognition accuracy than the shape-based THOR framework and outperforms RGB-D ViT on two real-world datasets: the benchmark OCID dataset and the UW-IS Occluded dataset. Therefore, THOR2 is a promising step toward achieving robust recognition in low-cost robots.
翻訳日:2023-09-18 15:23:09 公開日:2023-09-15
# 重力相互作用ダークマターの量子検出

Quantum Detection of Gravitationally Interacting Dark Matter ( http://arxiv.org/abs/2309.08238v1 )

ライセンス: Link先を確認
Alejandro Perez, Carlo Rovelli, and Marios Christodoulou(参考訳) 我々は、重力を媒介とする量子位相シフトの非常に高い感度を用いて、純粋に重力相互作用する暗黒物質を検出する理論的可能性を示す。

We point out the theoretical possibility of detecting purely gravitationally interacting dark matter using the very high sensitivity of gravitationally mediated quantum phase shift.
翻訳日:2023-09-18 15:22:54 公開日:2023-09-15
# 積分学習による効率的なポリプセグメンテーション

Efficient Polyp Segmentation Via Integrity Learning ( http://arxiv.org/abs/2309.08234v1 )

ライセンス: Link先を確認
Ziqiang Chen, Kang Wang, Yun Liu(参考訳) 大腸内視鏡におけるポリープの正確な描出は,診断,指導,治療の補助に重要である。 しかし、現在のディープラーニングアプローチは整合性の欠如のために不足しており、しばしば欠落した病変部分として現れる。 本稿では,マクロレベルとマイクロレベルでのポリプセグメンテーションにおける整合性概念について紹介する。 特に、モデルはポリプ全体をマクロレベルで区別し、ポリプ内のすべてのコンポーネントをマイクロレベルで識別する必要がある。 我々のIC-PolypSegネットワークは、軽量バックボーンと3つのキーコンポーネントを使用して、整合性を改善する。 1) 画素ワイズ機能再分配 (PFR) モジュールは, 最後のセマンティックリッチエンコーダ機能において, チャネル間のグローバル空間相関をキャプチャする。 2)CPFRモジュールは,高レベルなセマンティクスと低レベルな空間的特徴を動的に融合し,コンテキスト情報をキャプチャする。 3) 粗粒度キャリブレーションモジュールはPFRモジュールとCPFRモジュールを組み合わせて正確な境界検出を行う。 5つの公開データセットに対する大規模な実験により、提案したIC-PolypSegは、より高精度で計算効率が大幅に向上し、より少ない計算消費で8つの最先端手法を上回ります。 IC-PolypSeg-EF0はPraNetの300倍のパラメータを使用し、リアルタイム処理速度は235 FPSである。 重要なことは、IC-PolypSegは5つのデータセットの偽陰性比を減らし、臨床要件を満たすことである。

Accurate polyp delineation in colonoscopy is crucial for assisting in diagnosis, guiding interventions, and treatments. However, current deep-learning approaches fall short due to integrity deficiency, which often manifests as missing lesion parts. This paper introduces the integrity concept in polyp segmentation at both macro and micro levels, aiming to alleviate integrity deficiency. Specifically, the model should distinguish entire polyps at the macro level and identify all components within polyps at the micro level. Our Integrity Capturing Polyp Segmentation (IC-PolypSeg) network utilizes lightweight backbones and 3 key components for integrity ameliorating: 1) Pixel-wise feature redistribution (PFR) module captures global spatial correlations across channels in the final semantic-rich encoder features. 2) Cross-stage pixel-wise feature redistribution (CPFR) module dynamically fuses high-level semantics and low-level spatial features to capture contextual information. 3) Coarse-to-fine calibration module combines PFR and CPFR modules to achieve precise boundary detection. Extensive experiments on 5 public datasets demonstrate that the proposed IC-PolypSeg outperforms 8 state-of-the-art methods in terms of higher precision and significantly improved computational efficiency with lower computational consumption. IC-PolypSeg-EF0 employs 300 times fewer parameters than PraNet while achieving a real-time processing speed of 235 FPS. Importantly, IC-PolypSeg reduces the false negative ratio on five datasets, meeting clinical requirements.
翻訳日:2023-09-18 15:22:50 公開日:2023-09-15
# フッ化ベンゼン中の電子波束の急激なイオン化と励起による量子干渉のシグナル

Signature of quantum interference upon sudden ionization and excitation of an electronic wavepacket in fluoro-benzene ( http://arxiv.org/abs/2309.08269v1 )

ライセンス: Link先を確認
Anthony Fert\'e, Jo\~ao Pedro Malhado and Morgane Vacher(参考訳) 超短パルスは分子を励起またはイオン化し、コヒーレント電子波束を投入し、誘導ダイナミクスを制御する。 本稿では, ベンゼンおよびフッ化ベンゼン分子の異なる電子波束へのイオン化に伴う全次元の量子結合電子核力学をシミュレートする。 フルオロベンゼンでは、計算は状態間および状態内量子干渉の両方を解き、自己相関関数の形状に明確なシグネチャを残す。 後者は高調波分光法で実験的に測定できる。

Ultrashort pulses can excite or ionize molecules and populate coherent electronic wavepackets, controlling the induced dynamics. In this letter, we simulate the quantum coupled electron-nuclear dynamics in full dimensionality upon ionization to different electronic wavepackets of benzene and fluoro-benzene molecules. In fluoro-benzene, the calculations unravel both inter-state and intra-state quantum interferences that leave clear signatures in the shape of the autocorrelation function. The latter could be measured experimentally via high harmonic spectroscopy.
翻訳日:2023-09-18 15:14:03 公開日:2023-09-15
# ハイブリッド量子支援カラム生成アルゴリズムによるフリート変換問題の解法

A Hybrid Quantum-assisted Column Generation Algorithm for the Fleet Conversion Problem ( http://arxiv.org/abs/2309.08267v1 )

ライセンス: Link先を確認
Yagnik Chatterjee, Zaid Allybokus, Marko J. Ran\v{c}i\'c, Eric Bourreau(参考訳) フリート変換の問題は、特定のツアーのための車両群を運用するための二酸化炭素排出量とコストを削減することを目的としている。 最大重み付き独立セット(MWIS)問題をスレーブとして列生成スキームとしてモデル化することができる。 量子変分アルゴリズムはここ数年で大きな関心を集めている。 近年,二分最適化(qubo)問題を対数的に少ない量子ビットで表現する手法が提案されている。 この手法を用いてMWISスラヴを解き、量子および古典的解法を併用して産業規模のユースケース(最大128回)にアプローチする方法を実証する。

The problem of Fleet Conversion aims to reduce the carbon emissions and cost of operating a fleet of vehicles for a given set of tours. It can be modelled as a column generation scheme with the Maximum Weighted Independent Set (MWIS) problem as the slave. Quantum variational algorithms have gained significant interest in the past several years. Recently, a method to represent Quadratic Unconstrained Binary Optimization (QUBO) problems using logarithmically fewer qubits was proposed. Here we use this method to solve the MWIS Slaves and demonstrate how quantum and classical solvers can be used together to approach an industrial-sized use-case (up to 128 tours).
翻訳日:2023-09-18 15:13:53 公開日:2023-09-15
# 政府のビジネスエコシステムを実現するためのエンタープライズアーキテクチャ - フィンランドからの経験から

Enterprise Architecture as an Enabler for a Government Business Ecosystem: Experiences from Finland ( http://arxiv.org/abs/2309.08266v1 )

ライセンス: Link先を確認
Reetta Ghezzi, Taija Kolehmainen, Manu Set\"al\"a and Tommi Mikkonen(参考訳) ICT分野における公共セクターの調達単位は、各システムが他のシステムと独立して機能する、サイロ化されたアプリケーション固有のアーキテクチャに悩まされている。 その結果、類似または同一のデータも、異なる組織によってホストされる複数の異なるデータベースに保持される。 このような問題は、重複するシステムではなく、相互運用可能なシステムにつながる標準的なガイドラインやプラクティスの欠如によって引き起こされる。 フィンランドの公共部門では、エンタープライズアーキテクチャ(ea)は上記の問題を克服するためにエコシステムを形成するために必須の要件である。 しかしながら、採用率は低く、多くの場合、プロセスやプラクティスよりもテクノロジに重点を置いています。 本研究は、半構造化インタビューを通して、フィンランドの調達部門におけるEAの利用とその可能性について検討する。 調査には5つの調達部門と4つのベンダーが参加し、合計12のインタビューが行われた。

Public sector procurement units in the field of ICT suffer from siloed, application-specific architectures, where each system operates in isolation from others. As a consequence, similar or even identical data is maintained in several different databases hosted by different organizations. Such problems are caused by the lack of standard guidelines and practices that would result in interoperable systems instead of overlapping ones. In the Finnish public sector, enterprise architecture (EA) is a mandatory requirement so that an ecosystem can be formed to overcome the above problems. However, the adoption rates are low, and the focus is often on technology rather than processes and practices. This study investigates the use of EA and its potential in Finnish procurement units through semi-structured interviews. Five procurement units and four vendors participated in the study, and altogether 12 interviews took place.
翻訳日:2023-09-18 15:13:41 公開日:2023-09-15
# エッジベース指向オブジェクト検出

Edge Based Oriented Object Detection ( http://arxiv.org/abs/2309.08265v1 )

ライセンス: Link先を確認
Jianghu Shen, Xiaojun Wu(参考訳) リモートセンシングの分野では、オブジェクト指向バウンディングボックス(OBB)を使ってオブジェクトをバウンディングすることが多い。 このアプローチは、高密度検出ボックス間の重複を著しく低減し、バウンディングボックスにバックグラウンドコンテンツを含めることを最小化する。 オブジェクト指向物体の検出精度を高めるために,テンプレートマッチングタスクで使用される類似度測定関数に着想を得て,エッジ勾配に基づくユニークな損失関数を提案する。 この過程で,関数の非微分可能性の問題と,基底真理(GT)ボックスと予測ボックス(PB)における勾配ベクトル間の意味的アライメントに対処する。 実験の結果,提案した損失関数は,ベースラインアルゴリズムでよく用いられるSmooth L1損失と比較して0.6\%$ mAPの改善が得られた。 さらに,検出ネットワークが対象エッジにもっと集中するように,エッジベースのセルフアテンションモジュールを設計した。 これら2つのイノベーションを活用することで、DOTAデータセットでmAPが1.3%向上しました。

In the field of remote sensing, we often utilize oriented bounding boxes (OBB) to bound the objects. This approach significantly reduces the overlap among dense detection boxes and minimizes the inclusion of background content within the bounding boxes. To enhance the detection accuracy of oriented objects, we propose a unique loss function based on edge gradients, inspired by the similarity measurement function used in template matching task. During this process, we address the issues of non-differentiability of the function and the semantic alignment between gradient vectors in ground truth (GT) boxes and predicted boxes (PB). Experimental results show that our proposed loss function achieves $0.6\%$ mAP improvement compared to the commonly used Smooth L1 loss in the baseline algorithm. Additionally, we design an edge-based self-attention module to encourage the detection network to focus more on the object edges. Leveraging these two innovations, we achieve a mAP increase of 1.3% on the DOTA dataset.
翻訳日:2023-09-18 15:13:27 公開日:2023-09-15
# 変圧器追跡におけるデータ拡張のパワーの活用

Leveraging the Power of Data Augmentation for Transformer-based Tracking ( http://arxiv.org/abs/2309.08264v1 )

ライセンス: Link先を確認
Jie Zhao, Johan Edstedt, Michael Felsberg, Dong Wang, Huchuan Lu(参考訳) 長距離相関と強力な事前学習モデルにより、トランスフォーマーベースの手法は視覚オブジェクト追跡性能のブレークスルーを開始した。 以前の作業では、トラッキングに適した効果的なアーキテクチャの設計に重点を置いていたが、データ拡張がパフォーマンスの高いモデルのトレーニングに等しく重要であることは無視している。 本稿では,まず,変圧器を用いたトラッカに対する一般データ拡張の効果を系統的実験により検討し,それらの共通戦略の有効性を明らかにした。 実験的な観測により,追跡用にカスタマイズされた2つのデータ拡張手法を提案する。 まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。 第2に,背景干渉などの課題に対するモデルを可能にするトークンレベルの特徴混合強化戦略を提案する。 2つのトランスフォーマーベースのトラッカーと6つのベンチマークに関する広範囲な実験は、特にワンショットトラッキングや小さな画像解像度といった困難な設定下で、この手法の有効性とデータ効率を示している。

Due to long-distance correlation and powerful pretrained models, transformer-based methods have initiated a breakthrough in visual object tracking performance. Previous works focus on designing effective architectures suited for tracking, but ignore that data augmentation is equally crucial for training a well-performing model. In this paper, we first explore the impact of general data augmentations on transformer-based trackers via systematic experiments, and reveal the limited effectiveness of these common strategies. Motivated by experimental observations, we then propose two data augmentation methods customized for tracking. First, we optimize existing random cropping via a dynamic search radius mechanism and simulation for boundary samples. Second, we propose a token-level feature mixing augmentation strategy, which enables the model against challenges like background interference. Extensive experiments on two transformer-based trackers and six benchmarks demonstrate the effectiveness and data efficiency of our methods, especially under challenging settings, like one-shot tracking and small image resolutions.
翻訳日:2023-09-18 15:13:12 公開日:2023-09-15
# BROW: 自己蒸留による全スライド画像の精度向上

BROW: Better featuRes fOr Whole slide image based on self-distillation ( http://arxiv.org/abs/2309.08259v1 )

ライセンス: Link先を確認
Yuanfeng Wu, Shaojie Li, Zhiqiang Du, Wentao Zhu(参考訳) whole slide image (wsi)処理は、様々な疾患の標準的な臨床診断において重要な要素となっている。 しかし、従来の画像処理アルゴリズムのWSIへの直接適用は、WSIの異なる特性である超高分解能のため、ある種の障害に直面している。 ほとんどのWSI関連タスクのパフォーマンスは、WSIパッチの特徴表現を抽出するバックボーンの有効性に依存します。 そこで我々は,WSI のより優れた特徴表現を抽出する基盤モデル BROW を提案した。 このモデルは自己蒸留フレームワークを使って事前訓練されたトランスフォーマーアーキテクチャを採用している。 モデルの堅牢性を改善するためにパッチシャッフルなどの技術が採用されている。 さらに、このモデルはwsisのユニークな特性を利用し、wsiのマルチスケールピラミッドを利用して、さらなるグローバルビューを取り入れ、パフォーマンスをさらに向上させる。 11000以上のスライド,180万以上の抽出パッチ,さまざまな臓器や組織に関連するWSIを含む,大規模な事前トレーニングデータセットを構成するために,プライベートデータとパブリックデータの両方を使用しました。 モデルの有効性を評価するために、スライドレベルのサブタイプ、パッチレベルの分類、核インスタンスのセグメンテーションなど、幅広いダウンストリームタスクを実行する。 その結果, モデルの有効性, 頑健性, 一般化性が確認できた。 これは、wsi機能抽出の基礎モデルとしての可能性を示し、wsi処理におけるアプリケーションの将来性を強調している。

Whole slide image (WSI) processing is becoming part of the key components of standard clinical diagnosis for various diseases. However, the direct application of conventional image processing algorithms to WSI faces certain obstacles because of WSIs' distinct property: the super-high resolution. The performance of most WSI-related tasks relies on the efficacy of the backbone which extracts WSI patch feature representations. Hence, we proposed BROW, a foundation model for extracting better feature representations for WSIs, which can be conveniently adapted to downstream tasks without or with slight fine-tuning. The model takes transformer architecture, pretrained using self-distillation framework. To improve model's robustness, techniques such as patch shuffling have been employed. Additionally, the model leverages the unique properties of WSIs, utilizing WSI's multi-scale pyramid to incorporate an additional global view, thereby further enhancing its performance. We used both private and public data to make up a large pretraining dataset, containing more than 11000 slides, over 180M extracted patches, encompassing WSIs related to various organs and tissues. To assess the effectiveness of \ourmodel, we run a wide range of downstream tasks, including slide-level subtyping, patch-level classification and nuclei instance segmentation. The results confirmed the efficacy, robustness and good generalization ability of the proposed model. This substantiates its potential as foundation model for WSI feature extraction and highlights promising prospects for its application in WSI processing.
翻訳日:2023-09-18 15:12:56 公開日:2023-09-15
# 非古典光とブロックされたリドバーグ原子アンサンブルの強い非線形相互作用

Strongly non-linear interaction between non-classical light and a blockaded Rydberg atomic ensemble ( http://arxiv.org/abs/2309.08257v1 )

ライセンス: Link先を確認
Jan Lowinski, Lukas Heller, F\'elix Hoffet, Auxiliadora Padr\'on-Brito, Klara Theophilo, Hugues de Riedmatten(参考訳) 本研究では,非古典光と波長可変多光子成分との相互作用について検討した。 dlcz量子メモリから放出される非古典的場は、リドバーグの電磁誘導透過性を用いて記憶され、双極子封鎖によって強い非線形応答を経験する。 その結果, rydbergアンサンブルの保存効率は, 入力場の多光子強度関数として減少し, 非線形性が得られた。 また、rydberg状態における保存後の検索フィールドの自己相関関数 $g^{(2)}(0)$ は大幅に減少し、非古典的入力光を用いた単一光子フィルタリングの最初の実演となった。 最後に,入力状態に対する媒体の影響をモデル化する簡単なシミュレーションを開発した。 この研究は、物質を媒介とする光子-光子相互作用と非古典光への一歩である。

We investigate the interaction between non-classical light with a tunable multiphoton component and a highly nonlinear medium based on cold Rydberg atoms. The non-classical field emitted by a DLCZ quantum memory is stored using Rydberg electromagnetically induced transparency, experiencing strong nonlinear response due to the dipole blockade. We show that the storage efficiency in the Rydberg ensemble decreases as function of the multiphoton strength of the input field, as a result of the nonlinearity. We also show that the autocorrelation function $g^{(2)}(0)$ of the retrieved field after storage in the Rydberg state is considerably reduced, leading to the first demonstration of single photon filtering with non-classical input light. Finally, we develop a simple simulation that allows us to model the effect of our medium on the input state. This work is a step towards matter-mediated photon-photon interactions with non-classical light.
翻訳日:2023-09-18 15:12:36 公開日:2023-09-15
# サンプリングフリー確率的状態空間モデル

Sampling-Free Probabilistic Deep State-Space Models ( http://arxiv.org/abs/2309.08256v1 )

ライセンス: Link先を確認
Andreas Look, Melih Kandemir, Barbara Rakitsch, Jan Peters(参考訳) 多くの実世界の力学系は状態空間モデル (State-Space Models, SSM) と呼ばれる。 この定式化では、各観測は1次マルコフ力学に従う潜在状態によって放出される。 確率的深部SSM(Probabilistic Deep SSM)は、この枠組みを未知のパラメトリック形式の力学系に一般化し、遷移モデルと放出モデルが不確実な重みを持つニューラルネットワークによって記述される。 本研究では,このタイプのモデルに対する最初の決定論的推論アルゴリズムを提案する。 私たちのフレームワークは、トレーニングとテストの効率的な近似を可能にします。 実験では,新しい手法を様々なタスクに応用でき,予測性能と計算予算のバランスが良好であることを実証した。

Many real-world dynamical systems can be described as State-Space Models (SSMs). In this formulation, each observation is emitted by a latent state, which follows first-order Markovian dynamics. A Probabilistic Deep SSM (ProDSSM) generalizes this framework to dynamical systems of unknown parametric form, where the transition and emission models are described by neural networks with uncertain weights. In this work, we propose the first deterministic inference algorithm for models of this type. Our framework allows efficient approximations for training and testing. We demonstrate in our experiments that our new method can be employed for a variety of tasks and enjoys a superior balance between predictive performance and computational budget.
翻訳日:2023-09-18 15:12:19 公開日:2023-09-15
# ロバスト多言語テキスト音声合成のためのフローベース音声変換による言語間知識蒸留

Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech ( http://arxiv.org/abs/2309.08255v1 )

ライセンス: Link先を確認
Dariusz Piotrowski, Renard Korzeniowski, Alessio Falai, Sebastian Cygert, Kamil Pokora, Georgi Tinchev, Ziyao Zhang, Kayoko Yanagisawa(参考訳) 本研究では,上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む,言語間音声合成のためのフレームワークを提案する。 提案手法は4段階からなる。 最初の2つの段階では、vcモデルを使用して、ターゲットロケールの発話をターゲット話者の声に変換する。 第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。 最後に、最後のステージはローカライズ非依存のvocoderのトレーニングを含む。 提案手法は,大規模多言語TSモデルのトレーニングに基づく最先端の手法よりも優れていることを示す。 さらに,実験では,異なるモデルアーキテクチャ,言語,話者,データ量を用いたアプローチの堅牢性を示す。 さらに、当社のソリューションは低リソース設定で特に有用です。

In this work, we introduce a framework for cross-lingual speech synthesis, which involves an upstream Voice Conversion (VC) model and a downstream Text-To-Speech (TTS) model. The proposed framework consists of 4 stages. In the first two stages, we use a VC model to convert utterances in the target locale to the voice of the target speaker. In the third stage, the converted data is combined with the linguistic features and durations from recordings in the target language, which are then used to train a single-speaker acoustic model. Finally, the last stage entails the training of a locale-independent vocoder. Our evaluations show that the proposed paradigm outperforms state-of-the-art approaches which are based on training a large multilingual TTS model. In addition, our experiments demonstrate the robustness of our approach with different model architectures, languages, speakers and amounts of data. Moreover, our solution is especially beneficial in low-resource settings.
翻訳日:2023-09-18 15:12:07 公開日:2023-09-15
# 自動運転車の強化学習政策の定量的・質的評価

Quantitative and Qualitative Evaluation of Reinforcement Learning Policies for Autonomous Vehicles ( http://arxiv.org/abs/2309.08254v1 )

ライセンス: Link先を確認
Laura Ferrarotti, Massimiliano Luca, Gabriele Santin, Giorgio Previati, Gianpiero Mastinu, Elena Campi, Lorenzo Uccello, Antonino Albanese, Praveen Zalaya, Alessandro Roccasalva, Bruno Lepri(参考訳) 進化する交通環境での交通力学の最適化は、特に自律性レベルが異なる自動運転車(av)が人間駆動車と共存するシナリオにおいて重要である。 本稿では,強化学習アルゴリズムであるproximal policy optimization (ppo) を用いたavの最適化手法を提案する。 我々は,イタリア・ミラノのラウンドアバウトにおいて,交通渋滞を最小化(シナリオを横断する時間を最小限にする)し,汚染を最小限にする政策を学んだ。 実証分析により,本手法は時間と汚染レベルを低減できることを示した。 さらに,最先端のコックピットを用いて学習方針を質的に評価し,実世界に近い条件下での性能を評価する。 提案手法の実用性と受容性を評価するため,交通のスムーズさや安全知覚などの指標に着目し,シミュレータを用いた被験者による評価を行った。 一般的には、人間の運転する車両は、AVのダイナミクスを最適化する利点がある。 また、この研究の参加者は、80\% avのシナリオは20\%のシナリオよりも安全だと感じていることを強調した。 交通平滑度知覚についても同様の結果が得られた。

Optimizing traffic dynamics in an evolving transportation landscape is crucial, particularly in scenarios where autonomous vehicles (AVs) with varying levels of autonomy coexist with human-driven cars. This paper presents a novel approach to optimizing choices of AVs using Proximal Policy Optimization (PPO), a reinforcement learning algorithm. We learned a policy to minimize traffic jams (i.e., minimize the time to cross the scenario) and to minimize pollution in a roundabout in Milan, Italy. Through empirical analysis, we demonstrate that our approach can reduce time and pollution levels. Furthermore, we qualitatively evaluate the learned policy using a cutting-edge cockpit to assess its performance in near-real-world conditions. To gauge the practicality and acceptability of the policy, we conducted evaluations with human participants using the simulator, focusing on a range of metrics like traffic smoothness and safety perception. In general, our findings show that human-driven vehicles benefit from optimizing AVs dynamics. Also, participants in the study highlighted that the scenario with 80\% AVs is perceived as safer than the scenario with 20\%. The same result is obtained for traffic smoothness perception.
翻訳日:2023-09-18 15:11:51 公開日:2023-09-15
# 分布包含仮説と量化--機能分布意味論におけるハイパーニミーの探索

Distributional Inclusion Hypothesis and Quantifications: Probing Hypernymy in Functional Distributional Semantics ( http://arxiv.org/abs/2309.08325v1 )

ライセンス: Link先を確認
Chun Hei Lo and Guy Emerson(参考訳) 関数分布意味論(FDS)は、真理条件関数による単語の意味をモデル化する。 これはhypernymyの自然な表現を提供するが、fdsモデルがコーパスでトレーニングされた時に学習される保証はない。 コーパスが厳密に分布包含仮説に従うと、FDSモデルはハイパーネミーを学ぶ。 さらに、FDSが単純な普遍的な量子化を扱えるようにし、DIHの逆のハイパーネミー学習を可能にする訓練目標も導入する。 合成データと実データの両方の実験結果から,提案した目的の仮説と有効性が確認された。

Functional Distributional Semantics (FDS) models the meaning of words by truth-conditional functions. This provides a natural representation for hypernymy, but no guarantee that it is learnt when FDS models are trained on a corpus. We demonstrate that FDS models learn hypernymy when a corpus strictly follows the Distributional Inclusion Hypothesis. We further introduce a training objective that allows FDS to handle simple universal quantifications, thus enabling hypernymy learning under the reverse of DIH. Experimental results on both synthetic and real data sets confirm our hypotheses and the effectiveness of our proposed objective.
翻訳日:2023-09-18 15:05:40 公開日:2023-09-15
# ブリッジングトピック、ドメイン、言語シフト:包括的アウト・オブ・ディストリビューションシナリオの評価

Bridging Topic, Domain, and Language Shifts: An Evaluation of Comprehensive Out-of-Distribution Scenarios ( http://arxiv.org/abs/2309.08316v1 )

ライセンス: Link先を確認
Andreas Waldis and Iryna Gurevych(参考訳) 言語モデル(lms)は、トレーニングデータとテストデータが独立かつ同一に分散される、分散内(id)シナリオに優れている。 しかし、それらのパフォーマンスはしばしば、引数マイニングのような実世界のアプリケーションで劣化する。 このような劣化は、新しいトピックが出現したり、他のテキストドメインや言語が関係すると起こる。 このようなアウト・オブ・ディストリビューション(OOD)シナリオにおけるLMの一般化能力を評価するために、ソーシャルメディア領域や太陽エネルギーといった特定のテスト事例を意図的に保持することで、そのような分散シフトをシミュレートする。 特定のシフトとメトリクスを分離した以前の研究とは異なり、OOD一般化を包括的に分析する。 一般化の欠陥を特定できるメトリクスを3つ定義し,トピック,ドメイン,言語シフトをカバーする11の分類タスクを提案する。 全体としては、特に列車とテストの分割が主に意味的に異なる場合において、プロンプトベースの微調整の優れた性能を見出す。 同時に、インコンテキスト学習は、トレーニングデータがテストデータと比較してラベル分布に大きな差異を具現化する場合、タスクのプロンプトベースやバニラファインタニングよりも効果的である。 これは勾配に基づく学習の重大な欠点である:そのような構造的障害に関してlmsを偏らせる。

Language models (LMs) excel in in-distribution (ID) scenarios where train and test data are independent and identically distributed. However, their performance often degrades in real-world applications like argument mining. Such degradation happens when new topics emerge, or other text domains and languages become relevant. To assess LMs' generalization abilities in such out-of-distribution (OOD) scenarios, we simulate such distribution shifts by deliberately withholding specific instances for testing, as from the social media domain or the topic Solar Energy. Unlike prior studies focusing on specific shifts and metrics in isolation, we comprehensively analyze OOD generalization. We define three metrics to pinpoint generalization flaws and propose eleven classification tasks covering topic, domain, and language shifts. Overall, we find superior performance of prompt-based fine-tuning, notably when train and test splits primarily differ semantically. Simultaneously, in-context learning is more effective than prompt-based or vanilla fine-tuning for tasks when training data embodies heavy discrepancies in label distribution compared to testing data. This reveals a crucial drawback of gradient-based learning: it biases LMs regarding such structural obstacles.
翻訳日:2023-09-18 15:05:31 公開日:2023-09-15
# Heteroskedastic conformal regression

Heteroskedastic conformal regression ( http://arxiv.org/abs/2309.08313v1 )

ライセンス: Link先を確認
Nicolas Dewolf, Bernard De Baets, Willem Waegeman(参考訳) 共形予測と分割共形予測は、統計的保証付き予測間隔を推定するための分布のないアプローチを提供する。 近年の研究では、分割共形予測が限界カバレッジに焦点を当てた場合の最先端予測区間、すなわちキャリブレーションデータセットにおいて、事前に定義されたカバレッジレベルを持つ基底真理を含む平均予測間隔で生成できることが示されている。 しかし、そのような間隔はしばしば適応的ではなく、ヘテロケクタスティックノイズを伴う回帰問題に問題となる。 本稿では,正規化法やモンドリアン共形予測法を用いて適応予測間隔をどのように構築できるか,新たな光を当てようとする。 そこで本研究では,これらの手法を系統的に検討する理論的および実験的結果を示す。

Conformal prediction, and split conformal prediction as a specific implementation, offer a distribution-free approach to estimating prediction intervals with statistical guarantees. Recent work has shown that split conformal prediction can produce state-of-the-art prediction intervals when focusing on marginal coverage, i.e., on a calibration dataset the method produces on average prediction intervals that contain the ground truth with a predefined coverage level. However, such intervals are often not adaptive, which can be problematic for regression problems with heteroskedastic noise. This paper tries to shed new light on how adaptive prediction intervals can be constructed using methods such as normalized and Mondrian conformal prediction. We present theoretical and experimental results in which these methods are investigated in a systematic way.
翻訳日:2023-09-18 15:05:08 公開日:2023-09-15
# 帰納的自然言語推論における自己矛盾的ナラティブプロンプト

Self-Consistent Narrative Prompts on Abductive Natural Language Inference ( http://arxiv.org/abs/2309.08303v1 )

ライセンス: Link先を確認
Chunkit Chan, Xin Liu, Tsz Ho Chan, Jiayang Cheng, Yangqiu Song, Ginny Wong, Simon See(参考訳) アブダクションは、物語の理解と日常の状況の推論に欠かせないものと見なされてきた。 帰納的自然言語推論(\alpha$NLI)タスクが提案され、この物語テキストベースのタスクは、2つの観測結果から最も妥当な仮説を推測することを目的としている。 しかし、このタスクでは、知覚間コヒーレンスとモデルの一貫性が十分に活用されていない。 本研究では,自己整合性および相互整合性を考慮したプロンプトチューニングモデルである$\alpha$-PACEを提案する。 また,入力の物語文脈を理解する上で,事前学習された言語モデルを導くために,様々な物語列(線形物語や逆年代学など)を考慮した汎用的自己整合フレームワークを提案する。 我々は,$\alpha$-pace の必要性と有効性を説明するため,広範囲な実験と徹底的なアブレーション研究を行う。 提案手法の性能は,幅広い競争基準に対して著しく向上した。

Abduction has long been seen as crucial for narrative comprehension and reasoning about everyday situations. The abductive natural language inference ($\alpha$NLI) task has been proposed, and this narrative text-based task aims to infer the most plausible hypothesis from the candidates given two observations. However, the inter-sentential coherence and the model consistency have not been well exploited in the previous works on this task. In this work, we propose a prompt tuning model $\alpha$-PACE, which takes self-consistency and inter-sentential coherence into consideration. Besides, we propose a general self-consistent framework that considers various narrative sequences (e.g., linear narrative and reverse chronology) for guiding the pre-trained language model in understanding the narrative context of input. We conduct extensive experiments and thorough ablation studies to illustrate the necessity and effectiveness of $\alpha$-PACE. The performance of our method shows significant improvement against extensive competitive baselines.
翻訳日:2023-09-18 15:04:51 公開日:2023-09-15
# T-UDA:シークエンシャルポイント雲における時間的教師なしドメイン適応

T-UDA: Temporal Unsupervised Domain Adaptation in Sequential Point Clouds ( http://arxiv.org/abs/2309.08302v1 )

ライセンス: Link先を確認
Awet Haileslassie Gebrehiwot, David Hurych, Karel Zimmermann, Patrick P\'erez, Tom\'a\v{s} Svoboda(参考訳) 深層認識モデルは、異なる地理的領域、センサー特性、装着位置などによって誘導される領域シフトのオープンワールド設定に確実に対処する必要がある。 すべてのドメインを注釈付きデータでカバーすることは、無限に可能なバリエーションのために技術的に難解であるため、研究者は、注釈なしデータしか利用できない別の(ターゲット)ドメインでトレーニングされたモデルに適応する教師なしのドメイン適応(UDA)手法に焦点を当てている。 現在の主流の手法は、教師と学生のセットアップのような半教師付きアプローチを利用するか、または他のセンサーのモダリティや時間データの一貫性のような特権データを利用する。 両者の傾向を最大限に活用する新しいドメイン適応手法を提案する。 提案手法は,入力データの時間的およびクロスセンサー的整合性と平均教師法を組み合わせる。 t-udaと呼ばれるこの組み合わせは、運転シーンの3dセマンティクスセグメンテーションのタスクにおいて、膨大なパフォーマンス向上をもたらす。 Waymo Open Dataset、nuScenes、SemanticKITTIで、Cylinder3DとMinkowskiNetの2つの人気のある3Dポイントクラウドアーキテクチャの実験が行われている。 私たちのコードはhttps://github.com/ctu-vras/T-UDA.comで公開されています。

Deep perception models have to reliably cope with an open-world setting of domain shifts induced by different geographic regions, sensor properties, mounting positions, and several other reasons. Since covering all domains with annotated data is technically intractable due to the endless possible variations, researchers focus on unsupervised domain adaptation (UDA) methods that adapt models trained on one (source) domain with annotations available to another (target) domain for which only unannotated data are available. Current predominant methods either leverage semi-supervised approaches, e.g., teacher-student setup, or exploit privileged data, such as other sensor modalities or temporal data consistency. We introduce a novel domain adaptation method that leverages the best of both trends. Our approach combines input data's temporal and cross-sensor geometric consistency with the mean teacher method. Dubbed T-UDA for "temporal UDA", such a combination yields massive performance gains for the task of 3D semantic segmentation of driving scenes. Experiments are conducted on Waymo Open Dataset, nuScenes and SemanticKITTI, for two popular 3D point cloud architectures, Cylinder3D and MinkowskiNet. Our codes are publicly available at https://github.com/ctu-vras/T-UDA.
翻訳日:2023-09-18 15:04:34 公開日:2023-09-15
# 拡張コンパスモデルにおけるサブシステム対称性、臨界ボース表面および非移動励起

Subsystem symmetries, critical Bose surface and immobile excitations in an extended compass model ( http://arxiv.org/abs/2309.08300v1 )

ライセンス: Link先を確認
Zhidan Li, Chun-Jiong Huang, Changle Liu and Hai-Zhou Lu(参考訳) サブシステム対称性をホストする拡張コンパスモデルを提案し、3d遷移金属化合物との潜在的な実験的関連性を示す。 サブシステム対称性はスピン励起の移動性を強く制限し、重大な結果をもたらす。 量子臨界点では、$k_x$ と $k_y$ の軸全体に「臨界ボース曲面」が存在することが分かる。 その向こう側には、低温でネマティック不安定になる陽極線スピン液体があります。 フェロ四極子相では、1つの励起は「フラクトン」と個別に類似している。

We propose an extended compass model that hosts subsystem symmetries and has potential experimental relevance with 3d transition metal compounds. The subsystem symmetries strongly constrain the mobility of spin excitations and lead to profound consequences. At the quantum critical point we find the presence of "critical Bose surface" along the entire $k_x$ and $k_y$ axis. Across which we find a nodal-line spin liquid that undergoes nematic instability at low temperatures. In the ferro-quadrupole phase, we find that one excitation is immobile individually analogous to "fractons".
翻訳日:2023-09-18 15:04:11 公開日:2023-09-15
# 空間問合せ機構を用いた実時間アクティブ話者検出システム

A Real-Time Active Speaker Detection System Integrating an Audio-Visual Signal with a Spatial Querying Mechanism ( http://arxiv.org/abs/2309.08295v1 )

ライセンス: Link先を確認
Ilya Gurvich, Ido Leichter, Dharmendar Reddy Palle, Yossi Asher, Alon Vinnikov, Igor Abramovski, Vishak Gopal, Ross Cutler, Eyal Krupka(参考訳) 低消費電力エッジコンピューティングに最適化されたリアルタイム・因果的・ニューラルネットワークに基づくアクティブ話者検出システムを導入する。 このシステムは仮想撮影モジュールを駆動し、商用デバイスにデプロイされる。 このシステムは、マイクロホンアレイと360度カメラからのデータを使用する。 参加者14人とのミーティングには,参加者当たり127 MFLOPしか必要としない。 従来とは違って,計算予算が枯渇した際のネットワークのエラー率を調べ,優雅な劣化が見られ,この場合においてもシステムが合理的に動作可能であることを確認する。 従来のDOA推定手法とは別に,検出した頭部位置を考慮し,利用可能な音響データを検索する。 アルゴリズムを、14人までの参加者が同じミーティング、重複したスピーチ、その他の困難なシナリオを含む、現実的なミーティングデータセットでトレーニングし、評価する。

We introduce a distinctive real-time, causal, neural network-based active speaker detection system optimized for low-power edge computing. This system drives a virtual cinematography module and is deployed on a commercial device. The system uses data originating from a microphone array and a 360-degree camera. Our network requires only 127 MFLOPs per participant, for a meeting with 14 participants. Unlike previous work, we examine the error rate of our network when the computational budget is exhausted, and find that it exhibits graceful degradation, allowing the system to operate reasonably well even in this case. Departing from conventional DOA estimation approaches, our network learns to query the available acoustic data, considering the detected head locations. We train and evaluate our algorithm on a realistic meetings dataset featuring up to 14 participants in the same meeting, overlapped speech, and other challenging scenarios.
翻訳日:2023-09-18 15:04:02 公開日:2023-09-15
# 点拡散モデルを用いた大腸3次元形状再構成によるデジタルファントム生成

Large Intestine 3D Shape Refinement Using Point Diffusion Models for Digital Phantom Generation ( http://arxiv.org/abs/2309.08289v1 )

ライセンス: Link先を確認
Kaouther Mouheb, Mobina Ghojogh Nejad, Lavsen Dahal, Ehsan Samei, W. Paul Segars, Joseph Y. Lo(参考訳) 人間の臓器の正確な3Dモデリングは、仮想画像実験のための計算ファントムの構築において重要な役割を果たす。 しかし、ctスキャンによる解剖学的に妥当な臓器表面の再構築は、人体の多くの構造にとって困難である。 この課題は特に大腸を扱う際に顕著である。 本研究では,最近の幾何学的深層学習の進歩を活かし,拡散確率モデルを用いて大腸の分節結果を洗練する。 まず、臓器を3dセグメンテーションマスクの表面から採取された点雲として表現する。 その後,階層的変分オートエンコーダを用いて,臓器形状のグローバルおよび局所的潜在表現を得る。 階層的潜在空間における2つの条件付き消音拡散モデルを訓練し,形状の細分化を行う。 提案手法をさらに強化するため,得られた完全点雲からスムーズなメッシュを生成することのできる最先端表面再構成モデルを組み込んだ。 実験の結果,臓器形状のグローバル分布と微細な細部の両方を捉えるためのアプローチの有効性が示された。 完全精細化パイプラインでは, 初期セグメント化に比べて表面表現が著しく向上し, シャンファー距離を70%, ハウスドルフ距離を32%, アースムーバー距離を6%削減した。 幾何学的深層学習, 拡散モデル, 高度な表面再構成技術を組み合わせることで, 大腸表面を正確にモデル化し, 他の解剖学的構造にも容易に拡張できることを示す。

Accurate 3D modeling of human organs plays a crucial role in building computational phantoms for virtual imaging trials. However, generating anatomically plausible reconstructions of organ surfaces from computed tomography scans remains challenging for many structures in the human body. This challenge is particularly evident when dealing with the large intestine. In this study, we leverage recent advancements in geometric deep learning and denoising diffusion probabilistic models to refine the segmentation results of the large intestine. We begin by representing the organ as point clouds sampled from the surface of the 3D segmentation mask. Subsequently, we employ a hierarchical variational autoencoder to obtain global and local latent representations of the organ's shape. We train two conditional denoising diffusion models in the hierarchical latent space to perform shape refinement. To further enhance our method, we incorporate a state-of-the-art surface reconstruction model, allowing us to generate smooth meshes from the obtained complete point clouds. Experimental results demonstrate the effectiveness of our approach in capturing both the global distribution of the organ's shape and its fine details. Our complete refinement pipeline demonstrates remarkable enhancements in surface representation compared to the initial segmentation, reducing the Chamfer distance by 70%, the Hausdorff distance by 32%, and the Earth Mover's distance by 6%. By combining geometric deep learning, denoising diffusion models, and advanced surface reconstruction techniques, our proposed method offers a promising solution for accurately modeling the large intestine's surface and can easily be extended to other anatomical structures.
翻訳日:2023-09-18 15:03:49 公開日:2023-09-15
# 3次元潜在拡散モデルを用いた顔表現の教師なしディアンタングリング

Unsupervised Disentangling of Facial Representations with 3D-aware Latent Diffusion Models ( http://arxiv.org/abs/2309.08273v1 )

ライセンス: Link先を確認
Ruian He, Zhen Xing, Weimin Tan, Bo Yan(参考訳) 顔表現の教師なし学習は、大規模な注釈付きデータセットに大きく依存することなく、顔理解能力の注目を集めている。 しかし、顔の同一性、表情、ポーズや光といった外部要因の結合により未解決のままである。 従来の手法は主に2D因子とピクセルレベルの一貫性に重点を置いており、下流タスクでは不完全なアンタングリングと準最適性能をもたらす。 本稿では,顔表現と識別表現のための非教師付き非教師付きアンタングリングフレームワークであるLatentFaceを提案する。 本研究では, 潜時空間における不連続化問題を提案し, 3dウェア潜時拡散モデルを用いた解法を提案する。 まず,顔画像を3次元ラテント埋め込みに符号化する3D対応オートエンコーダを提案する。 第2に,顔の識別と表情に3D潜伏する新しい表現拡散モデル(RDM)を提案する。 その結果,教師なし顔表情学習モデルにおける表情認識と顔認証の最先端性能が得られた。

Unsupervised learning of facial representations has gained increasing attention for face understanding ability without heavily relying on large-scale annotated datasets. However, it remains unsolved due to the coupling of facial identities, expressions, and external factors like pose and light. Prior methods primarily focus on 2D factors and pixel-level consistency, leading to incomplete disentangling and suboptimal performance in downstream tasks. In this paper, we propose LatentFace, a novel unsupervised disentangling framework for facial expression and identity representation. We suggest the disentangling problem should be performed in latent space and propose the solution using a 3D-ware latent diffusion model. First, we introduce a 3D-aware autoencoder to encode face images into 3D latent embeddings. Second, we propose a novel representation diffusion model (RDM) to disentangle 3D latent into facial identity and expression. Consequently, our method achieves state-of-the-art performance in facial expression recognition and face verification among unsupervised facial representation learning models.
翻訳日:2023-09-18 15:03:23 公開日:2023-09-15
# 変圧器用自己監督型構造体

Structural Self-Supervised Objectives for Transformers ( http://arxiv.org/abs/2309.08272v1 )

ライセンス: Link先を確認
Luca Di Liello(参考訳) この論文は、教師なしの生データを使って自然言語モデルの事前学習を改善し、より効率的に下流のアプリケーションと連携させることに焦点を当てている。 第一部では,BERT の Masked Language Modeling (MLM) に代わる3つの事前学習目標,すなわち Random Token Substitution (RTS), Cluster-based Random Token Substitution (C-RTS), Swapped Language Modeling (SLM) を紹介した。 これらの目的はマスキングではなくトークンスワップであり、RTSとC-RTSはトークンの独自性を予測し、SLMは元のトークン値を予測する。 その結果,RTS と C-RTS は MLM に匹敵する性能を維持しつつ,事前学習時間が少なくなった。 驚くべきことに、SLMは計算予算が同じであるにもかかわらず、特定のタスクにおいてMLMよりも優れています。 第2部では,下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案し,ラベル付きデータの必要性を低減した。 われわれはウィキペディアやCC-Newsのような大規模なコーパスを使って、同じ段落や文書から派生したテキストかどうかをモデルに訓練している。 RoBERTa、ELECTRA、DeBERTa、BART、T5といった既存のモデルから始まり、継続的な事前トレーニングを行うことで、Fact Verification、Answer Sentence Selection、Summarizationといったタスクにおいて、大幅なパフォーマンス向上が示されている。 これらの改善は、アノテーションデータに制限がある場合に特に顕著である。 提案した目的は、FEVER (dev set)、ASNQ、WikiQA、TREC-QAなど、さまざまなベンチマークデータセットの最先端結果の達成と、要約の質の向上である。 重要なことに、これらの技術はトランスフォーマーモデルの内部構造を変更することなく、他の方法と容易に統合でき、様々なnlpアプリケーションで利用可能である。

This thesis focuses on improving the pre-training of natural language models using unsupervised raw data to make them more efficient and aligned with downstream applications. In the first part, we introduce three alternative pre-training objectives to BERT's Masked Language Modeling (MLM), namely Random Token Substitution (RTS), Cluster-based Random Token Substitution (C-RTS), and Swapped Language Modeling (SLM). These objectives involve token swapping instead of masking, with RTS and C-RTS aiming to predict token originality and SLM predicting the original token values. Results show that RTS and C-RTS require less pre-training time while maintaining performance comparable to MLM. Surprisingly, SLM outperforms MLM on certain tasks despite using the same computational budget. In the second part, we proposes self-supervised pre-training tasks that align structurally with downstream applications, reducing the need for labeled data. We use large corpora like Wikipedia and CC-News to train models to recognize if text spans originate from the same paragraph or document in several ways. By doing continuous pre-training, starting from existing models like RoBERTa, ELECTRA, DeBERTa, BART, and T5, we demonstrate significant performance improvements in tasks like Fact Verification, Answer Sentence Selection, and Summarization. These improvements are especially pronounced when limited annotation data is available. The proposed objectives also achieve state-of-the-art results on various benchmark datasets, including FEVER (dev set), ASNQ, WikiQA, and TREC-QA, as well as enhancing the quality of summaries. Importantly, these techniques can be easily integrated with other methods without altering the internal structure of Transformer models, making them versatile for various NLP applications.
翻訳日:2023-09-18 15:03:09 公開日:2023-09-15
# マルチタスク学習によるロバスト焼損領域分割

Robust Burned Area Delineation through Multitask Learning ( http://arxiv.org/abs/2309.08368v1 )

ライセンス: Link先を確認
Edoardo Arnaudo, Luca Barco, Matteo Merlo, Claudio Rossi(参考訳) 近年の山火事は、その頻度と深刻度の増加によって大きな課題となっている。 そのため, 火災後の環境モニタリングや評価には, 燃えた地域の正確なデライン化が不可欠である。 しかしながら、バイナリセグメンテーションモデルに依存する従来のアプローチは、リソースの制限と、このセグメンテーションタスクの固有の不均衡のために、特にスクラッチからトレーニングされた場合、堅牢で正確な結果を達成するのに苦労することが多い。 まず、sentinel-2フィードからの情報をcopernicusアクティベーションや他のデータソースと組み合わせることで、限られたリソースに対処するためのアドホックなデータセットを構築する。 このデータセットでは、バーンドエリアのデライン化やランドカバーのセグメンテーションなど、複数のタスクにアノテーションを提供します。 次に,焼成領域分割モデルのロバスト性と性能を向上させる補助タスクとして,土地被覆分類を組み込んだマルチタスク学習フレームワークを提案する。 UPerNetやSegFormerなど,さまざまなモデルのパフォーマンスを比較し,標準的なバイナリセグメンテーションと比較して,アプローチの有効性を示す。

In recent years, wildfires have posed a significant challenge due to their increasing frequency and severity. For this reason, accurate delineation of burned areas is crucial for environmental monitoring and post-fire assessment. However, traditional approaches relying on binary segmentation models often struggle to achieve robust and accurate results, especially when trained from scratch, due to limited resources and the inherent imbalance of this segmentation task. We propose to address these limitations in two ways: first, we construct an ad-hoc dataset to cope with the limited resources, combining information from Sentinel-2 feeds with Copernicus activations and other data sources. In this dataset, we provide annotations for multiple tasks, including burned area delineation and land cover segmentation. Second, we propose a multitask learning framework that incorporates land cover classification as an auxiliary task to enhance the robustness and performance of the burned area segmentation models. We compare the performance of different models, including UPerNet and SegFormer, demonstrating the effectiveness of our approach in comparison to standard binary segmentation.
翻訳日:2023-09-18 14:54:04 公開日:2023-09-15
# m$^3$net:salient object detectionのためのマルチレベル、混合、多段階アテンションネットワーク

M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient Object Detection ( http://arxiv.org/abs/2309.08365v1 )

ライセンス: Link先を確認
Yao Yuan, Pan Gao, XiaoYang Tan(参考訳) 既存の有能なオブジェクト検出手法の多くは、U-Netまたは特徴ピラミッド構造を用いており、それは単に異なるスケールの特徴マップを集約し、それらの特異性と相互依存性を無視し、最終的な予測へのそれぞれの貢献を無視する。 そこで本稿では,M$^3$Net (Multilevel, Mixed and Multistage attention network for Salient Object Detection (SOD) を提案する。 まず,マルチレベルの特徴間の相互作用を実現するために,クロスアテンション手法を革新的に導入し,高レベルの特徴が低レベルの特徴学習をガイドし,従って有能な領域を拡張できるマルチスケールインタラクションブロックを提案する。 次に,前回のtransformerベースのsod法では,グローバルな自己着眼のみを用いて,複雑な物体の細部を必然的に見過ごしながら,突出領域を探索するという事実を考慮し,混合注意ブロックを提案する。 このブロックは、グローバル・セルフ・アテンションとウィンドウ・セルフアテンションを組み合わせることで、グローバルとローカルの両方のレベルのコンテキストをモデリングし、予測マップの精度をさらに向上させる。 最後に,集約された特徴をステージごとに最適化する多段階監視手法を提案する。 6つの挑戦的なデータセットの実験では、提案されたM$^3$Netが、最近のCNNとTransformerベースのSODアートを4つのメトリクスで上回っている。 コードはhttps://github.com/I2-Multimedia-Lab/M3Netで入手できる。

Most existing salient object detection methods mostly use U-Net or feature pyramid structure, which simply aggregates feature maps of different scales, ignoring the uniqueness and interdependence of them and their respective contributions to the final prediction. To overcome these, we propose the M$^3$Net, i.e., the Multilevel, Mixed and Multistage attention network for Salient Object Detection (SOD). Firstly, we propose Multiscale Interaction Block which innovatively introduces the cross-attention approach to achieve the interaction between multilevel features, allowing high-level features to guide low-level feature learning and thus enhancing salient regions. Secondly, considering the fact that previous Transformer based SOD methods locate salient regions only using global self-attention while inevitably overlooking the details of complex objects, we propose the Mixed Attention Block. This block combines global self-attention and window self-attention, aiming at modeling context at both global and local levels to further improve the accuracy of the prediction map. Finally, we proposed a multilevel supervision strategy to optimize the aggregated feature stage-by-stage. Experiments on six challenging datasets demonstrate that the proposed M$^3$Net surpasses recent CNN and Transformer-based SOD arts in terms of four metrics. Codes are available at https://github.com/I2-Multimedia-Lab/M3Net.
翻訳日:2023-09-18 14:53:46 公開日:2023-09-15
# narratives of war: ukraine memetic warfare on twitter (英語)

Narratives of War: Ukrainian Memetic Warfare on Twitter ( http://arxiv.org/abs/2309.08363v1 )

ライセンス: Link先を確認
Yelena Mejova, Arthur Capozzi, Corrado Monti, Gianmarco De Francisci Morales(参考訳) 2022年のロシアによるウクライナ侵攻は、サイバー戦争において政府関係者によるソーシャルメディアの利用が激化している。 ミームによる戦時コミュニケーションは、@uamemesforcesのような独立したアカウントだけでなく、@ウクライナや@DefenceUのような公式ウクライナ政府アカウントによる完全な国家間戦争でも、初めて成功した戦略だ。 我々は、物語のレンズを通して、この目覚ましい戦法を研究し、それらを成功の鍵となる要素とみなす:「活気のある」物語のツイートは、リツイートの2倍の回数である。 しかし、敵に焦点を絞った邪悪な物語は、ウクライナにより多くの援助を提供する国と英雄主義や犠牲者についてより多く共鳴する。 以上の結果から,ウクライナの影響行動とそれに対する世界的な対応を微妙に検証し,戦時における社会技術的システムの進化に関する新たな知見を得た。

The 2022 Russian invasion of Ukraine has seen an intensification in the use of social media by governmental actors in cyber warfare. Wartime communication via memes has been a successful strategy used not only by independent accounts such as @uamemesforces, but also-for the first time in a full-scale interstate war-by official Ukrainian government accounts such as @Ukraine and @DefenceU. We study this prominent example of memetic warfare through the lens of its narratives, and find them to be a key component of success: tweets with a 'victim' narrative garner twice as many retweets. However, malevolent narratives focusing on the enemy resonate more than those about heroism or victims with countries providing more assistance to Ukraine. Our findings present a nuanced examination of Ukraine's influence operations and of the worldwide response to it, thus contributing new insights into the evolution of socio-technical systems in times of war.
翻訳日:2023-09-18 14:53:18 公開日:2023-09-15
# ディープストリーミング正規化判別分析による連続学習

Continual Learning with Deep Streaming Regularized Discriminant Analysis ( http://arxiv.org/abs/2309.08353v1 )

ライセンス: Link先を確認
Joe Khawand, Peter Hanappe, David Colliaux(参考訳) 継続的学習は、より人間的な方法で学習を可能にするため、現実世界の機械学習アプリケーションでますます求められている。 従来の機械学習アプローチでは、モデルを識別できない分散データで漸進的に更新することは、既存の表現が上書きされた破滅的な忘れに繋がる。 従来の継続的学習方法は、ラベル付きデータの大規模なコレクションから連続的に学習するバッチ学習に重点を置いているが、このアプローチは、新しいデータを直接統合したいという現実世界のアプリケーションには適していない。 これはストリーミング学習へのパラダイムシフトを必要とする。 本稿では,この課題に対する解決策として,正規化判別分析のストリーミング版を提案する。 このアルゴリズムを畳み込みニューラルネットワークと組み合わせることで,imagenet ilsvrc-2012データセットのバッチ学習と既存のストリーミング学習アルゴリズムを上回っていることを示す。

Continual learning is increasingly sought after in real world machine learning applications, as it enables learning in a more human-like manner. Conventional machine learning approaches fail to achieve this, as incrementally updating the model with non-identically distributed data leads to catastrophic forgetting, where existing representations are overwritten. Although traditional continual learning methods have mostly focused on batch learning, which involves learning from large collections of labeled data sequentially, this approach is not well-suited for real-world applications where we would like new data to be integrated directly. This necessitates a paradigm shift towards streaming learning. In this paper, we propose a streaming version of regularized discriminant analysis as a solution to this challenge. We combine our algorithm with a convolutional neural network and demonstrate that it outperforms both batch learning and existing streaming learning algorithms on the ImageNet ILSVRC-2012 dataset.
翻訳日:2023-09-18 14:53:03 公開日:2023-09-15
# ヘッドレス言語モデル: 重み付けによる予測を伴わない学習

Headless Language Models: Learning without Predicting with Contrastive Weight Tying ( http://arxiv.org/abs/2309.08351v1 )

ライセンス: Link先を確認
Nathan Godey, \'Eric de la Clergerie, Beno\^it Sagot(参考訳) 言語モデルの自己教師付き事前訓練は通常、広範囲なトークン語彙上の確率分布を予測する。 本研究では, 確率予測から脱却し, コンストラクション・ウェイト・タイリング (cwt) によるコントラスト的手法を用いて, 入力埋め込みの再構成に焦点をあてる革新的な手法を提案する。 本手法は,単言語と多言語の両方の文脈において,ヘッドレス言語モデルの事前学習に適用する。 提案手法は,ダウンストリーム性能とデータ効率を同時に向上させながら,最大20倍のトレーニング計算要求を大幅に削減する。 同様の計算予算における古典的 LM と比較して,有意な +1.6 GLUE スコアの増加と,顕著な +2.7 LAMBADA の精度向上が観察された。

Self-supervised pre-training of language models usually consists in predicting probability distributions over extensive token vocabularies. In this study, we propose an innovative method that shifts away from probability prediction and instead focuses on reconstructing input embeddings in a contrastive fashion via Constrastive Weight Tying (CWT). We apply this approach to pretrain Headless Language Models in both monolingual and multilingual contexts. Our method offers practical advantages, substantially reducing training computational requirements by up to 20 times, while simultaneously enhancing downstream performance and data efficiency. We observe a significant +1.6 GLUE score increase and a notable +2.7 LAMBADA accuracy improvement compared to classical LMs within similar compute budgets.
翻訳日:2023-09-18 14:52:48 公開日:2023-09-15
# 半構造説明生成のためのリワードエンジニアリング

Reward Engineering for Generating Semi-structured Explanation ( http://arxiv.org/abs/2309.08347v1 )

ライセンス: Link先を確認
Jiuzhou Han, Wray Buntine, Ehsan Shareghi(参考訳) 半構造的な説明は、明示的な表現を持つ推論者の暗黙のプロセスを記述する。 この説明は、特定のクエリで利用可能な情報が、内部重みから回答を生成するための情報で補う方法を強調する。 言語モデルの生成能力は近年改善されているが、モデルの真の推論能力を検証する構造的な説明を生成することは依然として課題である。 この問題は, 正しい提示と正しい推論プロセスの両方を具現化した構造化された説明と, 逐次的な回答を関連付けることが期待されているため, 特に大きなLMでは顕著である。 本研究ではまず,この課題に対処する上で,教師付き微調整(SFT)の限界を強調し,その解決のために強化学習(RL)における報酬工学手法を慎重に導入する。 本稿では,複数の報酬集計手法について検討し,今後の研究開発におけるRLの可能性を明らかにする。 提案手法は,2つの半構造化説明生成ベンチマーク(ExplaGraphとCOPA-SSE)において,新しい最先端結果を実現する。

Semi-structured explanation depicts the implicit process of a reasoner with an explicit representation. This explanation highlights how available information in a specific query is supplemented with information a reasoner produces from its internal weights towards generating an answer. Despite the recent improvements in generative capabilities of language models, producing structured explanations to verify model's true reasoning capabilities remains a challenge. This issue is particularly pronounced for not-so-large LMs, as the reasoner is expected to couple a sequential answer with a structured explanation which embodies both the correct presentation and the correct reasoning process. In this work, we first underscore the limitations of supervised fine-tuning (SFT) in tackling this challenge, and then introduce a carefully crafted reward engineering method in reinforcement learning (RL) to better address this problem. We investigate multiple reward aggregation methods and provide a detailed discussion which sheds light on the promising potential of RL for future research. Our proposed reward on two semi-structured explanation generation benchmarks (ExplaGraph and COPA-SSE) achieves new state-of-the-art results.
翻訳日:2023-09-18 14:52:35 公開日:2023-09-15
# 接地言語モデルにおける知識ベースへのデータ分散基盤

Data Distribution Bottlenecks in Grounding Language Models to Knowledge Bases ( http://arxiv.org/abs/2309.08345v1 )

ライセンス: Link先を確認
Yiheng Shu, Zhiwei Yu(参考訳) 言語モデル(lms)はすでに自然言語と形式言語の両方を理解し、生成する顕著な能力を示している。 これらの進歩にもかかわらず、大規模知識ベース(kbs)のような実世界の環境との統合は未開発の領域であり、意味解析や「幻覚的」な情報の利用といったアプリケーションに影響を与える。 本稿では,知識ベース質問応答 (KBQA) のタスクにおいて,LMが直面する堅牢性の課題を明らかにすることを目的とした実験的研究である。 この調査は、トレーニングと推論の間の一貫性のないデータ分散、例えば、未認識のドメインへの一般化、さまざまな言語のバリエーションへの適応、異なるデータセット間の転送可能性といったシナリオをカバーする。 包括的実験により,提案するデータ拡張手法を用いても,先進的な小・大規模言語モデルでは様々な面で性能が低下することが判明した。 LMは有望な技術である一方、複雑な環境を扱う際の現在の形態の堅牢性は、データ分散の問題により脆弱で、実用性は限られている。 これは、データ収集とLM学習パラダイムに関する将来の研究を要求する。

Language models (LMs) have already demonstrated remarkable abilities in understanding and generating both natural and formal language. Despite these advances, their integration with real-world environments such as large-scale knowledge bases (KBs) remains an underdeveloped area, affecting applications such as semantic parsing and indulging in "hallucinated" information. This paper is an experimental investigation aimed at uncovering the robustness challenges that LMs encounter when tasked with knowledge base question answering (KBQA). The investigation covers scenarios with inconsistent data distribution between training and inference, such as generalization to unseen domains, adaptation to various language variations, and transferability across different datasets. Our comprehensive experiments reveal that even when employed with our proposed data augmentation techniques, advanced small and large language models exhibit poor performance in various dimensions. While the LM is a promising technology, the robustness of the current form in dealing with complex environments is fragile and of limited practicality because of the data distribution issue. This calls for future research on data collection and LM learning paradims.
翻訳日:2023-09-18 14:52:17 公開日:2023-09-15
# 非凸設定におけるadamの定数ステップサイズ収束:簡単な証明

Convergence of ADAM with Constant Step Size in Non-Convex Settings: A Simple Proof ( http://arxiv.org/abs/2309.08339v1 )

ライセンス: Link先を確認
Alokendu Mazumder, Bhartendu Kumar, Manan Tayal, Punit Rathore(参考訳) ニューラルネットワークトレーニングにおいて、RMSPropとADAMは依然として広く好まれる最適化アルゴリズムである。 彼らのパフォーマンスの鍵の1つは、正しいステップサイズを選択することである。 これらのアルゴリズムのパフォーマンスは、選択したステップサイズによって大きく異なる可能性があることに注意が必要だ。 さらに、それらの理論収束性に関する疑問は、引き続き関心の対象である。 本稿では,非凸状態におけるADAMの定常段差バージョンを理論的に解析する。 最小の仮定で、勾配の漸近収束を 0 にほぼ確実に達成するための段階的条件を示す。 また、スムーズな非凸関数を扱う場合、決定論的ADAMがほぼ臨界に達するための実行時境界も提供する。

In neural network training, RMSProp and ADAM remain widely favoured optimization algorithms. One of the keys to their performance lies in selecting the correct step size, which can significantly influence their effectiveness. It is worth noting that these algorithms performance can vary considerably, depending on the chosen step sizes. Additionally, questions about their theoretical convergence properties continue to be a subject of interest. In this paper, we theoretically analyze a constant stepsize version of ADAM in the non-convex setting. We show sufficient conditions for the stepsize to achieve almost sure asymptotic convergence of the gradients to zero with minimal assumptions. We also provide runtime bounds for deterministic ADAM to reach approximate criticality when working with smooth, non-convex functions.
翻訳日:2023-09-18 14:51:58 公開日:2023-09-15
# 誰が新しい仕事に移るか予測しましょう

Let's Predict Who Will Move to a New Job ( http://arxiv.org/abs/2309.08333v1 )

ライセンス: Link先を確認
Rania Mkhinini Gahar, Adel Hidri, Minyar Sassi Hidri(参考訳) 企業の人事部は、応募者が新しい仕事を探すか、会社に留まるかを予測するという課題に直面している。 本稿では、機械学習(ML)を用いて、誰が新しい仕事に移行するかを予測する。 まず、データはMLモデルに適したフォーマットにプリプロセスされる。 分類的特徴に対処するため、データを符号化し、ランダムフォレスト(RF)、ロジスティック回帰(LR)、決定木(DT)、eXtreme Gradient Boosting(XGBoost)を含む複数のMLA(ML Algorithms)を実行する。 mlモデルの性能を向上させるために、合成マイノリティオーバーサンプリング技術(smote)がそれらの保持に使用される。 モデルは精度、リコール、F1スコア、精度などの意思決定支援指標を用いて評価される。

Any company's human resources department faces the challenge of predicting whether an applicant will search for a new job or stay with the company. In this paper, we discuss how machine learning (ML) is used to predict who will move to a new job. First, the data is pre-processed into a suitable format for ML models. To deal with categorical features, data encoding is applied and several MLA (ML Algorithms) are performed including Random Forest (RF), Logistic Regression (LR), Decision Tree (DT), and eXtreme Gradient Boosting (XGBoost). To improve the performance of ML models, the synthetic minority oversampling technique (SMOTE) is used to retain them. Models are assessed using decision support metrics such as precision, recall, F1-Score, and accuracy.
翻訳日:2023-09-18 14:51:47 公開日:2023-09-15
# 不確実性下における対物干渉の推定

Estimation of Counterfactual Interventions under Uncertainties ( http://arxiv.org/abs/2309.08332v1 )

ライセンス: Link先を確認
Juliane Weilbach, Sebastian Gerwinn, Melih Kandemir and Martin Fraenzle(参考訳) 事実分析は人間によって日常的に直感的に行われる。 「ローンを承認するために違うことをすべきだったのか。」 このような反事実的疑問は、科学的仮説の定式化にも寄与する。 より正式には、様々な産業応用において顕著な役割を果たすシステムの行動の過去の観察に仮説的介入の効果を推測することで、システムの潜在的な改善についての洞察を提供する。 このような分析の仮説的性質のため、反事実分布は本質的に曖昧である。 この曖昧さは、同じ観察のために一連の説明が存在する連続的な設定において特に困難である。 本稿では,このような不確かさを明示的にモデル化する階層ベイズ的アプローチを用いて,この問題に対処する。 特に,非ガウス分布と非加法雑音を許容するベイズ歪ガウス過程の反事実分布を導出する。 本稿では, 合成および半合成例に対する我々のアプローチの特性を解説し, アルゴリズム的リコースダウンストリームタスクで使用した際の性能を示す。

Counterfactual analysis is intuitively performed by humans on a daily basis eg. "What should I have done differently to get the loan approved?". Such counterfactual questions also steer the formulation of scientific hypotheses. More formally it provides insights about potential improvements of a system by inferring the effects of hypothetical interventions into a past observation of the system's behaviour which plays a prominent role in a variety of industrial applications. Due to the hypothetical nature of such analysis, counterfactual distributions are inherently ambiguous. This ambiguity is particularly challenging in continuous settings in which a continuum of explanations exist for the same observation. In this paper, we address this problem by following a hierarchical Bayesian approach which explicitly models such uncertainty. In particular, we derive counterfactual distributions for a Bayesian Warped Gaussian Process thereby allowing for non-Gaussian distributions and non-additive noise. We illustrate the properties our approach on a synthetic and on a semi-synthetic example and show its performance when used within an algorithmic recourse downstream task.
翻訳日:2023-09-18 14:51:30 公開日:2023-09-15
# テンソルハイパーグラフニューラルネットワークと信号デノイングの統一化

A Unified View Between Tensor Hypergraph Neural Networks And Signal Denoising ( http://arxiv.org/abs/2309.08385v1 )

ライセンス: Link先を確認
Fuli Wang, Karelia Pena-Pena, Wei Qian, Gonzalo R. Arce(参考訳) Hypergraph Neural Network (HyperGNN) と Hypergraph Signal Denoising (HyperGSD) は、高次ネットワークモデリングにおける2つの基本的なトピックである。 これら2つのドメイン間の接続を理解することは、HyperGSDの観点から新しいHyperGNNを設計するのに特に有用である。 特に、テンソル・ハイパーグラフ畳み込みネットワーク(T-HGCN)は、ハイパーグラフ上の高次相互作用を保存するための強力なアーキテクチャとして登場し、この研究は、ハイパーGSD問題とT-HGCNの等価性を示す。 この興味深い結果に触発され,HyperGSD問題に基づくテンソル・ハイアグラフ反復ネットワーク(T-HGIN)をさらに設計する。 提案したT-HGINアプローチの有望な応用を示すための数値実験を行った。

Hypergraph Neural networks (HyperGNNs) and hypergraph signal denoising (HyperGSD) are two fundamental topics in higher-order network modeling. Understanding the connection between these two domains is particularly useful for designing novel HyperGNNs from a HyperGSD perspective, and vice versa. In particular, the tensor-hypergraph convolutional network (T-HGCN) has emerged as a powerful architecture for preserving higher-order interactions on hypergraphs, and this work shows an equivalence relation between a HyperGSD problem and the T-HGCN. Inspired by this intriguing result, we further design a tensor-hypergraph iterative network (T-HGIN) based on the HyperGSD problem, which takes advantage of a multi-step updating scheme in every single layer. Numerical experiments are conducted to show the promising applications of the proposed T-HGIN approach.
翻訳日:2023-09-18 14:44:59 公開日:2023-09-15
# 超高精細輸送監視のためのダブルドメイン誘導リアルタイム低光度画像強調

Double Domain Guided Real-Time Low-Light Image Enhancement for Ultra-High-Definition Transportation Surveillance ( http://arxiv.org/abs/2309.08382v1 )

ライセンス: Link先を確認
Jingxiang Qu, Ryan Wen Liu, Yuan Gao, Yu Guo, Fenghua Zhu, Fei-yue Wang(参考訳) リアルタイム交通監視は知的輸送システム(ITS)の重要な部分である。 しかし、低照度条件下で撮影された画像は、ノイズ干渉やあいまいなエッジ特徴など、劣化のタイプで視界が悪くなることが多い。 撮像装置の開発により、2kや4kといった画像監視データの品質が継続的に向上し、画像処理の効率をより厳格に要求している。 本稿では,高精細化と計算速度の両要件を満たすため,超高精細化(ultra-high-definition, uhd)輸送監視のためのダブルドメイン誘導実時間低光画像強調ネットワーク(ddnet)を提案する。 具体的には,学習ネットワークの主要アーキテクチャとしてエンコーダ・デコーダ構造を設計する。 特に、エンコーダ・デコーダ構造に埋め込まれた粗い増色モジュール(CEM)とLoGベースの増色モジュール(GEM)を介して、増色処理を2つのサブタスク(すなわち色増色および勾配増色)に分割する。 これにより、ネットワークは色とエッジの機能を同時に強化できる。 色と勾配の両方の領域の分解と再構成により、DDNetは、暗く隠された詳細な特徴情報を視覚的品質と効率良く復元することができる。 標準および輸送関連データセットの評価実験により、DDNetは最先端の手法と比較して優れた改善品質と効率を提供することを示した。 また,被写体検出およびシーン分割実験は,低照度環境下での高レベル画像解析における実用的利点を示す。

Real-time transportation surveillance is an essential part of the intelligent transportation system (ITS). However, images captured under low-light conditions often suffer the poor visibility with types of degradation, such as noise interference and vague edge features, etc. With the development of imaging devices, the quality of the visual surveillance data is continually increasing, like 2K and 4K, which has more strict requirements on the efficiency of image processing. To satisfy the requirements on both enhancement quality and computational speed, this paper proposes a double domain guided real-time low-light image enhancement network (DDNet) for ultra-high-definition (UHD) transportation surveillance. Specifically, we design an encoder-decoder structure as the main architecture of the learning network. In particular, the enhancement processing is divided into two subtasks (i.e., color enhancement and gradient enhancement) via the proposed coarse enhancement module (CEM) and LoG-based gradient enhancement module (GEM), which are embedded in the encoder-decoder structure. It enables the network to enhance the color and edge features simultaneously. Through the decomposition and reconstruction on both color and gradient domains, our DDNet can restore the detailed feature information concealed by the darkness with better visual quality and efficiency. The evaluation experiments on standard and transportation-related datasets demonstrate that our DDNet provides superior enhancement quality and efficiency compared with the state-of-the-art methods. Besides, the object detection and scene segmentation experiments indicate the practical benefits for higher-level image analysis under low-light environments in ITS.
翻訳日:2023-09-18 14:44:42 公開日:2023-09-15
# モジュラーシステムにおける評価手法の再検討:MRI前立腺癌検出における誤差の伝播について

Reconsidering evaluation practices in modular systems: On the propagation of errors in MRI prostate cancer detection ( http://arxiv.org/abs/2309.08381v1 )

ライセンス: Link先を確認
Erlend Sortland Rolfsnes, Philip Thangngat, Trygve Eftest{\o}l, Tobias Nordstr\"om, Fredrik J\"aderling, Martin Eklund, Alvaro Fernandez-Quilez(参考訳) 磁気共鳴イメージングは前立腺癌(PCa)検出のキーコンポーネントとして進化し、放射線学の作業量を大幅に増加させた。 人工知能(AI)システムは、臨床的に重要な (csPCa) と非臨床的に重要な (ncsPCa) の病変を分類し分類することで、放射線学的評価をサポートすることができる。 一般的に、PCa検出のためのAIシステムは自動前立腺セグメンテーションを伴い、その後抽出された前立腺を用いた病変検出を行う。 しかしながら、評価報告は、高度に正確なセグメンテーションと理想主義的なシナリオの可用性を前提として、モジュール間のエラーの伝播を省略した検出の観点で示されるのが一般的である。 そこで,検出段階での不均一な性能を持つ2つのセグメンテーションネットワーク (s1, s2) の効果を評価し, 理想的設定 (s1:89.90+-2.23 vs 88.97+-3.06 ncsPCa, P<.001, 89.30+-4.07, 88.12+-2.71 csPCa, P<.001) と比較した。 本研究は,システムに関わるすべてのサブモジュールを考慮し,全体的評価の妥当性を示す。

Magnetic resonance imaging has evolved as a key component for prostate cancer (PCa) detection, substantially increasing the radiologist workload. Artificial intelligence (AI) systems can support radiological assessment by segmenting and classifying lesions in clinically significant (csPCa) and non-clinically significant (ncsPCa). Commonly, AI systems for PCa detection involve an automatic prostate segmentation followed by the lesion detection using the extracted prostate. However, evaluation reports are typically presented in terms of detection under the assumption of the availability of a highly accurate segmentation and an idealistic scenario, omitting the propagation of errors between modules. For that purpose, we evaluate the effect of two different segmentation networks (s1 and s2) with heterogeneous performances in the detection stage and compare it with an idealistic setting (s1:89.90+-2.23 vs 88.97+-3.06 ncsPCa, P<.001, 89.30+-4.07 and 88.12+-2.71 csPCa, P<.001). Our results depict the relevance of a holistic evaluation, accounting for all the sub-modules involved in the system.
翻訳日:2023-09-18 14:44:16 公開日:2023-09-15
# 知識集約対話生成における証拠の解き放つ可能性

Unleashing Potential of Evidence in Knowledge-Intensive Dialogue Generation ( http://arxiv.org/abs/2309.08380v1 )

ライセンス: Link先を確認
Xianjie Wu, Jian Yang, Tongliang Li, Di Liang, Shiwei Zhang, Yiyang Du, Zhoujun Li(参考訳) 対話生成(kidg)に外部知識を組み込むことは、証拠断片が事実対話応答を支持する知識的なスニペットとして機能する応答の正確性を向上させる上で重要である。 しかし、無関係なコンテンツの導入は、しばしば応答品質に悪影響を及ぼし、容易に幻覚応答をもたらす。 対話システムにおける証拠の検索と統合に関する以前の作業は、モデルが有用な断片を正確に見つけられず、kicgデータセット内の隠れた証拠ラベルを見落としているため、既存の証拠を完全に活用することができない。 本稿では,エビデンスを知識集中対話生成(u-EIDG)に効果的に組み込むための枠組みを提案する。 具体的には,大規模言語モデル(llm)のパワーを活用して,ラベルのないデータから信頼できる証拠ラベルを発掘する自動証拠生成フレームワークを提案する。 これらのエビデンスラベルを利用することで、信頼できるエビデンス指標を訓練し、検索されたパスから適切な証拠を効果的に識別する。 さらに,エビデンスに着目した注意機構を備えたエビデンス拡張ジェネレータを提案し,そのモデルがエビデンスセグメントに集中できるようにする。 MultiDoc2Dialの実験結果から, モデル性能向上における明らかなラベル拡張と注意機構の改善の有効性が示された。 さらに,提案手法はコヒーレンスや事実整合性に関して,他のベースライン(+3~+5点)よりも優れていることを確認した。

Incorporating external knowledge into dialogue generation (KIDG) is crucial for improving the correctness of response, where evidence fragments serve as knowledgeable snippets supporting the factual dialogue replies. However, introducing irrelevant content often adversely impacts reply quality and easily leads to hallucinated responses. Prior work on evidence retrieval and integration in dialogue systems falls short of fully leveraging existing evidence since the model fails to locate useful fragments accurately and overlooks hidden evidence labels within the KIDG dataset. To fully Unleash the potential of evidence, we propose a framework to effectively incorporate Evidence in knowledge-Intensive Dialogue Generation (u-EIDG). Specifically, we introduce an automatic evidence generation framework that harnesses the power of Large Language Models (LLMs) to mine reliable evidence veracity labels from unlabeled data. By utilizing these evidence labels, we train a reliable evidence indicator to effectively identify relevant evidence from retrieved passages. Furthermore, we propose an evidence-augmented generator with an evidence-focused attention mechanism, which allows the model to concentrate on evidenced segments. Experimental results on MultiDoc2Dial demonstrate the efficacy of evidential label augmentation and refined attention mechanisms in improving model performance. Further analysis confirms that the proposed method outperforms other baselines (+3~+5 points) regarding coherence and factual consistency.
翻訳日:2023-09-18 14:43:50 公開日:2023-09-15
# PatFig: 特許の短所と長所のキャプションを生成する

PatFig: Generating Short and Long Captions for Patent Figures ( http://arxiv.org/abs/2309.08379v1 )

ライセンス: Link先を確認
Dana Aubakirova, Kim Gerdes, Lufei Liu(参考訳) 本稿では,11,000以上の欧州特許出願から3万以上の特許を抽出した,新たな大規模特許フィギュアデータセットであるQatent PatFigを紹介する。 各図に対して、このデータセットは、短いキャプション、参照数字、対応する用語、および画像の構成要素間の相互作用を記述する最小限のクレームセットを提供する。 データセットのユーザビリティを評価するために,qatent patfigにlvlmモデルを適用し,短い記述と長い記述を生成し,特許図キャプションプロセスの予測段階で様々なテキストに基づくヒントを組み込む効果について検討する。

This paper introduces Qatent PatFig, a novel large-scale patent figure dataset comprising 30,000+ patent figures from over 11,000 European patent applications. For each figure, this dataset provides short and long captions, reference numerals, their corresponding terms, and the minimal claim set that describes the interactions between the components of the image. To assess the usability of the dataset, we finetune an LVLM model on Qatent PatFig to generate short and long descriptions, and we investigate the effects of incorporating various text-based cues at the prediction stage of the patent figure captioning process.
翻訳日:2023-09-18 14:43:24 公開日:2023-09-15
# DiaCorrect:話者ダイアリゼーションのための誤り訂正バックエンド

DiaCorrect: Error Correction Back-end For Speaker Diarization ( http://arxiv.org/abs/2309.08377v1 )

ライセンス: Link先を確認
Jiangyu Han, Federico Landini, Johan Rohdin, Mireia Diez, Lukas Burget, Yuhang Cao, Heng Lu, Jan Cernocky(参考訳) 本研究では,ダイアリゼーションシステムの出力をシンプルかつ効果的な方法で洗練するための誤り訂正フレームワークであるdiacorrectを提案する。 本手法は自動音声認識における誤り訂正手法に着想を得たものである。 我々のモデルは、2つの並列畳み込みエンコーダと変換ベースのデコーダからなる。 入力記録と初期システムの出力との相互作用を利用して、diacorrectは初期話者アクティビティを自動的に補正してダイアリゼーションエラーを最小化することができる。 2話者テレフォニーデータを用いた実験により,提案手法が初期モデルの結果を効果的に改善できることを示す。 ソースコードはhttps://github.com/butspeechfit/diacorrect.comで公開しています。

In this work, we propose an error correction framework, named DiaCorrect, to refine the output of a diarization system in a simple yet effective way. This method is inspired by error correction techniques in automatic speech recognition. Our model consists of two parallel convolutional encoders and a transform-based decoder. By exploiting the interactions between the input recording and the initial system's outputs, DiaCorrect can automatically correct the initial speaker activities to minimize the diarization errors. Experiments on 2-speaker telephony data show that the proposed DiaCorrect can effectively improve the initial model's results. Our source code is publicly available at https://github.com/BUTSpeechFIT/diacorrect.
翻訳日:2023-09-18 14:43:13 公開日:2023-09-15
# 公正改善の一般化のための適応的優先順位付け

Adaptive Priority Reweighing for Generalizing Fairness Improvement ( http://arxiv.org/abs/2309.08375v1 )

ライセンス: Link先を確認
Zhihao Hu, Yiran Xu, Mengnan Du, Jindong Gu, Xinmei Tian, and Fengxiang He(参考訳) 重要な意思決定領域における機械学習アプリケーションの普及に伴い、アルゴリズム的公正性の要求がより顕著になる。 公正性制約を学習することでアルゴリズムの公正性を改善するための様々なモダリティがあるが、それらの性能はテストセットではうまく一般化しない。 より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。 本稿では,モデル一般化性に対するトレーニングデータとテストデータ間の分布シフトの影響を解消する新しい適応緩和法を提案する。 以前のリウィーディング法のほとんどは、各(部分)群に対して統一重みを割り当てることを提案している。 むしろ,提案手法はサンプル予測から決定境界までの距離を粒密にモデル化する。 適応的リウィーディング法は, 決定境界に近いサンプルを優先し, 公平な分類器の一般化性を向上させるために高い重みを割り当てる。 グラフ型ベンチマークにおいて,適応的優先順位付け手法の精度と公平度(等機会,等化確率,人口比率)の一般化性を検証するため,広範囲な実験を行った。 また,言語と視覚モデルの公平性を向上する上で,本手法の性能を強調した。 コードはhttps://github.com/che2198/apwで入手できる。

With the increasing penetration of machine learning applications in critical decision-making areas, calls for algorithmic fairness are more prominent. Although there have been various modalities to improve algorithmic fairness through learning with fairness constraints, their performance does not generalize well in the test set. A performance-promising fair algorithm with better generalizability is needed. This paper proposes a novel adaptive reweighing method to eliminate the impact of the distribution shifts between training and test data on model generalizability. Most previous reweighing methods propose to assign a unified weight for each (sub)group. Rather, our method granularly models the distance from the sample predictions to the decision boundary. Our adaptive reweighing method prioritizes samples closer to the decision boundary and assigns a higher weight to improve the generalizability of fair classifiers. Extensive experiments are performed to validate the generalizability of our adaptive priority reweighing method for accuracy and fairness measures (i.e., equal opportunity, equalized odds, and demographic parity) in tabular benchmarks. We also highlight the performance of our method in improving the fairness of language and vision models. The code is available at https://github.com/che2198/APW.
翻訳日:2023-09-18 14:43:02 公開日:2023-09-15
# 表層異常検出のための自己教師型学習の限界を理解する

Understanding the limitations of self-supervised learning for tabular anomaly detection ( http://arxiv.org/abs/2309.08374v1 )

ライセンス: Link先を確認
Kimberly T. Mai, Toby Davies, Lewis D. Griffin(参考訳) 自己教師付き学習は、コンピュータビジョンや自然言語処理における異常検出を改善するが、表データにメリットがあるかどうかは定かではない。 本稿では,タブ状異常検出における自己スーパービジョンの限界について検討する。 26のベンチマークデータセットで様々なプリテキストタスクにまたがる実験を行い、これがなぜそうなるのかを理解した。 自己スーパービジョンから導かれる表現は,データの生表現を用いた場合に比べ,表状異常検出性能が向上しない。 これは、異常検出器の有効性を低下させる無関係な特徴を導入したニューラルネットワークによるものである。 しかし、ニューラルネットワークの表現のサブスペースを使用することで、性能を回復できることを示す。

While self-supervised learning has improved anomaly detection in computer vision and natural language processing, it is unclear whether tabular data can benefit from it. This paper explores the limitations of self-supervision for tabular anomaly detection. We conduct several experiments spanning various pretext tasks on 26 benchmark datasets to understand why this is the case. Our results confirm representations derived from self-supervision do not improve tabular anomaly detection performance compared to using the raw representations of the data. We show this is due to neural networks introducing irrelevant features, which reduces the effectiveness of anomaly detectors. However, we demonstrate that using a subspace of the neural network's representation can recover performance.
翻訳日:2023-09-18 14:42:43 公開日:2023-09-15
# beyond domain gap: スケッチに基づく人物検索における主観性の利用

Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval ( http://arxiv.org/abs/2309.08372v1 )

ライセンス: Link先を確認
Kejun Lin and Zhixiang Wang and Zheng Wang and Yinqiang Zheng and Shin'ichi Satoh(参考訳) 人物識別(re-ID)には、密集したカメラが必要である。 実際には、興味のある人物はカメラで捉えられないため、主観的な情報(例えば目撃者からのスケッチ)を使って取り出す必要がある。 前回の研究では、スケッチをスケッチの再識別(sketch re-id)として定義し、ドメインギャップの排除に焦点を当てている。 実際、主観性もまた重要な課題です。 マルチウィットネス記述による新しいデータセットのポーズをモデル化し,検討する。 2つの側面がある。 1)大規模化。 4,763枚のスケッチと32,668枚の写真が含まれており、最大のスケッチ再識別データセットである。 2)マルチパースペクティブ,マルチスタイル。 私たちのデータセットは、アイデンティティ毎に複数のスケッチを提供します。 目撃者の主観的認知は同一個人に対して複数の視点を与え、異なるアーティストの描画スタイルはスケッチスタイルのバリエーションを提供する。 さらに,主観性の課題を緩和する2つの新しいデザインを考案した。 1)主観性の導入。 同一の同一性のために異なる目撃者からスケッチを収集する非局所(NL)融合モジュールを提案する。 2)客観性の導入。 attralignモジュールは属性を暗黙のマスクとして利用し、クロスドメインの機能を調整する。 Sketch re-IDの進歩を推し進めるため、3つのベンチマーク(大規模、マルチスタイル、クロススタイル)を設定しました。 大規模な実験は、これらのベンチマークで主要なパフォーマンスを示します。 DatasetとCodesは、https://github.com/Lin-Kayla/subjectivity-sketch-reidで公開されている。

Person re-identification (re-ID) requires densely distributed cameras. In practice, the person of interest may not be captured by cameras and, therefore, needs to be retrieved using subjective information (e.g., sketches from witnesses). Previous research defines this case using the sketch as sketch re-identification (Sketch re-ID) and focuses on eliminating the domain gap. Actually, subjectivity is another significant challenge. We model and investigate it by posing a new dataset with multi-witness descriptions. It features two aspects. 1) Large-scale. It contains over 4,763 sketches and 32,668 photos, making it the largest Sketch re-ID dataset. 2) Multi-perspective and multi-style. Our dataset offers multiple sketches for each identity. Witnesses' subjective cognition provides multiple perspectives on the same individual, while different artists' drawing styles provide variation in sketch styles. We further have two novel designs to alleviate the challenge of subjectivity. 1) Fusing subjectivity. We propose a non-local (NL) fusion module that gathers sketches from different witnesses for the same identity. 2) Introducing objectivity. An AttrAlign module utilizes attributes as an implicit mask to align cross-domain features. To push forward the advance of Sketch re-ID, we set three benchmarks (large-scale, multi-style, cross-style). Extensive experiments demonstrate our leading performance in these benchmarks. Dataset and Codes are publicly available at: https://github.com/Lin-Kayla/subjectivity-sketch-reid
翻訳日:2023-09-18 14:42:33 公開日:2023-09-15
# 単一カメラを用いた高効率広視野擬似3次元車両検出

An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single Camera ( http://arxiv.org/abs/2309.08369v1 )

ライセンス: Link先を確認
Zhupeng Ye, Yinqi Li, Zejian Yuan(参考訳) 広範囲かつ細かな車両検出は、インテリジェント運転システムにおける能動安全機能を実現する上で重要な役割を担っている。 しかし、直方体境界箱(BBox)に基づく既存の車両検出法は、特に長距離の狭い物体を知覚するのにしばしば苦労する。 そして、bbox式は、車両の詳細な幾何学的形状とポーズ情報を提供できない。 本稿では,1台のカメラからの画像に基づく広帯域Pseudo-3D車両検出手法を提案する。 このモデルは、高解像度画像から2つのサブウィンドウ画像を組み合わせたスプリシング画像を入力とする。 この画像フォーマットは、限られた画像解像度の利用を最大化し、広範囲の車両オブジェクトに関する必須情報を保持する。 擬似3次元物体を検出するために,本モデルは特別に設計された検出ヘッドを採用する。 これらのヘッドは、拡張されたbboxおよびside projection line (spl)表現を同時に出力し、車両の形状とポーズをキャプチャし、高精度な検出を可能にする。 検出性能をさらに向上させるため、モデルトレーニング中にオブジェクトボックスとsplとを結合したジョイント制約損失を設計でき、モデルの効率、安定性、予測精度が向上する。 自作データセットを用いた実験結果から, 広域擬似3次元車両検出において, 複数の評価指標間で良好な性能が得られた。 デモビデオはhttps://www.youtube.com/watch? v=1gk1PmsQ5Q8。

Wide-range and fine-grained vehicle detection plays a critical role in enabling active safety features in intelligent driving systems. However, existing vehicle detection methods based on rectangular bounding boxes (BBox) often struggle with perceiving wide-range objects, especially small objects at long distances. And BBox expression cannot provide detailed geometric shape and pose information of vehicles. This paper proposes a novel wide-range Pseudo-3D Vehicle Detection method based on images from a single camera and incorporates efficient learning methods. This model takes a spliced image as input, which is obtained by combining two sub-window images from a high-resolution image. This image format maximizes the utilization of limited image resolution to retain essential information about wide-range vehicle objects. To detect pseudo-3D objects, our model adopts specifically designed detection heads. These heads simultaneously output extended BBox and Side Projection Line (SPL) representations, which capture vehicle shapes and poses, enabling high-precision detection. To further enhance the performance of detection, a joint constraint loss combining both the object box and SPL is designed during model training, improving the efficiency, stability, and prediction accuracy of the model. Experimental results on our self-built dataset demonstrate that our model achieves favorable performance in wide-range pseudo-3D vehicle detection across multiple evaluation metrics. Our demo video has been placed at https://www.youtube.com/watch?v=1gk1PmsQ5Q8.
翻訳日:2023-09-18 14:42:08 公開日:2023-09-15
# RGBとイベントカメラを用いた変形性ニューラルラジアンス場

Deformable Neural Radiance Fields using RGB and Event Cameras ( http://arxiv.org/abs/2309.08416v1 )

ライセンス: Link先を確認
Qi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool(参考訳) 視覚データのみから高速に動く変形可能な物体に対するニューラルレージアンスフィールドのモデリングは難しい問題である。 主な問題は、高い変形と低い獲得率のためである。 この問題に対処するため,我々は,視覚的な変化を非同期に高速に取得できるイベントカメラを提案する。 本研究では,RGBとイベントカメラを用いた変形可能なニューラル放射場をモデル化する新しい手法を開発した。 提案手法はイベントの非同期ストリームとキャリブレーションされたスパースRGBフレームを用いる。 我々の設定では、カメラは放射場にそれらを組み込むために必要な個々の事象を撮影する。 本手法はこれらのポーズと放射場を協調的に最適化する。 これは、一度にイベントの収集を活用でき、学習中のイベントを積極的にサンプリングすることで効率よく起こる。 現実的にレンダリングされたグラフィックスと実世界のデータセットの両方で実施された実験は、提案手法が最先端と比較ベースラインに対して有益であることを示す。 これは、実世界の動的シーンにおける変形可能な神経放射フィールドのモデリングに有望な方向を示している。

Modeling Neural Radiance Fields for fast-moving deformable objects from visual data alone is a challenging problem. A major issue arises due to the high deformation and low acquisition rates. To address this problem, we propose to use event cameras that offer very fast acquisition of visual change in an asynchronous manner. In this work, we develop a novel method to model the deformable neural radiance fields using RGB and event cameras. The proposed method uses the asynchronous stream of events and calibrated sparse RGB frames. In our setup, the camera pose at the individual events required to integrate them into the radiance fields remains unknown. Our method jointly optimizes these poses and the radiance field. This happens efficiently by leveraging the collection of events at once and actively sampling the events during learning. Experiments conducted on both realistically rendered graphics and real-world datasets demonstrate a significant benefit of the proposed method over the state-of-the-art and the compared baseline. This shows a promising direction for modeling deformable neural radiance fields in real-world dynamic scenes.
翻訳日:2023-09-18 14:33:55 公開日:2023-09-15
# 不確実性定量化を用いた機械学習によるCRTの多段階決定過程のモデル化

A new method of modeling the multi-stage decision-making process of CRT using machine learning with uncertainty quantification ( http://arxiv.org/abs/2309.08415v1 )

ライセンス: Link先を確認
Kristoffer Larsena, Chen Zhao, Joyce Keyak, Qiuying Sha, Diana Paezd, Xinwei Zhang, Jiangang Zou, Amalia Peixf, Weihua Zhou(参考訳) 狙いだ 本研究の目的は、心不全患者に対する心臓再同期療法(crt)反応を予測するための多段階機械学習モデルの構築である。 このモデルは不確実性定量化を利用して、心電図(ECG)の基本的な臨床変数と特徴が十分でない場合、SPECT MPI変数の追加収集を推奨する。 メソッド。 本研究はspect mpiを施行した218例を対象に行った。 crt反応は6カ月の追跡で左室射出率 (lvef) が5%以上増加したと定義した。 2つのアンサンブルモデルを組み合わせて多段mlモデルを作成した。 結果だ crtの反応率は55.5% (n = 121)、男性全体の性別は61.0% (n = 133)、平均年齢は62.0、lvefは27.7であった。 マルチステージモデルでは、AUCが0.75対0.77、精度が0.71対0.69、感度が0.70対0.72、特異性が0.72対0.65であった。 しかし、マルチステージモデルはすべての折り畳み患者の52.7%のSPECT MPIデータしか必要としなかった。 結論だ 不確実な定量化から生じるルールベースの論理を用いることで、マルチステージモデルは、パフォーマンスを犠牲にすることなく、追加のSPECT MPIデータ取得の必要性を減らすことができた。

Aims. The purpose of this study is to create a multi-stage machine learning model to predict cardiac resynchronization therapy (CRT) response for heart failure (HF) patients. This model exploits uncertainty quantification to recommend additional collection of single-photon emission computed tomography myocardial perfusion imaging (SPECT MPI) variables if baseline clinical variables and features from electrocardiogram (ECG) are not sufficient. Methods. 218 patients who underwent rest-gated SPECT MPI were enrolled in this study. CRT response was defined as an increase in left ventricular ejection fraction (LVEF) > 5% at a 6 month follow-up. A multi-stage ML model was created by combining two ensemble models. Results. The response rate for CRT was 55.5% (n = 121) with overall male gender 61.0% (n = 133), an average age of 62.0, and LVEF of 27.7. The multi-stage model performed similarly to Ensemble 2 (which utilized the additional SPECT data) with AUC of 0.75 vs. 0.77, accuracy of 0.71 vs. 0.69, sensitivity of 0.70 vs. 0.72, and specificity 0.72 vs. 0.65, respectively. However, the multi-stage model only required SPECT MPI data for 52.7% of the patients across all folds. Conclusions. By using rule-based logic stemming from uncertainty quantification, the multi-stage model was able to reduce the need for additional SPECT MPI data acquisition without sacrificing performance.
翻訳日:2023-09-18 14:33:40 公開日:2023-09-15
# ディープネットワークを再び浅める

Make Deep Networks Shallow Again ( http://arxiv.org/abs/2309.08414v1 )

ライセンス: Link先を確認
Bernhard Bermeitinger, Tomas Hrycej, Siegfried Handschuh(参考訳) ディープニューラルネットワークは優れた成功記録を持ち、複雑なアプリケーションにとって最適なアーキテクチャ選択と見なされている。 彼らの主な欠点は、長い間、数値最適化アルゴリズムが許容される収束を妨げていた勾配の消失であった。 従来のレイヤと平行なアイデンティティマッピングである残差接続の概念によって、ブレークスルーが達成されている。 この概念は同一次元の層のスタックに適用でき、消滅する勾配問題を大幅に緩和する。 残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。 この拡張は、高階の項を切断し、最初に積み重ねられた全ての層からなる単一の広層からなるアーキテクチャを受け取る可能性を示唆している。 言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。 この理論を駆使して並列アーキテクチャの性能性能を逐次アーキテクチャと比較した。 コンピュータビジョンデータセット MNIST と CIFAR10 は、畳み込み層の数、フィルタの数、カーネルサイズ、その他のメタパラメータの合計6912の組み合わせで、両方のアーキテクチャをトレーニングするために使用された。 その結果,深層(系列)と浅層(並列)のアーキテクチャに驚くべき等価性が示された。 どちらのレイアウトも、トレーニングと検証セットの損失という観点で、同様の結果を生み出した。 この発見は、広範囲で浅いアーキテクチャがパフォーマンスを犠牲にすることなくディープネットワークを置き換える可能性を示唆している。 このような置換は、ネットワークアーキテクチャを単純化し、最適化効率を改善し、トレーニングプロセスを加速する可能性がある。

Deep neural networks have a good success record and are thus viewed as the best architecture choice for complex applications. Their main shortcoming has been, for a long time, the vanishing gradient which prevented the numerical optimization algorithms from acceptable convergence. A breakthrough has been achieved by the concept of residual connections -- an identity mapping parallel to a conventional layer. This concept is applicable to stacks of layers of the same dimension and substantially alleviates the vanishing gradient problem. A stack of residual connection layers can be expressed as an expansion of terms similar to the Taylor expansion. This expansion suggests the possibility of truncating the higher-order terms and receiving an architecture consisting of a single broad layer composed of all initially stacked layers in parallel. In other words, a sequential deep architecture is substituted by a parallel shallow one. Prompted by this theory, we investigated the performance capabilities of the parallel architecture in comparison to the sequential one. The computer vision datasets MNIST and CIFAR10 were used to train both architectures for a total of 6912 combinations of varying numbers of convolutional layers, numbers of filters, kernel sizes, and other meta parameters. Our findings demonstrate a surprising equivalence between the deep (sequential) and shallow (parallel) architectures. Both layouts produced similar results in terms of training and validation set loss. This discovery implies that a wide, shallow architecture can potentially replace a deep network without sacrificing performance. Such substitution has the potential to simplify network architectures, improve optimization efficiency, and accelerate the training process.
翻訳日:2023-09-18 14:33:08 公開日:2023-09-15
# HCl($X^1\Sigma^+$)-O$_{2}$($X^3\Sigma^-_g$)系に対する新しいポテンシャルエネルギー曲面と量子散乱計算: H$^{35}$ClにおけるO$_{2}$-摂動R(0)0-0線に対する衝突誘起線状パラメータ

\textit{Ab initio} quantum scattering calculations and a new potential energy surface for the HCl($X^1\Sigma^+$)-O$_{2}$($X^3\Sigma^-_g$) system: collision-induced line-shape parameters for O$_{2}$-perturbed R(0) 0-0 line in H$^{35}$Cl ( http://arxiv.org/abs/2309.08413v1 )

ライセンス: Link先を確認
Artur Olejnik (1), Hubert J\'o\'zwiak (1), Maciej Gancewski (1), Ernesto Quintas-S\'anchez (2), Richard Dawes (2), Piotr Wcis{\l}o (1) ((1) Institute of Physics, Faculty of Physics, Astronomy and Informatics, Nicolaus Copernicus University in Toru\'n, Poland (2) Department of Chemistry, Missouri University of Science and Technology, USA)(参考訳) オゾンの枯渇に直接関与するCl原子の主要な大気貯留層であるHClの量と性質のリモートセンシングは、「オゾンの枯渇」種と「貯水池」種の塩素の分配を監視する上で重要である。 このような遠隔研究は、周囲の空気の分子との衝突によって摂動するHClの分子共鳴の形状の知識を必要とする。 本研究では,空気関連分子によって摂動されるh$^{35}$clにおける純回転線形状の衝突摂動に関する最初の全量子計算を報告する(第1模型系として,o$_2$で摂動したhclのr(0)線を選択する)。 計算は我々の新しい高精度HCl($X^1\Sigma^+$)-O$_2$($X^3\Sigma^-_g$)ポテンシャルエネルギー面上で行う。 圧力の広がりとシフトに加えて、その速度依存性と複雑なディッケパラメータも決定する。 これは、複素ディッケパラメータの物理的意味とその大気スペクトルとの関連に関するコミュニティの議論に重要なインプットを与える(以前は、これらのシステムの複素ディッケパラメータは、主に実験スペクトルへの現象学的適合と、その文脈におけるその値の物理的意味が疑わしい)。 また,線状パラメータの温度依存性を計算し,利用可能な実験データとの一致を求める。 本研究では,シミュレーション線形状の相対rmse残差が296~kの計算結果の総和不確かさを推定した。 この結果は、地上大気の重要分子系に対する正確な線形状パラメータを持つ分光データベースの計算人口に向けて重要なステップとなる。

The remote sensing of abundance and properties of HCl -- the main atmospheric reservoir of Cl atoms which directly participate in ozone depletion -- are important for monitoring the partitioning of chlorine between "ozone-depleting" and "reservoir" species. Such remote studies require knowledge of the shapes of molecular resonances of HCl, which are perturbed by collisions with the molecules of the surrounding air. In this work, we report the first fully quantum calculations of collisional perturbations of the shape of a pure rotational line in H$^{35}$Cl perturbed by an air-relevant molecule (as the first model system we choose the R(0) line in HCl perturbed by O$_2$). The calculations are performed on our new highly-accurate HCl($X^1\Sigma^+$)-O$_2$($X^3\Sigma^-_g$) potential energy surface. In addition to pressure broadening and shift, we determine also their speed dependencies and the complex Dicke parameter. This gives important input to the community discussion on the physical meaning of the complex Dicke parameter and its relevance for atmospheric spectra (previously, the complex Dicke parameter for such systems was mainly determined from phenomenological fits to experimental spectra and the physical meaning of its value in that context is questionable). We also calculate the temperature dependence of the line-shape parameters and obtain agreement with the available experimental data. We estimate the total combined uncertainties of our calculations at 2\% relative RMSE residuals in the simulated line shape at 296~K. This result constitutes an important step towards computational population of spectroscopic databases with accurate \textit{ab initio} line-shape parameters for molecular systems of terrestrial atmospheric importance.
翻訳日:2023-09-18 14:32:45 公開日:2023-09-15
# Smooth Acyclic Orientationを用いた制約なし構造学習

Constraint-Free Structure Learning with Smooth Acyclic Orientations ( http://arxiv.org/abs/2309.08406v1 )

ライセンス: Link先を確認
Riccardo Massidda, Francesco Landolfi, Martina Cinquini, Davide Bacciu(参考訳) 構造学習問題は、DAG(Directed Acyclic Graph)によって生成されたフィッティングデータから成り、そのアークを正しく再構築する。 この文脈において、微分可能アプローチは非巡回性の性質の連続緩和を用いて最適化問題を制約または正則化する。 グラフの非循環性を評価する計算コストはノード数で立方体であり、スケーラビリティに大きく影響する。 本稿では,非循環構造学習のための制約のない連続最適化スキームであるCOSMOを紹介する。 提案手法の核心では, 1 つの優先度ベクトルによってパラメータ化される向き行列の微分可能近似を定義する。 従来の研究と異なり、パラメータ化は任意のステップで非巡回性を評価することなく、滑らかな配向行列と結果として生じる非巡回隣接行列に適合する。 明示的な制約がないにもかかわらず、COSMOは常に非巡回解に収束することを示す。 漸近的に高速であるだけでなく、グラフ再構成におけるCOSMOのパフォーマンスが、競合する構造学習法と比較できることを示す経験的分析を行った。

The structure learning problem consists of fitting data generated by a Directed Acyclic Graph (DAG) to correctly reconstruct its arcs. In this context, differentiable approaches constrain or regularize the optimization problem using a continuous relaxation of the acyclicity property. The computational cost of evaluating graph acyclicity is cubic on the number of nodes and significantly affects scalability. In this paper we introduce COSMO, a constraint-free continuous optimization scheme for acyclic structure learning. At the core of our method, we define a differentiable approximation of an orientation matrix parameterized by a single priority vector. Differently from previous work, our parameterization fits a smooth orientation matrix and the resulting acyclic adjacency matrix without evaluating acyclicity at any step. Despite the absence of explicit constraints, we prove that COSMO always converges to an acyclic solution. In addition to being asymptotically faster, our empirical analysis highlights how COSMO performance on graph reconstruction compares favorably with competing structure learning methods.
翻訳日:2023-09-18 14:32:13 公開日:2023-09-15
# ピーク浅層量子回路の古典的シミュレーション

Classical simulation of peaked shallow quantum circuits ( http://arxiv.org/abs/2309.08405v1 )

ライセンス: Link先を確認
Sergey Bravyi, David Gosset, Yinchen Liu(参考訳) n$-量子回路は、少なくともn$の関数として逆ポリノミカルに大きい出力確率を持つ場合、ピークとされる。 我々は、ピーク付き定数深さ回路の出力分布からおよそサンプルをサンプリングした準多項ランタイム $n^{o(\log{n})} を持つ古典的なアルゴリズムを記述する。 量子ビットの$d$-次元グリッド上に最寄りのゲートからなる回路のより高速なアルゴリズムを提供し、多項式ランタイム$n^{o(1)}$ if $d=2$、ほぼ多項ランタイム$n^{o(\log{\log{n}})}$を$d>2$とする。 サンプリングアルゴリズムは、与えられた逆多項加算誤差の範囲内における浅回路の出力確率を推定し、従来知られていた方法を改善するために使用できる。 簡単な応用として、浅い回路の出力状態において観測可能な任意のパウリの期待値の大きさを推定する準ポリノミカルアルゴリズムを得る。 これは、$\sqrt{n}$の指数的スケーリングを持つ従来の最先端アルゴリズムよりも劇的な改善である。

An $n$-qubit quantum circuit is said to be peaked if it has an output probability that is at least inverse-polynomially large as a function of $n$. We describe a classical algorithm with quasipolynomial runtime $n^{O(\log{n})}$ that approximately samples from the output distribution of a peaked constant-depth circuit. We give even faster algorithms for circuits composed of nearest-neighbor gates on a $D$-dimensional grid of qubits, with polynomial runtime $n^{O(1)}$ if $D=2$ and almost-polynomial runtime $n^{O(\log{\log{n}})}$ for $D>2$. Our sampling algorithms can be used to estimate output probabilities of shallow circuits to within a given inverse-polynomial additive error, improving previously known methods. As a simple application, we obtain a quasipolynomial algorithm to estimate the magnitude of the expected value of any Pauli observable in the output state of a shallow circuit (which may or may not be peaked). This is a dramatic improvement over the prior state-of-the-art algorithm which had an exponential scaling in $\sqrt{n}$.
翻訳日:2023-09-18 14:31:57 公開日:2023-09-15
# 3d sa-unet: white matter hyperintensities segmentationのための3d asppを用いた3d空間注意unet

3D SA-UNet: 3D Spatial Attention UNet with 3D ASPP for White Matter Hyperintensities Segmentation ( http://arxiv.org/abs/2309.08402v1 )

ライセンス: Link先を確認
Changlu Guo(参考訳) ホワイトマター・ハイパーインテンシティ(White Matter Hyperintensity, WMH)は、認知症や脳卒中などの様々な疾患に関連する画像特徴である。 コンピュータ技術を用いたWMHの正確なセグメンテーションは早期診断に不可欠である。 しかし、コントラストが低く、画像に不連続な小さな病変があり、文脈情報や空間情報も限られているため、この課題は依然として困難である。 この課題に対処するために,Fluid Attenuation Inversion Recovery (FLAIR) スキャンのみを用いた自動WMHセグメンテーションのための3次元空間注意U-Net(3D SA-UNet)というディープラーニングモデルを提案する。 3D SA-UNetは、重要でない領域を抑えながら、WMHのような重要な病変の特徴を強調する3D空間注意モジュールを導入した。 さらに,異なるスケールで特徴をキャプチャするために,atrous spatial pyramid pooling (aspp) モジュールを3dバージョンに拡張し,ネットワークのセグメンテーション性能を向上させる。 提案手法を公開データセット上で評価し,WMHセグメンテーションにおける3次元空間注意モジュールと3次元ASPPの有効性を実証した。 実験の結果,提案した3D SA-UNetモデルは,他の最先端の3D畳み込みニューラルネットワークと比較して精度が高いことがわかった。

White Matter Hyperintensity (WMH) is an imaging feature related to various diseases such as dementia and stroke. Accurately segmenting WMH using computer technology is crucial for early disease diagnosis. However, this task remains challenging due to the small lesions with low contrast and high discontinuity in the images, which contain limited contextual and spatial information. To address this challenge, we propose a deep learning model called 3D Spatial Attention U-Net (3D SA-UNet) for automatic WMH segmentation using only Fluid Attenuation Inversion Recovery (FLAIR) scans. The 3D SA-UNet introduces a 3D Spatial Attention Module that highlights important lesion features, such as WMH, while suppressing unimportant regions. Additionally, to capture features at different scales, we extend the Atrous Spatial Pyramid Pooling (ASPP) module to a 3D version, enhancing the segmentation performance of the network. We evaluate our method on publicly available dataset and demonstrate the effectiveness of 3D spatial attention module and 3D ASPP in WMH segmentation. Through experimental results, it has been demonstrated that our proposed 3D SA-UNet model achieves higher accuracy compared to other state-of-the-art 3D convolutional neural networks.
翻訳日:2023-09-18 14:31:36 公開日:2023-09-15
# モジュール型ロボット構成の最適化 : 語彙遺伝アルゴリズムによるアプローチ

Optimizing Modular Robot Composition: A Lexicographic Genetic Algorithm Approach ( http://arxiv.org/abs/2309.08399v1 )

ライセンス: Link先を確認
Jonathan K\"ulz and Matthias Althoff(参考訳) 産業用ロボットは汎用ハードウェアとして設計されており、タスク要求や環境の変化に適応する能力を制限する。 一方、モジュラーロボットは柔軟性があり、多様なニーズに合わせて簡単にカスタマイズできる。 形態学、すなわちロボットの形態と構造は、主要なパフォーマンス指標の取得コスト、サイクル時間、エネルギー効率に大きな影響を及ぼす。 しかし、特定のタスクに最適なモジュール構成を特定することは未解決の問題であり、タスクに適したモジュールロボットを開発する上で大きなハードルとなる。 以前のアプローチでは、設計空間の適切な探索や、複雑なタスクに適応する可能性に欠けていた。 本研究では, 遺伝的アルゴリズムと解候補の辞書評価を組み合わせることで, この問題を克服し, 探索空間を探索する手法を提案する。 提案手法は最先端のベースラインを上回っており, クラッタ環境における産業タスクのためのモジュールロボットを合成できることを実証する。

Industrial robots are designed as general-purpose hardware, which limits their ability to adapt to changing task requirements or environments. Modular robots, on the other hand, offer flexibility and can be easily customized to suit diverse needs. The morphology, i.e., the form and structure of a robot, significantly impacts the primary performance metrics acquisition cost, cycle time, and energy efficiency. However, identifying an optimal module composition for a specific task remains an open problem, presenting a substantial hurdle in developing task-tailored modular robots. Previous approaches either lack adequate exploration of the design space or the possibility to adapt to complex tasks. We propose combining a genetic algorithm with a lexicographic evaluation of solution candidates to overcome this problem and navigate search spaces exceeding those in prior work by magnitudes in the number of possible compositions. We demonstrate that our approach outperforms a state-of-the-art baseline and is able to synthesize modular robots for industrial tasks in cluttered environments.
翻訳日:2023-09-18 14:31:14 公開日:2023-09-15
# ゼロショット鳥分類のためのメタ情報の探索

Exploring Meta Information for Audio-based Zero-shot Bird Classification ( http://arxiv.org/abs/2309.08398v1 )

ライセンス: Link先を確認
Alexander Gebhard, Andreas Triantafyllopoulos, Teresa Bez, Lukas Christ, Alexander Kathan, Bj\"orn W. Schuller(参考訳) 受動的音響モニタリングと機械学習の進歩は、計算バイオ音響研究のための膨大なデータセットの調達につながった。 それでも、データ不足は希少で表現不足の種にとって依然として問題である。 本研究では,多種多様なメタデータが利用可能であることから,鳥種を事例として活用し,メタ情報によるゼロショット音声分類の改善について検討する。 本研究では,(s)bertでエンコードされた鳥の音声記述,機能的特徴(avonet),鳥の生涯史(blh)特性の3種類のメタデータについて検討した。 音声の特徴として,音声スペクトログラム変換器(ast)埋め込みを抽出し,単一の線形層を採用することで補助情報の次元に投影する。 次に,ドット積を互換性関数とし,標準ゼロショット学習ランキングヒンジ損失を用いて正しいクラスを決定する。 最良の結果は、8から10のクラスを持つ5つの異なるテストセットで平均.233のf1-scoreを達成するために、avonetとblhの機能を結合することで達成される。

Advances in passive acoustic monitoring and machine learning have led to the procurement of vast datasets for computational bioacoustic research. Nevertheless, data scarcity is still an issue for rare and underrepresented species. This study investigates how meta-information can improve zero-shot audio classification, utilising bird species as an example case study due to the availability of rich and diverse metadata. We investigate three different sources of metadata: textual bird sound descriptions encoded via (S)BERT, functional traits (AVONET), and bird life-history (BLH) characteristics. As audio features, we extract audio spectrogram transformer (AST) embeddings and project them to the dimension of the auxiliary information by adopting a single linear layer. Then, we employ the dot product as compatibility function and a standard zero-shot learning ranking hinge loss to determine the correct class. The best results are achieved by concatenating the AVONET and BLH features attaining a mean F1-score of .233 over five different test sets with 8 to 10 classes.
翻訳日:2023-09-18 14:30:57 公開日:2023-09-15
# 自己説明による学習

Learning by Self-Explaining ( http://arxiv.org/abs/2309.08395v1 )

ライセンス: Link先を確認
Wolfgang Stammer, Felix Friedrich, David Steinmann, Hikaru Shindo and Kristian Kersting(参考訳) 人工知能(AI)の研究は、生物学、特に人間の知性の発見からインスピレーションを得た長い記録を持っている。 モデル検査の手段として説明を主に扱う現在のAI研究とは対照的に、人間の心理学から多少無視された発見は、エージェントの学習プロセスにおける自己説明の恩恵である。 そこで我々は,LSX(Learning by Self-Explaining)と呼ばれる新しい学習パラダイムを導入する。 基礎となる考え方は、学習モジュール(リアナー)が、例えば画像分類などのベースタスクを実行し、その決定に関する説明を提供することである。 次に、内部批判モジュールは、元のタスクが与えられたこれらの説明の質を評価する。 最後に、批評家のフィードバックで学習者を洗練し、必要に応じてループを繰り返す。 この背景にある直感は、批評家がそれぞれの説明から同じタスクを実行できる場合、説明が「良い」と考えられることである。 多くの実装可能性にもかかわらず、LSXインスタンスの構造は、Fit, Explain, Reflect, Reviseという4つの学習モジュールに基づいて分類できる。 本研究では,2つの学習者モデルに対してLSXの異なるインスタンス化を提供し,それぞれが様々なLSXコンポーネントの異なる選択を図示する。 我々はこれらをいくつかのデータセットで広く評価し、特に小規模データ体制におけるAIモデルの一般化能力を高めるだけでなく、共起要因の影響を緩和し、タスク固有で忠実なモデル説明をもたらすことを示します。 その結果,AIモデルの学習段階における自己説明の可能性について実験的に検証した。

Artificial intelligence (AI) research has a long track record of drawing inspirations from findings from biology, in particular human intelligence. In contrast to current AI research that mainly treats explanations as a means for model inspection, a somewhat neglected finding from human psychology is the benefit of self-explaining in an agents' learning process. Motivated by this, we introduce a novel learning paradigm, termed Learning by Self-Explaining (LSX). The underlying idea is that a learning module (learner) performs a base task, e.g. image classification, and provides explanations to its decisions. An internal critic module next evaluates the quality of these explanations given the original task. Finally, the learner is refined with the critic's feedback and the loop is repeated as required. The intuition behind this is that an explanation is considered "good" if the critic can perform the same task given the respective explanation. Despite many implementation possibilities the structure of any LSX instantiation can be taxonomized based on four learning modules which we identify as: Fit, Explain, Reflect and Revise. In our work, we provide distinct instantiations of LSX for two different learner models, each illustrating different choices for the various LSX components. We broadly evaluate these on several datasets and show that Learning by Self-Explaining not only boosts the generalization abilities of AI models, particularly in small-data regimes, but also aids in mitigating the influence of confounding factors, as well as leading to more task specific and faithful model explanations. Overall, our results provide experimental evidence of the potential of self-explaining within the learning phase of an AI model.
翻訳日:2023-09-18 14:30:40 公開日:2023-09-15
# Goによるニューラルネットワークの並列化

Neural Network Exemplar Parallelization with Go ( http://arxiv.org/abs/2309.08444v1 )

ライセンス: Link先を確認
Georg Wiesinger, Erich Schikuta(参考訳) 本稿では,goを並列化フレームワークとして用いたニューラルネットワークの例題並列性について述べる。 さらに,マルチコアハードウェアシステムも,ノートブックやシングルボードコンピュータシステムのような並列化タスクで実現可能であることを示した。 主な質問は、並列go goroutinesを特に使用する場合、どのくらいのスピードアップが生成されるかだった。 MNIST桁認識のための単純なフィードフォワードネットワークとプログラミング言語Goは、その答えを見つけるために作られた。 ノートブックを使った最初の発見(Lenovo Yoga) 2) ゴルーチンを4回使用した場合の速度は252%向上した。 単一のボードコンピュータ(Banana Pi M3)をテストすると、より説得力のある結果が得られる。

This paper presents a case for exemplar parallelism of neural networks using Go as parallelization framework. Further it is shown that also limited multi-core hardware systems are feasible for these parallelization tasks, as notebooks and single board computer systems. The main question was how much speedup can be generated when using concurrent Go goroutines specifically. A simple concurrent feedforward network for MNIST digit recognition with the programming language Go was created to find the answer. The first findings when using a notebook (Lenovo Yoga 2) showed a speedup of 252% when utilizing 4 goroutines. Testing a single board computer (Banana Pi M3) delivered more convincing results: 320% with 4 goroutines, and 432% with 8 goroutines.
翻訳日:2023-09-18 14:24:37 公開日:2023-09-15
# 責任ある顔データセットに向けて : 集団から顔画像をサンプリングするための不連続潜在空間の分布のモデル化

Toward responsible face datasets: modeling the distribution of a disentangled latent space for sampling face images from demographic groups ( http://arxiv.org/abs/2309.08442v1 )

ライセンス: Link先を確認
Parsa Rahimi, Christophe Ecabert, Sebastien Marcel(参考訳) 近年、一部の現代の顔認識システムが特定の集団を識別し、性別や起源といった様々な顔特性に対して不公平な注意を向ける可能性があることが明らかになっている。 主な理由は、データセット内のバイアス、不均衡な人口層、これらモデルをトレーニングするために使用される。 残念ながら、様々な人口統計に関する大規模なバランスのとれたデータセットの収集は不可能である。 本稿では,ディープラーニングに基づく顔認識モデルの訓練,正規化,評価に使用可能な,バランスの取れた,バイアスのない合成データセットの生成の代替として検討する。 本研究では,スタイルガン潜在空間の不連続投影のモデル化とサンプリングに簡便な手法を用いて,人口構成群の組み合わせ(例えば$hispanic-female$)を生成する。 実験の結果, 集団群の組み合わせを効果的に合成でき, 同一性はトレーニングデータセットと異なることがわかった。 ソースコードもリリースしました。

Recently, it has been exposed that some modern facial recognition systems could discriminate specific demographic groups and may lead to unfair attention with respect to various facial attributes such as gender and origin. The main reason are the biases inside datasets, unbalanced demographics, used to train theses models. Unfortunately, collecting a large-scale balanced dataset with respect to various demographics is impracticable. In this paper, we investigate as an alternative the generation of a balanced and possibly bias-free synthetic dataset that could be used to train, to regularize or to evaluate deep learning-based facial recognition models. We propose to use a simple method for modeling and sampling a disentangled projection of a StyleGAN latent space to generate any combination of demographic groups (e.g. $hispanic-female$). Our experiments show that we can synthesis any combination of demographic groups effectively and the identities are different from the original training dataset. We also released the source code.
翻訳日:2023-09-18 14:24:24 公開日:2023-09-15
# ストリーミング音声認識のためのチャンク型注意型エンコーダ・デコーダモデル

Chunked Attention-based Encoder-Decoder Model for Streaming Speech Recognition ( http://arxiv.org/abs/2309.08436v1 )

ライセンス: Link先を確認
Mohammad Zeineldeen and Albert Zeyer and Ralf Schl\"uter and Hermann Ney(参考訳) エンコーダとデコーダの両方がチャンクと呼ばれる予め定義された固定サイズのウィンドウで動作するストリーム可能な注意型エンコーダ/デコーダモデルについて検討する。 特別なEnd-of-chunk(EOC)シンボルは、あるチャンクから次のチャンクへと進化し、従来のEnd-of-sequenceシンボルを効果的に置き換える。 この修正は、小さながら、EOCが空白記号に対応するフレームの代わりにチャンクで動作するトランスデューサモデルと同等のものとして、我々のモデルを定めている。 さらに,標準トランスデューサとモデルとの相違点についても検討する。 さらに,長文音声の一般化,ビームサイズ,長さ正規化などの関連する側面についても検討する。 Librispeech と TED-Lium-v2 の実験、および長大な試行のために連続的なシーケンスを連結することにより、ストリーム可能なモデルは、非ストリーム可能な変種と比較して競争性能を維持し、長大な音声に対して非常によく一般化する。

We study a streamable attention-based encoder-decoder model in which either the decoder, or both the encoder and decoder, operate on pre-defined, fixed-size windows called chunks. A special end-of-chunk (EOC) symbol advances from one chunk to the next chunk, effectively replacing the conventional end-of-sequence symbol. This modification, while minor, situates our model as equivalent to a transducer model that operates on chunks instead of frames, where EOC corresponds to the blank symbol. We further explore the remaining differences between a standard transducer and our model. Additionally, we examine relevant aspects such as long-form speech generalization, beam size, and length normalization. Through experiments on Librispeech and TED-LIUM-v2, and by concatenating consecutive sequences for long-form trials, we find that our streamable model maintains competitive performance compared to the non-streamable variant and generalizes very well to long-form speech.
翻訳日:2023-09-18 14:23:50 公開日:2023-09-15
# 脳腫瘍セグメンテーションのためのsegment anythingモデル

Segment Anything Model for Brain Tumor Segmentation ( http://arxiv.org/abs/2309.08434v1 )

ライセンス: Link先を確認
Peng Zhang, Yaping Wang(参考訳) グリオーマ(Glioma)は、個体に重大な健康リスクをもたらす脳腫瘍である。 脳腫瘍の正確なセグメンテーションは臨床診断と治療に不可欠である。 meta aiがリリースしたsegment anything model(sam)は、イメージセグメンテーションの基本モデルであり、ゼロサンプル一般化機能に優れています。 したがって、SAMを脳腫瘍セグメンテーションの課題に適用することは興味深い。 そこで本研究では, SAMの脳腫瘍セグメンテーションにおける性能について検討し, モデル微調整がなければ, SAMと現状SOTAモデルとの間には相違があることを見出した。

Glioma is a prevalent brain tumor that poses a significant health risk to individuals. Accurate segmentation of brain tumor is essential for clinical diagnosis and treatment. The Segment Anything Model(SAM), released by Meta AI, is a fundamental model in image segmentation and has excellent zero-sample generalization capabilities. Thus, it is interesting to apply SAM to the task of brain tumor segmentation. In this study, we evaluated the performance of SAM on brain tumor segmentation and found that without any model fine-tuning, there is still a gap between SAM and the current state-of-the-art(SOTA) model.
翻訳日:2023-09-18 14:23:29 公開日:2023-09-15
# スパースリニアアレイを用いた単発DOA推定のためのIHT型ニューラルネットワーク

IHT-Inspired Neural Network for Single-Snapshot DOA Estimation with Sparse Linear Arrays ( http://arxiv.org/abs/2309.08429v1 )

ライセンス: Link先を確認
Yunqiao Hu and Shunqiao Sun(参考訳) Sparse linear arrays (SLA) を用いた単発位置方向推定 (DOA) は, 自動車MIMOレーダの分野で大きな注目を集めている。 これは、複数のスナップショットにアクセスできない自動車設定の動的な性質と、ハードウェアコストの最小化の重要性による。 低ランクハンケル行列はSLAの欠落要素を補間するために提案されている。 しかし、反復ハードしきい値(IHT)のような行列完備化の解法は、ハイパーパラメータチューニングの専門知識に大きく依存し、タスク特異性を欠いている。 さらに、IHTは、各イテレーションで高い計算コストを持つt-SVD(truncated-singular value decomposition)を含む。 本稿では、IHT-Netと呼ばれるSLAを用いた単発DOA推定のためのIHT型ニューラルネットワークを提案する。 IHTアルゴリズムのパラメータ化には、繰り返しニューラルネットワーク構造を用いる。 さらに、浅層オートエンコーダを統合して t-SVD を置き換えることにより、教師付き学習により新しい最適化器を生成しながら計算オーバーヘッドを低減する。 IHT-Netは、ネットワーク層操作がIHTアルゴリズムの反復と一致するため、強い解釈可能性を維持している。 学習したオプティマイザはフルアレイ信号再構成において高速収束と高い精度を示し,single-snapshot doa推定を行う。 提案手法の有効性を数値計算により検証した。

Single-snapshot direction-of-arrival (DOA) estimation using sparse linear arrays (SLAs) has gained significant attention in the field of automotive MIMO radars. This is due to the dynamic nature of automotive settings, where multiple snapshots aren't accessible, and the importance of minimizing hardware costs. Low-rank Hankel matrix completion has been proposed to interpolate the missing elements in SLAs. However, the solvers of matrix completion, such as iterative hard thresholding (IHT), heavily rely on expert knowledge of hyperparameter tuning and lack task-specificity. Besides, IHT involves truncated-singular value decomposition (t-SVD), which has high computational cost in each iteration. In this paper, we propose an IHT-inspired neural network for single-snapshot DOA estimation with SLAs, termed IHT-Net. We utilize a recurrent neural network structure to parameterize the IHT algorithm. Additionally, we integrate shallow-layer autoencoders to replace t-SVD, reducing computational overhead while generating a novel optimizer through supervised learning. IHT-Net maintains strong interpretability as its network layer operations align with the iterations of the IHT algorithm. The learned optimizer exhibits fast convergence and higher accuracy in the full array signal reconstruction followed by single-snapshot DOA estimation. Numerical results validate the effectiveness of the proposed method.
翻訳日:2023-09-18 14:23:17 公開日:2023-09-15
# 仮想ハラスメントとリアル理解:シリアスゲームとベイジアンネットワークを使ってサイバーいじめを研究する

Virtual Harassment, Real Understanding: Using a Serious Game and Bayesian Networks to Study Cyberbullying ( http://arxiv.org/abs/2309.08428v1 )

ライセンス: Link先を確認
Jaime P\'erez, Mario Castro, Edmond Awad, Gregorio L\'opez(参考訳) 未成年者のサイバーいじめは、我々のデジタル社会において、効果的な予防と介入戦略を必要としている。 従来のデータ収集手法はしばしばプライバシーを侵害し、限られた洞察を得る。 本研究は,データ収集と教育のための非侵襲的なツールとして,エンターテイメントを超えてデザインされた真剣なゲームを用いて,革新的なアプローチを探求する。 従来の相関に基づく分析とは対照的に,ベイジアンネットワークを用いた因果関係に基づく解析手法を提案する。 この堅牢な分析ツールは解釈可能な結果をもたらし、仮定の透明性を高め、オープンな科学談話を促進する。 本格的なゲームを用いた予備的なパイロット研究は、従来の人口統計調査や心理調査の有望な能力を上回る有望な結果を示し、その代替手法としての可能性を示唆している。 さらに,本手法がリスクプロファイルの検証と介入戦略の特定をいかに促進し,サイバー犯罪を軽減するかを示す。 また、社会研究やビデオゲームにおけるデータのノイズや変動を考慮した研究制限や潜在的な拡張についても検討する。 この研究は、サイバーいじめの理解を深め、複雑な社会問題の研究における真剣なゲームと因果関係に基づくアプローチの可能性を示す。

Cyberbullying among minors is a pressing concern in our digital society, necessitating effective prevention and intervention strategies. Traditional data collection methods often intrude on privacy and yield limited insights. This study explores an innovative approach, employing a serious game - designed with purposes beyond entertainment - as a non-intrusive tool for data collection and education. In contrast to traditional correlation-based analyses, we propose a causality-based approach using Bayesian Networks to unravel complex relationships in the collected data and quantify result uncertainties. This robust analytical tool yields interpretable outcomes, enhances transparency in assumptions, and fosters open scientific discourse. Preliminary pilot studies with the serious game show promising results, surpassing the informative capacity of traditional demographic and psychological questionnaires, suggesting its potential as an alternative methodology. Additionally, we demonstrate how our approach facilitates the examination of risk profiles and the identification of intervention strategies to mitigate this cybercrime. We also address research limitations and potential enhancements, considering the noise and variability of data in social studies and video games. This research advances our understanding of cyberbullying and showcase the potential of serious games and causality-based approaches in studying complex social issues.
翻訳日:2023-09-18 14:22:55 公開日:2023-09-15
# 古典的影は量子最適質量輸送を満たす

Classical shadows meet quantum optimal mass transport ( http://arxiv.org/abs/2309.08426v1 )

ライセンス: Link先を確認
Giacomo De Palma, Tristan Klein, Davide Pastorello(参考訳) Classical shadows constitute a protocol to estimate the expectation values of a collection of M observables acting on O(1) qubits of an unknown n-qubit state with a number of measurements that is independent of n and that grows only logarithmically with M. We propose a local variant of the quantum Wasserstein distance of order 1 of [De Palma et al., IEEE Trans. Inf. Theory 67, 6627 (2021)] and prove that the classical shadow obtained measuring O(log n) copies of the state to be learned constitutes an accurate estimate with respect to the proposed distance. 量子生成逆数ネットワークに適用し、学習すべき状態への量子アクセスは、そのような状態に関する事前情報がある場合にのみ有効であることを示す。

Classical shadows constitute a protocol to estimate the expectation values of a collection of M observables acting on O(1) qubits of an unknown n-qubit state with a number of measurements that is independent of n and that grows only logarithmically with M. We propose a local variant of the quantum Wasserstein distance of order 1 of [De Palma et al., IEEE Trans. Inf. Theory 67, 6627 (2021)] and prove that the classical shadow obtained measuring O(log n) copies of the state to be learned constitutes an accurate estimate with respect to the proposed distance. We apply the results to quantum generative adversarial networks, showing that quantum access to the state to be learned can be useful only when some prior information on such state is available.
翻訳日:2023-09-18 14:22:34 公開日:2023-09-15
# X-PDNet:クロスタスク蒸留と境界補正による高精度な関節面分割と単眼深度推定

X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction ( http://arxiv.org/abs/2309.08424v1 )

ライセンス: Link先を確認
Duc Cao Dinh, J Lim(参考訳) 単一のRGB画像からの平面領域の分割は、複雑なシーンの知覚において特に重要な課題である。 画像の視覚的特性と幾何学的性質の両方を利用するため、近年の手法では、特徴融合機構と幾何学的制約損失による平面インスタンスと密集深度の同時推定として問題を定式化することが多い。 有望な結果にもかかわらず、これらの方法はクロスタスク機能蒸留を考慮せず、境界領域において性能が低下する。 これらの制約を克服するために,平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークであるX-PDNetを提案する。 まず,タスク改善のために,両タスク間の早期情報共有を促進するクロスタスク蒸留設計を構築する。 第2に,境界回帰損失を増大させるために基底真理境界を用いる場合の現在の限界を強調し,正確な境界領域セグメンテーションを支援するために深度情報を利用する新しい手法を提案する。 最後に,Stanford 2D-3D-Semanticsデータセットから3000枚以上の画像を手動でアノテートし,平面インスタンスのセグメンテーションを評価する。 提案手法は,ScanNetとStanford 2D-3D-Sデータセットの定量化結果において,改良率の大きなベースラインを上回り,提案手法の有効性を実証する。

Segmentation of planar regions from a single RGB image is a particularly important task in the perception of complex scenes. To utilize both visual and geometric properties in images, recent approaches often formulate the problem as a joint estimation of planar instances and dense depth through feature fusion mechanisms and geometric constraint losses. Despite promising results, these methods do not consider cross-task feature distillation and perform poorly in boundary regions. To overcome these limitations, we propose X-PDNet, a framework for the multitask learning of plane instance segmentation and depth estimation with improvements in the following two aspects. Firstly, we construct the cross-task distillation design which promotes early information sharing between dual-tasks for specific task improvements. Secondly, we highlight the current limitations of using the ground truth boundary to develop boundary regression loss, and propose a novel method that exploits depth information to support precise boundary region segmentation. Finally, we manually annotate more than 3000 images from Stanford 2D-3D-Semantics dataset and make available for evaluation of plane instance segmentation. Through the experiments, our proposed methods prove the advantages, outperforming the baseline with large improvement margins in the quantitative results on the ScanNet and the Stanford 2D-3D-S dataset, demonstrating the effectiveness of our proposals.
翻訳日:2023-09-18 14:22:23 公開日:2023-09-15
# MIML:マイクロ流体システム内のメカニカルトラッツによる高精度セル分類のための多重画像機械学習

MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems ( http://arxiv.org/abs/2309.08421v1 )

ライセンス: Link先を確認
Khayrul Islam, Ratul Paul, Shen Wang, and Yaling Liu(参考訳) ラベルのない細胞分類は、さらなる使用や検査のためにプリスチン細胞を供給するのに有利であるが、既存の技術は特異性や速度の点でしばしば不足する。 本研究では,新しい機械学習フレームワークであるMultix Image Machine Learning (MIML)の開発を通じて,これらの制約に対処する。 このアーキテクチャは、ラベルのない細胞画像と生体力学的特性データとを独特に組み合わせ、各細胞固有の広大な、しばしば未使用の形態情報を活用している。 両種類のデータを統合することで、従来の機械学習モデルで廃棄される形態素情報を利用して、細胞特性をより包括的に理解することが可能になります。 このアプローチにより、細胞分類の98.3\%の精度が著しく向上し、単一のデータ型のみを考えるモデルよりも大幅に改善されている。 MIMLは白血球と腫瘍細胞の分類に有効であることが証明されており、その固有の柔軟性と転移学習能力により、より広範な応用の可能性がある。 同様の形態の細胞には特に有効だが、生体力学的特性は異なる。 この革新的なアプローチは、疾患の診断の進歩から細胞行動の理解まで、様々な分野において重要な意味を持つ。

Label-free cell classification is advantageous for supplying pristine cells for further use or examination, yet existing techniques frequently fall short in terms of specificity and speed. In this study, we address these limitations through the development of a novel machine learning framework, Multiplex Image Machine Learning (MIML). This architecture uniquely combines label-free cell images with biomechanical property data, harnessing the vast, often underutilized morphological information intrinsic to each cell. By integrating both types of data, our model offers a more holistic understanding of the cellular properties, utilizing morphological information typically discarded in traditional machine learning models. This approach has led to a remarkable 98.3\% accuracy in cell classification, a substantial improvement over models that only consider a single data type. MIML has been proven effective in classifying white blood cells and tumor cells, with potential for broader application due to its inherent flexibility and transfer learning capability. It's particularly effective for cells with similar morphology but distinct biomechanical properties. This innovative approach has significant implications across various fields, from advancing disease diagnostics to understanding cellular behavior.
翻訳日:2023-09-18 14:21:56 公開日:2023-09-15
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v1 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2023-09-18 14:21:37 公開日:2023-09-15
# スパイキング二分ニューロン --因果関係の検出器

A Spiking Binary Neuron -- Detector of Causal Links ( http://arxiv.org/abs/2309.08476v1 )

ライセンス: Link先を確認
Mikhail Kiselev, Denis Larionov, Andrey Urusov(参考訳) 因果関係認識は、学習行動、行動計画、外界ダイナミクスの推論を目的としたニューラルネットワークの基本的な操作である。 この操作は強化学習(RL)において特に重要である。 スパイクニューラルネットワーク(snn)のコンテキストでは、イベントはネットワークニューロンや入力ノードから発生するスパイクとして表現される。 これらの事象における因果関係の検出は、効果的なRL実装に不可欠である。 本研究は、単純なスパイク二元性ニューロンを用いた因果関係認識を実現するための新しいアプローチを提案する。 提案手法は, 単純かつ効率的である特殊に設計されたシナプス塑性規則を活用できる。 特に, 検出された因果関係の時間的側面を考慮し, スパイク信号の表現を単一スパイクまたはタイトスパイク配列(バースト)として, 生物学的脳で観察した。 さらに本研究は,提案モデルのハードウェアフレンドリ性を重視し,最新のニューロプロセッサ上での効率的な実装を実現する。 決定木アルゴリズムや畳み込みニューラルネットワークといった正確な機械学習技術と比較すると、ニューロンはその単純さにもかかわらず、十分な精度を示す。 結論として,より複雑な環境下で,より高精度に動作可能なマルチニューロン構造を導入し,SNNにおけるRLアプリケーションの進展に期待できる候補となる。

Causal relationship recognition is a fundamental operation in neural networks aimed at learning behavior, action planning, and inferring external world dynamics. This operation is particularly crucial for reinforcement learning (RL). In the context of spiking neural networks (SNNs), events are represented as spikes emitted by network neurons or input nodes. Detecting causal relationships within these events is essential for effective RL implementation. This research paper presents a novel approach to realize causal relationship recognition using a simple spiking binary neuron. The proposed method leverages specially designed synaptic plasticity rules, which are both straightforward and efficient. Notably, our approach accounts for the temporal aspects of detected causal links and accommodates the representation of spiking signals as single spikes or tight spike sequences (bursts), as observed in biological brains. Furthermore, this study places a strong emphasis on the hardware-friendliness of the proposed models, ensuring their efficient implementation on modern and future neuroprocessors. Being compared with precise machine learning techniques, such as decision tree algorithms and convolutional neural networks, our neuron demonstrates satisfactory accuracy despite its simplicity. In conclusion, we introduce a multi-neuron structure capable of operating in more complex environments with enhanced accuracy, making it a promising candidate for the advancement of RL applications in SNNs.
翻訳日:2023-09-18 14:12:26 公開日:2023-09-15
# VulnSense: グラフニューラルネットワークと言語モデルを用いたマルチモーダル学習によるEthereumスマートコントラクトの効率的な脆弱性検出

VulnSense: Efficient Vulnerability Detection in Ethereum Smart Contracts by Multimodal Learning with Graph Neural Network and Language Model ( http://arxiv.org/abs/2309.08474v1 )

ライセンス: Link先を確認
Phan The Duy, Nghi Hoang Khoa, Nguyen Huu Quyen, Le Cong Trinh, Vu Trung Kien, Trinh Minh Hoang, Van-Hau Pham(参考訳) 本稿では、グラフベースおよび自然言語処理(NLP)モデルに対するマルチモーダル学習アプローチを用いて、Ethereumスマートコントラクトの脆弱性を効率的に検出する包括的アプローチであるVulnSenseフレームワークを提案する。 提案フレームワークは,バイトコードから抽出したソースコード,オプコードシーケンス,制御フローグラフ(CFG)を含むスマートコントラクトの3種類の機能を組み合わせた。 我々は、変換器(BERT)から双方向エンコーダ表現(Bidirectional Encoder Representations)、Bidirectional Long Short-Term Memory(BiLSTM)、Graph Neural Network(GNN)モデルを用いてこれらの特徴を抽出し分析する。 マルチモーダルアプローチの最終レイヤは、Ethereumスマートコントラクトの脆弱性を予測するために使用される、完全に接続されたレイヤで構成されています。 単一機能・単一モデル深層学習技術に頼って既存の脆弱性検出手法の限界に対処するため,本手法は精度と有効性を超越する。 VulnSenseの評価には、Curated、SolidiFI-Benchmark、Smartbugs Wildという3つのデータセットを組み合わせた1.769のスマートコントラクトのコレクションを使用します。 次に,GNN, BiLSTM, BERTアーキテクチャによる一助学習と多モーダル学習の比較を行った。 実験結果は,脆弱なスマートコントラクトの3つのカテゴリで平均77.96\%の精度を達成し,提案手法の優れた性能を示すものである。

This paper presents VulnSense framework, a comprehensive approach to efficiently detect vulnerabilities in Ethereum smart contracts using a multimodal learning approach on graph-based and natural language processing (NLP) models. Our proposed framework combines three types of features from smart contracts comprising source code, opcode sequences, and control flow graph (CFG) extracted from bytecode. We employ Bidirectional Encoder Representations from Transformers (BERT), Bidirectional Long Short-Term Memory (BiLSTM) and Graph Neural Network (GNN) models to extract and analyze these features. The final layer of our multimodal approach consists of a fully connected layer used to predict vulnerabilities in Ethereum smart contracts. Addressing limitations of existing vulnerability detection methods relying on single-feature or single-model deep learning techniques, our method surpasses accuracy and effectiveness constraints. We assess VulnSense using a collection of 1.769 smart contracts derived from the combination of three datasets: Curated, SolidiFI-Benchmark, and Smartbugs Wild. We then make a comparison with various unimodal and multimodal learning techniques contributed by GNN, BiLSTM and BERT architectures. The experimental outcomes demonstrate the superior performance of our proposed approach, achieving an average accuracy of 77.96\% across all three categories of vulnerable smart contracts.
翻訳日:2023-09-18 14:12:06 公開日:2023-09-15
# データ駆動型天気予報モデルの限界について

On the limitations of data-driven weather forecasting models ( http://arxiv.org/abs/2309.08473v1 )

ライセンス: Link先を確認
Massimo Bonavita(参考訳) 工学や応用科学の他の多くの分野と同様に、機械学習(ML)は気象と気候予測の分野に大きな影響を与えている。 この領域における非常に最近の発展は、従来の物理モデルよりも優れた性能を常々主張する完全なデータ駆動ML予測モデルの出現である。 本研究では,現在のmlモデルであるpangu-weatherの例から得られた予測について,予測の忠実性と物理的一貫性に着目し,これらの特徴が予測性能に与える影響について検討する。 主な結論は、Pangu-Weather予測と、類似のMLモデルの予測を拡張することによって、物理ベースのモデルの忠実さと物理的整合性を持たず、予測スキルの伝統的な決定論的指標に対する精度の優位性は、これらの特異性によって大きく評価できるということである。 mlモデルは他の処理技術と同様に、特定の予測アプリケーションに対して標準のnwp出力に付加価値を加えることができ、デプロイ時の計算コストが極めて低いため、追加で有用な予測情報を提供する可能性が高い。

As in many other areas of engineering and applied science, Machine Learning (ML) is having a profound impact in the domain of Weather and Climate Prediction. A very recent development in this area has been the emergence of fully data-driven ML prediction models which routinely claim superior performance to that of traditional physics-based models. In this work, we examine some aspects of the forecasts produced by an exemplar of the current generation of ML models, Pangu-Weather, with a focus on the fidelity and physical consistency of those forecasts and how these characteristics relate to perceived forecast performance. The main conclusion is that Pangu-Weather forecasts, and by extension those of similar ML models, do not have the fidelity and physical consistency of physics-based models and their advantage in accuracy on traditional deterministic metrics of forecast skill can be attributed, to a large extent, to these peculiarities. Similarly to other current post-processing technologies, ML models appear to be able to add value to standard NWP outputs for specific forecast applications and combined with their extremely low computational cost during deployment, will likely provide an additional, useful source of forecast information.
翻訳日:2023-09-18 14:11:41 公開日:2023-09-15
# TreeLearn:森林点雲から個々の木を分割する総合的深層学習手法

TreeLearn: A Comprehensive Deep Learning Method for Segmenting Individual Trees from Forest Point Clouds ( http://arxiv.org/abs/2309.08471v1 )

ライセンス: Link先を確認
Jonathan Henrich, Jan van Delden, Dominik Seidel, Thomas Kneib and Alexander Ecker(参考訳) 森林のレーザー走査点雲は森林管理に有用な情報を抽出することができる。 単一木を考えるには、フォレストポイント雲を個々のツリーポイント雲に分割する必要がある。 既存のセグメンテーション法は通常、トランクの識別や木の成長といった手作りのアルゴリズムに基づいており、樹冠が重なる密林では困難に直面している。 本研究では,森林点雲のセマンティックスとインスタンスセグメンテーションのための深層学習に基づくアプローチである \mbox{TreeLearn} を提案する。 従来の手法とは異なり、treelearnはデータ駆動方式で既に分割されたポイントクラウドでトレーニングされており、事前定義された機能やアルゴリズムに依存しない。 さらに,手作業で分割した156本の全木と79本の部分木を含む,手作業によるベンチマーク林のデータセットも導入した。 これにより、個々の木の検出を単に評価する以上のインスタンスセグメンテーション性能の評価が可能になる。 我々は、Lidar360ソフトウェアを使って6665本の木の森林点雲上でTreeLearnを訓練した。 ベンチマークデータセットの評価では、treelearnはトレーニングデータを生成するのに使用されるアルゴリズムと同等かそれ以上の性能を示す。 さらに、クリーンなラベル付きベンチマークデータセットを微調整することで、メソッドのパフォーマンスを大幅に改善することができる。 TreeLearnのコードはhttps://github.com/ecker-lab/TreeLearnから参照できる。 データとトレーニングされたモデルはhttps://doi.org/10.25625/VPMPIDで見ることができる。

Laser-scanned point clouds of forests make it possible to extract valuable information for forest management. To consider single trees, a forest point cloud needs to be segmented into individual tree point clouds. Existing segmentation methods are usually based on hand-crafted algorithms, such as identifying trunks and growing trees from them, and face difficulties in dense forests with overlapping tree crowns. In this study, we propose \mbox{TreeLearn}, a deep learning-based approach for semantic and instance segmentation of forest point clouds. Unlike previous methods, TreeLearn is trained on already segmented point clouds in a data-driven manner, making it less reliant on predefined features and algorithms. Additionally, we introduce a new manually segmented benchmark forest dataset containing 156 full trees, and 79 partial trees, that have been cleanly segmented by hand. This enables the evaluation of instance segmentation performance going beyond just evaluating the detection of individual trees. We trained TreeLearn on forest point clouds of 6665 trees, labeled using the Lidar360 software. An evaluation on the benchmark dataset shows that TreeLearn performs equally well or better than the algorithm used to generate its training data. Furthermore, the method's performance can be vastly improved by fine-tuning on the cleanly labeled benchmark dataset. The TreeLearn code is availabe from https://github.com/ecker-lab/TreeLearn. The data as well as trained models can be found at https://doi.org/10.25625/VPMPID.
翻訳日:2023-09-18 14:11:21 公開日:2023-09-15
# SilverRetriever: ポーランドの質問応答のためのニューラルネットワーク検索の改善

SilverRetriever: Advancing Neural Passage Retrieval for Polish Question Answering ( http://arxiv.org/abs/2309.08469v1 )

ライセンス: Link先を確認
Piotr Rybak, Maciej Ogrodniczuk(参考訳) 現代のオープンドメイン質問応答システムは、質問に答えるために必要な事実を含む文を見つけるために、正確で効率的な検索コンポーネントに依存することが多い。 近年、神経レトリバーは、その優れた性能のために語彙的な代替品よりも人気を博している。 しかし、ほとんどの作品は英語や中国語などのポピュラーな言語に関係している。 ポーランド語など他の言語では、ほとんどモデルがない。 本稿では、手動または弱いラベル付きデータセットの多様なコレクションをトレーニングしたポーランドのニューラルレトリバーであるSilverRetrieverを紹介する。 silverretrieverは他のポーランドのモデルよりも優れた結果を達成し、より大きな多言語モデルと競合する。 このモデルとともに、我々は5つの新しい経路検索データセットをオープンソース化した。

Modern open-domain question answering systems often rely on accurate and efficient retrieval components to find passages containing the facts necessary to answer the question. Recently, neural retrievers have gained popularity over lexical alternatives due to their superior performance. However, most of the work concerns popular languages such as English or Chinese. For others, such as Polish, few models are available. In this work, we present SilverRetriever, a neural retriever for Polish trained on a diverse collection of manually or weakly labeled datasets. SilverRetriever achieves much better results than other Polish models and is competitive with larger multilingual models. Together with the model, we open-source five new passage retrieval datasets.
翻訳日:2023-09-18 14:10:57 公開日:2023-09-15
# 投票者に対する検索結果スタンスの説明

Explaining Search Result Stances to Opinionated People ( http://arxiv.org/abs/2309.08460v1 )

ライセンス: Link先を確認
Z. Wu, T. Draws, F. Cau, F. Barile, A. Rieger, N. Tintarev(参考訳) 人々はウェブ検索エンジンを使って意見を形成する前に情報を見つける。 検索の認知的努力は、認識バイアス(例えば、確認バイアス)に弱い意見のあるユーザーを残すことができる。 本稿では,スタンスラベルとその説明が,ユーザがより多様な検索結果を消費するのに役立つかどうかを検討する。 3つのトピック(知的財産権、学校制服、無神論)について検索結果を、反対、中立、好意として自動的に分類し、これらのラベルの説明を生成する。 ユーザスタディ(N=203)では,検索結果のバイアス(バランスとバイアス)と説明のレベル(平文,ラベルのみ,ラベルと説明)が,クリックした検索結果の多様性に影響を及ぼすかを検討する。 スタンスラベルや説明がより多様な検索結果の消費につながることがわかりました。 しかし,この文脈では,ユーザ間の系統的意見変化の証拠は見出されていない。 これらの結果は、検索エンジンの設計者がより深い設計決定を下すのに役立つと信じている。

People use web search engines to find information before forming opinions, which can lead to practical decisions with different levels of impact. The cognitive effort of search can leave opinionated users vulnerable to cognitive biases, e.g., the confirmation bias. In this paper, we investigate whether stance labels and their explanations can help users consume more diverse search results. We automatically classify and label search results on three topics (i.e., intellectual property rights, school uniforms, and atheism) as against, neutral, and in favor, and generate explanations for these labels. In a user study (N =203), we then investigate whether search result stance bias (balanced vs biased) and the level of explanation (plain text, label only, label and explanation) influence the diversity of search results clicked. We find that stance labels and explanations lead to a more diverse search result consumption. However, we do not find evidence for systematic opinion change among users in this context. We believe these results can help designers of search engines to make more informed design decisions.
翻訳日:2023-09-18 14:10:48 公開日:2023-09-15
# 会議音声認識のための連続音声分離支援ミキサーエンコーダ

Mixture Encoder Supporting Continuous Speech Separation for Meeting Recognition ( http://arxiv.org/abs/2309.08454v1 )

ライセンス: Link先を確認
Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schl\"uter, Reinhold Haeb-Umbach(参考訳) 自動音声認識(asr)の多くの実生活応用は重複音声認識の処理を必要とする。 共通メソッドは、まず音声を重複のないストリームに分離し、結果の信号に対してASRを実行する。 近年,asrモデルにおける混合エンコーダの導入が提案されている。 この混合エンコーダは、元の重複した音声を利用して、音声分離によってもたらされるアーティファクトの効果を緩和する。 しかし、従来は2つの話者のシナリオしか対応していなかった。 本稿では,このアプローチを,任意の話者数と動的重複を特徴とする,より自然なミーティングコンテキストに拡張する。 我々は、TF-GridNetモデルを含む異なる音声分離器を用いて性能を評価する。 実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。 さらに、tf-gridnetの強力な分離が示されており、これは以前のメソッドとoracleの分離のギャップをほとんど埋めている。

Many real-life applications of automatic speech recognition (ASR) require processing of overlapped speech. A commonmethod involves first separating the speech into overlap-free streams and then performing ASR on the resulting signals. Recently, the inclusion of a mixture encoder in the ASR model has been proposed. This mixture encoder leverages the original overlapped speech to mitigate the effect of artifacts introduced by the speech separation. Previously, however, the method only addressed two-speaker scenarios. In this work, we extend this approach to more natural meeting contexts featuring an arbitrary number of speakers and dynamic overlaps. We evaluate the performance using different speech separators, including the powerful TF-GridNet model. Our experiments show state-of-the-art performance on the LibriCSS dataset and highlight the advantages of the mixture encoder. Furthermore, they demonstrate the strong separation of TF-GridNet which largely closes the gap between previous methods and oracle separation.
翻訳日:2023-09-18 14:10:30 公開日:2023-09-15
# 古典状態の位相雑音に対する下界

Lower bound on phase noise of classical states ( http://arxiv.org/abs/2309.08450v1 )

ライセンス: Link先を確認
Mark Hillery(参考訳) 単一モードのフィールド状態の数と位相に対する不確実性関係を導出する。 その後、古典状態の位相雑音における下界を見つけるために用いられる。 この条件に違反するいかなる状態も古典的ではない。 このような非古典的な状態の例を示す。 非古典状態は、同じ平均光子数を持つ古典状態よりも位相雑音が少ないため、非古典状態は、小さな位相シフトの測定において役割を果たすことができる。

An uncertainty relation for the number and phase of a single-mode field state is derived. It is then used to find a lower bound on the phase noise of a classical state. Any state that violates this condition is nonclassical. An example of such a nonclassical state is presented. Because a nonclassical state can have less phase noise than a classical state with the same average photon number, nonclassical states can play a role in the measurement of small phase shifts.
翻訳日:2023-09-18 14:10:18 公開日:2023-09-15
# ランダムとカオスシーケンスは本当にPSO性能の違いの原因か? さらなる結果

Do Random and Chaotic Sequences Really Cause Different PSO Performance? Further Results ( http://arxiv.org/abs/2309.08449v1 )

ライセンス: Link先を確認
{Paul Moritz N\"orenberg, Hendrik Richter(参考訳) 実験の結果、アルゴリズムの探索ダイナミクスを駆動するためにカオスシーケンスまたはランダムシーケンスを使用する場合、psoの性能が異なる可能性がある。 この現象を,テスト関数のベンチマークに基づいて評価し,基礎となる分布や密度の等しさや差に応じてランダムおよびカオス列を比較して解析する。 以上の結果から,基礎となる分布が性能に重要な要因であること,カオスとランダムの一般的および体系的な性能差を仮定することは不可能であることが示唆された。

Empirical results show that PSO performance may be different if using either chaotic or random sequences to drive the algorithm's search dynamics. We analyze the phenomenon by evaluating the performance based on a benchmark of test functions and comparing random and chaotic sequences according to equality or difference in underlying distribution or density. Our results show that the underlying distribution is the main influential factor in performance and thus the assumption of general and systematic performance differences between chaos and random appears not plausible.
翻訳日:2023-09-18 14:10:11 公開日:2023-09-15
# 従来の中国語モデルの評価の強化:総合ベンチマークスイートを目指して

Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite ( http://arxiv.org/abs/2309.08448v1 )

ライセンス: Link先を確認
Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen, Da-shan Shiu(参考訳) 大規模言語モデルの評価は、言語理解と生成の分野において重要な課題である。 言語モデルが進歩を続けるにつれ、パフォーマンスを評価する効果的なベンチマークの必要性が高まっている。 伝統的な中国語の文脈では、DRCD、TTQA、CMDQA、FGCデータセットのような特定のベンチマークが存在するにもかかわらず、言語モデルの能力を評価するための包括的で多様なベンチマークが不足している。 このギャップに対処するために,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。 これらのベンチマークは、文脈的質問処理、要約、分類、テーブル理解など、幅広いタスクを包含する。 提案したベンチマークは包括的な評価フレームワークを提供し、異なるタスクにわたる言語モデルの能力の評価を可能にする。 本稿では,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。 評価の結果,本モデルであるmodel 7-cはgpt-3.5に匹敵する性能を評価能力の一部として達成した。 従来の中国語における言語モデルの評価を推進し,さらなる研究を促進するため,我々はベンチマークをオープンソース化し,試行錯誤のためのモデルを公開した。

The evaluation of large language models is an essential task in the field of language understanding and generation. As language models continue to advance, the need for effective benchmarks to assess their performance has become imperative. In the context of Traditional Chinese, there is a scarcity of comprehensive and diverse benchmarks to evaluate the capabilities of language models, despite the existence of certain benchmarks such as DRCD, TTQA, CMDQA, and FGC dataset. To address this gap, we propose a novel set of benchmarks that leverage existing English datasets and are tailored to evaluate language models in Traditional Chinese. These benchmarks encompass a wide range of tasks, including contextual question-answering, summarization, classification, and table understanding. The proposed benchmarks offer a comprehensive evaluation framework, enabling the assessment of language models' capabilities across different tasks. In this paper, we evaluate the performance of GPT-3.5, Taiwan-LLaMa-v1.0, and Model 7-C, our proprietary model, on these benchmarks. The evaluation results highlight that our model, Model 7-C, achieves performance comparable to GPT-3.5 with respect to a part of the evaluated capabilities. In an effort to advance the evaluation of language models in Traditional Chinese and stimulate further research in this field, we have open-sourced our benchmark and opened the model for trial.
翻訳日:2023-09-18 14:10:00 公開日:2023-09-15
# プランクトン生態学におけるディープラーニングデータ解析

Deep-learning-powered data analysis in plankton ecology ( http://arxiv.org/abs/2309.08500v1 )

ライセンス: Link先を確認
Harshith Bachimanchi, Matthew I.M. Pinder, Chlo\'e Robert, Pierre De Wit, Jonathan Havenhand, Alexandra Kinnby, Daniel Midtvedt, Erik Selander, and Giovanni Volpe(参考訳) 深層学習アルゴリズムの実装はプランクトン生態学に新しい視点をもたらした。 確立された方法に対する別のアプローチとして、ディープラーニングは様々な環境でプランクトン生物を調べるための客観的なスキームを提供する。 本稿では,植物・動物プランクトン画像の検出と分類,飼料・水泳行動解析,最後に生態モデルなど,深層学習に基づく手法の概要について述べる。 ディープラーニングは、分析をスピードアップし、人間の実験的バイアスを低減し、再現性を向上させることで、関連する時間的および空間的スケールのデータ取得を可能にする。 また,不正確な読み出しを緩和するために,ディープラーニングアーキテクチャがどのように進化したかを示す。 最後に、深層学習が特にプランクトン研究を触媒する可能性を提案する。 サンプルには詳細なチュートリアルとコードサンプルが添付されており、このレビューで記述されたメソッドを自身のデータに適用することができる。

The implementation of deep learning algorithms has brought new perspectives to plankton ecology. Emerging as an alternative approach to established methods, deep learning offers objective schemes to investigate plankton organisms in diverse environments. We provide an overview of deep-learning-based methods including detection and classification of phyto- and zooplankton images, foraging and swimming behaviour analysis, and finally ecological modelling. Deep learning has the potential to speed up the analysis and reduce the human experimental bias, thus enabling data acquisition at relevant temporal and spatial scales with improved reproducibility. We also discuss shortcomings and show how deep learning architectures have evolved to mitigate imprecise readouts. Finally, we suggest opportunities where deep learning is particularly likely to catalyze plankton research. The examples are accompanied by detailed tutorials and code samples that allow readers to apply the methods described in this review to their own data.
翻訳日:2023-09-18 14:04:22 公開日:2023-09-15
# P-ROCKET:時系列分類のためのランダム畳み込みカーネル

P-ROCKET: Pruning Random Convolution Kernels for Time Series Classification ( http://arxiv.org/abs/2309.08499v1 )

ライセンス: Link先を確認
Shaowu Chen, Weize Sun, Lei Huang, Xiaopeng Li, Qingyuan Wang, Deepu John(参考訳) 近年、ROCKETとMINIROCKETという2つの時系列分類モデルが、トレーニングコストの低さと最先端の精度で注目を集めている。 トレーニングなしでランダムな1-D畳み込みカーネルを利用することで、ROCKETとMINIROCKETは時系列データから特徴を素早く抽出し、線形分類器の効率よく適合させることができる。 しかし、有用な機能を包括的に捉えるには、リソース制約のあるデバイスでは互換性のない多数のランダムカーネルが必要である。 したがって、S-ROCKETと呼ばれるヒューリスティックな進化的アルゴリズムは冗長カーネルを認識およびプルーンするために考案された。 それでも、進化的アルゴリズムの本質的な性質は、S-ROCKET内のカーネルの評価を許容できない時間を要するプロセスにしている。 本稿では,S-ROCKETを非有意差で直接評価するS-ROCKETから切り離して,シーケンシャルな分類層における接続を排除し,特徴選択の観点からカーネルを除去する。 この目的のために,グループ弾性ネット分類問題としてプルーニング課題を定式化し,ADMM法を用いて解に到達させることから始める。 続いて、上記の時間を割いた解法を、$l_{2,1}$と$l_2$の正規化を2つの逐次段階に分岐させ、それらを個別に解き、最終的に我々のコアアルゴリズムであるP-ROCKETを形成する。 P-ROCKETのステージ1は、初期のADMMアルゴリズムと同様のグループワイド正規化を採用しているが、プロセスを大幅に高速化するために動的に異なるペナルティを導入している。 オーバーフィッティングを軽減するため、P-ROCKETのステージ2では、保持された特徴を利用して線形分類器を適合させる要素ワイド正規化を実装している。

In recent years, two time series classification models, ROCKET and MINIROCKET, have attracted much attention for their low training cost and state-of-the-art accuracy. Utilizing random 1-D convolutional kernels without training, ROCKET and MINIROCKET can rapidly extract features from time series data, allowing for the efficient fitting of linear classifiers. However, to comprehensively capture useful features, a large number of random kernels are required, which is incompatible for resource-constrained devices. Therefore, a heuristic evolutionary algorithm named S-ROCKET is devised to recognize and prune redundant kernels. Nevertheless, the inherent nature of evolutionary algorithms renders the evaluation of kernels within S-ROCKET an unacceptable time-consuming process. In this paper, diverging from S-ROCKET, which directly evaluates random kernels with nonsignificant differences, we remove kernels from a feature selection perspective by eliminating associating connections in the sequential classification layer. To this end, we start by formulating the pruning challenge as a Group Elastic Net classification problem and employ the ADMM method to arrive at a solution. Sequentially, we accelerate the aforementioned time-consuming solving process by bifurcating the $l_{2,1}$ and $l_2$ regularizations into two sequential stages and solve them separately, which ultimately forms our core algorithm, named P-ROCKET. Stage 1 of P-ROCKET employs group-wise regularization similarly to our initial ADMM-based Algorithm, but introduces dynamically varying penalties to greatly accelerate the process. To mitigate overfitting, Stage 2 of P-ROCKET implements element-wise regularization to refit a linear classifier, utilizing the retained features.
翻訳日:2023-09-18 14:04:07 公開日:2023-09-15
# 知識工学のための大規模言語モデル(LLMKE) : Wikidataを事例として

Using Large Language Models for Knowledge Engineering (LLMKE): A Case Study on Wikidata ( http://arxiv.org/abs/2309.08491v1 )

ライセンス: Link先を確認
Bohui Zhang, Ioannis Reklos, Nitisha Jain, Albert Mero\~no Pe\~nuela, Elena Simperl(参考訳) 本稿では,ISWC 2023 LM-KBC Challengeの文脈において,知識工学のタスクにLarge Language Models (LLMs) を用いることを検討する。 本課題では,Wikidata から得られた対象と関係のペアについて,学習済みの LLM を用いて,関連オブジェクトを文字列形式で生成し,それぞれの Wikidata QID にリンクする。 知識探索とWikidataエンティティマッピングを組み合わせたLLMs for Knowledge Engineering (LLMKE) を用いたパイプラインを開発した。 マクロ平均値のf1-scoreは0.701で、スコアは1.00から0.328に変化した。 これらの結果は、LLMの知識がドメインによって大きく異なることを示し、LLMが自動知識ベース(例えばWikidata)の補完と修正に使用できる状況を決定するためにさらなる実験が必要であることを示している。 この結果から,共同知識工学におけるLLMの有望な貢献が示唆された。 LLMKEはTrack 2で優勝した。 実装はhttps://github.com/bohuizhang/llmkeで利用可能である。

In this work, we explore the use of Large Language Models (LLMs) for knowledge engineering tasks in the context of the ISWC 2023 LM-KBC Challenge. For this task, given subject and relation pairs sourced from Wikidata, we utilize pre-trained LLMs to produce the relevant objects in string format and link them to their respective Wikidata QIDs. We developed a pipeline using LLMs for Knowledge Engineering (LLMKE), combining knowledge probing and Wikidata entity mapping. The method achieved a macro-averaged F1-score of 0.701 across the properties, with the scores varying from 1.00 to 0.328. These results demonstrate that the knowledge of LLMs varies significantly depending on the domain and that further experimentation is required to determine the circumstances under which LLMs can be used for automatic Knowledge Base (e.g., Wikidata) completion and correction. The investigation of the results also suggests the promising contribution of LLMs in collaborative knowledge engineering. LLMKE won Track 2 of the challenge. The implementation is available at https://github.com/bohuizhang/LLMKE.
翻訳日:2023-09-18 14:03:33 公開日:2023-09-15
# 補助的ネットワークを用いた単語レベル終端ニューラルスピーカダイアリゼーションに向けて

Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary Network ( http://arxiv.org/abs/2309.08489v1 )

ライセンス: Link先を確認
Yiling Huang, Weiran Wang, Guanlong Zhao, Hank Liao, Wei Xia, Quan Wang(参考訳) 標準話者ダイアリゼーションは「誰がいつ話したか」という問いに答えようとするが、現実のほとんどの関連アプリケーションは「誰が何を話したか」を決定することに関心を持っている。 従来のモジュール化アプローチであろうと、より最近のエンドツーエンドのニューラルダイアリゼーション(EEND)であろうと、話者ラベルと認識された単語を関連付けるために、追加の自動音声認識(ASR)モデルとオーケストレーションアルゴリズムが必要である。 本稿では,同じニューラルネットワークにおいて,エンドツーエンドのasrと話者ダイアリゼーションを行うマルチタスク学習アルゴリズムである assistant network を用いて,単語レベルのエンドツーエンドニューラルネットワークダイアリゼーション (weend) を提案する。 すなわち、音声認識中は、音声認識された単語毎に話者ラベルを同時に予測する。 実験結果から, WEENDは2話者のショートフォームシナリオすべてにおいて, ターンベースダイアリゼーションベースラインシステムより優れ, 音声長5分に一般化できることがわかった。 3人以上の会話は難しいが、十分なドメイン内トレーニングデータがあれば、WEENDは高品質なダイアリゼーションテキストを提供する可能性がある。

While standard speaker diarization attempts to answer the question "who spoken when", most of relevant applications in reality are more interested in determining "who spoken what". Whether it is the conventional modularized approach or the more recent end-to-end neural diarization (EEND), an additional automatic speech recognition (ASR) model and an orchestration algorithm are required to associate the speaker labels with recognized words. In this paper, we propose Word-level End-to-End Neural Diarization (WEEND) with auxiliary network, a multi-task learning algorithm that performs end-to-end ASR and speaker diarization in the same neural architecture. That is, while speech is being recognized, speaker labels are predicted simultaneously for each recognized word. Experimental results demonstrate that WEEND outperforms the turn-based diarization baseline system on all 2-speaker short-form scenarios and has the capability to generalize to audio lengths of 5 minutes. Although 3+speaker conversations are harder, we find that with enough in-domain training data, WEEND has the potential to deliver high quality diarized text.
翻訳日:2023-09-18 14:03:15 公開日:2023-09-15
# 原子の協調量子光学平面配列

Cooperative quantum-optical planar arrays of atoms ( http://arxiv.org/abs/2309.08487v1 )

ライセンス: Link先を確認
Janne Ruostekoski(参考訳) 原子平面アレイは、光が原子間の強い相互作用を媒介する新しい量子光学多体系を提供する。 正則格子構造は、協調的に強化された光物質結合を提供し、これらの相互作用の制御と利用を高めることができる。 サブ波長アレイでは、入射光線のコヒーレント散乱は、導波路、ファイバ、共振器を必要とせずに1次元の光伝播に類似し、前後方向に高いコヒーレント散乱を行うことができる。 原子平面アレイは、古典的な光の操作と構造化に非常に有望な薄いナノ構造膜によって形成された、製造されたメタサーフェスと共通の特徴を共有している。 ここでは、原子配列の協調応答を解析するためによく用いられる理論手法について述べ、光と物質の間の多元性量子インターフェースとして平面配列の最近の展開と今後の応用の可能性を探る。

Atomic planar arrays offer a novel emerging quantum-optical many-body system in which light mediates strong interactions between the atoms. The regular lattice structure provides a cooperatively enhanced light-matter coupling and allows for increased control and harnessing of these interactions. In subwavelength arrays, coherent scattering of incident light beams can be highly collimated in the forward and backward direction, resembling one-dimensional light propagation without the need for waveguides, fibers, or resonators. The atomic planar arrays share common features with fabricated metasurfaces, formed by thin nanostructured films that have shown great promise in manipulating and structuring classical light. Here we describe theoretical methods commonly employed to analyze the cooperative responses of atomic arrays and explore some recent developments and potential future applications of planar arrays as versatile quantum interfaces between light and matter.
翻訳日:2023-09-18 14:02:54 公開日:2023-09-15
# XFedHunter:SDNの高度な脅威検出のための説明可能なフェデレーション学習フレームワーク

XFedHunter: An Explainable Federated Learning Framework for Advanced Persistent Threat Detection in SDN ( http://arxiv.org/abs/2309.08485v1 )

ライセンス: Link先を確認
Huynh Thai Thi, Ngo Duc Hoang Son, Phan The Duy, Nghi Hoang Khoa, Khoa Ngo-Khanh, Van-Hau Pham(参考訳) Advanced Persistent Threat (APT) 攻撃は高度に高度で、組織を標的にし、機密で機密性の高い情報を盗むための高度な手法とテクニックを多数採用している。 APT攻撃は複数の段階からなり、セキュリティソフトウェア監視を回避するためにハッカーによって開発された新しい革新的な技術と技術を利用する。 ネットワークシステムに潜む攻撃者の特徴を明らかにするために、機械学習(ML)予測からの説明によりAPTを効果的に保護し、APT指標を検出し予測する。 一方、フェデレートラーニング(FL)は、プライバシーを損なうことなくインテリジェントなアプリケーションを構築するための有望なアプローチとして現れています。 これは特にサイバーセキュリティにおいて重要であり、機密データと高品質のラベリングは、サイバー脅威を検出する効果的な機械学習モデルを構築する上で重要な役割を果たす。 そこで本研究では,ソフトウェア定義ネットワーク(SDN)におけるAPT検出のための説明可能なフェデレート学習フレームワークであるXFedHunterを提案する。 XFedHunterでは、グラフニューラルネットワーク(GNN)とディープラーニングモデルを使用して、ネットワークシステム内の多数の通常のイベントにおいて、悪意のあるイベントを効果的に明らかにする。 NF-ToN-IoTとDARPA TCE3データセットの実験結果は、私たちのフレームワークがプライバシリークなしでサイバーセキュリティ目的で使用されるMLベースのシステムの信頼性と説明責任を高めることができることを示している。

Advanced Persistent Threat (APT) attacks are highly sophisticated and employ a multitude of advanced methods and techniques to target organizations and steal sensitive and confidential information. APT attacks consist of multiple stages and have a defined strategy, utilizing new and innovative techniques and technologies developed by hackers to evade security software monitoring. To effectively protect against APTs, detecting and predicting APT indicators with an explanation from Machine Learning (ML) prediction is crucial to reveal the characteristics of attackers lurking in the network system. Meanwhile, Federated Learning (FL) has emerged as a promising approach for building intelligent applications without compromising privacy. This is particularly important in cybersecurity, where sensitive data and high-quality labeling play a critical role in constructing effective machine learning models for detecting cyber threats. Therefore, this work proposes XFedHunter, an explainable federated learning framework for APT detection in Software-Defined Networking (SDN) leveraging local cyber threat knowledge from many training collaborators. In XFedHunter, Graph Neural Network (GNN) and Deep Learning model are utilized to reveal the malicious events effectively in the large number of normal ones in the network system. The experimental results on NF-ToN-IoT and DARPA TCE3 datasets indicate that our framework can enhance the trust and accountability of ML-based systems utilized for cybersecurity purposes without privacy leakage.
翻訳日:2023-09-18 14:02:36 公開日:2023-09-15
# ycb-ev: 6dofオブジェクトポーズ推定のためのイベントビジョンデータセット

YCB-Ev: Event-vision dataset for 6DoF object pose estimation ( http://arxiv.org/abs/2309.08482v1 )

ライセンス: Link先を確認
Pavel Rojtberg, Thomas P\"ollabauer(参考訳) 本研究は,同期RGB-Dフレームとイベントデータを含むYCB-Evデータセットを導入し,これらのモダリティを用いた6DoFオブジェクトポーズ推定アルゴリズムの評価を可能にする。 このデータセットは、YCB-Video (YCB-V)データセットで使用された21のYCBオブジェクト \cite{calli2017yale} に対して、6DoFオブジェクトのポーズを提供する。 データセットは21の同期イベントとrgb-dシーケンスで構成されており、合計7:43分のビデオである。 特に12の配列は、BOPチャレンジで使用されるYCB-Vサブセットと同じオブジェクト配列である。 私たちのデータセットは、イベントストリームに6DoFのポーズデータを提供する最初のものです。 さらに,新しいYCB-Vシーケンスを用いて,BOPチャレンジのために事前学習された2つの最先端アルゴリズムの一般化能力を評価する。 提案されたデータセットはhttps://github.com/paroj/ycbevで利用可能である。

Our work introduces the YCB-Ev dataset, which contains synchronized RGB-D frames and event data that enables evaluating 6DoF object pose estimation algorithms using these modalities. This dataset provides ground truth 6DoF object poses for the same 21 YCB objects \cite{calli2017yale} that were used in the YCB-Video (YCB-V) dataset, enabling the evaluation of algorithm performance when transferred across datasets. The dataset consists of 21 synchronized event and RGB-D sequences, amounting to a total of 7:43 minutes of video. Notably, 12 of these sequences feature the same object arrangement as the YCB-V subset used in the BOP challenge. Our dataset is the first to provide ground truth 6DoF pose data for event streams. Furthermore, we evaluate the generalization capabilities of two state-of-the-art algorithms, which were pre-trained for the BOP challenge, using our novel YCB-V sequences. The proposed dataset is available at https://github.com/paroj/ycbev.
翻訳日:2023-09-18 14:02:13 公開日:2023-09-15
# 造影CT像の2次元投影と深さスーパービジョンによる3次元動脈分割

3D Arterial Segmentation via Single 2D Projections and Depth Supervision in Contrast-Enhanced CT Images ( http://arxiv.org/abs/2309.08481v1 )

ライセンス: Link先を確認
Alina F. Dima, Veronika A. Zimmer, Martin J. Menten, Hongwei Bran Li, Markus Graf, Tristan Lemke, Philipp Raffler, Robert Graf, Jan S. Kirschke, Rickmer Braren, Daniel Rueckert(参考訳) 3Dボリュームで血管を自動分割することは、多くの血管疾患の定量的診断と治療に不可欠なステップである。 3D血管のセグメンテーションは既存の研究で積極的に研究されている。 しかし、3D深層ネットワークのトレーニングには、専門家による大量の手動3Dアノテーションが必要である。 2Dスライスで可視化された場合、容器は多くのスライスに分散し、切断されるため、これは特に3D血管セグメンテーションのケースである。 本研究では,3次元膵動脈をトレーニング画像ごとの注釈付き2次元プロジェクションと奥行き監視のみから分割する新しい手法を提案する。 3次元造影CT画像上における膵動脈の分画に関する広範な実験を行い、2次元投射からの深部情報収集の精度を実証した。 トレーニングサンプル毎にランダムに選択された1つのプロジェクションをアノテートすることで、複数の2次元プロジェクションにアノテートするのと同等の性能が得られることを示す。 さらに,奥行き情報を用いて2次元ラベルを3次元空間にマッピングし,これをトレーニングに組み込むことで,3次元監督と2次元監視のほぼ性能ギャップを解消する。 私たちのコードは、https://github.com/alinafdima/3dseg-mip-depthで利用可能です。

Automated segmentation of the blood vessels in 3D volumes is an essential step for the quantitative diagnosis and treatment of many vascular diseases. 3D vessel segmentation is being actively investigated in existing works, mostly in deep learning approaches. However, training 3D deep networks requires large amounts of manual 3D annotations from experts, which are laborious to obtain. This is especially the case for 3D vessel segmentation, as vessels are sparse yet spread out over many slices and disconnected when visualized in 2D slices. In this work, we propose a novel method to segment the 3D peripancreatic arteries solely from one annotated 2D projection per training image with depth supervision. We perform extensive experiments on the segmentation of peripancreatic arteries on 3D contrast-enhanced CT images and demonstrate how well we capture the rich depth information from 2D projections. We demonstrate that by annotating a single, randomly chosen projection for each training sample, we obtain comparable performance to annotating multiple 2D projections, thereby reducing the annotation effort. Furthermore, by mapping the 2D labels to the 3D space using depth information and incorporating this into training, we almost close the performance gap between 3D supervision and 2D supervision. Our code is available at: https://github.com/alinafdima/3Dseg-mip-depth.
翻訳日:2023-09-18 14:01:53 公開日:2023-09-15
# PoseFix:自然言語で3Dの人間を修正

PoseFix: Correcting 3D Human Poses with Natural Language ( http://arxiv.org/abs/2309.08480v1 )

ライセンス: Link先を確認
Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, Gr\'egory Rogez(参考訳) 姿勢を変えるための指示を自動生成することで、パーソナライズされたコーチングや家庭内理学療法など、無限の応用への扉を開くことができる。 逆問題(すなわち自然言語のフィードバックに基づいて3Dポーズを書き換えること)に取り組むことは、3Dキャラクターのアニメーションやロボットの指導を支援するのに役立つ。 近年の研究では、自然言語と人間の3Dポーズの関連性について研究されているが、3Dボディを記述することには差はない。 本稿では,人間の3次元ポーズを自然言語で補正する問題に取り組む。 この目的のために、数千対の3Dポーズとそれに対応するテキストフィードバックからなるPoseFixデータセットを導入し、ターゲットポーズを得るためにソースポーズをどのように修正する必要があるかを説明する。 本研究は,(1)検索ポーズとテキスト修飾器を付与した補正された3Dボディポーズを生成するテキストベースのポーズ編集,(2)2つのボディポーズの違いに基づいて指示を生成する補正テキスト生成という2つのタスクにおいて,このデータセットの可能性を示す。

Automatically producing instructions to modify one's posture could open the door to endless applications, such as personalized coaching and in-home physical therapy. Tackling the reverse problem (i.e., refining a 3D pose based on some natural language feedback) could help for assisted 3D character animation or robot teaching, for instance. Although a few recent works explore the connections between natural language and 3D human pose, none focus on describing 3D body pose differences. In this paper, we tackle the problem of correcting 3D human poses with natural language. To this end, we introduce the PoseFix dataset, which consists of several thousand paired 3D poses and their corresponding text feedback, that describe how the source pose needs to be modified to obtain the target pose. We demonstrate the potential of this dataset on two tasks: (1) text-based pose editing, that aims at generating corrected 3D body poses given a query pose and a text modifier; and (2) correctional text generation, where instructions are generated based on the differences between two body poses.
翻訳日:2023-09-18 14:01:30 公開日:2023-09-15
# 進化的アルゴリズムによる大規模言語モデルの接続による高能率プロンプト最適化

Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers ( http://arxiv.org/abs/2309.08532v1 )

ライセンス: Link先を確認
Qingyan Guo, Rui Wang, Junliang Guo, Bei Li, Kaitao Song, Xu Tan, Guoqing Liu, Jiang Bian, Yujiu Yang(参考訳) 大規模言語モデル(LLM)は様々なタスクに優れるが、しばしば人的努力を必要とする注意深いプロンプトに依存している。 本稿では,このプロセスを自動化するために,進化アルゴリズム(EA)の概念を借用し,優れた性能と高速収束を示す,離散的なプロンプト最適化のための新しいフレームワークであるEvoPromptを提案する。 一貫性と人間可読性が必要な自然言語表現である個別のプロンプトでEAが動作できるようにするため、LEMをEAと接続する。 このアプローチにより、LLMの強力な言語処理能力とEAの効率的な最適化性能を同時に活用できる。 具体的には、いかなる勾配やパラメータも含まず、evopromptはプロンプトの集団から始まり、進化演算子に基づいたllmによる新しいプロンプトを反復的に生成し、開発セットに基づいて人口を増加させる。 言語理解と生成タスクにまたがる9つのデータセット上で、GPT-3.5やAlpacaを含むクローズドおよびオープンソースLLMのプロンプトを最適化する。 evopromptは、人間工学によるプロンプトと既存の自動プロンプト生成手法をそれぞれ25%と14%で大幅に上回っている。 さらに、evoprompt は、llm と eas をつなぐことによって相乗効果が生まれ、llm と従来のアルゴリズムの組み合わせに関するさらなる研究が促進されることを示した。

Large Language Models (LLMs) excel in various tasks, but they rely on carefully crafted prompts that often demand substantial human effort. To automate this process, in this paper, we propose a novel framework for discrete prompt optimization, called EvoPrompt, which borrows the idea of evolutionary algorithms (EAs) as they exhibit good performance and fast convergence. To enable EAs to work on discrete prompts, which are natural language expressions that need to be coherent and human-readable, we connect LLMs with EAs. This approach allows us to simultaneously leverage the powerful language processing capabilities of LLMs and the efficient optimization performance of EAs. Specifically, abstaining from any gradients or parameters, EvoPrompt starts from a population of prompts and iteratively generates new prompts with LLMs based on the evolutionary operators, improving the population based on the development set. We optimize prompts for both closed- and open-source LLMs including GPT-3.5 and Alpaca, on 9 datasets spanning language understanding and generation tasks. EvoPrompt significantly outperforms human-engineered prompts and existing methods for automatic prompt generation by up to 25% and 14% respectively. Furthermore, EvoPrompt demonstrates that connecting LLMs with EAs creates synergies, which could inspire further research on the combination of LLMs and conventional algorithms.
翻訳日:2023-09-18 13:52:22 公開日:2023-09-15
# 視覚言語事前学習とマルチモーダルトークンを用いた映像音声キャプションの実用的・効率的化に向けて

Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens ( http://arxiv.org/abs/2309.08531v1 )

ライセンス: Link先を確認
Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe, Yong Man Ro(参考訳) 本稿では,画像から音声へのキャプション(Im2Sp)モデルの構築手法を提案する。 この目的のために,画像理解と言語モデリングに関する豊富な知識を,大規模に訓練された視覚言語モデルからim2spにインポートすることから始める。 提案するim2spの出力を離散化音声単位、すなわち自己教師付き音声モデルの量子化音声特徴として設定する。 音声単位は主に言語情報を含み、他の音声の特徴を抑える。 これにより、事前学習された視覚言語モデルの言語モデリング能力をIm2Spの音声言語モデリングに組み込むことができる。 ビジョン言語による事前トレーニング戦略により,広く使用されている2つのベンチマークデータベースであるCOCOとFlickr8k上で,最先端のIm2Spのパフォーマンスを新たに設定した。 そして、Im2Spモデルの効率をさらに向上する。 音声単位の場合と同様に、原画像のベクトル量子化によって導出される原画像を画像単位に変換する。 これらの画像ユニットでは、画像データをビット単位で保存するために必要なデータストレージを、元の画像データと比較してわずか0.8%に劇的に削減することができる。 デモページ: https://ms-dot-k.github.io/image-to-speech-captioning。

In this paper, we propose methods to build a powerful and efficient Image-to-Speech captioning (Im2Sp) model. To this end, we start with importing the rich knowledge related to image comprehension and language modeling from a large-scale pre-trained vision-language model into Im2Sp. We set the output of the proposed Im2Sp as discretized speech units, i.e., the quantized speech features of a self-supervised speech model. The speech units mainly contain linguistic information while suppressing other characteristics of speech. This allows us to incorporate the language modeling capability of the pre-trained vision-language model into the spoken language modeling of Im2Sp. With the vision-language pre-training strategy, we set new state-of-the-art Im2Sp performances on two widely used benchmark databases, COCO and Flickr8k. Then, we further improve the efficiency of the Im2Sp model. Similar to the speech unit case, we convert the original image into image units, which are derived through vector quantization of the raw image. With these image units, we can drastically reduce the required data storage for saving image data to just 0.8% when compared to the original image data in terms of bits. Demo page: https://ms-dot-k.github.io/Image-to-Speech-Captioning.
翻訳日:2023-09-18 13:51:55 公開日:2023-09-15
# マジック角ねじれ二層グラフェンの動的相関と秩序

Dynamical correlations and order in magic-angle twisted bilayer graphene ( http://arxiv.org/abs/2309.08529v1 )

ライセンス: Link先を確認
Gautam Rai, Lorenzo Crippa, Dumitru C\u{a}lug\u{a}ru, Haoyu Hu, Luca de' Medici, Antoine Georges, B. Andrei Bernevig, Roser Valent\'i, Giorgio Sangiovanni, Tim Wehling(参考訳) マジックアングルツイスト二層グラフェンでは、トランスポート、熱力学および分光実験は、電子秩序の有無に関わらず異なる低エネルギー状態の競合と、局所電荷キャリアと非局在電荷キャリアの競合を突き止めている。 本研究では,2層グラフェンのトポロジカル重フェルミオン(THF)モデル上での動的平均場理論(DMFT)を用いて,ひずみの欠如による電子相関と長距離秩序の出現について検討する。 3つの中心的な現象によって引き起こされるそれらの遷移と同様に、創発的絶縁と相関する金属状態の性質を説明する。 (i)100K前後の局所スピンと谷のアイソスピンモーメントの形成 (二)局所的なアイソスピンモーメントの10K前後の順序付け、 (iii)ドーピング時に局所状態と非局在状態の間の電荷のカスカディック再分配。 整数充填では、低エネルギーのスペクトル重みが対称相で枯渇しているのに対し、ゼロひずみ秩序相における交換結合によりギャップが増大する絶縁状態が見つかる。 低エネルギー電子励起のコヒーレンスが、乱れた局所モーメントを散乱させることで抑制される秩序温度の上方の「悪い金属」と、イソスピン秩序によって促進される準粒子のコヒーレンスを伴う秩序状態の「良い金属」である。 ドーピングの際には、THFモデルの局所化軌道と非局在化軌道の間に電荷移動があり、整数充填の間に周期的に満たされ空になる。 この電荷再シャッフルは、ドーピング誘起リフシッツ転移、局所スペクトル再分配、ほぼ圧縮不可能から負の電子圧縮率の周期的変動のカスケードに現れる。

In magic angle twisted bilayer graphene, transport, thermodynamic and spectroscopic experiments pinpoint at a competition between distinct low-energy states with and without electronic order, as well as a competition between localized and delocalized charge carriers. In this study, we utilize Dynamical Mean Field Theory (DMFT) on the topological heavy Fermion (THF) model of twisted bilayer graphene to investigate the emergence of electronic correlations and long-range order in the absence of strain. We explain the nature of emergent insulating and correlated metallic states, as well as transitions between them driven by three central phenomena: (i) the formation of local spin and valley isospin moments around 100K, (ii) the ordering of the local isospin moments around 10K, and (iii) a cascadic redistribution of charge between localized and delocalized electronic states upon doping. At integer fillings, we find that low energy spectral weight is depleted in the symmetric phase, while we find insulating states with gaps enhanced by exchange coupling in the zero-strain ordered phases. Doping away from integer filling results in distinct metallic states: a "bad metal" above the ordering temperature, where coherence of the low-energy electronic excitations is suppressed by scattering off the disordered local moments, and a "good metal" in the ordered states with coherence of quasiparticles facilitated by isospin order. Upon doping, there is charge transfer between the localized and delocalized orbitals of the THF model such that they get periodically filled and emptied in between integer fillings. This charge reshuffling manifests itself in cascades of doping-induced Lifshitz transitions, local spectral weight redistributions and periodic variations of the electronic compressibility ranging from nearly incompressible to negative.
翻訳日:2023-09-18 13:51:38 公開日:2023-09-15
# ジェネレーティブ・リパインティングによる3dアセットへの新生命の吹き込み

Breathing New Life into 3D Assets with Generative Repainting ( http://arxiv.org/abs/2309.08523v1 )

ライセンス: Link先を確認
Tianfu Wang, Menelaos Kanakis, Konrad Schindler, Luc Van Gool, Anton Obukhov(参考訳) 拡散ベースのテキストから画像へのモデルは、視覚コミュニティ、アーティスト、コンテンツクリエーターから多大な注目を集めた。 これらのモデルの広範な採用は、世代の品質が大幅に向上し、テキストだけでなく様々なモダリティの効率的な条件付けが原因である。 しかし、これらの2Dモデルの豊かな生成前のものを3Dにするのは難しい。 近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。 学習済みの2次元拡散モデルと標準3次元神経放射野のパワーを独立して独立したツールとして検討し,非学習的な方法で協調する能力を示す。 このようなモジュール性には、部分的なアップグレードが容易になるという本質的なメリットがある。 私たちのパイプラインは、テクスチャや非テクスチャのメッシュといった、レガシなレンダリング可能なジオメトリを受け入れ、2d生成的リファインメントと3d一貫性実行ツールのインタラクションをオーケストレーションし、塗装された入力ジオメトリを複数のフォーマットで出力します。 本研究では、ShapeNetSemデータセットから広範囲のオブジェクトやカテゴリについて大規模な研究を行い、質的かつ定量的にアプローチの利点を実証する。 プロジェクトページ: https://www.obukhov.ai/repainting_3d_assets

Diffusion-based text-to-image models ignited immense attention from the vision community, artists, and content creators. Broad adoption of these models is due to significant improvement in the quality of generations and efficient conditioning on various modalities, not just text. However, lifting the rich generative priors of these 2D models into 3D is challenging. Recent works have proposed various pipelines powered by the entanglement of diffusion models and neural fields. We explore the power of pretrained 2D diffusion models and standard 3D neural radiance fields as independent, standalone tools and demonstrate their ability to work together in a non-learned fashion. Such modularity has the intrinsic advantage of eased partial upgrades, which became an important property in such a fast-paced domain. Our pipeline accepts any legacy renderable geometry, such as textured or untextured meshes, orchestrates the interaction between 2D generative refinement and 3D consistency enforcement tools, and outputs a painted input geometry in several formats. We conduct a large-scale study on a wide range of objects and categories from the ShapeNetSem dataset and demonstrate the advantages of our approach, both qualitatively and quantitatively. Project page: https://www.obukhov.ai/repainting_3d_assets
翻訳日:2023-09-18 13:51:06 公開日:2023-09-15
# 疎結合基礎モデルのスケーリング法則

Scaling Laws for Sparsely-Connected Foundation Models ( http://arxiv.org/abs/2309.08520v1 )

ライセンス: Link先を確認
Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci(参考訳) 大規模データセット(すなわち「基礎モデル」)でトレーニングされたトランスフォーマの視覚領域と言語領域におけるスケーリング行動に対するパラメータスパーシティの影響について検討する。 そこで本研究では,VT/JFT-4BおよびT5/C4において,重量空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を定式化した。 これらの結果から、与えられた有効なモデルサイズとトレーニング予算に最適なパフォーマンスをもたらす「最適空間」を特徴付けることができる。 非ゼロパラメータの固定数に対して、トレーニングに使用するデータ量に応じて最適な間隔が増加することを同定する。 また、研究を異なるスパーシティ構造(ハードウェアフレンドリーなn:mパターンなど)と戦略(トレーニング済みの密集したモデルから開始するなど)に拡張しています。 本研究は, 種々のパラメータおよび計算環境における重み空間のパワーと限界に光を当て, 疎さを計算効率の向上に活用するための理論的理解と実践的意味を両立させた。

We explore the impact of parameter sparsity on the scaling behavior of Transformers trained on massive datasets (i.e., "foundation models"), in both vision and language domains. In this setting, we identify the first scaling law describing the relationship between weight sparsity, number of non-zero parameters, and amount of training data, which we validate empirically across model and data scales; on ViT/JFT-4B and T5/C4. These results allow us to characterize the "optimal sparsity", the sparsity level which yields the best performance for a given effective model size and training budget. For a fixed number of non-zero parameters, we identify that the optimal sparsity increases with the amount of data used for training. We also extend our study to different sparsity structures (such as the hardware-friendly n:m pattern) and strategies (such as starting from a pretrained dense model). Our findings shed light on the power and limitations of weight sparsity across various parameter and computational settings, offering both theoretical understanding and practical implications for leveraging sparsity towards computational efficiency improvements.
翻訳日:2023-09-18 13:50:44 公開日:2023-09-15
# SCT:Salient Channelsを用いたパラメータ効率の良いファインチューニングのための簡易ベースライン

SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels ( http://arxiv.org/abs/2309.08513v1 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou(参考訳) 事前訓練された視覚トランスフォーマーは、様々な下流タスクに強い表現の利点がある。 近年,多くのパラメータ効率細調整法が提案されており,その実験により,低データのリソースシナリオにおいて,パラメータの1%しか調整できないことが示されている。 しかし、これらの方法は様々な下流タスクを微調整する際にタスク固有の情報を見落とします。 本稿では,SCT(Salient Channel Tuning)と呼ばれる簡易かつ効果的な手法を提案する。タスクイメージをモデルに転送し,特徴マップ内の部分的なチャネルを選択することで,パラメータコストを大幅に低減する1/8チャネルのみをチューニングできる。 VTAB-1Kベンチマークの19タスク中18タスクにおいて、VT-Bのパラメータは0.11Mしかなく、完全な微調整よりも780$\times$は少ない。 さらに,パラメータコストの低い他のPEFT手法を超越した領域一般化と少数ショット学習の実験を行い,提案手法の高機能化と低データ方式の有効性を実証した。

Pre-trained vision transformers have strong representation benefits to various downstream tasks. Recently, many parameter-efficient fine-tuning (PEFT) methods have been proposed, and their experiments demonstrate that tuning only 1% of extra parameters could surpass full fine-tuning in low-data resource scenarios. However, these methods overlook the task-specific information when fine-tuning diverse downstream tasks. In this paper, we propose a simple yet effective method called "Salient Channel Tuning" (SCT) to leverage the task-specific information by forwarding the model with the task images to select partial channels in a feature map that enables us to tune only 1/8 channels leading to significantly lower parameter costs. Experiments outperform full fine-tuning on 18 out of 19 tasks in the VTAB-1K benchmark by adding only 0.11M parameters of the ViT-B, which is 780$\times$ fewer than its full fine-tuning counterpart. Furthermore, experiments on domain generalization and few-shot learning surpass other PEFT methods with lower parameter costs, demonstrating our proposed tuning technique's strong capability and effectiveness in the low-data regime.
翻訳日:2023-09-18 13:50:23 公開日:2023-09-15
# 一般化確率拡散スケール空間

Generalised Probabilistic Diffusion Scale-Spaces ( http://arxiv.org/abs/2309.08511v1 )

ライセンス: Link先を確認
Pascal Peter(参考訳) 確率拡散モデルは学習分布から新しい画像のサンプリングに優れている。 元々は物理からのドリフト拡散の概念に動機付けられ、ノイズやぼやきといった画像の摂動を前方のプロセスに応用し、従順な確率分布をもたらす。 学習された逆プロセスは画像を生成し、サイド情報で条件付けできるため、様々な応用が期待できる。 現在、研究の焦点はプラクティス指向の拡張である。 対照的に、理論的な背景は、特にドリフト拡散との関係についてほとんど解明されていない。 古典的画像フィルタリングとの接続に光を当てるために,確率的拡散モデルに対する一般化されたスケール空間理論を提案する。 さらに,拡散フィルタと浸透フィルタとの概念的および経験的関係を示す。

Probabilistic diffusion models excel at sampling new images from learned distributions. Originally motivated by drift-diffusion concepts from physics, they apply image perturbations such as noise and blur in a forward process that results in a tractable probability distribution. A corresponding learned reverse process generates images and can be conditioned on side information, which leads to a wide variety of practical applications. Most of the research focus currently lies on practice-oriented extensions. In contrast, the theoretical background remains largely unexplored, in particular the relations to drift-diffusion. In order to shed light on these connections to classical image filtering, we propose a generalised scale-space theory for probabilistic diffusion models. Moreover, we show conceptual and empirical connections to diffusion and osmosis filters.
翻訳日:2023-09-18 13:50:00 公開日:2023-09-15
# 量子と古典的断熱進化の違い

Differences between quantum and classical adiabatic evolution ( http://arxiv.org/abs/2309.08510v1 )

ライセンス: Link先を確認
Cyrill B\"osch, Andreas Fichtner, Marc Serra Garcia(参考訳) 断熱進化は時間変調メタマテリアルの創発的な設計原理であり、しばしばマヨラナフェルミオンやブレイディング操作のようなトポロジカル量子コンピューティングからの洞察にインスパイアされる。 しかし、古典的断熱的メタマテリアルの追求は、古典的および量子的断熱的進化が等価であるという仮定に基づいている。 ゼロモードを含むような量子断熱進化のいくつかの例は古典的なシステムでは再現できない。 これは、古典力学ではモード結合が根本的に異なるためである。 古典的な条件を導出し、これらの条件の下では、ベリー位相とウィルツェク・ゼー行列は古典的な断熱進化の幾何学を符号化する意味のある量として現れる。

Adiabatic evolution is an emergent design principle for time modulated metamaterials, often inspired by insights from topological quantum computing such as Majorana fermions and braiding operations. However, the pursuit of classical adiabatic metamaterials is rooted on the assumption that classical and quantum adiabatic evolution are equivalent. We show that this is not the case; and some instances of quantum adiabatic evolution, such as those containing zero modes, cannot be reproduced in classical systems. This is because mode coupling is fundamentally different in classical mechanics. We derive classical conditions to ensure adiabaticity and demonstrate that only under these, from quantum mechanics distinct conditions the Berry phase and Wilczek-Zee matrix emerge as meaningful quantities encoding the geometry of classical adiabatic evolution.
翻訳日:2023-09-18 13:49:48 公開日:2023-09-15
# OccupancyDETR: オブジェクト検出としてストレートフォワードとしてセマンティックシーンコンプリートを作成する

OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection ( http://arxiv.org/abs/2309.08504v1 )

ライセンス: Link先を確認
Yupeng Jia, Jie He, Runze Chen, Fang Zhao and Haiyong Luo(参考訳) 視覚ベースの3dセマンティック占有知覚(3dセマンティックシーン補完とも呼ばれる)は、自動運転のようなロボットアプリケーションのための新しい知覚パラダイムである。 バードアイビュー(Bird's Eye View, BEV)の知覚と比較すると、垂直方向を延長し、ロボットが周囲を理解する能力を大幅に向上させる。 しかし、この理由から、現在の3Dセマンティック占有感法に対する計算需要は、一般的にはBEV知覚法や2D知覚法を超越している。 我々は,DETRのようなオブジェクト検出モジュールと3D占有デコーダモジュールからなる,新しい3D意味的占有認識手法OccupancyDETRを提案する。 オブジェクト検出の統合は、各ボクセルのセマンティクスを予測する代わりに、シーン内のオブジェクトとその3D占有グリッドを識別する。 これにより,本手法を高速化し,必要なリソースを削減し,オブジェクト検出アルゴリズムを活用する。 我々は,提案手法の有効性をSemanticKITTIデータセットで示し,23のmIoUと毎秒6フレームの処理速度を示し,リアルタイムな3Dセマンティックシーンの完成に期待できる解決策を提示する。

Visual-based 3D semantic occupancy perception (also known as 3D semantic scene completion) is a new perception paradigm for robotic applications like autonomous driving. Compared with Bird's Eye View (BEV) perception, it extends the vertical dimension, significantly enhancing the ability of robots to understand their surroundings. However, due to this very reason, the computational demand for current 3D semantic occupancy perception methods generally surpasses that of BEV perception methods and 2D perception methods. We propose a novel 3D semantic occupancy perception method, OccupancyDETR, which consists of a DETR-like object detection module and a 3D occupancy decoder module. The integration of object detection simplifies our method structurally - instead of predicting the semantics of each voxels, it identifies objects in the scene and their respective 3D occupancy grids. This speeds up our method, reduces required resources, and leverages object detection algorithm, giving our approach notable performance on small objects. We demonstrate the effectiveness of our proposed method on the SemanticKITTI dataset, showcasing an mIoU of 23 and a processing speed of 6 frames per second, thereby presenting a promising solution for real-time 3D semantic scene completion.
翻訳日:2023-09-18 13:49:33 公開日:2023-09-15
# healthfc:証拠に基づく医療ファクトチェックのための健康クレームデータセット

HealthFC: A Dataset of Health Claims for Evidence-Based Medical Fact-Checking ( http://arxiv.org/abs/2309.08503v1 )

ライセンス: Link先を確認
Juraj Vladika, Phillip Schneider, Florian Matthes(参考訳) インターネット上で健康関連のアドバイスを求めることは、デジタル時代において一般的な実践となっている。 オンラインで見つかった医療請求の信頼性を判断し、この情報の適切な証拠を見つけることはますます難しくなっている。 事実チェックは、信頼できる知識ソースからの証拠を用いて事実クレームの妥当性を評価するためのアプローチとして登場した。 本稿では,この課題の自動化を進めるために,医療専門家による有効性にラベルを付け,適切な臨床研究のエビデンスを裏付ける,750の健康関連クレームのデータセットを提案する。 データセットの分析を行い、その特性と課題を強調します。 このデータセットは、エビデンス検索、正確性予測、説明生成などの自動事実チェックに関連する機械学習タスクに使用できる。 この目的のために,異なるアプローチに基づくベースラインモデルを提供し,その性能を検証し,その結果について議論する。

Seeking health-related advice on the internet has become a common practice in the digital era. Determining the trustworthiness of medical claims found online and finding appropriate evidence for this information is increasingly challenging. Fact-checking has emerged as an approach to assess the veracity of factual claims using evidence from credible knowledge sources. To help advance the automation of this task, in this paper, we introduce a novel dataset of 750 health-related claims, labeled for veracity by medical experts and backed with evidence from appropriate clinical studies. We provide an analysis of the dataset, highlighting its characteristics and challenges. The dataset can be used for Machine Learning tasks related to automated fact-checking such as evidence retrieval, veracity prediction, and explanation generation. For this purpose, we provide baseline models based on different approaches, examine their performance, and discuss the findings.
翻訳日:2023-09-18 13:49:11 公開日:2023-09-15
# 医療資源の効率的かつ公平な配置のための深層強化学習

Deep Reinforcement Learning for Efficient and Fair Allocation of Health Care Resources ( http://arxiv.org/abs/2309.08560v1 )

ライセンス: Link先を確認
Yikuan Li, Chengsheng Mao, Kaixuan Huang, Hanyin Wang, Zheng Yu, Mengdi Wang and Yuan Luo(参考訳) 医療資源の不足は、配給の不可避な結果をもたらす可能性がある。 例えば、人工呼吸器は供給に制限されることが多く、特に公衆衛生の緊急事態や、新型コロナウイルス(COVID-19)のパンデミックなど、資源に制約のある医療環境においてである。 現在、医療資源割り当てプロトコルの普遍的な標準は存在せず、様々な基準やヒューリスティックベースのプロトコルに基づいて患者を優先順位付けしている。 本研究では,資源配分政策を公平かつ効果的に最適化するための強化学習の活用について検討する。 本稿では,患者の病状進行と医療資源配分時の患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。 配分の公平さと患者の全体的な成果を改善することを目的としている。 提案手法は,既存の重症度ベースおよび共生ベースの方法と比較して,人工呼吸器不足の異なるレベルにおいて,致死量を大幅に削減し,より公平な分布を実現することを実証する。 ソースコードはサプリメントに含まれており、公開時にGithubで公開される予定です。

Scarcity of health care resources could result in the unavoidable consequence of rationing. For example, ventilators are often limited in supply, especially during public health emergencies or in resource-constrained health care settings, such as amid the pandemic of COVID-19. Currently, there is no universally accepted standard for health care resource allocation protocols, resulting in different governments prioritizing patients based on various criteria and heuristic-based protocols. In this study, we investigate the use of reinforcement learning for critical care resource allocation policy optimization to fairly and effectively ration resources. We propose a transformer-based deep Q-network to integrate the disease progression of individual patients and the interaction effects among patients during the critical care resource allocation. We aim to improve both fairness of allocation and overall patient outcomes. Our experiments demonstrate that our method significantly reduces excess deaths and achieves a more equitable distribution under different levels of ventilator shortage, when compared to existing severity-based and comorbidity-based methods in use by different governments. Our source code is included in the supplement and will be released on Github upon publication.
翻訳日:2023-09-18 13:43:42 公開日:2023-09-15
# オンライン音声認識のための構造化状態空間モデルによるコンフォーメータの拡張

Augmenting conformers with structured state space models for online speech recognition ( http://arxiv.org/abs/2309.08551v1 )

ライセンス: Link先を確認
Haozhe Shan, Albert Gu, Zhong Meng, Weiran Wang, Krzysztof Choromanski, Tara Sainath(参考訳) モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。 本研究では、構造化状態空間列モデル(S4)を組み込むことにより、オンラインASRのためのニューラルエンコーダの拡張について検討する。 我々は,s4モデルの変種を比較するための系統的アブレーション研究を行い,これらを畳み込みと組み合わせた2つの新しいアプローチを提案する。 最も効果的な設計は、局所的な畳み込みで実値のリカレント重みを使って小さなS4を積み重ね、補完的に機能させることである。 我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。

Online speech recognition, where the model only accesses context to the left, is an important and challenging use case for ASR systems. In this work, we investigate augmenting neural encoders for online ASR by incorporating structured state-space sequence models (S4), which are a family of models that provide a parameter-efficient way of accessing arbitrarily long left context. We perform systematic ablation studies to compare variants of S4 models and propose two novel approaches that combine them with convolutions. We find that the most effective design is to stack a small S4 using real-valued recurrent weights with a local convolution, allowing them to work complementarily. Our best model achieves WERs of 4.01%/8.53% on test sets from Librispeech, outperforming Conformers with extensively tuned convolution.
翻訳日:2023-09-18 13:43:22 公開日:2023-09-15
# HINT: 健康なインフルエンシャルノイズをベースとしたデータ攻撃防止トレーニング

HINT: Healthy Influential-Noise based Training to Defend against Data Poisoning Attacks ( http://arxiv.org/abs/2309.08549v1 )

ライセンス: Link先を確認
Minh-Hao Van, Alycia N. Carey, Xintao Wu(参考訳) 信頼できないデータソースからの有毒な攻撃を禁止するために、多くの防衛方法が提案されているが、ほとんどの研究は特定の攻撃に対してのみ防御する。 本研究では,影響関数に基づくデータ中毒攻撃から守るための効率的かつ堅牢なトレーニング手法である health influential-noise based trainingを提案する。 影響関数を用いることで,検査データの一般化能力に悪影響を与えることなく,中毒攻撃に対する分類モデルを強固にするための健全なノイズを作成する。 さらに,本手法は,これまでのいくつかの研究で使用されてきたすべての例にノイズを加える方法ではなく,トレーニングデータのサブセットだけを修正した場合に有効に動作する。 我々は,異なる現実的な攻撃シナリオにおいて,最先端の中毒攻撃を伴う2つの画像データセットを総合的に評価する。 実験の結果,HINTは非標的および標的の毒殺攻撃の効果に対して,ディープラーニングモデルを効果的に保護できることがわかった。

While numerous defense methods have been proposed to prohibit potential poisoning attacks from untrusted data sources, most research works only defend against specific attacks, which leaves many avenues for an adversary to exploit. In this work, we propose an efficient and robust training approach to defend against data poisoning attacks based on influence functions, named Healthy Influential-Noise based Training. Using influence functions, we craft healthy noise that helps to harden the classification model against poisoning attacks without significantly affecting the generalization ability on test data. In addition, our method can perform effectively when only a subset of the training data is modified, instead of the current method of adding noise to all examples that has been used in several previous works. We conduct comprehensive evaluations over two image datasets with state-of-the-art poisoning attacks under different realistic attack scenarios. Our empirical results show that HINT can efficiently protect deep learning models against the effect of both untargeted and targeted poisoning attacks.
翻訳日:2023-09-18 13:43:06 公開日:2023-09-15
# ベイズ適応モーメント正規化によるロバスト連続学習に向けて

Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization ( http://arxiv.org/abs/2309.08546v1 )

ライセンス: Link先を確認
Jack Foster and Alexandra Brintrup(参考訳) 長期的な自律性の追求は、ロボットエージェントが変化する環境に継続的に適応し、新しいタスクの解決を学ぶことを義務付ける。 継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。 従来の連続学習手法は、空間効率が高く、タスクの数が増加するにつれて計算複雑性が増大しないため、ロボット応用にアピールしている。 このような望ましい特性にもかかわらず、事前ベースのアプローチは、通常は重要なベンチマークで失敗するため、メモリベースのアプローチに比べて潜在的なアプリケーションでは制限される。 ベイズ適応モーメント正規化(Badam)は,パラメータ成長の抑制を図り,破滅的な記憶を抑える新しい手法である。 本手法は,軽量でタスクラベルフリー,高速収束,安全な実世界の展開に重要な不確実性を校正するなど,ロボットアプリケーションにとって望ましい特性を誇っている。 その結果, BAdamは, Split MNIST や Split FashionMNIST のような単頭クラスインクリメンタルな実験に挑戦し, タスクラベルや個別タスク境界に頼らずに, 先行手法の最先端性能を実現していることがわかった。

The pursuit of long-term autonomy mandates that robotic agents must continuously adapt to their changing environments and learn to solve new tasks. Continual learning seeks to overcome the challenge of catastrophic forgetting, where learning to solve new tasks causes a model to forget previously learnt information. Prior-based continual learning methods are appealing for robotic applications as they are space efficient and typically do not increase in computational complexity as the number of tasks grows. Despite these desirable properties, prior-based approaches typically fail on important benchmarks and consequently are limited in their potential applications compared to their memory-based counterparts. We introduce Bayesian adaptive moment regularization (BAdam), a novel prior-based method that better constrains parameter growth, leading to lower catastrophic forgetting. Our method boasts a range of desirable properties for robotic applications such as being lightweight and task label-free, converging quickly, and offering calibrated uncertainty that is important for safe real-world deployment. Results show that BAdam achieves state-of-the-art performance for prior-based methods on challenging single-headed class-incremental experiments such as Split MNIST and Split FashionMNIST, and does so without relying on task labels or discrete task boundaries.
翻訳日:2023-09-18 13:42:48 公開日:2023-09-15
# 複雑な環境における効率的かつロバストなセンサ配置

Efficient and robust Sensor Placement in Complex Environments ( http://arxiv.org/abs/2309.08545v1 )

ライセンス: Link先を確認
Lukas Taus, Yen-Hsi Richard Tsai(参考訳) 複雑な環境における効率的な監視やコミュニケーションの課題に対処する。 一方、環境をカバーするために最小限のセンサーを使用したいと考えている。 一方、センサ障害や敵攻撃に対して堅牢なソリューションを考えることは、しばしば重要である。 本稿は、マルチカバー制約を達成する最小限のセンサーセットを設計する上でのこれらの課題に対処する。 目的を達成するための欲望アルゴリズムを提案する。 さらに,本アルゴリズムで定式化した目的関数の評価を高速化する深層学習手法について検討する。 ニューラルネットワークのトレーニングは、データの幾何学的性質がネットワークのパフォーマンス、特に最終段階で大きな影響を与えていることを示している。 これらの特性を考慮に入れ,データ生成のためのgreedyと$\epsilon$-greedyアルゴリズムの違いと,ネットワークの堅牢性への影響について考察する。

We address the problem of efficient and unobstructed surveillance or communication in complex environments. On one hand, one wishes to use a minimal number of sensors to cover the environment. On the other hand, it is often important to consider solutions that are robust against sensor failure or adversarial attacks. This paper addresses these challenges of designing minimal sensor sets that achieve multi-coverage constraints -- every point in the environment is covered by a prescribed number of sensors. We propose a greedy algorithm to achieve the objective. Further, we explore deep learning techniques to accelerate the evaluation of the objective function formulated in the greedy algorithm. The training of the neural network reveals that the geometric properties of the data significantly impact the network's performance, particularly at the end stage. By taking into account these properties, we discuss the differences in using greedy and $\epsilon$-greedy algorithms to generate data and their impact on the robustness of the network.
翻訳日:2023-09-18 13:42:09 公開日:2023-09-15
# 生成クエリとドキュメント拡張はいつ失敗するのか? 方法, 検索, データセットに関する総合的研究

When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets ( http://arxiv.org/abs/2309.08541v1 )

ライセンス: Link先を確認
Orion Weller, Kyle Lo, David Wadden, Dawn Lawrie, Benjamin Van Durme, Arman Cohan, Luca Soldaini(参考訳) クエリやドキュメントの拡張に大言語モデル(lms)を使用すると、情報検索の一般化が改善される。 しかし、これらの手法が普遍的に有用か、特定の検索モデル、データセットドメイン、クエリタイプなど、特定の設定でのみ有効であるかどうかは不明である。 そこで我々は,lmベース展開の包括的解析を初めて実施する。 拡張はより弱いモデルに対するスコアを改善するが、一般的にはより強いモデルに害を与える。 この傾向は,11種類の拡張手法,12種類の分散シフトを持つデータセット,24種類の検索モデルにまたがることを示す。 質的誤り分析を通じて、拡張は追加の情報を提供するが(潜在的にリコールを改善する)、関連する文書間の識別を困難にする追加ノイズを付加する(偽陽性をもたらす)と仮定する。 より弱いモデルへの拡張や、ターゲットデータセットがフォーマットのトレーニングコーパスと大きく異なる場合、そうでなければ、関連性信号を明確にするために拡張を避ける。

Using large language models (LMs) for query or document expansion can improve generalization in information retrieval. However, it is unknown whether these techniques are universally beneficial or only effective in specific settings, such as for particular retrieval models, dataset domains, or query types. To answer this, we conduct the first comprehensive analysis of LM-based expansion. We find that there exists a strong negative correlation between retriever performance and gains from expansion: expansion improves scores for weaker models, but generally harms stronger models. We show this trend holds across a set of eleven expansion techniques, twelve datasets with diverse distribution shifts, and twenty-four retrieval models. Through qualitative error analysis, we hypothesize that although expansions provide extra information (potentially improving recall), they add additional noise that makes it difficult to discern between the top relevant documents (thus introducing false positives). Our results suggest the following recipe: use expansions for weaker models or when the target dataset significantly differs from training corpus in format; otherwise, avoid expansions to keep the relevance signal clear.
翻訳日:2023-09-18 13:41:53 公開日:2023-09-15
# ささやき声モデルからの自動ラベル付き低リソース言語のための視覚音声認識

Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model ( http://arxiv.org/abs/2309.08535v1 )

ライセンス: Link先を確認
Jeong Hun Yeo, Minsu Kim, Shinji Watanabe, Yong Man Ro(参考訳) 本稿では,複数の言語,特にラベル付きデータの少ない低リソース言語に対して,強力な視覚音声認識(vsr)手法を提案する。 他言語から学んだ知識を用いて,対象言語に対するVSR性能を向上しようとする従来の手法とは異なり,人間の介入なしに,異なる言語に対するトレーニングデータ自体の量を増やすことができるかを検討する。 この目的のために,言語識別と音声に基づく音声認識を両立可能なささやきモデルを採用する。 望まれる言語のデータをフィルタリングし、注釈のない多言語音声視覚データプールからラベルを転写する。 自動ラベルと人称ラベルで訓練されたVSRモデルの性能を比較することで、人間のアノテーションを使わずに、人称ラベルと似たVSR性能を実現できることを示す。 自動ラベリングプロセスを通じて、voxceleb2とavspeechという多言語データベースを大規模にラベル付けし、フランス語、イタリア語、スペイン語、ポルトガル語の4つの低vsrリソース言語に対して1,002時間分のデータを生成する。 自動ラベルにより,mtedxにおける最新の性能を4つの言語で達成し,従来の手法を大きく上回っている。 自動ラベルはオンラインで入手できる。 https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages

This paper proposes a powerful Visual Speech Recognition (VSR) method for multiple languages, especially for low-resource languages that have a limited number of labeled data. Different from previous methods that tried to improve the VSR performance for the target language by using knowledge learned from other languages, we explore whether we can increase the amount of training data itself for the different languages without human intervention. To this end, we employ a Whisper model which can conduct both language identification and audio-based speech recognition. It serves to filter data of the desired languages and transcribe labels from the unannotated, multilingual audio-visual data pool. By comparing the performances of VSR models trained on automatic labels and the human-annotated labels, we show that we can achieve similar VSR performance to that of human-annotated labels even without utilizing human annotations. Through the automated labeling process, we label large-scale unlabeled multilingual databases, VoxCeleb2 and AVSpeech, producing 1,002 hours of data for four low VSR resource languages, French, Italian, Spanish, and Portuguese. With the automatic labels, we achieve new state-of-the-art performance on mTEDx in four languages, significantly surpassing the previous methods. The automatic labels are available online: https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages
翻訳日:2023-09-18 13:41:33 公開日:2023-09-15
# アノテーションの少ないグループロバスト性のためのラストレイヤリトレーニングに向けて

Towards Last-layer Retraining for Group Robustness with Fewer Annotations ( http://arxiv.org/abs/2309.08534v1 )

ライセンス: Link先を確認
Tyler LaBonte, Vidya Muthukumar, Abhishek Kumar(参考訳) ニューラルネットワークの経験的リスク最小化(ERM)は、急激な相関と少数集団の一般化の低さに過度に依存する傾向がある。 最近のdeep feature reweighting(dfr)テクニックは、単純なラストレイヤリトレーニングによって最先端のグループロバスト性を実現しているが、グループバランスのリウェイトデータセットを構築するには、ホールドアウトグループとクラスアノテーションが必要である。 本研究では,この非現実的要件を検証し,グループアノテーション(モデル選択以外のもの)や少数のクラスアノテーションを使わずに,最終層再学習が驚くほど効果的であることを示す。 まず,ラスト層リトレーニングによって,再重み付けデータセットが最悪のグループデータの割合が少ない場合にも,最悪のグループ精度が大幅に向上することを示す。 これは、トレーニングデータのサブセットを保持して最後のレイヤを再トレーニングする"フリーランチ"を意味し、追加のデータやアノテーションなしでデータセット全体のEMMを大幅に上回る。 グループロバスト性をさらに向上するために,不一致や誤分類を用いてデータセットの再重み付けを行う,選択的ラストレイヤーファインチューニング(self)と呼ばれる軽量な手法を導入する。 我々の経験的および理論的結果は、モデル不一致が最悪のグループデータを増幅する最初の証拠を示し、SELFはグループアノテーションなしで、グループアノテーションの3%以下で、視覚と言語タスクの4つの確立されたベンチマークでDFRにほぼ一致する。 私たちのコードはhttps://github.com/tmlabonte/last-layer-retrainingで利用可能です。

Empirical risk minimization (ERM) of neural networks is prone to over-reliance on spurious correlations and poor generalization on minority groups. The recent deep feature reweighting (DFR) technique achieves state-of-the-art group robustness via simple last-layer retraining, but it requires held-out group and class annotations to construct a group-balanced reweighting dataset. In this work, we examine this impractical requirement and find that last-layer retraining can be surprisingly effective with no group annotations (other than for model selection) and only a handful of class annotations. We first show that last-layer retraining can greatly improve worst-group accuracy even when the reweighting dataset has only a small proportion of worst-group data. This implies a "free lunch" where holding out a subset of training data to retrain the last layer can substantially outperform ERM on the entire dataset with no additional data or annotations. To further improve group robustness, we introduce a lightweight method called selective last-layer finetuning (SELF), which constructs the reweighting dataset using misclassifications or disagreements. Our empirical and theoretical results present the first evidence that model disagreement upsamples worst-group data, enabling SELF to nearly match DFR on four well-established benchmarks across vision and language tasks with no group annotations and less than 3% of the held-out class annotations. Our code is available at https://github.com/tmlabonte/last-layer-retraining.
翻訳日:2023-09-18 13:41:09 公開日:2023-09-15
# 人間-コンピュータ間インタラクションのためのニューラルネットワーク出力のクラスタリングによる皮膚内視鏡パターンの自動検出

Automated dermatoscopic pattern discovery by clustering neural network output for human-computer interaction ( http://arxiv.org/abs/2309.08533v1 )

ライセンス: Link先を確認
Lidia Talavera-Martinez, Philipp Tschandl(参考訳) 背景: 医用画像データセットのサイズが大きくなるにつれて, 臨床医が知識抽出のために手動でコンテンツをレビューすることは不可能になる。 本研究の目的は、人間の解釈可能なパターン発見をもたらす自動クラスタリングを作ることである。 方法: 顔色素性皮膚病変7例を含むham10000データセットの画像を29420タイルにタイル化し, ニューラルネットワーク抽出画像特徴を用いてk-meansを介してクラスタ化した。 診断毎のクラスタ数はelbow法か,stra-desion variance と cluster number のバランスをとるコンパクト度測定法で選択した。 画像タイルを6つ未満含むものと定義した非情報的クラスターの量は, 2つの手法で比較した。 結果: k-meansを適用すると、最適な肘切り離しは24.7 (95%-CI: 16.4-33) のクラスターとなり、そのうち14.9% (95% CI: 0.8-29.0) の非変形性クラスターを含む。 最適カットオフは、コンパクト性メートル法で推定されるように、クラスター(13.4; 95%-ci 11.8-15.1; p=0.03)と非インフォーマティブなクラスター(7.5%; 95% ci: 0-19.5; p=0.017)が著しく減少した。 コンパクト度測定から得られたクラスターの93.6%は、前述した皮膚内視鏡診断パターンに手作業でマッピングできる。 結論: 教師なしクラスタリングを自動的に制約することで、大きな画像データセットから診断的に関連し、人間に解釈可能な視覚的パターンのクラスタを自動的に抽出することができる。

Background: As available medical image datasets increase in size, it becomes infeasible for clinicians to review content manually for knowledge extraction. The objective of this study was to create an automated clustering resulting in human-interpretable pattern discovery. Methods: Images from the public HAM10000 dataset, including 7 common pigmented skin lesion diagnoses, were tiled into 29420 tiles and clustered via k-means using neural network-extracted image features. The final number of clusters per diagnosis was chosen by either the elbow method or a compactness metric balancing intra-lesion variance and cluster numbers. The amount of resulting non-informative clusters, defined as those containing less than six image tiles, was compared between the two methods. Results: Applying k-means, the optimal elbow cutoff resulted in a mean of 24.7 (95%-CI: 16.4-33) clusters for every included diagnosis, including 14.9% (95% CI: 0.8-29.0) non-informative clusters. The optimal cutoff, as estimated by the compactness metric, resulted in significantly fewer clusters (13.4; 95%-CI 11.8-15.1; p=0.03) and less non-informative ones (7.5%; 95% CI: 0-19.5; p=0.017). The majority of clusters (93.6%) from the compactness metric could be manually mapped to previously described dermatoscopic diagnostic patterns. Conclusions: Automatically constraining unsupervised clustering can produce an automated extraction of diagnostically relevant and human-interpretable clusters of visual patterns from a large image dataset.
翻訳日:2023-09-18 13:40:40 公開日:2023-09-15
# 画像変化理解のための視覚言語基盤モデルによる視点統合と登録

Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding ( http://arxiv.org/abs/2309.08585v1 )

ライセンス: Link先を確認
Xiaonan Lu, Jianlong Yuan, Ruigang Niu, Yuan Hu, Fan Wang(参考訳) 近年,事前学習型視覚言語基礎モデル (VLFMs) の開発が,多くのタスクにおいて顕著なパフォーマンスをもたらしている。 しかし、これらのモデルは強い単一画像理解能力を持つ傾向にあるが、複数の画像を理解する能力がない。 したがって、複数の画像間の実際の変化を捉え、それらを言語で記述するモデルを必要とする画像変化理解(ICU)に対処するために直接適用することはできない。 本稿では,既存のVLFMは,(1)VLFMが単一画像のグローバルな表現を学習するのに対して,ICUは複数の画像間のニュアンスをキャプチャする必要がある,という問題から,ICUに直接適用すると性能が低下することを明らかにする。 2) VLFMs の ICU 性能は,視点変化に伴う物体間の関係の変化によって引き起こされる視点変化に大きく影響される。 これらの問題を解決するために,ビューポイント統合と登録手法を提案する。 具体的には,イメージペア間のニュアンスを効果的に捉えるために,設計したトレーニング可能なアダプタとフューズドアダプタを挿入することで,事前訓練されたエンコーダを微調整するフューズドアダプタ画像エンコーダを提案する。 さらに、視点登録フローとセマンティック強調モジュールは、視覚空間とセマンティック空間における視点変動に起因する性能劣化を低減するように設計されている。 CLEVR-Change と Spot-the-Diff の実験結果から,本手法が全測定値における最先端性能を実現することを示す。

Recently, the development of pre-trained vision language foundation models (VLFMs) has led to remarkable performance in many tasks. However, these models tend to have strong single-image understanding capability but lack the ability to understand multiple images. Therefore, they cannot be directly applied to cope with image change understanding (ICU), which requires models to capture actual changes between multiple images and describe them in language. In this paper, we discover that existing VLFMs perform poorly when applied directly to ICU because of the following problems: (1) VLFMs generally learn the global representation of a single image, while ICU requires capturing nuances between multiple images. (2) The ICU performance of VLFMs is significantly affected by viewpoint variations, which is caused by the altered relationships between objects when viewpoint changes. To address these problems, we propose a Viewpoint Integration and Registration method. Concretely, we introduce a fused adapter image encoder that fine-tunes pre-trained encoders by inserting designed trainable adapters and fused adapters, to effectively capture nuances between image pairs. Additionally, a viewpoint registration flow and a semantic emphasizing module are designed to reduce the performance degradation caused by viewpoint variations in the visual and semantic space, respectively. Experimental results on CLEVR-Change and Spot-the-Diff demonstrate that our method achieves state-of-the-art performance in all metrics.
翻訳日:2023-09-18 13:31:57 公開日:2023-09-15
# ICLEF: 説明可能なスタイル転送のためのエキスパートフィードバックによるインコンテキスト学習

ICLEF: In-Context Learning with Expert Feedback for Explainable Style Transfer ( http://arxiv.org/abs/2309.08583v1 )

ライセンス: Link先を確認
Arkadiy Saakyan and Smaranda Muresan(参考訳) 最先端の言語モデルはスタイル転送タスクで優れているが、現在の研究はスタイル転送システムの説明可能性に対処していない。 説明は GPT-3.5 や GPT-4 のような大きな言語モデルを使って生成することができるが、そのような複雑なシステムの使用は、より小さく、広く分散し、透過的な代替手段が利用できる場合、非効率である。 chatgpt からのモデル蒸留による説明を含む形式性変換データセットの強化と改善のためのフレームワークを提案する。 生成した説明をさらに洗練するために,ChatGPT に対して,文脈内学習(ICLEF: In-Context Learning from Expert Feedback)を用いて,少ない専門家のフィードバックを取り入れた新たな手法を提案する。 960個の説明可能なフォーマルなスタイル転送インスタンス(e-GYAFC)のデータセットを用いて、現在のオープンな分散命令調整モデル(ChatGPT)がタスクで不十分に動作し、高品質なデータセットを微調整することで、自動評価によって示されるように大幅な改善がもたらされることを示す。 人間の評価では、データに微調整されたchatgptよりもはるかに小さいモデルが、専門家の好みに合致することを示している。 最後に、説明可能なスタイル伝達タスクに基づいて微調整されたモデルの潜在的な2つの応用について論じる。

While state-of-the-art language models excel at the style transfer task, current work does not address explainability of style transfer systems. Explanations could be generated using large language models such as GPT-3.5 and GPT-4, but the use of such complex systems is inefficient when smaller, widely distributed, and transparent alternatives are available. We propose a framework to augment and improve a formality style transfer dataset with explanations via model distillation from ChatGPT. To further refine the generated explanations, we propose a novel way to incorporate scarce expert human feedback using in-context learning (ICLEF: In-Context Learning from Expert Feedback) by prompting ChatGPT to act as a critic to its own outputs. We use the resulting dataset of 9,960 explainable formality style transfer instances (e-GYAFC) to show that current openly distributed instruction-tuned models (and, in some settings, ChatGPT) perform poorly on the task, and that fine-tuning on our high-quality dataset leads to significant improvements as shown by automatic evaluation. In human evaluation, we show that models much smaller than ChatGPT fine-tuned on our data align better with expert preferences. Finally, we discuss two potential applications of models fine-tuned on the explainable style transfer task: interpretable authorship verification and interpretable adversarial attacks on AI-generated text detectors.
翻訳日:2023-09-18 13:31:29 公開日:2023-09-15
# ハイブリッドInSb-Pbナノワイヤにおけるゲート可変超伝導

Gate-tunable Superconductivity in Hybrid InSb-Pb Nanowires ( http://arxiv.org/abs/2309.08582v1 )

ライセンス: Link先を確認
Yan Chen, David van Driel, Charalampos Lampadaris, Sabbir A Khan, Khalifah Alattallah, Lunjie Zeng, Eva Olsson, Tom Dvir, Peter Krogstrup, Yu Liu(参考訳) 本稿では,高スピン軌道結合と高臨界磁場と大きな超伝導ギャップを組み合わせたハイブリッドinsb-pbナノワイヤについて報告する。 材料特性は、ナノワイヤ側面上の高結晶性Pb層を示す。 強誘起超伝導ギャップとゲート調整可能な超電流はハイブリッドナノワイヤで観察される。 これらの結果は、この物質の組み合わせがハイブリッド量子輸送デバイスに様々な応用をもたらす可能性を示している。

We present a report on hybrid InSb-Pb nanowires that combine high spin-orbit coupling with a high critical field and a large superconducting gap. Material characterization indicates the Pb layer of high crystal quality on the nanowire side facets. Hard induced superconducting gaps and gate-tunable supercurrent are observed in the hybrid nanowires. These results showcase the promising potential of this material combination for a diverse range of applications in hybrid quantum transport devices.
翻訳日:2023-09-18 13:31:02 公開日:2023-09-15
# キャスティストでも人種差別主義者でも? インドと西洋の大規模言語モデルバイアスにおける差異の定量化

Casteist but Not Racist? Quantifying Disparities in Large Language Model Bias between India and the West ( http://arxiv.org/abs/2309.08573v1 )

ライセンス: Link先を確認
Khyati Khandelwal, Manuel Tonneau, Andrew M. Bean, Hannah Rose Kirk, Scott A. Hale(参考訳) 数百万のユーザが毎日使用しているLarge Language Models(LLM)は、社会的バイアスをエンコードし、ユーザを表現上の害に晒す。 LLMバイアスに関する多くの奨学金は存在するが、主に西洋中心の枠組みを採用し、グローバル・サウスのバイアスレベルや潜在的な害に比較的少ない。 本稿では,インド中心の枠組みに従って,人気のあるLLMのステレオタイプバイアスを定量化し,インドと西洋の文脈のバイアスレベルを比較する。 そこで我々は,インド・バイアス評価データセット(Indian Bias Evaluation Dataset)と呼ばれる新しいデータセットを開発した。 テストされたllmの大部分は、特に西洋の文脈と比較して、インド文脈のステレオタイプに強く偏っていることが分かりました。 GPT-3.5の多数症例において,これらのバイアスを緩和するための簡単な介入としてインストラクション・プロンプティングを検討した。 この研究の成果は、LSMを評価する際に、より多様な音声を含める必要性を強調している。

Large Language Models (LLMs), now used daily by millions of users, can encode societal biases, exposing their users to representational harms. A large body of scholarship on LLM bias exists but it predominantly adopts a Western-centric frame and attends comparatively less to bias levels and potential harms in the Global South. In this paper, we quantify stereotypical bias in popular LLMs according to an Indian-centric frame and compare bias levels between the Indian and Western contexts. To do this, we develop a novel dataset which we call Indian-BhED (Indian Bias Evaluation Dataset), containing stereotypical and anti-stereotypical examples for caste and religion contexts. We find that the majority of LLMs tested are strongly biased towards stereotypes in the Indian context, especially as compared to the Western context. We finally investigate Instruction Prompting as a simple intervention to mitigate such bias and find that it significantly reduces both stereotypical and anti-stereotypical biases in the majority of cases for GPT-3.5. The findings of this work highlight the need for including more diverse voices when evaluating LLMs.
翻訳日:2023-09-18 13:30:56 公開日:2023-09-15
# テンソルネットワーク状態を持つ中性原子量子システムをシミュレートする

Simulating Neutral Atom Quantum Systems with Tensor Network States ( http://arxiv.org/abs/2309.08572v1 )

ライセンス: Link先を確認
James Allen, Matthew Otten, Stephen Gray, and Bryan K. Clark(参考訳) 本稿では,ノイズの存在下での中性原子量子システムのテンソルネットワークシミュレーションについて述べるとともに,行列積状態の単純さと行列積密度作用素の正則性を両立させる新しい純度保存切断法を提案する。 このシミュレーションを横フィールドIsingモデル上での量子近似最適化アルゴリズムのほぼ最適化イテレーションに適用し,大規模システムサイズがアルゴリズムの性能に与える影響について検討する。 多数の量子ビットを持つ回路は、しばしばノイズの下で故障し、量子ビットの人口を減少させるが、その測定成功時の出力は、Rydberg原子の散逸や、より小さなシステムのように頑健である。 しかし、そのような回路は、Rydberg atom crosstalkのようなコヒーレントなマルチキュービット誤差の下ではうまく動作しないかもしれない。 また、最適化されたパラメータはノイズに対して特に頑健であり、観測可能な測定のためによりクリーンなシステムに切り替える前に、noisier量子系が最適なパラメータを見つけるために使用できることを示唆する。

In this paper, we describe a tensor network simulation of a neutral atom quantum system under the presence of noise, while introducing a new purity-preserving truncation technique that compromises between the simplicity of the matrix product state and the positivity of the matrix product density operator. We apply this simulation to a near-optimized iteration of the quantum approximate optimization algorithm on a transverse field Ising model in order to investigate the influence of large system sizes on the performance of the algorithm. We find that while circuits with a large number of qubits fail more often under noise that depletes the qubit population, their outputs on a successful measurement are just as robust under Rydberg atom dissipation or qubit dephasing as smaller systems. However, such circuits might not perform as well under coherent multi-qubit errors such as Rydberg atom crosstalk. We also find that the optimized parameters are especially robust to noise, suggesting that a noisier quantum system can be used to find the optimal parameters before switching to a cleaner system for measurements of observables.
翻訳日:2023-09-18 13:30:36 公開日:2023-09-15
# ロバスト逆強化学習へのベイズ的アプローチ

A Bayesian Approach to Robust Inverse Reinforcement Learning ( http://arxiv.org/abs/2309.08571v1 )

ライセンス: Link先を確認
Ran Wei, Siliang Zeng, Chenliang Li, Alfredo Garcia, Anthony McDonald, Mingyi Hong(参考訳) オフラインモデルに基づく逆強化学習(irl)に対するベイズ的アプローチを考える。 提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。 高次元環境における専門家の報酬と主観的ダイナミクスを推定するための効率的なアルゴリズムを開発するため、専門家の環境モデルがどの程度正確であるかをパラメータ化する事前分布のクラスを利用する。 本分析は,専門家が環境の高精度なモデルを持つと信じている場合,評価された政策が堅牢な性能を示すという新たな知見を提示する。 我々はこの観察をmujoco環境で検証し,我々のアルゴリズムが最先端のオフラインirlアルゴリズムよりも優れていることを示す。

We consider a Bayesian approach to offline model-based inverse reinforcement learning (IRL). The proposed framework differs from existing offline model-based IRL approaches by performing simultaneous estimation of the expert's reward function and subjective model of environment dynamics. We make use of a class of prior distributions which parameterizes how accurate the expert's model of the environment is to develop efficient algorithms to estimate the expert's reward and subjective dynamics in high-dimensional settings. Our analysis reveals a novel insight that the estimated policy exhibits robust performance when the expert is believed (a priori) to have a highly accurate model of the environment. We verify this observation in the MuJoCo environments and show that our algorithms outperform state-of-the-art offline IRL algorithms.
翻訳日:2023-09-18 13:30:16 公開日:2023-09-15
# 群寄与法による非線形光学分子のニューラルネットワーク駆動・インタラクティブ設計

Neural Network Driven, Interactive Design for Nonlinear Optical Molecules Based on Group Contribution Method ( http://arxiv.org/abs/2309.08570v1 )

ライセンス: Link先を確認
Jinming Fan (1 and 2), Chao Qian (1 and 2), Shaodong Zhou (1 and 2) ((1) College of Chemical and Biological Engineering, Zhejiang Provincial Key Laboratory of Advanced Chemical Engineering Manufacture Technology, Zhejiang University, Hangzhou, P. R. China, (2) Zhejiang Provincial Innovation Center of Advanced Chemicals Technology, Institute of Zhejiang University - Quzhou,P.R. China)(参考訳) Lewis-mode group contribute method (LGC) -- 多段ベイズニューラルネットワーク (msBNN) -- 進化的アルゴリズム (EA) フレームワークをD-Pi-A型有機小分子非線形光学材料の合理的設計のために報告した。 msBNNと修正ルイスモード群寄与法(cLGC)の組み合わせにより、分子の異なる光学特性を正確かつ効率的に得ることができる。 さらに,LGC用に設計されたEAモデルを用いることで,構造探索が実現可能である。 フレームワークの性能の良さの論理的起源を詳細に論じる。 このような理論を導いた機械学習フレームワークが化学原理とデータ駆動ツールを組み合わせたものと考えると、より広い分野で分子設計に関連する問題を解決することは効率的であることが証明されるだろう。

A Lewis-mode group contribution method (LGC) -- multi-stage Bayesian neural network (msBNN) -- evolutionary algorithm (EA) framework is reported for rational design of D-Pi-A type organic small-molecule nonlinear optical materials is presented. Upon combination of msBNN and corrected Lewis-mode group contribution method (cLGC), different optical properties of molecules are afforded accurately and efficiently - by using only a small data set for training. Moreover, by employing the EA model designed specifically for LGC, structural search is well achievable. The logical origins of the well performance of the framework are discussed in detail. Considering that such a theory guided, machine learning framework combines chemical principles and data-driven tools, most likely, it will be proven efficient to solve molecular design related problems in wider fields.
翻訳日:2023-09-18 13:30:02 公開日:2023-09-15
# グラフニューラルネットワークにおける局所微分プライバシー : 再構成アプローチ

Local Differential Privacy in Graph Neural Networks: a Reconstruction Approach ( http://arxiv.org/abs/2309.08569v1 )

ライセンス: Link先を確認
Karuna Bhaila and Wen Huang and Yongkai Wu and Xintao Wu(参考訳) グラフニューラルネットワークは、様々なアプリケーションで複雑なグラフデータをモデリングすることに成功した。 しかし、gnnのプライバシー保護に関する研究は限られている。 本研究では,ユーザレベルでノードのプライバシを提供するための学習フレームワークを提案する。 我々は,偏微分プライバシの分散概念,すなわち局所微分プライバシに着目し,モデルトレーニングのための中央サーバによって収集される前に,特徴量とラベル値の両方をノードレベルで摂動させるランダム化機構を適用する。 具体的には,高次元特徴設定におけるランダム化機構の適用について検討し,厳格なプライバシー保証を有するldpプロトコルを提案する。 ランダム化データの統計的解析における周波数推定に基づいて,摂動データから特徴やラベルを近似する再構成法を開発した。 また、この学習フレームワークを定式化し、グラフクラスタの頻度推定を利用して、サブグラフレベルでのトレーニング手順を監督する。 実世界および半合成データセットに関する広範な実験により,提案モデルの有効性が示された。

Graph Neural Networks have achieved tremendous success in modeling complex graph data in a variety of applications. However, there are limited studies investigating privacy protection in GNNs. In this work, we propose a learning framework that can provide node privacy at the user level, while incurring low utility loss. We focus on a decentralized notion of Differential Privacy, namely Local Differential Privacy, and apply randomization mechanisms to perturb both feature and label data at the node level before the data is collected by a central server for model training. Specifically, we investigate the application of randomization mechanisms in high-dimensional feature settings and propose an LDP protocol with strict privacy guarantees. Based on frequency estimation in statistical analysis of randomized data, we develop reconstruction methods to approximate features and labels from perturbed data. We also formulate this learning framework to utilize frequency estimates of graph clusters to supervise the training procedure at a sub-graph level. Extensive experiments on real-world and semi-synthetic datasets demonstrate the validity of our proposed model.
翻訳日:2023-09-18 13:29:47 公開日:2023-09-15
# 事前学習多言語翻訳モデルにおける属性制御はどの程度の変換可能か?

How Transferable are Attribute Controllers on Pretrained Multilingual Translation Models? ( http://arxiv.org/abs/2309.08565v1 )

ライセンス: Link先を確認
Danni Liu, Jan Niehues(参考訳) フォーマル性などのきめ細かい属性に準拠する機械翻訳モデルのカスタマイズは、最近大きな進歩を遂げている。 しかし、現在のアプローチは属性アノテーションを持つ少なくともいくつかの教師付きデータに依存している。 それゆえ、データの不足は、このようなカスタマイズの可能性をより広い範囲の言語、特に低リソース言語に民主化する上でのボトルネックである。 事前訓練された多言語翻訳モデルの最近の進歩を踏まえ、属性制御能力を教師付きデータなしで言語に転送する基盤として利用する。 本稿では,事前学習されたnllb-200モデルに基づく属性コントローラの転送に関する包括的解析を行う。 各種データシナリオ下でのトレーニング時間と推論時間の両方の制御手法について検討し、ゼロショット性能とドメインの堅牢性における相対的な強みと弱点を明らかにする。 5つのゼロショット方向の一貫した改善によって示されるように、両方のパラダイムは相補的である。 さらに、実際の低リソース言語であるbengaliに対する人間による評価では、ゼロショットトランスファーに関する知見が新たなターゲット言語に確認されている。 コードは$\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$である。

Customizing machine translation models to comply with fine-grained attributes such as formality has seen tremendous progress recently. However, current approaches mostly rely on at least some supervised data with attribute annotation. Data scarcity therefore remains a bottleneck to democratizing such customization possibilities to a wider range of languages, lower-resource ones in particular. Given recent progress in pretrained massively multilingual translation models, we use them as a foundation to transfer the attribute controlling capabilities to languages without supervised data. In this work, we present a comprehensive analysis of transferring attribute controllers based on a pretrained NLLB-200 model. We investigate both training- and inference-time control techniques under various data scenarios, and uncover their relative strengths and weaknesses in zero-shot performance and domain robustness. We show that both paradigms are complementary, as shown by consistent improvements on 5 zero-shot directions. Moreover, a human evaluation on a real low-resource language, Bengali, confirms our findings on zero-shot transfer to new target languages. The code is $\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$.
翻訳日:2023-09-18 13:29:31 公開日:2023-09-15
# 異なるバックボーンアーキテクチャが自動運転車データセットに与える影響

The Impact of Different Backbone Architecture on Autonomous Vehicle Dataset ( http://arxiv.org/abs/2309.08564v1 )

ライセンス: Link先を確認
Ning Ding, Azim Eskandarian(参考訳) 物体検出は自動運転の重要な要素であり、この課題に対処するために多くの検出アプリケーションが開発されている。 これらのアプリケーションは、しばしばbackboneアーキテクチャに依存しており、オブジェクト検出タスクを実行するために入力から表現機能を抽出する。 バックボーンアーキテクチャによって抽出された特徴の品質は、全体的な検出性能に大きな影響を与える可能性がある。 多くの研究者は、オブジェクト検出アプリケーションの効率と正確性を高めるために、新しく改良されたバックボーンアーキテクチャの開発に注力している。 これらのバックボーンアーキテクチャはMS-COCOやPASCAL-VOCのような汎用オブジェクト検出データセット上での最先端のパフォーマンスを示しているが、自律運転環境下でのパフォーマンスの評価は従来検討されていない。 そこで本研究では,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。

Object detection is a crucial component of autonomous driving, and many detection applications have been developed to address this task. These applications often rely on backbone architectures, which extract representation features from inputs to perform the object detection task. The quality of the features extracted by the backbone architecture can have a significant impact on the overall detection performance. Many researchers have focused on developing new and improved backbone architectures to enhance the efficiency and accuracy of object detection applications. While these backbone architectures have shown state-of-the-art performance on generic object detection datasets like MS-COCO and PASCAL-VOC, evaluating their performance under an autonomous driving environment has not been previously explored. To address this, our study evaluates three well-known autonomous vehicle datasets, namely KITTI, NuScenes, and BDD, to compare the performance of different backbone architectures on object detection tasks.
翻訳日:2023-09-18 13:29:13 公開日:2023-09-15
# スパースオートエンコーダは言語モデルで高い解釈可能な特徴を見つける

Sparse Autoencoders Find Highly Interpretable Features in Language Models ( http://arxiv.org/abs/2309.08600v1 )

ライセンス: Link先を確認
Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey(参考訳) ニューラルネットワークの内部をよりよく理解するための障害の1つは、複数の意味的に異なる文脈でニューロンが活性化しているように見える \textit{polysemanticity}である。 多義性は、ニューラルネットワークが内部で行っていることに関して、簡潔で理解可能な説明を識別することを妨げる。 多義性の原因の一つは \textit{superposition} であり、ニューラルネットワークはニューロンよりも多くの特徴を表現し、個々のニューロンではなく、活性化空間の方向の過剰な集合に特徴を割り当てる。 本稿では、スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築し、これらの方向を特定しようとする。 これらのオートエンコーダは、他の手法によって識別される方向よりも解釈可能で単意味な機能群を学習する。 これらの特徴を損なうことで、例えば代名詞予測などの機能を排除し、モデルの振る舞いを以前の技術より破壊することで、正確なモデル編集が可能になる。 本研究は,スケーラブルで教師なしの手法を用いて,言語モデルの重ね合わせを解決することができることを示す。 この手法は,今後の機械的な解釈作業の基礎となる可能性があり,モデルの透明性と操縦性の向上が期待できる。

One of the roadblocks to a better understanding of neural networks' internals is \textit{polysemanticity}, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is \textit{superposition}, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Ablating these features enables precise model editing, for example, by removing capabilities such as pronoun prediction, while disrupting model behaviour less than prior techniques. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
翻訳日:2023-09-18 13:23:26 公開日:2023-09-15
# 非均一運動下におけるスパース・ノイズイベントからのロバストe-NeRF

Robust e-NeRF: NeRF from Sparse & Noisy Events under Non-Uniform Motion ( http://arxiv.org/abs/2309.08596v1 )

ライセンス: Link先を確認
Weng Fei Low and Gim Hee Lee(参考訳) イベントカメラは、低消費電力、低レイテンシ、高時間分解能、高ダイナミックレンジという独特の動作原理のため、標準カメラよりも多くの利点がある。 それでも、多くの下流視覚アプリケーションの成功は、Neural Radiance Field(NeRF)が主要な候補と見なされる、効率的で効果的なシーン表現にも繋がる。 このようなイベントカメラとNeRFの約束とポテンシャルは、動くイベントカメラからNeRFを再構築する最近の研究にインスピレーションを与えた。 しかしながら、これらの作品は、主に密度と低雑音のイベントストリームへの依存、および任意のコントラスト閾値値とカメラ速度プロファイルへの一般化の点で制限されている。 本研究では,特に非一様動作下で発生するスパース・ノイズイベントから,様々な実環境下でのイベントカメラのNeRFを直接的かつ堅牢に再構成する新手法であるRobust e-NeRFを提案する。 様々な固有パラメータ(例えば、時間非依存、非対称しきい値、屈折周期)と非理想性(例えば、ピクセルからピクセルへのしきい値の変動)を考慮に入れた現実的なイベント生成モデルと、任意の速度プロファイルや固有パラメータ値にそのような事前知識なしで効果的に一般化できる正規化再構成損失の相補的なペアで構成されている。 現実的および斬新なシミュレートされたシーケンスの実験は、我々の有効性を検証する。 私たちのコード、合成データセット、改善されたイベントシミュレータはパブリックです。

Event cameras offer many advantages over standard cameras due to their distinctive principle of operation: low power, low latency, high temporal resolution and high dynamic range. Nonetheless, the success of many downstream visual applications also hinges on an efficient and effective scene representation, where Neural Radiance Field (NeRF) is seen as the leading candidate. Such promise and potential of event cameras and NeRF inspired recent works to investigate on the reconstruction of NeRF from moving event cameras. However, these works are mainly limited in terms of the dependence on dense and low-noise event streams, as well as generalization to arbitrary contrast threshold values and camera speed profiles. In this work, we propose Robust e-NeRF, a novel method to directly and robustly reconstruct NeRFs from moving event cameras under various real-world conditions, especially from sparse and noisy events generated under non-uniform motion. It consists of two key components: a realistic event generation model that accounts for various intrinsic parameters (e.g. time-independent, asymmetric threshold and refractory period) and non-idealities (e.g. pixel-to-pixel threshold variation), as well as a complementary pair of normalized reconstruction losses that can effectively generalize to arbitrary speed profiles and intrinsic parameter values without such prior knowledge. Experiments on real and novel realistically simulated sequences verify our effectiveness. Our code, synthetic dataset and improved event simulator are public.
翻訳日:2023-09-18 13:23:03 公開日:2023-09-15
# 「Merge Conflicts! パラメトリック知識グラフに対する外部トラクタの影響を探る

"Merge Conflicts!" Exploring the Impacts of External Distractors to Parametric Knowledge Graphs ( http://arxiv.org/abs/2309.08594v1 )

ライセンス: Link先を確認
Cheng Qian, Xinran Zhao, Sherry Tongshuang Wu(参考訳) 大規模言語モデル(llm)は、パラメトリック知識として知られる事前学習中に広範な知識を得る。 しかし、人間の指示に従って最新の状態を保つためには、LLMはユーザーとの対話中に必然的に外部知識を必要とする。 外部知識がパラメトリック知識に干渉した場合、LCMはどのように反応するのだろうか? 本研究では, LLMパラメトリック知識を体系的に取り入れ, 外部知識を導入する枠組みを提案する。 具体的には、llmの異なる知識構造を明らかにするためにパラメトリック知識グラフを構築し、様々な程度、方法、位置、フォーマットの注意をそらすことによって外部知識を導入することで、その影響を明らかにする。 ブラックボックスモデルとオープンソースモデルの両方における我々の実験は、llmがパラメトリックな知識から逸脱する応答を生成する傾向があることを示しています。 また、LCMは外部知識の正確さに敏感であるが、関係のない情報に気を散らすことができる。 これらの知見は,現在のLLMとの相互作用において,外部知識を間接的に統合する際の幻覚の危険性を浮き彫りにした。 すべてのデータと結果が公開されている。

Large language models (LLMs) acquire extensive knowledge during pre-training, known as their parametric knowledge. However, in order to remain up-to-date and align with human instructions, LLMs inevitably require external knowledge during their interactions with users. This raises a crucial question: How will LLMs respond when external knowledge interferes with their parametric knowledge? To investigate this question, we propose a framework that systematically elicits LLM parametric knowledge and introduces external knowledge. Specifically, we uncover the impacts by constructing a parametric knowledge graph to reveal the different knowledge structures of LLMs, and introduce external knowledge through distractors of varying degrees, methods, positions, and formats. Our experiments on both black-box and open-source models demonstrate that LLMs tend to produce responses that deviate from their parametric knowledge, particularly when they encounter direct conflicts or confounding changes of information within detailed contexts. We also find that while LLMs are sensitive to the veracity of external knowledge, they can still be distracted by unrelated information. These findings highlight the risk of hallucination when integrating external knowledge, even indirectly, during interactions with current LLMs. All the data and results are publicly available.
翻訳日:2023-09-18 13:22:33 公開日:2023-09-15
# アテンションオンリー変換器とアテンションヘッドを用いたMLPの実装

Attention-Only Transformers and Implementing MLPs with Attention Heads ( http://arxiv.org/abs/2309.08593v1 )

ライセンス: Link先を確認
Robert Huben and Valerie Morris(参考訳) トランスフォーマーアーキテクチャは機械学習モデルで広く使われており、アテンションヘッドとMPPの2つの交互サブレイヤで構成されている。 我々は,MLPの活性化機能がSiLUを含む制限クラスとReLUとGeLUの近似値から得られる限り,MLPニューロンを内部次元1のマスキングアテンションヘッドで実装できることを証明した。 これにより、MLPとアテンション変換器をアテンションのみのトランスに変換することができ、アテンションヘッドの数を大幅に増やすことができる。 また,MLP(線形変換とアクティベーション関数)の成分を別々に処理できることも証明した。 最後に,重み行列の任意のマスキングパターンを任意に小さな誤差で符号化できることを示す。

The transformer architecture is widely used in machine learning models and consists of two alternating sublayers: attention heads and MLPs. We prove that an MLP neuron can be implemented by a masked attention head with internal dimension 1 so long as the MLP's activation function comes from a restricted class including SiLU and close approximations of ReLU and GeLU. This allows one to convert an MLP-and-attention transformer into an attention-only transformer at the cost of greatly increasing the number of attention heads. We also prove that attention heads can perform the components of an MLP (linear transformations and activation functions) separately. Finally, we prove that attention heads can encode arbitrary masking patterns in their weight matrices to within arbitrarily small error.
翻訳日:2023-09-18 13:22:13 公開日:2023-09-15
# 多言語LLMは文化的多言語共振器か? 多文化的証明と発言に関する研究

Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings ( http://arxiv.org/abs/2309.08591v1 )

ライセンス: Link先を確認
Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych(参考訳) 大きな言語モデル(llm)は質問への答えや推論のタスクに非常に適していますが、状況によっては、人間の期待は、関連する文化的共通点によって異なります。 人間の言語は多様な文化と結びついているので、LLMは文化的に異なる推論者でもあるべきである。 本稿では,多言語多言語 LLM (mLLMs) が,会話の文脈における証明や言い回しを推論する能力について検討する。 実験の結果,(1)mllms'knows'の限定的な証明と暗記は会話的文脈の中での理解を意味するものではなく,(2)mllmsは形容詞や言い回しによる推論に苦慮し,(正しい答えを問うのではなく)間違った答えを選ぶよう求めた場合,(3)他言語からの推論や言い回しに対してmllmsに「文化ギャップ」があることが判明した。 評価データセットMAPS (MulticultrAl Proverbs and Sayings) を構築・リリースし、6つの異なる言語に対する会話コンテキストによる理解を実証する。

Large language models (LLMs) are highly adept at question answering and reasoning tasks, but when reasoning in situational context, human expectations vary depending on the relevant cultural common ground. As human languages are associated with diverse cultures, LLMs should also be culturally-diverse reasoners. In this paper, we study the ability of a wide range of state-of-the-art multilingual LLMs (mLLMs) to reason with proverbs and sayings in a conversational context. Our experiments reveal that: (1) mLLMs 'knows' limited proverbs and memorizing proverbs does not mean understanding them within a conversational context; (2) mLLMs struggle to reason with figurative proverbs and sayings, and when asked to select the wrong answer (instead of asking it to select the correct answer); and (3) there is a "culture gap" in mLLMs when reasoning about proverbs and sayings translated from other languages. We construct and release our evaluation dataset MAPS (MulticultrAl Proverbs and Sayings) for proverb understanding with conversational context for six different languages.
翻訳日:2023-09-18 13:21:55 公開日:2023-09-15
# ニューラルマシン翻訳モデルは、最小限の学習者になれる

Neural Machine Translation Models Can Learn to be Few-shot Learners ( http://arxiv.org/abs/2309.08590v1 )

ライセンス: Link先を確認
Raphael Reinauer and Patrick Simianer and Kaden Uhlig and Johannes E. M. Mosig and Joern Wuebker(参考訳) 大規模な言語モデルの創発的な能力 少数の例を使って、新しいドメインやタスクで実行することを学ぶことは、インコンテキスト学習(icl)とも呼ばれる。 本稿では,神経機械翻訳の領域適応の課題を例に挙げた,特殊訓練目標に向けて微調整することで,より小さいモデルでiclを行うように訓練できることを示す。 ICLのこの能力により、モデルは関連する少数ショットの例を利用して、その出力をドメインに適応させることができる。 このドメイン適応の質を従来の教師付き手法やICLと40Bパラメータ大言語モデルと比較する。 提案手法は,ドメインの混合による効率的なバッチ推論を可能にし,翻訳品質と即時適応率の両面で最先端のベースライン,すなわち単一の例を示してから特定の項を再現する能力を上回っている。

The emergent ability of Large Language Models to use a small number of examples to learn to perform in novel domains and tasks, also called in-context learning (ICL). In this work, we show that a much smaller model can be trained to perform ICL by fine-tuning towards a specialized training objective, exemplified on the task of domain adaptation for neural machine translation. With this capacity for ICL, the model can take advantage of relevant few-shot examples to adapt its output towards the domain. We compare the quality of this domain adaptation to traditional supervised techniques and ICL with a 40B-parameter Large Language Model. Our approach allows efficient batch inference on a mix of domains and outperforms state-of-the-art baselines in terms of both translation quality and immediate adaptation rate, i.e. the ability to reproduce a specific term after being shown a single example.
翻訳日:2023-09-18 13:21:32 公開日:2023-09-15
# 思考連鎖推論は政策改善オペレーターである

Chain-of-Thought Reasoning is a Policy Improvement Operator ( http://arxiv.org/abs/2309.08589v1 )

ライセンス: Link先を確認
Hugh Zhang, David C. Parkes(参考訳) 大きな言語モデルは、素晴らしい新機能で世界を驚かせた。 しかし、現在彼らは新しいスキルを教える能力に欠けており、その代わりに大量の人為的なデータに基づいて訓練されている。 SECToR(Self-Education via Chain-of-Thought Reasoning)は,言語モデルがチェーン・オブ・ソート推論を用いて新たなスキルを学べるという概念実証である。 強化学習(Silver et al., 2017)と人間の認知(Kahneman, 2011)の両方における過去の研究に触発されたSECToRは、まずチェーン・オブ・シークレット・推論を使って問題をゆっくりと考える。 SECToRはそのモデルを微調整して同じ回答を生成する。 SECToRで訓練された言語モデルは、6桁未満の数字のみからなる初期教師付き微調整フェーズを超えて、基礎的な真実の例にアクセスせずに、29桁の数字を追加することを自律的に学習する。 我々の中心的な仮説は、モンテカルロ木探索がAlphaZeroでどのように使われているかに類似して、連鎖推論が政策改善演算子として機能する、というものである。 この研究が、人間のデモを必要とせずに、言語モデルが自分自身を学べる新しい方向性に繋がることを期待しています。

Large language models have astounded the world with fascinating new capabilities. However, they currently lack the ability to teach themselves new skills, relying instead on being trained on large amounts of human-generated data. We introduce SECToR (Self-Education via Chain-of-Thought Reasoning), a proof-of-concept demonstration that language models can successfully teach themselves new skills using chain-of-thought reasoning. Inspired by previous work in both reinforcement learning (Silver et al., 2017) and human cognition (Kahneman, 2011), SECToR first uses chain-of-thought reasoning to slowly think its way through problems. SECToR then fine-tunes the model to generate those same answers, this time without using chain-of-thought reasoning. Language models trained via SECToR autonomously learn to add up to 29-digit numbers without any access to any ground truth examples beyond an initial supervised fine-tuning phase consisting only of numbers with 6 or fewer digits. Our central hypothesis is that chain-of-thought reasoning can act as a policy improvement operator, analogously to how Monte-Carlo Tree Search is used in AlphaZero. We hope that this research can lead to new directions in which language models can learn to teach themselves without the need for human demonstrations.
翻訳日:2023-09-18 13:21:17 公開日:2023-09-15
# 混み合ったシーンにおけるロバストなフレーム間カメラ回転推定

Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes ( http://arxiv.org/abs/2309.08588v1 )

ライセンス: Link先を確認
Fabien Delattre, David Dirnfeld, Phat Nguyen, Stephen Scarano, Michael J. Jones, Pedro Miraldo, Erik Learned-Miller(参考訳) 本稿では,手持ち単眼映像から実世界の混み合ったシーンにおけるカメラ回転の推定手法を提案する。 カメラ回転推定はよく研究されている問題であるが、この設定において精度と許容速度の両方を示す方法はない。 設定は他のデータセットではうまく扱えないため、我々は17の動画シーケンスで高精度で厳密に検証された地上の真実を持つ新しいデータセットとベンチマークを提供する。 広いベースラインステレオ(例えば5点法)のために開発された手法は単眼ビデオでは性能が悪い。 一方、自律運転(例えばslam)で使用される手法は、特定のセンサー設定、特定の動きモデル、あるいは局所的な最適化戦略(バッチ処理)を利用しており、ハンドヘルドビデオにうまく一般化していない。 最後に、ダイナミックなシーンでは、RANSACのような一般的なロバスト化技術が大量のイテレーションを必要とし、違法に遅い。 我々は,SO(3)上のハフ変換の新たな一般化を導入し,光学的流れに最も適合するカメラ回転を効率よく,堅牢に見つける。 比較可能な高速な手法の中では、次の最良値に対して誤差を約50%削減し、速度によらずどの手法よりも正確である。 これは、混雑するシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。 コードとデータセットはhttps://fabiendelattre.com/robust-rotation-estimationで入手できる。

We present an approach to estimating camera rotation in crowded, real-world scenes from handheld monocular video. While camera rotation estimation is a well-studied problem, no previous methods exhibit both high accuracy and acceptable speed in this setting. Because the setting is not addressed well by other datasets, we provide a new dataset and benchmark, with high-accuracy, rigorously verified ground truth, on 17 video sequences. Methods developed for wide baseline stereo (e.g., 5-point methods) perform poorly on monocular video. On the other hand, methods used in autonomous driving (e.g., SLAM) leverage specific sensor setups, specific motion models, or local optimization strategies (lagging batch processing) and do not generalize well to handheld video. Finally, for dynamic scenes, commonly used robustification techniques like RANSAC require large numbers of iterations, and become prohibitively slow. We introduce a novel generalization of the Hough transform on SO(3) to efficiently and robustly find the camera rotation most compatible with optical flow. Among comparably fast methods, ours reduces error by almost 50\% over the next best, and is more accurate than any method, irrespective of speed. This represents a strong new performance point for crowded scenes, an important setting for computer vision. The code and the dataset are available at https://fabiendelattre.com/robust-rotation-estimation.
翻訳日:2023-09-18 13:20:52 公開日:2023-09-15
# 階層的計画のための構成基礎モデル

Compositional Foundation Models for Hierarchical Planning ( http://arxiv.org/abs/2309.08587v1 )

ライセンス: Link先を確認
Anurag Ajay, Seungwook Han, Yilun Du, Shaung Li, Abhi Gupta, Tommi Jaakkola, Josh Tenenbaum, Leslie Kaelbling, Akash Srivastava, Pulkit Agrawal(参考訳) 長期的目標を持つ新しい環境において効果的な意思決定を行うためには,空間的・時間的規模で階層的推論を行うことが重要である。 これには、抽象的なサブゴアシーケンスの計画、基礎となる計画の視覚的な推論、視覚運動制御によって考案された計画に従って行動を実行することが含まれる。 本研究では,言語,視覚,行動データに基づいて個別に訓練された複数の専門的基礎モデルを活用した階層的計画のための構成的基礎モデル(HiP)を提案する。 我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号計画を構築するために,大規模言語モデルを用いる。 生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。 この階層内で効果的な推論を可能にするために、反復的洗練を通じてモデル間の一貫性を強制する。 3つの異なる長方形テーブルトップ操作タスクにおいて,提案手法の有効性と適応性を示す。

To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.
翻訳日:2023-09-18 13:20:27 公開日:2023-09-15
# 視覚トランスフォーマーにおけるsoftmaxをreluに置き換える

Replacing softmax with ReLU in Vision Transformers ( http://arxiv.org/abs/2309.08586v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith(参考訳) 従来の研究では、注意ソフトマックスをReLUのようなポイントワイドアクティベーションに置き換える際の精度劣化が観察された。 視覚トランスフォーマーの文脈では、シーケンス長で分割するとこの劣化が軽減される。 我々はImageNet-21kで小型から大型の視覚変換器を訓練し、ReLUアテンションが計算関数としてのスケーリング動作においてソフトマックスアテンションの性能に近づいたり適合できることを示した。

Previous research observed accuracy degradation when replacing the attention softmax with a point-wise activation such as ReLU. In the context of vision transformers, we find that this degradation is mitigated when dividing by sequence length. Our experiments training small to large vision transformers on ImageNet-21k indicate that ReLU-attention can approach or match the performance of softmax-attention in terms of scaling behavior as a function of compute.
翻訳日:2023-09-18 13:20:11 公開日:2023-09-15
# OMOD: OpenStreetMapに基づいた非集約型モビリティ需要を作成するオープンソースツール

OMOD: An open-source tool for creating disaggregated mobility demand based on OpenStreetMap ( http://arxiv.org/abs/2309.06927v2 )

ライセンス: Link先を確認
Leo Strobel, Marco Pruckner(参考訳) 本稿では,オープンソースのアクティビティベースのモビリティ要求生成ツールであるopenstreetmap mobility demand generator (omod)について紹介する。 OMODは、エージェントの集団を作り、各エージェントが行う予定の行動、場所、およびどれくらいの期間を記述した詳細な日々の活動スケジュールを作成する。 出力の時間的側面は完全に分離され、空間的側面は個々の建物のレベルに与えられる。 他の既存のモデルとは対照的に、OMODは無償でオープンソースで公開されており、アウト・オブ・ザ・ボックスで動作し、地球上のどのリージョンにも適用可能である。 OMODでは、非専門家が現実的なモビリティ需要を創出しやすく、輸送研究、エネルギーシステムモデリング、通信システム研究などに利用することができる。 OMODはデータ駆動方式を用いて、家庭旅行調査データと調整された移動需要を生成する。 本稿は,OMODの建築を概説し,人口20万人から250万人までの3都市を対象としたモデルを検証した。

In this paper, we introduce the OpenStreetMap Mobility Demand Generator (OMOD), a new open-source activity-based mobility demand generation tool. OMOD creates a population of agents and detailed daily activity schedules that state what activities each agent plans to conduct, where, and for how long. The temporal aspect of the output is wholly disaggregated, while the spatial aspect is given on the level of individual buildings. In contrast to other existing models, OMOD is freely available, open-source, works out-of-the-box, can be applied to any region on earth, and only requires freely available OpenStreetMap (OSM) data from the user. With OMOD, it is easy for non-experts to create realistic mobility demand, which can be used in transportation studies, energy system modeling, communications system research, et cetera. OMOD uses a data-driven approach to generate mobility demand that has been calibrated with household travel survey data. This paper describes OMOD's architecture and validates the model for three cities ranging from 200,000 to 2.5 million inhabitants.
翻訳日:2023-09-18 11:38:44 公開日:2023-09-15
# 欠落データに基づく不確実性を考慮したトラヒック予測

Uncertainty-aware Traffic Prediction under Missing Data ( http://arxiv.org/abs/2309.06800v3 )

ライセンス: Link先を確認
Hao Mei, Junxian Li, Zhiming Liang, Guanjie Zheng, Bin Shi, Hua Wei(参考訳) 交通分野の応用範囲が広いため、交通予測は重要なトピックである。 近年,様々な研究が有望な成果を上げている。 しかし、ほとんどの研究は予測場所が完全な、あるいは少なくとも部分的な歴史記録を持っていると仮定しており、歴史的に記録されていない場所まで拡張することはできない。 実際のシナリオでは、予算の制限とインストールの可用性のためにセンサーの配置が制限される可能性があるため、現在のほとんどのモデルでは適用できない。 欠落した場所の交通状態を暗示しようとする文献は少ないが、これらの手法にはセンサーで同時に観測されるデータが必要であるため、予測タスクには適用できない。 もうひとつの欠点は、予測の不確実性の測定の欠如であり、以前の作業がリスクに敏感なタスクや意思決定に適さないことだ。 このギャップを埋めるために、従来のインダクティブグラフニューラルネットワークに触発された本研究では、不確実性を認識するフレームワークを提案する。 1) 過去の記録のない場所への予測を延長し, センサの配置を減少させながら, 予測位置の空間的範囲を著しく拡大する。 2) 下流作業におけるリスクと意思決定の管理を支援するため, 不確実性定量化による確率予測を生成する。 実生活データセットを広範囲に実験した結果,予測課題において有望な結果が得られ,不確かさの定量化により,過去のデータと無関係な場所と高い相関性が得られた。 また,センサ配置予算を限定した精度向上のために,交通分野におけるセンサ展開タスクを支援できることを示す。

Traffic prediction is a crucial topic because of its broad scope of applications in the transportation domain. Recently, various studies have achieved promising results. However, most studies assume the prediction locations have complete or at least partial historical records and cannot be extended to non-historical recorded locations. In real-life scenarios, the deployment of sensors could be limited due to budget limitations and installation availability, which makes most current models not applicable. Though few pieces of literature tried to impute traffic states at the missing locations, these methods need the data simultaneously observed at the locations with sensors, making them not applicable to prediction tasks. Another drawback is the lack of measurement of uncertainty in prediction, making prior works unsuitable for risk-sensitive tasks or involving decision-making. To fill the gap, inspired by the previous inductive graph neural network, this work proposed an uncertainty-aware framework with the ability to 1) extend prediction to missing locations with no historical records and significantly extend spatial coverage of prediction locations while reducing deployment of sensors and 2) generate probabilistic prediction with uncertainty quantification to help the management of risk and decision making in the down-stream tasks. Through extensive experiments on real-life datasets, the result shows our method achieved promising results on prediction tasks, and the uncertainty quantification gives consistent results which highly correlated with the locations with and without historical data. We also show that our model could help support sensor deployment tasks in the transportation field to achieve higher accuracy with a limited sensor deployment budget.
翻訳日:2023-09-18 11:38:24 公開日:2023-09-15
# VEATIC:コンテキストデータセットにおけるビデオベースの感情と感情追跡

VEATIC: Video-based Emotion and Affect Tracking in Context Dataset ( http://arxiv.org/abs/2309.06745v3 )

ライセンス: Link先を確認
Zhihang Ren, Jefferson Ortega, Yifan Wang, Zhimin Chen, Yunhui Guo, Stella X. Yu, David Whitney(参考訳) 人間の感情認識は、心理学やコンピュータビジョンにおいて重要なトピックである。 しかし、現在公開されたデータセットには多くの制限がある。 例えば、ほとんどのデータセットは、表情に関する情報のみを含むフレームを含んでいる。 従来のデータセットの制限のため、人間の認識に影響を与えるメカニズムを理解するか、それらのデータセットで訓練されたコンピュータビジョンモデルの場合の一般的なケースでうまく一般化するのは難しい。 本稿では,これまでのデータセットの限界を克服することのできる,新たな大規模データセットであるビデオベースの感情とコンテキストデータセット(veatic)の追跡について紹介する。 VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。 このデータセットとともに,各映像フレームの文脈情報と文字情報から選択されたキャラクタの影響を推測する新しいコンピュータビジョンタスクを提案する。 さらに,この新しいコンピュータビジョンタスクをベンチマークするための簡易モデルを提案する。 また、トレーニング済みのモデルの性能を、我々のデータセットと他の類似したデータセットと比較する。 実験では,VEATICによる事前学習モデルの競合する結果を示し,VEATICの一般化可能性を示す。 私たちのデータセットはhttps://veatic.github.io.com/で利用可能です。

Human affect recognition has been a significant topic in psychophysics and computer vision. However, the currently published datasets have many limitations. For example, most datasets contain frames that contain only information about facial expressions. Due to the limitations of previous datasets, it is very hard to either understand the mechanisms for affect recognition of humans or generalize well on common cases for computer vision models trained on those datasets. In this work, we introduce a brand new large dataset, the Video-based Emotion and Affect Tracking in Context Dataset (VEATIC), that can conquer the limitations of the previous datasets. VEATIC has 124 video clips from Hollywood movies, documentaries, and home videos with continuous valence and arousal ratings of each frame via real-time annotation. Along with the dataset, we propose a new computer vision task to infer the affect of the selected character via both context and character information in each video frame. Additionally, we propose a simple model to benchmark this new computer vision task. We also compare the performance of the pretrained model using our dataset with other similar datasets. Experiments show the competing results of our pretrained model via VEATIC, indicating the generalizability of VEATIC. Our dataset is available at https://veatic.github.io.
翻訳日:2023-09-18 11:37:57 公開日:2023-09-15
# 動的スペクトルミキサーによる視覚認識

Dynamic Spectrum Mixer for Visual Recognition ( http://arxiv.org/abs/2309.06721v2 )

ライセンス: Link先を確認
Zhiqiang Hu, Tao Yu(参考訳) 近年、MLPベースの視覚バックボーンは、いくつかの視覚認識タスクにおいて有望な性能を達成している。 しかし、既存のMLPベースのメソッドはトークンを直接静的な重み付けで集約し、異なる画像への適応性を残している。 さらに,近年の研究では,mlp-transformerは長距離依存性の生成に優れるが,局所情報を主に送信する高周波数の捕捉には効果がなく,セマンティクスセグメンテーションなどの下流の密集した予測タスクに適用できないことが示されている。 これらの課題に対処するために、動的スペクトルミキサー (DSM) と呼ばれるコンテンツ適応型だが計算効率の良い構造を提案する。 DSMは離散コサイン変換を用いて周波数領域におけるトークンの相互作用を表現する。 さらに、スペクトル帯域選択層として動的スペクトル重み生成層が提案されており、他の周波数帯域を減少させながら、有益な周波数帯域を強調することができる。 これにより、高周波数情報と低周波情報の両方を含む視覚入力から詳細な特徴を効率的に学習することができる。 大規模な実験により、DSMは様々な視覚認識タスクのための強力で適応可能なバックボーンであることが示された。 特に、DSMは画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ImageNetの83.8 \%、ADE20Kの49.9 \% mIoUなど、以前のトランスフォーマーベースモデルとMLPベースのモデルより優れている。

Recently, MLP-based vision backbones have achieved promising performance in several visual recognition tasks. However, the existing MLP-based methods directly aggregate tokens with static weights, leaving the adaptability to different images untouched. Moreover, Recent research demonstrates that MLP-Transformer is great at creating long-range dependencies but ineffective at catching high frequencies that primarily transmit local information, which prevents it from applying to the downstream dense prediction tasks, such as semantic segmentation. To address these challenges, we propose a content-adaptive yet computationally efficient structure, dubbed Dynamic Spectrum Mixer (DSM). The DSM represents token interactions in the frequency domain by employing the Discrete Cosine Transform, which can learn long-term spatial dependencies with log-linear complexity. Furthermore, a dynamic spectrum weight generation layer is proposed as the spectrum bands selector, which could emphasize the informative frequency bands while diminishing others. To this end, the technique can efficiently learn detailed features from visual input that contains both high- and low-frequency information. Extensive experiments show that DSM is a powerful and adaptable backbone for a range of visual recognition tasks. Particularly, DSM outperforms previous transformer-based and MLP-based models, on image classification, object detection, and semantic segmentation tasks, such as 83.8 \% top-1 accuracy on ImageNet, and 49.9 \% mIoU on ADE20K.
翻訳日:2023-09-18 11:37:41 公開日:2023-09-15
# RigNet++: 深度補完のための効率的な反復画像ガイドネットワーク

RigNet++: Efficient Repetitive Image Guided Network for Depth Completion ( http://arxiv.org/abs/2309.00655v3 )

ライセンス: Link先を確認
Zhiqiang Yan and Xiang Li and Zhenyu Zhang and Jun Li and Jian Yang(参考訳) 深度補完は、この作業を容易にするために色画像がしばしば使用される、疎密な深度マップを回収することを目的としている。 最近の深度法は主に画像誘導学習フレームワークに焦点をあてている。 しかし、画像のぼやけた指示と奥行きの曖昧な構造は、それでもその性能を損なう。 これらの課題に対処するために、画像ガイドネットワークにおける効率的な反復設計を探索し、徐々に十分に深度を復元する。 具体的には、画像誘導枝と深度生成枝の両方に効率的な繰り返しを具備する。 前者では,複雑な環境の識別画像の特徴を抽出し,奥行き予測のための強力な文脈指示を提供するために,集中的に反復する砂時計ネットワークを設計した。 後者では、動的畳み込みに基づく反復的誘導モジュールを導入し、高頻度構造を漸進的にモデル化しながら複雑性を低減できる効率的な畳み込み分解を提案する。 大規模な実験の結果,KITTI,VKITTI,NYUv2,3D60,Matterport3Dデータセットにおいて,本手法が優れた,あるいは競争的な結果をもたらすことが示された。

Depth completion aims to recover dense depth maps from sparse ones, where color images are often used to facilitate this task. Recent depth methods primarily focus on image guided learning frameworks. However, blurry guidance in the image and unclear structure in the depth still impede their performance. To tackle these challenges, we explore an efficient repetitive design in our image guided network to gradually and sufficiently recover depth values. Specifically, the efficient repetition is embodied in both the image guidance branch and depth generation branch. In the former branch, we design a dense repetitive hourglass network to extract discriminative image features of complex environments, which can provide powerful contextual instruction for depth prediction. In the latter branch, we introduce a repetitive guidance module based on dynamic convolution, in which an efficient convolution factorization is proposed to reduce the complexity while modeling high-frequency structures progressively. Extensive experiments indicate that our approach achieves superior or competitive results on KITTI, VKITTI, NYUv2, 3D60, and Matterport3D datasets.
翻訳日:2023-09-18 11:37:13 公開日:2023-09-15
# 移植可能なグラフニューラルフィンガープリントモデルによる次世代バイオサートへのクイックレスポンス

Transferable Graph Neural Fingerprint Models for Quick Response to Future Bio-Threats ( http://arxiv.org/abs/2308.01921v3 )

ライセンス: Link先を確認
Wei Chen, Yihui Ren, Ai Kagawa, Matthew R. Carbone, Samuel Yen-Chi Chen, Xiaohui Qu, Shinjae Yoo, Austin Clyde, Arvind Ramanathan, Rick L. Stevens, Hubertus J. J. van Dam, Deyu Lu(参考訳) リガンド結合親和性に基づく薬物分子の高速スクリーニングは、創薬パイプラインにおいて重要なステップである。 グラフニューラルフィンガープリントは高いスループットと高い忠実度を持つ分子ドッキングサロゲートの開発に有望な方法である。 本研究では、23種類のタンパク質を標的とした約30万種類の薬物候補のドッキングデータセットを構築した。 このデータセットを用いて、高スループットの仮想COVID-19薬物スクリーニングのためのグラフニューラルフィンガードッキングモデルを訓練した。 グラフニューラルフィンガープリントモデルは、ドッキング対象のほとんどにおいて平均2乗誤差が0.21$ kcal/mol未満のドッキングスコアにおいて高い予測精度を示し、従来の円形指紋法よりも大幅に改善した。 未知のターゲットに対して神経指紋を転送可能にするために,複数のターゲットに対してトレーニングしたグラフ神経指紋法を提案する。 ターゲット固有のグラフニューラルフィンガープリントモデルと同等の精度で、転送可能なモデルは、スーパーブトレーニングとデータ効率を示す。 今回の研究は、新型コロナウイルス(covid-19)データセット以外にも影響が及んでいることを強調する。高速仮想リガンドスクリーニングのアプローチは、将来的なバイオ脅威と戦うために、一般的な機械学習アクセラレーションパイプラインに容易に適応し、統合することが可能です。

Fast screening of drug molecules based on the ligand binding affinity is an important step in the drug discovery pipeline. Graph neural fingerprint is a promising method for developing molecular docking surrogates with high throughput and great fidelity. In this study, we built a COVID-19 drug docking dataset of about 300,000 drug candidates on 23 coronavirus protein targets. With this dataset, we trained graph neural fingerprint docking models for high-throughput virtual COVID-19 drug screening. The graph neural fingerprint models yield high prediction accuracy on docking scores with the mean squared error lower than $0.21$ kcal/mol for most of the docking targets, showing significant improvement over conventional circular fingerprint methods. To make the neural fingerprints transferable for unknown targets, we also propose a transferable graph neural fingerprint method trained on multiple targets. With comparable accuracy to target-specific graph neural fingerprint models, the transferable model exhibits superb training and data efficiency. We highlight that the impact of this study extends beyond COVID-19 dataset, as our approach for fast virtual ligand screening can be easily adapted and integrated into a general machine learning-accelerated pipeline to battle future bio-threats.
翻訳日:2023-09-18 11:36:55 公開日:2023-09-15
# ハミルトン力学の高階量子変換

Higher-order quantum transformations of Hamiltonian dynamics ( http://arxiv.org/abs/2303.09788v4 )

ライセンス: Link先を確認
Tatsuki Odake, Hl\'er Kristj\'ansson, Akihito Soeda, Mio Murao(参考訳) 我々は,ハミルトニアンダイナミクスの高次変換を実現する量子アルゴリズムを提案する。 すなわち、アルゴリズムは有限個のクエリをブラックボックスシードハミルトン力学に入力し、所望のハミルトン力学をシミュレートする。 本アルゴリズムは,制御されたパウリゲートと時間相関ランダム性のみを用いて,システムサイズの項の多項式数からなるシードハミルトニアンの線形変換を効率的にシミュレートする。 このアルゴリズムは量子関数プログラミングの例であり、所望の関数は高階量子変換の連結として指定される。 例えば、負の時間進化と時間反転のシミュレーションを実演し、ハミルトン学習タスクを実行する。

We present a quantum algorithm to achieve higher-order transformations of Hamiltonian dynamics. Namely, the algorithm takes as input a finite number of queries to a black-box seed Hamiltonian dynamics to simulate a desired Hamiltonian. Our algorithm efficiently simulates linear transformations of any seed Hamiltonian consisting of a polynomial number of terms in system size, making use of only controlled-Pauli gates and time-correlated randomness. This algorithm is an instance of quantum functional programming, where the desired function is specified as a concatenation of higher-order quantum transformations. By way of example, we demonstrate the simulation of negative time-evolution and time-reversal, and perform a Hamiltonian learning task.
翻訳日:2023-09-18 11:36:33 公開日:2023-09-15
# BAFFLE:オフライン強化学習におけるバックドア攻撃

BAFFLE: Backdoor Attack in Offline Reinforcement Learning ( http://arxiv.org/abs/2210.04688v3 )

ライセンス: Link先を確認
Chen Gong, Zhou Yang, Yunpeng Bai, Junda He, Jieke Shi, Kecen Li, Arunesh Sinha, Bowen Xu, Xinwen Hou, David Lo, Tianhao Wang(参考訳) 環境との相互作用中に収集された試行錯誤経験からエージェントが学ぶことができる強化学習(Reinforcement Learning, RL)手法に注目が集まっている。 近年、オフラインRLは環境との相互作用を省くため、人気のあるRLパラダイムとなっている。 オフラインのRLでは、データプロバイダは大規模なプレコンパイルデータセットを共有し、他のプロバイダは環境と対話することなく高品質なエージェントをトレーニングできる。 このパラダイムは、ロボット制御や自律運転など、重要なタスクにおいて有効性を示している。 しかし、オフラインのRLシステムに対するセキュリティ脅威の調査には注意が払われていない。 本稿ではバックドア攻撃(バックドアアタック)に焦点をあて、通常の観測では、エージェントが高反発作用をとり、トリガーによって注入された観察に対する低反発作用を観測データ(観測)に追加する。 本稿では,オフラインrlデータセットを汚染することにより,バックドアをrlエージェントに自動的に埋め込む手法であるbaffle(backdoor attack for offline reinforcement learning)を提案し,異なるオフラインrlアルゴリズムがこの攻撃に対してどのように反応するかを評価する。 4つのタスクと4つのオフラインRLアルゴリズムで実施した実験では,既存のオフラインRLアルゴリズムはいずれも,そのようなバックドア攻撃に対して無害である,という不合理な事実が明らかになった。 Baffleは4つのタスクのデータセットの10\%$を変更する。 有毒データセットでトレーニングされたエージェントは、通常の設定でうまく動作します。 しかし、トリガーが提示されると、エージェントのパフォーマンスは、平均して63.2\%$、53.9\%$、64.7\%$、47.4\%$で劇的に低下する。 バックドアは、清潔なデータセットに汚染物質を微調整した後も継続する。 また,一般的な防御手法では挿入バックドアの検出が困難であることを示す。 本稿では,オープンソースオフラインRLデータセットのより効果的な保護開発に注目する。

A growing body of research has focused on the Reinforcement Learning (RL) methods which allow the agent to learn from trial-and-error experiences gathered during the interaction with the environment. Recently, offline RL becomes a popular RL paradigm because it saves the interactions with environments. In offline RL, data providers share large pre-collected datasets, and others can train high-quality agents without interacting with the environments. This paradigm has demonstrated effectiveness in critical tasks like robot control, autonomous driving, etc. However, less attention is paid to investigating the security threats to the offline RL system. This paper focuses on backdoor attacks, where some perturbations are added to the data (observations) such that given normal observations, the agent takes high-rewards actions, and low-reward actions on observations injected with triggers. In this paper, we propose Baffle (Backdoor Attack for Offline Reinforcement Learning), an approach that automatically implants backdoors to RL agents by poisoning the offline RL dataset, and evaluate how different offline RL algorithms react to this attack. Our experiments conducted on four tasks and four offline RL algorithms expose a disquieting fact: none of the existing offline RL algorithms is immune to such a backdoor attack. Baffle modifies $10\%$ of the datasets for four tasks. Agents trained on the poisoned datasets perform well in normal settings. However, when triggers are presented, the agents' performance decreases drastically by $63.2\%$, $53.9\%$, $64.7\%$, and $47.4\%$ in the four tasks on average. The backdoor still persists after fine-tuning poisoned agents on clean datasets. We further show that the inserted backdoor is also hard to be detected by a popular defensive method. This paper calls attention to developing more effective protection for the open-source offline RL dataset.
翻訳日:2023-09-18 11:36:21 公開日:2023-09-15
# 変圧器を用いた大語彙3次元拡散モデル

Large-Vocabulary 3D Diffusion Model with Transformer ( http://arxiv.org/abs/2309.07920v2 )

ライセンス: Link先を確認
Ziang Cao, Fangzhou Hong, Tong Wu, Liang Pan, Ziwei Liu(参考訳) 自動生成モデルによる多種多様な高品質な3Dアセットの作成が望ましい。 3d生成への多大な努力にもかかわらず、既存の作品の多くは単一のカテゴリやいくつかのカテゴリの生成に焦点を当てている。 本稿では,実世界の3dオブジェクトの膨大なカテゴリを単一の生成モデルで合成するための拡散型フィードフォワードフレームワークを提案する。 特に、この大語彙の3D世代には3つの大きな課題がある。 a) 表現的かつ効率的な3d表現の必要性 b) 分類における幾何学及びテクスチャの大きな多様性 c) 現実世界のオブジェクトの出現の複雑さ。 そこで,本稿では,トランスフォーマー difftf を用いた三面体に基づく3次元拡散モデルを提案する。 1) 効率とロバスト性を考慮して, 修正三平面表現を採用し, 適合速度と精度を向上させる。 2) 形状やテクスチャの劇的な変化に対処するため, 汎用的な3D知識と専門的な3D特徴を組み合わせた3Dオブジェクトの特徴を考察する。 多様なカテゴリから一般化した3d知識を抽出するため,多面的注意を共有できる新しい3d認識トランスを提案する。 異なる平面にまたがる平面間の関係を学習し、特殊な3D特徴を持つ一般化された3D知識を集約する。 3)3次元認識型エンコーダ/デコーダを考案し,複雑な外観を持つカテゴリを扱うための符号化三葉機における一般化された3次元知識を強化する。 ShapeNetとOmniObject3D(200以上の多様な実世界のカテゴリ)の広範囲にわたる実験は、単一のDiffTFモデルが、大きな多様性、豊富なセマンティクス、高品質で最先端の3Dオブジェクト生成性能を達成することを説得力強く証明している。

Creating diverse and high-quality 3D assets with an automatic generative model is highly desirable. Despite extensive efforts on 3D generation, most existing works focus on the generation of a single category or a few categories. In this paper, we introduce a diffusion-based feed-forward framework for synthesizing massive categories of real-world 3D objects with a single generative model. Notably, there are three major challenges for this large-vocabulary 3D generation: a) the need for expressive yet efficient 3D representation; b) large diversity in geometry and texture across categories; c) complexity in the appearances of real-world objects. To this end, we propose a novel triplane-based 3D-aware Diffusion model with TransFormer, DiffTF, for handling challenges via three aspects. 1) Considering efficiency and robustness, we adopt a revised triplane representation and improve the fitting speed and accuracy. 2) To handle the drastic variations in geometry and texture, we regard the features of all 3D objects as a combination of generalized 3D knowledge and specialized 3D features. To extract generalized 3D knowledge from diverse categories, we propose a novel 3D-aware transformer with shared cross-plane attention. It learns the cross-plane relations across different planes and aggregates the generalized 3D knowledge with specialized 3D features. 3) In addition, we devise the 3D-aware encoder/decoder to enhance the generalized 3D knowledge in the encoded triplanes for handling categories with complex appearances. Extensive experiments on ShapeNet and OmniObject3D (over 200 diverse real-world categories) convincingly demonstrate that a single DiffTF model achieves state-of-the-art large-vocabulary 3D object generation performance with large diversity, rich semantics, and high quality.
翻訳日:2023-09-18 11:31:24 公開日:2023-09-15
# 量子ans\"atzeで不毛高原を特徴づけるアジョイント

The Adjoint Is All You Need: Characterizing Barren Plateaus in Quantum Ans\"atze ( http://arxiv.org/abs/2309.07902v2 )

ライセンス: Link先を確認
Enrico Fontana, Dylan Herman, Shouvanik Chakrabarti, Niraj Kumar, Romina Yalovetzky, Jamie Heredge, Shree Hari Sureshbabu, and Marco Pistoia(参考訳) コンパクトリー群の表現論の道具を用いて、その動的リー代数(DLA)に含まれる可観測性を持つパラメータ化量子回路に対するバレンプラトー理論(BPs)を定式化する。 ハミルトン変分アンサッツ、量子交互作用素アンサツ、多くの等価量子ニューラルネットワークなど、広く使われるアンサアツの多種多様な種類はラザである。 特に、我々の理論は、量子回路の非自明で部分空間の制御不能な族である量子化合物 ans\atze に対するコスト関数の勾配の分散を計算する能力を初めて提供する。 我々は,コスト関数の勾配のばらつきをHaar初期化の下では,既存の数値観測と一致するDLAの次元と逆スケールすることを示した。 最後に、DLAの外にある観測可能なケースを扱うための潜在的な拡張と、その結果の影響について述べる。

Using tools from the representation theory of compact Lie groups, we formulate a theory of Barren Plateaus (BPs) for parameterized quantum circuits whose observables lie in their dynamical Lie algebra (DLA), a setting that we term Lie algebra Supported Ansatz (LASA). A large variety of commonly used ans\"atze such as the Hamiltonian Variational Ansatz, Quantum Alternating Operator Ansatz, and many equivariant quantum neural networks are LASAs. In particular, our theory provides for the first time the ability to compute the variance of the gradient of the cost function for a non-trivial, subspace uncontrollable family of quantum circuits, the quantum compound ans\"atze. We rigorously prove that the variance of the gradient of the cost function, under Haar initialization, scales inversely with the dimension of the DLA, which agrees with existing numerical observations. Lastly, we include potential extensions for handling cases when the observable lies outside of the DLA and the implications of our results.
翻訳日:2023-09-18 11:30:59 公開日:2023-09-15
# 大規模言語モデルに基づくエージェントの台頭と可能性:調査

The Rise and Potential of Large Language Model Based Agents: A Survey ( http://arxiv.org/abs/2309.07864v2 )

ライセンス: Link先を確認
Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huang, Tao Gui(参考訳) 人類は長い間、人間のレベルに匹敵する人工知能(AI)を追求してきた。 AIエージェントは、環境を感知し、意思決定し、行動を取る人工エンティティである。 20世紀中頃から、インテリジェントAIエージェントの開発に多くの努力がなされている。 しかし、これらの取り組みは主に特定のタスクにおける特定の能力やパフォーマンスを強化するアルゴリズムや訓練戦略の進歩に焦点を当てている。 実際、コミュニティに欠けているのは、多様なシナリオに適応可能なAIエージェントを設計するための出発点となる、十分に汎用的で強力なモデルである。 彼らが示した多彩で目覚ましい能力のため、大きな言語モデル(LLM)は人工知能(AGI)の潜在的な火花と見なされ、汎用AIエージェントの構築を期待している。 多くの研究努力は、LLMをAIエージェント構築の基礎として活用し、大きな進歩を遂げた。 まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがAIエージェントに適した基盤である理由を説明します。 これに基づいて,脳,知覚,行動の3つの主要構成要素からなるLCMエージェントの概念的フレームワークを提案する。 その後、単一エージェントシナリオ、マルチエージェントシナリオ、ヒューマンエージェント協調の3つの側面において、LLMベースのエージェントの広範な応用について検討する。 その後、エージェント・ソサエティを掘り下げ、llmベースのエージェントの行動と個性、彼らが社会を形成した時に生じる社会現象、そして彼らが人間社会に与える洞察を探求する。 最後に、この分野における重要なトピックとオープンな問題について論じる。

For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.
翻訳日:2023-09-18 11:30:38 公開日:2023-09-15
# CATfOOD: 外部性能と校正のための対実的強化トレーニング

CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration ( http://arxiv.org/abs/2309.07822v2 )

ライセンス: Link先を確認
Rachneet Sachdeva, Martin Tutek, Iryna Gurevych(参考訳) 近年,大規模言語モデル (LLM) は,特にプロンプトに条件付けされたテキストの生成において,特に顕著な能力を示した。 本研究では,小言語モデルの学習データ(SLM)を,自動生成した逆ファクト~(CF)インスタンス(最小限の変更された入力)で拡張し,抽出された質問応答〜(QA)設定におけるSLMのアウト・オブ・ドメイン〜(OOD)性能を改善するために,LLMを用いて検討する。 各種LLM発電機において,データ拡張はOOD性能を継続的に向上し,信頼性に基づくモデルと合理的なキャリブレータモデルのキャリブレーションを改善する。 さらに,これらの性能改善は,CFインスタンスの表面形状や意味内容の多様性と相関する。 最後に, キャリブレーションが容易なCF拡張モデルは, 重要度を割り当てる際のエントロピーがはるかに低いことを示し, 合理的拡張キャリブレータは簡潔な説明を好むことを示す。

In recent years, large language models (LLMs) have shown remarkable capabilities at scale, particularly at generating text conditioned on a prompt. In our work, we investigate the use of LLMs to augment training data of small language models~(SLMs) with automatically generated counterfactual~(CF) instances -- i.e. minimally altered inputs -- in order to improve out-of-domain~(OOD) performance of SLMs in the extractive question answering~(QA) setup. We show that, across various LLM generators, such data augmentation consistently enhances OOD performance and improves model calibration for both confidence-based and rationale-augmented calibrator models. Furthermore, these performance improvements correlate with higher diversity of CF instances in terms of their surface form and semantic content. Finally, we show that CF augmented models which are easier to calibrate also exhibit much lower entropy when assigning importance, indicating that rationale-augmented calibrators prefer concise explanations.
翻訳日:2023-09-18 11:30:08 公開日:2023-09-15
# 6dof物体ポーズ追跡のより包括的評価のために

For A More Comprehensive Evaluation of 6DoF Object Pose Tracking ( http://arxiv.org/abs/2309.07796v2 )

ライセンス: Link先を確認
Yang Li, Fan Zhong, Xin Wang, Shuangbing Song, Jiachen Li, Xueying Qin and Changhe Tu(参考訳) 6DoFオブジェクトのポーズトラッキングに関する以前の評価では、この領域の開発とともに明らかな限界が示されている。 特に、評価プロトコルは異なるメソッドに対して統一されておらず、広く使われているYCBVデータセットには重要なアノテーションエラーが含まれており、エラーメトリクスにもバイアスがある可能性がある。 その結果、新しいアルゴリズムを開発する上で大きな障害となっている手法を適切に比較することは困難である。 本稿では,上記の問題に対処するための統一ベンチマークを提案する。 ycbvのより正確なアノテーションのために、全てのオブジェクトのポーズを洗練し、カメラを視認し、ピクセル以下のサブミリ波アライメントエラーを生じさせるマルチビューマルチオブジェクト・グローバルポーズリファインメント法を提案する。 従来のスコアリング手法と誤差指標の限界を分析し,改良された評価手法を紹介する。 統一されたベンチマークでは、YCBVとBCOTの両方をベースデータセットとしており、シーンカテゴリで補完的であることが示されている。 実験では,提案手法の精度と信頼性を,特にycbvのための現実的な半合成データセットを用いて検証し,そのベンチマーク結果を用いて学習非学習法とrgb&rgbd法を統一した。

Previous evaluations on 6DoF object pose tracking have presented obvious limitations along with the development of this area. In particular, the evaluation protocols are not unified for different methods, the widely-used YCBV dataset contains significant annotation error, and the error metrics also may be biased. As a result, it is hard to fairly compare the methods, which has became a big obstacle for developing new algorithms. In this paper we contribute a unified benchmark to address the above problems. For more accurate annotation of YCBV, we propose a multi-view multi-object global pose refinement method, which can jointly refine the poses of all objects and view cameras, resulting in sub-pixel sub-millimeter alignment errors. The limitations of previous scoring methods and error metrics are analyzed, based on which we introduce our improved evaluation methods. The unified benchmark takes both YCBV and BCOT as base datasets, which are shown to be complementary in scene categories. In experiments, we validate the precision and reliability of the proposed global pose refinement method with a realistic semi-synthesized dataset particularly for YCBV, and then present the benchmark results unifying learning&non-learning and RGB&RGBD methods, with some finds not discovered in previous studies.
翻訳日:2023-09-18 11:29:48 公開日:2023-09-15
# Virchow:100万ドルのデジタル病理モデル

Virchow: A Million-Slide Digital Pathology Foundation Model ( http://arxiv.org/abs/2309.07778v2 )

ライセンス: Link先を確認
Eugene Vorontsov, Alican Bozkurt, Adam Casson, George Shaikovski, Michal Zelechowski, Siqi Liu, Philippe Mathieu, Alexander van Eck, Donghun Lee, Julian Viret, Eric Robert, Yi Kan Wang, Jeremy D. Kunz, Matthew C. H. Lee, Jan Bernhard, Ran A. Godrich, Gerard Oakley, Ewan Millar, Matthew Hanna, Juan Retamero, William A. Moye, Razik Yousfi, Christopher Kanan, David Klimstra, Brandon Rothrock, Thomas J. Fuchs(参考訳) 計算病理学は人工知能を使用して、スライド画像全体の分析を通じて精密医療と意思決定支援システムを可能にする。 がんの診断と治療に革命をもたらす可能性がある。 しかし、この目的に対する大きな課題は、多くの特定の計算病理タスクにおいて、データの量は開発に不十分であることである。 この課題に対処するため、計算病理学のための6億2200万のパラメータディープニューラルネットワーク基盤モデルであるVirchowを開発した。 virchowは自己教師付き学習を用いて150万ヘマトキシリンとエオシンを訓練し、様々な組織群からスライド画像全体を染色した。 タイルレベルのパンカンサー検出やサブタイピング、スライドレベルのバイオマーカー予測などの下流タスクで評価されると、Virchowは、トレーニング済みデータと同じ人口から引き出された内部データセットと、外部の公開データセットの両方で、最先端のシステムよりも優れている。 Virchowは膵管タイル分類では93%の精度で,大腸微小静脈不安定症では0.983,乳癌では0.967であった。 パフォーマンスの向上は、大量の病理画像データセットの事前トレーニングの重要性を強調しており、さらに大きなデータセットの事前トレーニングは、薬物結果予測などの限られたトレーニングデータが利用できる多くの高インパクトアプリケーションの性能向上を継続する可能性があることを示唆している。

Computational pathology uses artificial intelligence to enable precision medicine and decision support systems through the analysis of whole slide images. It has the potential to revolutionize the diagnosis and treatment of cancer. However, a major challenge to this objective is that for many specific computational pathology tasks the amount of data is inadequate for development. To address this challenge, we created Virchow, a 632 million parameter deep neural network foundation model for computational pathology. Using self-supervised learning, Virchow is trained on 1.5 million hematoxylin and eosin stained whole slide images from diverse tissue groups, which is orders of magnitude more data than previous works. When evaluated on downstream tasks including tile-level pan-cancer detection and subtyping and slide-level biomarker prediction, Virchow outperforms state-of-the-art systems both on internal datasets drawn from the same population as the pretraining data as well as external public datasets. Virchow achieves 93% balanced accuracy for pancancer tile classification, and AUCs of 0.983 for colon microsatellite instability status prediction and 0.967 for breast CDH1 status prediction. The gains in performance highlight the importance of pretraining on massive pathology image datasets, suggesting pretraining on even larger datasets could continue improving performance for many high-impact applications where limited amounts of training data are available, such as drug outcome prediction.
翻訳日:2023-09-18 11:29:26 公開日:2023-09-15
# モバイルシリアスゲームにおけるヒューマノイド・エンボディード・会話エージェント : ユーザビリティアセスメント

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment ( http://arxiv.org/abs/2309.07773v2 )

ライセンス: Link先を確認
Danai Korre and Judy Robertson(参考訳) 本稿では,モバイル・シリアス・ゲーム(msg)アプリケーションにおいて,ヒューマノイド・エンボディド・会話エージェント(hecas)がどの程度ユーザビリティを高めるかに関する実証研究を行う。 この研究の目的は、複数のエージェントの影響と人間の錯覚が相互作用の質に与える影響を評価することである。 実験では, ハイヒューマンライクネス(HECA)エージェントと低ヒューマンライクネス(テキスト)エージェントの2種類のエージェント提示方法を検討した。 実験の目的は、高い人間に近いエージェントが人間の錯覚を誘発し、ユーザビリティに影響を与えるかどうかを評価することである。 高い人間的なエージェントはECA開発のためのガイドラインであるECA設計モデルに従って設計されている。 90人の被験者による実験の結果,ユーザがHECAと対話する傾向が示された。 この2つのバージョンの違いは統計的に有意であり、大きな効果サイズ(d=1.01)であり、多くの参加者はHECAの人間的な特性がより魅力的であるとして、彼らの選択を正当化した。 本研究は、HECAが真剣ゲームに与える影響について重要な情報を提供し、将来のモバイル真剣ゲームの設計に関する洞察を提供する。

This paper presents an empirical investigation of the extent to which spoken Humanoid Embodied Conversational Agents (HECAs) can foster usability in mobile serious game (MSG) applications. The aim of the research is to assess the impact of multiple agents and illusion of humanness on the quality of the interaction. The experiment investigates two styles of agent presentation: an agent of high human-likeness (HECA) and an agent of low human-likeness (text). The purpose of the experiment is to assess whether and how agents of high humanlikeness can evoke the illusion of humanness and affect usability. Agents of high human-likeness were designed by following the ECA design model that is a proposed guide for ECA development. The results of the experiment with 90 participants show that users prefer to interact with the HECAs. The difference between the two versions is statistically significant with a large effect size (d=1.01), with many of the participants justifying their choice by saying that the human-like characteristics of the HECA made the version more appealing. This research provides key information on the potential effect of HECAs on serious games, which can provide insight into the design of future mobile serious games.
翻訳日:2023-09-18 11:28:58 公開日:2023-09-15
# facebook上の偽情報のecho-chambers

Disinformation Echo-chambers on Facebook ( http://arxiv.org/abs/2309.07745v2 )

ライセンス: Link先を確認
Mathias-Felipe de-Lima-Santos and Wilson Ceron(参考訳) 情報のランドスケープは、インターネットの急速な拡大とオンラインソーシャルネットワークの出現によって、大きな変革を経験した。 当初、これらのプラットフォームが活発な参加と多様なコミュニケーションの文化を促進するという楽観主義があった。 しかし、近年の出来事は、ソーシャルメディアプラットフォームによるネガティブな影響を浮き彫りにして、ユーザーが既存の信念に沿ったコンテンツにのみ露出するエコーチャンバーの作成につながった。 さらに、悪意のある個人はこれらのプラットフォームを利用して人々を欺き、民主的なプロセスを損なう。 この章では、これらの現象をより深く理解するために、Facebookグループ内の協調的不正確な振る舞いを特定するための計算手法を紹介する。 この方法は、投稿、URL、画像の分析に焦点を当て、一部のFacebookグループが組織されたキャンペーンに従事していることを明らかにした。 これらのグループは同時に同一のコンテンツを共有しており、ユーザーが嘘や誤解を招く物語を繰り返し遭遇することを露呈し、事実上「偽情報エコー室」を形成している。 この章は、これらの発見の理論的および実証的な意味を議論することで締めくくられる。

The landscape of information has experienced significant transformations with the rapid expansion of the internet and the emergence of online social networks. Initially, there was optimism that these platforms would encourage a culture of active participation and diverse communication. However, recent events have brought to light the negative effects of social media platforms, leading to the creation of echo chambers, where users are exposed only to content that aligns with their existing beliefs. Furthermore, malicious individuals exploit these platforms to deceive people and undermine democratic processes. To gain a deeper understanding of these phenomena, this chapter introduces a computational method designed to identify coordinated inauthentic behavior within Facebook groups. The method focuses on analyzing posts, URLs, and images, revealing that certain Facebook groups engage in orchestrated campaigns. These groups simultaneously share identical content, which may expose users to repeated encounters with false or misleading narratives, effectively forming "disinformation echo chambers." This chapter concludes by discussing the theoretical and empirical implications of these findings.
翻訳日:2023-09-18 11:28:33 公開日:2023-09-15
# spd行列列のための構造保存トランス

Structure-Preserving Transformers for Sequences of SPD Matrices ( http://arxiv.org/abs/2309.07579v2 )

ライセンス: Link先を確認
Mathieu Seraphim, Alexis Lechervy, Florian Yger, Luc Brun and Olivier Etard(参考訳) 近年,トランスフォーマーをベースとした自動アテンション機構は,テキストから画像まで,非ユークリッド測地データを含む,さまざまなコンテキスト依存データ型の分析に成功している。 本稿では,その解析を通してリーマン幾何学を保存しながら,対称正定値行列の列を分類する機構を提案する。 本手法は,脳波由来の共分散行列を標準データセットからタイムリーに自動睡眠ステージングに応用し,高いステージレベルの性能を得る。

In recent years, Transformer-based auto-attention mechanisms have been successfully applied to the analysis of a variety of context-reliant data types, from texts to images and beyond, including data from non-Euclidean geometries. In this paper, we present such a mechanism, designed to classify sequences of Symmetric Positive Definite matrices while preserving their Riemannian geometry throughout the analysis. We apply our method to automatic sleep staging on timeseries of EEG-derived covariance matrices from a standard dataset, obtaining high levels of stage-wise performance.
翻訳日:2023-09-18 11:28:16 公開日:2023-09-15
# コレクションレス人工知能

Collectionless Artificial Intelligence ( http://arxiv.org/abs/2309.06938v2 )

ライセンス: Link先を確認
Marco Gori and Stefano Melacci(参考訳) 大規模なデータ収集の専門的取り扱いは、機械学習の進展と関連する分野におけるその顕著な成果の基本的な要素であり、そのようなデータ収集の中央集権化に伴うリスクに関する合意がますます高まっている。 本論文は,機械が環境相互作用を中心とした真に人間的な文脈で認知スキルを征服する新たな学習プロトコルを考える上で,その時が来たことを示すものである。 これは、環境から取得したデータは、その環境の現在の内部表現を更新するのに寄与する目的で処理され、エージェントは時間の流れを記録する特権を与えられないという、コレクションレス原則に従って学習プロトコルに特有の制限を伴っている。 基本的には、センサーからの時間的情報を格納する許可がないため、オフライン学習アルゴリズムに典型的な学習ダイナミクスをシミュレートするために、ベアストレージに頼るのではなく、より抽象的なレベルで自己組織化された記憶スキルの開発を促進する。 この極端な位置は、人間ベースのスキームに従うことによって情報を動的に整理することを学ぶ機械の開発を刺激することを目的としている。 この課題の提案は、設計によるデータの蓄積を避け、プライバシー問題、制御性、カスタマイズ性により適したフレームワークを提供する、AIテクノロジの真正統な競争軌道への扉を開くかもしれない学習と推論の計算プロセスに関する新しい基盤を開発することを示唆している。 最後に、大規模な分散計算を推し進める中で、AIに対する無数のアプローチは、企業や政府におけるパワーの集中を減らし、地政学的な問題に直面するだろう。

By and large, the professional handling of huge data collections is regarded as a fundamental ingredient of the progress of machine learning and of its spectacular results in related disciplines, with a growing agreement on risks connected to the centralization of such data collections. This paper sustains the position that the time has come for thinking of new learning protocols where machines conquer cognitive skills in a truly human-like context centered on environmental interactions. This comes with specific restrictions on the learning protocol according to the collectionless principle, which states that, at each time instant, data acquired from the environment is processed with the purpose of contributing to update the current internal representation of the environment, and that the agent is not given the privilege of recording the temporal stream. Basically, there is neither permission to store the temporal information coming from the sensors, thus promoting the development of self-organized memorization skills at a more abstract level, instead of relying on bare storage to simulate learning dynamics that are typical of offline learning algorithms. This purposely extreme position is intended to stimulate the development of machines that learn to dynamically organize the information by following human-based schemes. The proposition of this challenge suggests developing new foundations on computational processes of learning and reasoning that might open the doors to a truly orthogonal competitive track on AI technologies that avoid data accumulation by design, thus offering a framework which is better suited concerning privacy issues, control and customizability. Finally, pushing towards massively distributed computation, the collectionless approach to AI will likely reduce the concentration of power in companies and governments, thus better facing geopolitical issues.
翻訳日:2023-09-18 11:28:06 公開日:2023-09-15