このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240126となっている論文です。

PDF登録状況(公開日: 20240126)

TitleAuthorsAbstract論文公表日・翻訳日
# ソフト時間電位ステップにおける電子散乱

Electron Scattering at a Soft Temporal Potential Step ( http://arxiv.org/abs/2403.12972v1 )

ライセンス: Link先を確認
Furkan Ok, Christophe Caloz, (参考訳) ソフトな時間ポテンシャルステップで電子散乱の問題を解く。 この問題の相対論的性質を考えると、ディラック方程式とそのスピノル波動関数を用いる。 急速(ヘビサイド)時間ポテンシャルステップで報告された後波および後波電子散乱の観測現象を実験的に取得し,新しい電子機器に適用できることを実証した。

We solve the problem of electron scattering at a soft temporal potential step. Given the relativistic nature of the problem, we use the Dirac equation, with its spinor wavefunction. We find solutions in terms of hypergeometric functions, which demonstrate that the observed phenomenon of later forward-wave and backward-wave electron scattering previously reported for a sharp (Heaviside) temporal potential step can be obtained experimentally and applied to new electronic devices.
翻訳日:2024-03-25 07:27:10 公開日:2024-01-26
# 脆弱性MS17-010に基づく脆弱性ノードの作成

Creating a vulnerable node based on the vulnerability MS17-010 ( http://arxiv.org/abs/2401.14979v1 )

ライセンス: Link先を確認
Aleksey Novokhrestov, Anton Kalyakin, Aleksandr Kovalenko, Vladimir Repkin, (参考訳) 脆弱性のあるノードの作成は、MS17-010(CVE-2017-0144)脆弱性の分析と実装を通じて実証され、様々なWindowsオペレーティングシステム上のSMBv1プロトコルに影響を与える。 脆弱性を悪用する原理と方法論を,メタアタック言語(MAL)グラフという形で,エクスプロイトの形式化された表現を用いて記述する。 さらに、攻撃者の実装はMetasploit Frameworkを使用してPythonで自動スクリプトを実行するものとして概説されている。 SMBv1プロトコルを利用したシステムの基本的なセキュリティ対策が提供される。

The creation of a vulnerable node has been demonstrated through the analysis and implementation of the MS17-010 (CVE-2017-0144) vulnerability, affecting the SMBv1 protocol on various Windows operating systems. The principle and methodology of exploiting the vulnerability are described, with a formalized representation of the exploitation in the form of a Meta Attack Language (MAL) graph. Additionally, the attacker's implementation is outlined as the execution of an automated script in Python using the Metasploit Framework. Basic security measures for systems utilizing the SMBv1 protocol are provided.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-26
# ギガビット光リンクにおける産業用イーサネットの物理層暗号化

Physical Layer Encryption for Industrial Ethernet in Gigabit Optical Links ( http://arxiv.org/abs/2401.15038v1 )

ライセンス: Link先を確認
Adrián Pérez-Resa, Miguel García-Bosque, Carlos Sánchez-Azqueta, Santiago Celma, (参考訳) インダストリアル・イーサネット(Industrial Ethernet)は、工場のフロアや重要なインフラに広く普及する技術であり、大量のデータを収集して輸送する必要がある。 光ファイバーネットワークのギガビットレートは、スピード、システム性能、信頼性が重要な環境によく適合する。 本研究では,このようなネットワークに適した高速光通信のための新しい暗号化手法を提案する。 本方式は,PCS(Physical Coding Sublayer)レベルでの8b/10bデータフローの対称ストリーミング暗号化により構成する。 CTR(Counter)モードで動作するFPE(Format Preserving Encryption)ブロック暗号によって実行される。 システム全体のシミュレーションと実装はFPGA(Field Programmable Gate Array)で行われている。 実験結果により、この物理レベルでのトラフィックをセキュアに暗号化することが可能であると結論付けることができる。 さらに、暗号化中にオーバーヘッドが発生しず、最小レイテンシと最大スループットが得られる。

Industrial Ethernet is a technology widely spread in factory floors and critical infrastructures where a high amount of data need to be collected and transported. Fiber optic networks at gigabit rates fit well with that type of environments where speed, system performance and reliability are critical. In this work a new encryption method for high speed optical communications suitable for such kind of networks is proposed. This new encryption method consists of a symmetric streaming encryption of the 8b/10b data flow at PCS (Physical Coding Sublayer) level. It is carried out thanks to an FPE (Format Preserving Encryption) blockcipher working in CTR (Counter) mode. The overall system has been simulated and implemented in an FPGA (Field Programmable Gate Array). Thanks to experimental results it can be concluded that it is possible to cipher traffic at this physical level in a secure way. In addition, no overhead is introduced during encryption, getting minimum latency and maximum throughput.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-26
# 産業制御システムにおける光イーサネットへのカオス暗号の適用

Chaotic Encryption Applied to Optical Ethernet in Industrial Control Systems ( http://arxiv.org/abs/2401.15039v1 )

ライセンス: Link先を確認
Adrián Pérez-Resa, Miguel Garcia-Bosque, Carlos Sánchez-Azqueta, Santiago Celma, (参考訳) 過去数十年間、イーサネットは産業用制御システムや分散計測システムで伝統的に使われているフィールドバスの代替技術となっている。 イーサネット規格における様々な伝送媒体の中で、光ファイバーは最高の帯域幅を提供し、電磁波干渉に対する免疫性が良く、他の有線媒体よりも信号損失が少ない。 光イーサネットリンクの物理層にセキュリティを提供する標準が存在しないため、本論文の主な動機は、イーサネット1000Base-X規格に暗号化を導入するために必要な変更を提案し、実装することである。 これは、カオスアルゴリズムに基づくキーストリームジェネレータのおかげで、8b10bシンボルが物理符号化サブ層レベルで流れる対称的なストリーミング暗号化で構成されている。 システム全体の実装とテストはフィールドプログラマブルゲートアレイで行われ、イーサネットのトラフィックは暗号化され、光リンクを介して送信される。 実験結果から,このレベルでのトラフィックを暗号化し,受動的盗聴者から完全なイーサネットトラフィックパターンを隠蔽することが可能であることが示唆された。 さらに、暗号化中にデータフレームに空間オーバーヘッドは導入されず、最大スループットが達成される。

In the past decades, Ethernet has become an alternative technology for the field buses traditionally used in industrial control systems and distributed measurement systems. Among different transmission media in Ethernet standards, optical fiber provides the best bandwidth, excellent immunity to electromagnetic interference, and less signal loses than other wired media. Due to the absence of a standard that provides security at the physical layer of optical Ethernet links, the main motivation of this paper is to propose and implement the necessary modifications to introduce encryption in Ethernet 1000Base-X standard. This has consisted of symmetric streaming encryption of the 8b10b symbols flow at physical coding sublayer level, thanks to a keystream generator based on chaotic algorithm. The overall system has been implemented and tested in an field programmable gate array and Ethernet traffic has been encrypted and transmitted over an optical link. The experimental results show that it is possible to cipher traffic at this level and hide the complete Ethernet traffic pattern from passive eavesdroppers. In addition, no space overhead is introduced in data frames during encryption, achieving the maximum throughput.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-26
# 計算境界付きロバストコンパイルとユニバーサル構成可能なセキュリティ

Computationally Bounded Robust Compilation and Universally Composable Security ( http://arxiv.org/abs/2401.15041v1 )

ライセンス: Link先を確認
Robert Künnemann, Marco Patrignani, Ethan Cecchetti, (参考訳) ユニバーサル・コンポータビリティ(UC)は暗号セキュリティの金の標準であるが、UCの機械化は極めて難しい。 UCとRobust Compilation (RC)$\unicode{x2014}$a novel theory of secure compilation$\unicode{x2014}$provides a means to confirmed UC proofs using tools that mechanizing equality results。 残念ながら、既存の手法は完全なUCセキュリティにのみ適用され、暗号に依存する現実世界のプロトコルは計算的にのみ安全である。 本稿では,UC と RC の接続を計算環境に引き上げることにより,このギャップに対処する。 さらに、UC$\unicode{x2013}$RC接続は計算セキュリティを超えて任意の等式に一般化され、既存の完全ケースを仮定し、より複雑なセキュリティ概念で将来の理論をインスタンス化するためのフレームワークを提供する。 この接続により、コンピュータのUCセキュリティの証明を適切に機械化するための計算不可能性の証明のためのツールを使用することができる。 我々は、CryptoVerifを使用して、Wireguardプロトコルの一部がコンピュータでセキュアであることを示す。 最後に、フレームワーク自体のすべての証明は、Isabelle/HOLで検証される。

Universal Composability (UC) is the gold standard for cryptographic security, but mechanizing proofs of UC is notoriously difficult. A recently-discovered connection between UC and Robust Compilation (RC)$\unicode{x2014}$a novel theory of secure compilation$\unicode{x2014}$provides a means to verify UC proofs using tools that mechanize equality results. Unfortunately, the existing methods apply only to perfect UC security, and real-world protocols relying on cryptography are only computationally secure. This paper addresses this gap by lifting the connection between UC and RC to the computational setting, extending techniques from the RC setting to apply to computational UC security. Moreover, it further generalizes the UC$\unicode{x2013}$RC connection beyond computational security to arbitrary equalities, providing a framework to subsume the existing perfect case, and to instantiate future theories with more complex notions of security. This connection allows the use of tools for proofs of computational indistinguishability to properly mechanize proofs of computational UC security. We demonstrate this power by using CryptoVerif to mechanize a proof that parts of the Wireguard protocol are computationally UC secure. Finally, all proofs of the framework itself are verified in Isabelle/HOL.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-26
# 10-Gbイーサネット光リンクのカオス暗号化

Chaotic Encryption for 10-Gb Ethernet Optical Links ( http://arxiv.org/abs/2401.15138v1 )

ライセンス: Link先を確認
Adrián Pérez-Resa, Miguel Garcia-Bosque, Carlos Sánchez-Azqueta, Santiago Celma, (参考訳) 本稿では,光10-Gbイーサネットリンクのための物理層暗号法を提案する。 Ethernet 10GBase-R標準の暗号化を導入するために必要な変更が検討されている。 このセキュリティ強化は、カオスアルゴリズムに基づく2つのキーストリームジェネレータのおかげで、64b/66bデータフローを物理符号化サブ層レベルで対称的にストリーミングする暗号化で構成されている。 システム全体の実装とテストはフィールドプログラマブルゲートアレイで行われている。 イーサネットトラフィックは多重モード光リンク上で暗号化、送信、復号化されている。 このレベルでのトラフィックを暗号化し、完全なイーサネットトラフィックパターンを任意の受動的盗聴者から隠すことが可能である、という実験結果が分析された。 さらに、暗号化中にオーバーヘッドは発生せず、スループット全体の損失も発生しない。

In this paper, a new physical layer encryption method for optical 10-Gb Ethernet links is proposed. Necessary modifications to introduce encryption in Ethernet 10GBase-R standard have been considered. This security enhancement has consisted of a symmetric streaming encryption of the 64b/66b data flow at physical coding sublayer level thanks to two keystream generators based on a chaotic algorithm. The overall system has been implemented and tested in a field programmable gate array. Ethernet traffic has been encrypted, transmitted, and decrypted over a multimode optical link. Experimental results are analyzed concluding that it is possible to cipher traffic at this level and hide the complete Ethernet traffic pattern from any passive eavesdropper. In addition, no overhead is introduced during encryption, getting no losses in the total throughput.
翻訳日:2024-03-18 08:07:41 公開日:2024-01-26
# 量子コンピューティングの次のステップの5年

5 Year Update to the Next Steps in Quantum Computing ( http://arxiv.org/abs/2403.08780v1 )

ライセンス: Link先を確認
Kenneth Brown, Fred Chong, Kaitlin N. Smith, Tom Conte, Austin Adams, Aniket Dalvi, Christopher Kang, Josh Viszlai, (参考訳) 量子コンピューティングの次のステップに関するコンピューティングコミュニティコンソーシアム(CCC)ワークショップから5年が経ち、有用な量子アルゴリズムと量子ハードウェアのギャップを埋める大きな進歩を遂げた。 しかし、特にエラーを軽減し、エラー修正マシンに移行するという点では、多くのことを行う必要がある。 ノイズ・中間スケール量子(NISQ)時代からフォールトトレラントマシンの未来へと移行するにつれ、これまで学んだことをどう適用するか、そして量子マシンによる計算上の優位性を実現するためにどんな研究を行う必要があるのかを振り返る機会となりました。

It has been 5 years since the Computing Community Consortium (CCC) Workshop on Next Steps in Quantum Computing, and significant progress has been made in closing the gap between useful quantum algorithms and quantum hardware. Yet much remains to be done, in particular in terms of mitigating errors and moving towards error-corrected machines. As we begin to transition from the Noisy-Intermediate Scale Quantum (NISQ) era to a future of fault-tolerant machines, now is an opportune time to reflect on how to apply what we have learned thus far and what research needs to be done to realize computational advantage with quantum machines.
翻訳日:2024-03-18 05:40:54 公開日:2024-01-26
# AM^2-EmoJE:共同埋め込み学習による会話における適応的欠落モード感情認識

AM^2-EmoJE: Adaptive Missing-Modality Emotion Recognition in Conversation via Joint Embedding Learning ( http://arxiv.org/abs/2402.10921v1 )

ライセンス: Link先を確認
Naresh Kumar Devulapally, Sidharth Anand, Sreyasee Das Bhattacharjee, Junsong Yuan(参考訳) 人間の感情は、音声、ビデオ、テキストなど、さまざまなモードで表現できる。 しかし、各感情の表現における各モードの寄与は均一ではない。 さらに、完全なモード固有の詳細がテスト時間で常に保証されるとは限らない。 本研究では,2次元のコントリビューションを基礎としたAM^2-EmoJEモデルを提案する。まず,モード固有表現の相対的重要性をクエリ固有方法で自動学習するクエリ適応融合を提案する。 このモデルでは、感情パターンのモード不変な空間クエリの詳細を優先すると同時に、学習したマルチモーダルクエリ記述子内でモード排他的な側面も保持する。 第二に、テスト時に様々な欠落したモダリティシナリオを明示的に扱うマルチモーダルジョイント組み込み学習モジュールである。 これにより、交叉したモード固有の記述子を結合埋め込み空間内で一対に整列させ、推論中に欠落したモダリティを補うことができる。 対話レベルでの時空間的詳細を活用することで、AM^2-EmoJEは、最高のパフォーマンスのマルチモーダル手法よりも優れた性能を示すだけでなく、顔表現の代わりにボディ言語を効果的に活用することで、プライバシーの強化も実現している。 重み付きf1スコアの約2~5%の改善を報告することにより、提案するマルチモーダルジョイント埋め込みモジュールは、テスト時間中に様々な欠落したクエリシナリオで印象的なパフォーマンス向上を実現する。

Human emotion can be presented in different modes i.e., audio, video, and text. However, the contribution of each mode in exhibiting each emotion is not uniform. Furthermore, the availability of complete mode-specific details may not always be guaranteed in the test time. In this work, we propose AM^2-EmoJE, a model for Adaptive Missing-Modality Emotion Recognition in Conversation via Joint Embedding Learning model that is grounded on two-fold contributions: First, a query adaptive fusion that can automatically learn the relative importance of its mode-specific representations in a query-specific manner. By this the model aims to prioritize the mode-invariant spatial query details of the emotion patterns, while also retaining its mode-exclusive aspects within the learned multimodal query descriptor. Second the multimodal joint embedding learning module that explicitly addresses various missing modality scenarios in test-time. By this, the model learns to emphasize on the correlated patterns across modalities, which may help align the cross-attended mode-specific descriptors pairwise within a joint-embedding space and thereby compensate for missing modalities during inference. By leveraging the spatio-temporal details at the dialogue level, the proposed AM^2-EmoJE not only demonstrates superior performance compared to the best-performing state-of-the-art multimodal methods, by effectively leveraging body language in place of face expression, it also exhibits an enhanced privacy feature. By reporting around 2-5% improvement in the weighted-F1 score, the proposed multimodal joint embedding module facilitates an impressive performance gain in a variety of missing-modality query scenarios during test time.
翻訳日:2024-02-25 17:01:52 公開日:2024-01-26
# 新しい依存度に基づく円形時系列のファジィクラスタリングと風速データへの応用

Fuzzy clustering of circular time series based on a new dependence measure with applications to wind data ( http://arxiv.org/abs/2402.08687v1 )

ライセンス: Link先を確認
\'Angel L\'opez-Oriona, Ying Sun and Rosa M. Crujeiras(参考訳) 時系列クラスタリングは多くの分野のアプリケーションに必須の機械学習タスクである。 手法の大半は実数直線で値を取る時系列にフォーカスするが、単位円上で定義される時系列を考える研究はほとんどないが、後者のオブジェクトは多くのアプリケーションで頻繁に発生する。 本稿では,循環時系列のクラスタリングの問題に対処する。 この目的のために、円列間の距離を導入し、クラスタリング手順を構築するために使用する。 この計量は円弧を考慮した新しい連続依存尺度に依存しており、系列範囲に固有の方向的特徴を生かしている。 時系列のダイナミクスは時間とともに変化する可能性があるため、ファジィアプローチを採用し、各系列を異なる会員度を持つ複数のクラスタに配置することができる。 結果として得られたクラスタリングアルゴリズムは、類似の確率過程から生成された系列をグループ化し、幅広いモデルからの系列で正確な結果を得ることができる。 シミュレーション実験により,提案手法は計算効率の向上に加えて,いくつかの代替手法より優れていることが示された。 サウジアラビアの風向の時系列に関する2つの興味深い応用は、提案されたアプローチの可能性を強調している。

Time series clustering is an essential machine learning task with applications in many disciplines. While the majority of the methods focus on time series taking values on the real line, very few works consider time series defined on the unit circle, although the latter objects frequently arise in many applications. In this paper, the problem of clustering circular time series is addressed. To this aim, a distance between circular series is introduced and used to construct a clustering procedure. The metric relies on a new measure of serial dependence considering circular arcs, thus taking advantage of the directional character inherent to the series range. Since the dynamics of the series may vary over the time, we adopt a fuzzy approach, which enables the procedure to locate each series into several clusters with different membership degrees. The resulting clustering algorithm is able to group series generated from similar stochastic processes, reaching accurate results with series coming from a broad variety of models. An extensive simulation study shows that the proposed method outperforms several alternative techniques, besides being computationally efficient. Two interesting applications involving time series of wind direction in Saudi Arabia highlight the potential of the proposed approach.
翻訳日:2024-02-18 13:14:07 公開日:2024-01-26
# ウェーブレット注入型多段階不均一ネットワークによるウェアラブルセンサデータの人間の活動認識

Disentangling Imperfect: A Wavelet-Infused Multilevel Heterogeneous Network for Human Activity Recognition in Flawed Wearable Sensor Data ( http://arxiv.org/abs/2402.09434v1 )

ライセンス: Link先を確認
Mengna Liu, Dong Xiang, Xu Cheng, Xiufeng Liu, Dalin Zhang, Shengyong Chen, Christian S. Jensen(参考訳) ウェアラブルデバイスの普及と普及は、ディープラーニングベースのアルゴリズムを活用するセンサベースのヒューマンアクティビティ認識の新しい機会を提供する。 目覚ましい進歩があったが、2つの大きな課題が残っている。 まず、センサの配置やその他の問題やデータ送信の障害により、センサデータが不完全あるいはノイズになる場合が多く、欠落した値のインプテーションが要求され、ノイズも引き起こされる。 第二に、人間の活動は多彩な特徴を持つ。 したがって、異なる集団と同一人物でさえ異なる状況下で異なる行動をとることがある。 これらの課題に対処するため,センサデータ解析のためのマルチレベルヘテロジニアスニューラルネットワークMHNNを提案する。 センサデータからマルチレベル離散ウェーブレット分解法を用いてマルチレゾリューション特徴を抽出する。 これにより、周波数の異なる信号の識別が可能となり、ノイズが抑制される。 分解から生じる成分は不均質であるため,提案モデルにマルチスケール特徴の学習を可能にする不均質特徴抽出器を装備する。 これらの特徴の相補性のため、相互作用を強化するクロスアグリゲーションモジュールも含んでいます。 7つの公開データセットを用いた実験的研究は、MHNNが他の最先端モデルより優れており、欠落した値やノイズに対する堅牢性を示す証拠である。 アブレーション研究は各モジュールの重要性を裏付ける。

The popularity and diffusion of wearable devices provides new opportunities for sensor-based human activity recognition that leverages deep learning-based algorithms. Although impressive advances have been made, two major challenges remain. First, sensor data is often incomplete or noisy due to sensor placement and other issues as well as data transmission failure, calling for imputation of missing values, which also introduces noise. Second, human activity has multi-scale characteristics. Thus, different groups of people and even the same person may behave differently under different circumstances. To address these challenges, we propose a multilevel heterogeneous neural network, called MHNN, for sensor data analysis. We utilize multilevel discrete wavelet decomposition to extract multi-resolution features from sensor data. This enables distinguishing signals with different frequencies, thereby suppressing noise. As the components resulting from the decomposition are heterogeneous, we equip the proposed model with heterogeneous feature extractors that enable the learning of multi-scale features. Due to the complementarity of these features, we also include a cross aggregation module for enhancing their interactions. An experimental study using seven publicly available datasets offers evidence that MHNN can outperform other cutting-edge models and offers evidence of robustness to missing values and noise. An ablation study confirms the importance of each module.
翻訳日:2024-02-18 13:01:45 公開日:2024-01-26
# 家庭短期エネルギー消費予測のための電気行動関連マイニング

Electrical Behavior Association Mining for Household ShortTerm Energy Consumption Forecasting ( http://arxiv.org/abs/2402.09433v1 )

ライセンス: Link先を確認
Heyang Yu, Yuxi Sun, Yintao Liu, Guangchao Geng, Quanyuan Jiang(参考訳) 家庭内短期エネルギー消費予測(STECF)は,家庭内エネルギー管理において極めて重要であるが,個人のランダムな行動のため技術的には困難である。 日頭スケールでstecfの精度を向上させるために,電気行動における連想マイニングを利用した新しいstecf手法を提案する。 まず, 確率的アソシエーションの定量化と発見法を提案し, ペアの挙動アソシエーションをモデル化し, 関連するクラスタを生成する。 次に、畳み込みニューラルネットワークゲートリカレントユニット(CNN-GRU)に基づく予測を行い、時間的相関を探索し、精度を高める。 実験の結果,本手法はSTECFの大幅な向上をもたらすことが示された。

Accurate household short-term energy consumption forecasting (STECF) is crucial for home energy management, but it is technically challenging, due to highly random behaviors of individual residential users. To improve the accuracy of STECF on a day-ahead scale, this paper proposes an novel STECF methodology that leverages association mining in electrical behaviors. First, a probabilistic association quantifying and discovering method is proposed to model the pairwise behaviors association and generate associated clusters. Then, a convolutional neural network-gated recurrent unit (CNN-GRU) based forecasting is provided to explore the temporal correlation and enhance accuracy. The testing results demonstrate that this methodology yields a significant enhancement in the STECF.
翻訳日:2024-02-18 13:01:27 公開日:2024-01-26
# 高精度で信頼性の高いクロステクノロジー通信のためのディープジョイントソースチャネル符号化

Deep Joint Source-Channel Coding for Efficient and Reliable Cross-Technology Communication ( http://arxiv.org/abs/2402.10072v1 )

ライセンス: Link先を確認
Shumin Yao, Xiaodong Xu, Hao Chen, Yaping Sun, and Qinglin Zhao(参考訳) クロステクノロジー通信(CTC)は、ハードウェア修正を必要とせず、非互換な無線技術間の直接通信を可能にする有望な技術である。 しかし、その非効率性と信頼性のため、現実世界のアプリケーションでは広く採用されていない。 そこで本稿では,効率良く信頼性の高いctcを実現するために,djscc(deep joint source-channel coding)方式を提案する。 提案方式は, 送信側と受信側でそれぞれニューラルネットワークベースのエンコーダとデコーダを構築し, 同時に2つの重要なタスクを遂行する。 1) 本質的な意味のみが保存されている点にメッセージを圧縮する。 2)非互換技術間で伝達される意味意味の意味のロバスト性を確保する。 このスキームは、既存のCTC符号化アルゴリズムをドメイン知識として組み込んで、エンコーダとデコーダのペアをガイドし、CTCリンクの特性をよりよく学習する。 さらに、このスキームはエンコーダとデコーダの共有意味知識を構築し、技術横断伝送のために意味意味を非常に少ないビットに変換することで、ctcの効率をさらに向上させる。 広範なシミュレーションにより、提案手法は伝送オーバーヘッドを最大97.63\%削減し、構造的類似度指標を最大734.78%増加させることができることが検証された。

Cross-technology communication (CTC) is a promising technique that enables direct communications among incompatible wireless technologies without needing hardware modification. However, it has not been widely adopted in real-world applications due to its inefficiency and unreliability. To address this issue, this paper proposes a deep joint source-channel coding (DJSCC) scheme to enable efficient and reliable CTC. The proposed scheme builds a neural-network-based encoder and decoder at the sender side and the receiver side, respectively, to achieve two critical tasks simultaneously: 1) compressing the messages to the point where only their essential semantic meanings are preserved; 2) ensuring the robustness of the semantic meanings when they are transmitted across incompatible technologies. The scheme incorporates existing CTC coding algorithms as domain knowledge to guide the encoder-decoder pair to learn the characteristics of CTC links better. Moreover, the scheme constructs shared semantic knowledge for the encoder and decoder, allowing semantic meanings to be converted into very few bits for cross-technology transmissions, thus further improving the efficiency of CTC. Extensive simulations verify that the proposed scheme can reduce the transmission overhead by up to 97.63\% and increase the structural similarity index measure by up to 734.78%, compared with the state-of-the-art CTC scheme.
翻訳日:2024-02-18 12:36:40 公開日:2024-01-26
# 10ヶ国における非合意合成親密画像の態度と知識

Attitudes Towards and Knowledge of Non-Consensual Synthetic Intimate Imagery in 10 Countries ( http://arxiv.org/abs/2402.01721v1 )

ライセンス: Link先を確認
Rebecca Umbach, Nicola Henry, Gemma Beard, Colleen Berryessa(参考訳) ディープフェイク技術ツールはユビキタスになり、画像や動画を操作する能力を「民主化」している。 このようなテクノロジーの一般的な用途は、性的に明示的なコンテンツの作成であり、インターネット上で広く投稿され、共有される。 本稿は、10か国16,000人を超える非コンセンサス合成親密画像(nsii)に関する態度と行動について検討する。 NSIIの社会的認知にもかかわらず、NSIIの行動は有害とみなされた。 有病率については、全回答者の2.2%が個人的被害者化を示し、1.8%が加害行動を示した。 関連する法律を持つ国々の回答者も、加害体験や犠牲体験を報告しており、加害を抑止するには立法行動だけでは十分ではないと示唆している。 害を減らすための技術的考察には、個人がオンラインでのプレゼンスをよりよく監視する方法や、NSIIコンテンツの禁止や削除を許可するプラットフォームポリシーの強制などが含まれる。

Deepfake technology tools have become ubiquitous, "democratizing" the ability to manipulate images and videos. One popular use of such technology is the creation of sexually explicit content, which can then be posted and shared widely on the internet. This article examines attitudes and behaviors related to non-consensual synthetic intimate imagery (NSII) across over 16,000 respondents in 10 countries. Despite nascent societal awareness of NSII, NSII behaviors were considered harmful. In regards to prevalence, 2.2% of all respondents indicated personal victimization, and 1.8% all of respondents indicated perpetration behaviors. Respondents from countries with relevant legislation also reported perpetration and victimization experiences, suggesting legislative action alone is not a sufficient solution to deter perpetration. Technical considerations to reduce harms may include suggestions for how individuals can better monitor their presence online, as well as enforced platform policies which ban, or allow for removal of, NSII content.
翻訳日:2024-02-11 16:29:51 公開日:2024-01-26
# 大学におけるfaqのための深層学習型amharicチャットボット

Deep Learning Based Amharic Chatbot for FAQs in Universities ( http://arxiv.org/abs/2402.01720v1 )

ライセンス: Link先を確認
Goitom Ybrah Hailu, Shishay Welay(参考訳) 大学生はしばしば、管理者や教師からの一般的な質問に対する回答を求めてかなりの時間を費やしている。 これは双方にとって面倒なことになり、ソリューションが必要になります。 そこで本研究では,自然言語処理と深層学習技術を用いて,アムハラ語で頻繁に質問される質問(FAQ)に答えるチャットボットモデルを提案する。 チャットボットは、人工知能(ai)を使って人間の会話をシミュレートするコンピュータプログラムであり、質問やその他のタスクを処理する仮想アシスタントとして機能する。 提案プログラムでは, トークン化, 正規化, 停止語除去, ステーミングを用いて, アムハラ語入力文の分析と分類を行う。 トークンの分類と適切な応答の取得には、サポートベクターマシン(svm)、マルチノミナルna\"ive bayes、tensorflow、keras、nltkによって実装されたディープニューラルネットワークの3つの機械学習モデルアルゴリズムが使用された。 ディープラーニングモデルは、AdamオプティマイザとSoftMaxアクティベーション関数を使用して、91.55%の精度で最高の結果を得た。 chatbotモデルはfacebook messengerと統合され、24時間のアクセシビリティのためにherokuサーバにデプロイされた。 実験の結果,chatbotフレームワークはその目的を達成し,アンモリックなフィデル変動,形態的変化,語彙間隙などの課題を効果的に解決した。 今後の研究は、語彙ギャップを狭め、より複雑な質問をサポートするために、Amharic WordNetの統合を検討するだろう。

University students often spend a considerable amount of time seeking answers to common questions from administrators or teachers. This can become tedious for both parties, leading to a need for a solution. In response, this paper proposes a chatbot model that utilizes natural language processing and deep learning techniques to answer frequently asked questions (FAQs) in the Amharic language. Chatbots are computer programs that simulate human conversation through the use of artificial intelligence (AI), acting as a virtual assistant to handle questions and other tasks. The proposed chatbot program employs tokenization, normalization, stop word removal, and stemming to analyze and categorize Amharic input sentences. Three machine learning model algorithms were used to classify tokens and retrieve appropriate responses: Support Vector Machine (SVM), Multinomial Na\"ive Bayes, and deep neural networks implemented through TensorFlow, Keras, and NLTK. The deep learning model achieved the best results with 91.55% accuracy and a validation loss of 0.3548 using an Adam optimizer and SoftMax activation function. The chatbot model was integrated with Facebook Messenger and deployed on a Heroku server for 24-hour accessibility. The experimental results demonstrate that the chatbot framework achieved its objectives and effectively addressed challenges such as Amharic Fidel variation, morphological variation, and lexical gaps. Future research could explore the integration of Amharic WordNet to narrow the lexical gap and support more complex questions.
翻訳日:2024-02-11 16:29:35 公開日:2024-01-26
# 大規模言語モデルにおける道徳的不整合の測定

Measuring Moral Inconsistencies in Large Language Models ( http://arxiv.org/abs/2402.01719v1 )

ライセンス: Link先を確認
Vamshi Krishna Bonagiri, Sreeram Vennam, Manas Gaur, Ponnurangam Kumaraguru(参考訳) 大言語モデル~(LLM)は、意味的に等価なプロンプトが意味的に等価な応答を生成する場合、一貫性があると考えられる。 会話システムにおけるLLMの印象的な能力を示す最近の進歩にもかかわらず、最先端のLLMでさえ世代間では非常に矛盾しており、信頼性に疑問を投げかけている。 これまでの研究は、タスク固有の精度でこれを測定しようと試みてきた。 しかし、このアプローチはトロリー問題のような道徳的なシナリオには適さない。 この問題に対処するために、道徳的シナリオにおけるLLMの一貫性を測定するためのセマンティックグラフエントロピー(SGE)と呼ばれる新しい情報理論尺度を提案する。 モデルの意思決定戦略を説明するために ``Rules of Thumb'~(RoTs) を活用し、メトリクスをさらに強化します。 既存の一貫性メトリクスと比較すると、SGEは5つのLLMにわたる人間の判断と相関する。 今後,LLMの不整合の根本原因を調査し,改善を提案する。

A Large Language Model~(LLM) is considered consistent if semantically equivalent prompts produce semantically equivalent responses. Despite recent advancements showcasing the impressive capabilities of LLMs in conversational systems, we show that even state-of-the-art LLMs are highly inconsistent in their generations, questioning their reliability. Prior research has tried to measure this with task-specific accuracies. However, this approach is unsuitable for moral scenarios, such as the trolley problem, with no ``correct'' answer. To address this issue, we propose a novel information-theoretic measure called Semantic Graph Entropy~(SGE) to measure the consistency of an LLM in moral scenarios. We leverage ``Rules of Thumb''~(RoTs) to explain a model's decision-making strategies and further enhance our metric. Compared to existing consistency metrics, SGE correlates better with human judgments across five LLMs. In the future, we aim to investigate the root causes of LLM inconsistencies and propose improvements.
翻訳日:2024-02-11 16:29:07 公開日:2024-01-26
# 産業におけるエネルギー効率とフレキシビリティを実現するデジタル化ビジネスモデル:9事例による調査

Business Models for Digitalization Enabled Energy Efficiency and Flexibility in Industry: A Survey with Nine Case Studies ( http://arxiv.org/abs/2402.01718v1 )

ライセンス: Link先を確認
Zhipeng Ma, Bo N{\o}rregaard J{\o}rgensen, Michelle Levesque, Mouloud Amazouz, Zheng Grace Ma(参考訳) デジタル化は重工業分野では困難であり、多くのpi-lotプロジェクトは複製とスケールの困難に直面している。 ケーススタディは、学習と経験と知識の共有のための強力な教育車両であるが、文献ではほとんど利用できない。 そこで本稿では,ビジネス・モデル・キャンバス(bmc)を用いて分析を行う9つの産業事例の多様な集合を収集する調査を行った。 これらの事例を9つのbmcコンポーネントに基づいて要約比較し、産業用デジタルソリューションのビジネスポテンシャルを評価するために、ビジネスモデル評価指標(vbm)を提案する。 その結果、主要なパートナーは産業関係者、IT企業、学術機関であることがわかった。 デジタルソリューションの主要な活動には、ビッグデータ分析、機械学習アルゴリズム、デジタルツイン、モノのインターネットなどが含まれる。 ほとんどの場合の価値提案はエネルギー効率の改善とエネルギーの柔軟性の実現である。 さらに、6つの産業用デジタルソリューションの技術準備レベルはレベル7以下であり、現実の環境でさらなる検証が必要であることを示している。 これらの知見に基づいて, クロスセクタコラボレーションの促進, 包括的なテストと検証の優先順位付け, 価値提案の拡張, 製品適応性の向上, ユーザフレンドリなプラットフォームの提供, 透過的なレコメンデーションの採用。

Digitalization is challenging in heavy industrial sectors, and many pi-lot projects facing difficulties to be replicated and scaled. Case studies are strong pedagogical vehicles for learning and sharing experience & knowledge, but rarely available in the literature. Therefore, this paper conducts a survey to gather a diverse set of nine industry cases, which are subsequently subjected to analysis using the business model canvas (BMC). The cases are summarized and compared based on nine BMC components, and a Value of Business Model (VBM) evaluation index is proposed to assess the business potential of industrial digital solutions. The results show that the main partners are industry stakeholders, IT companies and academic institutes. Their key activities for digital solutions include big-data analysis, machine learning algorithms, digital twins, and internet of things developments. The value propositions of most cases are improving energy efficiency and enabling energy flexibility. Moreover, the technology readiness levels of six industrial digital solutions are under level 7, indicating that they need further validation in real-world environments. Building upon these insights, this paper proposes six recommendations for future industrial digital solution development: fostering cross-sector collaboration, prioritizing comprehensive testing and validation, extending value propositions, enhancing product adaptability, providing user-friendly platforms, and adopting transparent recommendations.
翻訳日:2024-02-11 16:28:51 公開日:2024-01-26
# RAGからQA-RAGへ:医薬品規制コンプライアンスプロセスのための生成AIの統合

From RAG to QA-RAG: Integrating Generative AI for Pharmaceutical Regulatory Compliance Process ( http://arxiv.org/abs/2402.01717v1 )

ライセンス: Link先を確認
Jaewoong Kim (Sungkyunkwan University), Moohong Min (Sungkyunkwan University)(参考訳) 製薬業界における規制の遵守は、複雑で輝かしいガイドラインを通し、しばしば重要な人的資源を必要とする。 これらの課題に対処するために、生成AIと検索拡張生成(RAG)手法を利用したチャットボットモデルを提案する。 このチャットボットは、ユーザからの問い合わせに関連するガイドライン文書を検索し、検索したガイドラインに基づいて回答を提供するように設計されている。 本稿では,本領域における信頼性向上の必要性を認識し,QA-RAGモデルを提案する。 比較実験では、QA-RAGモデルは従来のRAG法を含む全てのベースラインを上回り、精度が大幅に向上した。 本稿では,QA-RAGの構造と性能評価について詳述し,医薬品業界などにおける規制コンプライアンス分野の可能性を強調した。 さらなる研究と開発のために、作業を公開しています。

Regulatory compliance in the pharmaceutical industry entails navigating through complex and voluminous guidelines, often requiring significant human resources. To address these challenges, our study introduces a chatbot model that utilizes generative AI and the Retrieval Augmented Generation (RAG) method. This chatbot is designed to search for guideline documents relevant to the user inquiries and provide answers based on the retrieved guidelines. Recognizing the inherent need for high reliability in this domain, we propose the Question and Answer Retrieval Augmented Generation (QA-RAG) model. In comparative experiments, the QA-RAG model demonstrated a significant improvement in accuracy, outperforming all other baselines including conventional RAG methods. This paper details QA-RAG's structure and performance evaluation, emphasizing its potential for the regulatory compliance domain in the pharmaceutical industry and beyond. We have made our work publicly available for further research and development.
翻訳日:2024-02-11 16:28:25 公開日:2024-01-26
# 講義フォーラムにおけるブルーム・エピステミックと感情分析の階層分類

Bloom-epistemic and sentiment analysis hierarchical classification in course discussion forums ( http://arxiv.org/abs/2402.01716v1 )

ライセンス: Link先を確認
H. Toba, Y. T. Hernita, M. Ayub, M. C. Wijanto(参考訳) オンラインディスカッションフォーラムは、講義者と学生の間のアクティブなテキストインタラクションや、学習プロセスにおける学生の進歩を確認するために広く利用されている。 本研究の目的は、感情を評価するための適切な機械学習モデルと、教育討論フォーラムのテキストコメントに基づくブルームの疫学分類を比較することである。 提案手法はBloom-Epistemic and Sentiment Analysis (BE-Sent) の階層的アプローチである。 研究手法は3つの主要なステップから構成される。 最初のステップは、内部ディスカッションフォーラムからのデータ収集と、WebプログラミングチャネルのYouTubeコメントである。 次のステップはテキスト前処理で、テキストに注釈を付け、重要でない単語をクリアする。 さらに、クリーン化に成功しているテキストデータセットでは、テキストの各文で感情分析と認識論的分類が行われる。 感情分析は、ポジティブ、ネガティブ、中立の3つのカテゴリに分けられる。 bloom\の認識論は、記憶、理解、応用、分析、評価、創造の6つのカテゴリに分けられる。 本研究は,議論フォーラムのテキストレビューに基づいて,感情分析と認識分析のカテゴリに基づいて意見を評価する授業学習サブシステムの構築に成功した。

Online discussion forums are widely used for active textual interaction between lecturers and students, and to see how the students have progressed in a learning process. The objective of this study is to compare appropriate machine-learning models to assess sentiments and Bloom\'s epistemic taxonomy based on textual comments in educational discussion forums. Our proposed method is called the hierarchical approach of Bloom-Epistemic and Sentiment Analysis (BE-Sent). The research methodology consists of three main steps. The first step is the data collection from the internal discussion forum and YouTube comments of a Web Programming channel. The next step is text preprocessing to annotate the text and clear unimportant words. Furthermore, with the text dataset that has been successfully cleaned, sentiment analysis and epistemic categorization will be done in each sentence of the text. Sentiment analysis is divided into three categories: positive, negative, and neutral. Bloom\'s epistemic is divided into six categories: remembering, understanding, applying, analyzing, evaluating, and creating. This research has succeeded in producing a course learning subsystem that assesses opinions based on text reviews of discussion forums according to the category of sentiment and epistemic analysis.
翻訳日:2024-02-11 16:28:10 公開日:2024-01-26
# 犯罪ネットワークにおける犯罪指導者検出技術:調査,実験,比較評価

Techniques to Detect Crime Leaders within a Criminal Network: A Survey, Experimental, and Comparative Evaluations ( http://arxiv.org/abs/2402.03355v1 )

ライセンス: Link先を確認
Kamal Taha and Abdulhadi Shoufan(参考訳) 本調査では,犯罪ネットワーク内の犯罪指導者の識別に使用される手法とアルゴリズムを網羅的に分析する。 各技術の有効性,限界,改善の可能性,今後の展望について検討する。 犯罪の指導者を識別し、犯罪を予測するアルゴリズムに焦点を当てた既存の調査論文が直面する主な課題は、これらのアルゴリズムを効果的に分類することである。 そこで本研究では,アルゴリズムを階層的により詳細なカテゴリと特定のテクニックに分類する手法を新たに提案する。 本論文は、異なるテクニックをランク付けするための実証的および実験的評価を含む。 方法論的分類法、経験的評価、実験的な比較の組み合わせは、犯罪リーダーを特定する技術とアルゴリズムを微妙かつ包括的に理解し、研究者がインフォームドな意思決定を行うのを助ける。 さらに,本論文は,犯罪指導者の特定技術や今後の研究の可能性を強調し,今後の展望について貴重な知見を提供する。 Here's an overview of our empirical analysis findings and experimental insights, along with the solution we've devised: (1) PageRank and Eigenvector centrality are reliable for mapping network connections, (2) Katz Centrality can effectively identify influential criminals through indirect links, stressing their significance in criminal networks, (3) current models fail to account for the specific impacts of criminal influence levels, the importance of socio-economic context, and the dynamic nature of criminal networks and hierarchies, and (4) we propose enhancements, such as incorporating temporal dynamics and sentiment analysis to reflect the fluidity of criminal activities and relationships, which could improve the detection of key criminals .

This survey paper offers a thorough analysis of techniques and algorithms used in the identification of crime leaders within criminal networks. For each technique, the paper examines its effectiveness, limitations, potential for improvement, and future prospects. The main challenge faced by existing survey papers focusing on algorithms for identifying crime leaders and predicting crimes is effectively categorizing these algorithms. To address this limitation, this paper proposes a new methodological taxonomy that hierarchically classifies algorithms into more detailed categories and specific techniques. The paper includes empirical and experimental evaluations to rank the different techniques. The combination of the methodological taxonomy, empirical evaluations, and experimental comparisons allows for a nuanced and comprehensive understanding of the techniques and algorithms for identifying crime leaders, assisting researchers in making informed decisions. Moreover, the paper offers valuable insights into the future prospects of techniques for identifying crime leaders, emphasizing potential advancements and opportunities for further research. Here's an overview of our empirical analysis findings and experimental insights, along with the solution we've devised: (1) PageRank and Eigenvector centrality are reliable for mapping network connections, (2) Katz Centrality can effectively identify influential criminals through indirect links, stressing their significance in criminal networks, (3) current models fail to account for the specific impacts of criminal influence levels, the importance of socio-economic context, and the dynamic nature of criminal networks and hierarchies, and (4) we propose enhancements, such as incorporating temporal dynamics and sentiment analysis to reflect the fluidity of criminal activities and relationships, which could improve the detection of key criminals .
翻訳日:2024-02-11 15:41:25 公開日:2024-01-26
# ツイートが市場のトレンドに与える影響:ソーシャルメディアの感情がバイオテック株に与える影響分析

Tweet Influence on Market Trends: Analyzing the Impact of Social Media Sentiment on Biotech Stocks ( http://arxiv.org/abs/2402.03353v1 )

ライセンス: Link先を確認
C. Sarai R. Avila(参考訳) 本研究は、ニュース、企業の意見、ceoの意見、ライバルの意見、およびバイオテクノロジー分野における株式市場の行動など、さまざまなカテゴリーにわたるツイート感情の関係を調査し、ソーシャルメディアの会話が投資家の感情や意思決定プロセスに与える影響を理解することに焦点を当てたものである。 われわれは、新型コロナウイルス、ワクチン、企業、そしてそれぞれのCEOに関するTwitterのデータとともに、最大かつ最も影響力のある製薬会社10社の過去の株式市場データを分析した。 VADER感情分析を用いて,つぶやきの感情スコアを測定し,市場パフォーマンスとの関連性を検討した。 我々は、ARIMA(AutoRegressive Integrated Average)モデルとVAR(Vector AutoRegression)モデルを用いて、株式市場のパフォーマンスを予測し、感情共変を取り入れて予測を改善した。 その結果、ツイートの感情、ニュース、バイオテック企業、CEO、および株式市場のパフォーマンスの複雑な相互作用が明らかとなり、株価をモデル化し予測する際のさまざまな要因を検討することの重要性を強調した。 本研究は、ソーシャルメディアが金融セクターに与える影響に関する貴重な知見を提供し、株価予測モデルの改善を目的とした将来の研究の基盤となる。

This study investigates the relationship between tweet sentiment across diverse categories: news, company opinions, CEO opinions, competitor opinions, and stock market behavior in the biotechnology sector, with a focus on understanding the impact of social media discourse on investor sentiment and decision-making processes. We analyzed historical stock market data for ten of the largest and most influential pharmaceutical companies alongside Twitter data related to COVID-19, vaccines, the companies, and their respective CEOs. Using VADER sentiment analysis, we examined the sentiment scores of tweets and assessed their relationships with stock market performance. We employed ARIMA (AutoRegressive Integrated Moving Average) and VAR (Vector AutoRegression) models to forecast stock market performance, incorporating sentiment covariates to improve predictions. Our findings revealed a complex interplay between tweet sentiment, news, biotech companies, their CEOs, and stock market performance, emphasizing the importance of considering diverse factors when modeling and predicting stock prices. This study provides valuable insights into the influence of social media on the financial sector and lays a foundation for future research aimed at refining stock price prediction models.
翻訳日:2024-02-11 15:41:01 公開日:2024-01-26
# 線形制約を持つ非凸ミニマックス問題に対するゼロ次原始双対射影勾配アルゴリズム

Zeroth-Order primal-dual Alternating Projection Gradient Algorithms for Nonconvex Minimax Problems with Coupled linear Constraints ( http://arxiv.org/abs/2402.03352v1 )

ライセンス: Link先を確認
Huiling Zhang, Zi Xu, Yuhong Dai(参考訳) 本稿では,近年,機械学習や信号処理,その他多くの分野,例えば資源割当問題やネットワークフロー問題などにおいて広く注目されている,決定論的・確率的設定の下で線形制約を結合した非凸ミニマックス問題に対するゼロ次アルゴリズムについて検討する。 線形制約を結合したミニマックス問題を決定論的・確率的非凸(強)に解くために,ゼロ次原始二乗交互射影勾配アルゴリズム (ZO-PDAPG) とゼロ次正規化運動量原始二乗射影勾配アルゴリズム (ZO-RMPDPG) の2つの単一ループアルゴリズムを提案する。 提案した2つのアルゴリズムの反復複雑性を$\varepsilon$-stationary point とし、$\mathcal{O}(\varepsilon ^{-2})$ (resp) とする。 非凸強凸(非凸凸凸)のミニマックス問題を解くための$\mathcal{o}(\varepsilon ^{-4})$ (resp. nonconvex-concave) 決定論的設定と$\tilde{\mathcal{o}}(\varepsilon ^{-3})$ (resp.nonconvex-concave) である。 確率的な設定でそれぞれ$\tilde{\mathcal{o}}(\varepsilon ^{-6.5})$) となる。 我々の知る限り、これらのアルゴリズムは、決定論的および確率的設定の下で線形制約を結合したミニマックス問題を解くための反復的な複雑性保証を持つ最初の2つのゼロ階アルゴリズムである。

In this paper, we study zeroth-order algorithms for nonconvex minimax problems with coupled linear constraints under the deterministic and stochastic settings, which have attracted wide attention in machine learning, signal processing and many other fields in recent years, e.g., adversarial attacks in resource allocation problems and network flow problems etc. We propose two single-loop algorithms, namely the zero-order primal-dual alternating projected gradient (ZO-PDAPG) algorithm and the zero-order regularized momentum primal-dual projected gradient algorithm (ZO-RMPDPG), for solving deterministic and stochastic nonconvex-(strongly) concave minimax problems with coupled linear constraints. The iteration complexity of the two proposed algorithms to obtain an $\varepsilon$-stationary point are proved to be $\mathcal{O}(\varepsilon ^{-2})$ (resp. $\mathcal{O}(\varepsilon ^{-4})$) for solving nonconvex-strongly concave (resp. nonconvex-concave) minimax problems with coupled linear constraints under deterministic settings and $\tilde{\mathcal{O}}(\varepsilon ^{-3})$ (resp. $\tilde{\mathcal{O}}(\varepsilon ^{-6.5})$) under stochastic settings respectively. To the best of our knowledge, they are the first two zeroth-order algorithms with iterative complexity guarantees for solving nonconvex-(strongly) concave minimax problems with coupled linear constraints under the deterministic and stochastic settings.
翻訳日:2024-02-11 15:40:38 公開日:2024-01-26
# 早期肺癌検診におけるai法とスパイラルCT法を併用した応用解析

Application analysis of ai technology combined with spiral CT scanning in early lung cancer screening ( http://arxiv.org/abs/2402.04267v1 )

ライセンス: Link先を確認
Shulin Li, Liqiang Yu, Bo Liu, Qunwei Lin, Jiaxin Huang(参考訳) 現在、中国における肺癌の発生率と死亡率は、すべての悪性腫瘍の中で第1位である。 中国の医療水準の継続的な発展と改善にもかかわらず、肺癌患者の5年間の生存率は依然として20%以下であり、実施されている。 多くの研究で早期肺癌の早期診断と治療が患者の予後を改善する上で非常に重要であることが確認されている。 近年,人工知能技術が腫瘍学に徐々に応用され始めている。 がんスクリーニング、臨床診断、放射線治療(画像取得、リスクの高い臓器の分節化、画像の校正と提供)、その他の急速な発達の側面に用いられる。 しかし、医療aiが社会化できるかどうかは、ある程度大衆の態度や受容に依存する。 しかし、現在、SCTスキャンを併用したAI技術による早期肺癌の診断についてはほとんど研究されていない。 そこで本研究では, 早期肺癌検診において, 安全で効率的な検診モードを見いだし, 臨床診断と治療の基準を提供することを目的として, コンビネーション法を適用した。

At present, the incidence and fatality rate of lung cancer in China rank first among all malignant tumors. Despite the continuous development and improvement of China's medical level, the overall 5-year survival rate of lung cancer patients is still lower than 20% and is staged. A number of studies have confirmed that early diagnosis and treatment of early stage lung cancer is of great significance to improve the prognosis of patients. In recent years, artificial intelligence technology has gradually begun to be applied in oncology. ai is used in cancer screening, clinical diagnosis, radiation therapy (image acquisition, at-risk organ segmentation, image calibration and delivery) and other aspects of rapid development. However, whether medical ai can be socialized depends on the public's attitude and acceptance to a certain extent. However, at present, there are few studies on the diagnosis of early lung cancer by AI technology combined with SCT scanning. In view of this, this study applied the combined method in early lung cancer screening, aiming to find a safe and efficient screening mode and provide a reference for clinical diagnosis and treatment.
翻訳日:2024-02-11 15:28:51 公開日:2024-01-26
# 遺伝的変異の機能的損失の予測 : 機械学習によるアプローチ

Predicting loss-of-function impact of genetic mutations: a machine learning approach ( http://arxiv.org/abs/2402.00054v1 )

ライセンス: Link先を確認
Arshmeet Kaur and Morteza Sarmadi(参考訳) 次世代シークエンシング(NGS)技術の革新は、ゲノムシークエンシングの価格を大幅に下げ、将来の医学研究への障壁を減らした。 複雑な高次元ゲノムシークエンシングデータにおける損傷または病原性変異の同定は、研究者にとって特に興味深い。 そこで本研究では,遺伝子変異の属性に基づいて機械学習モデルをトレーニングし,LoFtoolスコア(遺伝子の機能欠失に対する耐性を計測する)を予測する。 これらの特性は、染色体上の突然変異の位置、アミノ酸の変化、変異によって引き起こされるコドンの変化を含むが、制限されていない。 K-nearest neighbors(KNN)、SVM(Support Vector Machine)、RANSAC(Random Sample Consensus)、決定木(Decision Trees)、ランダムフォレスト(Random Forest)、エクストリームグラディエントブースティング(Extreme Gradient Boosting、XGBoost)が組み合わされた一変量特徴選択技術を用いてモデルを構築した。 これらのモデルは,r-二乗平均,平均二乗誤差,ルート平均二乗誤差,平均絶対誤差,説明分散を用いて評価した。 本研究の結果は,r-2乗値0.97の複数のモデルのトレーニングを含む。

The innovation of next-generation sequencing (NGS) techniques has significantly reduced the price of genome sequencing, lowering barriers to future medical research; it is now feasible to apply genome sequencing to studies where it would have previously been cost-inefficient. Identifying damaging or pathogenic mutations in vast amounts of complex, high-dimensional genome sequencing data may be of particular interest to researchers. Thus, this paper's aims were to train machine learning models on the attributes of a genetic mutation to predict LoFtool scores (which measure a gene's intolerance to loss-of-function mutations). These attributes included, but were not limited to, the position of a mutation on a chromosome, changes in amino acids, and changes in codons caused by the mutation. Models were built using the univariate feature selection technique f-regression combined with K-nearest neighbors (KNN), Support Vector Machine (SVM), Random Sample Consensus (RANSAC), Decision Trees, Random Forest, and Extreme Gradient Boosting (XGBoost). These models were evaluated using five-fold cross-validated averages of r-squared, mean squared error, root mean squared error, mean absolute error, and explained variance. The findings of this study include the training of multiple models with testing set r-squared values of 0.97.
翻訳日:2024-02-04 05:13:45 公開日:2024-01-26
# ディープニューラルネットワークは重み空間を効率的に利用するか?

Do deep neural networks utilize the weight space efficiently? ( http://arxiv.org/abs/2401.16438v1 )

ライセンス: Link先を確認
Onur Can Koyun, Beh\c{c}et U\u{g}ur T\"oreyin(参考訳) TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。 本稿では,重み行列の列空間と行空間を利用した新しい概念を提案する。 このパラダイムを活用し、パラメータ効率のよいディープラーニングモデルを実現する。 . 私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。 ViTとResNet50を用いたImageNetデータセットで行った大規模な実験は,従来のモデルと比較した場合の競合性能を示す。 このアプローチは、パラメータ効率のよいディープラーニングソリューションに対する要求に対処するだけでなく、現実のシナリオにおける実践的なデプロイにも大きな期待を持っています。

Deep learning models like Transformers and Convolutional Neural Networks (CNNs) have revolutionized various domains, but their parameter-intensive nature hampers deployment in resource-constrained settings. In this paper, we introduce a novel concept utilizes column space and row space of weight matrices, which allows for a substantial reduction in model parameters without compromising performance. Leveraging this paradigm, we achieve parameter-efficient deep learning models.. Our approach applies to both Bottleneck and Attention layers, effectively halving the parameters while incurring only minor performance degradation. Extensive experiments conducted on the ImageNet dataset with ViT and ResNet50 demonstrate the effectiveness of our method, showcasing competitive performance when compared to traditional models. This approach not only addresses the pressing demand for parameter efficient deep learning solutions but also holds great promise for practical deployment in real-world scenarios.
翻訳日:2024-01-31 17:54:21 公開日:2024-01-26
# フルレゾリューションポラリメトリック気象レーダデータを用いた竜巻検出・予測のためのベンチマークデータセット

A Benchmark Dataset for Tornado Detection and Prediction using Full-Resolution Polarimetric Weather Radar Data ( http://arxiv.org/abs/2401.16437v1 )

ライセンス: Link先を確認
Mark S. Veillette, James M. Kurdzo, Phillip M. Stepanian, John Y. N. Cho, Siddharth Samsi and Joseph McDonald(参考訳) 気象レーダーは、ほぼリアルタイムで竜巻を検出し警告するために、予報装置が使用する主要なツールである。 気象レーダー観測における竜巻のシグネチャを自動検出するアルゴリズムがいくつか開発されている。 近年、大量のラベル付きデータから直接学習する機械学習(ML)アルゴリズムが、この目的のために非常に効果的であることが示されている。 トルネードは、利用可能なすべてのレーダー観測のコーパス内で非常に稀なイベントであるため、MLアプリケーションのためのトレーニングデータセットの選択と設計は、MLアルゴリズムのパフォーマンス、堅牢性、最終的な受け入れに不可欠である。 本研究では,竜巻検出と予測におけるMLアルゴリズムの開発を支援するベンチマークデータセットTorNetを紹介する。 TorNetは10年間の嵐イベントから採取された、完全解像度で偏光度の高いレベルII WSR-88Dデータを含んでいる。 既存のMLアルゴリズムに必要な手動の特徴抽出を必要とせず、生のレーダー画像を処理することができる新しいディープラーニング(DL)アーキテクチャなど、竜巻検出のためのMLベースラインが開発・比較されている。 手動のフィーチャエンジニアリングや他の前処理の恩恵を受けないにもかかわらず、DLモデルは非DLや運用ベースラインと比較して検出性能が向上している。 TorNetデータセットと、この作業でトレーニングされたDLベースラインのソースコードとモデルウェイトは、無償で利用可能である。

Weather radar is the primary tool used by forecasters to detect and warn for tornadoes in near-real time. In order to assist forecasters in warning the public, several algorithms have been developed to automatically detect tornadic signatures in weather radar observations. Recently, Machine Learning (ML) algorithms, which learn directly from large amounts of labeled data, have been shown to be highly effective for this purpose. Since tornadoes are extremely rare events within the corpus of all available radar observations, the selection and design of training datasets for ML applications is critical for the performance, robustness, and ultimate acceptance of ML algorithms. This study introduces a new benchmark dataset, TorNet to support development of ML algorithms in tornado detection and prediction. TorNet contains full-resolution, polarimetric, Level-II WSR-88D data sampled from 10 years of reported storm events. A number of ML baselines for tornado detection are developed and compared, including a novel deep learning (DL) architecture capable of processing raw radar imagery without the need for manual feature extraction required for existing ML algorithms. Despite not benefiting from manual feature engineering or other preprocessing, the DL model shows increased detection performance compared to non-DL and operational baselines. The TorNet dataset, as well as source code and model weights of the DL baseline trained in this work, are made freely available.
翻訳日:2024-01-31 17:54:04 公開日:2024-01-26
# グリッド型多機能太陽エネルギー変換システムのためのANROAに基づく新しい制御手法

A novel ANROA based control approach for grid-tied multi-functional solar energy conversion system ( http://arxiv.org/abs/2401.16434v1 )

ライセンス: Link先を確認
Dinanath Prasad, Narendra Kumar, Rakhi Sharma, Hasmat Malik, Fausto Pedro Garc\'ia M\'arquez, Jes\'us Mar\'ia Pinar P\'erez(参考訳) 本研究では,降雨最適化アルゴリズム (anroa) を用いたニューロファジー推論システムに基づく三相格子型太陽光発電システムの適応制御手法を提案し,検討した。 この方法は、適応型ニューロファジィ推論システム(ANFIS)と雨最適化アルゴリズム(ROA)を組み込む。 ANFISコントローラは、ニューラルとファジィの両方の特徴があるため、優れた最大追跡機能を備えている。 roa技術は電圧源変換器のスイッチングを制御する。 電圧変動、高調波、フリックなどの電力品質問題や、バランスのとれない負荷、リアクティブ電力使用の回避が主な目標である。 また,提案手法はゼロ電圧制御およびユニタリパワーファクタモードで動作させる。 提案する制御手法をモデル化し,シミュレーションし,既存の代替手法を用いて評価した。 また,提案手法と既存手法の統計的解析を行い,考察した。 シミュレーションの結果、代替手法と比較して、提案戦略は最適なグローバルソリューションを適切に効果的に特定できることを示した。 さらに,MATLAB/SIMULINK環境とField Programmable Gate Arrays Controller (FPGA)-based Hardware-in-Loop (HLL) を用いてシステムの堅牢性を検討した。

An adaptive control approach for a three-phase grid-interfaced solar photovoltaic system based on the new Neuro-Fuzzy Inference System with Rain Optimization Algorithm (ANROA) methodology is proposed and discussed in this manuscript. This method incorporates an Adaptive Neuro-fuzzy Inference System (ANFIS) with a Rain Optimization Algorithm (ROA). The ANFIS controller has excellent maximum tracking capability because it includes features of both neural and fuzzy techniques. The ROA technique is in charge of controlling the voltage source converter switching. Avoiding power quality problems including voltage fluctuations, harmonics, and flickers as well as unbalanced loads and reactive power usage is the major goal. Besides, the proposed method performs at zero voltage regulation and unity power factor modes. The suggested control approach has been modeled and simulated, and its performance has been assessed using existing alternative methods. A statistical analysis of proposed and existing techniques has been also presented and discussed. The results of the simulations demonstrate that, when compared to alternative approaches, the suggested strategy may properly and effectively identify the best global solutions. Furthermore, the system's robustness has been studied by using MATLAB/SIMULINK environment and experimentally by Field Programmable Gate Arrays Controller (FPGA)-based Hardware-in-Loop (HLL).
翻訳日:2024-01-31 17:53:40 公開日:2024-01-26
# 時系列に基づくコンピュータビジョン自己教師型学習手法

Computer Vision Self-supervised Learning Methods on Time Series ( http://arxiv.org/abs/2109.00783v4 )

ライセンス: Link先を確認
Daesoo Lee, Erlend Aune(参考訳) 自己教師型学習(SSL)は両コンピュータビジョンにおいて大きな成功を収めている。 現在の主流のコンピュータビジョンのSSLフレームワークのほとんどは、Siameseネットワークアーキテクチャに基づいている。 これらのアプローチは、機能崩壊を避けるために、巧妙に作られた損失関数とトレーニングセットアップに依存することが多い。 本研究では、これらのコンピュータビジョンSSLフレームワークが、異なるモダリティ(\textit{i.e.} time series)に対して有効であるかどうかを評価する。 この効果をucrおよびuaeアーカイブで実験し,評価し,コンピュータビジョンsslフレームワークが時系列においても有効であることを示す。 さらに,最近提案するvicreg法を改良した新しい手法を提案する。 本手法はvicreg で提案されている \textit{covariance} 項を改良し,さらにモデルの収束を加速する反復正規化層によってアーキテクチャの先頭を補強する。

Self-supervised learning (SSL) has had great success in both computer vision. Most of the current mainstream computer vision SSL frameworks are based on Siamese network architecture. These approaches often rely on cleverly crafted loss functions and training setups to avoid feature collapse. In this study, we evaluate if those computer-vision SSL frameworks are also effective on a different modality (\textit{i.e.,} time series). The effectiveness is experimented and evaluated on the UCR and UEA archives, and we show that the computer vision SSL frameworks can be effective even for time series. In addition, we propose a new method that improves on the recently proposed VICReg method. Our method improves on a \textit{covariance} term proposed in VICReg, and in addition we augment the head of the architecture by an iterative normalization layer that accelerates the convergence of the model.
翻訳日:2024-01-31 01:28:35 公開日:2024-01-26
# AIに基づくロボット発射発射モデルのためのアルゴリズム力係数推定によるデータ生成

Simulated Data Generation Through Algorithmic Force Coefficient Estimation for AI-Based Robotic Projectile Launch Modeling ( http://arxiv.org/abs/2105.12833v4 )

ライセンス: Link先を確認
Sajiv Shah, Ayaan Haque, Fei Liu(参考訳) 非剛性物体の発射と操作のモデリングは、軌道に影響を与える幅広いダイナミクスを考慮すると複雑である。 物理モデルを使うことは、未知の要因や、発射時の物体の変形の影響を考慮できないため不正確であり、また、これらのモデルに対する力係数の導出は、広範囲の実験試験なしでは不可能である。 近年,データ駆動型人工知能の進歩により,学習可能なモデルやシステムが出現している。 ディープニューラルネットワークは計測不能なダイナミクスを考慮できるため、ロボットの打ち上げ予測のためのモデルを訓練することが望ましい。 しかし、大量の実験データを収集できないため、ディープニューラルネットワークの性能は低下する。 力係数を推定することにより、受理された物理モデルを利用して十分な補足データを生成し、トレーニングセットのサイズを人工的に増加させ、改良されたニューラルネットワークが得られる。 本稿では,非剛性物体の立ち上がりに対する力係数をアルゴリズム的に推定し,他の領域に一般化し,大規模データセットを生成するための新しい枠組みを提案する。 我々は,非剛体物体の発射軌道を正確にモデル化し,それらが一連の目標に達するかどうかを予測するための,新しいトレーニングアルゴリズムと目的を実装した。 実験結果は,力係数推定によるシミュレーションデータの有効性を示し,ニューラルネットワークの学習におけるシミュレーションデータの重要性を示す。

Modeling of non-rigid object launching and manipulation is complex considering the wide range of dynamics affecting trajectory, many of which may be unknown. Using physics models can be inaccurate because they cannot account for unknown factors and the effects of the deformation of the object as it is launched; moreover, deriving force coefficients for these models is not possible without extensive experimental testing. Recently, advancements in data-powered artificial intelligence methods have allowed learnable models and systems to emerge. It is desirable to train a model for launch prediction on a robot, as deep neural networks can account for immeasurable dynamics. However, the inability to collect large amounts of experimental data decreases performance of deep neural networks. Through estimating force coefficients, the accepted physics models can be leveraged to produce adequate supplemental data to artificially increase the size of the training set, yielding improved neural networks. In this paper, we introduce a new framework for algorithmic estimation of force coefficients for non-rigid object launching, which can be generalized to other domains, in order to generate large datasets. We implement a novel training algorithm and objective for our deep neural network to accurately model launch trajectory of non-rigid objects and predict whether they will hit a series of targets. Our experimental results demonstrate the effectiveness of using simulated data from force coefficient estimation and shows the importance of simulated data for training an effective neural network.
翻訳日:2024-01-31 01:28:21 公開日:2024-01-26
# 動的共変量バランス-局所射影による時間的治療効果の推定

Dynamic covariate balancing: estimating treatment effects over time with potential local projections ( http://arxiv.org/abs/2103.01280v4 )

ライセンス: Link先を確認
Davide Viviano, Jelena Bradic(参考訳) 本稿では,治療が時間とともに動的に変化する場合のパネルデータ設定における治療履歴の推定と推定について検討する。 我々は許容できる方法を提案する。 一 高次元共変量、過去の成果及び治療に基づいて、時間とともに動的に割り当てられる治療 二 治療の軌跡に依存する結果及び時間変化の共変体 (iii)治療効果の多様性。 我々のアプローチは、過去の歴史に対する潜在的な成果の期待を再帰的に予測する。 その後、動的に観測可能な特性のバランスをとることでバイアスを制御する。 推定器の漸近的および数値的特性について検討し,その利点を経験的応用で説明する。

This paper studies the estimation and inference of treatment histories in panel data settings when treatments change dynamically over time. We propose a method that allows for (i) treatments to be assigned dynamically over time based on high-dimensional covariates, past outcomes and treatments; (ii) outcomes and time-varying covariates to depend on treatment trajectories; (iii) heterogeneity of treatment effects. Our approach recursively projects potential outcomes' expectations on past histories. It then controls the bias by balancing dynamically observable characteristics. We study the asymptotic and numerical properties of the estimator and illustrate the benefits of the procedure in an empirical application.
翻訳日:2024-01-31 01:27:23 公開日:2024-01-26
# 最適輸送回帰のためのUltrametric Treesの学習

Learning Ultrametric Trees for Optimal Transport Regression ( http://arxiv.org/abs/2210.12288v2 )

ライセンス: Link先を確認
Samantha Chen, Puoya Tabaghi, Yusu Wang(参考訳) 最適輸送は、確率測度間の相似性を定量化する計量を提供する。 離散距離空間で支持される測度に対して、最適な移動距離を求めることは空間の大きさにおいて立方体の時間複雑性を持つ。 しかし、木に支えられた測度は、線形時間で計算できる閉形式の最適輸送を認める。 本稿では,与えられた離散距離空間に対して,木-ワッサーシュタイン距離が元の空間の最適輸送距離に近似するように最適な木構造を求める。 私たちのキーとなるアイデアの1つは、問題を超測度空間に配置することである。 これにより、超測度行列の空間上の射影勾配を通じて、混合離散かつ連続的な最適化問題である超測度木の空間を最適化するのに役立つ。 最適化中、パラメータを階層最小分散木アルゴリズムで超測度空間に投影し、極大ノルムの下での超測度への最も近い射影と等価である。 実データを用いた実験結果から,本手法は従来手法(フローツリー,クアドツリーなど)よりも最適な輸送距離の近似に優れていた。 最後に,接地真理木上で生成された合成データを用いた実験により,本アルゴリズムが基底木を正確に解明できることを示す。

Optimal transport provides a metric which quantifies the dissimilarity between probability measures. For measures supported in discrete metric spaces, finding the optimal transport distance has cubic time complexity in the size of the space. However, measures supported on trees admit a closed-form optimal transport that can be computed in linear time. In this paper, we aim to find an optimal tree structure for a given discrete metric space so that the tree-Wasserstein distance approximates the optimal transport distance in the original space. One of our key ideas is to cast the problem in ultrametric spaces. This helps us optimize over the space of ultrametric trees -- a mixed-discrete and continuous optimization problem -- via projected gradient decent over the space of ultrametric matrices. During optimization, we project the parameters to the ultrametric space via a hierarchical minimum spanning tree algorithm, equivalent to the closest projection to ultrametrics under the supremum norm. Experimental results on real datasets show that our approach outperforms previous approaches (e.g. Flowtree, Quadtree) in approximating optimal transport distances. Finally, experiments on synthetic data generated on ground truth trees show that our algorithm can accurately uncover the underlying trees.
翻訳日:2024-01-31 01:07:29 公開日:2024-01-26
# 制御マルコフ鎖のオフライン推定:最小値とサンプル複素度

Offline Estimation of Controlled Markov Chains: Minimaxity and Sample Complexity ( http://arxiv.org/abs/2211.07092v4 )

ライセンス: Link先を確認
Imon Banerjee, Harsha Honnappa, Vinayak Rao(参考訳) 本研究では,有限制御マルコフ連鎖の遷移確率行列の自然な非パラメトリック推定器について検討する。 我々は、いわゆるロギングポリシーを使用して収集される固定データセットを備えたオフライン設定を検討する。 我々は、推定器のサンプル複雑性境界を開発し、最小限の条件を確立する。 我々の統計的境界は、その混合特性を通じてロギングポリシーに依存する。 特定の統計的リスクバウンドを達成するには,混合特性の強さとサンプル数との微妙で興味深いトレードオフが伴うことを示す。 本研究は,非定常マルコフ,エピソディック,欲欲制御を用いた,エルゴディドマルコフ鎖,弱いエルゴディド不均質マルコフ鎖,制御マルコフ鎖といった様々な例において,その妥当性を示す。 最後に,これらのサンプル複雑性境界を用いて,定常マルコフ制御ポリシのオフライン評価を行う。

In this work, we study a natural nonparametric estimator of the transition probability matrices of a finite controlled Markov chain. We consider an offline setting with a fixed dataset, collected using a so-called logging policy. We develop sample complexity bounds for the estimator and establish conditions for minimaxity. Our statistical bounds depend on the logging policy through its mixing properties. We show that achieving a particular statistical risk bound involves a subtle and interesting trade-off between the strength of the mixing properties and the number of samples. We demonstrate the validity of our results under various examples, such as ergodic Markov chains, weakly ergodic inhomogeneous Markov chains, and controlled Markov chains with non-stationary Markov, episodic, and greedy controls. Lastly, we use these sample complexity bounds to establish concomitant ones for offline evaluation of stationary Markov control policies.
翻訳日:2024-01-31 00:51:29 公開日:2024-01-26
# B^0\to J/\psi \, K^{\star}(892)^0$崩壊におけるベルの不等式

Bell inequality is violated in $B^0\to J/\psi \, K^{\star}(892)^0$ decays ( http://arxiv.org/abs/2305.04982v2 )

ライセンス: Link先を確認
M. Fabbrichesi, R. Floreanini, E. Gabrielli, and L. Marzola(参考訳) ベルの不等式違反は量子力学の目印の一つであり、局所決定論的な代替記述を除外するために用いられる。 我々は、最終ベクトル中間子の分極間の絡み合いとそれに伴うベルの不等式を計算するために、崩壊$B^0\to J/\psi \,K^*(892)^0$のヘリシティ振幅をLHCb共同で公表したデータ解析を利用する。 量子の絡み合いは 5$\sigma$ (84$\sigma$) をはるかに越えて検出でき、ベルの不等式は 5$\sigma$ (36$\sigma$) をはるかに上回る重みで破られることが判明した。 絡み合いも存在し、ベルの不等式は他のb$中間子のベクトル中間子への減衰に違反するが、より重要でない。

The violation of the Bell inequality is one of the hallmarks of quantum mechanics and can be used to rule out local deterministic alternative descriptions. We utilize the data analysis published by the LHCb collaboration on the helicity amplitudes for the decay $B^0\to J/\psi \,K^*(892)^0$ to compute the entanglement among the polarizations of the final vector mesons and the violation of the Bell inequality that it entails. We find that quantum entanglement can be detected with a significance well above 5$\sigma$ (nominally 84$\sigma$) and Bell inequality is violated with a significance well above 5$\sigma$ (nominally 36$\sigma$) -- thereby firmly establishing these distinguishing feature of quantum mechanics at high energies in a collider setting and in the presence of strong and weak interactions. Entanglement is also present and the Bell inequality is violated in other decays of the $B$ mesons into vector mesons, but with lesser significance.
翻訳日:2024-01-30 22:56:28 公開日:2024-01-26
# DiffECG:ECG信号合成のための可逆確率拡散モデル

DiffECG: A Versatile Probabilistic Diffusion Model for ECG Signals Synthesis ( http://arxiv.org/abs/2306.01875v2 )

ライセンス: Link先を確認
Nour Neifar, Achraf Ben-Hamadou, Afef Mdhaffar, Mohamed Jmaiel(参考訳) ECG信号にディープラーニングを適用した心血管疾患の検出において、生理的信号を扱う複雑さが増加し、データ拡張に深部生成モデルを活用することへの関心が高まっている。 本稿では,ecg合成のための分散確率モデルを用いた新しい汎用的アプローチを提案し,以下の3つのシナリオについて述べる。 (i)心拍発生。 (ii)部分信号の含意、及び (iii)完全心拍予測。 提案手法は,ECG合成における最初の一般化条件付きアプローチであり,実験結果から,ECG関連タスクの有効性が示された。 さらに,本手法は,他の最先端ECG生成モデルよりも優れ,最先端の分類器の性能を向上させることができることを示す。

Within cardiovascular disease detection using deep learning applied to ECG signals, the complexities of handling physiological signals have sparked growing interest in leveraging deep generative models for effective data augmentation. In this paper, we introduce a novel versatile approach based on denoising diffusion probabilistic models for ECG synthesis, addressing three scenarios: (i) heartbeat generation, (ii) partial signal imputation, and (iii) full heartbeat forecasting. Our approach presents the first generalized conditional approach for ECG synthesis, and our experimental results demonstrate its effectiveness for various ECG-related tasks. Moreover, we show that our approach outperforms other state-of-the-art ECG generative models and can enhance the performance of state-of-the-art classifiers.
翻訳日:2024-01-30 22:29:30 公開日:2024-01-26
# フォールトトレランス前の量子コンピューティングの有用性に関するエビデンスの高速・収束的古典シミュレーション

Fast and converged classical simulations of evidence for the utility of quantum computing before fault tolerance ( http://arxiv.org/abs/2308.05077v3 )

ライセンス: Link先を確認
Tomislav Begu\v{s}i\'c, Johnnie Gray, Garnet Kin-Lic Chan(参考訳) 厳密な古典的シミュレーション能力を超える127 qubits実装回路における蹴りイジングモデルの可観測性に関する最近の量子シミュレーション スパースパウリ力学とテンソルネットワークアルゴリズムに基づくいくつかの近似古典的手法は、これらの観測可能な順序を量子実験より桁違いに高速にシミュレートでき、また実験精度を超えて体系的に収束できることを示す。 最も正確な手法は,<o>dingerとハイゼンベルクテンソルのネットワーク表現と,信念伝播の自由エントロピー関係を組み合わせることで,実効的な波動関数-作用素サンドイッチ結合次元 >16,000,000 の期待値を計算し,<0.01 の観測値において絶対精度を達成する。 これにより,実験外挿における不正確さを同定し,古典的硬さを高めるために今後の実験方法を提案する。

A recent quantum simulation of observables of the kicked Ising model on 127 qubits implemented circuits that exceed the capabilities of exact classical simulation. We show that several approximate classical methods, based on sparse Pauli dynamics and tensor network algorithms, can simulate these observables orders of magnitude faster than the quantum experiment, and can also be systematically converged beyond the experimental accuracy. Our most accurate technique combines a mixed Schr\"{o}dinger and Heisenberg tensor network representation with the Bethe free entropy relation of belief propagation to compute expectation values with an effective wavefunction-operator sandwich bond dimension >16,000,000, achieving an absolute accuracy, without extrapolation, in the observables of <0.01, which is converged for many practical purposes. We thereby identify inaccuracies in the experimental extrapolations and suggest how future experiments can be implemented to increase the classical hardness.
翻訳日:2024-01-30 22:20:41 公開日:2024-01-26
# REX: AIエージェントの迅速な探索とeXploitation

REX: Rapid Exploration and eXploitation for AI Agents ( http://arxiv.org/abs/2307.08962v2 )

ライセンス: Link先を確認
Rithesh Murthy, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Le Xue, Weiran Yao, Yihao Feng, Zeyuan Chen, Akash Gokul, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese(参考訳) 本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための拡張アプローチを提案する。 既存のAutoGPTスタイルのテクニックには、意思決定の正確な記述に大きく依存することや、従来の強化学習(RL)に似た試行錯誤手順を活用するための体系的なアプローチの欠如など、固有の制限がある。 REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。 このアプローチは、ログからのオフライン動作の利用を可能にすると同時に、既存の基盤モデルとのシームレスな統合を可能にする。 Chain-of-Thoughts(CoT)やReasoning viA Planning(RAP)といった既存の手法との比較分析を通じて、REXベースの手法は同等のパフォーマンスを示し、場合によっては、既存の手法によって達成された結果を超えている。 特に、REXベースの手法は実行時間の大幅な削減を示し、様々なシナリオに適用性を高めている。

In this paper, we propose an enhanced approach for Rapid Exploration and eXploitation for AI Agents called REX. Existing AutoGPT-style techniques have inherent limitations, such as a heavy reliance on precise descriptions for decision-making, and the lack of a systematic approach to leverage try-and-fail procedures akin to traditional Reinforcement Learning (RL). REX introduces an additional layer of rewards and integrates concepts similar to Upper Confidence Bound (UCB) scores, leading to more robust and efficient AI agent performance. This approach has the advantage of enabling the utilization of offline behaviors from logs and allowing seamless integration with existing foundation models while it does not require any model fine-tuning. Through comparative analysis with existing methods such as Chain-of-Thoughts(CoT) and Reasoning viA Planning(RAP), REX-based methods demonstrate comparable performance and, in certain cases, even surpass the results achieved by these existing techniques. Notably, REX-based methods exhibit remarkable reductions in execution time, enhancing their practical applicability across a diverse set of scenarios.
翻訳日:2024-01-30 22:18:32 公開日:2024-01-26
# 量子状態トモグラフィーによる光子の偏光と自由度

Quantum state tomography of photon's polarization and path degrees of freedom ( http://arxiv.org/abs/2308.12813v2 )

ライセンス: Link先を確認
J. L. Montenegro Ferreira and B. de Lima Bernardo(参考訳) 量子状態トモグラフィー(quantum state tomography, qst)は、量子系の密度行列が特定の観測可能な値の測定から特徴づけられる過程であり、量子情報と計算の分野における基本的な柱である。 本研究では、単一光子の偏光と経路自由度で符号化された2つの量子ビットの密度行列を1つの線形光学装置で実現可能な簡単なQST法を提案する。 密度行列は、ここで導入された2点ストークスパラメータの量子バージョンとともに、光子の2つの可能な経路に関連するストークスパラメータを用いて完全に記述できることを実証する。 我々の発見は、開放量子系のダイナミクスを研究するためにフォトニック回路を前進させた。

Quantum state tomography (QST), the process through which the density matrix of a quantum system is characterized from measurements of specific observables, is a fundamental pillar in the fields of quantum information and computation. In this work, we propose a simple QST method to reconstruct the density matrix of two qubits encoded in the polarization and path degrees of freedom of a single photon, which can be realized with a single linear-optical setup. We demonstrate that the density matrix can be fully described in terms of the Stokes parameters related to the two possibles paths of the photon, together with a quantum version of the two-point Stokes parameters introduced here. Our findings put forward photonic circuits for the investigation of the dynamics of open quantum systems.
翻訳日:2024-01-30 22:07:36 公開日:2024-01-26
# 格子演算子の機械学習のための格子過度パラメータ

The Lattice Overparametrization Paradigm for the Machine Learning of Lattice Operators ( http://arxiv.org/abs/2310.06639v2 )

ライセンス: Link先を確認
Diego Marcondes and Junior Barrera(参考訳) 格子演算子の機械学習には3つのボトルネックがある。 統計的観点からは、バイアスが低く、サンプルサイズに対する複雑さが低い事前情報に基づいて、制約のある演算子のクラスを設計する必要がある。 計算の観点からは、クラス上で経験的エラーを最小化する効率的なアルゴリズムが存在するべきである。 理解の観点からは、学習した作用素の性質を導出する必要があるので、その振る舞いは理論的に理解することができる。 統計的ボトルネックは、格子作用素の表現に関する豊富な文献によって克服できるが、それらの一般的な学習アルゴリズムは存在しない。 本稿では,格子内の要素を介してクラスを過度にパラメータ化することで,格子内の関数を最小化するアルゴリズムを適用した学習パラダイムについて述べる。 確率的格子降下アルゴリズムを一般のアルゴリズムとして提示し,その格子オーバーパラメトリゼーションが固定されている限り作用素の制約付きクラスについて学習し,概念の証明となる先行研究について考察する。 さらに、演算子の基礎を過度なパラメータ化から計算するアルゴリズムが存在する場合、その特性を推定することができ、理解ボトルネックも克服される。 この学習パラダイムには、ニューラルネットワークに基づく現代的な手法に欠けている3つの特性がある。 今日ではこれらの特徴を持つ手法の需要が高まっており、数学的形態学はそれらを供給するためのユニークな立場にあると考えている。 lattice overparametrizationパラダイムは、現代の機械学習においてその潜在能力を最大限に発揮する上で欠落している部分かもしれない。

The machine learning of lattice operators has three possible bottlenecks. From a statistical standpoint, it is necessary to design a constrained class of operators based on prior information with low bias, and low complexity relative to the sample size. From a computational perspective, there should be an efficient algorithm to minimize an empirical error over the class. From an understanding point of view, the properties of the learned operator need to be derived, so its behavior can be theoretically understood. The statistical bottleneck can be overcome due to the rich literature about the representation of lattice operators, but there is no general learning algorithm for them. In this paper, we discuss a learning paradigm in which, by overparametrizing a class via elements in a lattice, an algorithm for minimizing functions in a lattice is applied to learn. We present the stochastic lattice descent algorithm as a general algorithm to learn on constrained classes of operators as long as a lattice overparametrization of it is fixed, and we discuss previous works which are proves of concept. Moreover, if there are algorithms to compute the basis of an operator from its overparametrization, then its properties can be deduced and the understanding bottleneck is also overcome. This learning paradigm has three properties that modern methods based on neural networks lack: control, transparency and interpretability. Nowadays, there is an increasing demand for methods with these characteristics, and we believe that mathematical morphology is in a unique position to supply them. The lattice overparametrization paradigm could be a missing piece for it to achieve its full potential within modern machine learning.
翻訳日:2024-01-30 21:47:24 公開日:2024-01-26
# 超高速レーザーパルス中におけるh$_2$の単イオンおよび二重イオン化の電気核ダイナミクス

Electro-nuclear dynamics of single and double ionization of H$_2$ in ultrafast intense laser pulses ( http://arxiv.org/abs/2310.00189v2 )

ライセンス: Link先を確認
Jean-Nicolas Vigneau, Thanh-Tung Nguyen Dang and Eric Charron(参考訳) 超短パルスレーザー場におけるh$_2$分子の単イオンおよび二重イオン化ダイナミクスを効率的にモデル化する方法を提案する。 本手法は, 時間依存性の単分子および二重分子イオン化速度を計算する半解析的手法と, 中間分子イオンH$_2^+$で発生する振動運動を記述する数値的手法に基づく。 このモデルは、H$_2$分子の単一イオン化確率と二重イオン化確率を、計算時間に制限された広い周波数とレーザー強度で予測し、解離イオン化生成物のエネルギーとH$_2$分子のクーロン爆発のエネルギーを現実的に推定することを可能にする。 イオン化収率と陽子運動エネルギー放出スペクトルに対する振動動力学の影響を実証し, 後者の場合, 基本強磁場分子フラグメンテーション機構について考察した。

We present an efficient method for modeling the single and double ionization dynamics of the H$_2$ molecule in ultrashort intense laser fields. This method is based on a semi-analytical approach to calculate the time-dependent single and double molecular ionization rates and on a numerical approach to describe the vibrational motion that takes place in the intermediate molecular ion H$_2^+$. This model allows for the prediction of the single and double ionization probabilities of the H$_2$ molecule to be made over a wide range of frequencies and laser intensities with limited computational time, while providing a realistic estimate of the energy of the products of the dissociative ionization and of the Coulomb explosion of the H$_2$ molecule. The effect of vibrational dynamics on ionization yields and proton kinetic energy release spectra is demonstrated and, in the case of the latter, discussed in terms of basic strong-field molecular fragmentation mechanisms.
翻訳日:2024-01-30 21:42:43 公開日:2024-01-26
# 半導体ウェハの機械学習に基づく欠陥分類に関する経験的および実験的考察

Empirical and Experimental Insights into Machine Learning-Based Defect Classification in Semiconductor Wafers ( http://arxiv.org/abs/2310.10705v3 )

ライセンス: Link先を確認
Kamal Taha(参考訳) 本稿では,半導体製造におけるウエハ欠陥の同定に機械学習(ML)分類技術を用いた方法論の総合的なレビューを行う。 ウェハ欠陥同定におけるmlの有効性を実証する研究が増えているにもかかわらず、本研究の包括的なレビューは明らかでない。 この調査は、利用可能な文献を要約し、ウェハ欠陥検出の領域における様々なML分類アルゴリズムの利点、限界、および潜在的な応用の詳細な分析を提供することによって、この空白を埋めようとしている。 提案する方法論の革新的な分類法では,より洗練されたカテゴリと手法に詳細なアルゴリズムを分類する。 この分類は、広義の方法論のカテゴリから始まり、特定の技法で終わる3層構造に従う。 異なるアルゴリズムとその技術の間の複雑な関係を理解するのに役立つ。 我々は,これらの異なる手法をランク付けするために,厳密な経験的および実験的評価を行っている。 実証評価では,5つの基準のセットに基づいて手法を評価する。 実験評価では、同じ手法、サブカテゴリ、カテゴリを用いたアルゴリズムをランク付けした。 また, ウェハ欠陥同定のためのML分類技術の将来展望を照らし, さらなる研究の機会と可能性について述べる。

This survey paper offers a comprehensive review of methodologies utilizing machine learning (ML) classification techniques for identifying wafer defects in semiconductor manufacturing. Despite the growing body of research demonstrating the effectiveness of ML in wafer defect identification, there is a noticeable absence of comprehensive reviews on this subject. This survey attempts to fill this void by amalgamating available literature and providing an in-depth analysis of the advantages, limitations, and potential applications of various ML classification algorithms in the realm of wafer defect detection. An innovative taxonomy of methodologies that we present provides a detailed classification of algorithms into more refined categories and techniques. This taxonomy follows a three-tier structure, starting from broad methodology categories and ending with specific techniques. It aids researchers in comprehending the complex relationships between different algorithms and their techniques. We employ a rigorous empirical and experimental evaluation to rank these varying techniques. For the empirical evaluation, we assess techniques based on a set of five criteria. The experimental evaluation ranks the algorithms employing the same techniques, sub-categories, and categories. Also the paper illuminates the future prospects of ML classification techniques for wafer defect identification, underscoring potential advancements and opportunities for further research in this field
翻訳日:2024-01-30 21:32:54 公開日:2024-01-26
# 不変型プログラム修復

Invariant-based Program Repair ( http://arxiv.org/abs/2312.16652v2 )

ライセンス: Link先を確認
Omar I. Al-Bataineh(参考訳) 本稿では,プログラム不変量の概念に基づく汎用型自動プログラム修復(APR)フレームワークについて述べる。 修正フレームワークでは、欠陥のあるプログラムの実行トレースを動的に解析して、$\varphi_{correct}$と$\varphi_{violated}$を推論し、ここで$\varphi_{correct}$は、実行に要する可能性のある不変値(よいパターン)の集合を表し、$\varphi_{violated}$は、欠陥のあるプログラムのバグを引き起こす可能性のある疑わしい不変値(悪いパターン)の集合を表す。 これらの仕様は、厳密なプログラム解析技術を用いて洗練され、また、修正プロセスを実行可能なパッチに向けて推進し、生成されたパッチの正しさを評価するためにも使われる。 最初の分析は、プログラムの効率が機能に悪影響を及ぼすことなく向上することを保証するパッチを生成することにより、パフォーマンスバグを処理するための不変ベースのAPRの有効性を示している。

This paper describes a formal general-purpose automated program repair (APR) framework based on the concept of program invariants. In the presented repair framework, the execution traces of a defected program are dynamically analyzed to infer specifications $\varphi_{correct}$ and $\varphi_{violated}$, where $\varphi_{correct}$ represents the set of likely invariants (good patterns) required for a run to be successful and $\varphi_{violated}$ represents the set of likely suspicious invariants (bad patterns) that result in the bug in the defected program. These specifications are then refined using rigorous program analysis techniques, which are also used to drive the repair process towards feasible patches and assess the correctness of generated patches.We demonstrate the usefulness of leveraging invariants in APR by developing an invariant-based repair system for performance bugs. The initial analysis shows the effectiveness of invariant-based APR in handling performance bugs by producing patches that ensure program's efficiency increase without adversely impacting its functionality.
翻訳日:2024-01-30 20:47:36 公開日:2024-01-26
# 時系列異常検出のための大規模言語モデル誘導知識蒸留

Large Language Model Guided Knowledge Distillation for Time Series Anomaly Detection ( http://arxiv.org/abs/2401.15123v1 )

ライセンス: Link先を確認
Chen Liu, Shibo He, Qihang Zhou, Shizhong Li, Wenchao Meng(参考訳) 自己教師付きメソッドは、利用可能なアノテーションの不足により、時系列異常検出で注目を集めている。 それにもかかわらず、彼らは一般的に、利用可能なサンプルのシナリオと矛盾する一般化可能な表現マップを取得するために、広範なトレーニングデータを要求する。 この制限を克服するために,大規模データセットで事前学習した大規模言語モデル(LLM)ベースの教師ネットワークの特徴を模倣するために,学生ネットワークを訓練した知識蒸留に基づく時系列異常検出手法である‘textbf{AnomalyLLM} を提案する。 テスト段階では、教師と学生のネットワークの特徴の相違が大きい場合に異常を検出する。 教師ネットワークの異常サンプルの特徴を学習することを避けるために,2つの重要な戦略を考案した。 1) 学生ネットワークにプロトタイプ信号が組み込まれ, 通常の特徴抽出を集約する。 2) 2つのネットワーク間の表現ギャップを拡大するために合成異常を用いる。 AnomalyLLMは15のデータセットで最先端のパフォーマンスを示し、UCRデータセットの少なくとも14.5\%の精度を向上させる。

Self-supervised methods have gained prominence in time series anomaly detection due to the scarcity of available annotations. Nevertheless, they typically demand extensive training data to acquire a generalizable representation map, which conflicts with scenarios of a few available samples, thereby limiting their performance. To overcome the limitation, we propose \textbf{AnomalyLLM}, a knowledge distillation-based time series anomaly detection approach where the student network is trained to mimic the features of the large language model (LLM)-based teacher network that is pretrained on large-scale datasets. During the testing phase, anomalies are detected when the discrepancy between the features of the teacher and student networks is large. To circumvent the student network from learning the teacher network's feature of anomalous samples, we devise two key strategies. 1) Prototypical signals are incorporated into the student network to consolidate the normal feature extraction. 2) We use synthetic anomalies to enlarge the representation gap between the two networks. AnomalyLLM demonstrates state-of-the-art performance on 15 datasets, improving accuracy by at least 14.5\% in the UCR dataset.
翻訳日:2024-01-30 19:51:21 公開日:2024-01-26
# タンパク質-リガンド結合ダイナミクス学習のための多点対称微分方程式モデル

A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics ( http://arxiv.org/abs/2401.15122v1 )

ライセンス: Link先を確認
Shengchao Liu, Weitao Du, Yanjing Li, Zhuoxinran Li, Vignesh Bhethanabotla, Nakul Rampal, Omar Yaghi, Christian Borgs, Anima Anandkumar, Hongyu Guo, Jennifer Chayes(参考訳) 薬物発見において、タンパク質リガンド結合の分子動力学(MD)シミュレーションは、結合親和性を予測し、輸送特性を推定し、ポケット部位を探索する強力なツールを提供する。 MDシミュレーションの効率向上には、より優れた数値手法による長い歴史があり、最近では機械学習(ML)手法による拡張も行われている。 しかし、拡張時間スケールシミュレーションの正確なモデリングのような課題は残っている。 この問題に対処するために,数値MDを容易にし,タンパク質-リガンド結合ダイナミクスの正確なシミュレーションを提供する最初のMLサロゲートであるNeuralMDを提案する。 本稿では,新しい物理インフォームド多粒性群対称フレームワークを取り入れた原理的アプローチを提案する。 具体的には,(1)ベクトルフレームを用いて群対称性を満足し,多レベルタンパク質-リガンド相互作用を捉えるBindingNetモデル,(2)ニュートン力学の下で軌道を学習する拡張神経微分方程式解法を提案する。 実験では,シングルトラジェクタ10タスクとマルチトラジェクタ結合シミュレーション3タスクを設計する。 従来の数値MDシミュレーションよりも2000$\times$の高速化を実現し,安定性の指標の下では,他のML手法よりも最大80%高い性能を実現している。 さらに、他の機械学習手法と比較して、NeuralMDがより安定したバインディング予測に達することを示す。

In drug discovery, molecular dynamics (MD) simulation for protein-ligand binding provides a powerful tool for predicting binding affinities, estimating transport properties, and exploring pocket sites. There has been a long history of improving the efficiency of MD simulations through better numerical methods and, more recently, by augmenting them with machine learning (ML) methods. Yet, challenges remain, such as accurate modeling of extended-timescale simulations. To address this issue, we propose NeuralMD, the first ML surrogate that can facilitate numerical MD and provide accurate simulations of protein-ligand binding dynamics. We propose a principled approach that incorporates a novel physics-informed multi-grained group symmetric framework. Specifically, we propose (1) a BindingNet model that satisfies group symmetry using vector frames and captures the multi-level protein-ligand interactions, and (2) an augmented neural differential equation solver that learns the trajectory under Newtonian mechanics. For the experiment, we design ten single-trajectory and three multi-trajectory binding simulation tasks. We show the efficiency and effectiveness of NeuralMD, with a 2000$\times$ speedup over standard numerical MD simulation and outperforming all other ML approaches by up to 80\% under the stability metric. We further qualitatively show that NeuralMD reaches more stable binding predictions compared to other machine learning methods.
翻訳日:2024-01-30 19:51:00 公開日:2024-01-26
# 浮動小数点演算におけるReLUとステップネットワークの表現力

Expressive Power of ReLU and Step Networks under Floating-Point Operations ( http://arxiv.org/abs/2401.15121v1 )

ライセンス: Link先を確認
Yeachan Park, Geonho Hwang, Wonyeol Lee, Sejun Park(参考訳) ニューラルネットワークの表現力の研究は、ニューラルネットワークの基本的な限界を調査した。 既存の結果の多くは、実数値入力とパラメータと、ニューラルネットワークの評価中の正確な操作を仮定している。 しかし、ニューラルネットワークは通常、現実の小さなサブセットしか表現できず、不正確な操作を適用できないコンピュータ上で実行される。 本研究では,浮動小数点数と演算を使用する場合,ニューラルネットワークの表現力をより現実的な設定で解析する。 最初の結果の集合は浮動小数点演算を仮定し、浮動小数点演算は有限ビットで表されるが、指数は任意の整数値を取ることができる。 この設定では、バイナリしきい値単位またはReLUを用いたニューラルネットワークが有限入力/出力ペアを記憶し、小さな誤差内で連続関数を近似することができることを示す。 また,浮動小数点演算が有意および指数の両方に有限ビットを使用する場合の暗記や普遍近似についても同様の結果を示す。これらの結果はIEEE 754規格(例えば,32ビット単精度フォーマット)やbfloat16など,多くの一般的な浮動小数点フォーマットに適用できる。

The study of the expressive power of neural networks has investigated the fundamental limits of neural networks. Most existing results assume real-valued inputs and parameters as well as exact operations during the evaluation of neural networks. However, neural networks are typically executed on computers that can only represent a tiny subset of the reals and apply inexact operations. In this work, we analyze the expressive power of neural networks under a more realistic setup: when we use floating-point numbers and operations. Our first set of results assumes floating-point operations where the significand of a float is represented by finite bits but its exponent can take any integer value. Under this setup, we show that neural networks using a binary threshold unit or ReLU can memorize any finite input/output pairs and can approximate any continuous function within a small error. We also show similar results on memorization and universal approximation when floating-point operations use finite bits for both significand and exponent; these results are applicable to many popular floating-point formats such as those defined in the IEEE 754 standard (e.g., 32-bit single-precision format) and bfloat16.
翻訳日:2024-01-30 19:50:36 公開日:2024-01-26
# コンテキスト駆動自己教師付き視覚学習: 環境をデータソースとして活用する

Context-driven self-supervised visual learning: Harnessing the environment as a data source ( http://arxiv.org/abs/2401.15120v1 )

ライセンス: Link先を確認
Lizhen Zhu and James Z. Wang and Wonseuk Lee and Brad Wyble(参考訳) 視覚学習は、エージェントが一貫した環境でその場所を探索し追跡することでスキルを取得する特定の文脈でしばしば発生する。 エージェントの歴史的空間的文脈は、自己教師付きコントラスト学習のための類似性信号を提供する。 本稿では,既存のコントラスト学習手法を補完する,環境空間類似性(ESS)というユニークなアプローチを提案する。 シミュレーションされたフォトリアリスティックな環境のイメージを実験環境として使用することにより、ESSが従来のインスタンス識別手法より優れていることを示す。 さらに、同じ環境から追加データをサンプリングすることで、精度が大幅に向上し、新たな拡張を提供する。 ESSは部屋の分類や空間予測タスク、特に馴染みの無い環境での卓越した熟練を可能にします。 この学習パラダイムは、ユニークな視覚特性を持つ新しい環境で動作するエージェントにおいて、迅速な視覚学習を可能にする可能性がある。 潜在的にトランスフォーメーションなアプリケーションは、ロボティクスから宇宙探査まで幅広い。 我々の概念実証は、広範囲で非連結なデータセットに依存する手法よりも効率が向上していることを示す。

Visual learning often occurs in a specific context, where an agent acquires skills through exploration and tracking of its location in a consistent environment. The historical spatial context of the agent provides a similarity signal for self-supervised contrastive learning. We present a unique approach, termed Environmental Spatial Similarity (ESS), that complements existing contrastive learning methods. Using images from simulated, photorealistic environments as an experimental setting, we demonstrate that ESS outperforms traditional instance discrimination approaches. Moreover, sampling additional data from the same environment substantially improves accuracy and provides new augmentations. ESS allows remarkable proficiency in room classification and spatial prediction tasks, especially in unfamiliar environments. This learning paradigm has the potential to enable rapid visual learning in agents operating in new environments with unique visual characteristics. Potentially transformative applications span from robotics to space exploration. Our proof of concept demonstrates improved efficiency over methods that rely on extensive, disconnected datasets.
翻訳日:2024-01-30 19:50:08 公開日:2024-01-26
# 新型コロナウイルス感染集団の時系列トランスフォーマモデルと感度分析

Interpreting Time Series Transformer Models and Sensitivity Analysis of Population Age Groups to COVID-19 Infections ( http://arxiv.org/abs/2401.15119v1 )

ライセンス: Link先を確認
Md Khairul Islam, Tyler Valentine, Timothy Joowon Sue, Ayush Karmacharya, Luke Neil Benham, Zhengguang Wang, Kingsley Kim, Judy Fox(参考訳) ディープラーニングの時系列モデルを解釈することは、モデルの振る舞いや学習パターンを生データから理解し、リアルタイムな意思決定に不可欠である。 しかし、トランスフォーマーに基づく時系列モデルに固有の複雑さは、個々の特徴が予測に与える影響を説明する上での課題となる。 本研究では,最近の局所的解釈手法を利用して,最新の時系列モデルを解釈する。 実世界のデータセットを使用するために、3,142郡で毎日3年間のケースデータを収集した。 まず,6つのトランスフォーマーモデルを比較し,covid-19感染予測モデルを選択する。 過去2週間の13の入力機能を使用して、今後2週間のケースを予測することができる。 第2に,高ダイナミック多変量感染データを用いた8つの集団年齢群に対する予測感度の評価方法を提案する。 第3に,提案する摂動に基づく解釈法と関連する8つの解釈法との比較を行った。 最後に、我々のフレームワークをトラフィックと電気のデータセットに適用し、我々のアプローチが汎用的で、他の時系列領域に適用可能であることを示す。

Interpreting deep learning time series models is crucial in understanding the model's behavior and learning patterns from raw data for real-time decision-making. However, the complexity inherent in transformer-based time series models poses challenges in explaining the impact of individual features on predictions. In this study, we leverage recent local interpretation methods to interpret state-of-the-art time series models. To use real-world datasets, we collected three years of daily case data for 3,142 US counties. Firstly, we compare six transformer-based models and choose the best prediction model for COVID-19 infection. Using 13 input features from the last two weeks, we can predict the cases for the next two weeks. Secondly, we present an innovative way to evaluate the prediction sensitivity to 8 population age groups over highly dynamic multivariate infection data. Thirdly, we compare our proposed perturbation-based interpretation method with related work, including a total of eight local interpretation methods. Finally, we apply our framework to traffic and electricity datasets, demonstrating that our approach is generic and can be applied to other time-series domains.
翻訳日:2024-01-30 19:49:52 公開日:2024-01-26
# GeoDecoder: マルチモーダルマップ理解の強化

GeoDecoder: Empowering Multimodal Map Understanding ( http://arxiv.org/abs/2401.15118v1 )

ライセンス: Link先を確認
Feng Qi, Mian Dai, Zixian Zheng, Chao Wang(参考訳) 本稿では,地理空間情報を処理するための専用マルチモーダルモデルgeodecoderを提案する。 GeoDecoderはBeitGPTアーキテクチャに基づいて構築されており、画像やテキスト処理の専門的なモジュールが組み込まれている。 画像側では、GeoDecoderはGaoDe Amapを基盤となるベースマップとして使用しています。 レンダリング技術の利用により、モデルは外部データとシンボルマーカー、ドライブ軌道、ヒートマップ、ユーザ定義マーカーなどの機能をシームレスに統合し、追加の機能エンジニアリングの必要性をなくす。 geodecoderのテキストモジュールは、さまざまなコンテキストテキストと質問プロンプトを受け付け、gptのスタイルでテキスト出力を生成する。 さらに、GPTベースのモデルは、エンドツーエンドで同じモデル内で複数のタスクのトレーニングと実行を可能にする。 北京の地理空間の分布に関する知識をジオデコーダが取得できるようにするため,8つの基本的な地理空間課題を考案し,大規模テキスト画像サンプルを用いてモデルの事前学習を行った。 その後、3つの下流タスクで迅速な微調整が行われ、パフォーマンスが大幅に向上した。 geodecoderモデルは、マップ要素とその関連操作の包括的理解を示し、異なるビジネスシナリオにおける多様な地理空間タスクの効率的かつ高品質な適用を可能にする。

This paper presents GeoDecoder, a dedicated multimodal model designed for processing geospatial information in maps. Built on the BeitGPT architecture, GeoDecoder incorporates specialized expert modules for image and text processing. On the image side, GeoDecoder utilizes GaoDe Amap as the underlying base map, which inherently encompasses essential details about road and building shapes, relative positions, and other attributes. Through the utilization of rendering techniques, the model seamlessly integrates external data and features such as symbol markers, drive trajectories, heatmaps, and user-defined markers, eliminating the need for extra feature engineering. The text module of GeoDecoder accepts various context texts and question prompts, generating text outputs in the style of GPT. Furthermore, the GPT-based model allows for the training and execution of multiple tasks within the same model in an end-to-end manner. To enhance map cognition and enable GeoDecoder to acquire knowledge about the distribution of geographic entities in Beijing, we devised eight fundamental geospatial tasks and conducted pretraining of the model using large-scale text-image samples. Subsequently, rapid fine-tuning was performed on three downstream tasks, resulting in significant performance improvements. The GeoDecoder model demonstrates a comprehensive understanding of map elements and their associated operations, enabling efficient and high-quality application of diverse geospatial tasks in different business scenarios.
翻訳日:2024-01-30 19:49:35 公開日:2024-01-26
# 線形関数近似を用いた正規化Q-Learning

Regularized Q-Learning with Linear Function Approximation ( http://arxiv.org/abs/2401.15196v1 )

ライセンス: Link先を確認
Jiachen Xi, Alfredo Garcia, Petar Momcilovic(参考訳) いくつかの強化学習アルゴリズムは、探索と堅牢性の強化を示すマルチモーダルポリシーを促進するために正規化を利用する。 関数近似では、これらのアルゴリズムの収束特性(ソフトQ-ラーニングなど)はよく理解されていない。 本稿では,線形関数近似の場合の有限時間収束保証により,投影されたベルマン誤差を最小化する単一ループアルゴリズムについて考察する。 このアルゴリズムは、状態動作値のターゲットネットワークを更新するためのより遅いスケールと、基底ベクトルのスパン部分空間におけるベルマンバックアップを近似する高速なスケールの2つのスケールで動作する。 特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。 また,提案アルゴリズムから得られたポリシーに対して性能保証を行う。

Several successful reinforcement learning algorithms make use of regularization to promote multi-modal policies that exhibit enhanced exploration and robustness. With functional approximation, the convergence properties of some of these algorithms (e.g. soft Q-learning) are not well understood. In this paper, we consider a single-loop algorithm for minimizing the projected Bellman error with finite time convergence guarantees in the case of linear function approximation. The algorithm operates on two scales: a slower scale for updating the target network of the state-action values, and a faster scale for approximating the Bellman backups in the subspace of the span of basis vectors. We show that, under certain assumptions, the proposed algorithm converges to a stationary point in the presence of Markovian noise. In addition, we provide a performance guarantee for the policies derived from the proposed algorithm.
翻訳日:2024-01-30 19:38:19 公開日:2024-01-26
# SBFT Tool Competition 2024 -- Pythonテストケース生成トラック

SBFT Tool Competition 2024 -- Python Test Case Generation Track ( http://arxiv.org/abs/2401.15189v1 )

ライセンス: Link先を確認
Nicolas Erni and Al-Ameen Mohammed Ali Mohammed and Christian Birchler and Pouria Derakhshanfar and Stephan Lukasczyk and Sebastiano Panichella(参考訳) python用のテストケース生成(tcg)は、言語の動的な性質と厳格な型情報がないため、特有の課題となる。 これまでの研究では、ランダムなテスト生成メソッドよりも優れたソリューションを備えた、pythonのユニットtcgの自動探索に成功している。 それでも、基本的な問題は続き、既存のテストケースジェネレータの実践的採用を妨げる。 これらの課題に対処するため、Python Testing Competitionの最初のエディションの組織、課題、結果について報告します。 UTBotPython、Klara、Phythesis Ghostwriter、Pynguinの4つのツールは、オープンソースの7つのPythonプロジェクトからサンプリングされた35のPythonソースファイルからなるベンチマークセットで400秒間実行された。 テスト対象毎に各ツールの構成を1つ検討し,コードおよび変異範囲の観点からツールの有効性を評価した。 本稿では,本手法と競合するツールとともに結果の分析を行い,コンペティション実験の実施中に直面する課題について述べる。

Test case generation (TCG) for Python poses distinctive challenges due to the language's dynamic nature and the absence of strict type information. Previous research has successfully explored automated unit TCG for Python, with solutions outperforming random test generation methods. Nevertheless, fundamental issues persist, hindering the practical adoption of existing test case generators. To address these challenges, we report on the organization, challenges, and results of the first edition of the Python Testing Competition. Four tools, namely UTBotPython, Klara, Hypothesis Ghostwriter, and Pynguin were executed on a benchmark set consisting of 35 Python source files sampled from 7 open-source Python projects for a time budget of 400 seconds. We considered one configuration of each tool for each test subject and evaluated the tools' effectiveness in terms of code and mutation coverage. This paper describes our methodology, the analysis of the results together with the competing tools, and the challenges faced while running the competition experiments.
翻訳日:2024-01-30 19:38:05 公開日:2024-01-26
# CAREForMe:メンタルヘルスのためのコンテキスト多要素バンドレコメンデーションフレームワーク

CAREForMe: Contextual Multi-Armed Bandit Recommendation Framework for Mental Health ( http://arxiv.org/abs/2401.15188v1 )

ライセンス: Link先を確認
Sheng Yu, Narjes Nourzad, Randye J. Semple, Yixue Zhao, Emily Zhou, Bhaskar Krishnamachari(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、人々の日常生活における効果的でアクセスしやすいメンタルヘルス介入の緊急性を高めている。 AI ChatbotsやMindfulness Appsといったモバイルヘルス(mHealth)ソリューションは、従来の臨床環境を超えて日々の生活をサポートするように拡張されている。 しかし、現在のmHealthソリューションの有効性は、その再利用性を高めるためのコンテキスト認識、パーソナライゼーション、モジュラリティの欠如によって妨げられている。 本稿では、メンタルヘルスのためのコンテキスト型マルチアームバンディット(CMAB)勧告フレームワークであるCAREForMeを紹介する。 careformeは、コンテキスト認識、パーソナライゼーション、モジュール性を備えたデザインで、モバイルセンシングを利用して、オンライン学習アルゴリズムとユーザクラスタリング機能を統合し、タイムリーでパーソナライズされたレコメンデーションを提供する。 CAREForMeはモジュール設計により、将来の研究をガイドするためのカスタマイズ可能なレコメンデーションフレームワークと、mHealth研究における学際的な貢献を促進するための共同プラットフォームの両方を提供する。 さまざまなプラットフォーム(例えばDiscord, Telegram)で実装されたCAREForMeの汎用性と,さまざまなレコメンデーション機能へのカスタマイズについて紹介する。

The COVID-19 pandemic has intensified the urgency for effective and accessible mental health interventions in people's daily lives. Mobile Health (mHealth) solutions, such as AI Chatbots and Mindfulness Apps, have gained traction as they expand beyond traditional clinical settings to support daily life. However, the effectiveness of current mHealth solutions is impeded by the lack of context-awareness, personalization, and modularity to foster their reusability. This paper introduces CAREForMe, a contextual multi-armed bandit (CMAB) recommendation framework for mental health. Designed with context-awareness, personalization, and modularity at its core, CAREForMe harnesses mobile sensing and integrates online learning algorithms with user clustering capability to deliver timely, personalized recommendations. With its modular design, CAREForMe serves as both a customizable recommendation framework to guide future research, and a collaborative platform to facilitate interdisciplinary contributions in mHealth research. We showcase CAREForMe's versatility through its implementation across various platforms (e.g., Discord, Telegram) and its customization to diverse recommendation features.
翻訳日:2024-01-30 19:37:50 公開日:2024-01-26
# 2+1$)次元SU(2)格子ゲージ理論の絡み合いエントロピー

Entanglement Entropy of ($2+1$)-Dimensional SU(2) Lattice Gauge Theory ( http://arxiv.org/abs/2401.15184v1 )

ライセンス: Link先を確認
Lukas Ebner, Andreas Sch\"afer, Clemens Seidl, Berndt M\"uller and Xiaojun Yao(参考訳) 線形プラーペット鎖上の2+1$次元のハミルトニアンsu(2)格子ゲージ理論の絡み合いエントロピーを研究し、基底状態と励起状態の両方の絡み合いエントロピーがページ曲線に従うことを示した。 基底状態の領域法則から高励起状態の体積法則への絡み合いエントロピーのサブシステムサイズ依存性の遷移は、普遍的クロスオーバー関数によって説明できる。 スペクトルの中央にある量子多体傷は、ゲージ理論をイジングモデルにマッピングできる電束切断ヒルベルト空間に存在するが、より高い電場表現がヒルベルト空間基底に含まれると消滅する。 これは連続体 $(2+1)$-次元 SU(2) ゲージ理論が `fast' のスクランブラであることを示唆している。

We study the entanglement entropy of Hamiltonian SU(2) lattice gauge theory in $2+1$ dimensions on linear plaquette chains and show that the entanglement entropies of both ground and excited states follow Page curves. The transition of the subsystem size dependence of the entanglement entropy from the area law for the ground state to the volume law for highly excited states is found to be described by a universal crossover function. Quantum many-body scars in the middle of the spectrum, which are present in the electric flux truncated Hilbert space, where the gauge theory can be mapped onto an Ising model, disappear when higher electric field representations are included in the Hilbert space basis. This suggests the continuum $(2+1)$-dimensional SU(2) gauge theory is a ``fast'' scrambler.
翻訳日:2024-01-30 19:37:27 公開日:2024-01-26
# コンポスト栄養素推定のための食品廃棄物画像のセグメンテーションと分類

Kitchen Food Waste Image Segmentation and Classification for Compost Nutrients Estimation ( http://arxiv.org/abs/2401.15175v1 )

ライセンス: Link先を確認
Raiyan Rahman, Mohsena Chowdhury, Yueyang Tang, Huayi Gao, George Yin, Guanghui Wang(参考訳) 大規模な食料の浪費に対する世界的な懸念は、ネットゼロのライフスタイルを育み、排出を減らす革新的な解決策を必要としている。 lila home composterは、キッチンスクラップと日々の食品廃棄物を栄養豊富な高品質のコンポストにリサイクルする便利な方法を提供している。 生成したコンポストの栄養情報を取得するため, 食品廃棄物の高分解能画像データセットを19種類の栄養豊富なカテゴリのセグメンテーションマスクで作成し, 注釈した。 このデータセットを活用し,食品廃棄物の分節化に関する最新の4つのセマンティクスセグメンテーションモデルをベンチマークし,窒素,リン,カリウムのコンポスト品質の評価に寄与した。 本実験は, 日常の食品廃棄物を識別するためにセグメンテーションモデルを用いた有望な結果を示す。 実験に基づいて、MIT-B5のバックボーンを利用するSegFormerは、平均的なIntersection over Union (mIoU)の67.09で最高のパフォーマンスを得る。 また, 食品廃棄物のクラス別分析の促進を目的として, クラス別の結果も提示した。

The escalating global concern over extensive food wastage necessitates innovative solutions to foster a net-zero lifestyle and reduce emissions. The LILA home composter presents a convenient means of recycling kitchen scraps and daily food waste into nutrient-rich, high-quality compost. To capture the nutritional information of the produced compost, we have created and annotated a large high-resolution image dataset of kitchen food waste with segmentation masks of 19 nutrition-rich categories. Leveraging this dataset, we benchmarked four state-of-the-art semantic segmentation models on food waste segmentation, contributing to the assessment of compost quality of Nitrogen, Phosphorus, or Potassium. The experiments demonstrate promising results of using segmentation models to discern food waste produced in our daily lives. Based on the experiments, SegFormer, utilizing MIT-B5 backbone, yields the best performance with a mean Intersection over Union (mIoU) of 67.09. Class-based results are also provided to facilitate further analysis of different food waste classes.
翻訳日:2024-01-30 19:37:13 公開日:2024-01-26
# オットー型2ストローク量子エンジンの触媒的利点

Catalytic advantage in Otto-like two-stroke quantum engines ( http://arxiv.org/abs/2401.15173v1 )

ライセンス: Link先を確認
Marcin {\L}obejko, Tanmoy Biswas, Pawe{\l} Mazurek and Micha{\l} Horodecki(参考訳) 熱エンジンの性能を向上させるために触媒を組み込む方法を示す。 具体的には、2ストロークのみで動作し、2段階のシステムからなる最も単純なエンジンモデルの1つで効率を解析し、d$-dimensional 触媒によって支援される可能性がある。 触媒が存在しない場合、機械の効率はオットー効率によって与えられる。 触媒の導入により、この境界を克服するプロトコルを構築することができ、一方、新しい効率性はオットーの公式の一般化として単純形式で表される: $1 - \frac{1}{d} \frac{\omega_c}{\omega_h}$。 触媒はまた、機械がエンジンとして機能するより広い操作範囲のパラメータを提供する。 エンジン効率の上昇は、主に作業生産の減少を伴うが(システムがCarnot効率に近づいたときにゼロになる)、作業と効率のトレードオフがより有利になる可能性がある。 本報告では, 有限次元アシラリーシステムによる熱機械の性能向上の可能性を紹介する。

We demonstrate how to incorporate a catalyst to enhance the performance of a heat engine. Specifically, we analyze efficiency in one of the simplest engines models, which operates in only two strokes and comprises of a pair of two-level systems, potentially assisted by a $d$-dimensional catalyst. When no catalysis is present, the efficiency of the machine is given by the Otto efficiency. Introducing the catalyst allows for constructing a protocol which overcomes this bound, while new efficiency can be expressed in a simple form as a generalization of Otto's formula: $1 - \frac{1}{d} \frac{\omega_c}{\omega_h}$. The catalyst also provides a bigger operational range of parameters in which the machine works as an engine. Although an increase in engine efficiency is mostly accompanied by a decrease in work production (approaching zero as the system approaches Carnot efficiency), it can lead to a more favorable trade-off between work and efficiency. The provided example introduces new possibilities for enhancing performance of thermal machines through finite-dimensional ancillary systems.
翻訳日:2024-01-30 19:36:55 公開日:2024-01-26
# llmsによるスケーラブルな質的コーディング:いくつかのhermeneuticタスクにおける人間のパフォーマンスにマッチする思考連鎖推論

Scalable Qualitative Coding with LLMs: Chain-of-Thought Reasoning Matches Human Performance in Some Hermeneutic Tasks ( http://arxiv.org/abs/2401.15170v1 )

ライセンス: Link先を確認
Zackary Okun Dunivin(参考訳) 質的コーディング(英: Qualitative coding)は、テキストから意味を抽出し、テキストのコーパス間で定量的なパターンを識別する。 近年、大言語モデル(llm)の解釈能力の進歩により、コーディングプロセスの自動化(カテゴリラベルをテキストに適用)が可能となり、人間研究者はこれらの解釈タスクをaiに委譲しながら、より創造的な研究の側面に集中することができる。 本研究は,人文科学研究を代表とした,密集した段落長通路の社会史的コードからなる。 GPT-4は人間と同等の解釈が可能であるのに対して、GPT-3.5はそうではない。 我々の人間由来のゴールド標準と比較して、GPT-4は9コード中3コードに対して優れたインターコーダ信頼性(コーエンの$\kappa \geq 0.79$)、9コード中8コードに対して相当な信頼性(\kappa \geq 0.6$)を提供する。 対照的に、GPT-3.5はすべてのコード(mean(\kappa) = 0.34$; $max(\kappa) = 0.55$)に対して大幅に性能が低下する。 重要なのは、LCMがコーディング決定を正当化する根拠を与えるように促されたとき、コーディングの忠実さが大幅に改善することです。 従来のコードブックをLLMに適用するためのベストプラクティスと合わせて,これらの知見を紹介する。 以上の結果から,一部のコードブックでは,既存のLCMが大規模コンテンツ解析に有効であることが示唆された。 さらに彼らは、次世代モデルのAIコーディングがコードブックの大部分で実行可能な選択肢になる可能性が高いことを示唆している。

Qualitative coding, or content analysis, extracts meaning from text to discern quantitative patterns across a corpus of texts. Recently, advances in the interpretive abilities of large language models (LLMs) offer potential for automating the coding process (applying category labels to texts), thereby enabling human researchers to concentrate on more creative research aspects, while delegating these interpretive tasks to AI. Our case study comprises a set of socio-historical codes on dense, paragraph-long passages representative of a humanistic study. We show that GPT-4 is capable of human-equivalent interpretations, whereas GPT-3.5 is not. Compared to our human-derived gold standard, GPT-4 delivers excellent intercoder reliability (Cohen's $\kappa \geq 0.79$) for 3 of 9 codes, and substantial reliability ($\kappa \geq 0.6$) for 8 of 9 codes. In contrast, GPT-3.5 greatly underperforms for all codes ($mean(\kappa) = 0.34$; $max(\kappa) = 0.55$). Importantly, we find that coding fidelity improves considerably when the LLM is prompted to give rationale justifying its coding decisions (chain-of-thought reasoning). We present these and other findings along with a set of best practices for adapting traditional codebooks for LLMs. Our results indicate that for certain codebooks, state-of-the-art LLMs are already adept at large-scale content analysis. Furthermore, they suggest the next generation of models will likely render AI coding a viable option for a majority of codebooks.
翻訳日:2024-01-30 19:36:37 公開日:2024-01-26
# AMuSE:グループ会話における話者感情認識のための適応的マルチモーダル分析

AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations ( http://arxiv.org/abs/2401.15164v1 )

ライセンス: Link先を確認
Naresh Kumar Devulapally, Sidharth Anand, Sreyasee Das Bhattacharjee, Junsong Yuan, Yu-Ping Chang(参考訳) グループ会話中の個々の感情を分析することは、自然な人間と機械の相互作用が可能な知的エージェントを開発する上で重要である。 信頼できる感情認識技術は、異なるモーダル性(テキスト、音声、ビデオ)に依存するが、これらのモーダル性と個人固有の行動パターンに影響される動的相互モーダル相互作用の間の固有の不均一性は、感情認識のタスクを非常に困難にする。 この難しさは、感情とその時間的進化が個人だけでなく、聴衆の反応や進行中の会話の文脈といった外部の文脈にも影響されるグループ設定で複合される。 この課題に対処するために、モード固有の周辺ネットワークと中央ネットワークの対話的集合を共同で学習することにより、様々な空間抽象レベルでの相互モーダル相互作用をキャプチャするマルチモーダル注意ネットワークを提案する。 提案手法では,モード固有の中央問合せネットワークの各層に周辺キー値ペアを介してクロスモーダル注意を注入する。 結果として得られたモード固有の記述子をAdaptive Fusion技術で組み合わせることで、モデルがインスタンス固有のマルチモーダル記述子に識別型および補完型モード固有のデータパターンを統合することができる。 発話列で表される対話が与えられた場合、提案したAMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。 これは、大規模な公開データセットにおいて、より良い分類性能(3-5%の重み付きF1の改善と5-7%の正確性の改善)を提供するだけでなく、モデルのそれぞれの感情予測の背後にある理由を、Multimodal Explainability Visualizationモジュールを通じて理解する上でも役立ちます。

Analyzing individual emotions during group conversation is crucial in developing intelligent agents capable of natural human-machine interaction. While reliable emotion recognition techniques depend on different modalities (text, audio, video), the inherent heterogeneity between these modalities and the dynamic cross-modal interactions influenced by an individual's unique behavioral patterns make the task of emotion recognition very challenging. This difficulty is compounded in group settings, where the emotion and its temporal evolution are not only influenced by the individual but also by external contexts like audience reaction and context of the ongoing conversation. To meet this challenge, we propose a Multimodal Attention Network that captures cross-modal interactions at various levels of spatial abstraction by jointly learning its interactive bunch of mode-specific Peripheral and Central networks. The proposed MAN injects cross-modal attention via its Peripheral key-value pairs within each layer of a mode-specific Central query network. The resulting cross-attended mode-specific descriptors are then combined using an Adaptive Fusion technique that enables the model to integrate the discriminative and complementary mode-specific data patterns within an instance-specific multimodal descriptor. Given a dialogue represented by a sequence of utterances, the proposed AMuSE model condenses both spatial and temporal features into two dense descriptors: speaker-level and utterance-level. This helps not only in delivering better classification performance (3-5% improvement in Weighted-F1 and 5-7% improvement in Accuracy) in large-scale public datasets but also helps the users in understanding the reasoning behind each emotion prediction made by the model via its Multimodal Explainability Visualization module.
翻訳日:2024-01-30 19:36:07 公開日:2024-01-26
# 量子および古典的粗大化とそのキブルズレック機構との相互作用

Quantum and classical coarsening and their interplay with the Kibble-Zurek mechanism ( http://arxiv.org/abs/2401.15144v1 )

ライセンス: Link先を確認
Rhine Samajdar and David A. Huse(参考訳) 量子相転移を介して駆動される閉量子システムの平衡外ダイナミクスを理解することは、量子状態形成と断熱アルゴリズムに広く影響する重要な問題である。 量子キブル・ズレーク機構はこれらの力学の一部を解明する一方で、その後の重要な粗い過程はその範囲を超えている。 ここでは,このような粗さ化ダイナミクスの普遍的な記述と,それらのキブル・ズレーク機構との相互作用を,スケーリング理論の観点で展開する。 我々の包括的理論的枠組みは多様なランププロトコルに適用され、量子揺らぎと熱揺らぎの両方を含む様々な粗いシナリオを包含する。 さらに、今日の「合成」量子多体系(Rydberg原子配列を含む)において、このような粗いダイナミクスがどのように直接研究されるのかを強調し、実験的な観察の詳細な提案を示す。

Understanding the out-of-equilibrium dynamics of a closed quantum system driven across a quantum phase transition is an important problem with widespread implications for quantum state preparation and adiabatic algorithms. While the quantum Kibble-Zurek mechanism elucidates part of these dynamics, the subsequent and significant coarsening processes lie beyond its scope. Here, we develop a universal description of such coarsening dynamics -- and their interplay with the Kibble-Zurek mechanism -- in terms of scaling theories. Our comprehensive theoretical framework applies to a diverse set of ramp protocols and encompasses various coarsening scenarios involving both quantum and thermal fluctuations. Moreover, we highlight how such coarsening dynamics can be directly studied in today's "synthetic" quantum many-body systems, including Rydberg atom arrays, and present a detailed proposal for their experimental observation.
翻訳日:2024-01-30 19:35:30 公開日:2024-01-26
# スパース金融指標追跡のためのFDR制御ポートフォリオ最適化

FDR-Controlled Portfolio Optimization for Sparse Financial Index Tracking ( http://arxiv.org/abs/2401.15139v1 )

ライセンス: Link先を確認
Jasin Machkour, Daniel P. Palomar, Michael Muma(参考訳) 金融指標追跡や生物医学的応用といった高次元データ分析では、偽発見率(fdr)の制御を維持しながら、関連する変数を選択することが重要である。 これらのアプリケーションでは、強い依存が変数(例えばストックリターン)の間に存在し、モデル-Xノックオフ法やT-Rexセレクタのような既存のメソッドのFDR制御特性を損なうことがある。 この問題に対処するため、高相関変数の重なり合うグループに対応するためにT-Rexフレームワークを拡張した。 これは、最寄りのペナリゼーションメカニズムをフレームワークに統合することで実現され、ユーザ定義のターゲットレベルでfdrを確実に制御する。 スパース・インデックス・トラッキングの実際の例では、s&p500種株価指数を少数の株式に基づいて過去20年間に正確に追跡する手法が示されている。 オープンソース実装は、CRAN上のRパッケージTRexSelector内に提供される。

In high-dimensional data analysis, such as financial index tracking or biomedical applications, it is crucial to select the few relevant variables while maintaining control over the false discovery rate (FDR). In these applications, strong dependencies often exist among the variables (e.g., stock returns), which can undermine the FDR control property of existing methods like the model-X knockoff method or the T-Rex selector. To address this issue, we have expanded the T-Rex framework to accommodate overlapping groups of highly correlated variables. This is achieved by integrating a nearest neighbors penalization mechanism into the framework, which provably controls the FDR at the user-defined target level. A real-world example of sparse index tracking demonstrates the proposed method's ability to accurately track the S&P 500 index over the past 20 years based on a small number of stocks. An open-source implementation is provided within the R package TRexSelector on CRAN.
翻訳日:2024-01-30 19:35:14 公開日:2024-01-26
# biphoton polarization qutritsの全a-priori未知パラメータの直接的、完全的、単値回復を提供する測定プロトコル

A protocol of measurements providing direct, complete and single-valued recover of all a-priori unknown parameters of biphoton polarization qutrits ( http://arxiv.org/abs/2401.15137v1 )

ライセンス: Link先を確認
M.V. Fedorov, C.C. Mernova, K.V. Sliporod(参考訳) 両光子偏光キュートリットの全てのパラメータの完全な確率的表現、すなわち、測定結果を得る確率を通じて、キュートリットの全てのパラメータに対して明示的な表現を提供する測定のプロトコルを提案し、記述する。

We suggest and describe the protocol of measurements providing completely probabilistic representation of all parameters of biphoton polarization qutrits, i.e providing explicit expressions for all parameters of qutrits via the probabilities of getting those or other results in measurements.
翻訳日:2024-01-30 19:34:56 公開日:2024-01-26
# 対称現実の創発について

On the Emergence of Symmetrical Reality ( http://arxiv.org/abs/2401.15132v1 )

ライセンス: Link先を確認
Zhenliang Zhang, Zeyu Zhang, Ziyuan Jiao, Yao Su, Hangxin Liu, Wei Wang, Song-Chun Zhu(参考訳) 人工知能(AI)は人間の認知能力に革命をもたらし、物理的な環境と仮想環境の両方で人間と対話できる新しいAIエンティティの開発を促進する。 仮想現実、混合現実、拡張現実が数年にわたって存在しているにもかかわらず、これらの技術分野を統合することは、その異なる応用方向のため、恐ろしい課題である。 自律的な認識と行動が可能なAIエージェントの出現は、従来の人間中心の研究アプローチの限界を明らかにすることによって、この問題をさらに複雑にする。 物理的な世界と仮想世界の両方において、人間とAIエージェントの二重知覚中心に対応する包括的なフレームワークを確立することが不可欠である。 本稿では,物理仮想アマルガメーションの様々な形態を包含した統一表現を提供する対称現実感フレームワークを提案する。 このフレームワークにより、研究者はAIエージェントが人間とどのように協力するか、そして物理的な仮想統合の異なる技術的経路がより広い視点からどのように統合されるかを理解することができる。 そして、私たちは人間とAIの共存を掘り下げ、水を注ぐような特定のタスクのために対称現実システムの動作を実証するプロトタイプシステムを実証した。 続いて、対称現実の潜在的な応用を示すAI駆動型アクティブアシストサービスの事例を提案する。 本稿では,異なる分野の研究者や実践者に有益な視点とガイダンスを提供することを目標とし,物理的および仮想環境における人間とAIの共存に関する継続的な研究に寄与する。

Artificial intelligence (AI) has revolutionized human cognitive abilities and facilitated the development of new AI entities capable of interacting with humans in both physical and virtual environments. Despite the existence of virtual reality, mixed reality, and augmented reality for several years, integrating these technical fields remains a formidable challenge due to their disparate application directions. The advent of AI agents, capable of autonomous perception and action, further compounds this issue by exposing the limitations of traditional human-centered research approaches. It is imperative to establish a comprehensive framework that accommodates the dual perceptual centers of humans and AI agents in both physical and virtual worlds. In this paper, we introduce the symmetrical reality framework, which offers a unified representation encompassing various forms of physical-virtual amalgamations. This framework enables researchers to better comprehend how AI agents can collaborate with humans and how distinct technical pathways of physical-virtual integration can be consolidated from a broader perspective. We then delve into the coexistence of humans and AI, demonstrating a prototype system that exemplifies the operation of symmetrical reality systems for specific tasks, such as pouring water. Subsequently, we propose an instance of an AI-driven active assistance service that illustrates the potential applications of symmetrical reality. This paper aims to offer beneficial perspectives and guidance for researchers and practitioners in different fields, thus contributing to the ongoing research about human-AI coexistence in both physical and virtual environments.
翻訳日:2024-01-30 19:34:48 公開日:2024-01-26
# ナノシステムにおける量子トロイダル双極子:量子化、相互作用エネルギー、測定

Unveiling the Quantum Toroidal Dipole in Nanosystems: Quantization, Interaction Energy, and Measurement ( http://arxiv.org/abs/2401.15128v1 )

ライセンス: Link先を確認
Mircea Dolineanu, Alexandru-Lucian Nastasia, and Dragos-Victor Anghel(参考訳) 系の回転軸に沿ったフィリフォーム電流の存在下で,トロイダル面に閉じ込められた荷電量子粒子の物性について検討した。 解析の結果, 粒子と電流の相互作用は粒子の定常状態において非ゼロトロイダル双極子を誘導することがわかった。 異なるエネルギー準位に対するトロイダル双極子射影の差は、$\hbar r/(4m_p)$(ここで$r$はトーラスの半径、$m_p$は粒子質量)の単位で量子化可能であることを証明し、トロイダル双極子量子タの存在を示唆する。 さらに、トロイダル双極子射影とエネルギー固有値の両方が、現在の強度に対して周期的挙動を示し、この周期は、r が最小半径であるトーラスのアスペクト比 $r/r$ のみに依存する。 この周期性は、トロイダル双極子射影の操作と測定に電流強度を使用する可能性を開く。 また,現在の半周期の整数倍数周辺のトロイダル双極子投影とエネルギー固有値の急激な変化も観察した。 これらの変化は、これらの系におけるトロイダル双極子の量子化のさらなる証拠となる。 粒子と電流の相互作用エネルギーは古典的電気力学形式に従い、電流軸に沿ってトロイダル双極子射影を計測し操作する潜在的な方法が示唆される。 私たちが特定した量子化規則は、ナノシステムにおける量子トロイダル双極子の目印であり、この基本的な性質に基づく新しいデバイスの開発につながる可能性がある。

We investigate the physical properties of a charged quantum particle confined to a toroidal surface in the presence of a filiform current along the system's rotational axis. Our analysis reveals that the interaction between the particle and the current induces a non-zero toroidal dipole in the particle's stationary states. We demonstrate that the differences between the toroidal dipole projections for different energy levels can be quantized in units of $\hbar R/(4m_p)$ (where $R$ is the major radius of the torus and $m_p$ is the particle mass), suggesting the existence of toroidal dipole quanta. Furthermore, we find that both the toroidal dipole projection and the energy eigenvalues exhibit periodic behavior with respect to the current intensity, with a period that depends solely on the torus's aspect ratio $R/r$, where r is the minor radius. This periodicity opens up the possibility of using the current intensity to manipulate and measure the toroidal dipole projection. We also observe abrupt changes in the toroidal dipole projection and energy eigenvalues around integer multiples of the current half-period. These changes provide further evidence for the quantization of the toroidal dipole in such systems. The interaction energy between the particle and the current follows the classical electrodynamics form, suggesting a potential method for measuring and manipulating the toroidal dipole projection along the current axis. The quantization rules we have identified represent hallmarks of the quantum toroidal dipole in nanosystems and could lead to the development of novel devices based on this fundamental property.
翻訳日:2024-01-30 19:34:24 公開日:2024-01-26
# OSINTを用いたサイバースリート認識のためのLCMチャットボットの評価

Evaluation of LLM Chatbots for OSINT-based Cyberthreat Awareness ( http://arxiv.org/abs/2401.15127v1 )

ライセンス: Link先を確認
Samaneh Shafee, Alysson Bessani, Pedro M. Ferreira(参考訳) 新興脅威に関する知識共有は、サイバーセキュリティの急速に進歩する分野において不可欠であり、サイバー脅威インテリジェンスの基礎を形成している。 この文脈では、大規模言語モデルはサイバーセキュリティの分野でますます重要になってきており、幅広い機会をもたらしている。 本研究では,ChatGPT,GPT4all,Dlly,Stanford Alpaca,Alpaca-LoRA,Falconといったチャットボットが,オープンソースインテリジェンス内のサイバーセキュリティ関連テキストを識別する能力について検討する。 自然言語処理タスクにおける既存のチャットボットモデルの能力を評価する。 バイナリ分類と名前付きエンティティ認識をタスクとして検討する。 本研究は,過去の研究成果から得られた,twitterから収集した確立されたデータを解析する。 サイバーセキュリティのバイナリ分類に関して、Chatbot GPT-4は商用モデルとして許容されるF1スコア0.94を達成し、オープンソースのGPT4allモデルはF1スコア0.90を達成した。 しかし、サイバーセキュリティエンティティ認識に関しては、チャットボットモデルには制限があり、効果が低い。 本研究は,サイバーセキュリティバイナリ分類などの特定のタスクに対してのみこれらのチャットボットの能力を示すとともに,名前付きエンティティ認識タスクなどの他のタスクのさらなる改良の必要性を強調するものである。

Knowledge sharing about emerging threats is crucial in the rapidly advancing field of cybersecurity and forms the foundation of Cyber Threat Intelligence. In this context, Large Language Models are becoming increasingly significant in the field of cybersecurity, presenting a wide range of opportunities. This study explores the capability of chatbots such as ChatGPT, GPT4all, Dolly,Stanford Alpaca, Alpaca-LoRA, and Falcon to identify cybersecurity-related text within Open Source Intelligence. We assess the capabilities of existing chatbot models for Natural Language Processing tasks. We consider binary classification and Named Entity Recognition as tasks. This study analyzes well-established data collected from Twitter, derived from previous research efforts. Regarding cybersecurity binary classification, Chatbot GPT-4 as a commercial model achieved an acceptable F1-score of 0.94, and the open-source GPT4all model achieved an F1-score of 0.90. However, concerning cybersecurity entity recognition, chatbot models have limitations and are less effective. This study demonstrates the capability of these chatbots only for specific tasks, such as cybersecurity binary classification, while highlighting the need for further refinement in other tasks, such as Named Entity Recognition tasks.
翻訳日:2024-01-30 19:33:53 公開日:2024-01-26
# 筋力トレーニング活動を検出するユビキタスデバイスによるセンサベースデータ取得

Sensor-Based Data Acquisition via Ubiquitous Device to Detect Muscle Strength Training Activities ( http://arxiv.org/abs/2401.15124v1 )

ライセンス: Link先を確認
E. Wianto, H. Toba, M. Malinda and Chien-Hsu Chen(参考訳) 健康の低下を防ぐための身体活動(PA)による高品質な生活を維持することが重要である。 しかし、個人の健康状態、pa嗜好、運動要因の関係は複雑である。 PAの議論は、健康な老化経験と常に正の相関を示すが、特定の種類の筋骨格運動と明確な関係は示さない。 この研究は、特にインドネシアにおけるスマートフォンの普及に乗じて、HAR(Human Activity Recognition)に組み込みセンサーを利用する。 被験者25名を対象に,lstmアルゴリズムを用いた機械学習モデル開発の基礎として,右手と左手において重要な役割を担っている重要なセンサ属性を同定した。

Maintaining a high quality of life through physical activities (PA) to prevent health decline is crucial. However, the relationship between individuals health status, PA preferences, and motion factors is complex. PA discussions consistently show a positive correlation with healthy aging experiences, but no explicit relation to specific types of musculoskeletal exercises. Taking advantage of the increasingly widespread existence of smartphones, especially in Indonesia, this research utilizes embedded sensors for Human Activity Recognition (HAR). Based on 25 participants data, performing nine types of selected motion, this study has successfully identified important sensor attributes that play important roles in the right and left hands for muscle strength motions as the basis for developing machine learning models with the LSTM algorithm.
翻訳日:2024-01-30 19:33:32 公開日:2024-01-26
# MEA-Defender: モデル抽出攻撃に対するロバストなウォーターマーク

MEA-Defender: A Robust Watermark against Model Extraction Attack ( http://arxiv.org/abs/2401.15239v1 )

ライセンス: Link先を確認
Peizhuo Lv, Hualong Ma, Kai Chen, Jiachen Zhou, Shengzhi Zhang, Ruigang Liang, Shenchen Zhu, Pan Li, and Yingjun Zhang(参考訳) 近年,Deep Neural Networks (DNN) はディープラーニングアルゴリズムを用いて多くの訓練が行われている。 元の所有者の知的財産権(IP)をそのようなDNNモデルから保護するために、バックドアベースの透かしが広く研究されている。 しかし、これらの透かしのほとんどはモデル抽出攻撃に失敗し、入力サンプルを用いて対象モデルをクエリし、対応する出力を得るため、そのような入出力ペアを使用して代用モデルを訓練する。 本稿では,DNNモデルのIPをモデル抽出から保護するための新しい透かし,MEA-Defenderを提案する。 特に、入力ドメイン内の2つのソースクラスから2つのサンプルを結合し、メインタスクサンプル内のウォーターマークの出力ドメインとなるウォーターマーク損失関数を設計することにより、ウォーターマークを得る。 入力領域と出力領域の両方がメインタスクサンプルの必須部分であるため、モデル抽出中のメインタスクとともに盗んだモデルにウォーターマークを抽出します。 5つのデータセットと,教師付き学習と自己教師付き学習アルゴリズムに基づいてトレーニングされた6つのモデルを用いて,4つのモデル抽出攻撃に関する広範な実験を行った。 実験の結果,mea-defenderは異なるモデル抽出攻撃や様々な透かし除去・検出手法に対して高い頑健性を示す。

Recently, numerous highly-valuable Deep Neural Networks (DNNs) have been trained using deep learning algorithms. To protect the Intellectual Property (IP) of the original owners over such DNN models, backdoor-based watermarks have been extensively studied. However, most of such watermarks fail upon model extraction attack, which utilizes input samples to query the target model and obtains the corresponding outputs, thus training a substitute model using such input-output pairs. In this paper, we propose a novel watermark to protect IP of DNN models against model extraction, named MEA-Defender. In particular, we obtain the watermark by combining two samples from two source classes in the input domain and design a watermark loss function that makes the output domain of the watermark within that of the main task samples. Since both the input domain and the output domain of our watermark are indispensable parts of those of the main task samples, the watermark will be extracted into the stolen model along with the main task during model extraction. We conduct extensive experiments on four model extraction attacks, using five datasets and six models trained based on supervised learning and self-supervised learning algorithms. The experimental results demonstrate that MEA-Defender is highly robust against different model extraction attacks, and various watermark removal/detection approaches.
翻訳日:2024-01-30 19:27:37 公開日:2024-01-26
# 表データを用いたディープラーニング: 自己教師ありアプローチ

Deep Learning with Tabular Data: A Self-supervised Approach ( http://arxiv.org/abs/2401.15238v1 )

ライセンス: Link先を確認
Tirth Kiranbhai Vyas(参考訳) 本稿では,TabTransformerモデルと自己教師型学習を用いた表データの学習手法について述べる。 gbdtなどの従来の表データ用機械学習モデルが広く利用されているが,本稿では表データ専用に最適化されたトランスフォーマモデルであるtabtransformerの有効性について検討する。 tabtransformerは、トランスフォーマの自己着脱機構を利用して、表データの特徴間の複雑な関係と依存関係をキャプチャする。 本研究では,TabTransformerが教師付きタスクを作成し,ラベル付きデータの必要性をなくし,非ラベル付きデータから学習する自己教師付き学習手法を用いた。 目的は、分類的特徴と数値的特徴の最も効果的なTabTransformerモデル表現を見つけることである。 様々な入力設定をトランスフォーマーに構築する際に直面する課題に対処する。 さらに,MLPや教師付きTabTransformerなどのベースラインモデルに対して,TabTransformerモデルの性能を比較検討した。 本研究は,Binned-TT,Vanilla-MLP-TT,MLP-based-TTという,TabTransformerモデルの様々な変種を作成することによって,最適入力を構築することで,表層データセットの様々な特徴間の基礎的関係を効果的に捉えることを支援する新しいアプローチを提案する。 さらに、表データに対するマスキングに基づく教師なし設定という形で、自己教師あり学習アプローチを採用した。 この結果は、既存の機械学習モデルや他の自己教師型学習手法と比較して、TabTransormerのパフォーマンスを強調し、分類的および数値的な特徴を表現する最善の方法に光を当てた。

We have described a novel approach for training tabular data using the TabTransformer model with self-supervised learning. Traditional machine learning models for tabular data, such as GBDT are being widely used though our paper examines the effectiveness of the TabTransformer which is a Transformer based model optimised specifically for tabular data. The TabTransformer captures intricate relationships and dependencies among features in tabular data by leveraging the self-attention mechanism of Transformers. We have used a self-supervised learning approach in this study, where the TabTransformer learns from unlabelled data by creating surrogate supervised tasks, eliminating the need for the labelled data. The aim is to find the most effective TabTransformer model representation of categorical and numerical features. To address the challenges faced during the construction of various input settings into the Transformers. Furthermore, a comparative analysis is also been conducted to examine performance of the TabTransformer model against baseline models such as MLP and supervised TabTransformer. The research has presented with a novel approach by creating various variants of TabTransformer model namely, Binned-TT, Vanilla-MLP-TT, MLP- based-TT which has helped to increase the effective capturing of the underlying relationship between various features of the tabular dataset by constructing optimal inputs. And further we have employed a self-supervised learning approach in the form of a masking-based unsupervised setting for tabular data. The findings shed light on the best way to represent categorical and numerical features, emphasizing the TabTransormer performance when compared to established machine learning models and other self-supervised learning methods.
翻訳日:2024-01-30 19:27:15 公開日:2024-01-26
# 超低消費電力ナノドロネスを用いた高効率視覚ポーズ推定のための適応型ディープラーニング

Adaptive Deep Learning for Efficient Visual Pose Estimation aboard Ultra-low-power Nano-drones ( http://arxiv.org/abs/2401.15236v1 )

ライセンス: Link先を確認
Beatrice Alessandra Motetti, Luca Crupi, Mustafa Omer Mohammed Elamin Elshaigi, Matteo Risso, Daniele Jahier Pagliari, Daniele Palossi, Alessio Burrello(参考訳) 直径10cm以下のナノドロンは、狭い環境や人間に近いような大型の飛行ドローンに適用できないシナリオの適用性によって勢いを増している。 しかし、その小さなフォームファクタも大きな欠点をもたらしている。超制約のメモリと、その知覚パイプラインのオンボード実行のためのプロセッサだ。 そのため、軽量なディープラーニングベースのアプローチがますます普及し、完全に動作するクローズドループシステムとフェールループシステムとの差を生じさせるため、計算効率と省エネルギーがいかに重要かを強調している。 本研究では,ナノドロネスを用いた超限られた資源の活用を最大限に活用するために,視覚に基づく人物ポーズ推定タスクの効率的な実行のための適応型深層学習機構を提案する。 我々は、回帰性能と計算コストのトレードオフが異なる2つの最先端(soa)畳み込みニューラルネットワーク(cnns)を活用する。 これらのCNNを、出力の時間的一貫性に基づく3つの新しい適応戦略と組み合わせ、CNNを積極的に置き換える補助的なタスクと組み合わせることで、6つの異なるシステムを示す。 実世界のデータセットと実際のナノドロンのハードウェアでは、より大きく、最も正確なSoAモデルのみの実行と比較して、平均絶対誤差(MAE)を維持しながら28%のレイテンシ削減、イソレイテンシーにおける3%のMAE削減、絶対ピーク性能、すなわちSoAモデルよりも6%優れたことを示しています。

Sub-10cm diameter nano-drones are gaining momentum thanks to their applicability in scenarios prevented to bigger flying drones, such as in narrow environments and close to humans. However, their tiny form factor also brings their major drawback: ultra-constrained memory and processors for the onboard execution of their perception pipelines. Therefore, lightweight deep learning-based approaches are becoming increasingly popular, stressing how computational efficiency and energy-saving are paramount as they can make the difference between a fully working closed-loop system and a failing one. In this work, to maximize the exploitation of the ultra-limited resources aboard nano-drones, we present a novel adaptive deep learning-based mechanism for the efficient execution of a vision-based human pose estimation task. We leverage two State-of-the-Art (SoA) convolutional neural networks (CNNs) with different regression performance vs. computational costs trade-offs. By combining these CNNs with three novel adaptation strategies based on the output's temporal consistency and on auxiliary tasks to swap the CNN being executed proactively, we present six different systems. On a real-world dataset and the actual nano-drone hardware, our best-performing system, compared to executing only the bigger and most accurate SoA model, shows 28% latency reduction while keeping the same mean absolute error (MAE), 3% MAE reduction while being iso-latency, and the absolute peak performance, i.e., 6% better than SoA model.
翻訳日:2024-01-30 19:26:46 公開日:2024-01-26
# CascadedGaze: 画像復元のためのグローバルコンテキスト抽出の効率性

CascadedGaze: Efficiency in Global Context Extraction for Image Restoration ( http://arxiv.org/abs/2401.15235v1 )

ライセンス: Link先を確認
Amirhosein Ghasemabadi, Mohammad Salameh, Muhammad Kamran Janjua, Chunhua Zhou, Fengyu Sun, Di Niu(参考訳) 画像復元タスクは伝統的に畳み込みニューラルネットワークに依存している。 しかし、畳み込み演算子のローカルな性質を考えると、グローバル情報を取得するのに苦労している。 トランスフォーマーにおける注意機構の約束はこの問題を回避することであるが、計算オーバーヘッドの集中的なコストが伴う。 画像復元に関する多くの研究は、トランスフォーマティブによる性能と計算コストのバランスの課題を解決することに焦点を当てている。 本稿では,グローバルコンテキストエクストラクタ(GCE)を利用したエンコーダデコーダアーキテクチャであるCascadedGaze Network(CGNet)について述べる。 GCEモジュールは、畳み込み層にまたがる小さなカーネルを活用して、自己注意を必要とせず、グローバルな依存関係を学ぶ。 広範な実験結果から,本手法は,実画像のデノージングと合成画像デノージングの両方を含むベンチマークデータセットのデノージングや画像デブローリングタスクにおいて,計算効率が向上しつつ,最先端の手法よりも優れていることが示された。

Image restoration tasks traditionally rely on convolutional neural networks. However, given the local nature of the convolutional operator, they struggle to capture global information. The promise of attention mechanisms in Transformers is to circumvent this problem, but it comes at the cost of intensive computational overhead. Many recent studies in image restoration have focused on solving the challenge of balancing performance and computational cost via Transformer variants. In this paper, we present CascadedGaze Network (CGNet), an encoder-decoder architecture that employs Global Context Extractor (GCE), a novel and efficient way to capture global information for image restoration. The GCE module leverages small kernels across convolutional layers to learn global dependencies, without requiring self-attention. Extensive experimental results show that our approach outperforms a range of state-of-the-art methods on denoising benchmark datasets including both real image denoising and synthetic image denoising, as well as on image deblurring task, while being more computationally efficient.
翻訳日:2024-01-30 19:26:20 公開日:2024-01-26
# 削除を超えて:多様なプログラム変換によるプログラムの単純化

Moving beyond Deletions: Program Simplification via Diverse Program Transformations ( http://arxiv.org/abs/2401.15234v1 )

ライセンス: Link先を確認
Haibo Wang, Zezhong Xing, Zheng Wang, Chengnian Sun, Shin Hwei Tan(参考訳) ソフトウェアの複雑さを軽減するため、開発者は手動でプログラムを単純化する(この論文では開発者によるプログラムの単純化として知られている)。 手動作業を減らすために、ルールベースのアプローチ(リファクタリングなど)と削除ベースのアプローチ(デルタデバッグなど)は、開発者によるプログラムの単純化を自動化するために潜在的に適用できる。 しかし,オープンソースソフトウェア(OSS)プロジェクトにおいて,開発者がプログラムをシンプルにする方法についてはほとんど研究されていないため,これらのアプローチが開発者によるプログラムの単純化に効果的に利用できるかどうかは不明である。 そこで本研究では,OSSプロジェクトにおける開発者主導型プログラムの簡略化に関する最初の研究として,プログラム変換のタイプ,単純化の背景にあるモチベーション,既存のリファクタリングタイプが対象とするプログラム変換のセットについて述べる。 296プロジェクトから382件のプルリクエストを行った結果,既存のアプローチを適用して開発者のプログラム簡略化を自動化する方法にはギャップがあることが分かりました。 自動プログラム単純化技術の設計基準を概説する。 本研究は,開発者主導型プログラムの簡易化における手作業の軽減を目的として,簡略化されたプログラムを自動生成するツールであるSimpT5を提案する。 SimpT5は,92,485個の単純化されたプログラムの収集したデータセットに基づいて,(1)単純化されたプログラムで変化した行をエンコードする単純化されたラインローカライゼーション,(2)生成されたプログラムの品質を測定するチェッカーの2つのヒューリスティックで訓練されている。 評価の結果,SimpT5は開発者によるプログラムの単純化の自動化において,従来の手法よりも効果的であることがわかった。

To reduce the complexity of software, Developers manually simplify program (known as developer-induced program simplification in this paper) to reduce its code size yet preserving its functionality but manual simplification is time-consuming and error-prone. To reduce manual effort, rule-based approaches (e.g., refactoring) and deletion-based approaches (e.g., delta debugging) can be potentially applied to automate developer-induced program simplification. However, as there is little study on how developers simplify programs in Open-source Software (OSS) projects, it is unclear whether these approaches can be effectively used for developer-induced program simplification. Hence, we present the first study of developer-induced program simplification in OSS projects, focusing on the types of program transformations used, the motivations behind simplifications, and the set of program transformations covered by existing refactoring types. Our study of 382 pull requests from 296 projects reveals that there exist gaps in applying existing approaches for automating developer-induced program simplification. and outlines the criteria for designing automatic program simplification techniques. Inspired by our study and to reduce the manual effort in developer-induced program simplification, we propose SimpT5, a tool that can automatically produce simplified programs (semantically-equivalent programs with reduced source lines of code). SimpT5 is trained based on our collected dataset of 92,485 simplified programs with two heuristics: (1) simplified line localization that encodes lines changed in simplified programs, and (2)checkers that measure the quality of generated programs. Our evaluation shows that SimpT5 are more effective than prior approaches in automating developer-induced program simplification.
翻訳日:2024-01-30 19:25:58 公開日:2024-01-26
# 周期および不規則Janes-Cummingsアレイにおける単一光子のバンドギャップ工学と輸送特性制御

Band Gap Engineering and Controlling Transport Properties of Single Photons in Periodic and Disordered Jaynes-Cummings Arrays ( http://arxiv.org/abs/2401.15231v1 )

ライセンス: Link先を確認
Tiberius Berndsen, Nishan Amgain, and Imran M. Mirza(参考訳) 導波管結合型マイクロトロイドリング共振器の周期的および非秩序なJaynes-Cummings(またはJC)配列における単一光子輸送特性を理論的に研究し、それぞれが単一2レベル量子エミッタと相互作用する。 量子光学の実空間形式を用いて、共振器量子電磁力学(cqed)の様々なパラメータレジームに着目し、このような多体量子光学設定において単一光子伝播をより良く制御する。 重要な発見のいくつかについては、周期的な設定が光子透過スペクトルのバンド構造の形成につながることが観察され、これはcQCDの強い結合状態において最も顕著である。 しかし、損失のない共鳴条件の下では、ブロッホの定理の適用は、エミッタキャビティ結合を小さい値にチューニングすることで、禁止ギャップの幅を変えることができることを示している。 さらに, 乱れた場合, 単一光子透過曲線はバンド形成の消失を示すことがわかった。 しかし、単一原子キャビティ問題で観測されたcqed相互作用に由来するスペクトル特徴は弱い不規則条件に対して頑健である。 この研究の結果は、光学領域における量子多体効果や、量子計算や量子ネットワークの様々な領域における研究に応用できるかもしれない。

We theoretically study the single photon transport properties in periodic and position-disordered Jaynes-Cummings (or JC) arrays of waveguide-coupled microtoroidal ring resonators, each interacting with a single two-level quantum emitter. Employing the real-space formalism of quantum optics, we focus on various parameter regimes of cavity quantum electrodynamics (cQED) to gain better control of single photon propagation in such a many-body quantum optical setting. As for some of the key findings, we observe that the periodic setting leads to the formation of the band structure in the photon transmission spectra, which is most evident in the strong coupling regime of cQCD. However, under the resonant conditions with no losses, the application of Bloch's theorem indicates that the width of forbidden gaps can be altered by tuning the emitter-cavity coupling to small values. Moreover, in the disordered case, we find that the single photon transmission curves show the disappearance of band formation. However, spectral features originating from cQED interactions observed for single atom-cavity problem remain robust against weak-disordered conditions. The results of this work may find application in the study of quantum many-body effects in the optical domain as well as in different areas of quantum computation and quantum networking.
翻訳日:2024-01-30 19:25:25 公開日:2024-01-26
# AIリスク管理の進化: NIST AIリスク管理フレームワークに基づく成熟度モデル

Evolving AI Risk Management: A Maturity Model based on the NIST AI Risk Management Framework ( http://arxiv.org/abs/2401.15229v1 )

ライセンス: Link先を確認
Ravit Dotan, Borhane Blili-Hamelin, Ravi Madhavan, Jeanna Matthews, Joshua Scarpino(参考訳) 研究者、政府機関、組織は、AIの潜在的な社会技術的損害を軽減するために、責任あるAIコミュニティを一般的な原則から具体的で運用可能なプラクティスに変えることを繰り返し呼びかけている。 nist ai rmfのようなフレームワークは、社会技術的被害軽減の運用における推奨プラクティスに関する新たなコンセンサスを具体化している。 しかし、現在民間の組織は、この新興のコンセンサスをはるかに遅れている。 実装は散発的で選択的です。 最悪の場合、それは非効率であり、信頼に値するプロセスの誤解を招き、正当性の外観を与え、実質的な有害な行為に役立てるリスクを負う。 本稿では,NIST AI RMFに基づくフレキシブル成熟度モデルである社会工学的調和緩和のベストプラクティスに関する新たなコンセンサスに対して,組織がどのような立場にあるかを評価するための基盤を提供する。

Researchers, government bodies, and organizations have been repeatedly calling for a shift in the responsible AI community from general principles to tangible and operationalizable practices in mitigating the potential sociotechnical harms of AI. Frameworks like the NIST AI RMF embody an emerging consensus on recommended practices in operationalizing sociotechnical harm mitigation. However, private sector organizations currently lag far behind this emerging consensus. Implementation is sporadic and selective at best. At worst, it is ineffective and can risk serving as a misleading veneer of trustworthy processes, providing an appearance of legitimacy to substantively harmful practices. In this paper, we provide a foundation for a framework for evaluating where organizations sit relative to the emerging consensus on sociotechnical harm mitigation best practices: a flexible maturity model based on the NIST AI RMF.
翻訳日:2024-01-30 19:24:59 公開日:2024-01-26
# フランダースの生物学的評価マップ:センチネル2画像解析

Biological Valuation Map of Flanders: A Sentinel-2 Imagery Analysis ( http://arxiv.org/abs/2401.15223v1 )

ライセンス: Link先を確認
Mingshi Li, Dusan Grujicic, Steven De Saeger, Stien Heremans, Ben Somers, Matthew B. Blaschko(参考訳) 近年,特に土地利用・土地被覆(lulc)領域において,リモートセンシング解析において機械学習が重要になっている。 機械学習と衛星画像分析のシナジーは、いくつかの研究で示されているように、この分野でかなりの生産性を示している。 この領域における顕著な課題は、正確な土地利用データのアクセシビリティと土地利用ラベルの信頼性が重大な困難を生じさせる広い領域における土地利用のセグメンテーションマッピングである。 例えば、ベルギーの一級行政区画であるフランダース地域の詳細なピクセル単位のラベル付きデータセットを提供することは、特に洞察力に富む。 しかし、多くの地域でこのような研究のために、規制された正式なデータセットやワークフローが著しく欠落している。 本稿では,これらのギャップに対処するための包括的アプローチを提案する。 本研究では,sentinel-2衛星画像と組み合わせたフランダースの接地真理マップを提案する。 本手法は,地形図レイアウト「kaartbladversnijdingen」と詳細な意味セグメンテーションモデルトレーニングパイプラインを用いた,形式化されたデータセット分割・サンプリング手法を含む。 また,本手法の有効性を示すための予備ベンチマーク結果も提供する。

In recent years, machine learning has become crucial in remote sensing analysis, particularly in the domain of Land-use/Land-cover (LULC). The synergy of machine learning and satellite imagery analysis has demonstrated significant productivity in this field, as evidenced by several studies. A notable challenge within this area is the semantic segmentation mapping of land usage over extensive territories, where the accessibility of accurate land-use data and the reliability of ground truth land-use labels pose significant difficulties. For example, providing a detailed and accurate pixel-wise labeled dataset of the Flanders region, a first-level administrative division of Belgium, can be particularly insightful. Yet there is a notable lack of regulated, formalized datasets and workflows for such studies in many regions globally. This paper introduces a comprehensive approach to addressing these gaps. We present a densely labeled ground truth map of Flanders paired with Sentinel-2 satellite imagery. Our methodology includes a formalized dataset division and sampling method, utilizing the topographic map layout 'Kaartbladversnijdingen,' and a detailed semantic segmentation model training pipeline. Preliminary benchmarking results are also provided to demonstrate the efficacy of our approach.
翻訳日:2024-01-30 19:24:48 公開日:2024-01-26
# 臨床テキストにおけるエンティティ修飾子の予測のための伝達学習:オピオイド使用障害検出への応用

Transfer Learning for the Prediction of Entity Modifiers in Clinical Text: Application to Opioid Use Disorder Case Detection ( http://arxiv.org/abs/2401.15222v1 )

ライセンス: Link先を確認
Abdullateef I. Almudaifer, Tobias O`Leary, Whitney Covington, JaMor Hairston, Zachary Deitch, Ankit Anand, Caleb M. Carroll, Estera Crisan, William Bradford, Lauren Walter, Eaton Ellen, Sue S. Feldman and John D. Osborne(参考訳) 背景: 臨床テキストから抽出されたエンティティのセマンティクスは, 実体否定, 不確実性, 条件性, 深刻度, 主観などの修飾によって劇的に変化する。 臨床実体の修飾者を決定する既存のモデルは、各修飾者のために独立に訓練された正規表現または特徴重みを含む。 方法:SemEval 2015 Task 14コーパスと,SemEvalと共有する修飾子とOUD特有の新規修飾子を含む新しいOpioid Use Disorder (OUD)データセットを用いて,修飾子を学習・予測するマルチタスクトランスフォーマーアーキテクチャの設計を開発し,評価する。 本研究は, 複数タスク学習手法の有効性を, 既に公表されているシステムに対して評価し, 臨床組織修飾体の一部を共有する場合に, 移行学習の有効性を評価する。 結果:SemEval 2015 Task 14のShAReコーパスでは,重み付け精度が1.1%,非重み付け精度が1.7%,マイクロF1スコアが10%向上した。 結論: 共有モデルから学習した重みを部分的に一致した新しいデータセットに効果的に変換できることを示し, 臨床用テキスト修正器における転写学習の有用性を検証した。

Background: The semantics of entities extracted from a clinical text can be dramatically altered by modifiers, including entity negation, uncertainty, conditionality, severity, and subject. Existing models for determining modifiers of clinical entities involve regular expression or features weights that are trained independently for each modifier. Methods: We develop and evaluate a multi-task transformer architecture design where modifiers are learned and predicted jointly using the publicly available SemEval 2015 Task 14 corpus and a new Opioid Use Disorder (OUD) data set that contains modifiers shared with SemEval as well as novel modifiers specific for OUD. We evaluate the effectiveness of our multi-task learning approach versus previously published systems and assess the feasibility of transfer learning for clinical entity modifiers when only a portion of clinical modifiers are shared. Results: Our approach achieved state-of-the-art results on the ShARe corpus from SemEval 2015 Task 14, showing an increase of 1.1% on weighted accuracy, 1.7% on unweighted accuracy, and 10% on micro F1 scores. Conclusions: We show that learned weights from our shared model can be effectively transferred to a new partially matched data set, validating the use of transfer learning for clinical text modifiers
翻訳日:2024-01-30 19:24:26 公開日:2024-01-26
# ニューロモルフィックコンピューティングを用いたイベントベースカメラデータの速度ベースフィルタリングとDBSCAN

Speed-based Filtration and DBSCAN of Event-based Camera Data with Neuromorphic Computing ( http://arxiv.org/abs/2401.15212v1 )

ライセンス: Link先を確認
Charles P. Rizzo, Catherine D. Schuman, James S. Plank(参考訳) スパイクニューラルネットワークは、イベントベースのカメラ(EBC)とうまく結合する強力な計算要素である。 本研究では、EBCからイベントを処理する2つのスパイクニューラルネットワークアーキテクチャについて、その速度に基づいてイベントを分離・フィルタリングするアーキテクチャと、DBSCANアルゴリズムに基づいてイベントをクラスタ化するアーキテクチャを提案する。

Spiking neural networks are powerful computational elements that pair well with event-based cameras (EBCs). In this work, we present two spiking neural network architectures that process events from EBCs: one that isolates and filters out events based on their speeds, and another that clusters events based on the DBSCAN algorithm.
翻訳日:2024-01-30 19:24:00 公開日:2024-01-26
# Roq: リスク認識学習コストモデルに基づくロバストクエリ最適化

Roq: Robust Query Optimization Based on a Risk-aware Learned Cost Model ( http://arxiv.org/abs/2401.15210v1 )

ライセンス: Link先を確認
Amin Kamali, Verena Kantere, Calisto Zuzarte, and Vincent Corvinelli(参考訳) リレーショナルデータベース管理システム(RDBMS)におけるクエリオプティマイザは、所定のクエリに対して最適な実行計画を求める。 彼らはパラメータ推定を使い、しばしば不正確であり、実際には成り立たない仮定をする。 その結果、これらの推定と仮定が有効でない場合、実行時に最適でない実行プランを選択することができ、クエリのパフォーマンスが低下する可能性がある。 したがって、クエリオプティマイザは堅牢なクエリ最適化を十分にサポートしていない。 近年、機械学習(ML)を用いてデータシステムの効率を改善し、メンテナンスのオーバーヘッドを減らすことへの関心が高まっており、特にクエリ最適化の分野で期待できる結果が得られている。 本稿では、これらの進歩に触発され、IBM Db2の数年間の経験に基づき、リスク認識学習アプローチに基づく堅牢なクエリ最適化を実現する総合的なフレームワークであるRoq(Roust Optimization of Queries)を提案する。 roqには、クエリ最適化の文脈におけるロバスト性の概念の新たな形式化と、近似確率mlに基づく定量化と測定のための原理的アプローチが含まれている。 クエリ計画の評価と選択のための新しい戦略とアルゴリズムも含まれている。 Roqには、クエリ実行コストと関連するリスクを予測し、クエリ最適化を実行するように設計された、新たな学習コストモデルも含まれている。 我々は、roqが最先端に比べてロバストなクエリ最適化に大きな改善をもたらすことを実験的に実証する。

Query optimizers in relational database management systems (RDBMSs) search for execution plans expected to be optimal for a given queries. They use parameter estimates, often inaccurate, and make assumptions that may not hold in practice. Consequently, they may select execution plans that are suboptimal at runtime, when these estimates and assumptions are not valid, which may result in poor query performance. Therefore, query optimizers do not sufficiently support robust query optimization. Recent years have seen a surge of interest in using machine learning (ML) to improve efficiency of data systems and reduce their maintenance overheads, with promising results obtained in the area of query optimization in particular. In this paper, inspired by these advancements, and based on several years of experience of IBM Db2 in this journey, we propose Robust Optimization of Queries, (Roq), a holistic framework that enables robust query optimization based on a risk-aware learning approach. Roq includes a novel formalization of the notion of robustness in the context of query optimization and a principled approach for its quantification and measurement based on approximate probabilistic ML. It also includes novel strategies and algorithms for query plan evaluation and selection. Roq also includes a novel learned cost model that is designed to predict query execution cost and the associated risks and performs query optimization accordingly. We demonstrate experimentally that Roq provides significant improvements to robust query optimization compared to the state-of-the-art.
翻訳日:2024-01-30 19:23:54 公開日:2024-01-26
# HiFT:階層型フルパラメータ細調整戦略

HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy ( http://arxiv.org/abs/2401.15207v1 )

ライセンス: Link先を確認
Yongkang Liu, Yiqun Zhang, Qian Li, Shi Feng, Daling Wang, Yifei Zhang and Hinrich Sch\"utze(参考訳) 言語モデル(LM)を下流タスクに適応させる手段として,フルパラメータの微調整が選択肢となっている。 LMのサイズが大きくなるにつれて、LMの完全なパラメータを微調整するには、非常に大量のGPUメモリが必要である。 既存のアプローチでは、ゼロオーダーオプティマイザを使用してGPUメモリを保存することで、非ゼロオーダーオプティマイザがほとんどのダウンストリームタスクに容易に収束する傾向があるため、LMのパフォーマンスを損なう可能性がある。 本稿では,各学習段階におけるパラメータのサブセットのみを更新する,最適化非依存のエンドツーエンド階層的微調整戦略であるHiFTを提案する。 HiFTは、GPUメモリに存在する勾配の量と最適化状態パラメータを同時に大幅に削減し、GPUメモリ使用量を減らすことができる。 その結果,(1) HiFT はパラメータ効率の高いファインチューニングと標準のフルパラメータファインチューニングに匹敵する性能を実現する。 (2) hiftは、adamw、adagrad、sgdなどを含む様々な最適化をサポートする。 (3) hiftは、7bモデルの標準フルパラメータの微調整と比較して、60\%以上のgpuメモリを節約できる。 (4) HiFTはメモリセーブ技術を用いることなく,AdamWオプティマイザを用いた精度32のシングル48G A6000上で7Bモデルのフルパラメータ微調整を可能にする。

Full-parameter fine-tuning has become the go-to choice for adapting language models (LMs) to downstream tasks due to its excellent performance. As LMs grow in size, fine-tuning the full parameters of LMs requires a prohibitively large amount of GPU memory. Existing approaches utilize zeroth-order optimizer to conserve GPU memory, which can potentially compromise the performance of LMs as non-zero order optimizers tend to converge more readily on most downstream tasks. In this paper, we propose a novel optimizer-independent end-to-end hierarchical fine-tuning strategy, HiFT, which only updates a subset of parameters at each training step. HiFT can significantly reduce the amount of gradients and optimizer state parameters residing in GPU memory at the same time, thereby reducing GPU memory usage. Our results demonstrate that: (1) HiFT achieves comparable performance to parameter-efficient fine-tuning and standard full parameter fine-tuning. (2) HiFT supports various optimizers including AdamW, AdaGrad, SGD, etc. (3) HiFT can save more than 60\% GPU memory compared with standard full-parameter fine-tuning for 7B model. (4) HiFT enables full-parameter fine-tuning of a 7B model on single 48G A6000 with a precision of 32 using the AdamW optimizer, without using any memory saving techniques.
翻訳日:2024-01-30 19:23:33 公開日:2024-01-26
# LYT-Net:低光画像強調のための軽量YUVトランスを用いたネットワーク

LYT-Net: Lightweight YUV Transformer-based Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2401.15204v1 )

ライセンス: Link先を確認
A. Brateanu, R. Balmez, A. Avram, C. C. Orhei(参考訳) 近年、深層学習に基づくソリューションは、画像強調の領域で成功している。 本稿では,低照度画像強調のための新しいアプローチとしてLYT-Net (Lightweight YUV Transformer-based Network)を提案する。 従来のretinexベースのモデルとは異なり、yuv色空間の輝度(y)と色(u,v)の自然な分離を利用して、画像内の光と色情報を分離する複雑なタスクを単純化した。 長距離依存関係をキャプチャする能力で知られるトランスフォーマーの強みを利用することで、LYT-Netはモデル複雑性の低減を維持しながら、画像の包括的なコンテキスト理解を保証する。 提案手法は,新しいハイブリッド損失関数を用いることにより,低光度画像強調データセットにおいて最先端の結果が得られる。 ソースコードと事前訓練されたモデルはhttps://github.com/albrateanu/LYT-Netで入手できる。

In recent years, deep learning-based solutions have proven successful in the domains of image enhancement. This paper introduces LYT-Net, or Lightweight YUV Transformer-based Network, as a novel approach for low-light image enhancement. The proposed architecture, distinct from conventional Retinex-based models, leverages the YUV color space's natural separation of luminance (Y) and chrominance (U and V) to simplify the intricate task of disentangling light and color information in images. By utilizing the strengths of transformers, known for their capability to capture long-range dependencies, LYT-Net ensures a comprehensive contextual understanding of the image while maintaining reduced model complexity. By employing a novel hybrid loss function, our proposed method achieves state-of-the-art results on low-light image enhancement datasets, all while being considerably more compact than its counterparts. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net
翻訳日:2024-01-30 19:23:05 公開日:2024-01-26
# FedGT: スケーラブルグラフ変換器によるフェデレーションノード分類

FedGT: Federated Node Classification with Scalable Graph Transformer ( http://arxiv.org/abs/2401.15203v1 )

ライセンス: Link先を確認
Zaixi Zhang, Qingyong Hu, Yang Yu, Weibo Gao, Qi Liu(参考訳) グラフはリレーショナルデータをモデル化するのに広く使われている。 グラフが現実のシナリオで大きくなるにつれて、複数のローカルシステムにサブグラフを格納し、計算する傾向にある。 例えば、最近提案された 'emph{subgraph Federated Learning} メソッドでは、ローカルサブグラフに分散的にグラフニューラルネットワーク(GNN)をトレーニングし、GNNパラメータを中央サーバで集約する。 しかし、既存の方法には以下の制限がある: (1) 局所部分グラフ間のリンクが欠落している部分グラフフェデレーション学習。 これはノード/エッジ機能を更新するためのメッセージパスパラダイムに従うGNNのパフォーマンスを著しく損なう可能性がある。 2) 既存の手法のほとんどは,グラフ全体の異なる部分から生じる部分グラフの不均質性問題を見落としている。 上記の課題に対処するため、本稿ではスケーラブルな \textbf{Fed}erated \textbf{G}raph \textbf{T}ransformer (\textbf{FedGT}) を提案する。 まず,理論境界を持つ大域的受容場を確保しつつ,グラフトランスフォーマの複雑性を線形に低減するハイブリッドアテンションスキームを設計する。 具体的には、各ノードは、サンプル化されたローカル隣人と、ローカルとグローバルの両方の情報を学習し、欠落したリンクに対して堅牢なグローバルノードのセットに出席する。 オンラインクラスタリングアルゴリズムを用いてトレーニング中にグローバルノードを動的に更新し、対応するローカルサブグラフのデータ分布をキャプチャする。 第二に、FedGTは最適なトランスポートで整列したグローバルノードに基づいてクライアントの類似性を計算する。 類似性は、パーソナライズされたアグリゲーションのために重み付け平均化を実行するために使われます。 さらに、ローカルディファレンシャルプライバシを適用して、クライアントのプライバシをさらに保護する。 最後に、6つのデータセットと2つのサブグラフ設定に関する広範な実験結果から、FedGTの優位性を示している。

Graphs are widely used to model relational data. As graphs are getting larger and larger in real-world scenarios, there is a trend to store and compute subgraphs in multiple local systems. For example, recently proposed \emph{subgraph federated learning} methods train Graph Neural Networks (GNNs) distributively on local subgraphs and aggregate GNN parameters with a central server. However, existing methods have the following limitations: (1) The links between local subgraphs are missing in subgraph federated learning. This could severely damage the performance of GNNs that follow message-passing paradigms to update node/edge features. (2) Most existing methods overlook the subgraph heterogeneity issue, brought by subgraphs being from different parts of the whole graph. To address the aforementioned challenges, we propose a scalable \textbf{Fed}erated \textbf{G}raph \textbf{T}ransformer (\textbf{FedGT}) in the paper. Firstly, we design a hybrid attention scheme to reduce the complexity of the Graph Transformer to linear while ensuring a global receptive field with theoretical bounds. Specifically, each node attends to the sampled local neighbors and a set of curated global nodes to learn both local and global information and be robust to missing links. The global nodes are dynamically updated during training with an online clustering algorithm to capture the data distribution of the corresponding local subgraph. Secondly, FedGT computes clients' similarity based on the aligned global nodes with optimal transport. The similarity is then used to perform weighted averaging for personalized aggregation, which well addresses the data heterogeneity problem. Moreover, local differential privacy is applied to further protect the privacy of clients. Finally, extensive experimental results on 6 datasets and 2 subgraph settings demonstrate the superiority of FedGT.
翻訳日:2024-01-30 19:22:47 公開日:2024-01-26
# SCANIA Component X Dataset: 予測メンテナンスのための実世界の多変量時系列データセット

SCANIA Component X Dataset: A Real-World Multivariate Time Series Dataset for Predictive Maintenance ( http://arxiv.org/abs/2401.15199v1 )

ライセンス: Link先を確認
Zahra Kharazian, Tony Lindgren, Sindri Magn\'usson, Olof Steinert, Oskar Andersson Reyna(参考訳) 本稿では,スウェーデンのSCANIAのトラック群における,匿名化エンジンコンポーネント(Component X)から収集した実世界の多変量時系列データセットについて述べる。 このデータセットには、詳細な運用データ、修理記録、トラックの仕様を収集し、匿名化による機密性を維持しながら、さまざまな変数が含まれている。 分類、回帰、生存分析、異常検出などの機械学習応用には適しており、特に予測保守シナリオに適用する場合に適している。 ヒストグラムと数値カウンタのフォーマットにおける人口規模と特徴の多様さと時間的情報の導入により、この実世界のデータセットはこの分野でユニークなものとなっている。 このデータセットをリリースする目的は、国際的に有名な企業からの実世界データを扱う可能性を幅広い研究者に与え、予測保守分野に標準ベンチマークを導入し、再現可能な研究を育むことである。

This paper presents a description of a real-world, multivariate time series dataset collected from an anonymized engine component (called Component X) of a fleet of trucks from SCANIA, Sweden. This dataset includes diverse variables capturing detailed operational data, repair records, and specifications of trucks while maintaining confidentiality by anonymization. It is well-suited for a range of machine learning applications, such as classification, regression, survival analysis, and anomaly detection, particularly when applied to predictive maintenance scenarios. The large population size and variety of features in the format of histograms and numerical counters, along with the inclusion of temporal information, make this real-world dataset unique in the field. The objective of releasing this dataset is to give a broad range of researchers the possibility of working with real-world data from an internationally well-known company and introduce a standard benchmark to the predictive maintenance field, fostering reproducible research.
翻訳日:2024-01-30 19:22:09 公開日:2024-01-26
# プレトライニングにおける対人訓練によるより良い表現:理論的視点

Better Representations via Adversarial Training in Pre-Training: A Theoretical Perspective ( http://arxiv.org/abs/2401.15248v1 )

ライセンス: Link先を確認
Yue Xing, Xiaofeng Lin, Qifan Song, Yi Xu, Belinda Zeng, Guang Cheng(参考訳) 事前学習は、大規模言語モデルのような大規模ディープラーニングにおいて、下流タスクの普遍的な表現を生成することが知られている。 既存の文献、例えば \cite{kim2020adversarial} は、下流のタスクが事前訓練されたモデルの逆方向の堅牢性を継承できることを実証的に観察する。 この堅牢性継承現象の理論的正当化を提供する。 提案手法は,2層ニューラルネットワークにおいて,事前学習モデルと下流課題を連携させる上で重要な役割を担っている。 具体的には (i) 敵対的訓練では、各隠れたノードは1つ(または数個)の機能のみを選択する傾向がある。 (ii) 敵の訓練がなければ、隠れたノードは攻撃に対して脆弱である。 この観察は教師付き事前学習とコントラスト学習の両方に有効である。 清浄されたノードでは、クリーントレーニングは下流タスクで敵対的ロバスト性を達成するのに十分であることがわかった。

Pre-training is known to generate universal representations for downstream tasks in large-scale deep learning such as large language models. Existing literature, e.g., \cite{kim2020adversarial}, empirically observe that the downstream tasks can inherit the adversarial robustness of the pre-trained model. We provide theoretical justifications for this robustness inheritance phenomenon. Our theoretical results reveal that feature purification plays an important role in connecting the adversarial robustness of the pre-trained model and the downstream tasks in two-layer neural networks. Specifically, we show that (i) with adversarial training, each hidden node tends to pick only one (or a few) feature; (ii) without adversarial training, the hidden nodes can be vulnerable to attacks. This observation is valid for both supervised pre-training and contrastive learning. With purified nodes, it turns out that clean training is enough to achieve adversarial robustness in downstream tasks.
翻訳日:2024-01-30 19:11:41 公開日:2024-01-26
# セミセンシティブな特徴を持つ微分プライベート広告予測モデルの訓練

Training Differentially Private Ad Prediction Models with Semi-Sensitive Features ( http://arxiv.org/abs/2401.15246v1 )

ライセンス: Link先を確認
Lynn Chua, Qiliang Cui, Badih Ghazi, Charlie Harrison, Pritish Kamath, Walid Krichene, Ravi Kumar, Pasin Manurangsi, Krishna Giri Narra, Amer Sinha, Avinash Varadarajan, Chiyuan Zhang(参考訳) デジタル広告で生じる問題に触発され,セミセンシティブな特徴を持つ差分プライベート(DP)機械学習モデルを訓練するタスクを導入する。 この設定では、機能のサブセットは攻撃者に知られ(したがって保護される必要はない)、残りの機能とラベルは攻撃者には知られておらず、DP保証によって保護されるべきである。 このタスクは、モデルを完全なDP(ラベルとすべての機能を保護すべき)またはラベルDP(すべての機能を既知のものとみなし、ラベルのみを保護すべき)でトレーニングする間を補間する。 セミセンシティブな特徴を持つDPモデルの学習アルゴリズムを提案する。 実広告データセットに対する経験的評価を通じて,本アルゴリズムがベースラインの有用性を上回っていることを実証する。 (i)DP確率勾配降下(DP-SGD)は、すべての特徴(未知・未知)に基づいて動作し、 (II)ラベルDPアルゴリズムは既知の特徴のみで動作する(未知の機能を捨てる)。

Motivated by problems arising in digital advertising, we introduce the task of training differentially private (DP) machine learning models with semi-sensitive features. In this setting, a subset of the features is known to the attacker (and thus need not be protected) while the remaining features as well as the label are unknown to the attacker and should be protected by the DP guarantee. This task interpolates between training the model with full DP (where the label and all features should be protected) or with label DP (where all the features are considered known, and only the label should be protected). We present a new algorithm for training DP models with semi-sensitive features. Through an empirical evaluation on real ads datasets, we demonstrate that our algorithm surpasses in utility the baselines of (i) DP stochastic gradient descent (DP-SGD) run on all features (known and unknown), and (ii) a label DP algorithm run only on the known features (while discarding the unknown ones).
翻訳日:2024-01-30 19:11:25 公開日:2024-01-26
# genplusss: 表面下散乱を計測する遺伝的アルゴリズムに基づくプラグイン

GenPluSSS: A Genetic Algorithm Based Plugin for Measured Subsurface Scattering Representation ( http://arxiv.org/abs/2401.15245v1 )

ライセンス: Link先を確認
Bar{\i}\c{s} Y{\i}ld{\i}r{\i}m, Murat Kurt(参考訳) 本稿では,Blender 3Dモデリングツール上に均一で均一な,光学的に厚みのある半透明な材料を表現するプラグインを提案する。 本プラグインの動作原理は遺伝的アルゴリズム(GA)と特異値分解(SVD)に基づく地下散乱法(GenSSS)の組み合わせに基づいている。 提案されているプラグインはオープンソースレンダリングソフトウェアである Mitsubaenderer を使って実装されている。 提案法は, 地下散乱データを用いて検証した。 提案プラグインは, 高精度, コンパクト, 計算的に, 均一および均一な地下散乱効果を可視化する。

This paper presents a plugin that adds a representation of homogeneous and heterogeneous, optically thick, translucent materials on the Blender 3D modeling tool. The working principle of this plugin is based on a combination of Genetic Algorithm (GA) and Singular Value Decomposition (SVD)-based subsurface scattering method (GenSSS). The proposed plugin has been implemented using Mitsuba renderer, which is an open source rendering software. The proposed plugin has been validated on measured subsurface scattering data. It's shown that the proposed plugin visualizes homogeneous and heterogeneous subsurface scattering effects, accurately, compactly and computationally efficiently.
翻訳日:2024-01-30 19:11:10 公開日:2024-01-26
# unlearningが言語モデルの影響力あるトレーニングデータを公開

Unlearning Reveals the Influential Training Data of Language Models ( http://arxiv.org/abs/2401.15241v1 )

ライセンス: Link先を確認
Masaru Isonuma and Ivan Titov(参考訳) 有害なコンテンツを生成するリスクを軽減しつつ、言語モデルの性能を向上させるためには、モデルの出力に影響を与えるトレーニングデータセットを特定することが重要である。 理想的には、各データセットの影響をトレーニングから取り除くことで測定することができるが、モデルを複数回再トレーニングすることは違法に高価である。 本稿では、トレーニングデータセットの影響をトレーニングモデルから学習することによって推定するUnTracを提案する。 UnTracは非常に単純で、各トレーニングデータセットは勾配上昇によって解放され、学習後にモデルの予測がどの程度変化するかを評価する。 我々は,本手法が有毒,偏り,不合理なコンテンツの生成に及ぼす事前学習データセットの影響を実証的に検証する。 実験の結果,既存の手法よりも影響を推定し,過大なメモリ容量や複数のモデルチェックポイントを必要としないことがわかった。

In order to enhance the performance of language models while mitigating the risks of generating harmful content, it is crucial to identify which training dataset affects the model's outputs. Ideally, we can measure the influence of each dataset by removing it from training; however, it is prohibitively expensive to retrain a model multiple times. This paper presents UnTrac, which estimates the influence of a training dataset by unlearning it from the trained model. UnTrac is extremely simple; each training dataset is unlearned by gradient ascent, and we evaluate how much the model's predictions change after unlearning. We empirically examine if our methods can assess the influence of pretraining datasets on generating toxic, biased, and untruthful content. Experimental results demonstrate that our method estimates their influence much more accurately than existing methods while requiring neither excessive memory space nor multiple model checkpoints.
翻訳日:2024-01-30 19:10:57 公開日:2024-01-26
# 一般マルコフゲームにおける相関平衡の準最適最適化

Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games ( http://arxiv.org/abs/2401.15240v1 )

ライセンス: Link先を確認
Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng(参考訳) マルチプレイヤー一般サムマルコフゲームにおける相関平衡計算のためのポリシー最適化アルゴリズムについて検討した。 以前の結果は、相関平衡への$O(T^{-1/2})$収束率と、より弱い相関平衡の概念への加速$O(T^{-3/4})$収束率を得る。 本稿では,相関平衡を計算するために,ほぼ最適に近い$\tilde{o}(t^{-1})$収束率を達成する非結合ポリシー最適化アルゴリズムを提供することにより,両結果を大幅に改善する。 我々のアルゴリズムは 2つの主要な要素を組み合わせることで (i)スムーズな値更新と (ii)ログバリア正規化器を用いた楽観的フォロー・ザ・レギュラライズ・リーダーアルゴリズム。

We study policy optimization algorithms for computing correlated equilibria in multi-player general-sum Markov Games. Previous results achieve $O(T^{-1/2})$ convergence rate to a correlated equilibrium and an accelerated $O(T^{-3/4})$ convergence rate to the weaker notion of coarse correlated equilibrium. In this paper, we improve both results significantly by providing an uncoupled policy optimization algorithm that attains a near-optimal $\tilde{O}(T^{-1})$ convergence rate for computing a correlated equilibrium. Our algorithm is constructed by combining two main elements (i) smooth value updates and (ii) the optimistic-follow-the-regularized-leader algorithm with the log barrier regularizer.
翻訳日:2024-01-30 19:10:41 公開日:2024-01-26
# ファジィルールに基づく二分分類における反復特徴の選択

Employing Iterative Feature Selection in Fuzzy Rule-Based Binary Classification ( http://arxiv.org/abs/2401.16244v1 )

ライセンス: Link先を確認
Haoning Li, Cong Wang, and Qinghua Huang(参考訳) 従来の二項分類アルゴリズムにおける特徴選択はデータセット前処理の段階で常に使われており、得られた特徴が必ずしも分類アルゴリズムに最適なものではないので、分類性能に影響する。 従来のルールベースのバイナリ分類アルゴリズムでは、分類規則は通常決定論的であり、規則に含まれるファジィ情報が無視される。 そこで本稿では,ファジィルールに基づく二項分類において反復的特徴選択を用いる。 提案アルゴリズムは,ファジィ相関に基づく特徴選択と,ビクラスタリングに基づくルールマイニングを組み合わせた。 最初は、特徴選択後のデータセットでビクラスタリングを行う。 次に、biclusters評価のフィードバックに従って、biclustersの機能選択を再開する。 このように、反復的な機能選択フレームワークを構築します。 イテレーションプロセスの間、取得したバイクラスタが要件を満たすまで停止する。 さらに、ルールメンバシップ関数を導入して、ビクラスタからベクトル化されたファジィルールを抽出し、弱い分類器を構築する。 分類性能が良好な弱分類器を適応ブースティングにより選択し、強分類器を「重み付け平均」で構成する。 最後に,提案アルゴリズムを異なるデータセット上で実行し,他のピアと比較する。 実験の結果,分類性能は良好であり,仲間よりも優れていた。

The feature selection in a traditional binary classification algorithm is always used in the stage of dataset preprocessing, which makes the obtained features not necessarily the best ones for the classification algorithm, thus affecting the classification performance. For a traditional rule-based binary classification algorithm, classification rules are usually deterministic, which results in the fuzzy information contained in the rules being ignored. To do so, this paper employs iterative feature selection in fuzzy rule-based binary classification. The proposed algorithm combines feature selection based on fuzzy correlation family with rule mining based on biclustering. It first conducts biclustering on the dataset after feature selection. Then it conducts feature selection again for the biclusters according to the feedback of biclusters evaluation. In this way, an iterative feature selection framework is build. During the iteration process, it stops until the obtained bicluster meets the requirements. In addition, the rule membership function is introduced to extract vectorized fuzzy rules from the bicluster and construct weak classifiers. The weak classifiers with good classification performance are selected by Adaptive Boosting and the strong classifier is constructed by "weighted average". Finally, we perform the proposed algorithm on different datasets and compare it with other peers. Experimental results show that it achieves good classification performance and outperforms its peers.
翻訳日:2024-01-30 14:17:46 公開日:2024-01-26
# MGTUNet: 大腸核インスタンスのセグメンテーションと定量化のための新しいUNet

MGTUNet: An new UNet for colon nuclei instance segmentation and quantification ( http://arxiv.org/abs/2210.10981v2 )

ライセンス: Link先を確認
Liangrui Pan, Lian Wang, Zhichao Feng, Zhujun Xu, Liwen Xu, Shaoliang Peng(参考訳) 大腸癌(CRC)は死亡率と死亡率で上位3つの悪性腫瘍の1つである。 病理組織像は大腸癌診断の金本位制である。 細胞核インスタンスのセグメンテーションと分類、および核成分の回帰タスクは、大腸組織における腫瘍微小環境の分析に役立つ。 従来の手法では、両方のタスクをエンドツーエンドで同時に扱うことができず、予測精度が低く、アプリケーションコストも高い。 本稿では,Mish, Group normalization, transposed convolution layer を用いてセグメント化モデルを改善する UNet フレームワーク MGTUNet と,SmoothL1Loss 値を調整するレンジャー最適化器を提案する。 第二に、異なるチャネルを使用して異なる種類の核を分割し分類し、最終的に核のインスタンスのセグメンテーションと分類タスクを完了する。 最後に,8つのセグメンテーションモデルを用いた広範囲比較実験を行った。 3つの評価指標とモデルのパラメータサイズを比較することで、MGTUNetはPQで0.6254、mPQで0.6359、R2で0.8695を得た。 その結果,MGTUNetは大腸癌の病理組織像を定量化するための最先端の手法であることがわかった。

Colorectal cancer (CRC) is among the top three malignant tumor types in terms of morbidity and mortality. Histopathological images are the gold standard for diagnosing colon cancer. Cellular nuclei instance segmentation and classification, and nuclear component regression tasks can aid in the analysis of the tumor microenvironment in colon tissue. Traditional methods are still unable to handle both types of tasks end-to-end at the same time, and have poor prediction accuracy and high application costs. This paper proposes a new UNet model for handling nuclei based on the UNet framework, called MGTUNet, which uses Mish, Group normalization and transposed convolution layer to improve the segmentation model, and a ranger optimizer to adjust the SmoothL1Loss values. Secondly, it uses different channels to segment and classify different types of nucleus, ultimately completing the nuclei instance segmentation and classification task, and the nuclei component regression task simultaneously. Finally, we did extensive comparison experiments using eight segmentation models. By comparing the three evaluation metrics and the parameter sizes of the models, MGTUNet obtained 0.6254 on PQ, 0.6359 on mPQ, and 0.8695 on R2. Thus, the experiments demonstrated that MGTUNet is now a state-of-the-art method for quantifying histopathological images of colon cancer.
翻訳日:2024-01-29 18:59:32 公開日:2024-01-26
# シングルタイムスケールアクター批判の有限時間解析

Finite-time analysis of single-timescale actor-critic ( http://arxiv.org/abs/2210.09921v4 )

ライセンス: Link先を確認
Xuyang Chen, Lin Zhao(参考訳) アクター批判法は多くの挑戦的なアプリケーションで大きな成功を収めた。 しかし、その有限時間収束は最も実用的な単時間スケール形式ではまだ理解されていない。 シングル・タイム・スケールの俳優・批評家を分析するための既存の研究は、単純なサンプリングや表の設定に限られている。 連続状態空間におけるより実用的なオンライン・シングルタイム・アクタ-クリティックアルゴリズムについて検討し,批判者は線形関数近似を仮定し,アクタステップ毎に単一のマルコフサンプルで更新する。 これまでの分析では、このような困難なシナリオの収束を確立することができなかった。 オンライン・シングルタイムスケール・アクタ-クリティック法は、標準仮定下でのサンプル複雑性が$\widetilde{\mathcal{o}}(\epsilon^{-2})である$\epsilon$-approximate stationary pointを、i.i.d.サンプリング下でさらに$\mathcal{o}(\epsilon^{-2})$に改善できることを実証する。 提案手法は,アクターと批評家間のエラー伝達を体系的に評価し,制御する。 他のシングルタイム強化学習アルゴリズムの分析にも有望なアプローチを提供する。

Actor-critic methods have achieved significant success in many challenging applications. However, its finite-time convergence is still poorly understood in the most practical single-timescale form. Existing works on analyzing single-timescale actor-critic have been limited to i.i.d. sampling or tabular setting for simplicity. We investigate the more practical online single-timescale actor-critic algorithm on continuous state space, where the critic assumes linear function approximation and updates with a single Markovian sample per actor step. Previous analysis has been unable to establish the convergence for such a challenging scenario. We demonstrate that the online single-timescale actor-critic method provably finds an $\epsilon$-approximate stationary point with $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity under standard assumptions, which can be further improved to $\mathcal{O}(\epsilon^{-2})$ under the i.i.d. sampling. Our novel framework systematically evaluates and controls the error propagation between the actor and critic. It offers a promising approach for analyzing other single-timescale reinforcement learning algorithms as well.
翻訳日:2024-01-29 18:59:09 公開日:2024-01-26
# 機械学習における署名手法

Signature Methods in Machine Learning ( http://arxiv.org/abs/2206.14674v5 )

ライセンス: Link先を確認
Terry Lyons and Andrew D. McLeod(参考訳) 署名に基づく技術は、進化するデータの複雑なストリーム間の相互作用に関する数学的洞察を与える。 これらの知見は、ストリームデータを理解するための数値的なアプローチに自然に変換することができ、おそらくその数学的精度のために、データが不規則で定常ではない状況において、ストリームデータを分析するのに有用であることが証明された。 ストリームされたマルチモーダルデータの理解は指数関数的である:$d$のアルファベットの$n$文字の単語は、$d^n$メッセージのどれでも構わない。 シグネチャはサンプリングの不規則性から生じる指数関数的なノイズを取り除くが、指数関数的な情報の量は残る。 この調査は、指数関数的スケーリングを直接管理できる領域にとどまることを目的としている。 スケーラビリティの問題は多くの問題において重要な課題ですが、別の調査記事とさらなるアイデアが必要です。 本調査では,大規模機械学習の可能性を排除するのに十分なデータセットが小さく,文脈自由かつ原則化された少数の特徴セットの存在を効果的に活用できる状況について述べる。 ツールの数学的性質は、非数学者に脅威を与える可能性がある。 この記事では、このコミュニケーションギャップを埋め、機械学習のコンテキストから引き出された、扱いやすい作業例を提供する。 ノートブックはいくつかの例でオンラインで入手できる。 この調査は、Ilya Chevryev氏とAndrey Kormilitzin氏による以前の論文に基づいており、この機械の開発の初期段階において、広く類似した目的を持っていた。 この記事では、シグネチャによって提供される理論的洞察が、データ型にほとんど依存しない方法で、アプリケーションデータ分析において単純に実現される方法を説明します。

Signature-based techniques give mathematical insight into the interactions between complex streams of evolving data. These insights can be quite naturally translated into numerical approaches to understanding streamed data, and perhaps because of their mathematical precision, have proved useful in analysing streamed data in situations where the data is irregular, and not stationary, and the dimension of the data and the sample sizes are both moderate. Understanding streamed multi-modal data is exponential: a word in $n$ letters from an alphabet of size $d$ can be any one of $d^n$ messages. Signatures remove the exponential amount of noise that arises from sampling irregularity, but an exponential amount of information still remain. This survey aims to stay in the domain where that exponential scaling can be managed directly. Scalability issues are an important challenge in many problems but would require another survey article and further ideas. This survey describes a range of contexts where the data sets are small enough to remove the possibility of massive machine learning, and the existence of small sets of context free and principled features can be used effectively. The mathematical nature of the tools can make their use intimidating to non-mathematicians. The examples presented in this article are intended to bridge this communication gap and provide tractable working examples drawn from the machine learning context. Notebooks are available online for several of these examples. This survey builds on the earlier paper of Ilya Chevryev and Andrey Kormilitzin which had broadly similar aims at an earlier point in the development of this machinery. This article illustrates how the theoretical insights offered by signatures are simply realised in the analysis of application data in a way that is largely agnostic to the data type.
翻訳日:2024-01-29 18:58:45 公開日:2024-01-26
# 直交多項式を持つ開系の非摂動力学のディジタル量子シミュレーション

Digital quantum simulation of non-perturbative dynamics of open systems with orthogonal polynomials ( http://arxiv.org/abs/2203.14653v4 )

ライセンス: Link先を確認
Jos\'e D. Guimar\~aes, Mikhail I. Vasilevskiy and Lu\'is S. Barbosa(参考訳) 量子力学の古典的非摂動論的シミュレーションは、いくつかのスケーラビリティの問題、すなわち、シミュレーションの時間の長さまたは開システムの大きさの関数としての計算労力の指数関数的スケーリングに直面している。 本研究では、時間進化密度演算子と直交多項式アルゴリズム(TEDOPA)を量子コンピュータ上で用いることを提案し、これを量子TEDOPA(Q-TEDOPA)と呼び、ボソニック環境(連続フォノン浴)に線形に結合したオープン量子系の非摂動力学をシミュレートする。 ハミルトニアンの基底を変更することにより、TEDOPAは局所的近傍相互作用のみを持つ高調波発振器の連鎖を発生させ、超伝導量子プロセッサのような量子ビット接続に制限された量子デバイスの実装に適合する。 量子デバイス上でのtedopaの実装を詳細に分析し,本研究で検討したシステムの時間発展シミュレーションにおいて,計算資源の指数関数的スケーリングを回避できることを示す。 提案手法をIBMQデバイス上の非マルコフ高調波発振器環境への中等結合強度条件下での2つの光ハーベスティング分子間の励起子輸送シミュレーションに応用した。 Q-TEDOPAの応用は、量子生物学系の力学や強い相関した凝縮物質系の力学など、異なる領域に属する摂動技術では解決できない問題にまたがる。

Classical non-perturbative simulations of open quantum systems' dynamics face several scalability problems, namely, exponential scaling of the computational effort as a function of either the time length of the simulation or the size of the open system. In this work, we propose the use of the Time Evolving Density operator with Orthogonal Polynomials Algorithm (TEDOPA) on a quantum computer, which we term as Quantum TEDOPA (Q-TEDOPA), to simulate non-perturbative dynamics of open quantum systems linearly coupled to a bosonic environment (continuous phonon bath). By performing a change of basis of the Hamiltonian, the TEDOPA yields a chain of harmonic oscillators with only local nearest-neighbour interactions, making this algorithm suitable for implementation on quantum devices with limited qubit connectivity such as superconducting quantum processors. We analyse in detail the implementation of the TEDOPA on a quantum device and show that exponential scalings of computational resources can potentially be avoided for time-evolution simulations of the systems considered in this work. We applied the proposed method to the simulation of the exciton transport between two light-harvesting molecules in the regime of moderate coupling strength to a non-Markovian harmonic oscillator environment on an IBMQ device. Applications of the Q-TEDOPA span problems which can not be solved by perturbation techniques belonging to different areas, such as the dynamics of quantum biological systems and strongly correlated condensed matter systems.
翻訳日:2024-01-29 18:57:57 公開日:2024-01-26
# グローバル最適化非凸制約問題に対する反射勾配ランジュバンダイナミクスの収束誤差解析

Convergence Error Analysis of Reflected Gradient Langevin Dynamics for Globally Optimizing Non-Convex Constrained Problems ( http://arxiv.org/abs/2203.10215v2 )

ライセンス: Link先を確認
Kanji Sato, Akiko Takeda, Reiichiro Kawai, Taiji Suzuki(参考訳) グラディエントランゲヴィン力学と様々な変種は、大域的最適解への収束によって、最初は制約のない凸フレームワークにおいて、最近は凸制約のない凸問題においてさえも関心を惹きつけている。 本研究では,非凸領域上の非凸問題に拡張し,リフレクション勾配ランゲヴィンダイナミクスに基づく大域的最適化アルゴリズムを構築し,収束率を導出する。 ポアソン方程式とノイマン境界条件の確率的表現と組み合わせて境界におけるその反射を効果的に利用することにより、凸制約非凸問題に対する既存の収束率よりも高速に、有望な収束率を示す。

Gradient Langevin dynamics and a variety of its variants have attracted increasing attention owing to their convergence towards the global optimal solution, initially in the unconstrained convex framework while recently even in convex constrained non-convex problems. In the present work, we extend those frameworks to non-convex problems on a non-convex feasible region with a global optimization algorithm built upon reflected gradient Langevin dynamics and derive its convergence rates. By effectively making use of its reflection at the boundary in combination with the probabilistic representation for the Poisson equation with the Neumann boundary condition, we present promising convergence rates, particularly faster than the existing one for convex constrained non-convex problems.
翻訳日:2024-01-29 18:57:31 公開日:2024-01-26
# スパースランダムハイパーグラフ:非バックトラッキングスペクトルとコミュニティ検出

Sparse random hypergraphs: Non-backtracking spectra and community detection ( http://arxiv.org/abs/2203.07346v4 )

ライセンス: Link先を確認
Ludovic Stephan and Yizhe Zhu(参考訳) 私たちは、hsbm(hypergraph stochastic block model)に従って、$g$が生成されると仮定して、sparse $q$-uniform hypergraph $g$ におけるコミュニティ検出問題を考える。 ハイパーグラフに対する非バックトラック演算子に基づくスペクトル法は、アンジェリーニら (2015) によって予想された一般化ケステン・スティグム検出しきい値まで高い確率で作用する。 我々は,スパースHSBMの非バックトラック演算子のスペクトルを特徴付け,ハイパーグラフのIhara-Bass式を用いた高次元化手法を提案する。 その結果,超グラフの隣接行列と次数行列から構築した2n\times 2n$非正規行列の固有ベクトル問題に,n$頂点上のスパースHSBMのコミュニティ検出を還元することができる。 我々の知る限り、このアルゴリズムは一般的な対称確率テンソルに基づいて$r$ブロックを生成するHSBMの予測しきい値を達成する最初の証明可能かつ効率的なスペクトルアルゴリズムである。

We consider the community detection problem in a sparse $q$-uniform hypergraph $G$, assuming that $G$ is generated according to the Hypergraph Stochastic Block Model (HSBM). We prove that a spectral method based on the non-backtracking operator for hypergraphs works with high probability down to the generalized Kesten-Stigum detection threshold conjectured by Angelini et al. (2015). We characterize the spectrum of the non-backtracking operator for the sparse HSBM and provide an efficient dimension reduction procedure using the Ihara-Bass formula for hypergraphs. As a result, community detection for the sparse HSBM on $n$ vertices can be reduced to an eigenvector problem of a $2n\times 2n$ non-normal matrix constructed from the adjacency matrix and the degree matrix of the hypergraph. To the best of our knowledge, this is the first provable and efficient spectral algorithm that achieves the conjectured threshold for HSBMs with $r$ blocks generated according to a general symmetric probability tensor.
翻訳日:2024-01-29 18:57:16 公開日:2024-01-26
# 分散多デバイスローカライズのためのロボットweb

A Robot Web for Distributed Many-Device Localisation ( http://arxiv.org/abs/2202.03314v2 )

ライセンス: Link先を確認
Riku Murai, Joseph Ortiz, Sajad Saeedi, Paul H.J. Kelly, and Andrew J. Davison(参考訳) 本稿では,相互に計測を行うロボットなどのデバイスによる分散ネットワークが協調して,効率的なピアツーピア通信を通じてグローバルにローカライズできることを実証する。 我々のロボットウェブソリューションは、ガウシアン・リーフ・プロパゲーションに基づいて、全ての観測ロボットの確率構造を記述した基本的な非線形因子グラフに基づいており、あらゆる種類のロボット、動き、センサーに対して柔軟である。 我々は,Webページなどの非同期通信技術を公開することで実装可能な,シンプルで効率的な通信プロトコルを定義する。 我々は,1000台までのロボットが任意のパターンで対話するシミュレーションにおいて,分散計算と通信の効率を高く保ちながら,集中型非線形因子グラフソルバと同じ精度で大域的精度を達成することを示す。 gbpにおけるロバストな因子を用いることで,センサ測定や通信パケットの落下において高い障害率に耐性を示す。

We show that a distributed network of robots or other devices which make measurements of each other can collaborate to globally localise via efficient ad-hoc peer to peer communication. Our Robot Web solution is based on Gaussian Belief Propagation on the fundamental non-linear factor graph describing the probabilistic structure of all of the observations robots make internally or of each other, and is flexible for any type of robot, motion or sensor. We define a simple and efficient communication protocol which can be implemented by the publishing and reading of web pages or other asynchronous communication technologies. We show in simulations with up to 1000 robots interacting in arbitrary patterns that our solution convergently achieves global accuracy as accurate as a centralised non-linear factor graph solver while operating with high distributed efficiency of computation and communication. Via the use of robust factors in GBP, our method is tolerant to a high percentage of faults in sensor measurements or dropped communication packets.
翻訳日:2024-01-29 18:56:56 公開日:2024-01-26
# 修正フェールクラスタ編集

Modification-Fair Cluster Editing ( http://arxiv.org/abs/2112.03183v2 )

ライセンス: Link先を確認
Vincent Froese, Leon Kellerhals, and Rolf Niedermeier(参考訳) 古典的なクラスタ編集問題(相関クラスタリング(英語版)とも呼ばれる)は、少数のエッジ修正により、与えられたグラフをクランプ(クラスタ)の解離結合に変換するよう要求する。 頂点色グラフ(サブグループを表す色)に適用した場合、NPハードクラスタ編集問題の標準的なアルゴリズムは、データのサブグループ(例えば、人口統計群)に偏った解を導き、サブグループのメンバーに発生する修正数で測定する。 本稿では,各サブグループに対する編集回数がそのサイズに比例することを保証する修正公平性制約を提案する。 まず,2つの頂点色を持つグラフの修正・フェアクラスタ編集について検討する。 古典的な「非フェア」設定では、このケースは自明に多項式時間で解くことができる。 しかし、より一般的な編集形式では、修正・フェア変種はエッジの編集数に対して固定パラメータの扱いが可能だ。 我々は,これらを補完し,さらに理論的な結果として,実世界のソーシャルネットワークにおけるモデルの実証分析を行い,修正・フェアのコストが驚くほど低いこと,すなわち最適な修正・フェアソリューションのコストは,最適な「非フェア」ソリューションのコストと少ない割合で異なることを発見した。

The classic Cluster Editing problem (also known as Correlation Clustering) asks to transform a given graph into a disjoint union of cliques (clusters) by a small number of edge modifications. When applied to vertex-colored graphs (the colors representing subgroups), standard algorithms for the NP-hard Cluster Editing problem may yield solutions that are biased towards subgroups of data (e.g., demographic groups), measured in the number of modifications incident to the members of the subgroups. We propose a modification fairness constraint which ensures that the number of edits incident to each subgroup is proportional to its size. To start with, we study Modification-Fair Cluster Editing for graphs with two vertex colors. We show that the problem is NP-hard even if one may only insert edges within a subgroup; note that in the classic "non-fair" setting, this case is trivially polynomial-time solvable. However, in the more general editing form, the modification-fair variant remains fixed-parameter tractable with respect to the number of edge edits. We complement these and further theoretical results with an empirical analysis of our model on real-world social networks where we find that the price of modification-fairness is surprisingly low, that is, the cost of optimal modification-fair solutions differs from the cost of optimal "non-fair" solutions only by a small percentage.
翻訳日:2024-01-29 18:56:13 公開日:2024-01-26
# ミニマライザと畳み込みフィルタについて:理論接続とゲノム解析への応用

On minimizers and convolutional filters: theoretical connections and applications to genome analysis ( http://arxiv.org/abs/2111.08452v6 )

ライセンス: Link先を確認
Yun William Yu(参考訳) 最小化と畳み込みニューラルネットワーク(cnns)は2つの非常に異なる手法であり、どちらも分類学的生物学的配列の解析に使われている。 対面値では、メソッドは完全に異なるように思える。 最小化器はローリングウィンドウにミニワイズハッシュを使用して、ウィンドウ毎に単一の重要なk-mer機能を抽出する。 CNNは、ランダムに初期化された畳み込みフィルタの幅広い配列から始まり、プール操作と組み合わせ、次に複数のニューラルネットワーク層を追加して、フィルタ自身と、シーケンスの分類にどのように使用できるかを学ぶ。 ここでは、分類アルファベット上の列に対して、最大プーリングを持つ畳み込みフィルタのランダムガウス初期化は、選択されたk-merが(ハミング距離において)配列内のk-merから遠いが、他の最小値に近いような最小化順序を選択するのに等価であることを示すハッシュ関数特性の慎重な数学的解析を行う。 実験実験では、この性質はシミュレーションと実際のヒトテロメアの両方において繰り返し領域における密度の低下として現れる。 さらに、sars-cov-2ゲノムから合成された短読点を3次元ユークリッド空間に埋め込み、読み出し元の線形配列距離を局所的に再結合するcnnをスクラッチからトレーニングした。 本書は,CNNの分類的配列解析における有効性について概説する。

Minimizers and convolutional neural networks (CNNs) are two quite distinct popular techniques that have both been employed to analyze categorical biological sequences. At face value, the methods seem entirely dissimilar. Minimizers use min-wise hashing on a rolling window to extract a single important k-mer feature per window. CNNs start with a wide array of randomly initialized convolutional filters, paired with a pooling operation, and then multiple additional neural layers to learn both the filters themselves and how they can be used to classify the sequence. Here, our main result is a careful mathematical analysis of hash function properties showing that for sequences over a categorical alphabet, random Gaussian initialization of convolutional filters with max-pooling is equivalent to choosing a minimizer ordering such that selected k-mers are (in Hamming distance) far from the k-mers within the sequence but close to other minimizers. In empirical experiments, we find that this property manifests as decreased density in repetitive regions, both in simulation and on real human telomeres. We additionally train from scratch a CNN embedding of synthetic short-reads from the SARS-CoV-2 genome into 3D Euclidean space that locally recapitulates the linear sequence distance of the read origins, a modest step towards building a deep learning assembler, though it is at present too slow to be practical. In total, this manuscript provides a partial explanation for the effectiveness of CNNs in categorical sequence analysis.
翻訳日:2024-01-29 18:55:52 公開日:2024-01-26
# 近傍選択アプローチによる高次元機能グラフィカルモデル構造学習

High-dimensional Functional Graphical Model Structure Learning via Neighborhood Selection Approach ( http://arxiv.org/abs/2105.02487v3 )

ライセンス: Link先を確認
Boxin Zhao, Percy S. Zhai, Y. Samuel Wang, Mladen Kolar(参考訳) 非有向グラフィカルモデルはベクトル値データの条件付き独立構造をモデル化するために広く使われている。 しかし、脳波やfMRIデータなど、現代の多くのアプリケーションでは、観測はベクトルよりも多変量ランダム関数として適切にモデル化されている。 このような機能的データの条件付き独立構造をモデル化するための機能的グラフィカルモデルが提案されている。 そこで我々は,まず関数オンファンクショナル回帰を用いて各ノードの近傍を推定し,次に推定された近傍を組み合わせてグラフ構造全体を復元する,ガウス関数グラフモデルの構造を推定する近傍選択手法を提案する。 提案手法では,ランダム関数の条件分布の仮定のみを仮定し,条件独立構造を直接推定する。 したがって、関数が無限次元であるときに存在しないような、明確に定義された精密作用素の必要性を回避できる。 さらに、近傍選択法は計算効率が高く、容易に並列化できる。 提案手法の高次元設定における統計的整合性は理論および実験結果の両方によって支持される。 さらに,中間段階における次元還元に使用する関数基底の選択の効果について検討した。 関数基底を選択するためのヒューリスティックな基準を与え、2つの実用的な選択を動機付け、理論と実験の両方で正当化する。

Undirected graphical models are widely used to model the conditional independence structure of vector-valued data. However, in many modern applications, for example those involving EEG and fMRI data, observations are more appropriately modeled as multivariate random functions rather than vectors. Functional graphical models have been proposed to model the conditional independence structure of such functional data. We propose a neighborhood selection approach to estimate the structure of Gaussian functional graphical models, where we first estimate the neighborhood of each node via a function-on-function regression and subsequently recover the entire graph structure by combining the estimated neighborhoods. Our approach only requires assumptions on the conditional distributions of random functions, and we estimate the conditional independence structure directly. We thus circumvent the need for a well-defined precision operator that may not exist when the functions are infinite dimensional. Additionally, the neighborhood selection approach is computationally efficient and can be easily parallelized. The statistical consistency of the proposed method in the high-dimensional setting is supported by both theory and experimental results. In addition, we study the effect of the choice of the function basis used for dimensionality reduction in an intermediate step. We give a heuristic criterion for choosing a function basis and motivate two practically useful choices, which we justify by both theory and experiments.
翻訳日:2024-01-29 18:55:23 公開日:2024-01-26
# facebookの政治広告と説明責任:外部グループが最もネガティブ、特に寄付者を隠す場合

Facebook Political Ads And Accountability: Outside Groups Are Most Negative, Especially When Hiding Donors ( http://arxiv.org/abs/2010.01730v4 )

ライセンス: Link先を確認
Shomik Jain, Abby K. Wood(参考訳) オンライン政治広告の出現は、ほとんど規制がなく、ソーシャルメディア上の政治広告主は説明責任を避けることができる。 我々は、ダークマネーと消滅するグループによる透明性と説明責任の欠如が、Facebook上の政治広告の感情にどのように関係しているかを分析する。 2018年8月から11月にかけてfacebookの広告ライブラリから、fec登録広告主による430,044の広告を得た。 我々は,(1)ドナーの透明性(暗黒の金銭または開示)と(2)グループの永続性(2018年に登録されたfecのみか,サイクルにわたって持続)で分類した,候補者,パーティー,外部グループによる広告を比較した。 最もネガティブな広告は、暗黒マネーと、ほとんどが企業または501(c)組織であった外部グループによる消滅だった。 しかし、ダークマネーだけが広告センチメントの大幅な減少に結びついている。 これらの結果は、特にソーシャルメディアにおける感情分極の文脈において、広告トーンに対する政治的発言の責任が示唆された。

The emergence of online political advertising has come with little regulation, allowing political advertisers on social media to avoid accountability. We analyze how transparency and accountability deficits caused by dark money and disappearing groups relate to the sentiment of political ads on Facebook. We obtained 430,044 ads with FEC-registered advertisers from Facebook's ad library that ran between August-November 2018. We compare ads run by candidates, parties, and outside groups, which we classify by (1) their donor transparency (dark money or disclosed) and (2) the group's permanence (only FEC-registered in 2018 or persistent across cycles). The most negative advertising came from dark money and disappearing outside groups, which were mostly corporations or 501(c) organizations. However, only dark money was associated with a significant decrease in ad sentiment. These results suggest that accountability for political speech matters for advertising tone, especially in the context of affective polarization on social media.
翻訳日:2024-01-29 18:54:39 公開日:2024-01-26
# 線形畳み込みネットワークの機能空間と臨界点

Function Space and Critical Points of Linear Convolutional Networks ( http://arxiv.org/abs/2304.05752v2 )

ライセンス: Link先を確認
Kathl\'en Kohn, Guido Mont\'ufar, Vahid Shahverdi, Matthew Trager(参考訳) 1次元畳み込み層を有する線形ネットワークの幾何構造について検討する。 これらのネットワークの函数空間はスパース分解を許容する多項式の半代数族と同一視できる。 我々は,ネットワークアーキテクチャが関数空間の次元,境界,特異点に与える影響を分析する。 また,ネットワークのパラメータ化マップの臨界点について述べる。 さらに,2乗誤差損失を持つネットワークをトレーニングする最適化問題についても検討した。 すべてのストライドが1より大きくジェネリックなデータを持つアーキテクチャでは、最適化問題の非ゼロ臨界点は関数空間の滑らかな内部点であることが証明される。 この性質は、密度線形ネットワークや直線畳み込みネットワークでは偽であることが知られている。

We study the geometry of linear networks with one-dimensional convolutional layers. The function spaces of these networks can be identified with semi-algebraic families of polynomials admitting sparse factorizations. We analyze the impact of the network's architecture on the function space's dimension, boundary, and singular points. We also describe the critical points of the network's parameterization map. Furthermore, we study the optimization problem of training a network with the squared error loss. We prove that for architectures where all strides are larger than one and generic data, the non-zero critical points of that optimization problem are smooth interior points of the function space. This property is known to be false for dense linear networks and linear convolutional networks with stride one.
翻訳日:2024-01-29 18:48:54 公開日:2024-01-26
# MATIS:手術器具分割用マスケアテンショントランス

MATIS: Masked-Attention Transformers for Surgical Instrument Segmentation ( http://arxiv.org/abs/2303.09514v4 )

ライセンス: Link先を確認
Nicol\'as Ayobi, Alejandra P\'erez-Rond\'on, Santiago Rodr\'iguez, Pablo Arbel\'aez(参考訳) そこで本研究では,2段階の完全トランスフォーマティブ法であるmatis(手術用インスツルメンテーションセグメンテーション)のためのマスク付きアテンショントランスフォーマを提案する。 MATISは、タスクのインスタンスレベルの性質を利用して、一連の細かな機器領域の提案を生成・分類するマスク付きアテンションモジュールを使用する。 本手法は,映像変換器による長期映像レベル情報を取り入れ,時間的整合性の向上とマスク分類の強化を図る。 当社のアプローチは、Endovis 2017とEndovis 2018の2つの標準公開ベンチマークで検証しています。 実験により,matisのフレーム単位のベースラインが従来の最先端のメソッドよりも優れており,時間的一貫性モジュールを含めれば,モデルの性能がさらに向上することを示した。

We propose Masked-Attention Transformers for Surgical Instrument Segmentation (MATIS), a two-stage, fully transformer-based method that leverages modern pixel-wise attention mechanisms for instrument segmentation. MATIS exploits the instance-level nature of the task by employing a masked attention module that generates and classifies a set of fine instrument region proposals. Our method incorporates long-term video-level information through video transformers to improve temporal consistency and enhance mask classification. We validate our approach in the two standard public benchmarks, Endovis 2017 and Endovis 2018. Our experiments demonstrate that MATIS' per-frame baseline outperforms previous state-of-the-art methods and that including our temporal consistency module boosts our model's performance further.
翻訳日:2024-01-29 18:48:43 公開日:2024-01-26
# フロー誘導密度比学習による生成モデル

Generative Modeling with Flow-Guided Density Ratio Learning ( http://arxiv.org/abs/2303.03714v2 )

ライセンス: Link先を確認
Alvin Heng, Abdul Fatir Ansari, Harold Soh(参考訳) 本稿では,DGflow で導入されたエントロピー規則化 f-分枝の勾配流の静的(時間に依存しない)近似に基づく,簡易かつスケーラブルな生成モデリング手法である Flow-Guided Density Ratio Learning (FDRL) を提案する。 DGflowでは、抽出可能な時間依存密度比は、GAN判別器によって与えられるスタイル推定器によって近似される。 これはサンプルリファインメントの場合で十分であり、フローのソースとターゲットの分布が互いに近い場合に十分である。 しかし、この仮定は生成には無効であり、二つの分布の間に大きな亀裂があるため、スタイル推定器のナイーブな応用は失敗する。 FDRLは、トレーニングプロセス中にサンプルを徐々に改善することを学ぶために密度比推定器を訓練することを提案する。 本手法では,FDRLが128\times128$の次元の画像を生成できるとともに,既存の勾配流ベースラインを定量的なベンチマークで上回り,密度カオス問題を緩和する。 また2つのユースケースでFDRLの柔軟性を示す。 まず、非条件FDRLを外部分類器で簡単に構成してクラス条件生成を行う。 第2に、FDRLはフレームワークに変更を加えることなく、不適切な画像から画像への変換に直接適用することができる。 コードはhttps://github.com/ajrheng/FDRLで公開されている。

We present Flow-Guided Density Ratio Learning (FDRL), a simple and scalable approach to generative modeling which builds on the stale (time-independent) approximation of the gradient flow of entropy-regularized f-divergences introduced in DGflow. In DGflow, the intractable time-dependent density ratio is approximated by a stale estimator given by a GAN discriminator. This is sufficient in the case of sample refinement, where the source and target distributions of the flow are close to each other. However, this assumption is invalid for generation and a naive application of the stale estimator fails due to the large chasm between the two distributions. FDRL proposes to train a density ratio estimator such that it learns from progressively improving samples during the training process. We show that this simple method alleviates the density chasm problem, allowing FDRL to generate images of dimensions as high as $128\times128$, as well as outperform existing gradient flow baselines on quantitative benchmarks. We also show the flexibility of FDRL with two use cases. First, unconditional FDRL can be easily composed with external classifiers to perform class-conditional generation. Second, FDRL can be directly applied to unpaired image-to-image translation with no modifications needed to the framework. Code is publicly available at https://github.com/ajrheng/FDRL.
翻訳日:2024-01-29 18:48:29 公開日:2024-01-26
# 顔の仮想化は顔の知覚を変えたか? 拡張現実が顔面知覚に及ぼす影響に関する研究

Has the Virtualization of the Face Changed Facial Perception? A Study of the Impact of Augmented Reality on Facial Perception ( http://arxiv.org/abs/2303.00612v2 )

ライセンス: Link先を確認
Louisa Conwill, Samuel Anthony, and Walter Scheirer(参考訳) 拡張現実や他の写真編集フィルターは、オンラインで顔を修正するのに使われる一般的な方法である。 コミュニケーションにおける顔知覚の重要な役割を考えると、この変化した顔の数をどのように認識するか。 本稿では,異なるスタイルの顔フィルターに対する親しみ度,異なるフィルタで編集された顔の奇妙な感じ,画像がフィルタリングされているかどうかを識別する6つの調査結果について述べる。 その結果、より伝統的な顔フィルターで修正された顔は、無修正顔と同様に知覚され、拡張現実フィルターでフィルタリングされた顔は、無修正顔とは異なる知覚であることが示された。 本研究は,従来の写真編集技術に対する社会的な調整や,異なる種類のフィルタの特性の違いなど,これらの結果に対する考えられる説明について考察する。 結果に基づいてオンライン空間を構築する方法についての議論をまとめて締めくくった。

Augmented reality and other photo editing filters are popular methods used to modify faces online. Considering the important role of facial perception in communication, how do we perceive this increasing number of modified faces? In this paper we present the results of six surveys that measure familiarity with different styles of facial filters, perceived strangeness of faces edited with different filters, and ability to discern whether images are filtered. Our results demonstrate that faces modified with more traditional face filters are perceived similarly to unmodified faces, and faces filtered with augmented reality filters are perceived differently from unmodified faces. We discuss possible explanations for these results, including a societal adjustment to traditional photo editing techniques or the inherent differences in the different types of filters. We conclude with a discussion of how to build online spaces more responsibly based on our results.
翻訳日:2024-01-29 18:48:08 公開日:2024-01-26
# 因果識別による正規化による表現不一致

Representation Disentaglement via Regularization by Causal Identification ( http://arxiv.org/abs/2303.00128v3 )

ライセンス: Link先を確認
Juan Castorena(参考訳) 本研究では,不等角表現学習におけるデータ生成過程の仮定を記述するために,因果衝突型構造モデルを提案する。 これは従来の因子分解仮定モデル $p(\mathbf{y}) = \prod_{i} p(\mathbf{y}_i )$ を拡張し、偏りのあるデータセット(例えばサンプリング選択バイアス)からの学習を扱うには不十分である。 衝突型加速器の構造は、基底となる生成変数間の条件付き依存性が、実際には無関係であっても存在しうることを説明している。 因果的推論のルーリックの下では、この問題は因果的同定の条件の下で、データと制約の組み合わせから得ることが可能であり、 \textit{collider} モデルの依存性特性を制御することを目的とした。 そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。 標準ベンチマークに関する実証的な証拠は、変分フレームワークにおける非絡み合い表現の学習におけるReIの優位性を示している。 さらに、現実世界のデータセットでは、私たちのフレームワークは、分散の例にロバストな解釈可能な表現となり、ドメイン知識から期待できる真の効果と一致することを示します。

In this work, we propose the use of a causal collider structured model to describe the underlying data generative process assumptions in disentangled representation learning. This extends the conventional i.i.d. factorization assumption model $p(\mathbf{y}) = \prod_{i} p(\mathbf{y}_i )$, inadequate to handle learning from biased datasets (e.g., with sampling selection bias). The collider structure, explains that conditional dependencies between the underlying generating variables may be exist, even when these are in reality unrelated, complicating disentanglement. Under the rubric of causal inference, we show this issue can be reconciled under the condition of causal identification; attainable from data and a combination of constraints, aimed at controlling the dependencies characteristic of the \textit{collider} model. For this, we propose regularization by identification (ReI), a modular regularization engine designed to align the behavior of large scale generative models with the disentanglement constraints imposed by causal identification. Empirical evidence on standard benchmarks demonstrates the superiority of ReI in learning disentangled representations in a variational framework. In a real-world dataset we additionally show that our framework, results in interpretable representations robust to out-of-distribution examples and that align with the true expected effect from domain knowledge.
翻訳日:2024-01-29 18:47:54 公開日:2024-01-26
# 文字レベルの翻訳は待つ価値があるか? 機械翻訳における ByT5 と mT5 の比較

Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5 for Machine Translation ( http://arxiv.org/abs/2302.14220v3 )

ライセンス: Link先を確認
Lukas Edman, Gabriele Sarti, Antonio Toral, Gertjan van Noord, Arianna Bisazza(参考訳) 事前訓練された文字レベルおよびバイトレベルの言語モデルは、自然言語処理(NLP)タスクで一般的なサブワードモデルと競合することが示されている。 しかし、ニューラルネットワーク翻訳(NMT)の有効性についてはほとんど研究されていない。 この研究は、NMT上の複数の言語と、文字レベルとサブワードレベルの事前訓練されたモデル(それぞれByT5とmT5)の実験的条件を広範囲に比較する。 特に微調整データに制限がある場合の翻訳における文字レベルのモデリングの有効性を示す。 本研究では, 文字モデルの翻訳品質の向上が, 正書法的に類似した単語や希少な単語の翻訳に反映されることを示す。 モデル予測におけるソーステキストの重要性を評価しながら、byt5内の単語レベルのパターンに注目し、生成中の単語レベルと文字レベルの情報を変調する能力を提案する。 最後に、バイトモデルの効率的トレードオフを評価し、翻訳品質を高めるために非時間クリティカルなシナリオでの使用を示唆する。

Pretrained character-level and byte-level language models have been shown to be competitive with popular subword models across a range of Natural Language Processing (NLP) tasks. However, there has been little research on their effectiveness for neural machine translation (NMT), particularly within the popular pretrain-then-finetune paradigm. This work performs an extensive comparison across multiple languages and experimental conditions of character- and subword-level pretrained models (ByT5 and mT5, respectively) on NMT. We show the effectiveness of character-level modeling in translation, particularly in cases where fine-tuning data is limited. In our analysis, we show how character models' gains in translation quality are reflected in better translations of orthographically similar words and rare words. While evaluating the importance of source texts in driving model predictions, we highlight word-level patterns within ByT5, suggesting an ability to modulate word-level and character-level information during generation. We conclude by assessing the efficiency tradeoff of byte models, suggesting their usage in non-time-critical scenarios to boost translation quality.
翻訳日:2024-01-29 18:47:27 公開日:2024-01-26
# ギャップ閉鎖問題:低照度画像強調の知覚的品質評価と最適化

Gap-closing Matters: Perceptual Quality Evaluation and Optimization of Low-Light Image Enhancement ( http://arxiv.org/abs/2302.11464v4 )

ライセンス: Link先を確認
Baoliang Chen, Lingyu Zhu, Hanwei Zhu, Wenhan Yang, Linqi Song and Shiqi Wang(参考訳) 研究コミュニティでは,低照度画像強調アプローチの最適化は,エンドユーザーが認識する視覚的品質によって導かれるべきだというコンセンサスが高まっている。 低照度強調アルゴリズムの設計に多大な努力を払ったにもかかわらず、主観的および客観的品質を体系的に評価することには比較的限定的であった。 このギャップを緩和し、低光度画像強調の最適化に向けた明確なパスを提供するため、gap-closing frameworkを提案する。 特に、我々のギャップ閉鎖フレームワークは、再構成された露光画像(SQUARE-LOL)の主観的QUalityアセスメントのための大規模データセットの作成から始まります。 本データベースは、拡張画像の品質を研究し、包括的な主観的ユーザスタディを実施するための基盤となる。 次に,視覚的品質とエンハンスメントのギャップを埋める上で重要な役割を果たす客観的品質評価尺度を提案する。 最後に,提案する客観的品質尺度を,知覚的最適性に向けた強化モデルの学習を最適化するプロセスに組み込むことができることを示す。 提案手法の有効性を,画質予測の精度と画像強調の知覚的品質の両方を通して検証した。 私たちのデータベースとコードは、この分野のさらなる研究を促進するために公開されます。

There is a growing consensus in the research community that the optimization of low-light image enhancement approaches should be guided by the visual quality perceived by end users. Despite the substantial efforts invested in the design of low-light enhancement algorithms, there has been comparatively limited focus on assessing subjective and objective quality systematically. To mitigate this gap and provide a clear path towards optimizing low-light image enhancement for better visual quality, we propose a gap-closing framework. In particular, our gap-closing framework starts with the creation of a large-scale dataset for Subjective QUality Assessment of REconstructed LOw-Light Images (SQUARE-LOL). This database serves as the foundation for studying the quality of enhanced images and conducting a comprehensive subjective user study. Subsequently, we propose an objective quality assessment measure that plays a critical role in bridging the gap between visual quality and enhancement. Finally, we demonstrate that our proposed objective quality measure can be incorporated into the process of optimizing the learning of the enhancement model toward perceptual optimality. We validate the effectiveness of our proposed framework through both the accuracy of quality prediction and the perceptual quality of image enhancement. Our database and code will be made publicly available to facilitate further research in this area.
翻訳日:2024-01-29 18:47:07 公開日:2024-01-26
# デュアルRL:強化と模倣学習のための統一と新しい方法

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning ( http://arxiv.org/abs/2302.08560v3 )

ライセンス: Link先を確認
Harshit Sikchi, Qinqing Zheng, Amy Zhang, Scott Niekum(参考訳) 強化学習(RL)の目的は、期待される累積回帰を最大化する政策を見つけることである。 この目的を線形制約下での状態行動訪問分布の最適化問題として表現できることが示されている。 この定式化の二重問題は、双対 RL と呼ばれ、制約がなく、最適化が容易である。 本研究では,共有構造を持つ2つのRLアプローチの例として,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムを最初に導入した。 このような統一により、先行手法の欠点の根本原因を特定できる。 オフライン IL では,従来の手法は,実際の性能を大幅に制限する限定的なカバレッジ仮定に基づいている。 この制限を解消するために、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法ReCOILを提案する。 オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、さらに、既知のトレーニング不安定性問題を修正するGumbel回帰損失に代替的な選択肢を提供する新しい方法f-DVLを提案する。 提案手法である ReCOIL と f-DVL による IL と RL の性能改善は,ロボットの動作と操作をシミュレーションした広範囲なスイートで検証した。 プロジェクトコードと詳細は、このhttps://hari-sikchi.github.io/dual-rlで確認できる。

The goal of reinforcement learning (RL) is to find a policy that maximizes the expected cumulative return. It has been shown that this objective can be represented as an optimization problem of state-action visitation distribution under linear constraints. The dual problem of this formulation, which we refer to as dual RL, is unconstrained and easier to optimize. In this work, we first cast several state-of-the-art offline RL and offline imitation learning (IL) algorithms as instances of dual RL approaches with shared structures. Such unification allows us to identify the root cause of the shortcomings of prior methods. For offline IL, our analysis shows that prior methods are based on a restrictive coverage assumption that greatly limits their performance in practice. To fix this limitation, we propose a new discriminator-free method ReCOIL that learns to imitate from arbitrary off-policy data to obtain near-expert performance. For offline RL, our analysis frames a recent offline RL method XQL in the dual framework, and we further propose a new method f-DVL that provides alternative choices to the Gumbel regression loss that fixes the known training instability issue of XQL. The performance improvements by both of our proposed methods, ReCOIL and f-DVL, in IL and RL are validated on an extensive suite of simulated robot locomotion and manipulation tasks. Project code and details can be found at this https://hari-sikchi.github.io/dual-rl.
翻訳日:2024-01-29 18:46:46 公開日:2024-01-26
# ペアリング機構によるBell-CHSH不平等の違反に関する研究

A study of the violation of the Bell-CHSH inequality through a pairing mechanism ( http://arxiv.org/abs/2302.02385v3 )

ライセンス: Link先を確認
Silvio Paolo Sorella(参考訳) 両部系におけるベル-CHSH不等式の不等式は、擬スピン作用素を用いて、系のヒルベルト空間のすべてのモードをペアでグループ化することで議論する。 我々は,Bell-CHSH不平等テストを実施するために,すでに1組のペアが採用されていることを指摘している。 このメカニズムは、n00n$状態とコヒーレントおよび絞られた状態の助けを借りて示される。

The violation of the Bell-CHSH inequality for bipartite systems is discussed by making use of the pseudospin operators which enable us to group all modes of the Hilbert space of the system in pairs. We point out that a single pair can be already employed to perform a test of the Bell-CHSH inequality in order to check out its violation. The mechanism is illustrated with the help of $N00N$ states as well as with coherent and squeezed states.
翻訳日:2024-01-29 18:45:59 公開日:2024-01-26
# 整形外科的シーン理解に向けて

Towards Holistic Surgical Scene Understanding ( http://arxiv.org/abs/2212.04582v4 )

ライセンス: Link先を確認
Natalia Valderrama, Paola Ruiz Puentes, Isabela Hern\'andez, Nicol\'as Ayobi, Mathilde Verlyk, Jessica Santander, Juan Caicedo, Nicol\'as Fern\'andez, Pablo Arbel\'aez(参考訳) 外科的介入を研究するためのベンチマークのほとんどは、異なるタスク間の内在的な相補性を利用するのではなく、特定の課題に焦点を当てている。 本研究では,全身的外科的シーン理解のための新しい実験枠組みを提案する。 まず、フェーズ、ステップ、計測器、原子視覚行動認識(PSI-AVA)データセットを紹介する。 PSI-AVAには、ロボット支援根治的前立腺切除術ビデオにおける長期的(位相認識とステップ認識)と短期的推論(機器検出と新しいアトミックアクション認識)の両方のためのアノテーションが含まれている。 第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。 TAPIRは、機器検出タスクの学習された表現から恩恵を受け、データセットのマルチレベルアノテーションを活用して、その分類能力を向上させる。 PSI-AVAおよび他の公開データベースにおける実験結果から,全身的な外科的シーン理解の研究を促進するための枠組みの有効性が示された。

Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
翻訳日:2024-01-29 18:45:08 公開日:2024-01-26
# 因果グラフにおけるフロントドア調整のための線形時間アルゴリズム

Linear-Time Algorithms for Front-Door Adjustment in Causal Graphs ( http://arxiv.org/abs/2211.16468v4 )

ライセンス: Link先を確認
Marcel Wien\"obst, Benito van der Zander, Maciej Li\'skiewicz(参考訳) 観測データから因果効果を推定することは経験科学の基本的な課題である。 保守されていない共同ファウンダーがシステムに関わると、特に困難になる。 本論文は, 観測メディエータを用いて, 未観測のコンバウンドの存在下においても因果関係を識別できる古典的な手法である, 正面調整に焦点を当てたものである。 フロントドア推定の統計的特性はかなりよく理解されているが、アルゴリズム的な側面は長い間解明されていない。 2022年、Jeong, Tian, Bareinboim は、与えられた有向非巡回グラフ (DAG) における正面ドア基準を満たす集合を見つけるための最初の多項式時間アルゴリズムを、$O(n^3(n+m))$ run time で発表した。 我々の研究では、このタスクに対する最初の線形時間、すなわち$O(n+m)$のアルゴリズムを与え、漸近的に最適な時間複雑性に達する。 この結果は、すべてのフロントドア調整セットの$o(n(n+m))$遅延列挙アルゴリズムを意味し、また以前の作業を$n^3$で改善する。 さらに, 最小のフロントドア調整セットを求める最初の線形時間アルゴリズムを提案する。 提案するアルゴリズムを複数のプログラミング言語に実装することで,実使用を容易にし,その実現性を実証的に検証する。

Causal effect estimation from observational data is a fundamental task in empirical sciences. It becomes particularly challenging when unobserved confounders are involved in a system. This paper focuses on front-door adjustment -- a classic technique which, using observed mediators allows to identify causal effects even in the presence of unobserved confounding. While the statistical properties of the front-door estimation are quite well understood, its algorithmic aspects remained unexplored for a long time. In 2022, Jeong, Tian, and Bareinboim presented the first polynomial-time algorithm for finding sets satisfying the front-door criterion in a given directed acyclic graph (DAG), with an $O(n^3(n+m))$ run time, where $n$ denotes the number of variables and $m$ the number of edges of the causal graph. In our work, we give the first linear-time, i.e., $O(n+m)$, algorithm for this task, which thus reaches the asymptotically optimal time complexity. This result implies an $O(n(n+m))$ delay enumeration algorithm of all front-door adjustment sets, again improving previous work by a factor of $n^3$. Moreover, we provide the first linear-time algorithm for finding a minimal front-door adjustment set. We offer implementations of our algorithms in multiple programming languages to facilitate practical usage and empirically validate their feasibility, even for large graphs.
翻訳日:2024-01-29 18:44:16 公開日:2024-01-26
# 古代ギリシアパピルの分類信頼性向上のためのアンサンブルモデリングへのクラウドソーシングアノテータ分布の導入

Incorporating Crowdsourced Annotator Distributions into Ensemble Modeling to Improve Classification Trustworthiness for Ancient Greek Papyri ( http://arxiv.org/abs/2210.16380v4 )

ライセンス: Link先を確認
Graham West, Matthew I. Swindall, Ben Keener, Timothy Player, Alex C. Williams, James H. Brusuelas, John F. Wallin(参考訳) ノイズの多いクラウドソースのイメージデータセットで分類を行うことは、最高のニューラルネットワークでも困難である。 このようなデータセットの問題を複雑にする2つの問題は、クラス不均衡とラベル付けの不確実性である。 AL-ALLとAL-PUBのデータセットは、古代ギリシアのパピルス像から密に収穫された個々の文字で構成されている。 このようなデータセットへのアンサンブルモデリングの適用は、接地が疑わしい画像を特定し、それらのサンプルの信頼性を定量化するのに役立ちます。 そこで,sparse cross-entropy (cxe) と kullback-liebler divergence (kld) を用いて,損失関数の異なるほぼ同一のresnet からなるスタック一般化を適用した。 どちらのネットワークも、クラウドソースによるコンセンサスからのラベルを使用している。 このコンセンサスは、データセット内のある文字に対するすべてのアノテーションに基づくアノテーションの正規化分布(nda)に由来する。 第2のネットワークでは、KLDはNDAに対して計算される。 我々のアンサンブルモデルでは、cxe と kld ネットワークの出力に k-nearest neighbors モデルを適用する。 個々のResNetモデルはおよそ93%の精度で、アンサンブルモデルは95%の精度で分類信頼性を高めている。 また,様々なモデルの出力分布のシャノンエントロピーの解析を行い,分類の不確かさを測定した。 その結果,エントロピーはモデル誤分類の予測に有用であることが示唆された。

Performing classification on noisy, crowdsourced image datasets can prove challenging even for the best neural networks. Two issues which complicate the problem on such datasets are class imbalance and ground-truth uncertainty in labeling. The AL-ALL and AL-PUB datasets - consisting of tightly cropped, individual characters from images of ancient Greek papyri - are strongly affected by both issues. The application of ensemble modeling to such datasets can help identify images where the ground-truth is questionable and quantify the trustworthiness of those samples. As such, we apply stacked generalization consisting of nearly identical ResNets with different loss functions: one utilizing sparse cross-entropy (CXE) and the other Kullback-Liebler Divergence (KLD). Both networks use labels drawn from a crowd-sourced consensus. This consensus is derived from a Normalized Distribution of Annotations (NDA) based on all annotations for a given character in the dataset. For the second network, the KLD is calculated with respect to the NDA. For our ensemble model, we apply a k-nearest neighbors model to the outputs of the CXE and KLD networks. Individually, the ResNet models have approximately 93% accuracy, while the ensemble model achieves an accuracy of > 95%, increasing the classification trustworthiness. We also perform an analysis of the Shannon entropy of the various models' output distributions to measure classification uncertainty. Our results suggest that entropy is useful for predicting model misclassifications.
翻訳日:2024-01-29 18:43:47 公開日:2024-01-26
# ランダムxxz量子スピンチェーンにおける局在

Localization in the random XXZ quantum spin chain ( http://arxiv.org/abs/2210.14873v3 )

ライセンス: Link先を確認
Alexander Elgart, Abel Klein(参考訳) ランダム磁場中におけるハイゼンベルクxxzスピン-$\frac12$チェーンの多体局在(mbl)特性について検討した。 この系はパラメータ空間の非自明な領域においてスペクトルの底部にある任意のエネルギー間隔で局在を示すことが証明される。 この領域は弱い相互作用と強い障害のレジームを含み、系の大きさとは独立しており、エネルギー間隔のみに依存する。 本手法は,ランダム多体XXZハミルトニアン関数に対する準局所性の表現として局所化問題の再構成に基づく。 これにより,単一粒子の局在化コンテキストで導出される局在性を証明する分数モーメント法を多体設定に拡張できる。

We study the many-body localization (MBL) properties of the Heisenberg XXZ spin-$\frac12$ chain in a random magnetic field. We prove that the system exhibits localization in any given energy interval at the bottom of the spectrum in a nontrivial region of the parameter space. This region, which includes weak interaction and strong disorder regimes, is independent of the size of the system and depends only on the energy interval. Our approach is based on the reformulation of the localization problem as an expression of quasi-locality for functions of the random many-body XXZ Hamiltonian. This allows us to extend the fractional moment method for proving localization, previously derived in a single-particle localization context, to the many-body setting.
翻訳日:2024-01-29 18:43:24 公開日:2024-01-26
# MT-SLVR:トランスフォーメーション(変数)表現のためのマルチタスク自己教師付き学習

MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations ( http://arxiv.org/abs/2305.17191v2 )

ライセンス: Link先を確認
Calum Heggan, Tim Hospedales, Sam Budgett, Mehrdad Yaghoobi(参考訳) 対照的な自己教師付き学習は、大きなラベルのないデータセットから高品質な表現を作り出す能力で注目を集めている。 これらの強力な機能がダウンストリームタスクをデータ効率で学習可能にする主な理由は、拡張不変性を提供するためである。 しかし、好まれる不変量や種類は知られておらず、下流のタスクによって異なる。 そこで本稿では,パラメータ効率のよいマルチタスク型自己教師型フレームワーク(MT-SLVR)を提案する。 当社のマルチタスク表現は,ダウンストリームタスクの多様なメリットを享受する,強力で柔軟な機能を提供します。 我々は,様々な音声領域から抽出したマイナショット分類タスクのアプローチを評価し,それらすべてに対する分類性能の向上を実証する。

Contrastive self-supervised learning has gained attention for its ability to create high-quality representations from large unlabelled data sets. A key reason that these powerful features enable data-efficient learning of downstream tasks is that they provide augmentation invariance, which is often a useful inductive bias. However, the amount and type of invariances preferred is not known apriori, and varies across different downstream tasks. We therefore propose a multi-task self-supervised framework (MT-SLVR) that learns both variant and invariant features in a parameter-efficient manner. Our multi-task representation provides a strong and flexible feature that benefits diverse downstream tasks. We evaluate our approach on few-shot classification tasks drawn from a variety of audio domains and demonstrate improved classification performance on all of them
翻訳日:2024-01-29 18:36:50 公開日:2024-01-26
# オフラインrlオンライン化 - オフラインビジュアル強化学習のためのコラボレーティブワールドモデル

Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning ( http://arxiv.org/abs/2305.15260v3 )

ライセンス: Link先を確認
Qi Wang, Junming Yang, Yunbo Wang, Xin Jin, Wenjun Zeng, Xiaokang Yang(参考訳) 視覚入力を用いたオフライン強化学習(rl)モデルのトレーニングには,表現学習における過剰フィッティング問題と,期待される今後の報酬に対する過大評価バイアスという,2つの重要な課題がある。 近年の研究では、保守的な行動を奨励することで過大評価バイアスを緩和しようと試みている。 一方,本論文では,潜在的利点の探索を阻害することなく,より柔軟な値推定の制約を構築しようとする。 重要なアイデアは,オフラインポリシの"テストベッド"として,オンライン形式で容易に操作可能な,市販のrlシミュレータを活用することだ。 オンラインからオフラインへの効果的な知識伝達を実現するために,状態と報酬空間におけるドメイン間の相違を緩和するモデルベースのRLアプローチであるCoWorldを導入する。 実験により,CoWorldの有効性が示され,既存のRLアプローチを大きなマージンで上回った。

Training offline reinforcement learning (RL) models using visual inputs poses two significant challenges, i.e., the overfitting problem in representation learning and the overestimation bias for expected future rewards. Recent work has attempted to alleviate the overestimation bias by encouraging conservative behaviors. This paper, in contrast, tries to build more flexible constraints for value estimation without impeding the exploration of potential advantages. The key idea is to leverage off-the-shelf RL simulators, which can be easily interacted with in an online manner, as the "test bed" for offline policies. To enable effective online-to-offline knowledge transfer, we introduce CoWorld, a model-based RL approach that mitigates cross-domain discrepancies in state and reward spaces. Experimental results demonstrate the effectiveness of CoWorld, outperforming existing RL approaches by large margins.
翻訳日:2024-01-29 18:36:36 公開日:2024-01-26
# 位相整形によるチューニング原子-磁場相互作用

Tuning atom-field interaction via phase shaping ( http://arxiv.org/abs/2305.13750v2 )

ライセンス: Link先を確認
Y.-T. Cheng, C.-H. Chien, K.-M. Hsieh, Y.-H. Huang, P. Y. Wen, W.-J. Lin, Y. Lu, F. Aziz, C.-P. Lee, K.-T. Lin, C.-Y. Chen, J. C. Chen, C.-S. Chuu, A. F. Kockum, G.-D. Lin, Y.-H. Lin, and I.-C. Hoi(参考訳) コヒーレント電磁場はその振幅、周波数、位相によって記述することができる。 これらの性質は、場と原子の間の相互作用に影響を与える。 ここでは、半無限1次元伝送線路の終端に結合した超伝導人工原子によって散乱するマイクロ波の位相形成を示す。 特に、位相変調の弱い指数的に上昇するパルスをトランモン量子ビットに入力する。 場-原子相互作用は、ほぼ完全な相互作用(相互作用効率、すなわち原子と相互作用する場エネルギーの量94.5%)から、効果的に相互作用(相互作用効率3.5%)まで調整できる。

A coherent electromagnetic field can be described by its amplitude, frequency, and phase. All these properties can influence the interaction between the field and an atom. Here we demonstrate the phase shaping of microwaves that are scattered by a superconducting artificial atom coupled to the end of a semi-infinite 1D transmission line. In particular, we input a weak exponentially rising pulse with phase modulation to a transmon qubit. We observe that field-atom interaction can be tuned from nearly full interaction (interaction efficiency, i.e., amount of the field energy interacting with the atom, of 94.5%) to effectively no interaction (interaction efficiency 3.5%).
翻訳日:2024-01-29 18:36:21 公開日:2024-01-26
# 最適低ランク行列補完:半有限緩和と固有ベクトル解法

Optimal Low-Rank Matrix Completion: Semidefinite Relaxations and Eigenvector Disjunctions ( http://arxiv.org/abs/2305.12292v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Ryan Cory-Wright, Sean Lo, and Jean Pauphilet(参考訳) 低ランク行列補完は、与えられた観測セットを可能な限り正確に回復する最小の複雑さの行列を演算する。 残念ながら、既存の行列補完法は、高度にスケーラブルでしばしば高品質な解を識別するが、最適性保証を持たないヒューリスティックである。 我々は最適性指向眼で行列補完を再検討する。 これらの低ランク問題を、射影行列の非凸集合上の凸問題として再構成し、それらを検証可能な最適性に導く連結分岐・束縛スキームを実装した。 さらに、次数 1 の行列の和として低階行列を分解し、次数 1 の行列の次数 2 のマイナーが決定式 0 であるようにインセンティブを与えることにより、新規でしばしば密接な凸緩和のクラスを導出する。 数値実験では,新しい凸緩和法は既存の試みと比較して2桁の最適性ギャップを減少させ,この解法により n<=150 と r<=5 の時間で nxn ランク-r 行列の完備化問題を解く。

Low-rank matrix completion consists of computing a matrix of minimal complexity that recovers a given set of observations as accurately as possible. Unfortunately, existing methods for matrix completion are heuristics that, while highly scalable and often identifying high-quality solutions, do not possess any optimality guarantees. We reexamine matrix completion with an optimality-oriented eye. We reformulate these low-rank problems as convex problems over the non-convex set of projection matrices and implement a disjunctive branch-and-bound scheme that solves them to certifiable optimality. Further, we derive a novel and often tight class of convex relaxations by decomposing a low-rank matrix as a sum of rank-one matrices and incentivizing that two-by-two minors in each rank-one matrix have determinant zero. In numerical experiments, our new convex relaxations decrease the optimality gap by two orders of magnitude compared to existing attempts, and our disjunctive branch-and-bound scheme solves nxn rank-r matrix completion problems to certifiable optimality in hours for n<=150 and r<=5.
翻訳日:2024-01-29 18:36:10 公開日:2024-01-26
# 純量子状態推定のための最小正規直交基底

Minimal orthonormal bases for pure quantum state estimation ( http://arxiv.org/abs/2305.08774v2 )

ライセンス: Link先を確認
Leonardo Zambrano, Luciano Pereira, Aldo Delgado(参考訳) 有限次元ヒルベルト空間における最低3つの測定基準を用いて純量子状態を推定する解析手法を提案する。 これは、2つの基底が純粋状態に対する情報完全正の演算子値測定(ic-povm)を構築するのに不十分であるため最適である。 本稿では,バイナリツリー構造を用いて,アルゴリズムによる実装手法を提案する。 本手法の性能は数値シミュレーションにより評価され,量子状態推定の有効性を示す。

We present an analytical method to estimate pure quantum states using a minimum of three measurement bases in any finite-dimensional Hilbert space. This is optimal as two bases are insufficient to construct an informationally complete positive operator-valued measurement (IC-POVM) for pure states. We demonstrate our method using a binary tree structure, providing an algorithmic path for implementation. The performance of the method is evaluated through numerical simulations, showcasing its effectiveness for quantum state estimation.
翻訳日:2024-01-29 18:35:21 公開日:2024-01-26
# インターセプションに基づく実行スケジューリングによるプログラム修復のためのパッチ検証の高速化

Accelerating Patch Validation for Program Repair with Interception-Based Execution Scheduling ( http://arxiv.org/abs/2305.03955v2 )

ライセンス: Link先を確認
Yuan-An Xiao, Chenyang Yang, Bo Wang, Yingfei Xiong(参考訳) 長期パッチ検証時間は、自動プログラム修復(APR)の制限要因である。 パッチ検証と突然変異検査の二重性は認識されているが、汎用的なパッチ検証に系統的に突然変異検査技術を適用する研究は今のところ存在しない。 このギャップに対処するため,既存の突然変異検査手法を検証し,汎用パッチ検証に適した5種類の加速手法を同定する。 それらのうち、ミュータントスキーマとミュータント重複は、サードパーティのaprアプローチによる任意の変更のため、汎用パッチ検証に適応していない。 適応には2つの問題があります 1) state-of-the-art mutant deduplication approach による静的同値解析の実施の難しさ 2) 実行時にシステム状態に対するパッチの変更をキャプチャすることの難しさ。 これらの問題を克服するために,我々は2つの新しいアプローチを提案する。 1) オンラインのパッチ間の等価性を検出し,静的同値解析とその不正確性を回避する実行スケジューリング 2) インターセプションベースのインスツルメンテーションは、システム状態へのパッチ変更をインターセプトし、完全なインタプリタとそのオーバーヘッドを回避する。 上記のコントリビューションに基づいて,パッチ検証に適したテクニックのクラスをすべて統合したJava用汎用パッチ検証ツールであるExpressAPRを実装した。 4つの apr アプローチによる大規模評価を行った結果,expressapr によるパッチ検証は,プレーンバリデーションよりも 137.1 倍,最先端アプローチでは 8.8 倍 速くなり,パッチ検証が apr の時間的ボトルネックにならないことが判明した。 単一のバグに対するパッチ検証時間は、メインストリームのCPUで数分以内に削減できる。

Long patch validation time is a limiting factor for automated program repair (APR). Though the duality between patch validation and mutation testing is recognized, so far there exists no study of systematically adapting mutation testing techniques to general-purpose patch validation. To address this gap, we investigate existing mutation testing techniques and identify five classes of acceleration techniques that are suitable for general-purpose patch validation. Among them, mutant schemata and mutant deduplication have not been adapted to general-purpose patch validation due to the arbitrary changes that third-party APR approaches may introduce. This presents two problems for adaption: 1) the difficulty of implementing the static equivalence analysis required by the state-of-the-art mutant deduplication approach; 2) the difficulty of capturing the changes of patches to the system state at runtime. To overcome these problems, we propose two novel approaches: 1) execution scheduling, which detects the equivalence between patches online, avoiding the static equivalence analysis and its imprecision; 2) interception-based instrumentation, which intercepts the changes of patches to the system state, avoiding a full interpreter and its overhead. Based on the contributions above, we implement ExpressAPR, a general-purpose patch validator for Java that integrates all recognized classes of techniques suitable for patch validation. Our large-scale evaluation with four APR approaches shows that ExpressAPR accelerates patch validation by 137.1x over plainvalidation or 8.8x over the state-of-the-art approach, making patch validation no longer the time bottleneck of APR. Patch validation time for a single bug can be reduced to within a few minutes on mainstream CPUs.
翻訳日:2024-01-29 18:35:12 公開日:2024-01-26
# 期待最大化擬似ラベル

Expectation Maximization Pseudo Labels ( http://arxiv.org/abs/2305.01747v2 )

ライセンス: Link先を確認
Moucheng Xu and Yukun Zhou and Chen Jin and Marius de Groot and Daniel C. Alexander and Neil P. Oxtoby and Yipeng Hu and Joseph Jacob(参考訳) 本稿では擬似ラベリングについて検討する。 Pseudo-labellingは、自己学習のための擬似ラベルとして、未学習データに対する生の推測を用いる。 本手法と期待最大化アルゴリズムのリンクを確立することにより,擬似ラベリングの実証的成功を解明する。 これにより、元の擬似ラベリングが、より包括的な定式化の実証的推定に役立っていることに気付く。 この知見に従い、ベイズの定理に基づく擬似ラベルの完全な一般化をベイズ擬ラベル(baiesian pseudo labels)と呼ぶ。 次に,これらベイズ的擬似ラベルを生成するための変分的手法を導入し,高品質な擬似ラベルを自動的に選択するためのしきい値の学習を行う。 論文の残りでは,医療画像の半教師付きセグメンテーションにおける擬似ラベリングとその一般化形式であるベイズ擬似ラベルの応用について紹介する。 具体的には 焦点を合わせます 1)CTボリュームからの肺血管の3次元分枝化 2)MRIボリュームによる脳腫瘍の2次元マルチクラスセグメンテーション 3) mriボリュームからの脳腫瘍全体の3次元二分画 4)MRIボリュームからの前立腺の3次元分節化。 さらに,擬似ラベルが学習表現のロバスト性を高めることを実証する。 コードは次のgithubリポジトリでリリースされる。 https://github.com/moucheng2017/emssl

In this paper, we study pseudo-labelling. Pseudo-labelling employs raw inferences on unlabelled data as pseudo-labels for self-training. We elucidate the empirical successes of pseudo-labelling by establishing a link between this technique and the Expectation Maximisation algorithm. Through this, we realise that the original pseudo-labelling serves as an empirical estimation of its more comprehensive underlying formulation. Following this insight, we present a full generalisation of pseudo-labels under Bayes' theorem, termed Bayesian Pseudo Labels. Subsequently, we introduce a variational approach to generate these Bayesian Pseudo Labels, involving the learning of a threshold to automatically select high-quality pseudo labels. In the remainder of the paper, we showcase the applications of pseudo-labelling and its generalised form, Bayesian Pseudo-Labelling, in the semi-supervised segmentation of medical images. Specifically, we focus on: 1) 3D binary segmentation of lung vessels from CT volumes; 2) 2D multi-class segmentation of brain tumours from MRI volumes; 3) 3D binary segmentation of whole brain tumours from MRI volumes; and 4) 3D binary segmentation of prostate from MRI volumes. We further demonstrate that pseudo-labels can enhance the robustness of the learned representations. The code is released in the following GitHub repository: https://github.com/moucheng2017/EMSSL
翻訳日:2024-01-29 18:34:34 公開日:2024-01-26
# DynaVol: オブジェクト中心の語彙化による動的シーンの教師なし学習

DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric Voxelization ( http://arxiv.org/abs/2305.00393v4 )

ライセンス: Link先を確認
Yanpeng Zhao, Siyu Gao, Yunbo Wang, Xiaokang Yang(参考訳) 動的視覚シーンにおけるオブジェクト中心表現の教師なし学習は困難である。 2D画像の分解を学習する従来のアプローチとは異なり、DynaVolは幾何学的構造とオブジェクト中心の学習を異なるボリュームレンダリングフレームワークで統一する3Dシーン生成モデルである。 キーとなるアイデアは、オブジェクト中心のボキセル化を行い、シーンの3D特性を捉え、個々の空間位置におけるオブジェクト上の確率分布を推定する。 これらのボクセル機能は標準空間変形関数を通じて時間とともに進化し、スロットアテンションによるグローバル表現学習の基礎を形成する。 voxelの特徴とグローバル機能は相補的であり、ボリュームレンダリングのために構成型nerfデコーダによって利用される。 dynavolは教師なし動的シーン分解の既存のアプローチを著しく上回っている。 トレーニングが終わると、明確に意味のあるボクセル機能は、2Dシーン分解法では達成できない追加の機能を可能にし、幾何学的な形状を自由に編集したり、物体の運動軌跡を操作できる。

Unsupervised learning of object-centric representations in dynamic visual scenes is challenging. Unlike most previous approaches that learn to decompose 2D images, we present DynaVol, a 3D scene generative model that unifies geometric structures and object-centric learning in a differentiable volume rendering framework. The key idea is to perform object-centric voxelization to capture the 3D nature of the scene, which infers the probability distribution over objects at individual spatial locations. These voxel features evolve over time through a canonical-space deformation function, forming the basis for global representation learning via slot attention. The voxel features and global features are complementary and are both leveraged by a compositional NeRF decoder for volume rendering. DynaVol remarkably outperforms existing approaches for unsupervised dynamic scene decomposition. Once trained, the explicitly meaningful voxel features enable additional capabilities that 2D scene decomposition methods cannot achieve: it is possible to freely edit the geometric shapes or manipulate the motion trajectories of the objects.
翻訳日:2024-01-29 18:34:14 公開日:2024-01-26
# 文レベルの関係に関するチャットGPT評価:時間的・因果的・会話的関係に着目して

ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations ( http://arxiv.org/abs/2304.14827v3 )

ライセンス: Link先を確認
Chunkit Chan, Jiayang Cheng, Weiqi Wang, Yuxin Jiang, Tianqing Fang, Xin Liu, Yangqiu Song(参考訳) 本稿では,対話型大規模言語モデルChatGPTの性能を時間的関係,因果関係,談話関係などの関係性に基づいて定量的に評価することを目的とする。 様々なタスクにおけるChatGPTの有望な性能を考慮すると、時間的・因果関係、PDTB2.0に基づく、対話に基づく談話関係を含む11のデータセットのテストセット全体に対して、徹底的な評価を行う。 この結果の信頼性を確保するため,ゼロショットプロンプトテンプレート,ゼロショットプロンプトエンジニアリング(PE)テンプレート,インコンテクスト学習(ICL)プロンプトテンプレートなど,各タスクに適した3つのプロンプトテンプレートを用いて,すべての一般的な文対関係分類タスクのベースラインスコアを初めて確立した。 本研究により,ChatGPTは因果関係の検出と推論において極めて優れた能力を持つことが明らかとなった。 既存の明示的な談話接続物との談話関係の大多数を特定できるが、暗黙的な談話関係は依然として恐ろしい課題である。 同時に、ChatGPTは、会話関係に気付く前に対話の構造的理解を必要とする対話談話解析タスクにおいて、サブパーパフォーマンスを示す。

This paper aims to quantitatively evaluate the performance of ChatGPT, an interactive large language model, on inter-sentential relations such as temporal relations, causal relations, and discourse relations. Given ChatGPT's promising performance across various tasks, we proceed to carry out thorough evaluations on the whole test sets of 11 datasets, including temporal and causal relations, PDTB2.0-based, and dialogue-based discourse relations. To ensure the reliability of our findings, we employ three tailored prompt templates for each task, including the zero-shot prompt template, zero-shot prompt engineering (PE) template, and in-context learning (ICL) prompt template, to establish the initial baseline scores for all popular sentence-pair relation classification tasks for the first time. Through our study, we discover that ChatGPT exhibits exceptional proficiency in detecting and reasoning about causal relations, albeit it may not possess the same level of expertise in identifying the temporal order between two events. While it is capable of identifying the majority of discourse relations with existing explicit discourse connectives, the implicit discourse relation remains a formidable challenge. Concurrently, ChatGPT demonstrates subpar performance in the dialogue discourse parsing task that requires structural understanding in a dialogue before being aware of the discourse relation.
翻訳日:2024-01-29 18:33:55 公開日:2024-01-26
# フォールトトレラント量子コンピュータにおける読み出し雑音の最小化

Minimizing readout-induced noise for early fault-tolerant quantum computers ( http://arxiv.org/abs/2304.11532v2 )

ライセンス: Link先を確認
Yunzhe Zheng and Keita Kanno(参考訳) 量子エラー訂正コードは、潜在的なエラーを診断し、シンドローム測定を利用して測定結果に基づいて修正することができる。 しかし、初期のフォールトトレラント量子コンピュータでは中間回路測定は技術的に困難であり、リードアウト誘起ノイズは論理的不忠実性の主要な要因である。 そこで本研究では, 全身型症候群計測法として, 単一アンシラの単発計測のみを必要とするが, 標準型症候群計測では各安定器発電機の固有値の抽出に複数の測定が必要である。 そのため、読み出し雑音を最小限に抑えて論理状態の誤差を検出することができる。 本手法を量子誤差補正サイクルの事前チェックルーチンとして採用することにより, 読み出しオーバーヘッド, アイドリング時間, およびシンドローム測定中の論理誤差率を大幅に削減することができる。 提案プロトコルの性能を超伝導ハードウェアに基づく現実的なノイズパラメータの下でiceberg符号とsteane符号を用いて数値的に解析し,近い将来に本プロトコルの利点を実証する。 短期量子ハードウェアの中間回路計測は依然としてエラーを起こしやすいため,本手法は早期のフォールトトレラント量子コンピューティングの応用を推し進める可能性がある。

Quantum error correcting code can diagnose potential errors and correct them based on measured outcomes by leveraging syndrome measurement. However, mid-circuit measurement has been technically challenging for early fault-tolerant quantum computers and the readout-induced noise acts as a main contributor to the logical infidelity. We present a different method for syndrome extraction, namely Generalized Syndrome Measurement, that requires only a single-shot measurement on a single ancilla, while the canonical syndrome measurement requires multiple measurements to extract the eigenvalue for each stabilizer generator. As such, we can detect the error in the logical state with minimized readout-induced noise. By adopting our method as a pre-check routine for quantum error correcting cycles, we can significantly reduce the readout overhead, the idling time, and the logical error rate during syndrome measurement. We numerically analyze the performance of our protocol using Iceberg code and Steane code under realistic noise parameters based on superconducting hardware and demonstrate the advantage of our protocol in the near-term scenario. As mid-circuit measurements are still error-prone for near-term quantum hardware, our method may boost the applications of early fault-tolerant quantum computing.
翻訳日:2024-01-29 18:33:31 公開日:2024-01-26
# 摂動は投資リスクの低減に役立つか? スプリット変動型対向訓練によるリスクアウェアストックレコメンデーション

Can Perturbations Help Reduce Investment Risks? Risk-Aware Stock Recommendation via Split Variational Adversarial Training ( http://arxiv.org/abs/2304.11043v2 )

ライセンス: Link先を確認
Jiezhu Cheng, Kaizhu Huang, Zibin Zheng(参考訳) 株式市場では、成功した投資には利益とリスクのバランスが良い必要がある。 格付けパラダイムの学習に基づき、投資家に高いリターン率の株式を推薦するため、定量金融においてストックレコメンデーションが広く研究されている。 利益を上げる努力にもかかわらず、多くの既存勧告アプローチは依然としてリスク管理にいくつかの制限を設けており、実用的な株式投資において紙の損失が許容できない可能性がある。 リスクを効果的に低減するために、敵の学習からインスピレーションを得て、リスク対応ストックレコメンデーションのための新しいSVAT(Split Variational Adversarial Training)手法を提案する。 本質的には、SVATは、リスクのある株式のサンプルの敵の摂動に敏感なストックモデルを奨励し、摂動から学ぶことによってモデルのリスク意識を高める。 リスク指標として代表的な敵対的例を生成するために,変動摂動生成器を考案し,多様なリスク因子をモデル化する。 特に変動型アーキテクチャは,投資家に対して大まかなリスク定量化を可能とし,解釈可能性のさらなる利点を示す。 いくつかの実世界の株式市場データセットの実験は、SVAT法の優位性を実証している。 株式レコメンデーションモデルのボラティリティを下げることで、SVATは投資リスクを効果的に低減し、リスク調整利益の点で最先端のベースラインを30%以上上回ります。 実験データとソースコードはすべてhttps://drive.google.com/drive/folders/14AdM7WENEvIp5x5bV_i4Aev21C9g6? usp=共有。

In the stock market, a successful investment requires a good balance between profits and risks. Based on the learning to rank paradigm, stock recommendation has been widely studied in quantitative finance to recommend stocks with higher return ratios for investors. Despite the efforts to make profits, many existing recommendation approaches still have some limitations in risk control, which may lead to intolerable paper losses in practical stock investing. To effectively reduce risks, we draw inspiration from adversarial learning and propose a novel Split Variational Adversarial Training (SVAT) method for risk-aware stock recommendation. Essentially, SVAT encourages the stock model to be sensitive to adversarial perturbations of risky stock examples and enhances the model's risk awareness by learning from perturbations. To generate representative adversarial examples as risk indicators, we devise a variational perturbation generator to model diverse risk factors. Particularly, the variational architecture enables our method to provide a rough risk quantification for investors, showing an additional advantage of interpretability. Experiments on several real-world stock market datasets demonstrate the superiority of our SVAT method. By lowering the volatility of the stock recommendation model, SVAT effectively reduces investment risks and outperforms state-of-the-art baselines by more than 30% in terms of risk-adjusted profits. All the experimental data and source code are available at https://drive.google.com/drive/folders/14AdM7WENEvIp5x5bV3zV_i4Aev21C9g6?usp=sharing.
翻訳日:2024-01-29 18:33:01 公開日:2024-01-26
# 2次元非可換アノンに対する生成と消滅作用素

Creation and annihilation operators for 2D non-abelian anyons ( http://arxiv.org/abs/2304.10462v3 )

ライセンス: Link先を確認
Nicetu Tibau Vidal and Lucia Vilchez-Estevez(参考訳) 我々は、任意の2次元非アーベル・アノン理論に対する生成および消滅作用素を、アノン図形形式から代数構造を研究することによって定義する。 我々は fibonacci anyons の生成演算子を明示的に構築する。 粒子タイプごとの単一の生成演算子だけでは不十分であり、全ての代替核融合チャネルに対して追加生成演算子が必要である。 これらの生成および消滅演算子の観点から、物理的に許容される任意の可観測性を表現する。 最後に、2D Fibonacci Hubbard Hamiltonian を Fibonacci の生成と消滅演算子の観点から表現し、これらの生成と消滅演算子に基づくシミュレーション手法の開発についてコメントする。

We define creation and annihilation operators for any 2D non-abelian anyon theory by studying the algebraic structure from the anyon diagrammatic formalism. We construct the creation operators for Fibonacci anyons explicitly. We obtain that a single creation operator per particle type is not enough; we need an extra creation operator for every alternative fusion channel. We express any physically allowed observable in terms of these creation and annihilation operators. Finally, we express the 2D Fibonacci Hubbard Hamiltonian in terms of the Fibonacci creation and annihilation operators, and we comment on developing methods for simulation based on these creation and annihilation operators.
翻訳日:2024-01-29 18:32:32 公開日:2024-01-26
# 室内環境に挑戦する光学フローからのポーズ回帰と運動からの融合構造

Fusing Structure from Motion and Simulation-Augmented Pose Regression from Optical Flow for Challenging Indoor Environments ( http://arxiv.org/abs/2304.07250v3 )

ライセンス: Link先を確認
Felix Ott, Lucas Heublein, David R\"ugamer, Bernd Bischl, Christopher Mutschler(参考訳) オブジェクトのローカライゼーションは、ロボット工学、バーチャルおよび拡張現実、倉庫における商品の輸送など、さまざまなアプリケーションにおいて重要なタスクである。 ディープラーニングの最近の進歩により、単眼視覚カメラを用いたローカライズが可能になった。 動きからの構造(SfM)が点雲から絶対的なポーズを予測する一方で、絶対的ポーズ回帰(APR)法はニューラルネットワークを通して環境の意味的理解を学ぶ。 しかし、どちらのフィールドも動きのぼやけ、照明の変化、繰り返しパターン、特徴のない構造といった環境によって引き起こされる課題に直面している。 本研究の目的は,これらの課題に対して,追加情報を導入し,相対的ポーズ回帰(RPR)法を用いて絶対的なポーズを規則化することである。 RPR法は異なる課題、すなわち動きのぼやけに悩まされる。 連続画像間の光学的流れはLucas-Kanadeアルゴリズムを用いて計算され、相対的なポーズは補助的な小さなリカレント畳み込みネットワークを用いて予測される。 絶対的なポーズと相対的なポーズの融合は、大域座標系と局所座標系のミスマッチによる複雑なタスクである。 絶対的なポーズと相対的なポーズを融合させる最先端の手法は、ポーズグラフ最適化(PGO)を用いて、相対的なポーズを用いて絶対的なポーズ予測を規則化する。 本研究では,絶対ポーズ予測と相対ポーズ予測を最適に調整し,絶対ポーズ予測を改善する再帰的融合ネットワークを提案する。 本研究では,APRおよびRPRネットワークを事前学習し,より汎用的なトレーニングを行うためのシミュレーション環境を構築する。 さらに,倉庫を輸送ロボットで模倣した大規模屋内環境において,様々なシナリオの大規模データベースを記録する。 PGOと比較して再帰融合法の有効性を示すために,超パラメータ探索と実験を行った。

The localization of objects is a crucial task in various applications such as robotics, virtual and augmented reality, and the transportation of goods in warehouses. Recent advances in deep learning have enabled the localization using monocular visual cameras. While structure from motion (SfM) predicts the absolute pose from a point cloud, absolute pose regression (APR) methods learn a semantic understanding of the environment through neural networks. However, both fields face challenges caused by the environment such as motion blur, lighting changes, repetitive patterns, and feature-less structures. This study aims to address these challenges by incorporating additional information and regularizing the absolute pose using relative pose regression (RPR) methods. RPR methods suffer under different challenges, i.e., motion blur. The optical flow between consecutive images is computed using the Lucas-Kanade algorithm, and the relative pose is predicted using an auxiliary small recurrent convolutional network. The fusion of absolute and relative poses is a complex task due to the mismatch between the global and local coordinate systems. State-of-the-art methods fusing absolute and relative poses use pose graph optimization (PGO) to regularize the absolute pose predictions using relative poses. In this work, we propose recurrent fusion networks to optimally align absolute and relative pose predictions to improve the absolute pose prediction. We evaluate eight different recurrent units and construct a simulation environment to pre-train the APR and RPR networks for better generalized training. Additionally, we record a large database of different scenarios in a challenging large-scale indoor environment that mimics a warehouse with transportation robots. We conduct hyperparameter searches and experiments to show the effectiveness of our recurrent fusion method compared to PGO.
翻訳日:2024-01-29 18:32:20 公開日:2024-01-26
# ECG-Image-Kit: 深層学習に基づく心電図デジタル化を実現する合成画像生成ツールボックス

ECG-Image-Kit: A Synthetic Image Generation Toolbox to Facilitate Deep Learning-Based Electrocardiogram Digitization ( http://arxiv.org/abs/2307.01946v3 )

ライセンス: Link先を確認
Kshama Kodthalu Shivashankara, Deepanshi, Afagh Mehri Shervedani, Gari D. Clifford, Matthew A. Reyna, Reza Sameni(参考訳) 時系列データからリアルなアーティファクトを用いて合成ECG画像を生成するオープンソースツールボックスであるECG-Image-Kitを導入し、データ拡張とECG画像のデジタル化のためのアルゴリズムの開発においてその応用を実証する。 標準ECG紙の背景に歪みのないECG画像を生成して合成データを生成する。 その後、これらのecg画像に手書きのテキストアーティファクト、しわ、折り目、視点変換など様々な歪みが適用される。 人工物とテキストは合成され、個人識別可能な情報を除く。 このツールボックスは、ecg画像のデジタル化と分類に関する2024年のphysionet challengeのデータ拡張に使われる。 ケーススタディでは、PhyloNet QTデータベースから、ECG-Image-Kitを用いて21,801レコードのECGイメージデータセットを作成しました。 合成データセットをベースとしたデノイング畳み込みニューラルネットワーク(DnCNN)に基づくモデルを開発し,合成した画像を時系列データに変換して評価を行った。 画像のデジタル化の質を評価するため,SNRを算出した。 その結果,11.17 +/-9.19 dBの平均信号回復SNRが示され,深層学習モデルのトレーニングにおいて,合成ECG画像データセットの重要性が示唆された。 臨床評価のために, 推定時系列データと地上時系列データのRRとQT間隔の誤差を測定した。 推定rrおよびqt-intervalsの精度は,各臨床パラメータが維持されていることを示唆する。 これらの結果は,紙ECGの正確なデジタル化における深層学習パイプラインの有効性を示し,デジタル化に対する生成的アプローチを強調した。

We introduce ECG-Image-Kit, an open-source toolbox for generating synthetic ECG images with realistic artifacts from time-series data, and showcase its application in developing algorithms for data augmentation and ECG image digitization. Synthetic data is generated by producing distortionless ECG images on a standard ECG paper background. Subsequently, various distortions, including handwritten text artifacts, wrinkles, creases, and perspective transformations, are applied to these ECG images. The artifacts and text are synthetically generated, excluding personally identifiable information. The toolbox is used for data augmentation in the 2024 PhysioNet Challenge on Digitization and Classification of ECG Images. As a case study, we employed ECG-Image-Kit to create an ECG image dataset of 21,801 records from the PhysioNet QT database. A denoising convolutional neural network (DnCNN)-based model was developed and trained on this synthetic dataset and used to convert the synthetically generated images back into time-series data for evaluation. SNR was calculated to assess the quality of image digitization compared to the ground truth ECG time-series. The results show an average signal recovery SNR of 11.17 +/- 9.19 dB, indicating the synthetic ECG image dataset's significance for training deep learning models. For clinical evaluation, we measured the error between the estimated and ground-truth time-series data's RR and QT-intervals. The accuracy of the estimated RR and QT-intervals also suggests that the respective clinical parameters are maintained. These results demonstrate the effectiveness of a deep learning-based pipeline in accurately digitizing paper ECGs and highlight a generative approach to digitization.
翻訳日:2024-01-29 18:26:32 公開日:2024-01-26
# Motion-X:大規模3D表現型人体モーションデータセット

Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset ( http://arxiv.org/abs/2307.00818v2 )

ライセンス: Link先を確認
Jing Lin, Ailing Zeng, Shunlin Lu, Yuanhao Cai, Ruimao Zhang, Haoqian Wang, Lei Zhang(参考訳) 本稿では,大規模3次元表現型全身運動データセットmotion-xについて述べる。 既存のモーションデータセットは、主に体のみのポーズ、表情の欠如、手のジェスチャー、きめ細かいポーズ記述を含んでいる。 さらに、それらは主に、手作業でテキスト記述をラベル付けした限られた実験シーンから収集されるため、スケーラビリティが大幅に制限される。 これらの制限を克服するため,我々は,単眼または多眼映像からの動画に注釈を付与し,各映像に総合的な意味ラベルを付与し,各フレームに細粒度なボディポーズ記述を付与する,全身動作およびテキストアノテーションパイプラインを開発した。 このパイプラインは高精度で費用対効果があり、さらなる研究のためにスケーラブルである。 motion-xは、巨大なシーンから81.1kのモーションシーケンスをカバーする15.6mの正確な3dポーズアノテーション(smpl-x)で構成されている。 さらに、Motion-Xは15.6Mフレームレベルの全身ポーズ記述と81.1Kシーケンスレベルのセマンティックラベルを提供する。 包括的な実験は、アノテーションパイプラインの正確さと、表現力、多様性、自然なモーション生成の強化におけるMotion-Xの顕著な利点、および3次元の人体メッシュの回復を示す。

In this paper, we present Motion-X, a large-scale 3D expressive whole-body motion dataset. Existing motion datasets predominantly contain body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions. Moreover, they are primarily collected from limited laboratory scenes with textual descriptions manually labeled, which greatly limits their scalability. To overcome these limitations, we develop a whole-body motion and text annotation pipeline, which can automatically annotate motion from either single- or multi-view videos and provide comprehensive semantic labels for each video and fine-grained whole-body pose descriptions for each frame. This pipeline is of high precision, cost-effective, and scalable for further research. Based on it, we construct Motion-X, which comprises 15.6M precise 3D whole-body pose annotations (i.e., SMPL-X) covering 81.1K motion sequences from massive scenes. Besides, Motion-X provides 15.6M frame-level whole-body pose descriptions and 81.1K sequence-level semantic labels. Comprehensive experiments demonstrate the accuracy of the annotation pipeline and the significant benefit of Motion-X in enhancing expressive, diverse, and natural motion generation, as well as 3D whole-body human mesh recovery.
翻訳日:2024-01-29 18:26:02 公開日:2024-01-26
# デュアルレイル量子ネットワークにおけるプログラム可能なマルチビットエンタングルメントの自律的分布

Autonomous Distribution of Programmable Multiqubit Entanglement in a Dual-Rail Quantum Network ( http://arxiv.org/abs/2306.16453v2 )

ライセンス: Link先を確認
Joan Agust\'i, Xin H. H. Zhang, Yuri Minoguchi, Peter Rabl(参考訳) デュアルレール導波路QEDセットアップにおいて空間分散多ビット絡み合った状態を作成するためのスケーラブルで完全自律的なスキームを提案し,解析する。 このアプローチでは、2つの分離導波路に沿って位置する量子ビットの配列は、非退化パラメトリック増幅器の出力からの相関光子によって照らされる。 これらの光子は、クビットを、局所的クビット光子デチューニングのパターンによって、多重粒子の絡み合いの程度を便利に調整できるような、純粋に絡み合った定常状態の異なるクラスに駆動する。 中規模ネットワークの数値シミュレーションにより、これらの複雑なマルチキュービット状態の準備時間は、システムサイズとともにほぼ直線的に増加し、大きな増幅帯域幅の制限による追加のスピードアップの恩恵を受けることが示されている。 したがって、このスキームは、正確なパルス制御を必要とせず、単一のガウスの絡み合い源のみに依存することなく、大きな量子ネットワークで使える多部絡み合い状態を分散するための興味深い新しいルートを提供する。

We propose and analyze a scalable and fully autonomous scheme for preparing spatially distributed multiqubit entangled states in a dual-rail waveguide QED setup. In this approach, arrays of qubits located along two separated waveguides are illuminated by correlated photons from the output of a nondegenerate parametric amplifier. These photons drive the qubits into different classes of pure entangled steady states, for which the degree of multipartite entanglement can be conveniently adjusted by the chosen pattern of local qubit-photon detunings. Numerical simulations for moderate-sized networks show that the preparation time for these complex multiqubit states increases at most linearly with the system size and that one may benefit from an additional speedup in the limit of a large amplifier bandwidth. Therefore, this scheme offers an intriguing new route for distributing ready-to-use multipartite entangled states across large quantum networks, without requiring any precise pulse control and relying on a single Gaussian entanglement source only.
翻訳日:2024-01-29 18:25:39 公開日:2024-01-26
# ibmのeagle kick ising実験の効率的なテンソルネットワークシミュレーション

Efficient tensor network simulation of IBM's Eagle kicked Ising experiment ( http://arxiv.org/abs/2306.14887v3 )

ライセンス: Link先を確認
Joseph Tindall, Matt Fishman, Miles Stoudenmire and Dries Sels(参考訳) ヘキサゴン格子上のキックイジング量子システムの高精度かつ効率的な古典シミュレーションについて報告する。 このシステムのシミュレーションは、ノイズ緩和技術を用いて127量子ビットの量子プロセッサで最近行われ、精度が向上した(nature volume 618, p。 ~500-505 (2023)). ここでは, 格子の幾何学を反映し, 信念伝播を用いてほぼ収縮したテンソルネットワークアプローチを採用することにより, 量子プロセッサや他の多くの古典的手法から得られた結果よりもはるかに正確かつ正確な古典的シミュレーションを行うことができることを示す。 我々は,信仰伝播に基づくアプローチの精度を説明するために,波動関数の木様相関を定量化する。 また,本手法により,無限個の量子ビットを持つ量子コンピュータに対応する熱力学限界において,システムのシミュレーションを長時間行うことができることを示す。 我々のテンソルネットワークアプローチは、木のような相関を持つ量子系の力学をシミュレートする幅広い応用がある。

We report an accurate and efficient classical simulation of a kicked Ising quantum system on the heavy-hexagon lattice. A simulation of this system was recently performed on a 127 qubit quantum processor using noise mitigation techniques to enhance accuracy (Nature volume 618, p.~500-505 (2023)). Here we show that, by adopting a tensor network approach that reflects the geometry of the lattice and is approximately contracted using belief propagation, we can perform a classical simulation that is significantly more accurate and precise than the results obtained from the quantum processor and many other classical methods. We quantify the tree-like correlations of the wavefunction in order to explain the accuracy of our belief propagation-based approach. We also show how our method allows us to perform simulations of the system to long times in the thermodynamic limit, corresponding to a quantum computer with an infinite number of qubits. Our tensor network approach has broader applications for simulating the dynamics of quantum systems with tree-like correlations.
翻訳日:2024-01-29 18:25:20 公開日:2024-01-26
# フラグフォールトトレラント誤り訂正のための距離保存ツール

Optimization tools for distance-preserving flag fault-tolerant error correction ( http://arxiv.org/abs/2306.12862v3 )

ライセンス: Link先を確認
Balint Pato, Theerapat Tansuwannont, Shilin Huang, Kenneth R. Brown(参考訳) ルックアップテーブルの復号化は高速かつ距離保存であり、量子エラー訂正符号の少ない短期量子コンピュータアーキテクチャにとって魅力的なものである。 本研究では,Calderbank-Shor-Steane (CSS) 符号のルックアップテーブルデコードにより,耐故障性量子誤り訂正(FTQEC)のフラグ化に必要な時間的オーバーヘッドを低減できる最適化ツールを開発した。 我々の技術には、コンパクトなルックアップテーブルの構築、Meet-in-the-Middle技術、フラグFTQECの適応時間デコード、フラグ情報のための古典的処理技術、分離された$X$と$Z$カウント技術が含まれる。 距離3, 5, 7, 9の六角形カラーコードの回路レベルの雑音下での数値シミュレーションにより, ツールの性能評価を行った。 すべてのツールを組み合わせると、長さ9の六角形の色符号の擬似閾値が1.34 \pm 0.01 \times 10^{-4}$から$(1.42 \pm 0.12) \times 10^{-3}$へと大幅に増加する。

Lookup table decoding is fast and distance-preserving, making it attractive for near-term quantum computer architectures with small-distance quantum error-correcting codes. In this work, we develop several optimization tools that can potentially reduce the space and time overhead required for flag fault-tolerant quantum error correction (FTQEC) with lookup table decoding on Calderbank-Shor-Steane (CSS) codes. Our techniques include the compact lookup table construction, the Meet-in-the-Middle technique, the adaptive time decoding for flag FTQEC, the classical processing technique for flag information, and the separated $X$ and $Z$ counting technique. We evaluate the performance of our tools using numerical simulation of hexagonal color codes of distances 3, 5, 7, and 9 under circuit-level noise. Combining all tools can result in more than an order of magnitude increase in pseudothreshold for the hexagonal color code of distance 9, from $(1.34 \pm 0.01) \times 10^{-4}$ to $(1.42 \pm 0.12) \times 10^{-3}$.
翻訳日:2024-01-29 18:25:04 公開日:2024-01-26
# 逐次ビデオコンパイルのためのプログレッシブフーリエニューラル表現

Progressive Fourier Neural Representation for Sequential Video Compilation ( http://arxiv.org/abs/2306.11305v2 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, DaHyun Kim, Sung Ju Hwang, and Chang D Yoo(参考訳) neural implicit representation (nir) は、複雑な高次元データを表現空間にエンコードし、訓練可能なマッピング関数によって容易に再構成する能力によって、最近注目されている。 しかし、NIR法は、データ関連性や類似性に関わらず、対象データと表現モデルの間の1対1のマッピングを仮定する。 その結果、複数の複雑なデータに対する一般化が貧弱になり、その効率性とスケーラビリティが制限される。 本研究は、連続学習に動機づけられ、複数の複雑なビデオデータに対するニューラルネットワークの暗黙表現を逐次符号化セッション上で蓄積・転送する方法を検討する。 nirの限界を克服するために,フーリエ空間に適応的かつコンパクトな部分加群を探索し,各トレーニングセッションで動画をエンコードすることを目的とした,プログレッシブ・フーリエ・ニューラル・表現(pfnr)を提案する。 このスパース化ニューラルエンコーディングにより、ニューラルネットワークは自由重みを持ち、将来のビデオへの適応性が向上する。 さらに、新しいビデオの表現を学ぶ際、PFNRは以前のビデオの表現を凍結重みで転送する。 この設計により、モデルは複数のビデオの高品質なニューラル表現を継続的に蓄積し、以前のビデオの学習された表現を完全に保存するロスレスデコードを保証することができる。 我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。 PFNRコードはhttps://github.com/ihaeyong/PFNR.gitで入手できる。

Neural Implicit Representation (NIR) has recently gained significant attention due to its remarkable ability to encode complex and high-dimensional data into representation space and easily reconstruct it through a trainable mapping function. However, NIR methods assume a one-to-one mapping between the target data and representation models regardless of data relevancy or similarity. This results in poor generalization over multiple complex data and limits their efficiency and scalability. Motivated by continual learning, this work investigates how to accumulate and transfer neural implicit representations for multiple complex video data over sequential encoding sessions. To overcome the limitation of NIR, we propose a novel method, Progressive Fourier Neural Representation (PFNR), that aims to find an adaptive and compact sub-module in Fourier space to encode videos in each training session. This sparsified neural encoding allows the neural network to hold free weights, enabling an improved adaptation for future videos. In addition, when learning a representation for a new video, PFNR transfers the representation of previous videos with frozen weights. This design allows the model to continuously accumulate high-quality neural representations for multiple videos while ensuring lossless decoding that perfectly preserves the learned representations for previous videos. We validate our PFNR method on the UVG8/17 and DAVIS50 video sequence benchmarks and achieve impressive performance gains over strong continual learning baselines. The PFNR code is available at https://github.com/ihaeyong/PFNR.git.
翻訳日:2024-01-29 18:24:42 公開日:2024-01-26
# HiNeRV:階層的エンコーディングに基づくニューラル表現によるビデオ圧縮

HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation ( http://arxiv.org/abs/2306.09818v3 )

ライセンス: Link先を確認
Ho Man Kwan, Ge Gao, Fan Zhang, Andrew Gower, David Bull(参考訳) 学習ベースのビデオ圧縮は、現在一般的な研究テーマであり、従来の標準ビデオコーデックと競合する可能性を提供している。 この文脈では、Inmplicit Neural Representations (INR) は以前、画像とビデオのコンテンツを表現し、圧縮するために用いられ、他の方法と比較して復号速度が比較的高い。 しかし、既存のINRベースの手法では、ビデオ圧縮の最先端技術に匹敵する性能を達成できなかった。 これは主に、その表現能力を制限する、採用されているネットワークアーキテクチャの単純さによる。 本稿では,軽量層と新しい階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。 我々は,奥行き方向畳み込み層,mlp層,補間層を用いて,高容量で深く広いネットワークアーキテクチャを構築する。 HiNeRVはまた、フレームとパッチの両方でビデオをエンコードする統一表現であり、既存のメソッドよりも高いパフォーマンスと柔軟性を提供する。 さらに、HiNeRVに基づくビデオコーデックと、トレーニング、プルーニング、量子化のための洗練されたパイプラインを構築し、失われたモデル圧縮時のHiNeRVのパフォーマンスをよりよく保存する。 提案手法は,ビデオ圧縮のためのUVGデータセットとMCL-JCVデータセットの両方で評価され,学習ベースコーデックと比較して既存のINRのベースラインと競合性能(HNeRVで72.3%,UVGで43.4%)よりも大幅に向上した。

Learning-based video compression is currently a popular research topic, offering the potential to compete with conventional standard video codecs. In this context, Implicit Neural Representations (INRs) have previously been used to represent and compress image and video content, demonstrating relatively high decoding speed compared to other methods. However, existing INR-based methods have failed to deliver rate quality performance comparable with the state of the art in video compression. This is mainly due to the simplicity of the employed network architectures, which limit their representation capability. In this paper, we propose HiNeRV, an INR that combines light weight layers with novel hierarchical positional encodings. We employs depth-wise convolutional, MLP and interpolation layers to build the deep and wide network architecture with high capacity. HiNeRV is also a unified representation encoding videos in both frames and patches at the same time, which offers higher performance and flexibility than existing methods. We further build a video codec based on HiNeRV and a refined pipeline for training, pruning and quantization that can better preserve HiNeRV's performance during lossy model compression. The proposed method has been evaluated on both UVG and MCL-JCV datasets for video compression, demonstrating significant improvement over all existing INRs baselines and competitive performance when compared to learning-based codecs (72.3% overall bit rate saving over HNeRV and 43.4% over DCVC on the UVG dataset, measured in PSNR).
翻訳日:2024-01-29 18:24:14 公開日:2024-01-26
# 非相互作用性フェルミオン不純物の系バス絡み合い : 平衡、過渡、定常状態

System-bath entanglement of noninteracting fermionic impurities: Equilibrium, transient, and steady-state regimes ( http://arxiv.org/abs/2306.09680v3 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito(参考訳) 3つの異なる熱力学系における1つのフェルミオンレベルとフェルミオン浴間の絡み合いの挙動について検討した。 まず, 熱平衡において, 統計的アンサンブルに対する絡み合いの依存性を分析した: グランドカノニカル状態においては, 十分に強い系-バスカップリングに対してのみ生成するが, 固定粒子数を持つ正準状態に対して任意に弱いカップリングには存在する。 絡み合いが現れる閾値結合強度はバス帯域に大きく依存することが示されている。 第二に、均衡への緩和を考える。 この場合、弱結合状態においても一定時間間隔の過渡的絡み合いを観測することができ、系のダイナミクスと熱力学が状態集団に対する効果的に古典的かつマルコフ的マスター方程式によってよく説明できる。 強い結合強度では、絡み合いは長期間保存され、平衡値に収束する。 最後に、電圧駆動接合では、一定のしきい値電圧で任意に弱いシステムバス結合に対して定常的な絡み合いが発生する。 強結合状態において強化され、粒子ホールまたはトンネルカップリング非対称性により低減される。

We investigate the behavior of entanglement between a single fermionic level and a fermionic bath in three distinct thermodynamic regimes. First, in thermal equilibrium, we analyze the dependence of entanglement on the considered statistical ensemble: for the grand canonical state, it is generated only for a sufficiently strong system-bath coupling, whereas it is present for arbitrarily weak couplings for the canonical state with a fixed particle number. The threshold coupling strength, at which entanglement appears, is shown to strongly depend on the bath bandwidth. Second, we consider the relaxation to equilibrium. In this case a transient entanglement in a certain time interval can be observed even in the weak-coupling regime, when the reduced dynamics and thermodynamics of the system can be well described by an effectively classical and Markovian master equation for the state populations. At strong coupling strengths, entanglement is preserved for long times and converges to its equilibrium value. Finally, in voltage-driven junctions, a steady-state entanglement is generated for arbitrarily weak system-bath couplings at a certain threshold voltage. It is enhanced in the strong-coupling regime, and it is reduced by either the particle-hole or the tunnel coupling asymmetry.
翻訳日:2024-01-29 18:23:44 公開日:2024-01-26
# 翻訳対称データ学習のための量子畳み込みニューラルネットワークの分割と並列化

Splitting and Parallelizing of Quantum Convolutional Neural Networks for Learning Translationally Symmetric Data ( http://arxiv.org/abs/2306.07331v2 )

ライセンス: Link先を確認
Koki Chinzei, Quoc Hoan Tran, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato(参考訳) 量子畳み込みニューラルネットワーク(QCNN)は量子機械学習(QML)モデルであり、古典的に難解な問題において量子優位性を達成することが期待されている。 しかし、QCNNはデータ学習に大量の測定値を必要とし、大規模問題における実用的応用を制限している。 この要求を緩和するために、量子データの事前知識を利用して効率的なモデルの設計を行う分割並列QCNN(sp-QCNN)と呼ばれる新しいアーキテクチャを提案する。 このアーキテクチャは、幾何学的量子機械学習から着想を得て、物理学や量子コンピューティング科学でよく見られる翻訳対称量子データをターゲットにしている。 量子回路を翻訳対称性に基づいて分割することにより、sp-QCNNはキュービット数を増やすことなく従来のQCNNを実質的に並列化することができ、キュービット数の順序で測定効率を向上させることができる。 本手法の有効性を示すために,sp-QCNNを量子位相認識タスクに適用し,従来のQCNNと同等の分類精度を達成でき,必要な測定資源を大幅に削減できることを示す。 測定効率が高いため、sp-qcnnは損失関数の勾配推定における統計的誤差を軽減し、学習プロセスを高速化することができる。 これらの結果は、QMLモデルの効率的な設計に事前のデータ知識を組み込む新たな可能性を開き、実用的な量子的優位性をもたらす。

The quantum convolutional neural network (QCNN) is a promising quantum machine learning (QML) model that is expected to achieve quantum advantages in classically intractable problems. However, the QCNN requires a large number of measurements for data learning, limiting its practical applications in large-scale problems. To alleviate this requirement, we propose a novel architecture called split-parallelizing QCNN (sp-QCNN), which exploits the prior knowledge of quantum data to design an efficient model. This architecture draws inspiration from geometric quantum machine learning and targets translationally symmetric quantum data commonly encountered in physics and quantum computing science. By splitting the quantum circuit based on translational symmetry, the sp-QCNN can substantially parallelize the conventional QCNN without increasing the number of qubits and improve the measurement efficiency by an order of the number of qubits. To demonstrate its effectiveness, we apply the sp-QCNN to a quantum phase recognition task and show that it can achieve comparable classification accuracy to the conventional QCNN while considerably reducing the measurement resources required. Due to its high measurement efficiency, the sp-QCNN can mitigate statistical errors in estimating the gradient of the loss function, thereby accelerating the learning process. These results open up new possibilities for incorporating the prior data knowledge into the efficient design of QML models, leading to practical quantum advantages.
翻訳日:2024-01-29 18:23:11 公開日:2024-01-26
# FedWon: 正規化なしのマルチドメインフェデレーション学習のトライアル

FedWon: Triumphing Multi-domain Federated Learning Without Normalization ( http://arxiv.org/abs/2306.05879v2 )

ライセンス: Link先を確認
Weiming Zhuang, Lingjuan Lyu(参考訳) フェデレートラーニング(FL)は、分散クライアントでの協調的なインサイトトレーニングによって、データのプライバシを高める。 しかしながら、FLは非独立で同一に分散した(非i.d)データのために困難に遭遇し、潜在的な性能劣化と収束の妨げとなる。 先行研究はスキュードラベル分布の問題に主に対処するが,本研究は多ドメインFLとして知られる重要かつ頻繁に見過ごされる問題に対処する。 このシナリオでは、クライアントのデータはラベル分布ではなく、異なる特徴分布を持つ多様なドメインに由来する。 FLにおけるマルチドメイン問題に対処するため,FedWon(Federated Learning Without normalizations)と呼ばれる新しい手法を提案する。 fedwon氏は、バッチ正規化(bn)が複数のドメインの統計を効果的にモデル化する上での課題に直面しているという観察からインスピレーションを得ている。 これらの問題に対処するため、feedwonはflの正規化層を取り除き、スケールドウェイトの標準化により畳み込み層を再パラメータ化する。 5つのデータセットと5つのモデルに対する広範な実験により、FedWonはFedAvgと現在の最先端手法(FedBN)をすべての実験環境にわたって超越し、特定の領域において10%以上の精度向上を実現していることを示す。 さらに、FedWonはクロスサイロとクロスデバイス両方のFLに汎用性があり、堅牢なドメイン一般化能力を示し、バッチサイズが1まで小さくても強い性能を示す。 さらに、fedwonはラベル分布の歪む問題にも効果的に対処できる。

Federated learning (FL) enhances data privacy with collaborative in-situ training on decentralized clients. Nevertheless, FL encounters challenges due to non-independent and identically distributed (non-i.i.d) data, leading to potential performance degradation and hindered convergence. While prior studies predominantly addressed the issue of skewed label distribution, our research addresses a crucial yet frequently overlooked problem known as multi-domain FL. In this scenario, clients' data originate from diverse domains with distinct feature distributions, instead of label distributions. To address the multi-domain problem in FL, we propose a novel method called Federated learning Without normalizations (FedWon). FedWon draws inspiration from the observation that batch normalization (BN) faces challenges in effectively modeling the statistics of multiple domains, while existing normalization techniques possess their own limitations. In order to address these issues, FedWon eliminates the normalization layers in FL and reparameterizes convolution layers with scaled weight standardization. Through extensive experimentation on five datasets and five models, our comprehensive experimental results demonstrate that FedWon surpasses both FedAvg and the current state-of-the-art method (FedBN) across all experimental setups, achieving notable accuracy improvements of more than 10% in certain domains. Furthermore, FedWon is versatile for both cross-silo and cross-device FL, exhibiting robust domain generalization capability, showcasing strong performance even with a batch size as small as 1, thereby catering to resource-constrained devices. Additionally, FedWon can also effectively tackle the challenge of skewed label distribution.
翻訳日:2024-01-29 18:22:46 公開日:2024-01-26
# オフラインRLの分離優先再サンプリング

Decoupled Prioritized Resampling for Offline RL ( http://arxiv.org/abs/2306.05412v3 )

ライセンス: Link先を確認
Yang Yue, Bingyi Kang, Xiao Ma, Qisen Yang, Gao Huang, Shiji Song, Shuicheng Yan(参考訳) オフライン強化学習 (RL) は分布シフト問題に挑戦される。 この問題に対処するため、既存の研究は主に学習政策と行動政策の間の洗練された政策制約を設計することに焦点を当てている。 しかし、これらの制約は、学習方針に悪影響を及ぼす可能性のある一様サンプリングにより、良好なパフォーマンスと劣悪な動作に等しく適用される。 この問題を軽減するために,我々は,高度に回帰した遷移を優先する優先度関数のクラスを特徴とする,オフライン優先体験再生(OPER)を提案する。 理論的解析により、この優先度関数は行動ポリシーの改善をもたらすことが示され、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムがより良い解をもたらす可能性が示唆された。 適応値ネットワーク (oper-a) や軌道帰納法 (oper-r) を高速計算に活用し, 優先度重みを得るための2つの実践的戦略を開発した。 OPERはオフラインRLアルゴリズムのためのプラグイン・アンド・プレイコンポーネントである。 ケーススタディでは,BC,TD3+BC,Onestep RL,CQL,IQLの5つのアルゴリズムでOPERを評価する。 OPER-A と OPER-R の2つの実験により,全てのベースライン法の性能が大幅に向上した。 コードと優先度はhttps://github.com/sail-sg/OPERで利用可能である。

Offline reinforcement learning (RL) is challenged by the distributional shift problem. To address this problem, existing works mainly focus on designing sophisticated policy constraints between the learned policy and the behavior policy. However, these constraints are applied equally to well-performing and inferior actions through uniform sampling, which might negatively affect the learned policy. To alleviate this issue, we propose Offline Prioritized Experience Replay (OPER), featuring a class of priority functions designed to prioritize highly-rewarding transitions, making them more frequently visited during training. Through theoretical analysis, we show that this class of priority functions induce an improved behavior policy, and when constrained to this improved policy, a policy-constrained offline RL algorithm is likely to yield a better solution. We develop two practical strategies to obtain priority weights by estimating advantages based on a fitted value network (OPER-A) or utilizing trajectory returns (OPER-R) for quick computation. OPER is a plug-and-play component for offline RL algorithms. As case studies, we evaluate OPER on five different algorithms, including BC, TD3+BC, Onestep RL, CQL, and IQL. Extensive experiments demonstrate that both OPER-A and OPER-R significantly improve the performance for all baseline methods. Codes and priority weights are availiable at https://github.com/sail-sg/OPER.
翻訳日:2024-01-29 18:22:16 公開日:2024-01-26
# 平均フィールドゲームにおける分散エージェントのためのネットワーク通信

Networked Communication for Decentralised Agents in Mean-Field Games ( http://arxiv.org/abs/2306.02766v2 )

ライセンス: Link先を確認
Patrick Benjamin and Alessandro Abate(参考訳) 我々は、平均フィールドゲームフレームワーク、特に、経験的システムの単一の非正規進化経路に沿って、分散エージェントが学習するオラクルフリーの設定にネットワーク通信を導入する。 私たちのアーキテクチャは、ネットワーク構造に関する合理的な仮定を少ししか持たないが、集中学習と独立学習のケースの間には、サンプル保証があることを証明します。 3つの理論アルゴリズムのサンプル保証が実際に実際に収束するわけではないことを議論する。 したがって, 理論パラメータが観測されない(q関数の推定が不十分な)実環境において, 通信方式は, 集中制御器の望ましくない仮定に頼らずに, 独立ケースの収束を著しく促進することを示した。 3つの理論アルゴリズムにさらにいくつかの実践的な拡張を施し、最初の実証実験を実演できるようにしました。 実験により,アルゴリズムの重要な理論的仮定をいくつか取り除き,新たなネットワーク通信による経験的収束効果を示すことができることを確認した。 さらに,ネットワーク化アプローチは,予期せぬ学習失敗に対する堅牢性や,人口規模の変化の観点から,集中型と独立型の2つの選択肢に対して,大きなアドバンテージを持つことを示した。

We introduce networked communication to the mean-field game framework, in particular to oracle-free settings where $N$ decentralised agents learn along a single, non-episodic evolution path of the empirical system. We prove that our architecture, with only a few reasonable assumptions about network structure, has sample guarantees bounded between those of the centralised- and independent-learning cases. We discuss how the sample guarantees of the three theoretical algorithms do not actually result in practical convergence. Accordingly, we show that in practical settings where the theoretical parameters are not observed (leading to poor estimation of the Q-function), our communication scheme significantly accelerates convergence over the independent case, without relying on the undesirable assumption of a centralised controller. We contribute several further practical enhancements to all three theoretical algorithms, allowing us to showcase their first empirical demonstrations. Our experiments confirm that we can remove several of the key theoretical assumptions of the algorithms, and display the empirical convergence benefits brought by our new networked communication. We additionally show that the networked approach has significant advantages, over both the centralised and independent alternatives, in terms of robustness to unexpected learning failures and to changes in population size.
翻訳日:2024-01-29 18:21:49 公開日:2024-01-26
# 単一出力ガウス過程における入力毎の複数の出力サンプル

Multiple output samples per input in a single-output Gaussian process ( http://arxiv.org/abs/2306.02719v2 )

ライセンス: Link先を確認
Jeremy H. M. Wong, Huayun Zhang, and Nancy F. Chen(参考訳) 標準ガウス過程(GP)は、トレーニングセット内の入力ごとに1つの出力サンプルしか考慮しない。 音声言語評価のような主観的なタスクのためのデータセットは、入力毎に複数の人間のレーダから出力ラベルを付加することができる。 本稿では, gp を一般化し, トレーニングセット内の複数の出力サンプルを利用可能とし, 利用可能な出力不確実性情報を活用することを提案する。 これはマルチ出力gpと異なり、すべての出力サンプルはここで同じタスクからのものである。 出力密度関数は、すべての出力サンプルを観測する共同可能性として定式化され、潜在変数を繰り返すことなく計算コストを削減できる。 テストセットの予測は、最適化されたハイパーパラメータに差がある標準GPと同様に推測される。 このことは speechocean762 で評価され、GP が複数の人間のレーダからの参照出力の収集に類似したテストセット出力分布を計算できることが示されている。

The standard Gaussian Process (GP) only considers a single output sample per input in the training set. Datasets for subjective tasks, such as spoken language assessment, may be annotated with output labels from multiple human raters per input. This paper proposes to generalise the GP to allow for these multiple output samples in the training set, and thus make use of available output uncertainty information. This differs from a multi-output GP, as all output samples are from the same task here. The output density function is formulated to be the joint likelihood of observing all output samples, and latent variables are not repeated to reduce computation cost. The test set predictions are inferred similarly to a standard GP, with a difference being in the optimised hyper-parameters. This is evaluated on speechocean762, showing that it allows the GP to compute a test set output distribution that is more similar to the collection of reference outputs from the multiple human raters.
翻訳日:2024-01-29 18:21:27 公開日:2024-01-26
# 一般化可能な新しい視点合成のための調整可能な視覚外観

Adjustable Visual Appearance for Generalizable Novel View Synthesis ( http://arxiv.org/abs/2306.01344v3 )

ライセンス: Link先を確認
Josef Bengtson, David Nilsson, Che-Tsung Lin, Marcel B\"usching and Fredrik Kahl(参考訳) そこで本研究では,対象の環境や照明条件に照らされた映像を,シーン固有の訓練や参照ビューへのアクセスを伴わないよう,観察シーンの視覚的外観を変更することのできる,一般化可能な新規なビュー合成手法を提案する。 本手法は, 予め学習した一般化トランスアーキテクチャに基づき, 異なる外観条件下で合成したシーンに対して微調整を行う。 これにより、トレーニングセットに含まれていない3Dシーンに対して、新しいビューを一貫した方法でレンダリングすることができる。 (i)その外観を目標条件に合わせるように変更し、 (ii)異なる条件間をスムーズに補間する。 実シーンおよび合成シーンにおける実験により, 質的および定量的比較を含む現実的な外観変化を行いながら, 3次元一貫したレンダリングを生成できることが示されている。 ビデオの結果については、プロジェクトページを参照してください。

We present a generalizable novel view synthesis method which enables modifying the visual appearance of an observed scene so rendered views match a target weather or lighting condition without any scene specific training or access to reference views at the target condition. Our method is based on a pretrained generalizable transformer architecture and is fine-tuned on synthetically generated scenes under different appearance conditions. This allows for rendering novel views in a consistent manner for 3D scenes that were not included in the training set, along with the ability to (i) modify their appearance to match the target condition and (ii) smoothly interpolate between different conditions. Experiments on real and synthetic scenes show that our method is able to generate 3D consistent renderings while making realistic appearance changes, including qualitative and quantitative comparisons. Please refer to our project page for video results: https://ava-nvs.github.io/
翻訳日:2024-01-29 18:20:39 公開日:2024-01-26
# 時間遅延情報ボトルネックによるマルコフ過程の潜在表現とシミュレーション

Latent Representation and Simulation of Markov Processes via Time-Lagged Information Bottleneck ( http://arxiv.org/abs/2309.07200v2 )

ライセンス: Link先を確認
Marco Federici, Patrick Forr\'e, Ryota Tomioka, Bastiaan S. Veeling(参考訳) マルコフ過程は様々な分野の力学系を記述するために広く用いられる数学的モデルである。 しかし、正確な統合に必要な短時間のステップのため、大規模なシステムを長時間で正確にシミュレーションすることは計算コストがかかる。 本稿では,複雑なシステムを簡素な表現空間にマッピングし,時間内に大きなジャンプをモデル化する推論手法を提案する。 そこで本稿では,T-IB(Time-Lagged Information Bottleneck)という情報理論に根ざした原理的目標を提案する。 実験により, T-IBは, 時間ラグで元のプロセスの統計特性と力学を正確にモデル化するための情報最適表現を学習し, 既存の時間ラグ次元削減法より優れていることを示した。

Markov processes are widely used mathematical models for describing dynamic systems in various fields. However, accurately simulating large-scale systems at long time scales is computationally expensive due to the short time steps required for accurate integration. In this paper, we introduce an inference process that maps complex systems into a simplified representational space and models large jumps in time. To achieve this, we propose Time-lagged Information Bottleneck (T-IB), a principled objective rooted in information theory, which aims to capture relevant temporal features while discarding high-frequency information to simplify the simulation task and minimize the inference error. Our experiments demonstrate that T-IB learns information-optimal representations for accurately modeling the statistical properties and dynamics of the original process at a selected time lag, outperforming existing time-lagged dimensionality reduction methods.
翻訳日:2024-01-29 18:13:49 公開日:2024-01-26
# サウジアラビアにおけるgoogleの個人アカウント保有者のプライバシー意識と行動

Privacy Perceptions and Behaviors of Google Personal Account Holders in Saudi Arabia ( http://arxiv.org/abs/2308.10148v2 )

ライセンス: Link先を確認
Eman Alashwali and Lorrie Faith Cranor(参考訳) 西洋社会ではプライバシーの認識や行動が研究されているが、非西洋社会ではこれらの問題についてはほとんど分かっていない。 このギャップを埋めるために、私たちはサウジアラビアの30人のGoogleアカウント所有者に、Googleが保存するアクティビティデータに対するプライバシーの認識(認識、態度、嗜好、関心)と、Googleのコレクションやこのデータの使用を制御するためのあらゆるステップについてインタビューしました。 我々の研究は、ユーザーがWeb & App Activity、Location History、YouTube Historyを保存できるかどうかを制御できるGoogleのActivity Controlsに焦点を当てている。 その結果、ほとんどの参加者はgoogleのデータプラクティスとアクティビティコントロールについてある程度の認識を持っているが、多くはあいまいな意識しか持たず、大多数は利用可能なコントロールを使用していないことがわかった。 参加者が保存した活動データを見たとき、多くの人が救われたことに驚いた。 多くの参加者は、Googleが提供したサービスを改善するためにデータを使用することを容認しているが、大多数は広告目的でデータを使用することを容認できないと考えている。 サウジの参加者は、米国の研究で見つかったものと同様に、プライバシーの意識、態度、好み、懸念、行動に類似した傾向とパターンを示しています。 しかし、本研究は米国研究の複製ではなく、米国とサウジアラビアの参加者を直接比較するためにはさらなる研究が必要である。 私たちの結果は 必要を強調するものです 1)アカウント登録中にユーザにプライバシー設定を通知する技術の改善,ユーザに対して設定を思い出させる,プライバシ設定に関する意識を高めること。 2)多くのユーザが設定を変更するのを妨げるコストを削減するためのプライバシー設定インターフェースの改善。 3)非西洋文化におけるプライバシーに関するさらなる研究。

While privacy perceptions and behaviors have been investigated in Western societies, little is known about these issues in non-Western societies. To bridge this gap, we interviewed 30 Google personal account holders in Saudi Arabia about their privacy perceptions (awareness, attitudes, preferences, and concerns) regarding the activity data that Google saves about them, as well as any steps they take to control Google's collection or use of this data. Our study focuses on Google's Activity Controls, which enable users to control whether, and how, Google saves their Web & App Activity, Location History, and YouTube History. Our results show that although most participants have some level of awareness about Google's data practices and the Activity Controls, many have only vague awareness, and the majority have not used the available controls. When participants viewed their saved activity data, many were surprised by what had been saved. While many participants find Google's use of their data to improve the services provided to them acceptable, the majority find the use of their data for ad purposes unacceptable. We observe that our Saudi participants exhibit similar trends and patterns in privacy awareness, attitudes, preferences, concerns, and behaviors to what has been found in studies in the US. However, our study is not a replication of any of the US studies, and further research is needed to directly compare US and Saudi participants. Our results emphasize the need for: 1) improved techniques to inform users about privacy settings during account sign-up, to remind users about their settings, and to raise awareness about privacy settings; 2) improved privacy setting interfaces to reduce the costs that deter many users from changing the settings; and 3) further research to explore privacy concerns in non-Western cultures.
翻訳日:2024-01-29 18:13:33 公開日:2024-01-26
# Prompt Strategiesを用いた大規模言語モデルを用いたオンラインログ解析

Interpretable Online Log Analysis Using Large Language Models with Prompt Strategies ( http://arxiv.org/abs/2308.07610v2 )

ライセンス: Link先を確認
Yilun Liu, Shimin Tao, Weibin Meng, Jingyu Wang, Wenbing Ma, Yanqing Zhao, Yuhang Chen, Hao Yang, Yanfei Jiang, Xun Chen(参考訳) 自動ログ解析は、ソフトウェアメンテナンスとエンジニアリングライフサイクル全体を通してプログラム理解を促進するために、現代のソフトウェア集約システムにおいて不可欠である。 既存の方法は、解釈なしで単一の予測値を提供することで、ログ解析やログ異常検出などのタスクを実行する。 しかし、システムイベントの量が増加すると、分析結果の解釈可能性の制限は、分析者のプログラムステータスの理解と適切なアクションを取る能力を妨げる。 さらに、これらの手法はドメイン内のトレーニングデータを必要とするため、新しいドメインからの未確認ログを含むオンラインシナリオではパフォーマンスが劇的に低下する(62.5%まで)。 本稿では,オンラインシナリオに対する新しい解釈可能なログ分析手法であるlogpromptを提案する。 logpromptは大規模な言語モデル(llms)を使用して、ログタスク用に調整された一連の高度なプロンプト戦略を介してオンラインログ分析タスクを実行する。 2つのタスクにわたる9つの公開評価データセットの実験では、LogPromptはドメイン内のトレーニングを必要としないが、数千のログでトレーニングされた既存のアプローチを最大55.9%上回っている。 また,LogPromptの解釈可能性の評価を行い,10年以上の経験を持つ6人の実践者が有用性と可読性(平均4.42/5)を高く評価した。 LogPromptはまた、オープンソースおよび小規模のLLMとの顕著な互換性を示しており、実用的なデプロイメントに柔軟である。 logpromptのコードはhttps://github.com/lunyiliu/logpromptで入手できる。

Automated log analysis is crucial in modern software-intensive systems for facilitating program comprehension throughout software maintenance and engineering life cycles. Existing methods perform tasks such as log parsing and log anomaly detection by providing a single prediction value without interpretation. However, given the increasing volume of system events, the limited interpretability of analysis results hinders analysts' comprehension of program status and their ability to take appropriate actions. Moreover, these methods require substantial in-domain training data, and their performance declines sharply (by up to 62.5%) in online scenarios involving unseen logs from new domains, a common occurrence due to rapid software updates. In this paper, we propose LogPrompt, a novel interpretable log analysis approach for online scenarios. LogPrompt employs large language models (LLMs) to perform online log analysis tasks via a suite of advanced prompt strategies tailored for log tasks, which enhances LLMs' performance by up to 380.7% compared with simple prompts. Experiments on nine publicly available evaluation datasets across two tasks demonstrate that LogPrompt, despite requiring no in-domain training, outperforms existing approaches trained on thousands of logs by up to 55.9%. We also conduct a human evaluation of LogPrompt's interpretability, with six practitioners possessing over 10 years of experience, who highly rated the generated content in terms of usefulness and readability (averagely 4.42/5). LogPrompt also exhibits remarkable compatibility with open-source and smaller-scale LLMs, making it flexible for practical deployment. Code of LogPrompt is available at https://github.com/lunyiliu/LogPrompt.
翻訳日:2024-01-29 18:13:05 公開日:2024-01-26
# クロス共振ハミルトニアンを用いたユニバーサル2量子量子回路の実装手法

A Scheme to Implement a Universal Two-Qubit Quantum Circuit using Cross-Resonance Hamiltonian ( http://arxiv.org/abs/2307.12599v3 )

ライセンス: Link先を確認
M. Karthick Selvan and S. Balakrishnan(参考訳) 本稿では、最近提案された2量子ビット量子回路に、特殊完全エンタングル(SPE)と局所y回転の2つの応用を含む局所的に等価な回路を提案する。 さらに,交差共振ハミルトニアンを用いた等価回路の実装について検討する。 我々は、cnotゲートと \sqrt{\text{cnot}}ゲートを用いてbゲート回路を実装した。 これは2つのCNOTゲートを使用して同じゲートを実装するのに必要な時間の約64.84%の時間を必要とする。 また、(n - 1)Bゲートの応用は、n-qubit GHZ状態とn-qubit perfect W状態の両方を生成可能であることを示す。

In this brief report, we propose a circuit which is locally equivalent to a recently proposed universal two-qubit quantum circuit involving two applications of special perfect entanglers (SPEs) and local y-rotations. Further, we discuss a scheme to implement the equivalent circuit using cross-resonance Hamiltonian. We implement the B-gate circuit using a CNOT gate and a \sqrt{\text{CNOT}} gate. This requires the implementation time which is approximately 64.84% of the time required to implement the same gate using two CNOT gates. We also show that (n - 1) applications of B-gate can generate both the n-qubit GHZ state and n-qubit perfect W state.
翻訳日:2024-01-29 18:12:25 公開日:2024-01-26
# IBM Analog In-Memory Hardware Acceleration Kitを用いたニューラルネットワークトレーニングと推論

Using the IBM Analog In-Memory Hardware Acceleration Kit for Neural Network Training and Inference ( http://arxiv.org/abs/2307.09357v2 )

ライセンス: Link先を確認
Manuel Le Gallo, Corey Lammie, Julian Buechel, Fabio Carta, Omobayode Fagbohungbe, Charles Mackin, Hsinyu Tsai, Vijay Narayanan, Abu Sebastian, Kaoutar El Maghraoui and Malte J. Rasch(参考訳) Analog In-Memory Computing(AIMC)は、Deep Neural Network(DNN)推論とトレーニングのレイテンシとエネルギー消費を削減する、有望なアプローチである。 しかし、ノイズと非線形のデバイス特性とaimcチップの非理想周辺回路は、デジタルコンピューティングと同等の精度を達成するために、そのようなハードウェアにdnnを配置する必要がある。 このチュートリアルでは、最近リリースされたIBM Analog Hardware Acceleration Kit (AIHWKit)を使って、このような適応をどのように達成し、評価できるかを詳しく説明します。 AIHWKitは、AIMCを使用してDNNの推論とトレーニングをシミュレートするPythonライブラリである。 本稿では,AIHWKitの設計,機能,ベストプラクティスを詳細に記述し,推論とトレーニングを適切に行う。 私たちはまた、aihwkitシミュレーションをフルマネージドクラウド環境で使用する利点を提供するプラットフォームであるアナログai cloud composerの概要と、https://aihw-composer.draco.res.ibm.comで無償で利用可能な物理aimcハードウェアアクセスについても紹介します。 最後に、ユーザが自身のニーズに合わせてAIHWKitを拡張し、カスタマイズする方法の例を示す。 このチュートリアルには、AIHWKitを使用して実行できる包括的なJupyter Notebookコード例が付属している。

Analog In-Memory Computing (AIMC) is a promising approach to reduce the latency and energy consumption of Deep Neural Network (DNN) inference and training. However, the noisy and non-linear device characteristics, and the non-ideal peripheral circuitry in AIMC chips, require adapting DNNs to be deployed on such hardware to achieve equivalent accuracy to digital computing. In this tutorial, we provide a deep dive into how such adaptations can be achieved and evaluated using the recently released IBM Analog Hardware Acceleration Kit (AIHWKit), freely available at https://github.com/IBM/aihwkit. The AIHWKit is a Python library that simulates inference and training of DNNs using AIMC. We present an in-depth description of the AIHWKit design, functionality, and best practices to properly perform inference and training. We also present an overview of the Analog AI Cloud Composer, a platform that provides the benefits of using the AIHWKit simulation in a fully managed cloud setting along with physical AIMC hardware access, freely available at https://aihw-composer.draco.res.ibm.com. Finally, we show examples on how users can expand and customize AIHWKit for their own needs. This tutorial is accompanied by comprehensive Jupyter Notebook code examples that can be run using AIHWKit, which can be downloaded from https://github.com/IBM/aihwkit/tree/master/notebooks/tutorial.
翻訳日:2024-01-29 18:11:23 公開日:2024-01-26
# アナログマルコフ連鎖を用いた極端熱波サンプリングと予測とディープラーニングとの比較

Extreme heatwave sampling and prediction with analog Markov chain and comparisons with deep learning ( http://arxiv.org/abs/2307.09060v2 )

ライセンス: Link先を確認
George Miloshevich, Dario Lucente, Pascal Yiou, Freddy Bouchet(参考訳) 本研究では,フランスとスカンジナビアの長寿命熱波の確率推定に適したデータ駆動エミュレータ,確率気象発生器(SWG)を提案する。 このエミュレータは, 温度と土壌水分を予測場として加える循環のアナログ法に基づいている。 中間複雑性気候モデルでエミュレータを訓練し、サンプルからの熱波の条件確率(予測)を予測することができることを示す。 この予測は,レアイベントに適した適切なスコアを用いて評価される。 アナログの次元縮小手法の計算を高速化し、性能評価を行う。 SWGによる確率的予測は、畳み込みニューラルネットワーク(CNN)による予測と比較される。 何百年ものトレーニングデータの可用性により、CNNは確率的予測のタスクにおいてより良いパフォーマンスを発揮する。 また,80 年間のデータに基づいてトレーニングされた swg エミュレータは,一般化された極値分布に基づく適合性よりも,数 日よりも長い熱波に対して,数千 年単位の極値返却時間を推定できることを示した。 最後に, 確率的気象発生器を用いて得られた人工極端テレコネクションパターンの質について検討した。 本稿では,フランスとスカンジナビアの温熱波の合成テレコネクトパターンを,非常に長い気候モデル制御法と比較した2つの例を示す。

We present a data-driven emulator, stochastic weather generator (SWG), suitable for estimating probabilities of prolonged heatwaves in France and Scandinavia. This emulator is based on the method of analogs of circulation to which we add temperature and soil moisture as predictor fields. We train the emulator on an intermediate complexity climate model run and show that it is capable of predicting conditional probabilities (forecasting) of heatwaves out of sample. Special attention is payed that this prediction is evaluated using proper score appropriate for rare events. To accelerate the computation of analogs dimensionality reduction techniques are applied and the performance is evaluated. The probabilistic prediction achieved with SWG is compared with the one achieved with Convolutional Neural Network (CNN). With the availability of hundreds of years of training data CNNs perform better at the task of probabilistic prediction. In addition, we show that the SWG emulator trained on 80 years of data is capable of estimating extreme return times of order of thousands of years for heatwaves longer than several days more precisely than the fit based on generalised extreme value distribution. Finally, the quality of its synthetic extreme teleconnection patterns obtained with stochastic weather generator is studied. We showcase two examples of such synthetic teleconnection patterns for heatwaves in France and Scandinavia that compare favorably to the very long climate model control run.
翻訳日:2024-01-29 18:10:55 公開日:2024-01-26
# 大規模言語モデルにおける文脈内例検索の学習

Learning to Retrieve In-Context Examples for Large Language Models ( http://arxiv.org/abs/2307.07164v2 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Furu Wei(参考訳) 大規模言語モデル(LLM)は、コンテキスト内で学習する能力を示し、いくつかの入力出力例に基づいて様々なタスクを実行できる。 しかし、文脈内学習の有効性は、選択した例の品質に大きく依存している。 本稿では,LLMの高品質なインコンテキスト例を識別可能な高密度検索を反復的に学習するフレームワークを提案する。 まず, llmフィードバックに基づく報酬モデルを訓練し, 候補例の品質評価を行い, 次いで, bi-encoderベースの高密度検索機を訓練するための知識蒸留を行った。 30ドルのタスクスイートの実験は、私たちのフレームワークがコンテキスト内学習のパフォーマンスを大幅に向上することを示しています。 さらに、トレーニング中のタスクを検知するフレームワークの一般化能力を示す。 奥行き分析により,類似したパターンのサンプルを検索することで,モデルの性能が向上し,異なるサイズのLCM間で利得が整合していることが明らかになった。 コードとデータはhttps://github.com/microsoft/LMOps/tree/main/llm_retrieverで公開されている。

Large language models (LLMs) have demonstrated their ability to learn in-context, allowing them to perform various tasks based on a few input-output examples. However, the effectiveness of in-context learning is heavily reliant on the quality of the selected examples. In this paper, we propose a novel framework to iteratively train dense retrievers that can identify high-quality in-context examples for LLMs. Our framework initially trains a reward model based on LLM feedback to evaluate the quality of candidate examples, followed by knowledge distillation to train a bi-encoder based dense retriever. Our experiments on a suite of $30$ tasks demonstrate that our framework significantly enhances in-context learning performance. Furthermore, we show the generalization ability of our framework to unseen tasks during training. An in-depth analysis reveals that our model improves performance by retrieving examples with similar patterns, and the gains are consistent across LLMs of varying sizes. The code and data are available at https://github.com/microsoft/LMOps/tree/main/llm_retriever .
翻訳日:2024-01-29 18:10:12 公開日:2024-01-26
# 勾配Descent を用いた測定から IMM フィルタパラメータの学習

Learning IMM Filter Parameters from Measurements using Gradient Descent ( http://arxiv.org/abs/2307.06618v2 )

ライセンス: Link先を確認
Andr\'e Brandenburger, Folker Hoffmann and Alexander Charlish(参考訳) データ融合と追跡アルゴリズムの性能は、センサーシステムを記述するだけでなく、タスク固有のパラメータにも依存することが多い。 センサーシステムのチューニングには、これらの変数は時間がかかり、主に専門家の知識を必要とするが、システムのデプロイまで、トラック中のターゲットの固有のパラメータは完全に観測不可能である。 最先端のセンサシステムがますます複雑になるにつれて、パラメータの数は自然に増加し、モデル変数の自動最適化が必要となる。 本稿では,対話型多層モデル(imm)フィルタのパラメータを,測定値のみを用いて最適化する。 その結果,シミュレーションデータを用いたアブレーション実験により,実測値にパラメトリズされたフィルタの性能を再現する手法が得られた。

The performance of data fusion and tracking algorithms often depends on parameters that not only describe the sensor system, but can also be task-specific. While for the sensor system tuning these variables is time-consuming and mostly requires expert knowledge, intrinsic parameters of targets under track can even be completely unobservable until the system is deployed. With state-of-the-art sensor systems growing more and more complex, the number of parameters naturally increases, necessitating the automatic optimization of the model variables. In this paper, the parameters of an interacting multiple model (IMM) filter are optimized solely using measurements, thus without necessity for any ground-truth data. The resulting method is evaluated through an ablation study on simulated data, where the trained model manages to match the performance of a filter parametrized with ground-truth values.
翻訳日:2024-01-29 18:09:53 公開日:2024-01-26
# Vlasov-PoissonからSchr\"odinger-Poisson:量子変動時間進化アルゴリズムによる暗黒物質シミュレーション

From Vlasov-Poisson to Schr\"odinger-Poisson: dark matter simulation with a quantum variational time evolution algorithm ( http://arxiv.org/abs/2307.06032v3 )

ライセンス: Link先を確認
Luca Cappelli, Francesco Tacchino, Giuseppe Murante, Stefano Borgani and Ivano Tavernelli(参考訳) 自己重力衝突のないダークマター(dm)流体の膨張背景における密度摂動の進化を記述する宇宙論的シミュレーションは、広いダイナミックレンジでの宇宙構造の形成を追従する強力なツールである。 最も広く採用されているアプローチは、衝突のないVlasov-Poisson(VP)方程式のNボディの離散化に基づいて、単一銀河の形成と最大の宇宙構造の形成を同時にカバーするために必要な幅広いスケールをシミュレートするときに、好ましくないスケーリングによって妨げられる。 VP方程式によって記述される力学は、拡大するスケールの範囲をシミュレートするために必要な分解能要素の数の増加によって制限される。 最近の研究では、DM摂動の進化をシミュレートするために、6次元+1(6D+1)VP問題をより可換な3次元+1非線形Schr\"odinger-Poisson (SP)問題にマッピングした。 これにより、量子コンピューティングを用いた時間伝播シミュレーションのスケーリングを改善する可能性が開ける。 本稿では,自己整合性,非線形性,問題に変動的リアルタイム進化アプローチを適用することで,(SP)方程式をシミュレートする量子アルゴリズムを提案する。 これを実現するために、元のポアソン方程式の解と対応する時間依存シュリンガー方程式の解との接続を確立する新しい量子回路を設計した。 また, 非線形性が観測値の分散に与える影響を解析した。 さらに,SP力学が古典的極限に近づくにつれて空間分解能がどのように振る舞うかを考察し,必要量子ビット数とSP方程式のスケールとの間に経験的対数関係を見出した。 このアプローチは、古典的アルゴリズムを用いてvlasov-poisson(vp)方程式を解くための効率的な代替手段となる可能性を秘めている。

Cosmological simulations describing the evolution of density perturbations of a self-gravitating collisionless Dark Matter (DM) fluid in an expanding background, provide a powerful tool to follow the formation of cosmic structures over wide dynamic ranges. The most widely adopted approach, based on the N-body discretization of the collisionless Vlasov-Poisson (VP) equations, is hampered by an unfavorable scaling when simulating the wide range of scales needed to cover at the same time the formation of single galaxies and of the largest cosmic structures. The dynamics described by the VP equations is limited by the rapid increase of the number of resolution elements which is required to simulate an ever growing range of scales. Recent studies showed an interesting mapping of the 6-dimensional+1 (6D+1) VP problem into a more amenable 3D+1 non-linear Schr\"odinger-Poisson (SP) problem for simulating the evolution of DM perturbations. This opens up the possibility of improving the scaling of time propagation simulations using quantum computing. In this paper, we introduce a quantum algorithm for simulating the (SP) equation by adapting a variational real-time evolution approach to a self-consistent, non-linear, problem. To achieve this, we designed a novel set of quantum circuits that establish connections between the solution of the original Poisson equation and the solution of the corresponding time-dependent Schr\"odinger equation. We also analyzed how nonlinearity impacts the variance of observables. Furthermore, we explored how the spatial resolution behaves as the SP dynamics approaches the classical limit and discovered an empirical logarithmic relationship between the required number of qubits and the scale of the SP equation. This entire approach holds the potential to serve as an efficient alternative for solving the Vlasov-Poisson (VP) equation by means of classical algorithms.
翻訳日:2024-01-29 18:09:37 公開日:2024-01-26
# all-to-all squeezed and driven superradianceの臨界定常状態--解析的アプローチ

Critical steady states of all-to-all squeezed and driven superradiance: An analytic approach ( http://arxiv.org/abs/2307.05115v2 )

ライセンス: Link先を確認
Diego Barberena, Ana Maria Rey(参考訳) 光キャビティ内のn個の2準位系のダイナミクスを記述した2つの全対全散逸スピンモデルの定常相転移特性を解析した。 ボソニック変数の観点からスピン作用素のホルシュタイン・プリマコフ表現における関連する非線型性を慎重に同定することにより、臨界点の周りの有限サイズ挙動を正確に捉えることができることを示す。 これらのツールを用いて、位相遷移の様々な観測可能量を解析的に計算し、数値的プレファクタを含む有限サイズスケールを得る。 特に, 定常状態によるスピンスクイーズ量, 量子力学の関連性について検討し, 最適スピンスクイーズ法がシステムサイズに依存する対数補正を行うメカニズムを解析的に詳細に述べる。 また、これらの補正の対数的性質は、実験的に現実的かつ/またはシミュレート可能な粒子数の数値計算によって特徴づけることが困難であることを示す。 解析的議論をすべて数値的なベンチマークで補完する。

We analyse the properties across steady state phase transitions of two all-to-all driven-dissipative spin models that describe possible dynamics of N two-level systems inside an optical cavity. We show that the finite size behaviour around the critical points can be captured correctly by carefully identifying the relevant non-linearities in the Holstein-Primakoff representation of spin operators in terms of bosonic variables. With these tools, we calculate analytically various observables across the phase transitions and obtain their finite size scalings, including numerical prefactors. In particular, we look at the amount of spin squeezing carried by the steady states, of relevance for quantum metrology applications, and describe in analytical detail the mechanism by which the optimal spin squeezing acquires logarithmic corrections that depend on the system size. We also demonstrate that the logarithmic nature of these corrections is difficult to characterize through numerical procedures for any experimentally realistic and/or simulable values of particle number. We complement all of our analytical arguments with numerical benchmarks.
翻訳日:2024-01-29 18:09:02 公開日:2024-01-26
# 文脈性と因果性を組み合わせたゲーム意味論アプローチ

Combining contextuality and causality: a game semantics approach ( http://arxiv.org/abs/2307.04786v2 )

ライセンス: Link先を確認
Samson Abramsky, Rui Soares Barbosa, Amy Searle(参考訳) 因果関係と因果関係を結合する手法を開発し,因果関係の背景構造,適応的測定に基づく量子計算,因果ネットワークなどをカバーする。 主要な考え方は、文脈性は実験者と自然の間のゲームから生じるものであり、実験者(測定結果の選択)と自然(結果の選択)の両方の行動に因果的依存を可能にすることである。

We develop an approach to combining contextuality with causality, which is general enough to cover causal background structure, adaptive measurement-based quantum computation, and causal networks. The key idea is to view contextuality as arising from a game played between Experimenter and Nature, allowing for causal dependencies in the actions of both the Experimenter (choice of measurements) and Nature (choice of outcomes).
翻訳日:2024-01-29 18:08:45 公開日:2024-01-26
# trace: 軌道の反事実的説明スコア

TraCE: Trajectory Counterfactual Explanation Scores ( http://arxiv.org/abs/2309.15965v2 )

ライセンス: Link先を確認
Jeffrey N. Clark, Edward A. Small, Nawid Keshtmand, Michelle W.L. Wan, Elena Fillola Mayoral, Enrico Werner, Christopher P. Bourdeaux, Raul Santos-Rodriguez(参考訳) 対物的説明とその関連するアルゴリズム的説明は、典型的にはブラックボックス分類器からの予測を理解し、説明し、変更する。 本稿では,逐次的意思決定作業の進捗を評価するために,反事実の利用を拡大することを提案する。 この目的のために,高度に複雑なシナリオにおいて進捗を1つの値に蒸留・凝縮することができる,モデル非依存なモジュラーフレームワークであるtrace(trajectory counterfactual description)スコアを導入する。 我々は、医療と気候変動にまたがる2つのケーススタディにおいて、TraCEのドメイン間での有効性を示す。

Counterfactual explanations, and their associated algorithmic recourse, are typically leveraged to understand, explain, and potentially alter a prediction coming from a black-box classifier. In this paper, we propose to extend the use of counterfactuals to evaluate progress in sequential decision making tasks. To this end, we introduce a model-agnostic modular framework, TraCE (Trajectory Counterfactual Explanation) scores, which is able to distill and condense progress in highly complex scenarios into a single value. We demonstrate TraCE's utility across domains by showcasing its main properties in two case studies spanning healthcare and climate change.
翻訳日:2024-01-29 18:02:22 公開日:2024-01-26
# 線形ニューラルネットワークの幾何学:置換群における等分散と不変性

Geometry of Linear Neural Networks: Equivariance and Invariance under Permutation Groups ( http://arxiv.org/abs/2309.13736v2 )

ライセンス: Link先を確認
Kathl\'en Kohn, Anna-Laura Sattelberger, Vahid Shahverdi(参考訳) 線形完全連結ニューラルネットワークによってパラメータ化された関数の集合は行列多様体である。 置換群の作用の下で同変あるいは不変な函数の部分多様体について検討する。 そのようなグループアクションの例としては、画像上の翻訳や90^\circ$ローテーションがある。 そのような同変あるいは不変部分多様体を行列多様体の直積として記述し、そこからその次元、次数、ユークリッド距離次数および特異点を導出する。 任意の置換群に対する不変性と巡回群に対する同値性を完全に特徴づける。 パラメータ化と等変および不変線形ネットワークの設計について、空間性および重み付け特性の観点から結論を導出する。 すべての不変線型関数は、考慮される置換のサイクル分解によって重みの共有性が課される単一の線形オートエンコーダによってパラメータ化可能であることが証明される。 ランク付き同値関数の空間はいくつかの既約成分を持ち、単一のネットワークでパラメータ化できないが、各既約成分は可逆成分である。 最後に、不変あるいは同変ネットワーク上の二乗誤差損失の最小化は、エッカート・ヤングの定理を通じて行列型多様体からユークリッド距離を最小化する。

The set of functions parameterized by a linear fully-connected neural network is a determinantal variety. We investigate the subvariety of functions that are equivariant or invariant under the action of a permutation group. Examples of such group actions are translations or $90^\circ$ rotations on images. We describe such equivariant or invariant subvarieties as direct products of determinantal varieties, from which we deduce their dimension, degree, Euclidean distance degree, and their singularities. We fully characterize invariance for arbitrary permutation groups, and equivariance for cyclic groups. We draw conclusions for the parameterization and the design of equivariant and invariant linear networks in terms of sparsity and weight-sharing properties. We prove that all invariant linear functions can be parameterized by a single linear autoencoder with a weight-sharing property imposed by the cycle decomposition of the considered permutation. The space of rank-bounded equivariant functions has several irreducible components, so it can {\em not} be parameterized by a single network -- but each irreducible component can. Finally, we show that minimizing the squared-error loss on our invariant or equivariant networks reduces to minimizing the Euclidean distance from determinantal varieties via the Eckart--Young theorem.
翻訳日:2024-01-29 18:02:08 公開日:2024-01-26
# ChaCha:大きな言語モデルを活用して子どもたちに個人的出来事に対する感情を共有する

ChaCha: Leveraging Large Language Models to Prompt Children to Share Their Emotions about Personal Events ( http://arxiv.org/abs/2309.12244v3 )

ライセンス: Link先を確認
Woosuk Seo, Chanmo Yang, Young-Ho Kim(参考訳) 子供は通常、物語や感情を他人、特に家族と共有することで感情を識別し表現することを学ぶ。 しかし,親や兄弟姉妹は,まだコミュニケーション能力が発達しているため,子どもと感情的なコミュニケーションをとることが困難である。 チャットボットChaChaは、子どもたちに個人的な出来事と関連する感情を共有することを奨励し、指導する。 ChaChaはステートマシンと大きな言語モデル(LLM)を組み合わせて、自由形式の会話をしながら対話をトラックする。 20人の子供(8-12歳)を対象にした探索的研究を通じて,ChaChaが子どもに個人の出来事を共有し,関連する感情を記述するための指導を行う方法を検討した。 参加者はChaChaを親しい友人と認識し、家族旅行や個人的業績など様々な話題について話を共有した。 本研究は, 子どもの感情共有を支援するために, LLMを利用して子どもに優しいチャットボットを設計する機会について論じる。

Children typically learn to identify and express emotions through sharing their stories and feelings with others, particularly their family. However, it is challenging for parents or siblings to have emotional communication with children since children are still developing their communication skills. We present ChaCha, a chatbot that encourages and guides children to share personal events and associated emotions. ChaCha combines a state machine and large language models (LLMs) to keep the dialogue on track while carrying on free-form conversations. Through an exploratory study with 20 children (aged 8-12), we examine how ChaCha prompts children to share personal events and guides them to describe associated emotions. Participants perceived ChaCha as a close friend and shared their stories on various topics, such as family trips and personal achievements. Based on the findings, we discuss opportunities for leveraging LLMs to design child-friendly chatbots to support children in sharing emotions.
翻訳日:2024-01-29 18:01:17 公開日:2024-01-26
# 3重部分マージンコントラスト学習を用いた2重モーダル注意強調テキストビデオ検索

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning ( http://arxiv.org/abs/2309.11082v3 )

ライセンス: Link先を確認
Chen Jiang, Hong Liu, Xuzheng Yu, Qing Wang, Yuan Cheng, Jia Xu, Zhongyi Liu, Qingpei Guo, Wei Chu, Ming Yang, Yuan Qi(参考訳) 近年、ウェブビデオの爆発により、ビデオフィルタリング、レコメンデーション、検索にテキストビデオ検索が不可欠になり、人気が高まっている。 テキストビデオ検索は、関係のないものよりも関連のあるテキストやビデオをランク付けすることを目的としている。 このタスクの中核は、テキストとビデオの相互類似性を正確に測定することである。 近年,コントラスト学習はテキスト・ビデオ検索に有望な結果をもたらしており,そのほとんどがテキスト・ビデオ表現を学習するためのポジティブペアとネガティブペアの構築に焦点が当てられている。 それでも彼らは強負対に十分な注意を払わず、異なるレベルの意味的類似性をモデル化する能力に欠ける。 この2つの問題に対処するため,本論文では2つの新しい手法を用いてコントラスト学習を改善する。 まず、頑健な識別力のためのハードサンプルを利用するために、テキストと視覚の手がかりからハードネガティブペアをマイニングするための新しいデュアルモーダルアテンション拡張モジュール(DMAE)を提案する。 さらにNegative-Aware InfoNCE(NegNCE)の損失を導入することで、これらのハードネガティブをすべて適応的に識別し、トレーニング損失に対する彼らの影響を明確にすることが可能になる。 第二に、三重項サンプルは、ペアのサンプルに比べてきめ細かいセマンティックな類似性をモデル化できると主張している。 これにより、マッチングされたテキスト-ビデオ対に対して、微細な硬さの負を自動的に生成することにより、部分順序三重項サンプルを構築するための新しい三重項部分整合性学習(TPM-CL)モジュールを提案する。 提案するtpm-clは,微妙な意味差をモデル化するために,クロスモーダルインタラクションを用いた適応トークンマスキング戦略を設計する。 大規模な実験により,提案手法は,MSR-VTT,MSVD,DiDeMo,ActivityNetなど,広く使用されている4つのテキストビデオ検索データセットにおいて,既存の手法よりも優れていることが示された。

In recent years, the explosion of web videos makes text-video retrieval increasingly essential and popular for video filtering, recommendation, and search. Text-video retrieval aims to rank relevant text/video higher than irrelevant ones. The core of this task is to precisely measure the cross-modal similarity between texts and videos. Recently, contrastive learning methods have shown promising results for text-video retrieval, most of which focus on the construction of positive and negative pairs to learn text and video representations. Nevertheless, they do not pay enough attention to hard negative pairs and lack the ability to model different levels of semantic similarity. To address these two issues, this paper improves contrastive learning using two novel techniques. First, to exploit hard examples for robust discriminative power, we propose a novel Dual-Modal Attention-Enhanced Module (DMAE) to mine hard negative pairs from textual and visual clues. By further introducing a Negative-aware InfoNCE (NegNCE) loss, we are able to adaptively identify all these hard negatives and explicitly highlight their impacts in the training loss. Second, our work argues that triplet samples can better model fine-grained semantic similarity compared to pairwise samples. We thereby present a new Triplet Partial Margin Contrastive Learning (TPM-CL) module to construct partial order triplet samples by automatically generating fine-grained hard negatives for matched text-video pairs. The proposed TPM-CL designs an adaptive token masking strategy with cross-modal interaction to model subtle semantic differences. Extensive experiments demonstrate that the proposed approach outperforms existing methods on four widely-used text-video retrieval datasets, including MSR-VTT, MSVD, DiDeMo and ActivityNet.
翻訳日:2024-01-29 18:01:00 公開日:2024-01-26
# 因果エントロピーと因果制御測定のための情報ゲイン

Causal Entropy and Information Gain for Measuring Causal Control ( http://arxiv.org/abs/2309.07703v2 )

ライセンス: Link先を確認
Francisco Nunes Ferreira Quialheiro Simoes, Mehdi Dastani, Thijs van Ommen(参考訳) 人工知能モデルと手法は一般的に因果解釈性に欠ける。 解釈可能な機械学習(IML)手法の進歩にもかかわらず、結果変数に因果的影響を持たない特徴にしばしば重要度を割り当てる。 これらの方法によって関連づけられた、あるいはモデルトレーニングの前にも、因果関係のある特徴を選択することは、ソリューションを提供する。 情報理論量を利用した特徴選択法は,統計的に関連する特徴の同定に成功している。 しかし、それらに基づく情報理論量は因果関係を含まないため、そのようなシナリオには適さない。 この課題に対処するために,本論文では,ある結果変数に対する特徴の因果的重要性を評価するために,システムの因果的構造を組み込んだ情報理論量を提案する。 具体的には、因果エントロピー(causal entropy)と因果情報ゲイン(causal information gain)と呼ばれるエントロピーと相互情報の因果バージョンを導入する。 これらの新しく定義された量は、他の変数への介入による変数のエントロピーの変化をキャプチャする。 これらの量と因果効果の存在を結びつける基本的な結果が導出される。 特徴選択における因果情報ゲインの使用を実証し、選択した結果変数に対する制御を提供する特徴を明らかにする際に、標準的相互情報よりも優位性を示す。 本研究は,因果関係領域の解釈性を向上させる手法開発への道を開くものである。

Artificial intelligence models and methods commonly lack causal interpretability. Despite the advancements in interpretable machine learning (IML) methods, they frequently assign importance to features which lack causal influence on the outcome variable. Selecting causally relevant features among those identified as relevant by these methods, or even before model training, would offer a solution. Feature selection methods utilizing information theoretical quantities have been successful in identifying statistically relevant features. However, the information theoretical quantities they are based on do not incorporate causality, rendering them unsuitable for such scenarios. To address this challenge, this article proposes information theoretical quantities that incorporate the causal structure of the system, which can be used to evaluate causal importance of features for some given outcome variable. Specifically, we introduce causal versions of entropy and mutual information, termed causal entropy and causal information gain, which are designed to assess how much control a feature provides over the outcome variable. These newly defined quantities capture changes in the entropy of a variable resulting from interventions on other variables. Fundamental results connecting these quantities to the existence of causal effects are derived. The use of causal information gain in feature selection is demonstrated, highlighting its superiority over standard mutual information in revealing which features provide control over a chosen outcome variable. Our investigation paves the way for the development of methods with improved interpretability in domains involving causation.
翻訳日:2024-01-29 18:00:26 公開日:2024-01-26
# OYXOY: 現代ギリシャ向け最新のNLPテストスイート

OYXOY: A Modern NLP Test Suite for Modern Greek ( http://arxiv.org/abs/2309.07009v2 )

ライセンス: Link先を確認
Konstantinos Kogkalidis, Stergios Chatzikyriakidis, Eirini Chrysovalantou Giannikouri, Vassiliki Katsouli, Christina Klironomou, Christina Koula, Dimitris Papadakis, Thelka Pasparaki, Erofili Psaltaki, Efthymia Sakellariou, Hara Soupiona(参考訳) 本論文は,ギリシャ語NLPのための言語的動機付けと技術的に関係のある評価スイートの開発に向けた基礎的なステップとして機能する。 この取り組みは、自然言語推論、単語感覚の曖昧さ(例比較や感覚選択)、比喩検出の4つの専門家による評価タスクを導入することで開始する。 既存のタスクの言語適応レプリカよりも、より広いリソースと評価コミュニティに共鳴する2つのイノベーションに貢献する。 第一に、私たちの推論データセットは、その種の最初のものであり、単に \textit{one} ではなく、推論ラベルである \textit{all} を示し、例えば曖昧さや多義性によって起こりうるシフトを考慮します。 次に,低リソース言語のためのデータセットを得るためのコスト効率のよい手法を示す。 言語ニュートラルパーサーとしてChatGPTを用いて、標準現代ギリシア語辞典を構造化形式に変換し、そこから単純な射影を通して他の3つのタスクを導出する。 各作業の他に,現在入手可能な工芸機械を用いて実験を行う。 我々の実験ベースラインは、我々の課題の難易度を実証し、ギリシャのNLPエコシステムが現代主流の研究に追随するために、迅速な進歩の必要性を強調します。

This paper serves as a foundational step towards the development of a linguistically motivated and technically relevant evaluation suite for Greek NLP. We initiate this endeavor by introducing four expert-verified evaluation tasks, specifically targeted at natural language inference, word sense disambiguation (through example comparison or sense selection) and metaphor detection. More than language-adapted replicas of existing tasks, we contribute two innovations which will resonate with the broader resource and evaluation community. Firstly, our inference dataset is the first of its kind, marking not just \textit{one}, but rather \textit{all} possible inference labels, accounting for possible shifts due to e.g. ambiguity or polysemy. Secondly, we demonstrate a cost-efficient method to obtain datasets for under-resourced languages. Using ChatGPT as a language-neutral parser, we transform the Dictionary of Standard Modern Greek into a structured format, from which we derive the other three tasks through simple projections. Alongside each task, we conduct experiments using currently available state of the art machinery. Our experimental baselines affirm the challenging nature of our tasks and highlight the need for expedited progress in order for the Greek NLP ecosystem to keep pace with contemporary mainstream research.
翻訳日:2024-01-29 18:00:01 公開日:2024-01-26
# 感覚フィードバックに基づく人間の意図駆動力増強のためのソフトウェアラブルバイオエレクトロニクスと深層学習を統合した知的上肢外骨格

Intelligent upper-limb exoskeleton integrated with soft wearable bioelectronics and deep-learning for human intention-driven strength augmentation based on sensory feedback ( http://arxiv.org/abs/2309.04655v2 )

ライセンス: Link先を確認
Jinwoo Lee, Kangkyu Kwon, Ira Soltis, Jared Matthews, Yoonjae Lee, Hojoong Kim, Lissette Romero, Nathan Zavanelli, Youngjin Kwon, Shinjae Kwon, Jimin Lee, Yewon Na, Sung Hoon Lee, Ki Jun Yu, Minoru Shinohara, Frank L. Hammond, Woon-Hong Yeo(参考訳) 筋骨格筋力の加齢と脳卒中関連低下は,上肢を用いた日常生活作業能力の低下を招いている。 外骨格の例はいくつかあるが、センサーのフィードバックがないため手動操作が必要であり、動きの意図的な予測ができない。 本稿では,クラウドベースの深層学習を用いて,強度向上のための人間の意図を予測するインテリジェントな上肢外骨格システムを提案する。 組込みソフトウェアラブルセンサは、リアルタイムの筋信号を収集して感覚フィードバックを提供し、同時に計算してユーザの意図した動きを判定する。 クラウドベースのディープラーニングは、平均96.2%の精度で200-250ミリ秒の反応速度で4つの上肢関節運動を予測する。 さらに、柔らかい空気圧の配列は、最大で897個のニュートンと78.7ミリの変位を与えることで、意図した動きを支援する。 総合すると、インテント駆動のエクソ骨格は、非アシストのエクソ骨格と比べて平均5.15倍の強度を増強することができる。 本報告では,機械学習のクラウドコンピューティングと感覚フィードバックに基づいて,上肢関節運動を人間の意図で増強する外骨格ロボットについて述べる。

The age and stroke-associated decline in musculoskeletal strength degrades the ability to perform daily human tasks using the upper extremities. Although there are a few examples of exoskeletons, they need manual operations due to the absence of sensor feedback and no intention prediction of movements. Here, we introduce an intelligent upper-limb exoskeleton system that uses cloud-based deep learning to predict human intention for strength augmentation. The embedded soft wearable sensors provide sensory feedback by collecting real-time muscle signals, which are simultaneously computed to determine the user's intended movement. The cloud-based deep-learning predicts four upper-limb joint motions with an average accuracy of 96.2% at a 200-250 millisecond response rate, suggesting that the exoskeleton operates just by human intention. In addition, an array of soft pneumatics assists the intended movements by providing 897 newton of force and 78.7 millimeter of displacement at maximum. Collectively, the intent-driven exoskeleton can augment human strength by 5.15 times on average compared to the unassisted exoskeleton. This report demonstrates an exoskeleton robot that augments the upper-limb joint movements by human intention based on a machine-learning cloud computing and sensory feedback.
翻訳日:2024-01-29 17:59:39 公開日:2024-01-26
# 原子配列の障害による協調的崩壊の修飾

Modifying cooperative decay via disorder in atom arrays ( http://arxiv.org/abs/2309.04384v2 )

ライセンス: Link先を確認
Nik O. Gjonbalaj, Stefan Ostermann, Susanne F. Yelin(参考訳) 原子配列は、遷移波長が格子間隔を超えると集合的な発光を示す。 亜ラジカル状態は、この現象を利用して全体の崩壊率を劇的に減少させ、散逸性開系における長期状態を可能にする。 我々は, 単一励起原子配列の減衰率がさらに低下するかどうかを調べるために, 先行研究を行った。 より具体的には、1次元半導波路と1d,2d,3d原子配列における強度変化の空間障害を自由空間で検討し、最もサブラジアントモードへの影響を分析した。 希薄な半導波路がアンダーソン局在の類似性を示すことは確認するが、密度の高い半導波路と自由空間系は、ディック限界に類似した密閉された、ほとんどボディのサブラジアント状態を作成することによって理解することができる。 一般に、無秩序は平均的に自由空間でより暗い亜ラジアント状態を生成するのにほとんど利点がなく、しばしば崩壊を加速する。 しかし、特定のサブラジアント状態を作るために配列内の原子間間隔を変更する可能性がある。

Atomic arrays can exhibit collective light emission when the transition wavelength exceeds their lattice spacing. Subradiant states take advantage of this phenomenon to drastically reduce their overall decay rate, allowing for long-lived states in dissipative open systems. We build on previous work to investigate whether or not disorder can further decrease the decay rate of a singly-excited atomic array. More specifically, we consider spatial disorder of varying strengths in a 1D half waveguide and in 1D, 2D, and 3D atomic arrays in free space and analyze the effect on the most subradiant modes. While we confirm that the dilute half waveguide exhibits an analog of Anderson localization, the dense half waveguide and free space systems can be understood through the creation of close-packed, few-body subradiant states similar to those found in the Dicke limit. In general, we find that disorder provides little advantage in generating darker subradiant states in free space on average and will often accelerate decay. However, one could potentially change interatomic spacing within the array to engineer specific subradiant states.
翻訳日:2024-01-29 17:59:16 公開日:2024-01-26
# HC3 Plus:人間のChatGPT比較コーパス

HC3 Plus: A Semantic-Invariant Human ChatGPT Comparison Corpus ( http://arxiv.org/abs/2309.02731v2 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Wei Zhou, Guangyuan Ma, Songlin Hu(参考訳) ChatGPTはその優れたパフォーマンスのために大きな関心を集めているが、その潜在的なリスク、特に訓練されていない人間が識別することが困難なAIGC(AIGC)の発見について、人々はますます懸念している。 現在のデータセットは、ChatGPT生成したテキストを主に質問回答を中心に検出するために使用されているが、要約、翻訳、パラフレーズ化といった意味不変性を持つタスクを無視する傾向にある。 本研究は,意味不変タスクにおけるモデル生成テキストの検出が困難であることを示す。 このギャップを埋めるため、私たちは、セマンティック不変タスクを含む、以前の作業よりも多くの種類のタスクを検討する、より広範囲で包括的なデータセットを導入します。 さらに、多数のタスク命令の微調整後のモデルは、強力なパフォーマンスを示している。 これまでの成功により、我々はさらに微調整T\textit{k}を指示し、より強力な検出システムを構築する。

ChatGPT has gained significant interest due to its impressive performance, but people are increasingly concerned about its potential risks, particularly around the detection of AI-generated content (AIGC), which is often difficult for untrained humans to identify. Current datasets utilized for detecting ChatGPT-generated text primarily center around question-answering, yet they tend to disregard tasks that possess semantic-invariant properties, such as summarization, translation, and paraphrasing. Our primary studies demonstrate that detecting model-generated text on semantic-invariant tasks is more difficult. To fill this gap, we introduce a more extensive and comprehensive dataset that considers more types of tasks than previous work, including semantic-invariant tasks. In addition, the model after a large number of task instruction fine-tuning shows a strong powerful performance. Owing to its previous success, we further instruct fine-tuning T\textit{k}-instruct and build a more powerful detection system.
翻訳日:2024-01-29 17:58:56 公開日:2024-01-26
# WeatherBench 2: 次世代のデータ駆動型グローバル気象モデルのためのベンチマーク

WeatherBench 2: A benchmark for the next generation of data-driven global weather models ( http://arxiv.org/abs/2308.15560v2 )

ライセンス: Link先を確認
Stephan Rasp, Stephan Hoyer, Alexander Merose, Ian Langmore, Peter Battaglia, Tyler Russel, Alvaro Sanchez-Gonzalez, Vivian Yang, Rob Carver, Shreya Agrawal, Matthew Chantry, Zied Ben Bouallegue, Peter Dueben, Carla Bromberg, Jared Sisk, Luke Barrington, Aaron Bell, Fei Sha(参考訳) WeatherBench 2はRaspらによって提唱された、地球規模の中距離(1~14日)の天気予報ベンチマークの更新であり、データ駆動気象モデリングの進歩を加速するために設計された。 WeatherBench 2は、オープンソースの評価フレームワーク、公開トレーニング、ベースラインデータ、最新のメトリクスと最先端モデルを備えた継続的に更新されたWebサイトで構成されている。 本稿では,評価フレームワークの設計原理を概説し,現状の物理・データ駆動気象モデルに対する結果を示す。 測定基準は、主要な運用気象センターで天気予報を評価するための確立した慣行に基づいている。 モデルパフォーマンスの概要を提供するために,見出しスコアのセットを定義した。 また,データ駆動型気象予報の現在の評価設定における問題点と今後の課題についても考察する。

WeatherBench 2 is an update to the global, medium-range (1-14 day) weather forecasting benchmark proposed by Rasp et al. (2020), designed with the aim to accelerate progress in data-driven weather modeling. WeatherBench 2 consists of an open-source evaluation framework, publicly available training, ground truth and baseline data as well as a continuously updated website with the latest metrics and state-of-the-art models: https://sites.research.google/weatherbench. This paper describes the design principles of the evaluation framework and presents results for current state-of-the-art physical and data-driven weather models. The metrics are based on established practices for evaluating weather forecasts at leading operational weather centers. We define a set of headline scores to provide an overview of model performance. In addition, we also discuss caveats in the current evaluation setup and challenges for the future of data-driven weather forecasting.
翻訳日:2024-01-29 17:58:40 公開日:2024-01-26
# 単光雪崩検出器を用いた数状態再構成

Number-State Reconstruction with a Single Single-Photon Avalanche Detector ( http://arxiv.org/abs/2308.13603v2 )

ライセンス: Link先を確認
Patrick Banner, Deniz Kurdak, Yaxin Li, Alan Migdall, J. V. Porto, S. L. Rolston(参考訳) 単光子雪崩検出器(SPAD)は多くの分野や用途において重要な光センサーである。 しかし、彼らは光子数を解くことができないため、パルス中の光子数を測定するために、より複雑で高価な実験装置や装置を使用する必要がある。 本稿では1つのSPADのみを用いて光子数状態再構成を行う手法を提案する。 この手法は費用対効果が高く実装が容易であり、パラメーターが測定可能な検出器モデルを用いた最大形技術を用いている。 我々は、既知の入力パルスと、最大10ドルの光子とピーク入力光子数/秒までのコヒーレント状態の再構成との間に優れた一致を達成する。 検出器不完全性が小さい場合、検出器のデッドタイムあたり1光子以上である40Mcounts/s以上のピーク入力光子レートのコヒーレントパルスに対して良好な一致を維持する。 反束光では、再構成および独立に測定されたパルス平均値$g^{(2)}(0)$も互いに一致している。 我々のアルゴリズムは、パルス幅と相関時間スケールが少なくとも数個の検出器デッドタイムである光パルスに適用できる。 これらの結果は、単一の商用SPADで実現され、安価な数状態再構成法を提供し、単光子検出器の能力を拡大する。

Single-photon avalanche detectors (SPADs) are crucial sensors of light for many fields and applications. However, they are not able to resolve photon number, so typically more complex and more expensive experimental setups or devices must be used to measure the number of photons in a pulse. Here we present a methodology for performing photon number-state reconstruction with only one SPAD. The methodology, which is cost-effective and easy to implement, uses maximum-likelihood techniques with a detector model whose parameters are measurable. We achieve excellent agreement between known input pulses and their reconstructions for coherent states with up to $\approx 10$ photons and peak input photon rates up to several Mcounts/s. When detector imperfections are small, we maintain good agreement for coherent pulses with peak input photon rates of over 40 Mcounts/s, greater than one photon per detector dead time. For anti-bunched light, the reconstructed and independently measured pulse-averaged values of $g^{(2)}(0)$ are also consistent with one another. Our algorithm is applicable to light pulses whose pulse width and correlation timescales are both at least a few detector dead times. These results, achieved with single commercially available SPADs, provide an inexpensive number-state reconstruction method and expand the capabilities of single-photon detectors.
翻訳日:2024-01-29 17:58:23 公開日:2024-01-26
# FlexKBQA:Few-Shotナレッジベース質問応答のためのフレキシブルLLMベースのフレームワーク

FlexKBQA: A Flexible LLM-Powered Framework for Few-Shot Knowledge Base Question Answering ( http://arxiv.org/abs/2308.12060v3 )

ライセンス: Link先を確認
Zhenyu Li, Sunqi Fan, Yu Gu, Xiuxing Li, Zhichao Duan, Bowen Dong, Ning Liu, Jianyong Wang(参考訳) 知識ベース質問応答(KBQA)は,知識ベース内の多数のエンティティと,ユーザによる自然言語質問の多様性のため,重要かつ困難な課題である。 残念ながら、ほとんどのKBQAモデルの性能は、高品質な注釈付きデータが不十分な実世界のシナリオでは著しく低下する傾向にある。 手動のアノテーションに関連する負担を軽減するため,数発のKBQAタスクに固有の課題に対処するプログラムトランスレータとしてLarge Language Models (LLM)を活用することでFlexKBQAを導入する。 具体的には、FlexKBQAは自動化アルゴリズムを利用して、知識ベースからSPARQLクエリなどの多様なプログラムをサンプリングし、その後LLM経由で自然言語に変換する。 この合成データセットはKB専用の軽量モデルのトレーニングを容易にする。 さらに、合成データと実際のユーザ質問間の分散シフトの障壁を軽減するため、FlexKBQAはラベルなしユーザ質問を反復的に活用するための実行誘導型自己学習手法を導入している。 さらに,LLMの本質的推論能力を活用し,フレームワーク全体の拡張について検討する。 その結果、FlexKBQAは、データアノテーション、デプロイメント、ドメインに依存しない、かなりの柔軟性を提供します。 GrailQA、WebQSP、KQA Proに関する広範な実験を通して、より難易度の高いゼロショットシナリオでさえも、FlexKBQAは、いくつかのアノテーションで印象的な結果を達成し、以前のベースラインをすべて越え、教師付きモデルのパフォーマンスにアプローチし、完全に教師されたモデルと比較して93%のパフォーマンスを達成しています。 FlexKBQAは、大規模で軽量なモデルのより良い統合を探求するための大きな進歩であると考えています。 コードはオープンソースである。

Knowledge base question answering (KBQA) is a critical yet challenging task due to the vast number of entities within knowledge bases and the diversity of natural language questions posed by users. Unfortunately, the performance of most KBQA models tends to decline significantly in real-world scenarios where high-quality annotated data is insufficient. To mitigate the burden associated with manual annotation, we introduce FlexKBQA by utilizing Large Language Models (LLMs) as program translators for addressing the challenges inherent in the few-shot KBQA task. Specifically, FlexKBQA leverages automated algorithms to sample diverse programs, such as SPARQL queries, from the knowledge base, which are subsequently converted into natural language questions via LLMs. This synthetic dataset facilitates training a specialized lightweight model for the KB. Additionally, to reduce the barriers of distribution shift between synthetic data and real user questions, FlexKBQA introduces an executionguided self-training method to iterative leverage unlabeled user questions. Furthermore, we explore harnessing the inherent reasoning capability of LLMs to enhance the entire framework. Consequently, FlexKBQA delivers substantial flexibility, encompassing data annotation, deployment, and being domain agnostic. Through extensive experiments on GrailQA, WebQSP, and KQA Pro, we observe that under the few-shot even the more challenging zero-shot scenarios, FlexKBQA achieves impressive results with a few annotations, surpassing all previous baselines and even approaching the performance of supervised models, achieving a remarkable 93% performance relative to the fully-supervised models. We posit that FlexKBQA represents a significant advancement towards exploring better integration of large and lightweight models. The code is open-sourced.
翻訳日:2024-01-29 17:58:02 公開日:2024-01-26
# ディープニューラルネットワークの正規化経路計算のための多目的継続法

A multiobjective continuation method to compute the regularization path of deep neural networks ( http://arxiv.org/abs/2308.12044v4 )

ライセンス: Link先を確認
Augustina C. Amakor, Konstantin Sonntag and Sebastian Peitz(参考訳) 深層ニューラルネットワーク(dnn)では、数値効率の確保、モデルの解釈性の向上(関連する特徴の数が少ないことによる)、堅牢性が期待できる機能である。 線形モデルに基づく機械学習のアプローチでは、$\ell^1$ノルム、すなわちゼロウェイトと正規化パスと呼ばれる非正規化解との接続経路が存在することが知られている。 ごく最近になって、経験的損失とスパーシリティ($\ell^1$ norm)を2つの矛盾する基準として扱い、結果として生じる多目的最適化問題を解くことによって、正規化パスをDNNに拡張する最初の試みがあった。 しかし、$\ell^1$ のノルムの非滑らかさとパラメータの多さのため、このアプローチは計算の観点からはあまり効率的ではない。 この限界を克服するために,上述の目的に対してパレートフロント全体を非常に効率的な方法で近似できるアルゴリズムを提案する。 決定論的勾配と確率的勾配の両方を用いて数値例を示す。 さらに,正規化経路の知識がネットワークパラメトリゼーションを十分に一般化することを示す。

Sparsity is a highly desired feature in deep neural networks (DNNs) since it ensures numerical efficiency, improves the interpretability of models (due to the smaller number of relevant features), and robustness. In machine learning approaches based on linear models, it is well known that there exists a connecting path between the sparsest solution in terms of the $\ell^1$ norm,i.e., zero weights and the non-regularized solution, which is called the regularization path. Very recently, there was a first attempt to extend the concept of regularization paths to DNNs by means of treating the empirical loss and sparsity ($\ell^1$ norm) as two conflicting criteria and solving the resulting multiobjective optimization problem. However, due to the non-smoothness of the $\ell^1$ norm and the high number of parameters, this approach is not very efficient from a computational perspective. To overcome this limitation, we present an algorithm that allows for the approximation of the entire Pareto front for the above-mentioned objectives in a very efficient manner. We present numerical examples using both deterministic and stochastic gradients. We furthermore demonstrate that knowledge of the regularization path allows for a well-generalizing network parametrization.
翻訳日:2024-01-29 17:57:30 公開日:2024-01-26
# 連続体における非エルミート拡張中ギャップ状態と有界状態

Non-Hermitian extended midgap states and bound states in the continuum ( http://arxiv.org/abs/2310.18270v2 )

ライセンス: Link先を確認
Maria Zelenayova, Emil J. Bergholtz(参考訳) 一般化されたsu-schrieffer-heeger/rice-meleモデルのクラスを解き、その証明をトポロジー、対称性破砕、バイオロトゴナリティの基本概念に関連付けることで、非エルミート系における異常局在現象を調査した。 連続体には2つの境界状態のフレーバーがあり、どちらもキラル対称性がなくても安定である。 1つ目は、スペクトル巻数によって保護される皮膚のバルク状態である。 第2のフレーバーは、量子化された生体直交偏光に関連する境界モードによって構成される。 さらに,バルク臨界点におけるギャップに留まりながら非局在化する境界状態から生じる拡張状態も見いだす。 この状態は、局所(スキン)状態の連続体内でも非局在化することができる。 これらの結果は、トポロジーの基本的側面と、異常な非ハーミタンバルク境界対応に対する異なるアプローチの光の対称性を明らかにし、機械系、電気系、フォトニック系の直接的な実験的関連性である。

We investigate anomalous localization phenomena in non-Hermitian systems by solving a class of generalized Su-Schrieffer-Heeger/Rice-Mele models and by relating their provenance to fundamental notions of topology, symmetry-breaking and biorthogonality. We find two flavours of bound states in the continuum, both stable even in the absence of chiral symmetry. The first being skin bulk states which are protected by the spectral winding number. The second flavour is constituted by boundary modes associated with a quantized biorthogonal polarization. Furthermore, we find the extended state stemming from the boundary state that delocalizes while remaining in the gap at bulk critical points. This state may also delocalize within a continuum of localized (skin) states. These results clarify fundamental aspects of topology, and symmetry in the light of different approaches to the anomalous non-Hermitan bulk-boundary correspondence -- and are of direct experimental relevance for mechanical, electrical and photonic systems.
翻訳日:2024-01-29 17:50:31 公開日:2024-01-26
# CNR演算に基づく純量子近似最適化アルゴリズム

A Pure Quantum Approximate Optimization Algorithm Based on CNR Operation ( http://arxiv.org/abs/2310.17927v6 )

ライセンス: Link先を確認
Da You Lv and An Min Wang(参考訳) cnr(comparison and replacement)演算を導入することで,汎用量子近似最適化アルゴリズムを提案し,そのコア最適化機構を定量的に導出する。 このアルゴリズムは、CNR演算に基づいて、$p$レベルの配当構造に構築される。 近似最適化の品質は、$p$の増加によって向上する。 十分一般的な最適化問題に対して、アルゴリズムは期待通りに、非常に高い確率で近似最適解を作成できる。 さらに,本アルゴリズムが大規模問題に適用可能なスケーラブルであることを示す。 アルゴリズムはガウス重み付き2辺グラフとmax-2-xorの2つの最適化問題に適用し,2つの最適化問題の必要な量子ビット数が10である場合のアルゴリズム性能を詳細に示す。

By introducing the "comparison and replacement" (CNR) operation, we propose a general-purpose pure quantum approximate optimization algorithm and derive its core optimization mechanism quantitatively. The algorithm is constructed to a $p$-level divide-and-conquer structure based on the CNR operations. The quality of approximate optimization improves with the increase of $p$. For sufficiently general optimization problems, the algorithm can work and produce the near-optimal solutions as expected with considerably high probability. Moreover, we demonstrate that the algorithm is scalable to be applied to large size problems. Our algorithm is applied to two optimization problems with significantly different degeneracy, the Gaussian weighted 2-edge graph and MAX-2-XOR, and then we show the algorithm performance in detail when the required qubits number of the two optimization problems is 10.
翻訳日:2024-01-29 17:50:12 公開日:2024-01-26
# 孤立系の平衡に対する厳密な境界を用いた弱熱化と強熱化の連続遷移

Continuous Transition Between Weak and Strong Thermalization using Rigorous Bounds on Equilibration of Isolated Systems ( http://arxiv.org/abs/2310.13392v2 )

ライセンス: Link先を確認
Luis Fernando dos Prazeres and Thiago R. de Oliveira(参考訳) 孤立量子系の平衡に関する厳密な数学的上界の観点から,強熱・弱熱化理論を解析した。 弱い平衡は、初期状態の小さな有効次元が原因であると理解することができる。 さらに, ゆらぎ上の上限のスケーリングを解析した結果, 観測可能な揺らぎは, 弱熱化と強熱化の両方の系サイズで指数関数的に減少し, これら2つのレジーム間の鋭い遷移を示さないことを示した。

We analyze strong and weak thermalization regimes from a perspective of rigorous mathematical upper bounds on the equilibration of isolated quantum systems. We show that weak equilibration can be understood to be due to the small effective dimension of the initial state. Furthermore, analyzing the scaling of an upper bound on the fluctuations, we show that the observable fluctuations decay exponentially with the system size for both weak and strong thermalization indicating no sharp transitions between these two regimes.
翻訳日:2024-01-29 17:48:49 公開日:2024-01-26
# 大規模言語モデルを用いた製品属性値抽出

Product Attribute Value Extraction using Large Language Models ( http://arxiv.org/abs/2310.12537v2 )

ライセンス: Link先を確認
Alexander Brinkmann, Roee Shraga, Christian Bizer(参考訳) Eコマースプラットフォームは、ファセットされた製品検索や製品比較のような機能を実現するために、属性/バリューペアという形で構造化された製品記述に依存している。 しかし、これらのプラットフォーム上のベンダーは、タイトルとテキスト記述からなる非構造化の製品記述を提供することが多い。 このようなオファーを処理するために、Eコマースプラットフォームは、構造化されていない記述から属性/バリューペアを抽出する必要がある。 BERTのような事前学習言語モデル(PLM)に基づく最先端属性/値抽出手法は、2つの欠点に直面している 一 相当量のタスク特化訓練データを必要とする方法 (II) 微調整モデルには, トレーニングデータに含まれない属性値の一般化に問題がある。 我々は,大規模言語モデル(LLM)を既存の属性/値抽出法に代わる,より訓練的なデータ効率,堅牢な代替手段として活用する可能性を探る。 我々は,ゼロショットと少数ショットの両方のシナリオをカバーする,抽出対象のスキーマをllmに指示するための,異なるプロンプトテンプレートを提案する。 ゼロショットシナリオでは、ターゲット属性に関する情報を表現するためのテキストとJSONベースのアプローチが比較される。 トレーニングデータを用いたシナリオで、我々は調査する (i)例属性値の提供。 (ii)文脈内デモの選択 (iii)位置バイアスを防止するためのシャッフルセンシング、及び (4)LDMを微調整する。 プロンプトテンプレートは、GPT-3.5 や GPT-4 などのホスト LLM と組み合わせて評価され、Llama2 をベースとしたオープンソース LLM はローカルで実行できる。 86%の平均F1スコアは、属性名、属性記述、サンプル値、デモを組み合わせたシャッフルプロンプトのアンサンブルを使用してGPT-4に到達した。 同じトレーニングデータを与えられたこのプロンプト/モデルの組み合わせは、最高のPLMベースラインを平均6%F1で上回る。

E-commerce platforms rely on structured product descriptions, in the form of attribute/value pairs to enable features such as faceted product search and product comparison. However, vendors on these platforms often provide unstructured product descriptions consisting of a title and a textual description. To process such offers, e-commerce platforms must extract attribute/value pairs from the unstructured descriptions. State-of-the-art attribute/value extraction methods based on pre-trained language models (PLMs), such as BERT, face two drawbacks (i) the methods require significant amounts of task-specific training data and (ii) the fine-tuned models have problems to generalize to attribute values that were not part of the training data. We explore the potential of using large language models (LLMs) as a more training data-efficient and more robust alternative to existing attribute/value extraction methods. We propose different prompt templates for instructing LLMs about the target schema of the extraction, covering both zero-shot and few-shot scenarios. In the zero-shot scenario, textual and JSON-based approaches for representing information about the target attributes are compared. In the scenario with training data, we investigate (i) the provision of example attribute values, (ii) the selection of in-context demonstrations, (iii) shuffled ensembling to prevent position bias, and (iv) fine-tuning the LLM. The prompt templates are evaluated in combination with hosted LLMs, such as GPT-3.5 and GPT-4, and open-source LLMs based on Llama2 which can be run locally. The best average F1-score of 86% was reached by GPT-4 using an ensemble of shuffled prompts that combine attribute names, attribute descriptions, example values, and demonstrations. Given the same amount of training data, this prompt/model combination outperforms the best PLM baseline by an average of 6% F1.
翻訳日:2024-01-29 17:48:39 公開日:2024-01-26
# エッジ上におけるfmcwレーダのジェスチャー認識

Gesture Recognition for FMCW Radar on the Edge ( http://arxiv.org/abs/2310.08876v2 )

ライセンス: Link先を確認
Maximilian Strobel, Stephan Schoenfeldt, Jonas Daugalas(参考訳) 本稿では,60GHz帯周波数変調連続波レーダ(FMCW)に基づく軽量なジェスチャー認識システムを提案する。 ジェスチャーは5つの特徴の集合によって効率的に特徴付けられることを示すとともに,これらの特徴を抽出するスリムレーダ処理アルゴリズムを提案する。 従来のアプローチとは対照的に、レンジドップラー画像のような重い2D処理を回避し、代わりに早期のターゲット検出を実行する。 リカレントニューラルネットワーク(RNN)ベースのアーキテクチャは、これらの特徴を利用して、5つの異なるジェスチャーを共同で検出し、分類する。 提案システムでは、F1スコア98.4%の動作をホールトアウトテストデータセットで認識し、280kB以下のフラッシュメモリと120kBのRAMを必要とするArm Cortex-M4マイクロコントローラ上で動作し、75mWの電力を消費する。

This paper introduces a lightweight gesture recognition system based on 60 GHz frequency modulated continuous wave (FMCW) radar. We show that gestures can be characterized efficiently by a set of five features, and propose a slim radar processing algorithm to extract these features. In contrast to previous approaches, we avoid heavy 2D processing, i.e. range-Doppler imaging, and perform instead an early target detection - this allows us to port the system to fully embedded platforms with tight constraints on memory, compute and power consumption. A recurrent neural network (RNN) based architecture exploits these features to jointly detect and classify five different gestures. The proposed system recognizes gestures with an F1 score of 98.4% on our hold-out test dataset, it runs on an Arm Cortex-M4 microcontroller requiring less than 280 kB of flash memory, 120 kB of RAM, and consuming 75 mW of power.
翻訳日:2024-01-29 17:47:45 公開日:2024-01-26
# 安全な深層政策適応

Safe Deep Policy Adaptation ( http://arxiv.org/abs/2310.08602v2 )

ライセンス: Link先を確認
Wenli Xiao, Tairan He, John Dolan, Guanya Shi(参考訳) 自律性と人工知能の重要な目標は、自律ロボットが動的で不確実な環境で迅速に適応できるようにすることだ。 古典的な適応制御と安全制御は安定性と安全性の保証を提供するが、特定のシステムクラスに限定される。 対照的に、強化学習(RL)に基づく政策適応は、汎用性と一般化性を提供するが、安全性と堅牢性に挑戦する。 政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。 SafeDPAは、シミュレーションにおける適応ポリシーと動的モデルを共同で学習し、環境構成を予測する。 RLポリシー上の制御バリア関数(CBF)に基づく安全フィルタを導入し,実環境における安全性を確保する。 safedpaの理論的安全性保証を提供し,学習エラーや余分な摂動に対するsafedpaの堅牢性を示す。 1)古典的制御問題(逆振り子)、(2)シミュレーションベンチマーク(セーフティギム)、(3)現実のアジャイルロボティクスプラットフォーム(RC Car)に関する総合的な実験は、最先端のベースラインよりも安全性とタスクパフォーマンスの両方においてSafeDPAの優れた優位性を示す。 特にsafedpaは、実世界の実験で目に見えない混乱下で、ベースラインと比較して300%の安全性向上を達成している。

A critical goal of autonomy and artificial intelligence is enabling autonomous robots to rapidly adapt in dynamic and uncertain environments. Classic adaptive control and safe control provide stability and safety guarantees but are limited to specific system classes. In contrast, policy adaptation based on reinforcement learning (RL) offers versatility and generalizability but presents safety and robustness challenges. We propose SafeDPA, a novel RL and control framework that simultaneously tackles the problems of policy adaptation and safe reinforcement learning. SafeDPA jointly learns adaptive policy and dynamics models in simulation, predicts environment configurations, and fine-tunes dynamics models with few-shot real-world data. A safety filter based on the Control Barrier Function (CBF) on top of the RL policy is introduced to ensure safety during real-world deployment. We provide theoretical safety guarantees of SafeDPA and show the robustness of SafeDPA against learning errors and extra perturbations. Comprehensive experiments on (1) classic control problems (Inverted Pendulum), (2) simulation benchmarks (Safety Gym), and (3) a real-world agile robotics platform (RC Car) demonstrate great superiority of SafeDPA in both safety and task performance, over state-of-the-art baselines. Particularly, SafeDPA demonstrates notable generalizability, achieving a 300% increase in safety rate compared to the baselines, under unseen disturbances in real-world experiments.
翻訳日:2024-01-29 17:47:26 公開日:2024-01-26
# AI-ロボティクスにおけるセキュリティの考察 : 現状の方法,課題,機会の調査

Security Considerations in AI-Robotics: A Survey of Current Methods, Challenges, and Opportunities ( http://arxiv.org/abs/2310.08565v3 )

ライセンス: Link先を確認
Subash Neupane, Shaswata Mitra, Ivan A. Fernandez, Swayamjit Saha, Sudip Mittal, Jingdao Chen, Nisha Pillai, Shahram Rahimi(参考訳) ロボットと人工知能(AI)は、その誕生以来、巧妙に介入してきた。 今日では、ロボット掃除機から半自動走行車まで、AI-ロボティクスシステムは私たちの日常生活の不可欠な部分となっている。 これらのシステムは、知覚、ナビゲーション、計画、制御という3つの基本的なアーキテクチャ要素に基づいて構築されている。 しかし、ai-ロボティクスシステムの統合は私たちの生活の質を高めていますが、深刻な問題も指摘されています。 AIロボットシステムを構成する物理的なコンポーネント、アルゴリズム、データは悪意あるアクターによって悪用され、恐ろしい結果をもたらす可能性がある。 本稿では,AI-ロボティクスシステムにおけるセキュリティ問題への対処の必要性から,アタックサーフェス,倫理的・法的懸念,ヒューマンロボットインタラクション(HRI)セキュリティの3次元にわたる包括的調査と分類について述べる。 私たちの目標は、ユーザや開発者、その他のステークホルダに、これらの領域に関する総合的な理解を提供し、ai-ロボティクスシステム全体のセキュリティを強化することです。 まず、潜在的な攻撃面を調査し、防御戦略を緩和することから始める。 次に、依存関係や心理的影響などの倫理的問題や、これらのシステムに対する説明責任に関する法的懸念を掘り下げる。 さらに、プライバシー、完全性、安全性、信頼性、説明可能性に関する懸念など、HRIのような新たなトレンドも議論されている。 最後に、このダイナミックで有望な分野における今後の研究方向性の展望を示す。

Robotics and Artificial Intelligence (AI) have been inextricably intertwined since their inception. Today, AI-Robotics systems have become an integral part of our daily lives, from robotic vacuum cleaners to semi-autonomous cars. These systems are built upon three fundamental architectural elements: perception, navigation and planning, and control. However, while the integration of AI-Robotics systems has enhanced the quality our lives, it has also presented a serious problem - these systems are vulnerable to security attacks. The physical components, algorithms, and data that make up AI-Robotics systems can be exploited by malicious actors, potentially leading to dire consequences. Motivated by the need to address the security concerns in AI-Robotics systems, this paper presents a comprehensive survey and taxonomy across three dimensions: attack surfaces, ethical and legal concerns, and Human-Robot Interaction (HRI) security. Our goal is to provide users, developers and other stakeholders with a holistic understanding of these areas to enhance the overall AI-Robotics system security. We begin by surveying potential attack surfaces and provide mitigating defensive strategies. We then delve into ethical issues, such as dependency and psychological impact, as well as the legal concerns regarding accountability for these systems. Besides, emerging trends such as HRI are discussed, considering privacy, integrity, safety, trustworthiness, and explainability concerns. Finally, we present our vision for future research directions in this dynamic and promising field.
翻訳日:2024-01-29 17:47:00 公開日:2024-01-26
# ecoflap: 視覚言語モデルのための高効率粗粒度層間プルーニング

ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models ( http://arxiv.org/abs/2310.02998v2 )

ライセンス: Link先を確認
Yi-Lin Sung, Jaehong Yoon, Mohit Bansal(参考訳) LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界全体を包括的に理解し、様々なマルチモーダル下流タスクにおいて顕著な進歩を達成できる。 しかし、LVLMの展開は、計算/エネルギーのコストと炭素消費のためにしばしば問題となる。 このような問題は、スパシフィケーションモデル全体のヘッセン行列を計算するためにコストがかかる従来の反復的グローバルプルーニングを採用することができない。 あるいは、最近のいくつかの研究では、グローバルプルーニングの高価な計算を回避し、レイヤー内でのモデルの重みを効率よく圧縮するためのレイヤーワイズプルーニング手法が提案されている。 しかし、グローバルな視点が欠如しているため、しばしば準最適モデル圧縮に悩まされる。 本研究では,近年の大規模モデルの効率的な刈り取り手法において,この限界に対処するため,lvlmsの2段階粗削り方式であるecoflapを提案する。 まず,グローバルモデル勾配の0階次近似に基づいて効率よく計算されるグローバル重要度スコアを利用して,異なる層やブロックの疎度比を決定する。 そして,グローバルなインフォームド空間比に基づいて,局所的な非構造的重み付けを行う。 提案手法をマルチモーダルモデルとユニモーダルモデルとデータセットにまたがって検証し,高パリティ環境下でのプルーニング手法に対する性能改善を実証した。

Large Vision-Language Models (LVLMs) can understand the world comprehensively by integrating rich information from different modalities, achieving remarkable advancements on various multimodal downstream tasks. However, deploying LVLMs is often problematic due to their massive computational/energy costs and carbon consumption. Such issues make it infeasible to adopt conventional iterative global pruning, which is costly due to computing the Hessian matrix of the entire large model for sparsification. Alternatively, several studies have recently proposed layer-wise pruning approaches to avoid the expensive computation of global pruning and efficiently compress model weights according to their importance within a layer. However, they often suffer from suboptimal model compression due to their lack of a global perspective. To address this limitation in recent efficient pruning methods for large models, we propose Efficient Coarse-to-Fine LayerWise Pruning (ECoFLaP), a two-stage coarse-to-fine weight pruning approach for LVLMs. We first determine the sparsity ratios of different layers or blocks by leveraging the global importance score, which is efficiently computed based on the zeroth-order approximation of the global model gradients. Then, the model performs local layer-wise unstructured weight pruning based on globally-informed sparsity ratios. We validate our proposed method across various multimodal and unimodal models and datasets, demonstrating significant performance improvements over prevalent pruning techniques in the high-sparsity regime.
翻訳日:2024-01-29 17:46:19 公開日:2024-01-26
# MagicDrive: 横3次元形状制御によるストリートビュー生成

MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v5 )

ライセンス: Link先を確認
Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu(参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。 しかし、ストリートビュー生成における正確な3d制御は、3d知覚タスクに欠かせない。 特に、Bird's-Eye View (BEV) を一次条件として利用すると、特に3次元物体検出タスクにおいて、知覚データ合成に不可欠な物体形状、閉塞パターン、路面標高の表現に影響を及ぼす幾何学的制御(高さなど)の課題につながることが多い。 本稿では,カメラポーズ,道路地図,および3dバウンディングボックスを含む多様な3次元形状制御を行う新しいストリートビュー生成フレームワークであるmagicdriveを紹介する。 さらに、当社の設計にはクロスビューアテンションモジュールが組み込まれており、複数のカメラビュー間の一貫性を確保しています。 MagicDriveで高忠実なストリートビュー合成を実現し、ニュアンスな3D幾何学と様々なシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework offering diverse 3D geometry controls, including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.
翻訳日:2024-01-29 17:45:50 公開日:2024-01-26
# 非交換型コンフォーマルリスク制御

Non-Exchangeable Conformal Risk Control ( http://arxiv.org/abs/2310.01262v2 )

ライセンス: Link先を確認
Ant\'onio Farinhas, Chrysoula Zerva, Dennis Ulmer, Andr\'e F. T. Martins(参考訳) 分割共形予測は、ブラックボックスニューラルモデルによる予測に対して、公式に保証された不確実性セットや間隔を提供することで、実際の基底真理を包含する事前定義された確率を確保するために、最近大きな関心を集めている。 オリジナルの定式化はデータ交換可能性を想定しているが、いくつかの拡張は交換不能なデータを扱う。 平行して、最高の$F_1$-scoreのバウンドや期待値の偽陰率の最小化など、より幅広い目的に対する統計的保証を提供する共形法が進歩している。 本稿では,データ交換不能時の単調損失関数の期待値を制御できる非交換性共形リスク制御を提案することにより,これら2つの作業線を活用・拡張する。 私たちのフレームワークは柔軟性があり、仮定が極めて少なく、所定のテスト例の妥当性に基づいてデータを重み付けすることが可能です。 合成データと実世界データの両方を用いた実験により,本手法の有用性が示された。

Split conformal prediction has recently sparked great interest due to its ability to provide formally guaranteed uncertainty sets or intervals for predictions made by black-box neural models, ensuring a predefined probability of containing the actual ground truth. While the original formulation assumes data exchangeability, some extensions handle non-exchangeable data, which is often the case in many real-world scenarios. In parallel, some progress has been made in conformal methods that provide statistical guarantees for a broader range of objectives, such as bounding the best $F_1$-score or minimizing the false negative rate in expectation. In this paper, we leverage and extend these two lines of work by proposing non-exchangeable conformal risk control, which allows controlling the expected value of any monotone loss function when the data is not exchangeable. Our framework is flexible, makes very few assumptions, and allows weighting the data based on its relevance for a given test example; a careful choice of weights may result on tighter bounds, making our framework useful in the presence of change points, time series, or other forms of distribution drift. Experiments with both synthetic and real world data show the usefulness of our method.
翻訳日:2024-01-29 17:45:30 公開日:2024-01-26
# 深層ニューラルネットワークモデルによる黒皮膚病変の一般化可能性の検討

Assessing the Generalizability of Deep Neural Networks-Based Models for Black Skin Lesions ( http://arxiv.org/abs/2310.00517v2 )

ライセンス: Link先を確認
Luana Barros and Levy Chaves and Sandra Avila(参考訳) メラノーマは、転移を引き起こす能力があるため、最も重篤な皮膚がんである。 黒人の方が一般的で、しばしばヤシ、足裏、爪などアクリカルな地域に影響を与える。 ディープニューラルネットワークは、臨床治療と皮膚がんの診断を改善する大きな可能性を示している。 しかしながら、一般的な研究は主に白い肌の色調のデータセットに依存しており、様々な患者皮膚色調の診断結果の報告を怠っている。 本研究では,黒人によく見られる頭蓋領域から抽出された皮膚病変画像における教師付きおよび自己教師付きモデルを評価する。 また,皮膚病変を含むデータセットを精査し,Fitzpatrickスケールに関するデータセットを評価し,黒色皮膚のパフォーマンスを検証した。 以上の結果から,これらのモデルの一般性が低く,白色皮膚病変に対して良好な成績が得られた。 専門的なモデルの開発を必要とする多様なデータセットの作成は受け入れがたい。 ディープニューラルネットワークは、特に皮膚科に限られた人口にとって、診断を改善する大きな可能性を秘めている。 しかし、これらの集団が包括的技術の恩恵を受けるためには、黒い皮膚病変を含む必要がある。

Melanoma is the most severe type of skin cancer due to its ability to cause metastasis. It is more common in black people, often affecting acral regions: palms, soles, and nails. Deep neural networks have shown tremendous potential for improving clinical care and skin cancer diagnosis. Nevertheless, prevailing studies predominantly rely on datasets of white skin tones, neglecting to report diagnostic outcomes for diverse patient skin tones. In this work, we evaluate supervised and self-supervised models in skin lesion images extracted from acral regions commonly observed in black individuals. Also, we carefully curate a dataset containing skin lesions in acral regions and assess the datasets concerning the Fitzpatrick scale to verify performance on black skin. Our results expose the poor generalizability of these models, revealing their favorable performance for lesions on white skin. Neglecting to create diverse datasets, which necessitates the development of specialized models, is unacceptable. Deep neural networks have great potential to improve diagnosis, particularly for populations with limited access to dermatology. However, including black skin lesions is necessary to ensure these populations can access the benefits of inclusive technology.
翻訳日:2024-01-29 17:45:08 公開日:2024-01-26
# 大規模言語モデル(llm)のセキュリティとプライバシに関する調査

A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly ( http://arxiv.org/abs/2312.02003v2 )

ライセンス: Link先を確認
Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun and Yue Zhang(参考訳) chatgptやbardといった大規模言語モデル(llm)は、自然言語理解と生成に革命をもたらした。 それらは、深い言語理解、人間に似たテキスト生成能力、文脈認識、堅牢な問題解決スキルを持ち、様々な領域(検索エンジン、カスタマーサポート、翻訳など)で有用である。 一方、LLMはセキュリティコミュニティでも注目を集めており、セキュリティ上の脆弱性を明らかにし、セキュリティ関連のタスクにおけるその可能性を示している。 本稿では,LLMとセキュリティとプライバシの交わりについて考察する。 具体的には、LSMがセキュリティとプライバシ、それらの使用に関連する潜在的なリスクと脅威、およびLSM内の固有の脆弱性にどう影響するかを検討する。 この論文は包括的な文献レビューを通じて、論文を「善(the good)」、「悪(the bad)」、「悪(the ugly)」(llmとその防御)に分類している。 興味深い発見があります 例えば、LLMはコードセキュリティ(コードの脆弱性検出)とデータプライバシ(データの機密性保護)を強化し、従来の方法よりも優れています。 しかし、人間のような推論能力により、様々な攻撃(特にユーザーレベルの攻撃)にも利用できる。 我々はさらなる研究を必要とする分野を特定した。 例えば、モデルとパラメータ抽出攻撃の研究は、LLMパラメータスケールと機密性によって制限され、しばしば理論的に妨げられる。 最近の開発であるセーフインストラクションチューニングは、さらなる探索を必要とする。 LLMがサイバーセキュリティを強化し、危険に晒す可能性に光を当てられることを願っています。

Large Language Models (LLMs), such as ChatGPT and Bard, have revolutionized natural language understanding and generation. They possess deep language comprehension, human-like text generation capabilities, contextual awareness, and robust problem-solving skills, making them invaluable in various domains (e.g., search engines, customer support, translation). In the meantime, LLMs have also gained traction in the security community, revealing security vulnerabilities and showcasing their potential in security-related tasks. This paper explores the intersection of LLMs with security and privacy. Specifically, we investigate how LLMs positively impact security and privacy, potential risks and threats associated with their use, and inherent vulnerabilities within LLMs. Through a comprehensive literature review, the paper categorizes the papers into "The Good" (beneficial LLM applications), "The Bad" (offensive applications), and "The Ugly" (vulnerabilities of LLMs and their defenses). We have some interesting findings. For example, LLMs have proven to enhance code security (code vulnerability detection) and data privacy (data confidentiality protection), outperforming traditional methods. However, they can also be harnessed for various attacks (particularly user-level attacks) due to their human-like reasoning abilities. We have identified areas that require further research efforts. For example, Research on model and parameter extraction attacks is limited and often theoretical, hindered by LLM parameter scale and confidentiality. Safe instruction tuning, a recent development, requires more exploration. We hope that our work can shed light on the LLMs' potential to both bolster and jeopardize cybersecurity.
翻訳日:2024-01-29 17:38:41 公開日:2024-01-26
# ArabIcros:AIを利用した教育用クロスワードパズル生成

ArabIcros: AI-Powered Arabic Crossword Puzzle Generation for Educational Applications ( http://arxiv.org/abs/2312.01339v4 )

ライセンス: Link先を確認
Kamyar Zeinalipour, Mohamed Zaky Saad, Marco Maggini, Marco Gori(参考訳) 先進的なAI技術によって駆動される最初のアラビア語クロスワードパズル生成器を提案する。 GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, BERTといった最先端の大規模言語モデルを活用すると、システムは独特で困難な手がかりを生成する。 5万以上のヒントと回答のペアからなるデータセットに基づいて、ジェネレータは、微調整、少数/ゼロショットの学習戦略、厳格な品質チェックプロトコルを使用して、高品質のヒントと回答のペアを生成する。 重要なのは、教育クロスワードは記憶の強化、語彙の拡張、問題解決スキルの促進に寄与し、楽しみと魅力的なアプローチを通じて学習体験を増強し、伝統的な学習方法の展望を再構築する。 システム全体は、AIと革新的な学習技術を融合させる強力な教育ツールとして利用でき、アラビア語のクロスワードパズルと技術と教育の交わる時代の転換を告げる。

This paper presents the first Arabic crossword puzzle generator driven by advanced AI technology. Leveraging cutting-edge large language models including GPT4, GPT3-Davinci, GPT3-Curie, GPT3-Babbage, GPT3-Ada, and BERT, the system generates distinctive and challenging clues. Based on a dataset comprising over 50,000 clue-answer pairs, the generator employs fine-tuning, few/zero-shot learning strategies, and rigorous quality-checking protocols to enforce the generation of high-quality clue-answer pairs. Importantly, educational crosswords contribute to enhancing memory, expanding vocabulary, and promoting problem-solving skills, thereby augmenting the learning experience through a fun and engaging approach, reshaping the landscape of traditional learning methods. The overall system can be exploited as a powerful educational tool that amalgamates AI and innovative learning techniques, heralding a transformative era for Arabic crossword puzzles and the intersection of technology and education.
翻訳日:2024-01-29 17:38:14 公開日:2024-01-26
# 知識誘導予測アーキテクチャによるSAR ATRの自己教師付き学習

Self-Supervised Learning for SAR ATR with a Knowledge-Guided Predictive Architecture ( http://arxiv.org/abs/2311.15153v2 )

ライセンス: Link先を確認
Weijie Li, Yang Wei, Tianpeng Liu, Yuenan Hou, Yongxiang Liu, Li Liu(参考訳) 近年,SAR(Synthetic Aperture Radar)センサやターゲットデータセットの出現により,下流タスクを自己教師付き学習技術と一体化することが可能となり,SAR目標認識分野における基礎モデル構築の道を開いた。 sar目標認識のための自己教師あり学習の主な課題は、低データ品質と雑音における一般化された表現学習であり、上記の問題に対処するために、局所マスクパッチを用いた知識誘導型予測アーキテクチャを提案する。 提案アーキテクチャの中核は、従来のSARドメインの特徴抽出と最先端のスケーラブルな自己教師付き学習を組み合わせることで、正確な一般化された特徴表現を実現することである。 提案フレームワークは、様々な下流データセット(MSTAR、FUSAR-Ship、SAR-ACD、SSDD)で検証され、SARターゲット認識に一貫したパフォーマンス改善をもたらすことができる。 実験結果は,SAR目標認識のための自己教師付き学習手法の多種多様な目標,シーン,センサに対する統一的な性能向上を強く実証した。

Recently, the emergence of a large number of Synthetic Aperture Radar (SAR) sensors and target datasets has made it possible to unify downstream tasks with self-supervised learning techniques, which can pave the way for building the foundation model in the SAR target recognition field. The major challenge of self-supervised learning for SAR target recognition lies in the generalizable representation learning in low data quality and noise.To address the aforementioned problem, we propose a knowledge-guided predictive architecture that uses local masked patches to predict the multiscale SAR feature representations of unseen context. The core of the proposed architecture lies in combining traditional SAR domain feature extraction with state-of-the-art scalable self-supervised learning for accurate generalized feature representations. The proposed framework is validated on various downstream datasets (MSTAR, FUSAR-Ship, SAR-ACD and SSDD), and can bring consistent performance improvement for SAR target recognition. The experimental results strongly demonstrate the unified performance improvement of the self-supervised learning technique for SAR target recognition across diverse targets, scenes and sensors.
翻訳日:2024-01-29 17:37:54 公開日:2024-01-26
# 次世代地球システムモデル:気象・気候応用のための信頼性のあるハイブリッドモデルを目指して

Next-Generation Earth System Models: Towards Reliable Hybrid Models for Weather and Climate Applications ( http://arxiv.org/abs/2311.13691v2 )

ライセンス: Link先を確認
Tom Beucler, Erwan Koch, Sven Kotlarski, David Leutwyler, Adrien Michel, Jonathan Koh(参考訳) 我々は、機械学習が地球システムをモデル化する能力をいかに変えたか、そして近い将来スイスのエンドユーザーにとって、最近のブレークスルーがいかに利益をもたらすかをレビューする。 レビューから3つの推奨事項を特定します。 推奨1: ハイブリッドAI物理モデルの開発: 信頼性を改善するために、AIと物理モデリングの統合を強調する。 推奨2: AIダウンスケーリングアプローチにおけるロバスト性を強調し、物理法則を尊重し、変数間の依存関係と空間構造を保存し、局所スケールでの極端な表現を正確に行うテクニックを推奨する。 推奨3: 包括的モデル開発を促進する: 地球システムモデルの開発が多様な利害関係者に開放され、予測者、一般人、ai/統計の専門家がモデルとその予測/予測に使用、開発、関与できるようにする。

We review how machine learning has transformed our ability to model the Earth system, and how we expect recent breakthroughs to benefit end-users in Switzerland in the near future. Drawing from our review, we identify three recommendations. Recommendation 1: Develop Hybrid AI-Physical Models: Emphasize the integration of AI and physical modeling for improved reliability, especially for longer prediction horizons, acknowledging the delicate balance between knowledge-based and data-driven components required for optimal performance. Recommendation 2: Emphasize Robustness in AI Downscaling Approaches, favoring techniques that respect physical laws, preserve inter-variable dependencies and spatial structures, and accurately represent extremes at the local scale. Recommendation 3: Promote Inclusive Model Development: Ensure Earth System Model development is open and accessible to diverse stakeholders, enabling forecasters, the public, and AI/statistics experts to use, develop, and engage with the model and its predictions/projections.
翻訳日:2024-01-29 17:37:09 公開日:2024-01-26
# CASR:Marginalizing Frame-levle Causal Relationsによる動作分割

CASR: Refining Action Segmentation via Marginalizing Frame-levle Causal Relationships ( http://arxiv.org/abs/2311.12401v4 )

ライセンス: Link先を確認
Keqing Du, Xinyu Yang, Hang Chen(参考訳) 深層学習と因果発見を統合することで、時間行動セグメンテーション(TAS)タスクの解釈可能性が高まった。 しかし、フレームレベルの因果関係はセグメントレベルの外側に多くの複雑なノイズが存在するため、マクロアクションセマンティクスを直接表現することは不可能である。 そこで本研究では,フレームレベルのカジュアルな関係を疎外する際のビデオ因果性を高め,様々なモデルからTAS結果を洗練できるCausal Abstraction Segmentation Refiner (CASR)を提案する。 具体的には、等価なフレームレベルのカジュアルモデルとセグメントレベルの因果モデルを定義し、辺限化されたフレームレベルの因果関係から構築された因果隣接行列は、sgmnetレベルの因果関係を表現する能力を持つ。 CASRは, 後骨モデルと後骨モデルとの因果親和性行列の差を小さくすることで機能する。 また,因果解釈可能性を評価するために,新しい評価基準因果編集距離(ced)を提案する。 主要なデータセットに対する大規模な実験結果から,CASRは動作セグメンテーション性能や因果説明可能性,一般化において,既存の様々な手法を大幅に上回っていることが示唆された。

Integrating deep learning and causal discovery has increased the interpretability of Temporal Action Segmentation (TAS) tasks. However, frame-level causal relationships exist many complicated noises outside the segment-level, making it infeasible to directly express macro action semantics. Thus, we propose Causal Abstraction Segmentation Refiner (CASR), which can refine TAS results from various models by enhancing video causality in marginalizing frame-level casual relationships. Specifically, we define the equivalent frame-level casual model and segment-level causal model, so that the causal adjacency matrix constructed from marginalized frame-level causal relationships has the ability to represent the segmnet-level causal relationships. CASR works out by reducing the difference in the causal adjacency matrix between we constructed and pre-segmentation results of backbone models. In addition, we propose a novel evaluation metric Causal Edit Distance (CED) to evaluate the causal interpretability. Extensive experimental results on mainstream datasets indicate that CASR significantly surpasses existing various methods in action segmentation performance, as well as in causal explainability and generalization.
翻訳日:2024-01-29 17:36:51 公開日:2024-01-26
# 生成aiを活用した臨床エビデンス要約による信頼性の確保

Leveraging Generative AI for Clinical Evidence Summarization Needs to Ensure Trustworthiness ( http://arxiv.org/abs/2311.11211v2 )

ライセンス: Link先を確認
Gongbo Zhang, Qiao Jin, Denis Jered McInerney, Yong Chen, Fei Wang, Curtis L. Cole, Qian Yang, Yanshan Wang, Bradley A. Malin, Mor Peleg, Byron C. Wallace, Zhiyong Lu, Chunhua Weng, Yifan Peng(参考訳) エビデンスベースの医療は、医療の判断と実践を最良の証拠で力づけることで、医療の質を向上させることを約束している。 様々な情報源から得ることができる医学的証拠の急速な成長は、明らかな情報の収集、評価、合成に挑戦する。 大規模言語モデルによって実証された、生成AIの最近の進歩は、困難な作業の促進を約束する。 しかし、説明責任、公平、包括的モデルの開発は依然として複雑な作業である。 この観点から、医療証拠の自動要約の文脈において、生成AIの信頼性について論じる。

Evidence-based medicine promises to improve the quality of healthcare by empowering medical decisions and practices with the best available evidence. The rapid growth of medical evidence, which can be obtained from various sources, poses a challenge in collecting, appraising, and synthesizing the evidential information. Recent advancements in generative AI, exemplified by large language models, hold promise in facilitating the arduous task. However, developing accountable, fair, and inclusive models remains a complicated undertaking. In this perspective, we discuss the trustworthiness of generative AI in the context of automated summarization of medical evidence.
翻訳日:2024-01-29 17:36:26 公開日:2024-01-26
# ウォルシュパルスシーケンスによるスピン系におけるロバスト普遍量子プロセッサ

Robust universal quantum processors in spin systems via Walsh pulse sequences ( http://arxiv.org/abs/2311.10600v2 )

ライセンス: Link先を確認
Matteo Votto, Johannes Zeiher, Beno\^it Vermersch(参考訳) 長距離相互作用を持つスピン系における量子シミュレーションと計算を実現するプロトコルを提案する。 我々のアプローチは、ウォルシュ関数によってパラメトリケートされた外部場を持つ単一スピンの局所アドレッシングに依存する。 これにより、相互作用のグラフ構造によって定義される対象ハミルトニアンのクラスからパルスシーケンスへのマッピングが可能になる。 次に、任意の2体ハミルトンおよび普遍量子回路を実装するためのレシピを得る。 性能保証は、トロッター誤差とパルスの総数の境界で提供される。 さらに、ウォルシュパルスシーケンスは、従来の量子計算のハイブリッドデジタルアナログスキームとは対照的に、様々な種類のパルスエラーに対して堅牢であることが示されている。 我々はスピンモデルのダイナミクス、量子誤差補正、量子最適化アルゴリズムの例を用いて、プロトコルを実証し、数値的にベンチマークする。

We propose a protocol to realize quantum simulation and computation in spin systems with long-range interactions. Our approach relies on the local addressing of single spins with external fields parametrized by Walsh functions. This enables a mapping from a class of target Hamiltonians, defined by the graph structure of their interactions, to pulse sequences. We then obtain a recipe to implement arbitrary two-body Hamiltonians and universal quantum circuits. Performance guarantees are provided in terms of bounds on Trotter errors and total number of pulses. Additionally, Walsh pulse sequences are shown to be robust against various types of pulse errors, in contrast to previous hybrid digital-analog schemes of quantum computation. We demonstrate and numerically benchmark our protocol with examples from the dynamics of spin models, quantum error correction and quantum optimization algorithms.
翻訳日:2024-01-29 17:36:16 公開日:2024-01-26
# コミュニケーションに制約のあるベイズアクティブ知識蒸留

Communication-Constrained Bayesian Active Knowledge Distillation ( http://arxiv.org/abs/2311.08053v2 )

ライセンス: Link先を確認
Victor Croisfelt, Shashi Raj Pandey, Osvaldo Simeone and Petar Popovski(参考訳) 従来の再送(arq)プロトコルは、受信機における個々の送信機のパケットの正しい受信を保証するために設計されている。 送信者が教師と通信する学習者である場合、この目標は、教師から最も関連性の高いラベル情報を抽出する学習者の実際の目的と相反する。 アクティブな学習の観点から、本稿は以下の重要なプロトコル設計問題に対処する。 (i)アクティブバッチ選択:最も有用な情報を取得し、必要な通信ラウンドの数を減らすために、どの入力を教師に送るべきか。 (ii)バッチエンコーディング:各通信ラウンドに必要な通信リソースを減らすために、データポイントのバッチを組み合わせることができるか? 具体的には,線形混合機構によりベイズアクティブラーニングと圧縮を統合した新しいプロトコルであるcc-bakd(com communication-constrained bayesian active knowledge distillation)を導入する。 既存のアクティブラーニングプロトコルとの比較は,提案手法の利点を示している。

Conventional retransmission (ARQ) protocols are designed with the goal of ensuring the correct reception of all the individual transmitter's packets at the receiver. When the transmitter is a learner communicating with a teacher, this goal is at odds with the actual aim of the learner, which is that of eliciting the most relevant label information from the teacher. Taking an active learning perspective, this paper addresses the following key protocol design questions: (i) Active batch selection: Which batch of inputs should be sent to the teacher to acquire the most useful information and thus reduce the number of required communication rounds? (ii) Batch encoding: Can batches of data points be combined to reduce the communication resources required at each communication round? Specifically, this work introduces Communication-Constrained Bayesian Active Knowledge Distillation (CC-BAKD), a novel protocol that integrates Bayesian active learning with compression via a linear mix-up mechanism. Comparisons with existing active learning protocols demonstrate the advantages of the proposed approach.
翻訳日:2024-01-29 17:36:04 公開日:2024-01-26
# 異種冷間結合原子配列における原子励起トラップ

Atomic excitation trapping in dissimilar chirally-coupled atomic arrays ( http://arxiv.org/abs/2311.05906v2 )

ライセンス: Link先を確認
I Gusti Ngurah Yudi Handayana, Chun-Chi Wu, Sumit Goswami, Ying-Cheng Chen, H. H. Jen(参考訳) 1次元のナノフォトニック導波管に結合された原子配列は、光子を介する双極子-双極子相互作用と非相互減衰チャネルを許容する。 この原子導波路量子システムにおいて、原子励起ダイナミクスとその輸送特性、特に粒子間距離が異なる異種原子配列の界面について理論的に研究する。 原子励起ダイナミクスは異種配列の粒子間距離と非相反結合の方向性に大きく依存していることがわかった。 これらのパラメータをチューニングすることで、単一の励起ケースの配列のインターフェイスにおいて支配的な励起反射が得られる。 さらに、外部駆動の輸送特性と複数の原子上の単一励起非局在化に対する2つの効果について検討し、輸送特性を決定する際、多点励起と相対位相との相互作用を明らかにした。 最後に、異なる配列の複数のゾーンを設計することで、原子励起の興味深いトラップ効果を示す。 単一励起と同様に、複数の励起は配列界面から反射され、捕捉されるが、多くの励起の完全なトラップは、より高速な結合崩壊速度のため、長い時間で比較的困難である。 この結果から, 量子情報処理に有用な量子レジスタの精細化と制御に関する非平衡量子力学の知見が得られる。

Atomic array coupled to a one-dimensional nanophotonic waveguide allows photon-mediated dipole-dipole interactions and nonreciprocal decay channels, which hosts many intriguing quantum phenomena owing to its distinctive and emergent quantum correlations. In this atom-waveguide quantum system, we theoretically investigate the atomic excitation dynamics and its transport property, specifically at an interface of dissimilar atomic arrays with different interparticle distances. We find that the atomic excitation dynamics hugely depends on the interparticle distances of dissimilar arrays and the directionality of nonreciprocal couplings. By tuning these parameters, a dominant excitation reflection can be achieved at the interface of the arrays in the single excitation case. We further study two effects on the transport property-of external drive and of single excitation delocalization over multiple atoms, where we manifest a rich interplay between multi-site excitation and the relative phase in determining the transport properties. Finally, we present an intriguing trapping effect of atomic excitation by designing multiple zones of dissimilar arrays. Similar to the single excitations, multiple excitations are reflected from the array interfaces and trapped as well, although complete trapping of many excitations together is relatively challenging at long time due to a faster combined decay rate. Our results can provide insights to nonequilibrium quantum dynamics in dissimilar arrays and shed light on confining and controlling quantum registers useful for quantum information processing.
翻訳日:2024-01-29 17:35:48 公開日:2024-01-26
# 離散時間量子ウォークを含む量子メトロロジーにおける資源としてのコイン次元

Coin dimensionality as a resource in quantum metrology involving discrete-time quantum walks ( http://arxiv.org/abs/2311.00171v2 )

ライセンス: Link先を確認
Simone Cavazzoni, Luca Razzoli, Giovanni Ragazzi, Paolo Bordone, Matteo G. A. Paris(参考訳) 離散時間量子ウォーカの内部自由度で興味のパラメータが符号化されるような気象問題に対処し、コインの寸法が精度を高めるための潜在的資源であることを示す。 特に,コインパラメータが所定の軸まわりの回転を支配している推定問題を考察し,対応する量子フィッシャー情報(QFI)がコインの寸法に応じて増加することを示す。 歩行者の最適な初期状態を決定し、QFIを最大化し、歩行者の位置のみを測定することにより精度の向上が達成できるかどうかを議論する。 最後に,このパラメータのグローバー符号化を考察し,回転エンコーディングの結果と比較する。

We address metrological problems where the parameter of interest is encoded in the internal degree of freedom of a discrete-time quantum walker, and provide evidence that coin dimensionality is a potential resource to enhance precision. In particular, we consider estimation problems where the coin parameter governs rotations around a given axis and show that the corresponding quantum Fisher information (QFI) may increase with the dimension of the coin. We determine the optimal initial state of the walker to maximize the QFI and discuss whether, and to which extent, precision enhancement may be achieved by measuring only the position of the walker. Finally, we consider Grover-like encoding of the parameter and compare results with those obtained from rotation encoding.
翻訳日:2024-01-29 17:35:25 公開日:2024-01-26
# ViR: 効率的なビジョン保持バックボーンを目指して

ViR: Towards Efficient Vision Retention Backbones ( http://arxiv.org/abs/2310.19731v2 )

ライセンス: Link先を確認
Ali Hatamizadeh, Michael Ranzinger, Shiyi Lan, Jose M. Alvarez, Sanja Fidler, Jan Kautz(参考訳) 視覚変換器(ViT)は、長距離空間依存のモデリングや大規模トレーニングのスケーラビリティに特有な能力を持つため、近年、多くの人気を集めている。 自己注意機構の訓練並列性は、優れた性能を維持する上で重要な役割を果たすが、その二次的な複雑さは、高速な推論を必要とする多くのシナリオにおけるViTの適用を妨げている。 この効果は、入力特徴の自動回帰モデリングを必要とするアプリケーションにおいてさらに顕著である。 自然言語処理(nlp)において、新しい取り組みのストリームは、生成アプリケーションにおいて効率的な推論を可能にする再帰的定式化を伴う並列化モデルを提案している。 そこで本研究では,この傾向に触発されたビジョン保持ネットワーク(vir)と呼ばれる新しいコンピュータビジョンモデルを提案する。 特に、ViRは、大きなシーケンス長を処理する際の柔軟な定式化のため、高解像度の画像を必要とするタスクにおいて、画像スループットとメモリ消費に好適にスケールする。 ViRは、認識タスクのための一般的なビジョンバックボーンにおいて、並列性と繰り返しの等価性を実現する最初の試みである。 異なるデータセットサイズと様々な画像解像度を用いた広範囲な実験により、ViRの有効性を検証し、競争性能を達成した。 コード:https://github.com/NVlabs/ViR

Vision Transformers (ViTs) have attracted a lot of popularity in recent years, due to their exceptional capabilities in modeling long-range spatial dependencies and scalability for large scale training. Although the training parallelism of self-attention mechanism plays an important role in retaining great performance, its quadratic complexity baffles the application of ViTs in many scenarios which demand fast inference. This effect is even more pronounced in applications in which autoregressive modeling of input features is required. In Natural Language Processing (NLP), a new stream of efforts has proposed parallelizable models with recurrent formulation that allows for efficient inference in generative applications. Inspired by this trend, we propose a new class of computer vision models, dubbed Vision Retention Networks (ViR), with dual parallel and recurrent formulations, which strike an optimal balance between fast inference and parallel training with competitive performance. In particular, ViR scales favorably for image throughput and memory consumption in tasks that require higher-resolution images due to its flexible formulation in processing large sequence lengths. The ViR is the first attempt to realize dual parallel and recurrent equivalency in a general vision backbone for recognition tasks. We have validated the effectiveness of ViR through extensive experiments with different dataset sizes and various image resolutions and achieved competitive performance. Code: https://github.com/NVlabs/ViR
翻訳日:2024-01-29 17:35:13 公開日:2024-01-26
# パーソナライズド蒸留:コード生成のための適応学習によるオープンソースLLMの活用

Personalised Distillation: Empowering Open-Sourced LLMs with Adaptive Learning for Code Generation ( http://arxiv.org/abs/2310.18628v2 )

ライセンス: Link先を確認
Hailin Chen, Amrita Saha, Steven Hoi, Shafiq Joty(参考訳) 強力なオープンソース LLM (ChatGPT, GPT-4) の出現に伴い, オープンソース LLM のキャパビエをより小さな LLM に蒸留することへの関心が高まっている。 従来の蒸留法は通常、ChatGPTが生徒モデルが学ぶための一連の指示と答えを生成するように促す。 しかし、このような標準的な蒸留法は学生モデルの利点や条件を無視している。 近代的指導原理に触発されて, 学生が最初に課題を解決しようとする個人化蒸留プロセスを設計し, 教師は生徒が改善するための適応的改良を提供する。 教師の事前の指導を受ける代わりに、個人化された蒸留は生徒のモデルに対する個人的学習を可能にする。 コード生成では、パーソナライズド蒸留は、データの3分の1しか標準蒸留に勝っていない。 データ収集コストを4~6ドルとする2.5~3kの個人化例で、codegen-mono-16bを7%増やして36.4%pass@1、starcoderを12.2%増やし、humanevalで45.8%pass@1になります。

With the rise of powerful closed-sourced LLMs (ChatGPT, GPT-4), there are increasing interests in distilling the capabilies of close-sourced LLMs to smaller open-sourced LLMs. Previous distillation methods usually prompt ChatGPT to generate a set of instructions and answers, for the student model to learn. However, such standard distillation approach neglects the merits and conditions of the student model. Inspired by modern teaching principles, we design a personalised distillation process, in which the student attempts to solve a task first, then the teacher provides an adaptive refinement for the student to improve. Instead of feeding the student with teacher's prior, personalised distillation enables personalised learning for the student model, as it only learns on examples it makes mistakes upon and learns to improve its own solution. On code generation, personalised distillation consistently outperforms standard distillation with only one third of the data. With only 2.5-3K personalised examples that incur a data-collection cost of 4-6$, we boost CodeGen-mono-16B by 7% to achieve 36.4% pass@1 and StarCoder by 12.2% to achieve 45.8% pass@1 on HumanEval.
翻訳日:2024-01-29 17:34:52 公開日:2024-01-26
# G-同変ネットワークにおけるロバストG-不変性の一般的な枠組み

A General Framework for Robust G-Invariance in G-Equivariant Networks ( http://arxiv.org/abs/2310.18564v2 )

ライセンス: Link先を確認
Sophia Sanborn, Nina Miolane(参考訳) 本稿では,グループ同変畳み込みニューラルネットワーク(G$-CNNs)におけるロバストなグループ不変性を実現するための一般的な手法を紹介し,これをG$-三重相関(G$-TC)層と呼ぶ。 このアプローチは群上の三重相関の理論を利用しており、これも完備である唯一の低次多項式不変写像である。 多くのよく使われる不変写像、例えば最大写像は不完全であり、グループ構造と信号構造の両方を取り除いている。 対照的に、完全な不変量は、信号の構造に関する全ての情報を保存しながら、グループの作用による変動のみを除去する。 三重相関の完全性は、分散ベースの逆攻撃に対する耐性において観察できる、強い堅牢性を持つ$g$-tc層を内包する。 さらに,標準的なMax$G$-Poolingを$G$-CNNアーキテクチャで比較すると,分類精度が向上することがわかった。 任意の離散群に対して、その群の積構造を定義するテーブルのみを必要とする汎用的かつ効率的な実装を提供する。 可換群と非可換群の両方で定義される$g$-cnns--$so(2)$, $o(2)$, $so(3)$, $o(3)$, and $o(3)$ (循環$c8$, dihedral $d16$, chiral octahedral $o$, full octahedral $o_h$ groups)---$\mathbb{r}^2$, $\mathbb{r}^3$-$g$-mnist と $g$-modelnet10データセットの両方に作用する。

We introduce a general method for achieving robust group-invariance in group-equivariant convolutional neural networks ($G$-CNNs), which we call the $G$-triple-correlation ($G$-TC) layer. The approach leverages the theory of the triple-correlation on groups, which is the unique, lowest-degree polynomial invariant map that is also complete. Many commonly used invariant maps--such as the max--are incomplete: they remove both group and signal structure. A complete invariant, by contrast, removes only the variation due to the actions of the group, while preserving all information about the structure of the signal. The completeness of the triple correlation endows the $G$-TC layer with strong robustness, which can be observed in its resistance to invariance-based adversarial attacks. In addition, we observe that it yields measurable improvements in classification accuracy over standard Max $G$-Pooling in $G$-CNN architectures. We provide a general and efficient implementation of the method for any discretized group, which requires only a table defining the group's product structure. We demonstrate the benefits of this method for $G$-CNNs defined on both commutative and non-commutative groups--$SO(2)$, $O(2)$, $SO(3)$, and $O(3)$ (discretized as the cyclic $C8$, dihedral $D16$, chiral octahedral $O$ and full octahedral $O_h$ groups)--acting on $\mathbb{R}^2$ and $\mathbb{R}^3$ on both $G$-MNIST and $G$-ModelNet10 datasets.
翻訳日:2024-01-29 17:34:27 公開日:2024-01-26
# DevEval: 実践的なソフトウェアプロジェクトにおけるコード生成の評価

DevEval: Evaluating Code Generation in Practical Software Projects ( http://arxiv.org/abs/2401.06401v2 )

ライセンス: Link先を確認
Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Zhi Jin, Hao Zhu, Huanyu Liu, Kaibo Liu, Lecheng Wang, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yihong Dong, Yuqi Zhu, Bin Gu, Mengfei Yang(参考訳) コード生成におけるLarge Language Models(LLM)の評価はオープンな問題である。 多くのベンチマークが提案されているが、非現実的なプログラムディストリビューション、依存関係の不足、小規模プロジェクトコンテキストなど、実用的なソフトウェアプロジェクトとは矛盾している。 したがって、実用プロジェクトでのLLMの能力はまだ不明である。 本稿では,実用的なプロジェクトにおける開発者の経験と整合した新しいベンチマークdevevalを提案する。 devevalは厳密なパイプラインを通して収集され、119の実践プロジェクトから2,690のサンプルと10のドメインを含んでいる。 以前のベンチマークと比較すると、DevEvalは実際のプログラム分布、十分な依存関係、十分な規模のプロジェクトコンテキストなど、複数の次元の実践的なプロジェクトと一致している。 DevEval上の5つの人気のあるLCM(gpt-4、gpt-3.5-turbo、CodeLLaMa、StarCoder)を評価し、コード生成における実際の能力を明らかにする。 例えば、gpt-3.5-turboの最も高いpass@1は実験で42である。 また,実践プロジェクトにおけるコード生成の課題と今後の方向性についても論じる。 私たちはdevevalをオープンソースとして公開し、実用的なプロジェクトでのコード生成を促進することを望んでいます。

How to evaluate Large Language Models (LLMs) in code generation is an open question. Many benchmarks have been proposed but are inconsistent with practical software projects, e.g., unreal program distributions, insufficient dependencies, and small-scale project contexts. Thus, the capabilities of LLMs in practical projects are still unclear. In this paper, we propose a new benchmark named DevEval, aligned with Developers' experiences in practical projects. DevEval is collected through a rigorous pipeline, containing 2,690 samples from 119 practical projects and covering 10 domains. Compared to previous benchmarks, DevEval aligns to practical projects in multiple dimensions, e.g., real program distributions, sufficient dependencies, and enough-scale project contexts. We assess five popular LLMs on DevEval (e.g., gpt-4, gpt-3.5-turbo, CodeLLaMa, and StarCoder) and reveal their actual abilities in code generation. For instance, the highest Pass@1 of gpt-3.5-turbo only is 42 in our experiments. We also discuss the challenges and future directions of code generation in practical projects. We open-source DevEval and hope it can facilitate the development of code generation in practical projects.
翻訳日:2024-01-29 17:26:29 公開日:2024-01-26
# 円錐計画を用いたマルチパラメータ量子メトロロジーの最適プローブ状態の探索

Finding the optimal probe state for multiparameter quantum metrology using conic programming ( http://arxiv.org/abs/2401.05886v2 )

ライセンス: Link先を確認
Masahito Hayashi and Yingkai Ouyang(参考訳) チャネル推定の目的は、量子チャネルに符号化されたパラメータを推定することである。 この目的のために、結果を得るために入力状態と測定値を選択することができる。 状態推定には様々な精度境界が知られている。 チャネル推定では、各境界は入力状態の選択に応じて決定される。 しかし、最適入力プローブ状態とそれに対応する精度境界を決定することは、特にパラメータが相容れないマルチパラメータ設定において、非自明な問題である。 本稿では,対応するマルチパラメータ精度境界に対する最適プローブ状態を決定するための,円錐型プログラミングフレームワークを提案する。 我々が検討する精度境界には, 相関法と非相関法のそれぞれに最適な性能を与える, ホールボ・ナガオカ境界とタイトな精度境界がある。 当社のconicプログラミングフレームワークを用いて,様々な環境での最大絡み合ったプローブ状態の最適性について検討する。 また、この理論を量子プローブ状態を用いた標準場センシング問題の解析にも応用する。

The aim of the channel estimation is to estimate the parameters encoded in a quantum channel. For this aim, it is allowed to choose the input state as well as the measurement to get the outcome. Various precision bounds are known for the state estimation. For the channel estimation, the respective bounds are determined depending on the choice of the input state. However, determining the optimal input probe state and the corresponding precision bounds in estimation is a non-trivial problem, particularly in the multi-parameter setting, where parameters are often incompatible. In this paper, we present a conic programming framework that allows us to determine the optimal probe state for the corresponding multi-parameter precision bounds. The precision bounds we consider include the Holevo-Nagaoka bound and the tight precision bound that give the optimal performances of correlated and uncorrelated measurement strategies, respectively. Using our conic programming framework, we discuss the optimality of a maximally entangled probe state in various settings. We also apply our theory to analyze the canonical field sensing problem using entangled quantum probe states.
翻訳日:2024-01-29 17:26:09 公開日:2024-01-26
# RomniStereo: 連続した全方位ステレオマッチング

RomniStereo: Recurrent Omnidirectional Stereo Matching ( http://arxiv.org/abs/2401.04345v2 )

ライセンス: Link先を確認
Hualie Jiang, Rui Xu, Minglang Tan and Wenjie Jiang(参考訳) Omnidirectional stereo matching (OSM)は360^{\circ}$ depth Senssionにとって必須かつ信頼性の高い手段である。 しかし、従来のステレオマッチングの研究に続き、従来のSOTA(State-of-the-art)手法は3Dエンコーダデコーダブロックを使ってコストを調整し、システム全体が複雑で準最適である。 近年,リカレントall-pairs field transforms (raft) に基づくアプローチでは,2dのリカレントアップデートが採用され,画像マッチングタスク,ie,光フロー,ステレオマッチングが効率的に改善されている。 OSMとRAFTのギャップを埋めるため,OSMの球状スイーピングの出力を逐次更新に必要な入力にシームレスに変換し,全方向ステレオマッチング(RomniStereo)アルゴリズムを作成するための適応重み付け方式を主に提案する。 さらに,RomniStereoの性能向上にも寄与する,グリッド埋め込みと適応型コンテキスト特徴生成という2つの手法を導入する。 我々の最良のモデルは、5つのデータセットにわたる以前のSOTAベースラインよりも平均MAEメトリックを40.7\%改善します。 結果を視覚化すると、モデルが合成と現実的な両方の例で明らかな利点を示します。 コードは \url{https://github.com/halleyjiang/romnistereo} で入手できる。

Omnidirectional stereo matching (OSM) is an essential and reliable means for $360^{\circ}$ depth sensing. However, following earlier works on conventional stereo matching, prior state-of-the-art (SOTA) methods rely on a 3D encoder-decoder block to regularize the cost volume, causing the whole system complicated and sub-optimal results. Recently, the Recurrent All-pairs Field Transforms (RAFT) based approach employs the recurrent update in 2D and has efficiently improved image-matching tasks, ie, optical flow, and stereo matching. To bridge the gap between OSM and RAFT, we mainly propose an opposite adaptive weighting scheme to seamlessly transform the outputs of spherical sweeping of OSM into the required inputs for the recurrent update, thus creating a recurrent omnidirectional stereo matching (RomniStereo) algorithm. Furthermore, we introduce two techniques, ie, grid embedding and adaptive context feature generation, which also contribute to RomniStereo's performance. Our best model improves the average MAE metric by 40.7\% over the previous SOTA baseline across five datasets. When visualizing the results, our models demonstrate clear advantages on both synthetic and realistic examples. The code is available at \url{https://github.com/HalleyJiang/RomniStereo}.
翻訳日:2024-01-29 17:25:51 公開日:2024-01-26
# CCNETS:不均衡データセットにおけるパターン認識強化のための新しい脳誘発アプローチ

CCNETS: A Novel Brain-Inspired Approach for Enhanced Pattern Recognition in Imbalanced Datasets ( http://arxiv.org/abs/2401.04139v2 )

ライセンス: Link先を確認
Hanbeot Park (1), Yunjeong Cho (2), Hoon-Hee Kim (3)(参考訳) 本研究では、パターン認識における不均衡データセットのデータ生成に挑戦するために、新しい生成モデルベースの分類器であるCCNETS(Causal Learning with Causal Cooperative Nets)を紹介する。 CCNETSは脳に似た情報処理をエミュレートするために独自に設計されており、Explainer、Producer、Reasonerの3つの主要コンポーネントから構成されている。 各コンポーネントは、高品質なデータセットの生成と分類性能の向上を支援する、特定の脳機能を模倣するように設計されている。 このモデルは特に、機械学習で不均衡なデータセットを扱うという、一般的で重要な課題に対処することに重点を置いている。 ccnetsの有効性は、通常の取引が不正取引(99.83%対0.17%)を大幅に上回る「詐欺データセット」に応用することで実証される。 従来の手法はこのような不均衡に苦しむことが多く、パフォーマンス指標が歪んだ。 しかし、ccnetsは、その性能指標で示されるように、より優れた分類能力を示す。 具体的には、0.7992のF1スコアを達成し、AutoencodersやMulti-layer Perceptrons(MLP)といった従来のモデルより優れている。 この性能は、CCNETSが通常のパターンと不正パターンをより正確に区別する能力を示している。 ccnetsの革新的な構造は生成モデルと分類モデルの一貫性を高め、生成モデルのみに依存するパターン認識の限界を克服するのに役立つ。 本研究は、CCNETSの多様なアプリケーション、特に品質データ生成とパターン認識が重要となる分野における可能性を強調する。 これは機械学習、特に不均衡なデータセットに有効である。 CCNETSはこれらのデータセットの現在の課題を克服し、脳にインスパイアされたアプローチで機械学習を進化させる。

This study introduces CCNETS (Causal Learning with Causal Cooperative Nets), a novel generative model-based classifier designed to tackle the challenge of generating data for imbalanced datasets in pattern recognition. CCNETS is uniquely crafted to emulate brain-like information processing and comprises three main components: Explainer, Producer, and Reasoner. Each component is designed to mimic specific brain functions, which aids in generating high-quality datasets and enhancing classification performance. The model is particularly focused on addressing the common and significant challenge of handling imbalanced datasets in machine learning. CCNETS's effectiveness is demonstrated through its application to a "fraud dataset," where normal transactions significantly outnumber fraudulent ones (99.83% vs. 0.17%). Traditional methods often struggle with such imbalances, leading to skewed performance metrics. However, CCNETS exhibits superior classification ability, as evidenced by its performance metrics. Specifically, it achieved an F1-score of 0.7992, outperforming traditional models like Autoencoders and Multi-layer Perceptrons (MLP) in the same context. This performance indicates CCNETS's proficiency in more accurately distinguishing between normal and fraudulent patterns. The innovative structure of CCNETS enhances the coherence between generative and classification models, helping to overcome the limitations of pattern recognition that rely solely on generative models. This study emphasizes CCNETS's potential in diverse applications, especially where quality data generation and pattern recognition are key. It proves effective in machine learning, particularly for imbalanced datasets. CCNETS overcomes current challenges in these datasets and advances machine learning with brain-inspired approaches.
翻訳日:2024-01-29 17:25:27 公開日:2024-01-26
# 量子振り子としての超流動環

Superfluid rings as quantum pendulums ( http://arxiv.org/abs/2312.15290v2 )

ライセンス: Link先を確認
Antonio Mu\~noz Mateo, Grigory E. Astrakharchik, Bruno Juli\'a-D\'iaz(参考訳) 非分散量子振子を実現するための実現可能な実験提案を行う。 提案されたセットアップは、傾斜したリング電位にロードされる魅力的な原子間相互作用を特徴とする超低温原子雲で構成されている。 古典的および量子的領域は、チューニングされた相互作用によってスイッチオンされ、不安定な状態の古典的動的安定化(すなわち a la} Kapitza)は、量子位相インプリントによって駆動される。 重力計としての利用の可能性について論じる。

A feasible experimental proposal to realize a non-dispersive quantum pendulum is presented. The proposed setup consists of an ultracold atomic cloud, featuring attractive interatomic interactions, loaded into a tilted ring potential. The classical and quantum domains are switched on by tuned interactions, and the classical dynamical stabilization of unstable states, i.e. {\it a la} Kapitza, is shown to be driven by quantum phase imprinting. The potential use of this system as a gravimeter is discussed.
翻訳日:2024-01-29 17:24:31 公開日:2024-01-26
# 攻撃の場所と方法は? 因果関係に着想を得た反現実的事例生成のためのレシピ

Where and How to Attack? A Causality-Inspired Recipe for Generating Counterfactual Adversarial Examples ( http://arxiv.org/abs/2312.13628v2 )

ライセンス: Link先を確認
Ruichu Cai, Yuxuan Zhu, Jie Qiao, Zefeng Liang, Furui Liu, Zhifeng Hao(参考訳) ディープニューラルネットワーク(DNN)は、よく考えられた$\mathcal{L}_p$-norm制限されたまたは制限されていない攻撃によって生成される、十分に構築された \emph{adversarial example} に対して脆弱であることが示されている。 それにもかかわらず、これらのアプローチの大多数は、敵が望む如何なる特徴も変更でき、データの因果生成プロセスを無視できると仮定している。 例えば、収入の変化は必然的に銀行システム内の負債対所得比率のような機能に影響を与える。 未承認因果生成過程を考慮し、まず、因果関係のレンズを通してDNNの脆弱性の源を特定し、理論的結果を与えて「攻撃する場所」に答える。 第二に、実例の現在の状況に対する攻撃介入の結果を考慮し、より現実的な敵の例を生成するために、我々はCADEを提案し、これは、攻撃に対する答えとして、 \textbf{C}ounterfactual \textbf{AD}versarial \textbf{E}xamplesを生成できるフレームワークである。 CADEの有効性は、ホワイトボックス、トランスファーベース、ランダムな介入攻撃など、さまざまな攻撃シナリオで競合するパフォーマンスによって証明されている。

Deep neural networks (DNNs) have been demonstrated to be vulnerable to well-crafted \emph{adversarial examples}, which are generated through either well-conceived $\mathcal{L}_p$-norm restricted or unrestricted attacks. Nevertheless, the majority of those approaches assume that adversaries can modify any features as they wish, and neglect the causal generating process of the data, which is unreasonable and unpractical. For instance, a modification in income would inevitably impact features like the debt-to-income ratio within a banking system. By considering the underappreciated causal generating process, first, we pinpoint the source of the vulnerability of DNNs via the lens of causality, then give theoretical results to answer \emph{where to attack}. Second, considering the consequences of the attack interventions on the current state of the examples to generate more realistic adversarial examples, we propose CADE, a framework that can generate \textbf{C}ounterfactual \textbf{AD}versarial \textbf{E}xamples to answer \emph{how to attack}. The empirical results demonstrate CADE's effectiveness, as evidenced by its competitive performance across diverse attack scenarios, including white-box, transfer-based, and random intervention attacks.
翻訳日:2024-01-29 17:24:22 公開日:2024-01-26
# 外科的シーンのセグメンテーション, 物体検出, 安全性評価の批判的視点のための内見的データセット: 公式スプリットとベンチマーク

The Endoscapes Dataset for Surgical Scene Segmentation, Object Detection, and Critical View of Safety Assessment: Official Splits and Benchmark ( http://arxiv.org/abs/2312.12429v2 )

ライセンス: Link先を確認
Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Guido Costamagna, Didier Mutter, Jacques Marescaux, Bernard Dallemagne, Nicolas Padoy(参考訳) 本技術報告は,CVS(Critical View of Safety)の自動評価を目的とした,高度に複雑なアノテーションを備えた腹腔鏡下胆嚢摘出術(LC)ビデオのデータセットであるEndoscapesの概要を詳述する。 内臓は201本のLCビデオからなり、フレームはわずかだが定期的にセグメンテーションマスク、バウンディングボックス、そして3つの異なる臨床専門家によるCVSアセスメントを備える。 また、CVSと1933のフレームに201ビデオのツールと解剖学的バウンディングボックスがアノテートされた11090フレームと、ツールと解剖学的セグメンテーションマスクがアノテートされた201ビデオの50の422フレームが追加されている。 この報告では、詳細なデータセット統計(サイズ、クラス分布、データセット分割など)と、セグメンテーション、オブジェクト検出、cvs予測のための包括的なパフォーマンスベンチマークを提供する。 データセットとモデルチェックポイントはhttps://github.com/camma-public/endoscapesで公開されている。

This technical report provides a detailed overview of Endoscapes, a dataset of laparoscopic cholecystectomy (LC) videos with highly intricate annotations targeted at automated assessment of the Critical View of Safety (CVS). Endoscapes comprises 201 LC videos with frames annotated sparsely but regularly with segmentation masks, bounding boxes, and CVS assessment by three different clinical experts. Altogether, there are 11090 frames annotated with CVS and 1933 frames annotated with tool and anatomy bounding boxes from the 201 videos, as well as an additional 422 frames from 50 of the 201 videos annotated with tool and anatomy segmentation masks. In this report, we provide detailed dataset statistics (size, class distribution, dataset splits, etc.) and a comprehensive performance benchmark for instance segmentation, object detection, and CVS prediction. The dataset and model checkpoints are publically available at https://github.com/CAMMA-public/Endoscapes.
翻訳日:2024-01-29 17:23:57 公開日:2024-01-26
# 教師なし領域適応のためのプロンプトベース分布アライメント

Prompt-based Distribution Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2312.09553v2 )

ライセンス: Link先を確認
Shuanghao Bai, Min Zhang, Wanqi Zhou, Siteng Huang, Zhirong Luan, Donglin Wang and Badong Chen(参考訳) 近年,大規模な事前学習型視覚言語モデル(VLM)が幅広い下流タスクで成功しているにもかかわらず,現実の非教師なし領域適応(UDA)問題はいまだよく研究されていない。 そこで本研究では,教師なし学習VLMがソース領域とターゲット領域の分布差を大幅に低減し,UDAの性能を向上できることを示す。 しかし、下流のUDAタスクにそのようなモデルを直接デプロイする上での大きな課題は、優れたドメイン不変表現の影響を受けやすいため、ソースおよびターゲットドメインのドメイン知識を整合させる必要がある、即時エンジニアリングである。 さらに,ドメイン知識を素早い学習に組み込むために,PDA(Prompt-based Distribution Alignment)手法を提案する。 具体的には、PDAは2ブランチのプロンプトチューニングパラダイム、すなわちベースブランチとアライメントブランチを採用している。 ベースブランチは、クラス関連の表現をプロンプトに統合し、異なるクラス間の差別を保証することに焦点を当てている。 さらに、アライメントブランチにおいて、ソースドメインとターゲットドメインの両方に特徴バンクを構築し、入力を特徴バンクに従わせるための画像誘導特徴チューニング(IFT)を提案し、効果的に自己拡張的およびクロスドメイン的特徴をモデルに統合する。 このようにして、これらの2つの枝を相互に推進して、UDA用VLMの適応性を高めることができる。 我々は,提案したPDAが最先端の性能を達成することを示すために,3つのベンチマークで広範な実験を行った。 コードはhttps://github.com/baishuanghao/prompt-based-distribution-alignmentで入手できる。

Recently, despite the unprecedented success of large pre-trained visual-language models (VLMs) on a wide range of downstream tasks, the real-world unsupervised domain adaptation (UDA) problem is still not well explored. Therefore, in this paper, we first experimentally demonstrate that the unsupervised-trained VLMs can significantly reduce the distribution discrepancy between source and target domains, thereby improving the performance of UDA. However, a major challenge for directly deploying such models on downstream UDA tasks is prompt engineering, which requires aligning the domain knowledge of source and target domains, since the performance of UDA is severely influenced by a good domain-invariant representation. We further propose a Prompt-based Distribution Alignment (PDA) method to incorporate the domain knowledge into prompt learning. Specifically, PDA employs a two-branch prompt-tuning paradigm, namely base branch and alignment branch. The base branch focuses on integrating class-related representation into prompts, ensuring discrimination among different classes. To further minimize domain discrepancy, for the alignment branch, we construct feature banks for both the source and target domains and propose image-guided feature tuning (IFT) to make the input attend to feature banks, which effectively integrates self-enhanced and cross-domain features into the model. In this way, these two branches can be mutually promoted to enhance the adaptation of VLMs for UDA. We conduct extensive experiments on three benchmarks to demonstrate that our proposed PDA achieves state-of-the-art performance. The code is available at https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment.
翻訳日:2024-01-29 17:23:13 公開日:2024-01-26
# 協調marlにおける個々のエージェントの重要性の定量化

Efficiently Quantifying Individual Agent Importance in Cooperative MARL ( http://arxiv.org/abs/2312.08466v2 )

ライセンス: Link先を確認
Omayma Mahjoub, Ruan de Kock, Siddarth Singh, Wiem Khlifi, Abidine Vall, Kale-ab Tessera and Arnu Pretorius(参考訳) 協調型マルチエージェント強化学習(MARL)において,個々のエージェントの貢献度を測定することは困難である。 協力的なmarlでは、チームのパフォーマンスは通常、単一の共有グローバル報酬から推測される。 おそらく、個々のエージェントのコントリビューションを効果的に測定する最良のアプローチは、Shapley値を使用することでしょう。 しかし、計算の複雑さはエージェントの数に対して指数関数的に増加するため、これらの値の計算は高価である。 本稿では,エージェント重要度と呼ばれる個々のエージェントの寄与度を定量化するための効率的な手法として,エージェント数に対する線形計算量を提供する。 計算値が真のShapley値と強く相関していること、およびそれらが利用可能な環境において基礎となる真理として使用される真の個々のエージェント報酬を実証的に示す。 従来のmarlベンチマーク作業で発見されたアルゴリズム的障害を診断することにより,marlシステムの研究にエージェントの重要性がいかに役立つかを実証する。 本分析は,今後のMARLベンチマークにおいて,エージェントの重要度を重要な説明可能性コンポーネントとして示す。

Measuring the contribution of individual agents is challenging in cooperative multi-agent reinforcement learning (MARL). In cooperative MARL, team performance is typically inferred from a single shared global reward. Arguably, among the best current approaches to effectively measure individual agent contributions is to use Shapley values. However, calculating these values is expensive as the computational complexity grows exponentially with respect to the number of agents. In this paper, we adapt difference rewards into an efficient method for quantifying the contribution of individual agents, referred to as Agent Importance, offering a linear computational complexity relative to the number of agents. We show empirically that the computed values are strongly correlated with the true Shapley values, as well as the true underlying individual agent rewards, used as the ground truth in environments where these are available. We demonstrate how Agent Importance can be used to help study MARL systems by diagnosing algorithmic failures discovered in prior MARL benchmarking work. Our analysis illustrates Agent Importance as a valuable explainability component for future MARL benchmarks.
翻訳日:2024-01-29 17:22:45 公開日:2024-01-26
# 1年でいくら変更できますか。 マルチエージェント強化学習における再考評価

How much can change in a year? Revisiting Evaluation in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2312.08463v2 )

ライセンス: Link先を確認
Siddarth Singh, Omayma Mahjoub, Ruan de Kock, Wiem Khlifi, Abidine Vall, Kale-ab Tessera and Arnu Pretorius(参考訳) 健全な実験基準と厳密さの確立は、あらゆる研究分野において重要である。 Deep Multi-Agent Reinforcement Learning (MARL)は、そのような初期段階の分野である。 ワクワクする進展はあったが、MARLは最近、複製可能性の問題や標準化された評価方法論の欠如、特に協調的な環境での調査を受けている。 この問題を軽減するためのプロトコルが提案されているが、この分野の健康を積極的に監視することが重要である。 本研究は,marl出版物のメタデータを含む評価手法のデータベースを拡張し,更新されたデータベースから得られた知見と,その成果から得られた傾向を比較したものである。 我々の分析は、パフォーマンスレポートの懸念する傾向の多くが残っていることを示している。 これは不確実性定量化の欠如を含み、関連するすべての評価詳細を報告せず、アルゴリズム開発クラスを狭める。 SMAC-v1は,SMAC-v2に継続することで,新たなアルゴリズム開発が促進される。 我々のデータによると、新たなエキサイティングなフロンティアに向かう際には、MARLコミュニティがより積極的に複製性にアプローチする必要がある。

Establishing sound experimental standards and rigour is important in any growing field of research. Deep Multi-Agent Reinforcement Learning (MARL) is one such nascent field. Although exciting progress has been made, MARL has recently come under scrutiny for replicability issues and a lack of standardised evaluation methodology, specifically in the cooperative setting. Although protocols have been proposed to help alleviate the issue, it remains important to actively monitor the health of the field. In this work, we extend the database of evaluation methodology previously published by containing meta-data on MARL publications from top-rated conferences and compare the findings extracted from this updated database to the trends identified in their work. Our analysis shows that many of the worrying trends in performance reporting remain. This includes the omission of uncertainty quantification, not reporting all relevant evaluation details and a narrowing of algorithmic development classes. Promisingly, we do observe a trend towards more difficult scenarios in SMAC-v1, which if continued into SMAC-v2 will encourage novel algorithmic development. Our data indicate that replicability needs to be approached more proactively by the MARL community to ensure trust in the field as we move towards exciting new frontiers.
翻訳日:2024-01-29 17:22:27 公開日:2024-01-26
# 回路QEDにおける非相互分散モデルのためのツールボックス

Toolbox for nonreciprocal dispersive models in circuit QED ( http://arxiv.org/abs/2312.08354v2 )

ライセンス: Link先を確認
Lautaro Labarca, Othmane Benhayoune-Khadraoui, Alexandre Blais, Adrian Parra-Rodriguez(参考訳) 本稿では, カプラを特徴付け, 有効結合パラメータと減衰率を用いて, 一般散逸のない非相反線形系に結合した弱非調和超伝導回路を記述するために, 効果的分散型リンドブラッドマスター方程式を構築する方法を提案する。 本稿では, インピーダンス応答によって記述された線形相互結合子に対する Solgun et al. (2019) の基礎的作業を拡張する。 ここでは,非相反的な要素を組み込むために既存のツールボックスを拡張し,イミタンスポート間の直接の層結合や回避可能な特異点を考慮し,共通の浴槽との相互作用から生じる散逸的相互作用を含む。 本研究は, マルチポート非相互環境と消散ポートに結合した弱非調和ジョセフソン接合回路を用いて, 実験結果について述べる。 ここで得られた結果は、量子情報の非自明なルーティングを持つ複雑な超伝導量子プロセッサの設計や、凝縮物質系のアナログ量子シミュレータの設計に利用できる。

We provide a systematic method for constructing effective dispersive Lindblad master equations to describe weakly-anharmonic superconducting circuits coupled by a generic dissipationless nonreciprocal linear system, with effective coupling parameters and decay rates written in terms of the immittance parameters characterizing the coupler. This article extends the foundational work of Solgun et al. (2019) for linear reciprocal couplers described by an impedance response. Here, we expand the existing toolbox to incorporate nonreciprocal elements, account for direct stray coupling between immittance ports, circumvent potential singularities, and include dissipative interactions arising from interaction with a common bath. We illustrate the use of our results with a circuit of weakly-anharmonic Josephson junctions coupled to a multiport nonreciprocal environment and a dissipative port. The results obtained here can be used for the design of complex superconducting quantum processors with non-trivial routing of quantum information, as well as analog quantum simulators of condensed matter systems.
翻訳日:2024-01-29 17:22:08 公開日:2024-01-26
# シュロディンガーの物質波方程式の力学的類似性

Mechanical Analogue for Schrodinger's Matter-Wave Equation ( http://arxiv.org/abs/2312.05581v2 )

ライセンス: Link先を確認
Nicos Makris(参考訳) この論文では、シュロディンガーの元々の4階実数値物質波方程式の1次元版に正確な機械的類似性があることを最初に示した。 分散弾性ばねに支持される複合曲げシーリングビームである。 しかしながら、この発見にもかかわらず、この論文はシュロディンガーの2階複素値物質波方程式の物理的に実現可能な機械的類似体を構築することは不可能であり、それ故に元の4階実数値物質波方程式で予測されたものよりも低いエネルギー準位が生じることを示す。

In this paper we first show that, there exists a precise mechanical analogue for the one-dimensional version of Schrodinger's original 4th-order, real-valued matter-wave equation. It is a composite, flexural-shear beam supported on distributed elastic springs. Nevertheless, in spite of this finding, this paper shows that it is not possible to construct a physically realizable mechanical analogue for Schrodinger's 2nd-order, complex valued matter-wave equation which yields lower eigenvalues; therefore, lower energy levels than these predicted with his original 4th-order, real-valued matter-wave equation.
翻訳日:2024-01-29 17:21:51 公開日:2024-01-26
# 人工知能を用いた通信システムのための生成ネットワーク層

Generative Network Layer for Communication Systems with Artificial Intelligence ( http://arxiv.org/abs/2312.05398v3 )

ライセンス: Link先を確認
Mathias Thorsager, Israel Leyva-Mayorga, Beatriz Soret, and Petar Popovski(参考訳) ネットワークレイヤの伝統的な役割は、中間ネットワークノードを介してソースから宛先へのパケットレプリカの転送である。 本稿では、中間またはエッジのネットワークノードで生成ai(genai)を使用して、そのネットワークに必要なデータレートへの影響を分析する生成ネットワーク層を提案する。 我々はGenAI支援ノードが実質的に圧縮された潜在表現からなるプロンプトから画像を生成するケーススタディを行う。 画像品質制約下でのネットワークフロー解析の結果から,生成ネットワーク層が要求されるデータレートで100%以上の改善を達成できることが示唆された。

The traditional role of the network layer is the transfer of packet replicas from source to destination through intermediate network nodes. We present a generative network layer that uses Generative AI (GenAI) at intermediate or edge network nodes and analyze its impact on the required data rates in the network. We conduct a case study where the GenAI-aided nodes generate images from prompts that consist of substantially compressed latent representations. The results from network flow analyses under image quality constraints show that the generative network layer can achieve an improvement of more than 100% in terms of the required data rate.
翻訳日:2024-01-29 17:21:39 公開日:2024-01-26
# 自動運転におけるデータ中心の進化:ビッグデータシステム、データマイニング、クローズドループ技術の包括的調査

Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies ( http://arxiv.org/abs/2401.12888v2 )

ライセンス: Link先を確認
Lincan Li, Wei Shao, Wei Dong, Yijun Tian, Qiming Zhang, Kaixiang Yang, Wenjie Zhang(参考訳) 次世代の自動運転(AD)技術への期待は、知的知覚、予測、計画、低レベル制御の専門的な統合と相互作用に依存している。 自動運転アルゴリズムのパフォーマンスの上限に関して、大きなボトルネックがあった。このボトルネックを克服する鍵はデータ中心の自動運転技術にある、とアカデミアと業界は考えている。 ADシミュレーション、クローズドループモデルトレーニング、ADビッグデータエンジンの最近の進歩は、貴重な経験を得た。 しかし、ADアルゴリズムの自己進化とより優れたADビッグデータ蓄積のための効率的なデータ中心AD技術を構築する方法について、体系的な知識と深い理解が欠如している。 特定された研究ギャップを埋めるため、この記事では、マイルストーン世代、キー機能、データ取得設定を特徴とする自動運転データセットの包括的分類に重点を置いた、最先端のデータ駆動型自動運転技術のレビューに焦点を当てます。 さらに,既存のクローズドループADビッグデータパイプラインについて,クローズドループフレームワークのプロシージャ,キー技術,実証研究を含む,業界フロンティアからの体系的なレビューを行った。 最後に, 将来的な方向性, 潜在的な応用, 限界, 懸念事項について考察し, 自律運転のさらなる発展を促進するための学術・産業双方の努力を喚起する。 プロジェクトリポジトリは以下の通りである。 https://github.com/LincanLi98/Awesome-Data-Centric-Autonomous-Driving。

The aspiration of the next generation's autonomous driving (AD) technology relies on the dedicated integration and interaction among intelligent perception, prediction, planning, and low-level control. There has been a huge bottleneck regarding the upper bound of autonomous driving algorithm performance, a consensus from academia and industry believes that the key to surmount the bottleneck lies in data-centric autonomous driving technology. Recent advancement in AD simulation, closed-loop model training, and AD big data engine have gained some valuable experience. However, there is a lack of systematic knowledge and deep understanding regarding how to build efficient data-centric AD technology for AD algorithm self-evolution and better AD big data accumulation. To fill in the identified research gaps, this article will closely focus on reviewing the state-of-the-art data-driven autonomous driving technologies, with an emphasis on the comprehensive taxonomy of autonomous driving datasets characterized by milestone generations, key features, data acquisition settings, etc. Furthermore, we provide a systematic review of the existing benchmark closed-loop AD big data pipelines from the industrial frontier, including the procedure of closed-loop frameworks, key technologies, and empirical studies. Finally, the future directions, potential applications, limitations and concerns are discussed to arouse efforts from both academia and industry for promoting the further development of autonomous driving. The project repository is available at: https://github.com/LincanLi98/Awesome-Data-Centric-Autonomous-Driving.
翻訳日:2024-01-29 17:15:21 公開日:2024-01-26
# パラメータ量子回路の最適コンパイル

Optimal compilation of parametrised quantum circuits ( http://arxiv.org/abs/2401.12877v2 )

ライセンス: Link先を確認
John van de Wetering, Richie Yeung, Tuomas Laakkonen, Aleks Kissinger(参考訳) パラメトリス量子回路は、量子デバイス上で回路を実行する前に古典アルゴリズムによって位相が決定される位相ゲートを含む。 このような回路はQAOAやVQEのような変分アルゴリズムで使用される。 これらのアルゴリズムが可能な限り効率的になるためには、最少のパラメータを使用することが重要です。 パラメータ数を最小化する一般的な問題はNPハードであるが、パラメトリッド位相ゲートとは別個の回路に制限されている場合、各パラメータが一度だけ使用される場合、最適パラメータカウントを効率的に見つけることができる。 パラメータ変換が必要となると、パラメータを減少させる唯一の書き換えが単純な「融合」に対応することを示す。 これを用いて、いくつかの著者による以前の回路最適化戦略(Kissinger, van de Wetering. PRA (2019))は、パラメータの最適数を求める。 我々の証明はZX計算を用いる。 また、ZX-計算の標準的な書き換え規則は、パラメトリッドクリフォード回路間の等式を証明するのに十分であることを示す。

Parametrised quantum circuits contain phase gates whose phase is determined by a classical algorithm prior to running the circuit on a quantum device. Such circuits are used in variational algorithms like QAOA and VQE. In order for these algorithms to be as efficient as possible it is important that we use the fewest number of parameters. We show that, while the general problem of minimising the number of parameters is NP-hard, when we restrict to circuits that are Clifford apart from parametrised phase gates and where each parameter is used just once, we can efficiently find the optimal parameter count. We show that when parameter transformations are required to be sufficiently well-behaved that the only rewrites that reduce parameters correspond to simple 'fusions'. Using this we find that a previous circuit optimisation strategy by some of the authors [Kissinger, van de Wetering. PRA (2019)] finds the optimal number of parameters. Our proof uses the ZX-calculus. We also prove that the standard rewrite rules of the ZX-calculus suffice to prove any equality between parametrised Clifford circuits.
翻訳日:2024-01-29 17:14:53 公開日:2024-01-26
# yang-baxter方程式の新しいスペクトルパラメータ依存解

New spectral-parameter dependent solutions of the Yang-Baxter equation ( http://arxiv.org/abs/2401.12710v2 )

ライセンス: Link先を確認
Alexander. S. Garkun, Suvendu K. Barik, Aleksey K. Fedorov, Vladimir Gritsev(参考訳) ヤン・バクスター方程式(YBE)は可積分多体量子系の研究において重要な役割を果たす。 多くの既知のYBE解は量子スピン鎖から超伝導系まで様々な例を提供する。 可解な統計力学とそのアバターのモデルも YBE に基づいている。 したがって、YBEの新しい解は、他の多くの遠距離応用を持つ新しい興味深い1D量子系や2D古典系を構築するのに使える。 本研究では、YBE に対する(ほぼ)徹底的な解の集合を 2 ビットの場合に対応する最低次元で見つけることを試みる。 我々は, ybe の新たな高次元解を生成するアルゴリズムを開発した。

The Yang-Baxter Equation (YBE) plays a crucial role for studying integrable many-body quantum systems. Many known YBE solutions provide various examples ranging from quantum spin chains to superconducting systems. Models of solvable statistical mechanics and their avatars are also based on YBE. Therefore, new solutions of the YBE could be used to construct new interesting 1D quantum or 2D classical systems with many other far-reaching applications. In this work, we attempt to find (almost) exhaustive set of solutions for the YBE in the lowest dimensions corresponding to a two-qubit case. We develop an algorithm, which can potentially be used for generating new higher-dimensional solutions of the YBE.
翻訳日:2024-01-29 17:14:34 公開日:2024-01-26
# MobileARLoc: 広汎なマーカーレスモバイルARのためのオンデバイスロバスト絶対的位置決め

MobileARLoc: On-device Robust Absolute Localisation for Pervasive Markerless Mobile AR ( http://arxiv.org/abs/2401.11511v2 )

ライセンス: Link先を確認
Changkun Liu, Yukun Zhao, Tristan Braud(参考訳) 近年、絶対カメラのポーズ推定が大幅に改善され、AR(Pervasive markerless Augmented Reality)への道が開かれた。 しかしながら、正確な絶対ポーズ推定技術は計算量とストレージ量であり、計算オフロードを必要とする。 そのため、ARシステムは、サーバへの要求間の相対的なポーズを追跡するために、視覚慣性オドメトリー(VIO)に依存している。 しかし、VIOは漂流に悩まされ、しばしば絶対的な再配置を必要とする。 本稿では,絶対ポーズレグレッサ(apr)とローカルvioトラッキングシステムを組み合わせた,オンデバイス用大規模マーカーレスモバイルarのための新しいフレームワークであるmobilearlocを紹介する。 absolute pose regressor (aprs)は、精度を低下させるコストで、デバイス上でのポーズ推定を高速に行う。 APRの精度に対処し、VIOドリフトを減らすために、MobileARLocはフィードバックループを生成し、VIOのポーズ推定によってAPR予測が洗練される。 VIOシステムは、VIOドリフトを補うために使用されるAPRの信頼性の高い予測を識別する。 データセットシミュレーションによりMobileARLocを総合的に評価する。 MobileARLocは、基盤となるAPRと比較してエラーを半減し、デバイス上の推論速度を高速(80\,ms)にする。

Recent years have seen significant improvement in absolute camera pose estimation, paving the way for pervasive markerless Augmented Reality (AR). However, accurate absolute pose estimation techniques are computation- and storage-heavy, requiring computation offloading. As such, AR systems rely on visual-inertial odometry (VIO) to track the device's relative pose between requests to the server. However, VIO suffers from drift, requiring frequent absolute repositioning. This paper introduces MobileARLoc, a new framework for on-device large-scale markerless mobile AR that combines an absolute pose regressor (APR) with a local VIO tracking system. Absolute pose regressors (APRs) provide fast on-device pose estimation at the cost of reduced accuracy. To address APR accuracy and reduce VIO drift, MobileARLoc creates a feedback loop where VIO pose estimations refine the APR predictions. The VIO system identifies reliable predictions of APR, which are then used to compensate for the VIO drift. We comprehensively evaluate MobileARLoc through dataset simulations. MobileARLoc halves the error compared to the underlying APR and achieve fast (80\,ms) on-device inference speed.
翻訳日:2024-01-29 17:14:04 公開日:2024-01-26
# Unfair TOS: カスタマイズBERTによる自動アプローチ

Unfair TOS: An Automated Approach using Customized BERT ( http://arxiv.org/abs/2401.11207v2 )

ライセンス: Link先を確認
Bathini Sai Akash, Akshara Kupireddy, Lalita Bhanu Murthy(参考訳) サービス提供者(ToS)は、サービス提供者とエンドユーザの間の法的関係を定義するため、契約の不可欠な部分を形成します。 彼らは相互の権利と責任を確立し、定義するだけでなく、デジタル空間の使用に関連する契約の本質的な側面に関する情報をユーザに提供します。 これらの側面には、責任の制限、データ保護など、幅広いトピックが含まれている。 ユーザはアプリケーションやサービスを使う前に、ToSを経由せずに受け入れる傾向がある。 このような無知は、何らかの行動が必要な場合、より弱い状況に陥る。 しかし、不公平な条項の検出や分類のための既存の方法論は時代遅れであり、控えめな性能を示している。 本稿では,SVC(Support Vector Classifier)と組み合わせた,前例のないカスタムBERTファインチューニングに基づくTOS文書からの不公平な条項検出に関するSOTA(State of The Art)結果を示す。 本研究は,不公平節検出時のマクロf1スコア0.922の熟練度を示し,各タグによる不公平節の分類においても優れた性能を示す。 さらに、使用したTransformerモデルに関する研究質問に回答して比較分析を行う。 さらなる研究と実験のために、コードと結果はhttps://github.com/batking24/Unfair-TOS-An-Automated-Approach-based-on-Fine-tuning-BERT-in-conjuncti on-with-MLで公開されている。

Terms of Service (ToS) form an integral part of any agreement as it defines the legal relationship between a service provider and an end-user. Not only do they establish and delineate reciprocal rights and responsibilities, but they also provide users with information on essential aspects of contracts that pertain to the use of digital spaces. These aspects include a wide range of topics, including limitation of liability, data protection, etc. Users tend to accept the ToS without going through it before using any application or service. Such ignorance puts them in a potentially weaker situation in case any action is required. Existing methodologies for the detection or classification of unfair clauses are however obsolete and show modest performance. In this research paper, we present SOTA(State of The Art) results on unfair clause detection from ToS documents based on unprecedented custom BERT Fine-tuning in conjunction with SVC(Support Vector Classifier). The study shows proficient performance with a macro F1-score of 0.922 at unfair clause detection, and superior performance is also shown in the classification of unfair clauses by each tag. Further, a comparative analysis is performed by answering research questions on the Transformer models utilized. In order to further research and experimentation the code and results are made available on https://github.com/batking24/Unfair-TOS-An-Automated-Approach-based-on-Fine-tuning-BERT-in-conjuncti on-with-ML.
翻訳日:2024-01-29 17:13:44 公開日:2024-01-26
# 整形外科的シーン理解のための画素幅認識

Pixel-Wise Recognition for Holistic Surgical Scene Understanding ( http://arxiv.org/abs/2401.11174v2 )

ライセンス: Link先を確認
Nicol\'as Ayobi and Santiago Rodr\'iguez and Alejandra P\'erez and Isabela Hern\'andez and Nicol\'as Aparicio and Eug\'enie Dessevres and Sebasti\'an Pe\~na and Jessica Santander and Juan Ignacio Caicedo and Nicol\'as Fern\'andez and Pablo Arbel\'aez(参考訳) 本稿では,手術シーンの理解を相補的タスクの階層構造としてモデル化し,様々なレベルの粒度をモデル化した,整形的および多角的前立腺腫の手術シーン理解データセット(GraSP)を提案する。 本手法は,手術の段階や段階認識などの長期的タスクや,手術器具のセグメンテーションや原子視覚行動検出などの短期的タスクを含む,外科的活動の多段階的理解を可能にする。 提案するベンチマークを活用するために,グローバルなビデオ特徴抽出器と機器セグメンテーションモデルからの局所的領域提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instrument Segmentation(TAPIS)モデルを提案する。 広範な実験を通じて,短期認識タスクにセグメント化アノテーションを含めることによる影響を実証し,各タスクの粒度要求の変化に着目し,提案するベースラインと従来のcnnベースモデルに対するtapisの優位性を確立する。 さらに、複数の公開ベンチマークでメソッドの堅牢性を検証し、データセットの信頼性と適用性を確認する。 この研究は内視鏡視における重要な進歩であり、外科手術の全体的理解に向けた新しい包括的枠組みを提供する。

This paper presents the Holistic and Multi-Granular Surgical Scene Understanding of Prostatectomies (GraSP) dataset, a curated benchmark that models surgical scene understanding as a hierarchy of complementary tasks with varying levels of granularity. Our approach enables a multi-level comprehension of surgical activities, encompassing long-term tasks such as surgical phases and steps recognition and short-term tasks including surgical instrument segmentation and atomic visual actions detection. To exploit our proposed benchmark, we introduce the Transformers for Actions, Phases, Steps, and Instrument Segmentation (TAPIS) model, a general architecture that combines a global video feature extractor with localized region proposals from an instrument segmentation model to tackle the multi-granularity of our benchmark. Through extensive experimentation, we demonstrate the impact of including segmentation annotations in short-term recognition tasks, highlight the varying granularity requirements of each task, and establish TAPIS's superiority over previously proposed baselines and conventional CNN-based models. Additionally, we validate the robustness of our method across multiple public benchmarks, confirming the reliability and applicability of our dataset. This work represents a significant step forward in Endoscopic Vision, offering a novel and comprehensive framework for future research towards a holistic understanding of surgical procedures.
翻訳日:2024-01-29 17:13:19 公開日:2024-01-26
# varshni-hellmannポテンシャルの近似境界状態解

Approximate Bound States Solution of the Varshni-Hellmann Potential ( http://arxiv.org/abs/2401.11151v2 )

ライセンス: Link先を確認
N. Tazimi, M. Monemzadeh(参考訳) 本稿では,varshni-hellmannポテンシャルの有界状態問題を有用な手法で解く。 本研究では,varshni-hellmannポテンシャルに対するschrodinger方程式の境界状態解をansatz法で求める。 エネルギー固有値と対応する固有関数を得る。 また、地中におけるエネルギースペクトルの挙動と、2つの身体系の励起状態について図式的に示す。 この結果と正確な数値との類似性は,本手法の効率性を示すものである。

In this paper, we solve the bound state problem for Varshni-Hellmann potential via a useful technique. In our technique, we obtain the bound state solution of the Schrodinger equation for the Varshni-Hellmann potential via ansatz method. We obtain the energy eigenvalues and the corresponding eigen-functions. Also, the behavior of the energy spectra for both the ground and the excited state of the two body systems is illustrated graphically. The similarity of our results to the accurate numerical values is indicative of the efficiency of our technique.
翻訳日:2024-01-29 17:12:54 公開日:2024-01-26
# 重要情報を用いた説明変換器の改良

Better Explain Transformers by Illuminating Important Information ( http://arxiv.org/abs/2401.09972v3 )

ライセンス: Link先を確認
Linxin Song, Yan Cui, Ao Luo, Freddy Lecue, Irene Li(参考訳) トランスフォーマーベースのモデルは様々な自然言語処理(nlp)タスクに優れており、内部動作を説明するための無数の努力を惹きつけている。 従来の手法では,非関連情報が説明計算中によく考慮されるトークン属性スコアとして,生勾配と注目度に着目してトランスフォーマーを説明する。 本研究では,lrp(layer-wise associated propagation)手法上で,重要情報を強調表示し,無関係な情報を排除することを提案する。 具体的には,構文的頭部と位置的頭部を重要な注意点として同定し,これらの重要な頭部から得られる関連性に着目した。 実験結果から、無関係な情報が出力帰属スコアを歪め、説明計算中に隠蔽することを示した。 分類・問合せデータセットの8つのベースラインと比較すると,提案手法は説明指標の3倍から33倍に向上し,優れた説明性能が得られる。 私たちの匿名コードリポジトリは、https://github.com/LinxinS97/Mask-LRPで利用可能です。

Transformer-based models excel in various natural language processing (NLP) tasks, attracting countless efforts to explain their inner workings. Prior methods explain Transformers by focusing on the raw gradient and attention as token attribution scores, where non-relevant information is often considered during explanation computation, resulting in confusing results. In this work, we propose highlighting the important information and eliminating irrelevant information by a refined information flow on top of the layer-wise relevance propagation (LRP) method. Specifically, we consider identifying syntactic and positional heads as important attention heads and focus on the relevance obtained from these important heads. Experimental results demonstrate that irrelevant information does distort output attribution scores and then should be masked during explanation computation. Compared to eight baselines on both classification and question-answering datasets, our method consistently outperforms with over 3\% to 33\% improvement on explanation metrics, providing superior explanation performance. Our anonymous code repository is available at: https://github.com/LinxinS97/Mask-LRP
翻訳日:2024-01-29 17:11:54 公開日:2024-01-26
# 研究データ出版物と研究ソフトウェア出版物の品質指標を目指して --ヘルムホルツ協会の展望-

Towards a Quality Indicator for Research Data publications and Research Software publications -- A vision from the Helmholtz Association ( http://arxiv.org/abs/2401.08804v2 )

ライセンス: Link先を確認
Wolfgang zu Castell, Doris Dransch, Guido Juckeland, Marcel Meistring, Bernadette Fritzsch, Ronny Gey, Britta H\"opfner, Martin K\"ohler, Christian Mee{\ss}en, Hela Mehrtens, Felix M\"uhlbauer, Sirko Schindler, Thomas Schnicke, Roland Bertelmann(参考訳) 研究データとソフトウェアは科学研究の結果として広く受け入れられている。 しかし、テキストベースの出版と比べ、研究データや研究ソフトウェアの品質を評価・評価するプロセスはまだ確立されていない。 本稿ではこのギャップを埋めようとする試みを示す。 ヘルムホルツ協会のワーキンググループopen scienceによって始められたタスクグループhelmholtz quality indicators for data and software publicationsは現在、協会内で使用される研究データと研究ソフトウェア出版物の品質指標を開発している。 この報告は、すべての人がそのような指標に何に貢献するのかというグループのビジョンをまとめている。 提案手法は,fair principles や cobit maturity model といった品質基準の確立された概念に依存している。 新しい目的のために既存のメトリクスを使用するのを避けるために、意図的に技術的な実装の可能性に限らない。 この論文の意図は、すべてのステークホルダー、特に同様のメトリクスに取り組んでいる他のグループ、そしてメトリクスを使用するエンティティとのさらなる議論のための現在の状態を共有することである。

Research data and software are widely accepted as an outcome of scientific work. However, in comparison to text-based publications, there is not yet an established process to assess and evaluate quality of research data and research software publications. This paper presents an attempt to fill this gap. Initiated by the Working Group Open Science of the Helmholtz Association the Task Group Helmholtz Quality Indicators for Data and Software Publications currently develops a quality indicator for research data and research software publications to be used within the Association. This report summarizes the vision of the group of what all contributes to such an indicator. The proposed approach relies on generic well-established concepts for quality criteria, such as the FAIR Principles and the COBIT Maturity Model. It does - on purpose - not limit itself to technical implementation possibilities to avoid using an existing metric for a new purpose. The intention of this paper is to share the current state for further discussion with all stakeholders, particularly with other groups also working on similar metrics but also with entities that use the metrics.
翻訳日:2024-01-29 17:11:12 公開日:2024-01-26
# No-Clean-Reference Image Super-Resolution: 電子顕微鏡への応用

No-Clean-Reference Image Super-Resolution: Application to Electron Microscopy ( http://arxiv.org/abs/2401.08115v2 )

ライセンス: Link先を確認
Mohammad Khateri, Morteza Ghahremani, Alejandra Sierra, and Jussi Tohka(参考訳) きれいな高分解能電子顕微鏡(EM)画像が大きな脳組織の体積で取得できないことは、多くの神経科学研究を妨げている。 この課題に対処するために,広視野(FoV)でクリーンなHR 3D-EMを,ノイズの多い低分解能(LR)取得から再構成する,深層学習に基づく画像超解像(SR)手法を提案する。 Our contributions are I) Investigating training with no-clean references for $\ell_2$ and $\ell_1$ loss functions; II) Introducing a novel network architecture, named EMSR, for enhancing the resolution of LR EM images while reducing inherent noise; and, III) Comparing different training strategies including using acquired LR and HR image pairs, i.e., real pairs with no-clean references contaminated with real corruptions, the pairs of synthetic LR and acquired HR, as well as acquired LR and denoised HR pairs. 9つの脳データセットを用いた実験により、実際のペアによるトレーニングは高品質な超解決結果を生み出すことができ、両方の損失関数に対する非クリーン参照によるトレーニングの可能性が示された。 さらに, 視覚的, 数値的にも, 聴覚的, 雑音的に比較した結果が得られた。 さらに,HR画像から生成したLR画像を用いてトレーニングしたネットワークを利用することで,実対よりも良好なSR結果が得られることがわかった。 提案するSRネットワークは,いくつかの確立されたSR手法と定量的・定性的に比較し,ノイズ低減において提案手法の優位性と競合性を示す。

The inability to acquire clean high-resolution (HR) electron microscopy (EM) images over a large brain tissue volume hampers many neuroscience studies. To address this challenge, we propose a deep-learning-based image super-resolution (SR) approach to computationally reconstruct clean HR 3D-EM with a large field of view (FoV) from noisy low-resolution (LR) acquisition. Our contributions are I) Investigating training with no-clean references for $\ell_2$ and $\ell_1$ loss functions; II) Introducing a novel network architecture, named EMSR, for enhancing the resolution of LR EM images while reducing inherent noise; and, III) Comparing different training strategies including using acquired LR and HR image pairs, i.e., real pairs with no-clean references contaminated with real corruptions, the pairs of synthetic LR and acquired HR, as well as acquired LR and denoised HR pairs. Experiments with nine brain datasets showed that training with real pairs can produce high-quality super-resolved results, demonstrating the feasibility of training with non-clean references for both loss functions. Additionally, comparable results were observed, both visually and numerically, when employing denoised and noisy references for training. Moreover, utilizing the network trained with synthetically generated LR images from HR counterparts proved effective in yielding satisfactory SR results, even in certain cases, outperforming training with real pairs. The proposed SR network was compared quantitatively and qualitatively with several established SR techniques, showcasing either the superiority or competitiveness of the proposed method in mitigating noise while recovering fine details.
翻訳日:2024-01-29 17:10:52 公開日:2024-01-26
# デュアルアーム微細操作のためのマルチタスクロボットデータ

Multi-task robot data for dual-arm fine manipulation ( http://arxiv.org/abs/2401.07603v2 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) ロボット操作の分野では、深層模倣学習が操作スキル獲得の有望なアプローチとして認識されている。 さらに、多様なロボットデータセットからの学習は、汎用性と適応性を達成するための有効な方法であると考えられている。 このような研究において、様々なタスクを学習することで、ロボットは複数の対象にまたがる汎用性を達成した。 しかし、こうしたマルチタスクロボットデータセットは、ロボットが現実世界で実行すると予想される細かいオブジェクト操作に対処せず、比較的不正確な単一アームタスクに主に焦点を当てている。 本稿では,2つのアームタスクや細かな操作を必要とするタスクを含む多様なオブジェクト操作のデータセットを紹介する。 この目的のために、ボウルムービング、鉛筆ケースのオープニング、バナナペリングといった2本腕の細かなタスクを含む224kエピソード(150時間、1104の言語命令)のデータセットを生成し、このデータを公開している。 さらにこのデータセットには、視覚注意信号とデュアルアクションラベル、アクションをロバストな到達軌跡とオブジェクトとの正確なインタラクションに分離する信号、ロバストで正確なオブジェクト操作を実現するための言語命令が含まれている。 このデータセットをDual-Action and Attention (DAA)に適用した。 このモデルは、実際のロボット操作タスクで7k以上のトータルトライアルでテストされ、細かい操作能力が実証された。 データセットはhttps://sites.google.com/view/multi-task-fineで利用可能である。

In the field of robotic manipulation, deep imitation learning is recognized as a promising approach for acquiring manipulation skills. Additionally, learning from diverse robot datasets is considered a viable method to achieve versatility and adaptability. In such research, by learning various tasks, robots achieved generality across multiple objects. However, such multi-task robot datasets have mainly focused on single-arm tasks that are relatively imprecise, not addressing the fine-grained object manipulation that robots are expected to perform in the real world. This paper introduces a dataset of diverse object manipulations that includes dual-arm tasks and/or tasks requiring fine manipulation. To this end, we have generated dataset with 224k episodes (150 hours, 1,104 language instructions) which includes dual-arm fine tasks such as bowl-moving, pencil-case opening or banana-peeling, and this data is publicly available. Additionally, this dataset includes visual attention signals as well as dual-action labels, a signal that separates actions into a robust reaching trajectory and precise interaction with objects, and language instructions to achieve robust and precise object manipulation. We applied the dataset to our Dual-Action and Attention (DAA), a model designed for fine-grained dual arm manipulation tasks and robust against covariate shifts. The model was tested with over 7k total trials in real robot manipulation tasks, demonstrating its capability in fine manipulation. The dataset is available at https://sites.google.com/view/multi-task-fine.
翻訳日:2024-01-29 17:10:15 公開日:2024-01-26
# 機械・深層学習に基づくソフトウェア工学研究の説明可能性に関する体系的文献レビュー

A Systematic Literature Review on Explainability for Machine/Deep Learning-based Software Engineering Research ( http://arxiv.org/abs/2401.14617v1 )

ライセンス: Link先を確認
Sicong Cao, Xiaobing Sun, Ratnadira Widyasari, David Lo, Xiaoxue Wu, Lili Bo, Jiale Zhang, Bin Li, Wei Liu, Di Wu, Yixin Chen(参考訳) 人工知能(AI)アルゴリズムの顕著な成果、特に機械学習(ML)とディープラーニング(DL)は、ソフトウェア工学(SE)を含む複数の分野にまたがって広範囲に展開している。 しかし、そのブラックボックスの性質のため、これらの有望なAI駆動SEモデルは、実際にデプロイされるには程遠い。 この説明責任の欠如は、意思決定の透明性が最重要事項である脆弱性検出などの重要なタスクにおいて、アプリケーションに望ましくないリスクをもたらす。 本稿では、SEの文脈におけるAIモデルの説明可能性の向上を目的とした、系統的な文献レビューを行い、この学際領域の解明に努める。 このレビューは、最も著名なSE & AIカンファレンスやジャーナルに登場し、21のSEタスクにわたる63の論文にまたがる。 3つの重要な研究課題(RQ)に基づいて,(1)XAI技術がこれまで成功してきたSEタスクの要約,(2)異なるXAI手法の分類と分析,(3)既存の評価手法の検証を目指す。 調査の結果から,既存の研究で取り組まなければならない課題の集合と,今後の作業に適切かつ重要と考えられる可能性を示すロードマップが明らかになった。

The remarkable achievements of Artificial Intelligence (AI) algorithms, particularly in Machine Learning (ML) and Deep Learning (DL), have fueled their extensive deployment across multiple sectors, including Software Engineering (SE). However, due to their black-box nature, these promising AI-driven SE models are still far from being deployed in practice. This lack of explainability poses unwanted risks for their applications in critical tasks, such as vulnerability detection, where decision-making transparency is of paramount importance. This paper endeavors to elucidate this interdisciplinary domain by presenting a systematic literature review of approaches that aim to improve the explainability of AI models within the context of SE. The review canvasses work appearing in the most prominent SE & AI conferences and journals, and spans 63 papers across 21 unique SE tasks. Based on three key Research Questions (RQs), we aim to (1) summarize the SE tasks where XAI techniques have shown success to date; (2) classify and analyze different XAI techniques; and (3) investigate existing evaluation approaches. Based on our findings, we identified a set of challenges remaining to be addressed in existing studies, together with a roadmap highlighting potential opportunities we deemed appropriate and important for future work.
翻訳日:2024-01-29 16:17:07 公開日:2024-01-26
# 代替音声:より良い談話のためのカウンターナラティブの補完方法

Alternative Speech: Complementary Method to Counter-Narrative for Better Discourse ( http://arxiv.org/abs/2401.14616v1 )

ライセンス: Link先を確認
Seungyoon Lee, Dahyun Jung, Chanjun Park, Seolhwa Lee, Heuiseok Lim(参考訳) ヘイトスピーチと直接闘う新しい方法として「代替言論」の概念を導入し,反ナレーションの限界を補完する。 代替音声は、周囲の文脈を考慮しながら話者に発話レベルを補正し、話者に改革を促すことによって、現実のシナリオにおけるヘイトスピーチの実用的な代替手段を提供する。 さらに、ヘイトスピーチと反ナラティブとを闘い、差別や男女不平等といった社会問題に対処するための有用なツールを提供する。 我々は,新しい概念を提案し,必要なデータセットを構築するための詳細なガイドラインを提供する。 議論を通じて、代替音声と反ナラティブを組み合わせることは、反ナラティブの具体性と指導能力を補完し、ヘイトスピーチと戦うためのより効果的な戦略であることを示す。 本稿では,ヘイトスピーチに対する別の視点を提示し,有害なバイアスを緩和するための現在のアプローチの制約を補完する有効な治療を提供する。

We introduce the concept of "Alternative Speech" as a new way to directly combat hate speech and complement the limitations of counter-narrative. An alternative speech provides practical alternatives to hate speech in real-world scenarios by offering speech-level corrections to speakers while considering the surrounding context and promoting speakers to reform. Further, an alternative speech can combat hate speech alongside counter-narratives, offering a useful tool to address social issues such as racial discrimination and gender inequality. We propose the new concept and provide detailed guidelines for constructing the necessary dataset. Through discussion, we demonstrate that combining alternative speech and counter-narrative can be a more effective strategy for combating hate speech by complementing specificity and guiding capacity of counter-narrative. This paper presents another perspective for dealing with hate speech, offering viable remedies to complement the constraints of current approaches to mitigating harmful bias.
翻訳日:2024-01-29 16:16:45 公開日:2024-01-26
# 時間変化のない不均一媒質における産業システムモデリングのための物理インフォーム同期適応学習

Physically Informed Synchronic-adaptive Learning for Industrial Systems Modeling in Heterogeneous Media with Unavailable Time-varying Interface ( http://arxiv.org/abs/2401.14609v1 )

ライセンス: Link先を確認
Aina Wang, Pan Qin, Xi-Ming Sun(参考訳) 偏微分方程式(PDE)は、多変数依存を特徴とする複雑な産業システムのモデル化に一般的に用いられる。 既存の物理インフォームドニューラルネットワーク(PINN)は、均質媒質におけるPDEの解法に優れている。 しかし、物理属性の欠如によりPDEパラメータが不明な場合にその実現可能性が低下し、異種媒質から生じる時間変化インタフェースが利用できない。 そこで本研究では,異種メディアにおける産業システムモデリングのためのPDEを解決するために,物理情報を用いた同期適応学習法(PISAL)を提案する。 まず、PDEとインターフェースを満たすソリューションを近似するために、Net1、Net2、NetIが構築される。 net1 と net2 は pdes を満たす各解を多様なパラメータで同期的に学習し、neti は未使用の時変インタフェースを適応的に学習する。 そして、NetIと組み合わせた基準を導入し、測定点とコロケーション点の属性を適応的に識別する。 さらに、NetIはデータ物理ハイブリッド損失関数に統合される。 そこで、各サブドメインを分解・最適化するために、同期適応学習(SAL)戦略を提案する。 さらに,PISALの近似能力についても理論的に検証した。 物理属性の欠如や時間変化の少ないインターフェースに直面する不均一なメディアにおける産業システムモデリングにおいて,提案手法が有効であることを確認した。

Partial differential equations (PDEs) are commonly employed to model complex industrial systems characterized by multivariable dependence. Existing physics-informed neural networks (PINNs) excel in solving PDEs in a homogeneous medium. However, their feasibility is diminished when PDE parameters are unknown due to a lack of physical attributions and time-varying interface is unavailable arising from heterogeneous media. To this end, we propose a data-physics-hybrid method, physically informed synchronic-adaptive learning (PISAL), to solve PDEs for industrial systems modeling in heterogeneous media. First, Net1, Net2, and NetI, are constructed to approximate the solutions satisfying PDEs and the interface. Net1 and Net2 are utilized to synchronously learn each solution satisfying PDEs with diverse parameters, while NetI is employed to adaptively learn the unavailable time-varying interface. Then, a criterion combined with NetI is introduced to adaptively distinguish the attributions of measurements and collocation points. Furthermore, NetI is integrated into a data-physics-hybrid loss function. Accordingly, a synchronic-adaptive learning (SAL) strategy is proposed to decompose and optimize each subdomain. Besides, we theoretically prove the approximation capability of PISAL. Extensive experimental results verify that the proposed PISAL can be used for industrial systems modeling in heterogeneous media, which faces the challenges of lack of physical attributions and unavailable time-varying interface.
翻訳日:2024-01-29 16:16:28 公開日:2024-01-26
# ゼロ磁場で動作する超伝導磁束量子ビット

Superconducting flux qubit operating at zero magnetic field ( http://arxiv.org/abs/2401.14597v1 )

ライセンス: Link先を確認
Sunmi Kim, Leonid V. Abdurakhimov, Duong Pham, Wei Qiu, Hirotaka Terai, Sahel Ashhab, Shiro Saito, Taro Yamashita, and Kouichi Semba(参考訳) 従来の超伝導束量子ビットの演算は、量子ビットループを通したフラックス量子の半分の演算点を設定するために、正確に調整された磁場を適用する必要があるため、この種の量子ビットに基づく量子回路のスケーリングは困難である。 精密に制御されたナノスケール・タイクネス超伝導体/フェロマグネット/スーパーコンダクタジョセフソン接合を用いて超伝導次数パラメータのpi位相シフトを誘導することにより、ゼロ磁束で動作する磁束量子ビットを実現できることが提案されている。 3つのNbN/AlN/NbNジョセフソン接合とNbN/PdNi/NbN強磁性π接合に基づくゼロフラックスバイアス束量子ビットの実現を報告した。 量子ビット寿命はマイクロ秒の範囲にあり、これは金属強磁性体の準粒子励起によって制限される。 強磁性接合の材料をさらに改良することにより、ゼロフラックスバイアスのフラックス量子ビットは量子コンピューティングにとって有望なプラットフォームとなる。

The operation of a conventional superconducting flux qubit requires the application of a precisely tuned magnetic field to set the operation point at half a flux quantum through the qubit loop, which makes the scaling of quantum circuits based on this type of qubits difficult. It has been proposed that, by inducing a pi phase shift in the superconducting order parameter using a precisely controlled nanoscale-thickness superconductor/ferromagnet/superconductor Josephson junction, commonly referred to as pi-junction, it is possible to realize a flux qubit operating at zero magnetic flux. We report the realization of a zero-flux-biased flux qubit based on three NbN/AlN/NbN Josephson junctions and a NbN/PdNi/NbN ferromagnetic pi-junction. The qubit lifetime is in the microsecond range, which we argue is limited by quasiparticle excitations in the metallic ferromagnet layer. With further improvements in the materials of the ferromagnetic junction, the zero-flux-biased flux qubits can become a promising platform for quantum computing.
翻訳日:2024-01-29 16:16:04 公開日:2024-01-26
# グループ化データを用いたパレートスケールパラメータのロバスト推定

Robust Estimation of Pareto's Scale Parameter from Grouped Data ( http://arxiv.org/abs/2401.14593v1 )

ライセンス: Link先を確認
Chudamani Poudyal(参考訳) 多くの頑健な推定器は、完全に観測された基底損失重度サンプルデータセットが利用可能である場合に、最大極大推定器(MLE)の代替として存在する。 しかしながら、mle のロバストな代替案の選択肢は、最小二乗法、最小ヘリング距離法、最適有界影響関数などの一握りの方法だけで、グループ化された損失重大データを扱う場合、大幅に制限される。 本稿では,グループ化データからパレート分布のテール指標を推定するために,新しいロバストな推定手法である断続モーメント法(mtum)を提案する。 MTuMの推論正当性は、中心極限定理を用いて、包括的なシミュレーション研究を通じて検証することによって確立される。

Numerous robust estimators exist as alternatives to the maximum likelihood estimator (MLE) when a completely observed ground-up loss severity sample dataset is available. However, the options for robust alternatives to MLE become significantly limited when dealing with grouped loss severity data, with only a handful of methods like least squares, minimum Hellinger distance, and optimal bounded influence function available. This paper introduces a novel robust estimation technique, the Method of Truncated Moments (MTuM), specifically designed to estimate the tail index of a Pareto distribution from grouped data. Inferential justification of MTuM is established by employing the central limit theorem and validating them through a comprehensive simulation study.
翻訳日:2024-01-29 16:15:44 公開日:2024-01-26
# ricciフロー誘導オートエンコーダによる学習時間依存ダイナミクス

Ricci flow-guided autoencoders in learning time-dependent dynamics ( http://arxiv.org/abs/2401.14591v1 )

ライセンス: Link先を確認
Andrew Gracyk(参考訳) 本稿では,時間的非線形力学,特に偏微分方程式 (PDE) を学習するための多様体ベースのオートエンコーダ法を提案する。 これはリッチフローを物理的に変形した設定でシミュレートすることで達成でき、多様体量はリッチフローが経験的に達成されるように一致させることができる。 我々の方法論では、多様体は訓練手順の一部として学習されるので、理想的な測地は識別されうるが、進化は静的な方法よりも共役な潜在表現を同時に引き起こす。 本稿では,周期性やランダム性,分布内誤差,外挿シナリオなどの望ましい特徴を包含するPDEを用いた数値実験について述べる。

We present a manifold-based autoencoder method for learning nonlinear dynamics in time, notably partial differential equations (PDEs), in which the manifold latent space evolves according to Ricci flow. This can be accomplished by simulating Ricci flow in a physics-informed setting, and manifold quantities can be matched so that Ricci flow is empirically achieved. With our methodology, the manifold is learned as part of the training procedure, so ideal geometries may be discerned, while the evolution simultaneously induces a more accommodating latent representation over static methods. We present our method on a range of numerical experiments consisting of PDEs that encompass desirable characteristics such as periodicity and randomness, remarking error on in-distribution and extrapolation scenarios.
翻訳日:2024-01-29 16:15:29 公開日:2024-01-26
# マルチエージェント会話による診断精度の向上: 大きな言語モデルを用いた認知バイアスの軽減

Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias ( http://arxiv.org/abs/2401.14589v1 )

ライセンス: Link先を確認
Yu He Ke, Rui Yang, Sui An Lie, Taylor Xin Yi Lim, Hairil Rizal Abdullah, Daniel Shu Wei Ting, Nan Liu(参考訳) 背景: 臨床的意思決定における認知バイアスは, 診断の誤りや患者準最適結果に大きく寄与する。 これらの偏見に対処することは、医療分野において恐ろしい課題となる。 本研究では,マルチエージェントフレームワークの利用によるバイアス緩和における大規模言語モデル(llm)の役割について検討する。 マルチエージェント会話による臨床意思決定過程をシミュレートし,その診断精度向上効果を評価した。 方法: 認知バイアスにより誤診が生じた症例は, 合計16件が報告され, 未公表となった。 マルチエージェントシステムでは,gpt-4ターボを用いて4つのシミュレーションエージェント間の相互作用を促進させ,臨床チームのダイナミクスを再現した。 それぞれのエージェントには 異なる役割があります 1)議論を考慮し、初期及び最終診断を行う。 2)悪魔の擁護者であり、正しい確認と偏見の根絶。 3)早期閉鎖バイアスを軽減するための議論の指導者及び推進者 4) 結果の記録と要約を行う。 初期診断の精度,トップディファレンシャル診断,最終2つのディファレンシャル診断において80のシミュレーションが評価された。 結果: 初期診断と最終診断の両方を評価する80の回答において, 初期診断は0% (0/80) の精度を示したが, マルチエージェントによる検討の結果, 上位鑑別診断の精度は71.3% (57/80), 最終診断は80.0% (64/80) に上昇した。 このシステムは、誤解を招く初期調査のシナリオであっても、誤解を再評価し、修正する能力を示した。 解釈: LLM駆動型マルチエージェント会話システムでは,診断に難渋する医療シナリオにおける診断精度の向上が期待できる。

Background: Cognitive biases in clinical decision-making significantly contribute to errors in diagnosis and suboptimal patient outcomes. Addressing these biases presents a formidable challenge in the medical field. This study explores the role of large language models (LLMs) in mitigating these biases through the utilization of a multi-agent framework. We simulate the clinical decision-making processes through multi-agent conversation and evaluate its efficacy in improving diagnostic accuracy. Methods: A total of 16 published and unpublished case reports where cognitive biases have resulted in misdiagnoses were identified from the literature. In the multi-agent system, we leveraged GPT-4 Turbo to facilitate interactions among four simulated agents to replicate clinical team dynamics. Each agent has a distinct role: 1) To make the initial and final diagnosis after considering the discussions, 2) The devil's advocate and correct confirmation and anchoring bias, 3) The tutor and facilitator of the discussion to reduce premature closure bias, and 4) To record and summarize the findings. A total of 80 simulations were evaluated for the accuracy of initial diagnosis, top differential diagnosis and final two differential diagnoses. Findings: In a total of 80 responses evaluating both initial and final diagnoses, the initial diagnosis had an accuracy of 0% (0/80), but following multi-agent discussions, the accuracy for the top differential diagnosis increased to 71.3% (57/80), and for the final two differential diagnoses, to 80.0% (64/80). The system demonstrated an ability to reevaluate and correct misconceptions, even in scenarios with misleading initial investigations. Interpretation: The LLM-driven multi-agent conversation system shows promise in enhancing diagnostic accuracy in diagnostically challenging medical scenarios.
翻訳日:2024-01-29 16:15:15 公開日:2024-01-26
# cna-tta: オンラインオフラインテスト時間適応のためのクラスタ内でのクリーンでノイズの多い機能学習

CNA-TTA: Clean and Noisy Region Aware Feature Learning within Clusters for Online-Offline Test-Time Adaptation ( http://arxiv.org/abs/2401.14587v1 )

ライセンス: Link先を確認
Hyeonwoo Cho, Chanmin Park, Jinyoung Kim, Won Hwa Kim(参考訳) トレーニング(ソース)とテスト(ターゲット)データが分散で分散する場合、ドメインシフトが発生する。 テスト時間適応(TTA)は、十分に訓練されたソースモデルとラベルなしのターゲットデータのみが利用可能なシナリオにおいて、ソースドメイン上のトレーニングされたモデルをターゲットドメインに適用することを目的として、ドメインシフト問題に対処する。 このシナリオでは、モデル性能に悪影響を及ぼすため、ターゲットドメインにおける偽のラベルを扱うことが重要です。 この問題に対処するために、ソースモデルにより定式化された対象領域におけるクラスタ構造(例えば、各クラスタ内の {`Clean'} と {`Noisy'} の領域)を活用することを提案する。 ターゲットサンプルの初期クラスタリングが与えられると、まずクラスタのプロトタイプ(すなわち、各クラスタのcentroid)に基づいて定義された {`clean'} と {`noisy'} 領域にクラスタを分割します。 これらの領域は真偽ラベルの分布が全く異なるため、クリーン領域とノイズ領域の異なるトレーニング戦略を採用し、クリーン領域のクリーン擬似ラベルでターゲットを選択的に訓練する一方で、クリーン領域とノイズ領域の中間特徴を表すミックスアップ入力を導入し、クラスタのコンパクト性を高める。 オンライン/オフラインのtta設定において,複数のデータセットについて広範な実験を行い,その有効性を確認した。

A domain shift occurs when training (source) and test (target) data diverge in their distribution. Test-time adaptation (TTA) addresses the domain shift problem, aiming to adopt a trained model on the source domain to the target domain in a scenario where only a well-trained source model and unlabeled target data are available. In this scenario, handling false labels in the target domain is crucial because they negatively impact the model performance. To deal with this problem, we propose to utilize cluster structure (i.e., {`Clean'} and {`Noisy'} regions within each cluster) in the target domain formulated by the source model. Given an initial clustering of target samples, we first partition clusters into {`Clean'} and {`Noisy'} regions defined based on cluster prototype (i.e., centroid of each cluster). As these regions have totally different distributions of the true pseudo-labels, we adopt distinct training strategies for the clean and noisy regions: we selectively train the target with clean pseudo-labels in the clean region, whereas we introduce mixup inputs representing intermediate features between clean and noisy regions to increase the compactness of the cluster. We conducted extensive experiments on multiple datasets in online/offline TTA settings, whose results demonstrate that our method, {CNA-TTA}, achieves state-of-the-art for most cases.
翻訳日:2024-01-29 16:14:46 公開日:2024-01-26
# min-max問題に対する拡散確率最適化

Diffusion Stochastic Optimization for Min-Max Problems ( http://arxiv.org/abs/2401.14585v1 )

ライセンス: Link先を確認
Haoyuan Cai, Sulaiman A. Alghunaim, Ali H. Sayed(参考訳) 楽観的勾配法はミニマックス最適化問題に対処するのに有用である。 従来の確率的バージョンは$\mathcal{o}(\varepsilon^{-2})$で$\varepsilon$定常解を達成するために大きなバッチサイズを必要とするという観測に動機づけられ、新しい定式化である拡散確率的同値楽観的勾配 (dss-og) を導入し分析した。 非凸ポリak-lojasiewicz (pl) のリスク関数のより一般的な設定の下で、より厳密な上界を確立することにより、その収束を証明し、大きなバッチ問題を解く。 また,提案手法の適用性を分散シナリオに拡張し,エージェントが左派プロトコルを介して隣人と通信する。 DSS-OGを実装するために,確率勾配オーラクルとメモリオーバーヘッドの増大を並列にクエリすることで,従来のものと同等の複雑性を実現する。 提案アルゴリズムの有効性を示すために,生成逆ネットワークを訓練してテストを行う。

The optimistic gradient method is useful in addressing minimax optimization problems. Motivated by the observation that the conventional stochastic version suffers from the need for a large batch size on the order of $\mathcal{O}(\varepsilon^{-2})$ to achieve an $\varepsilon$-stationary solution, we introduce and analyze a new formulation termed Diffusion Stochastic Same-Sample Optimistic Gradient (DSS-OG). We prove its convergence and resolve the large batch issue by establishing a tighter upper bound, under the more general setting of nonconvex Polyak-Lojasiewicz (PL) risk functions. We also extend the applicability of the proposed method to the distributed scenario, where agents communicate with their neighbors via a left-stochastic protocol. To implement DSS-OG, we can query the stochastic gradient oracles in parallel with some extra memory overhead, resulting in a complexity comparable to its conventional counterpart. To demonstrate the efficacy of the proposed algorithm, we conduct tests by training generative adversarial networks.
翻訳日:2024-01-29 16:14:16 公開日:2024-01-26
# AVELA - エンジニアリングのリテラシーとアクセスのビジョン - テクノロジが不十分な理由を理解する

AVELA -- A Vision for Engineering Literacy & Access: Understanding Why Technology Alone Is Not Enough ( http://arxiv.org/abs/2401.14581v1 )

ライセンス: Link先を確認
Kyle Johnson, Vicente Arroyos, Celeste Garcia, Liban Hussein, Aisha Cora, Tsewone Melaku, Jay L. Cunningham, R. Benjamin Shapiro, Vikram Iyer(参考訳) 黒とラテンのコミュニティにおける不平等な技術アクセスは、携帯電話、タブレット、コンピュータなどの消費者電子製品の発展による技術アクセス性の向上にもかかわらず、永続的な経済的、社会的正義、人権の問題である。 我々は,黒人とラテン系都市社会における社会技術的アクセスの不平等を状況的に把握し,多くの学生が支援システムの欠如により利用可能な技術への関与をためらっていることを発見した。 avela - エンジニアリングリテラシーとアクセスのためのビジョンで、文化的にレスポンシブなレッスン、メンタエンボディされたコミュニティ表現、サービス学習を活用する。 4年間に渡り,100以上の教室で2500人以上の中学生に教える200人以上の教員を指導し,そのモデルの効果を評価するために,大学匿名組織会員を対象に24回の半構造化インタビューを行った。 我々は、アクセス障壁を特定し、将来のSTEM教育プログラムを設計するための原則化された勧告を提供する。

Unequal technology access for Black and Latine communities has been a persistent economic, social justice, and human rights issue despite increased technology accessibility due to advancements in consumer electronics like phones, tablets, and computers. We contextualize socio-technical access inequalities for Black and Latine urban communities and find that many students are hesitant to engage with available technologies due to a lack of engaging support systems. We present a holistic student-led STEM engagement model through AVELA - A Vision for Engineering Literacy and Access leveraging culturally responsive lessons, mentor embodied community representation, and service learning. To evaluate the model's impact after 4 years of mentoring 200+ university student instructors in teaching to 2,500+ secondary school students in 100+ classrooms, we conducted 24 semi-structured interviews with college AnonymizedOrganization members. We identify access barriers and provide principled recommendations for designing future STEM education programs.
翻訳日:2024-01-29 16:13:55 公開日:2024-01-26
# 自分自身の宇宙をデザインする: グラフニューラルネットワークを実現する物理インフォームド・アグノスティックな方法

Design Your Own Universe: A Physics-Informed Agnostic Method for Enhancing Graph Neural Networks ( http://arxiv.org/abs/2401.14580v1 )

ライセンス: Link先を確認
Dai Shi, Andi Han, Lequan Lin, Yi Guo, Zhiyong Wang, Junbin Gao(参考訳) 物理インフォームドグラフニューラルネットワークは、オーバースムーシング、オーバースキャッシング、ヘテロフィリー適応といった一般的なGNNの課題を緩和することで、グラフ構造化データを通じて学習において顕著なパフォーマンスを達成した。 これらの進歩にもかかわらず、これらの課題に対処するための従来の手法を適切に統合する、単純で効果的なパラダイムの開発はまだ進行中である。 本稿では,GNNと物理系における粒子系の伝播の類似を図り,モデルに依存しない拡張フレームワークを提案する。 このフレームワークは、追加ノードを導入し、ノードラベル情報によってガイドされる正と負の重みの両方で接続を切り替えることで、グラフ構造を強化する。 提案手法によって強化されたGNNが,過度にスムースな問題を効果的に回避し,過度なスキャッシングに対する堅牢性を示すことを理論的に検証する。 さらに,リワイヤグラフのスペクトル解析を行い,対応するgnnがホモ親和グラフとヘテロ親和グラフの両方に適合することを示す。 また,同好性グラフ,異好性グラフ,長期グラフデータセットのベンチマークに対する実証的検証により,GNNが元のグラフよりも優れていることが示された。

Physics-informed Graph Neural Networks have achieved remarkable performance in learning through graph-structured data by mitigating common GNN challenges such as over-smoothing, over-squashing, and heterophily adaption. Despite these advancements, the development of a simple yet effective paradigm that appropriately integrates previous methods for handling all these challenges is still underway. In this paper, we draw an analogy between the propagation of GNNs and particle systems in physics, proposing a model-agnostic enhancement framework. This framework enriches the graph structure by introducing additional nodes and rewiring connections with both positive and negative weights, guided by node labeling information. We theoretically verify that GNNs enhanced through our approach can effectively circumvent the over-smoothing issue and exhibit robustness against over-squashing. Moreover, we conduct a spectral analysis on the rewired graph to demonstrate that the corresponding GNNs can fit both homophilic and heterophilic graphs. Empirical validations on benchmarks for homophilic, heterophilic graphs, and long-term graph datasets show that GNNs enhanced by our method significantly outperform their original counterparts.
翻訳日:2024-01-29 16:13:35 公開日:2024-01-26
# 単一分布分類モデルによる食品画像中の複数の成分の認識

Recognizing Multiple Ingredients in Food Images Using a Single-Ingredient Classification Model ( http://arxiv.org/abs/2401.14579v1 )

ライセンス: Link先を確認
Kun Fu, and Ying Dai(参考訳) 食品画像の認識には,調理方法や切断方法の異なる食材の空間配置や形状の変化など,独特の課題がある。 本研究では,食品画像から区切られた成分を認識するための高度なアプローチを提案する。 この方法は、位置決めおよびスライドウィンドウ技術を用いて、成分の候補領域をローカライズする。 次に、これらの領域をcnn(convolutional neural network)ベースの単一冗長分類モデルを用いて、単一冗長画像のデータセット上でトレーニングされた成分クラスに割り当てる。 マルチingredient recognitionにおける処理速度の課題に対処するために,分類モデルの効率を向上させる新しいモデルプルーニング法を提案する。 その後、2つの新しいアルゴリズムを組み込んだ意思決定スキームによって、多元的識別を実現する。 New Food Ingredients List FOODS 2021" という本に従って設計された単一独立画像データセットは、110の多様なカテゴリにわたる9982のイメージを含み、材料形状の多様性を強調している。 さらに,本手法の性能評価を行うために,多言語画像データセットを開発した。 実験により, 本手法の有効性, 特に複数の成分の認識能力の向上が示された。 これは食品画像分析の分野で重要な進歩を示している。

Recognizing food images presents unique challenges due to the variable spatial layout and shape changes of ingredients with different cooking and cutting methods. This study introduces an advanced approach for recognizing ingredients segmented from food images. The method localizes the candidate regions of the ingredients using the locating and sliding window techniques. Then, these regions are assigned into ingredient classes using a CNN (Convolutional Neural Network)-based single-ingredient classification model trained on a dataset of single-ingredient images. To address the challenge of processing speed in multi-ingredient recognition, a novel model pruning method is proposed that enhances the efficiency of the classification model. Subsequently, the multi-ingredient identification is achieved through a decision-making scheme, incorporating two novel algorithms. The single-ingredient image dataset, designed in accordance with the book entitled "New Food Ingredients List FOODS 2021", encompasses 9982 images across 110 diverse categories, emphasizing variety in ingredient shapes. In addition, a multi-ingredient image dataset is developed to rigorously evaluate the performance of our approach. Experimental results validate the effectiveness of our method, particularly highlighting its improved capability in recognizing multiple ingredients. This marks a significant advancement in the field of food image analysis.
翻訳日:2024-01-29 16:13:10 公開日:2024-01-26
# GOAt: グラフ出力属性によるグラフニューラルネットワークの説明

GOAt: Explaining Graph Neural Networks via Graph Output Attribution ( http://arxiv.org/abs/2401.14578v1 )

ライセンス: Link先を確認
Shengyao Lu, Keith G. Mills, Jiao He, Bang Liu, Di Niu(参考訳) グラフニューラルネットワーク(GNN)の意思決定プロセスを理解することは、その解釈可能性に不可欠である。 既存のGNNの説明法の多くは、通常、補助モデルの訓練に頼っているため、説明はブラックボックスのままである。 本稿では,グラフ出力を入力グラフ特徴に属性づけする新しい手法であるグラフ出力帰属法(goat)について紹介する。 ノード機能,エッジ機能,アクティベーションパターンを含むスカラー製品の合計としてgnnを拡張することにより,各スカラー製品に対する各ノードあるいはエッジ機能の寄与度を計算し,すべてのスカラー製品からの貢献度を拡張形式で集計し,各ノードとエッジの重要性を導出する効率的な分析手法を提案する。 総合的および実世界データに関する広範な実験により,本手法は,多種多様な最先端gnn説明器を,一般的な忠実度指標で上回るだけでなく,識別性,安定性も著しく向上することを示した。

Understanding the decision-making process of Graph Neural Networks (GNNs) is crucial to their interpretability. Most existing methods for explaining GNNs typically rely on training auxiliary models, resulting in the explanations remain black-boxed. This paper introduces Graph Output Attribution (GOAt), a novel method to attribute graph outputs to input graph features, creating GNN explanations that are faithful, discriminative, as well as stable across similar samples. By expanding the GNN as a sum of scalar products involving node features, edge features and activation patterns, we propose an efficient analytical method to compute contribution of each node or edge feature to each scalar product and aggregate the contributions from all scalar products in the expansion form to derive the importance of each node and edge. Through extensive experiments on synthetic and real-world data, we show that our method not only outperforms various state-ofthe-art GNN explainers in terms of the commonly used fidelity metric, but also exhibits stronger discriminability, and stability by a remarkable margin.
翻訳日:2024-01-29 16:12:50 公開日:2024-01-26
# PrivStream: 異なるプライベートデータをストリーミングするアルゴリズム

PrivStream: An Algorithm for Streaming Differentially Private Data ( http://arxiv.org/abs/2401.14577v1 )

ライセンス: Link先を確認
Girish Kumar, Thomas Strohmer, and Roman Vershynin(参考訳) ディファレンシャルプライバシに関する調査の多くは、すべてのデータが同時に利用できるという仮定で、オフラインアプリケーションに焦点を当てている。 これらのアルゴリズムが、データが時間の経過とともに収集されるストリームに実際に適用される場合、プライバシ保証に違反するか、ユーティリティが低下する。 本稿では,特に空間データセットを指向した,微分的にプライベートな合成ストリーミングデータ生成のためのアルゴリズムを導出する。 さらに,問合せ応答や合成データ生成など,多くのタスクの基盤となるクエリの集合のうち,オンライン選択カウントのための一般的なフレームワークを提供する。 本アルゴリズムの有効性は実世界とシミュレーションデータセットの両方で検証される。

Much of the research in differential privacy has focused on offline applications with the assumption that all data is available at once. When these algorithms are applied in practice to streams where data is collected over time, this either violates the privacy guarantees or results in poor utility. We derive an algorithm for differentially private synthetic streaming data generation, especially curated towards spatial datasets. Furthermore, we provide a general framework for online selective counting among a collection of queries which forms a basis for many tasks such as query answering and synthetic data generation. The utility of our algorithm is verified on both real-world and simulated datasets.
翻訳日:2024-01-29 16:12:29 公開日:2024-01-26
# 自動運転車における車内インタラクションの再考

Driving Towards Inclusion: Revisiting In-Vehicle Interaction in Autonomous Vehicles ( http://arxiv.org/abs/2401.14571v1 )

ライセンス: Link先を確認
Ashish Bastola, Julian Brinkley, Hao Wang, Abolfazl Razi(参考訳) 本稿では、自動運転車における車内ヒューマンコンピュータインタラクション(HCI)の現状について、包摂性とアクセシビリティに特に焦点をあてた総合的な文献レビューを行う。 本研究の目的は、自動運転車におけるhciを包括するユーザ中心の設計原則を検証し、既存のhciシステムを評価し、乗客エクスペリエンスを向上させる可能性のある新興技術を特定することである。 論文は、自動運転車技術の現状の概要と、この文脈におけるhciの重要性についての検討から始まります。 次に,既存のhci設計原理に関する文献をレビューし,現行の自動運転車におけるhciシステムの有効性について評価する。 この論文はまた、音声操作インターフェース、触覚フィードバックシステム、拡張現実ディスプレイなど、乗客体験を強化する可能性のある新しい技術も明らかにした。 最後に,障害のある人やアクセシビリティ要件を含む全乗客のニーズを考慮した,包括的車内体験開発のためのエンドツーエンド設計フレームワークを提案する。 本論文は、自動運転車用hciシステム開発におけるユーザ中心設計原則の重要性を強調するとともに、すべての乗客が安全かつ快適にこれらの車両を使用できるようにするための包括的設計の必要性を強調する。 提案するエンドツーエンド設計フレームワークは、この目標を達成するための実用的なアプローチを提供し、この分野のデザイナー、研究者、政策立案者にとって貴重なリソースとなる。

This paper presents a comprehensive literature review of the current state of in-vehicle human-computer interaction (HCI) in the context of self-driving vehicles, with a specific focus on inclusion and accessibility. This study's aim is to examine the user-centered design principles for inclusive HCI in self-driving vehicles, evaluate existing HCI systems, and identify emerging technologies that have the potential to enhance the passenger experience. The paper begins by providing an overview of the current state of self-driving vehicle technology, followed by an examination of the importance of HCI in this context. Next, the paper reviews the existing literature on inclusive HCI design principles and evaluates the effectiveness of current HCI systems in self-driving vehicles. The paper also identifies emerging technologies that have the potential to enhance the passenger experience, such as voice-activated interfaces, haptic feedback systems, and augmented reality displays. Finally, the paper proposes an end-to-end design framework for the development of an inclusive in-vehicle experience, which takes into consideration the needs of all passengers, including those with disabilities, or other accessibility requirements. This literature review highlights the importance of user-centered design principles in the development of HCI systems for self-driving vehicles and emphasizes the need for inclusive design to ensure that all passengers can safely and comfortably use these vehicles. The proposed end-to-end design framework provides a practical approach to achieving this goal and can serve as a valuable resource for designers, researchers, and policymakers in this field.
翻訳日:2024-01-29 16:12:19 公開日:2024-01-26
# unit-dsr: 音声単位正規化を用いたdysarthric speech reconstruction system

UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization ( http://arxiv.org/abs/2401.14664v1 )

ライセンス: Link先を確認
Yuejiao Wang, Xixin Wu, Disong Wang, Lingwei Meng, Helen Meng(参考訳) dysarthric speech reconstruction (dsr)システムは、dysarthric speechを正常な音声に自動変換することを目的としている。 この技術は、神経運動障害の影響を受ける話者とのコミュニケーションを容易化し、社会的包摂性を高める。 ned-based (neural encoder-decoder) システムはgan-based (generative adversarial network) アプローチと比較して, 再構成音声の理解性を大幅に向上させたが, カスケードパイプラインとコンテンツエンコーダの補助タスクによる非効率の訓練によって制限され, コンテントエンコーダのクオリティに影響を及ぼす可能性がある。 自己教師型音声表現学習と離散音声単位に着想を得て,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。 nedアプローチと比較して、unit-dsrシステムは音声単位正規化器と単位hifi-ganボコーダのみで構成されており、これはカスケードされたサブモジュールや補助タスクなしでかなり単純である。 UASpeech corpus の結果は、Unit-DSR がコンテンツ復元において競争ベースラインより優れており、元来の変形音声と比較して28.2%の平均単語誤り率の低下に達し、速度の摂動やノイズに対する堅牢性を示していることを示している。

Dysarthric speech reconstruction (DSR) systems aim to automatically convert dysarthric speech into normal-sounding speech. The technology eases communication with speakers affected by the neuromotor disorder and enhances their social inclusion. NED-based (Neural Encoder-Decoder) systems have significantly improved the intelligibility of the reconstructed speech as compared with GAN-based (Generative Adversarial Network) approaches, but the approach is still limited by training inefficiency caused by the cascaded pipeline and auxiliary tasks of the content encoder, which may in turn affect the quality of reconstruction. Inspired by self-supervised speech representation learning and discrete speech units, we propose a Unit-DSR system, which harnesses the powerful domain-adaptation capacity of HuBERT for training efficiency improvement and utilizes speech units to constrain the dysarthric content restoration in a discrete linguistic space. Compared with NED approaches, the Unit-DSR system only consists of a speech unit normalizer and a Unit HiFi-GAN vocoder, which is considerably simpler without cascaded sub-modules or auxiliary tasks. Results on the UASpeech corpus indicate that Unit-DSR outperforms competitive baselines in terms of content restoration, reaching a 28.2% relative average word error rate reduction when compared to original dysarthric speech, and shows robustness against speed perturbation and noise.
翻訳日:2024-01-29 16:05:38 公開日:2024-01-26
# 知識グラフを用いた複合質問応答帰属における大規模言語モデルのベンチマーク

Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs ( http://arxiv.org/abs/2401.14640v1 )

ライセンス: Link先を確認
Nan Hu, Jiaoyan Chen, Yike Wu, Guilin Qi, Sheng Bi, Tongtong Wu and Jeff Z. Pan(参考訳) 質問応答の帰結は、生成したステートメントをサポートするための引用を提供することであり、幅広い研究の注目を集めている。 帰属を自動的に評価する現在の手法は、大言語モデル(LLM)に基づいており、特に属性間の微妙な違いと引用と文の間の複雑な関係を認識するのに不適切である。 これらの属性評価手法を比較して新しいものを開発するために,各カテゴリの属性を自動的に生成する知識グラフ(KG)を活用することで,属性を測定するための細かなカテゴリ(支援的,不十分,矛盾,無関係)のセットを導入し,複雑な属性質問回答(CAQA)ベンチマークを開発した。 分析の結果, 既存のエバリュエータは細粒度な帰属設定では性能が悪く, 複雑な引用文推論では弱点がみられた。 我々のCAQAベンチマークは、人間のアノテーションで検証され、LCM属性評価器の選択と開発のための有望なツールとして現れます。

The attribution of question answering is to provide citations for supporting generated statements, and has attracted wide research attention. The current methods for automatically evaluating the attribution, which are often based on Large Language Models (LLMs), are still inadequate, particularly in recognizing subtle differences between attributions, and complex relationships between citations and statements. To compare these attribution evaluation methods and develop new ones, we introduce a set of fine-grained categories (i.e., supportive, insufficient, contradictory and irrelevant) for measuring the attribution, and develop a Complex Attributed Question Answering (CAQA) benchmark by leveraging knowledge graphs (KGs) for automatically generating attributions of different categories to question-answer pairs. Our analysis reveals that existing evaluators perform poorly under fine-grained attribution settings and exhibit weaknesses in complex citation-statement reasoning. Our CAQA benchmark, validated with human annotations, emerges as a promising tool for selecting and developing LLM attribution evaluators.
翻訳日:2024-01-29 16:05:07 公開日:2024-01-26
# T-Rex:テキストによる再合成予測

T-Rex: Text-assisted Retrosynthesis Prediction ( http://arxiv.org/abs/2401.14637v1 )

ライセンス: Link先を確認
Yifeng Liu, Hanwen Xu, Tangqi Fang, Haocheng Xi, Zixuan Liu, Sheng Zhang, Hoifung Poon, Sheng Wang(参考訳) 計算化学の基本的なタスクとして、レトロシンセシス予測は標的分子を合成するための一連の反応物質を特定することを目的としている。 既存のテンプレートフリーアプローチでは、ターゲット分子のグラフ構造のみを考慮し、稀な反応タイプや大きな分子にはうまく一般化できないことが多い。 本稿では,ChatGPTなどの事前学習されたテキスト言語モデルを利用して,反応物の生成を支援するテキスト支援逆合成予測手法T-Rexを提案する。 t-rexはまずchatgptを利用して、記述と分子グラフの両方に基づいてターゲット分子とランク候補反応中心の説明を生成する。 次に、それぞれの反応物質について記述を照会してこれらの候補を再ランク付けし、どの反応物質群が標的分子を最適に合成できるかを調べる。 我々は,T-Rexが2つのデータセットに対するグラフベース最先端手法よりも大幅に優れており,テキスト情報の検討の有効性を示した。 さらに、T-Rexは、ChatGPTベースの記述のみを使用する亜種よりも優れており、我々のフレームワークがChatGPTとグラフ情報の直接的な統合よりも優れていることを示す。 本稿では,事前学習した言語モデルによって生成されたテキストが再合成予測を大幅に改善できることを示し,ChatGPTを利用した計算化学の進歩に向けた新たな道を開く。 コードはhttps://github.com/lauyikfung/T-Rex.comで見ることができる。

As a fundamental task in computational chemistry, retrosynthesis prediction aims to identify a set of reactants to synthesize a target molecule. Existing template-free approaches only consider the graph structures of the target molecule, which often cannot generalize well to rare reaction types and large molecules. Here, we propose T-Rex, a text-assisted retrosynthesis prediction approach that exploits pre-trained text language models, such as ChatGPT, to assist the generation of reactants. T-Rex first exploits ChatGPT to generate a description for the target molecule and rank candidate reaction centers based both the description and the molecular graph. It then re-ranks these candidates by querying the descriptions for each reactants and examines which group of reactants can best synthesize the target molecule. We observed that T-Rex substantially outperformed graph-based state-of-the-art approaches on two datasets, indicating the effectiveness of considering text information. We further found that T-Rex outperformed the variant that only use ChatGPT-based description without the re-ranking step, demonstrate how our framework outperformed a straightforward integration of ChatGPT and graph information. Collectively, we show that text generated by pre-trained language models can substantially improve retrosynthesis prediction, opening up new avenues for exploiting ChatGPT to advance computational chemistry. And the codes can be found at https://github.com/lauyikfung/T-Rex.
翻訳日:2024-01-29 16:04:47 公開日:2024-01-26
# 確率的最短経路問題に対する効率的な制約生成

Efficient Constraint Generation for Stochastic Shortest Path Problems ( http://arxiv.org/abs/2401.14636v1 )

ライセンス: Link先を確認
Johannes Schmalz, Felipe Trevizan(参考訳) 確率的短経路問題(ssps:stastic shortest path problem)の解法では、ベルマンバックアップを適用して状態のコストを求める。 これらのアルゴリズムの基本的な制限は、各状態バックアップ中に適用可能なすべてのアクションに対するコスト・ツー・ゴーを計算する必要があることである。 本稿では,計画と運用研究の新たなつながりについて述べるとともに,SSPの制約生成の効率的なバージョンを導入することで,不要な計算の問題に対処する。 この手法により、アルゴリズムは最適なサブアクションを無視し、コストの計算を回避できる。 また,新しい手法を ilao* に適用し,cg-ilao* というアルゴリズムを開発した。 実験の結果, CG-iLAO* は iLAO* の作用の最大57% を無視し, LRTDP や iLAO* よりも最大8倍, 3倍高速に問題を解くことがわかった。

Current methods for solving Stochastic Shortest Path Problems (SSPs) find states' costs-to-go by applying Bellman backups, where state-of-the-art methods employ heuristics to select states to back up and prune. A fundamental limitation of these algorithms is their need to compute the cost-to-go for every applicable action during each state backup, leading to unnecessary computation for actions identified as sub-optimal. We present new connections between planning and operations research and, using this framework, we address this issue of unnecessary computation by introducing an efficient version of constraint generation for SSPs. This technique allows algorithms to ignore sub-optimal actions and avoid computing their costs-to-go. We also apply our novel technique to iLAO* resulting in a new algorithm, CG-iLAO*. Our experiments show that CG-iLAO* ignores up to 57% of iLAO*'s actions and it solves problems up to 8x and 3x faster than LRTDP and iLAO*.
翻訳日:2024-01-29 16:04:21 公開日:2024-01-26
# 4つのパブリックソフトウェアパッケージレジストリへの署名:量、品質、影響要因

Signing in Four Public Software Package Registries: Quantity, Quality, and Influencing Factors ( http://arxiv.org/abs/2401.14635v1 )

ライセンス: Link先を確認
Taylor R Schorlemmer, Kelechi G Kalu, Luke Chigges, Kyung Myung Ko, Eman Abdul-Muhd Abu Isghair, Saurabh Baghi, Santiago Torres-Arias, James C Davis(参考訳) 多くのソフトウェアアプリケーションは、サードパーティのパッケージレジストリが配布するオープンソースサードパーティパッケージを組み込んでいる。 このサプライチェーンに沿って権威を保証することは課題です。 パッケージメンテナは、ソフトウェア署名を通じてパッケージオーサシップを保証できる。 しかし、この慣行がどの程度一般的か、結果の署名が適切に作成されるかどうかは不明である。 以前の研究は署名の実践に関する生のデータを提供したが、単一のプラットフォームで測定し、時間を考慮しておらず、署名に影響する要因についての洞察を提供していなかった。 採用と関連する要因に関する包括的でマルチプラットフォームな理解が欠如しています。 この研究はこのギャップに対処する。 従来のソフトウェア(Maven、PyPi)、コンテナイメージ(DockerHub)、マシンラーニングモデル(HuggingFace)の3種類のパッケージレジストリの測定結果を提供しています。 各レジストリについて、署名されたアーティファクトの性質と、署名の現在の量と品質を説明します。 次に,署名実践における縦断的傾向について検討する。 最後に、擬似実験を用いて、さまざまなイベントがソフトウェア署名プラクティスに与える影響を見積もる。 1)署名の導入を強制することが署名の量を改善すること、(2)専用のツールを提供することで署名の質が向上すること、(3)開始が難しいこと、(3)保守者が署名し始めると、それを継続する傾向があること、(4)多くのサプライチェーン攻撃は署名によって軽減されるが、署名の採用は、攻撃の公的な知識や新しいエンジニアリング標準などよりも、レジストリポリシーによって主に影響を受ける。 これらの調査結果は,ソフトウェアパッケージレジストリマネージャと署名インフラストラクチャの重要性を強調している。

Many software applications incorporate open-source third-party packages distributed by third-party package registries. Guaranteeing authorship along this supply chain is a challenge. Package maintainers can guarantee package authorship through software signing. However, it is unclear how common this practice is, and whether the resulting signatures are created properly. Prior work has provided raw data on signing practices, but measured single platforms, did not consider time, and did not provide insight on factors that may influence signing. We lack a comprehensive, multi-platform understanding of signing adoption and relevant factors. This study addresses this gap. We provide measurements across three kinds of package registries: traditional software (Maven, PyPi), container images (DockerHub), and machine learning models (HuggingFace). For each registry, we describe the nature of the signed artifacts as well as the current quantity and quality of signatures. Then, we examine longitudinal trends in signing practices. Finally, we use a quasi-experiment to estimate the effect that various events had on software signing practices. To summarize our findings: (1) mandating signature adoption improves the quantity of signatures; (2) providing dedicated tooling improves the quality of signing; (3) getting started is the hard part -- once a maintainer begins to sign, they tend to continue doing so; and (4) although many supply chain attacks are mitigable via signing, signing adoption is primarily affected by registry policy rather than by public knowledge of attacks, new engineering standards, etc. These findings highlight the importance of software package registry managers and signing infrastructure.
翻訳日:2024-01-29 16:04:00 公開日:2024-01-26
# ジルコニウムイオン注入による窒化アルミニウム中の量子放出体

Quantum Emitters in Aluminum Nitride Induced by Zirconium Ion Implantation ( http://arxiv.org/abs/2401.14631v1 )

ライセンス: Link先を確認
Alexander Senichev, Zachariah O. Martin, Yongqiang Wang, Owen M. Matthiessen, Alexei Lagutchev, Han Htoon, Alexandra Boltasseva, Vladimir M. Shalaev(参考訳) 固体単一光子源とファウントリー互換フォトニックプラットフォームの統合は、実用的でスケーラブルな量子フォトニクス応用に不可欠である。 本研究は, 欠陥中心関連単一光子エミッタをホストするAlN容量のため, オンチップフォトニクスの集積に適した特性を有する材料として窒化アルミニウム(AlN)について検討した。 ジルコニウム (Zr) およびクリプトン (Kr) 重イオン注入および熱アニール技術を用いたAlN中の単一光子放出体の生成と光物性の総合的研究を行った。 理論的予測により、zrイオンが光学的に対応可能なスピン欠陥を生成する可能性を評価し、化学ドーピング効果を誘発することなく格子欠陥を標的とする代替アプローチとしてkrイオンを用いる。 532nmの励起波長でイオン注入により誘導される単一光子放出体はzrイオンとkrイオンの両方のaln格子の空孔型欠陥に主に関係していることがわかった。 イオンフルエンスによりエミッタ密度は増加し、AlNバックグラウンド蛍光の低いエミッタの高密度には最適な値が存在する。 さらに、405nmの短い励起波長の下では、Zrにより実装されたAlNは、Zrベースの欠陥錯体と関連する孤立した点状エミッタを示す。 本研究は、重イオン注入による窒化アルミニウム中の単一光子エミッタの形成と性質に関する重要な知見を提供し、オンチップ量子フォトニクス応用のための窒化アルミニウムプラットフォームの発展に寄与する。

The integration of solid-state single-photon sources with foundry-compatible photonic platforms is crucial for practical and scalable quantum photonic applications. This study investigates aluminum nitride (AlN) as a material with properties highly suitable for integrated on-chip photonics specifically due to AlN capacity to host defect-center related single-photon emitters. We conduct a comprehensive study of the creation and photophysical properties of single-photon emitters in AlN utilizing Zirconium (Zr) and Krypton (Kr) heavy ion implantation and thermal annealing techniques. Guided by theoretical predictions, we assess the potential of Zr ions to create optically addressable spin-defects and employ Kr ions as an alternative approach that targets lattice defects without inducing chemical doping effects. With the 532 nm excitation wavelength, we found that single-photon emitters induced by ion implantation are primarily associated with vacancy-type defects in the AlN lattice for both Zr and Kr ions. The emitter density increases with the ion fluence, and there is an optimal value for the high density of emitters with low AlN background fluorescence. Additionally, under shorter excitation wavelength of 405 nm, Zr-implanted AlN exhibits isolated point-like emitters, which can be related to Zr-based defect complexes. This study provides important insights into the formation and properties of single-photon emitters in aluminum nitride induced by heavy ion implantation, contributing to the advancement of the aluminum nitride platform for on-chip quantum photonic applications.
翻訳日:2024-01-29 16:03:32 公開日:2024-01-26
# 中国語スペルチェックモデルのドメイン適応能力に関する実証的研究

An Empirical Investigation of Domain Adaptation Ability for Chinese Spelling Check Models ( http://arxiv.org/abs/2401.14630v1 )

ライセンス: Link先を確認
Xi Wang, Ruoqing Zhao, Hongliang Dai, Piji Li(参考訳) Chinese Spelling Check (CSC)は、中国語のテキスト中のスペルエラーを検出し、これらのエラーを修正することを目的とした自然言語処理(NLP)分野において重要なタスクである。 しかし、CSCモデルは、一般的なコーパスに基づいて訓練された事前訓練された言語モデルに基づいている。 その結果、ドメイン固有の用語を含む下流タスクに直面するとパフォーマンスが低下する可能性がある。 本稿では,金融,医療,法的ドメインから豊富なドメイン特化語を含む3つの新しいデータセットを構築することで,各種CSCモデルのドメイン適応能力の徹底的な評価を行う。 次に,いくつかの典型的なCSCモデルのドメイン間適応性を確認するために,対応するドメイン固有のテストデータセットについて実験的検討を行った。 また、一般的な大規模言語モデルChatGPTの性能についても検証する。 実験で示したように, cscモデルの性能は新たな領域において著しく低下した。

Chinese Spelling Check (CSC) is a meaningful task in the area of Natural Language Processing (NLP) which aims at detecting spelling errors in Chinese texts and then correcting these errors. However, CSC models are based on pretrained language models, which are trained on a general corpus. Consequently, their performance may drop when confronted with downstream tasks involving domain-specific terms. In this paper, we conduct a thorough evaluation about the domain adaption ability of various typical CSC models by building three new datasets encompassing rich domain-specific terms from the financial, medical, and legal domains. Then we conduct empirical investigations in the corresponding domain-specific test datasets to ascertain the cross-domain adaptation ability of several typical CSC models. We also test the performance of the popular large language model ChatGPT. As shown in our experiments, the performances of the CSC models drop significantly in the new domains.
翻訳日:2024-01-29 16:03:05 公開日:2024-01-26
# オープンソースソフトウェアにおけるGDPR(General Data Protection Regulation)について

A First Look at the General Data Protection Regulation (GDPR) in Open-Source Software ( http://arxiv.org/abs/2401.14629v1 )

ライセンス: Link先を確認
Lucas Franke and Huayu Liang and Aaron Brantly and James C Davis and Chris Brown(参考訳) 本稿では,オープンソースソフトウェアにおける一般データ保護規則(gdpr)に関する研究について述べる。 オープンソースソフトウェアは一般的に規制されたソフトウェアに統合されているため、コンプライアンスのために設計や適応が必要となるが、そのような法律がオープンソースソフトウェア開発にどのように影響するかはわからない。 GDPRの経験と認識を理解するために、オープンソース開発者(N=47)を調査した。 主にユーザのデータ管理とコンプライアンスの評価に関して、多くのエンジニアリング上の課題を学びました。 ポリシー関連のリソース、特にオープンソースのソフトウェアでデータプライバシー規制の実装とコンプライアンスをサポートするツールの改善を求めています。

This poster describes work on the General Data Protection Regulation (GDPR) in open-source software. Although open-source software is commonly integrated into regulated software, and thus must be engineered or adapted for compliance, we do not know how such laws impact open-source software development. We surveyed open-source developers (N=47) to understand their experiences and perceptions of GDPR. We learned many engineering challenges, primarily regarding the management of users' data and assessments of compliance. We call for improved policy-related resources, especially tools to support data privacy regulation implementation and compliance in open-source software.
翻訳日:2024-01-29 16:02:51 公開日:2024-01-26
# デプロイメントにおける信頼に値する予測のための深層学習モデルからのデータ前提条件の推定

Inferring Data Preconditions from Deep Learning Models for Trustworthy Prediction in Deployment ( http://arxiv.org/abs/2401.14628v1 )

ライセンス: Link先を確認
Shibbir Ahmed, Hongyang Gao, Hridesh Rajan(参考訳) ディープラーニングモデルは、開発段階でデータに関する特定の仮定でトレーニングされ、デプロイ段階で予測に使用される。 デプロイ中に見つからないデータを使って、モデルの予測の信頼性を判断することが重要です。 DNNモデルアーキテクチャの複雑さや期待される結果に対処できないため、従来のソフトウェアを特定し検証する既存の手法は、このタスクには不十分である。 本研究では,ニューラルネットワーク計算から導出した規則を用いて,dnnモデルにおけるデータ前提条件を推定し,その予測の信頼性を判定する手法を提案する。 我々のアプローチであるDeepInferは、DijkstraのPredicate Transformer Semanticsを使って、最も弱い条件推論を可能にする訓練されたDNNモデルのための新しい抽象化を導入する。 ニューラルネットワーク抽象表現の帰納型に関する規則を導出することにより、出力層から入力層への逆非線形計算から生じる行列次元問題を克服することができる。 本稿では,各アクティベーション関数の規則を用いた最弱事前条件計算を用いて,ディープニューラルネットワークの最終出力における与えられた条件から階層的事前条件を算出する。 我々は5つの異なる情報源から収集した4つの異なるデータセットを用いて、29の現実世界DNNモデル上でDeepInferを広範囲に評価し、密接に関連する作業に対する有用性、有効性、性能の改善を実証した。 deepinferは、高いリコール(0.98)と高いf-1スコア(0.84)を持つ高精度モデルの正確かつ不正確な予測を効率的に検出する。 DeepInferの平均ランタイムオーバーヘッドは低く、すべての未確認データセットで0.22秒である。 また、同じハードウェア設定でランタイムのオーバーヘッドを比較し、DeepInferがSelfCheckerの3.27倍高速であることが分かりました。

Deep learning models are trained with certain assumptions about the data during the development stage and then used for prediction in the deployment stage. It is important to reason about the trustworthiness of the model's predictions with unseen data during deployment. Existing methods for specifying and verifying traditional software are insufficient for this task, as they cannot handle the complexity of DNN model architecture and expected outcomes. In this work, we propose a novel technique that uses rules derived from neural network computations to infer data preconditions for a DNN model to determine the trustworthiness of its predictions. Our approach, DeepInfer involves introducing a novel abstraction for a trained DNN model that enables weakest precondition reasoning using Dijkstra's Predicate Transformer Semantics. By deriving rules over the inductive type of neural network abstract representation, we can overcome the matrix dimensionality issues that arise from the backward non-linear computation from the output layer to the input layer. We utilize the weakest precondition computation using rules of each kind of activation function to compute layer-wise precondition from the given postcondition on the final output of a deep neural network. We extensively evaluated DeepInfer on 29 real-world DNN models using four different datasets collected from five different sources and demonstrated the utility, effectiveness, and performance improvement over closely related work. DeepInfer efficiently detects correct and incorrect predictions of high-accuracy models with high recall (0.98) and high F-1 score (0.84) and has significantly improved over prior technique, SelfChecker. The average runtime overhead of DeepInfer is low, 0.22 sec for all unseen datasets. We also compared runtime overhead using the same hardware settings and found that DeepInfer is 3.27 times faster than SelfChecker.
翻訳日:2024-01-29 16:02:42 公開日:2024-01-26
# 知識ウェアなインコンテキスト・プロンプト学習による生涯シーングラフ生成に向けて

Towards Lifelong Scene Graph Generation with Knowledge-ware In-context Prompt Learning ( http://arxiv.org/abs/2401.14626v1 )

ライセンス: Link先を確認
Tao He, Tongtong Wu, Dongyang Zhang, Guiduo Duan, Ke Qin, Yuan-Fang Li(参考訳) 画像内のオブジェクトのペア間の視覚的関係を予測するためのシーングラフ生成(SGG)。 一般的なSGG法は、伝統的にSGGのワンオフ学習プロセスを前提としている。 この従来のパラダイムは、新しい関係が出現するたびに、事前に観察されたすべてのサンプルに対して反復的なトレーニングを必要とする可能性がある。 この研究は、事前の関係予測のスイートに内在するこの落とし穴に対処しようとしている。 事前学習された言語モデルにおける文脈内学習の成果に動機づけられ、このアプローチはモデルに関係を予測し、破滅的な忘れることなく新しい知識を継続的に獲得する能力を与えます。 この目的を達成するために,シーングラフ生成のための新しい実用的フレームワークであるlsgg(lifelong scene graph generation)を導入し,述語などのタスクをストリーミング形式で展開する。 このフレームワークでは、モデルは現在のタスクの排他的トレーニングに制限され、これまで遭遇したトレーニングデータにアクセスできないが、限られた数の例を除いて、これまで遭遇したすべての述語を推測する任務を負う。 厳密な実験により,LSGGの文脈における最先端SGGモデルよりも多種多様な指標を用いて,提案手法の優位性を実証した。 また,vg と open-image(v6) という2つのメインストリームベンチマークデータセットに関する広範な実験により,提案モデルが,連続学習と従来の設定において,多くの競合 sgg モデルよりも優れていることが示された。 さらに、包括的アブレーション実験は、我々のモデルにおける各コンポーネントの有効性を示す。

Scene graph generation (SGG) endeavors to predict visual relationships between pairs of objects within an image. Prevailing SGG methods traditionally assume a one-off learning process for SGG. This conventional paradigm may necessitate repetitive training on all previously observed samples whenever new relationships emerge, mitigating the risk of forgetting previously acquired knowledge. This work seeks to address this pitfall inherent in a suite of prior relationship predictions. Motivated by the achievements of in-context learning in pretrained language models, our approach imbues the model with the capability to predict relationships and continuously acquire novel knowledge without succumbing to catastrophic forgetting. To achieve this goal, we introduce a novel and pragmatic framework for scene graph generation, namely Lifelong Scene Graph Generation (LSGG), where tasks, such as predicates, unfold in a streaming fashion. In this framework, the model is constrained to exclusive training on the present task, devoid of access to previously encountered training data, except for a limited number of exemplars, but the model is tasked with inferring all predicates it has encountered thus far. Rigorous experiments demonstrate the superiority of our proposed method over state-of-the-art SGG models in the context of LSGG across a diverse array of metrics. Besides, extensive experiments on the two mainstream benchmark datasets, VG and Open-Image(v6), show the superiority of our proposed model to a number of competitive SGG models in terms of continuous learning and conventional settings. Moreover, comprehensive ablation experiments demonstrate the effectiveness of each component in our model.
翻訳日:2024-01-29 16:02:12 公開日:2024-01-26
# 自動音声認識と後処理の実践に向けて:説明可能なベンチマークガイドライン

Toward Practical Automatic Speech Recognition and Post-Processing: a Call for Explainable Error Benchmark Guideline ( http://arxiv.org/abs/2401.14625v1 )

ライセンス: Link先を確認
Seonmin Koo, Chanjun Park, Jinsung Kim, Jaehyung Seo, Sugyeong Eo, Hyeonseok Moon, Heuiseok Lim(参考訳) 自動音声認識(asr)の結果は下流タスクの入力となり、エンドユーザの満足度に大きく影響する。 したがって、ASRモデルに存在する脆弱性の診断と強化は重要な意味を持つ。 しかし、asrシステムの伝統的な評価手法は、特定の脆弱性に対する包括的な洞察を提供しない特異で複合的な定量的指標を生成する。 この詳細の欠如は後処理の段階にまで広がり、潜在的な弱点をさらに難読化させる。 ASRモデルの発話を正確に認識する能力にもかかわらず、サブパー可読性はユーザの満足度に悪影響を及ぼし、認識精度とユーザフレンドリ性のトレードオフを引き起こす。 この課題を効果的に解決するには、認識精度に不可欠な発話レベルと、ユーザフレンドリーに不可欠なテキストレベルの両方を考慮することが不可欠である。 その結果,Error Explainable Benchmark (EEB) データセットの開発を提案する。 このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。 この提案は,より‘現実世界中心’な評価のための構造化された経路を提供し,抽象化された従来の手法から大きく移行することで,ニュアンスシステムの弱点の検出と修正を可能にし,最終的にはユーザエクスペリエンスの向上を目標としている。

Automatic speech recognition (ASR) outcomes serve as input for downstream tasks, substantially impacting the satisfaction level of end-users. Hence, the diagnosis and enhancement of the vulnerabilities present in the ASR model bear significant importance. However, traditional evaluation methodologies of ASR systems generate a singular, composite quantitative metric, which fails to provide comprehensive insight into specific vulnerabilities. This lack of detail extends to the post-processing stage, resulting in further obfuscation of potential weaknesses. Despite an ASR model's ability to recognize utterances accurately, subpar readability can negatively affect user satisfaction, giving rise to a trade-off between recognition accuracy and user-friendliness. To effectively address this, it is imperative to consider both the speech-level, crucial for recognition accuracy, and the text-level, critical for user-friendliness. Consequently, we propose the development of an Error Explainable Benchmark (EEB) dataset. This dataset, while considering both speech- and text-level, enables a granular understanding of the model's shortcomings. Our proposition provides a structured pathway for a more `real-world-centric' evaluation, a marked shift away from abstracted, traditional methods, allowing for the detection and rectification of nuanced system weaknesses, ultimately aiming for an improved user experience.
翻訳日:2024-01-29 16:01:44 公開日:2024-01-26
# ccの問合せ:公共コーパスからの大規模ドメイン固有知識の発掘

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora ( http://arxiv.org/abs/2401.14624v1 )

ライセンス: Link先を確認
Zhaoye Fei, Yunfan Shao, Linyang Li, Zhiyuan Zeng, Hang Yan, Xipeng Qiu and Dahua Lin(参考訳) 大規模言語モデルは様々なタスクにおいて顕著な可能性を示してきたが、特定のドメインに対するオープンソースのモデルやデータが不足している。 これまでは主に、リソースを手動で指定したり、特定のドメインで高品質なデータを収集することに注力してきた。 この制限に対処するため,大規模言語モデルに基づく効率的なデータ収集手法~\textit{Query of CC}を提案する。 この方法は,大型言語モデルを通じてシード情報をブートストラップし,公開コーパスから関連するデータを取得する。 特定のドメインに関する知識関連データを収集するだけでなく、潜在的な推論手順でデータを発掘する。 本手法の適用により,ステムと人文科学を含む4つの主要な領域を含む高品質なデータセットである~\textsc{Knowledge Pile}をキュレートした。 実験の結果,~\textsc{Knowledge Pile} は数学および知識関連推論能力試験における大規模言語モデルの性能を著しく向上させることが示された。 学術的な共有を容易にするため、私たちはデータセットとコードをオープンソース化し、学術コミュニティに貴重な支援を提供します。

Large language models have demonstrated remarkable potential in various tasks, however, there remains a significant scarcity of open-source models and data for specific domains. Previous works have primarily focused on manually specifying resources and collecting high-quality data on specific domains, which significantly consume time and effort. To address this limitation, we propose an efficient data collection method~\textit{Query of CC} based on large language models. This method bootstraps seed information through a large language model and retrieves related data from public corpora. It not only collects knowledge-related data for specific domains but unearths the data with potential reasoning procedures. Through the application of this method, we have curated a high-quality dataset called~\textsc{Knowledge Pile}, encompassing four major domains, including stem and humanities sciences, among others. Experimental results demonstrate that~\textsc{Knowledge Pile} significantly improves the performance of large language models in mathematical and knowledge-related reasoning ability tests. To facilitate academic sharing, we open-source our dataset and code, providing valuable support to the academic community.
翻訳日:2024-01-29 16:01:21 公開日:2024-01-26
# 信頼できる量子鍵配電網のトロイの木馬検出におけるリスク認識機械学習

Empirical Risk-aware Machine Learning on Trojan-Horse Detection for Trusted Quantum Key Distribution Networks ( http://arxiv.org/abs/2401.14622v1 )

ライセンス: Link先を確認
Hong-fu Chou, Thang X. Vu, Ilora Maity(参考訳) 量子鍵分布 (QKD) は、量子力学の原理を利用して伝送中に極めて高いレベルのデータセキュリティを提供する暗号技術である。 証明可能なセキュリティを達成する能力は高く評価されている。 しかし,理論概念と実用実装のギャップの存在は,qkdネットワークの信頼性に関する懸念を提起している。 この格差を軽減するために,時間変動量子チャネル上でのトロイの木馬攻撃のリスク分析を行うリスク対応機械学習手法の実装を提案する。 本研究は, 推奨安全境界線間のリスクレベルを比較し, 安全保証のオフライン評価を行うことを目的としている。 この評価はリスク分析に基づいて行われる。 さらに,提案した信頼性の高いQKDシナリオでは,1m,1km,30kmの光量子チャネル上で動作可能な最先端のポイントツーポイントQKDデバイスを用いて数値的な結果を示す。 30km光接続の実験的評価の結果から,提案した学習者に事前情報を提供するQKD装置が,イブの攻撃の非存在下で得られたものであると結論付けることができる。 最適分類器によれば、学習者が提供する防御ゲートは潜伏イブ攻撃を識別する能力を有しており、潜在的な脆弱性のリスクを効果的に軽減する。 Eve検出確率は、信頼できるQKDシナリオに確実に拘束される。

Quantum key distribution (QKD) is a cryptographic technique that leverages principles of quantum mechanics to offer extremely high levels of data security during transmission. It is well acknowledged for its capacity to accomplish provable security. However, the existence of a gap between theoretical concepts and practical implementation has raised concerns about the trustworthiness of QKD networks. In order to mitigate this disparity, we propose the implementation of risk-aware machine learning techniques that present risk analysis for Trojan-horse attacks over the time-variant quantum channel. The trust condition presented in this study aims to evaluate the offline assessment of safety assurance by comparing the risk levels between the recommended safety borderline. This assessment is based on the risk analysis conducted. Furthermore, the proposed trustworthy QKD scenario demonstrates its numerical findings with the assistance of a state-of-the-art point-to-point QKD device, which operates over optical quantum channels spanning distances of 1m, 1km, and 30km. Based on the results from the experimental evaluation of a 30km optical connection, it can be concluded that the QKD device provided prior information to the proposed learner during the non-existence of Eve's attack. According to the optimal classifier, the defensive gate offered by our learner possesses the capability to identify any latent Eve attacks, hence effectively mitigating the risk of potential vulnerabilities. The Eve detection probability is provably bound for our trustworthy QKD scenario.
翻訳日:2024-01-29 16:01:02 公開日:2024-01-26
# 等価原理は量子重力場に有効か?

Is equivalence principle valid for quantum gravitational field? ( http://arxiv.org/abs/2401.14621v1 )

ライセンス: Link先を確認
Baocheng Zhang(参考訳) 絡み合いは、初めは積状態にある2つの大きな物体の間の重力相互作用によって生じる。 これは重力場が量子であることを示している。 第3の質量体が導入され、第3の物体と前2つの物体のどちらかの間の重力相互作用が考慮されるとき、重力相互作用が量子であるにもかかわらず、前2つの物体の間の絡み合いはモノポール近似まで生じない。 これは、通常unruh-dewitt検出器と見なされる2つの加速2レベル原子の挙動に似ている。 重力場が生成する加速度を重力場と結びつけることで、重力場が量子であるにもかかわらず同値原理が依然として有効であることを示す。

Entanglement can be generated through the gravitational interaction between two massive bodies that are initially in a product state. This shows that the gravitational field is quantum. When the third massive body is introduced and the gravitational interaction only between the third body with either one of the former two bodies is considered, we find that no entanglement is generated between the former two bodies up to the monopole approximation, even though the considered gravitational interaction is quantum. This resembles the behavior of two accelerating two-level atoms that is usually regarded as the Unruh-DeWitt detectors. By linking the acceleration to that generated by the gravitational field, we show that the equivalence principle is still valid even though the gravitational field is quantum.
翻訳日:2024-01-29 16:00:39 公開日:2024-01-26
# 弾力性のある実用的テストタイム適応:ソフトバッチ正規化アライメントとエントロピー駆動メモリバンク

Resilient Practical Test-Time Adaptation: Soft Batch Normalization Alignment and Entropy-driven Memory Bank ( http://arxiv.org/abs/2401.14619v1 )

ライセンス: Link先を確認
Xingzhi Zhou, Zhiliang Tian, Ka Chun Cheung, Simon See, Nevin L. Zhang(参考訳) テスト時ドメイン適応は、推論中にターゲットドメインの見えないドメインシフトに対応するために、ソースドメインモデルを効果的に調整する。 しかし、モデルの性能は、ターゲット領域における連続的な分布変化と、実際的なシナリオでしばしば発生する非独立で同一に分布するテストサンプルによって著しく損なわれる可能性がある。 既存のメモリバンク手法では、メモリを使用してサンプルを保存し、非I.D.効果を緩和するが、それらは本質的に潜在的なモデル劣化を防ぐものではない。 この問題に対処するために,パラメータのレジリエンスとデータ品質に着目した実用的実時間適応法(ResiTTA)を提案する。 具体的には,正規化統計量およびソフトアライメントを用いた弾力性バッチ正規化法を開発し,オーバーフィッティングとモデル劣化を緩和する。 我々は、タイムライン、過信サンプルの持続性、適応時の高品質なデータに対するサンプル不確かさを考慮に入れたエントロピー駆動型メモリバンクを使用する。 本フレームワークは, 学習者モデルを用いて, 学習者の記憶サンプルの自己学習損失を補足し, バッチ正規化にソフトアライメントの損失を組み込む。 さまざまなベンチマークデータセット間でResiTTAを実証的に検証し、最先端のパフォーマンスを示す。

Test-time domain adaptation effectively adjusts the source domain model to accommodate unseen domain shifts in a target domain during inference. However, the model performance can be significantly impaired by continuous distribution changes in the target domain and non-independent and identically distributed (non-i.i.d.) test samples often encountered in practical scenarios. While existing memory bank methodologies use memory to store samples and mitigate non-i.i.d. effects, they do not inherently prevent potential model degradation. To address this issue, we propose a resilient practical test-time adaptation (ResiTTA) method focused on parameter resilience and data quality. Specifically, we develop a resilient batch normalization with estimation on normalization statistics and soft alignments to mitigate overfitting and model degradation. We use an entropy-driven memory bank that accounts for timeliness, the persistence of over-confident samples, and sample uncertainty for high-quality data in adaptation. Our framework periodically adapts the source domain model using a teacher-student model through a self-training loss on the memory samples, incorporating soft alignment losses on batch normalization. We empirically validate ResiTTA across various benchmark datasets, demonstrating state-of-the-art performance.
翻訳日:2024-01-29 16:00:26 公開日:2024-01-26
# SSR:SAMはドメイン適応型セマンティックセグメンテーションのための強正則化器である

SSR: SAM is a Strong Regularizer for domain adaptive semantic segmentation ( http://arxiv.org/abs/2401.14686v1 )

ライセンス: Link先を確認
Yanqi Ge, Ye Huang, Wen Li, Lixin Duan(参考訳) 本研究では,SSRを導入し,SAM(segment-anything)をトレーニング中の強力な正則化器として利用し,画像エンコーダの強靭性を大幅に向上させた。 特に、samがさまざまなドメインをカバーするインターネット上の多数の画像で事前訓練されているという事実を考えると、samによって抽出された特徴エンコーディングは、従来のimagenetプリトレーニング画像エンコーダと比較して、明らかに特定のドメインに依存しない。 一方、ImageNet事前訓練されたイメージエンコーダは、特にSAMがカテゴリ非関連である場合、セマンティックセグメンテーションタスクのバックボーンの成熟した選択である。 結果として、我々のSSRはシンプルだが非常に効果的な設計を提供する。 バックボーンにはImageNet事前トレーニングイメージエンコーダを使用し、トレーニング中にSAMによって各ステージの中間機能(MiT-B5には4つのステージがある)が正規化される。 GTA5$\rightarrow$Cityscapesの広範な実験の後、SSRは追加の推論オーバーヘッドを導入することなく、ベースライン上での性能を著しく改善した。

We introduced SSR, which utilizes SAM (segment-anything) as a strong regularizer during training, to greatly enhance the robustness of the image encoder for handling various domains. Specifically, given the fact that SAM is pre-trained with a large number of images over the internet, which cover a diverse variety of domains, the feature encoding extracted by the SAM is obviously less dependent on specific domains when compared to the traditional ImageNet pre-trained image encoder. Meanwhile, the ImageNet pre-trained image encoder is still a mature choice of backbone for the semantic segmentation task, especially when the SAM is category-irrelevant. As a result, our SSR provides a simple yet highly effective design. It uses the ImageNet pre-trained image encoder as the backbone, and the intermediate feature of each stage (ie there are 4 stages in MiT-B5) is regularized by SAM during training. After extensive experimentation on GTA5$\rightarrow$Cityscapes, our SSR significantly improved performance over the baseline without introducing any extra inference overhead.
翻訳日:2024-01-29 15:53:29 公開日:2024-01-26
# 拘束型シリコン量子ドットアレイのシャットリング法

Generating Shuttling Procedures for Constrained Silicon Quantum Dot Array ( http://arxiv.org/abs/2401.14683v1 )

ライセンス: Link先を確認
Naoto Sato, Tomonori Sekiguchi, Takeru Utsugi, and Hiroyuki Mizuno(参考訳) シリコン量子コンピュータでは、単一の電子が量子ドットと呼ばれる微細構造に閉じ込められ、そのスピンは量子ビットとして用いられる。 量子ビットの大規模統合のために,我々は2次元配列に量子ドットを配置し,配列の行または列に制御ゲートを共有する手法を提案している。 我々の配列では、電子のシャットリングは標的量子ビットを独立に操作し、クロストークを避けるのに有用な手法である。 しかし、共有制御ゲートを用いてシャットリングを行うため、キュービットの移動は複雑に制限される。 そこで我々は,これらの制約を記述するための状態遷移系に基づく形式モデルと,配列上の操作手順を提案する。 また,制約下での操作手順を生成する手法を提案する。 このアプローチを用いて、16$\times$8量子ドットアレイの具体的な方法を提案する。 提案手法を量子コンパイラとして実装することにより,任意の量子回路に対して実時間で演算手順を生成可能であることを確認した。 また,クロストークを閉鎖することで回避できることを示すとともに,クロストークを回避しない場合よりも,その場合の忠実度が高いことを示した。

In silicon quantum computers, a single electron is trapped in a microstructure called a quantum dot, and its spin is used as a qubit. For large-scale integration of qubits, we previously proposed an approach of arranging the quantum dots in a two-dimensional array and sharing a control gate in a row or column of the array. In our array, the shuttling of electrons is a useful technique to operate the target qubit independently and avoid crosstalk. However, since the shuttling is also conducted using shared control gates, the movement of qubits is complexly constrained. We therefore propose a formal model on the basis of state transition systems to describe those constraints and operation procedures on the array. We also present an approach to generate operation procedures under the constraints. Utilizing this approach, we present a concrete method for our 16 $\times$ 8 quantum dot array. By implementing the proposed method as a quantum compiler, we confirmed that it is possible to generate operation procedures in a practical amount of time for arbitrary quantum circuits. We also demonstrated that crosstalk can be avoided by shuttling and that the fidelity in that case is higher than when crosstalk is not avoided.
翻訳日:2024-01-29 15:53:10 公開日:2024-01-26
# frenet空間符号化による自動運転車テスト生成のための多様性誘導探索

Diversity-guided Search Exploration for Self-driving Cars Test Generation through Frenet Space Encoding ( http://arxiv.org/abs/2401.14682v1 )

ライセンス: Link先を確認
Timo Blattner, Christian Birchler, Timo Kehrer, Sebastiano Panichella(参考訳) 自動運転車(SDC)の台頭は、動的環境に対処する上で重要な安全上の課題を提示している。 フィールドテストは不可欠だが、現在の手法では重要なSDCシナリオの評価に多様性がない。 以前の研究では、frenet空間エンコーディングに基づくテスト生成アプローチであるfreneticを用いて、sdcsのシミュレーションベースのテストを導入し、自然な滑らかな曲線を特徴とする比較的高い有効テスト(約50%)を達成した。 最小のアウト・オブ・バウンド距離」はしばしばフィットネス関数として扱われ、これは準最適計量であると主張する。 その代わり, ディープラーニングバニラ変圧器モデルを用いて, アウトオブバウンド状態に導く可能性を示す。 この「本質的に学習されたメトリクス」と遺伝的アルゴリズムを組み合わせることで、高い多様性のテストが得られている。 提案手法の有効性を検証するため,SDCの動作に挑戦するために作成した1,174以上の模擬テストケースからなるデータセットに対して,大規模な実験評価を行った。 本研究は,SDCテスト実行中の安全性違反の同定において,非有意な検査ケースの生成,多様性の向上,精度の向上が著しく低下していることを明らかにする。

The rise of self-driving cars (SDCs) presents important safety challenges to address in dynamic environments. While field testing is essential, current methods lack diversity in assessing critical SDC scenarios. Prior research introduced simulation-based testing for SDCs, with Frenetic, a test generation approach based on Frenet space encoding, achieving a relatively high percentage of valid tests (approximately 50%) characterized by naturally smooth curves. The "minimal out-of-bound distance" is often taken as a fitness function, which we argue to be a sub-optimal metric. Instead, we show that the likelihood of leading to an out-of-bound condition can be learned by the deep-learning vanilla transformer model. We combine this "inherently learned metric" with a genetic algorithm, which has been shown to produce a high diversity of tests. To validate our approach, we conducted a large-scale empirical evaluation on a dataset comprising over 1,174 simulated test cases created to challenge the SDCs behavior. Our investigation revealed that our approach demonstrates a substantial reduction in generating non-valid test cases, increased diversity, and high accuracy in identifying safety violations during SDC test execution.
翻訳日:2024-01-29 15:52:53 公開日:2024-01-26
# masontigers@lt-edi-2024:ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアの検出へのアンサンブルアプローチ

MasonTigers@LT-EDI-2024: An Ensemble Approach towards Detecting Homophobia and Transphobia in Social Media Comments ( http://arxiv.org/abs/2401.14681v1 )

ライセンス: Link先を確認
Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Al Nahian Bin Emran(参考訳) 本稿では,10言語にわたるホモフォビアおよび/またはトランスフォビアの検出を目的としたLT-EDI 2024ワークショップのタスク2のアプローチと結果について述べる。 提案手法は単言語トランスフォーマーとアンサンブル法を含み,それぞれの強みを活かしてモデルの性能を向上させる。 アンサンブルモデルはうまくいき、マクロF1スコアによって測定された10言語中8言語のトップ5に、私たちのチームであるMasonTigersを配置しました。 本研究は,多言語シナリオにおけるアンサンブル手法の有効性を強調し,言語固有のタスクの複雑さに対処する。

In this paper, we describe our approaches and results for Task 2 of the LT-EDI 2024 Workshop, aimed at detecting homophobia and/or transphobia across ten languages. Our methodologies include monolingual transformers and ensemble methods, capitalizing on the strengths of each to enhance the performance of the models. The ensemble models worked well, placing our team, MasonTigers, in the top five for eight of the ten languages, as measured by the macro F1 score. Our work emphasizes the efficacy of ensemble methods in multilingual scenarios, addressing the complexities of language-specific tasks.
翻訳日:2024-01-29 15:52:31 公開日:2024-01-26
# MaLLaM -- マレーシアの大規模言語モデル

MaLLaM -- Malaysia Large Language Model ( http://arxiv.org/abs/2401.14680v1 )

ライセンス: Link先を確認
Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan(参考訳) マレーシアのコンテキストで、スクラッチから事前トレーニングされた大規模言語モデルのギャップに対処するために、私たちは、事前トレーニングされたバイトペアエンコーディング(bpe)トークンライザに基づいた90億トークンに相当する、実質的な349gbデータセット上で、11億、30億、50億のパラメータを持つモデルを、1つのエポックでトレーニングしました。 MaLLaMはマレー語における自然言語理解と生成タスクの強化に貢献している。 900億トークンの小さなデータセットでトレーニングされているにもかかわらず、命令チューニングされたMaLLaMモデルは競合的に動作します。 ChatGPT3.5やマレーシアのMistralと比較すると、MaLLaMの指導訓練モデルは優れた習熟度を示し、マレーシア語のニュアンスを捕捉し理解するためのアプローチの有効性を裏付けている。 MaLLaMモデルは、マレーシアの文脈に根ざした包括的な言語表現を提供する、この分野への重要な貢献を示す。 この取り組みは、マレーシアに存在する言語ニュアンス特有の自然言語理解と生成タスクの強化への道を開くことを目的としている。 マレー語の文脈における大規模言語モデルの能力向上における,MaLLaMのトレーニング方法論,データセット構成,および潜在的影響について論じる。 すべてのモデルがhttps://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930fでリリース

Addressing the gap in Large Language Model pretrained from scratch with Malaysian context, We trained models with 1.1 billion, 3 billion, and 5 billion parameters on a substantial 349GB dataset, equivalent to 90 billion tokens based on our pretrained Byte Pair Encoding (BPE) tokenizer for a single epoch. MaLLaM contributes to enhanced natural language understanding and generation tasks in the Malay language. Although trained on a smaller dataset of 90 billion tokens, our instruction-tuned MaLLaM models perform competitively. When compared to ChatGPT3.5 and Malaysian Mistral, MaLLaM's instruction-tuned models demonstrate notable proficiency, underscoring the effectiveness of our approach in capturing and understanding the nuances of the Malaysian language. MaLLaM models mark a significant contribution to the field, providing comprehensive language representations grounded in Malaysian context. This endeavor aims to pave the way for enhanced natural language understanding and generation tasks specific to the linguistic nuances present in Malaysia. We discuss the training methodology, dataset composition, and the potential impact of MaLLaM in advancing the capabilities of large language models within the context of the Malay language. All models released at https://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930f
翻訳日:2024-01-29 15:52:17 公開日:2024-01-26
# アクション認識のための非トリミングビデオの逐次読み出しによるマルチモデル学習

Multi-model learning by sequential reading of untrimmed videos for action recognition ( http://arxiv.org/abs/2401.14675v1 )

ライセンス: Link先を確認
Kodai Kamiya, Toru Tamaki(参考訳) 本稿では,複数のモデルを集約して動画を学習する手法を提案する。 提案手法は、クリップを複数のモデルに供給することでクリップ間の相関を低減し、これらのモデルをフェデレート学習により同期させる。 実験結果から,提案手法は非同期よりも性能が向上することがわかった。

We propose a new method for learning videos by aggregating multiple models by sequentially extracting video clips from untrimmed video. The proposed method reduces the correlation between clips by feeding clips to multiple models in turn and synchronizes these models through federated learning. Experimental results show that the proposed method improves the performance compared to the no synchronization.
翻訳日:2024-01-29 15:51:53 公開日:2024-01-26
# PepGB:グラフニューラルネットワークによるペプチド薬物発見の促進

PepGB: Facilitating peptide drug discovery via graph neural networks ( http://arxiv.org/abs/2401.14665v1 )

ライセンス: Link先を確認
Yipin Lei, Xu Wang, Meng Fang, Han Li, Xiang Li, Jianyang Zeng(参考訳) ペプチドは優れた生体医学的ポテンシャルを持ち、有望な薬物候補として機能する。 現在、承認されたペプチド薬の大部分は、よく探索された天然のヒトペプチドから直接派生している。 高度な深層学習技術を用いて、未探索の広大な生化学領域における新規ペプチド薬を同定する必要がある。 ペプチドの早期発見を加速するために様々なシリコ法が開発されたが、既存のモデルは、限られたサイズ、不均衡な分布、実験データの一貫性のない品質のために、過剰適合と一般化性の欠如という課題に直面している。 本研究ではペプチド-タンパク質相互作用(peppis)を予測し,ペプチドの早期発見を促進するための深層学習フレームワークであるpepgbを提案する。 グラフニューラルネットワークを用いて、pepgbは粒度の細かい摂動モジュールと、対照的な学習ベースのペプチドを事前学習したデュアルビューの目的を組み込んでpeppisを予測する。 厳密な評価により,PepGBはベースラインを大きく上回り,新規ターゲットおよびペプチドヒットに対するPepPIを正確に同定し,ターゲット同定およびヒット発見プロセスに寄与することを示した。 次に、リード生成および最適化プロセスでよく見られる高度に不均衡なデータのモデリングのボトルネックに取り組むために、拡張版 diPepGB を導出する。 DiPepGBは2つのペプチドノード間の相対的な結合強度を表すために有向エッジを用いることで、実世界のアッセイにおいて優れた性能を発揮する。 まとめると,提案するフレームワークは,ペプチドの早期発見を促進する強力なツールとして機能する。

Peptides offer great biomedical potential and serve as promising drug candidates. Currently, the majority of approved peptide drugs are directly derived from well-explored natural human peptides. It is quite necessary to utilize advanced deep learning techniques to identify novel peptide drugs in the vast, unexplored biochemical space. Despite various in silico methods having been developed to accelerate peptide early drug discovery, existing models face challenges of overfitting and lacking generalizability due to the limited size, imbalanced distribution and inconsistent quality of experimental data. In this study, we propose PepGB, a deep learning framework to facilitate peptide early drug discovery by predicting peptide-protein interactions (PepPIs). Employing graph neural networks, PepGB incorporates a fine-grained perturbation module and a dual-view objective with contrastive learning-based peptide pre-trained representation to predict PepPIs. Through rigorous evaluations, we demonstrated that PepGB greatly outperforms baselines and can accurately identify PepPIs for novel targets and peptide hits, thereby contributing to the target identification and hit discovery processes. Next, we derive an extended version, diPepGB, to tackle the bottleneck of modeling highly imbalanced data prevalent in lead generation and optimization processes. Utilizing directed edges to represent relative binding strength between two peptide nodes, diPepGB achieves superior performance in real-world assays. In summary, our proposed frameworks can serve as potent tools to facilitate peptide early drug discovery.
翻訳日:2024-01-29 15:51:46 公開日:2024-01-26
# ブルーリからブリリアント検出:超高分解能YOLOv5による空中物体検出

From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection with Super Resolution ( http://arxiv.org/abs/2401.14661v1 )

ライセンス: Link先を確認
Ragib Amin Nihal, Benjamin Yen, Katsutoshi Itoyama, Kazuhiro Nakadai(参考訳) 航空画像における正確な物体検出の需要は、ドローンや衛星技術の普及に伴い急増している。 データセットに基づいてトレーニングされた従来のオブジェクト検出モデルは、小さくて密集したオブジェクトが一般的である空中シナリオで最適に実行するのに苦労する。 この課題に対処するために,超解像度と軽量なyolov5アーキテクチャを組み合わせた革新的なアプローチを提案する。 モデルの性能評価には、VisDrone-2023、SeaDroneSee、VEDAI、NWPU VHR-10など、さまざまなデータセットを使用します。 超解決されたyolov5アーキテクチャは、トランスフォーマーエンコーダブロックを備えており、モデルがグローバルコンテキストとコンテキスト情報をキャプチャできるため、特に高密度でオクルードされた環境での検出結果が向上します。 この軽量モデルは精度の向上だけでなく、効率的なリソース利用も保証し、リアルタイムアプリケーションに適している。 実験結果から,本モデルが小型で密集したオブジェクトの検出に優れていることを示すとともに,データセット選択の重要性と,このタスクのアーキテクチャ的適応性を示す。 特に、この方法はVisDrone上で52.5%のmAPを達成し、先行作品のトップを超えている。 このアプローチは、空中画像における物体検出を大幅に進歩させることを約束し、様々な現実世界のアプリケーションにおいてより正確で信頼性の高い結果をもたらす。

The demand for accurate object detection in aerial imagery has surged with the widespread use of drones and satellite technology. Traditional object detection models, trained on datasets biased towards large objects, struggle to perform optimally in aerial scenarios where small, densely clustered objects are prevalent. To address this challenge, we present an innovative approach that combines super-resolution and an adapted lightweight YOLOv5 architecture. We employ a range of datasets, including VisDrone-2023, SeaDroneSee, VEDAI, and NWPU VHR-10, to evaluate our model's performance. Our Super Resolved YOLOv5 architecture features Transformer encoder blocks, allowing the model to capture global context and context information, leading to improved detection results, especially in high-density, occluded conditions. This lightweight model not only delivers improved accuracy but also ensures efficient resource utilization, making it well-suited for real-time applications. Our experimental results demonstrate the model's superior performance in detecting small and densely clustered objects, underlining the significance of dataset choice and architectural adaptation for this specific task. In particular, the method achieves 52.5% mAP on VisDrone, exceeding top prior works. This approach promises to significantly advance object detection in aerial imagery, contributing to more accurate and reliable results in a variety of real-world applications.
翻訳日:2024-01-29 15:51:19 公開日:2024-01-26
# 球状畳み込みワッサースタイン距離による気候モデルの検証

Validating Climate Models with Spherical Convolutional Wasserstein Distance ( http://arxiv.org/abs/2401.14657v1 )

ライセンス: Link先を確認
Robert C. Garrett, Trevor Harris, Bo Li, Zhuo Wang(参考訳) 地球規模の気候モデルの検証は、モデル出力の正確性と有効性を保証するために不可欠である。 本研究では,気候モデルと再分析データの違いをより包括的に測定するために,球状畳み込み距離を導入する。 この新しい類似度尺度は畳み込み射影を用いた空間変動性を考慮し、気候変数の分布の局所的な差を定量化する。 本稿では,CMIP(Coupled Model Intercomparison Project)メンバーの過去のモデル出力を,観測データと再解析データとを比較して評価する。 さらに,cmipフェーズ5からフェーズ6への進展を調査し,リアルな気候を創造する能力に関して,フェーズ6モデルに控えめな改善点を見いだした。

The validation of global climate models is crucial to ensure the accuracy and efficacy of model output. We introduce the spherical convolutional Wasserstein distance to more comprehensively measure differences between climate models and reanalysis data. This new similarity measure accounts for spatial variability using convolutional projections and quantifies local differences in the distribution of climate variables. We apply this method to evaluate the historical model outputs of the Coupled Model Intercomparison Project (CMIP) members by comparing them to observational and reanalysis data products. Additionally, we investigate the progression from CMIP phase 5 to phase 6 and find modest improvements in the phase 6 models regarding their ability to produce realistic climatologies.
翻訳日:2024-01-29 15:50:54 公開日:2024-01-26
# 科学的大規模言語モデル:生物・化学領域に関する調査

Scientific Large Language Models: A Survey on Biological & Chemical Domains ( http://arxiv.org/abs/2401.14656v1 )

ライセンス: Link先を確認
Qiang Zhang, Keyang Ding, Tianwen Lyv, Xinda Wang, Qingyu Yin, Yiwen Zhang, Jing Yu, Yuhao Wang, Xiaotong Li, Zhuoyi Xiang, Xiang Zhuang, Zeyuan Wang, Ming Qin, Mengyao Zhang, Jinlu Zhang, Jiyu Cui, Renjun Xu, Hongyang Chen, Xiaohui Fan, Huabin Xing, Huajun Chen(参考訳) 大規模言語モデル(llm)は、自然言語理解を強化する転換的な力として登場し、人工知能への大きな進歩を表している。 LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。 この関心が高まり、科学的発見を促進するために特別に設計された新しいサブクラスである科学LLMが誕生した。 AI for Scienceのコミュニティでは、科学のLLMが包括的な探査を保証している。 しかし、それを導入した体系的かつ最新の調査は、現在不足している。 本稿では,科学的llmの最近の進歩を徹底的にレビューしながら,科学的言語の概念を体系的に定義することに努める。 科学の分野が広がると、我々の分析は、生物学的および化学的領域に集中して焦点を絞ったレンズを採用する。 これには、テキスト知識、小さな分子、マクロ分子タンパク質、ゲノム配列、それらの組み合わせに関するLLMの詳細な検査が含まれ、モデルアーキテクチャ、能力、データセット、評価の観点でそれらを解析する。 最後に,本研究の課題を批判的に検討し,LLMの進歩とともに有望な研究方向性を指摘する。 この分野での技術開発を包括的に概観することで、この調査は科学LLMの複雑な風景をナビゲートする研究者にとって、貴重な情報源になることを目指している。

Large Language Models (LLMs) have emerged as a transformative power in enhancing natural language comprehension, representing a significant stride toward artificial general intelligence. The application of LLMs extends beyond conventional linguistic boundaries, encompassing specialized linguistic systems developed within various scientific disciplines. This growing interest has led to the advent of scientific LLMs, a novel subclass specifically engineered for facilitating scientific discovery. As a burgeoning area in the community of AI for Science, scientific LLMs warrant comprehensive exploration. However, a systematic and up-to-date survey introducing them is currently lacking. In this paper, we endeavor to methodically delineate the concept of "scientific language", whilst providing a thorough review of the latest advancements in scientific LLMs. Given the expansive realm of scientific disciplines, our analysis adopts a focused lens, concentrating on the biological and chemical domains. This includes an in-depth examination of LLMs for textual knowledge, small molecules, macromolecular proteins, genomic sequences, and their combinations, analyzing them in terms of model architectures, capabilities, datasets, and evaluation. Finally, we critically examine the prevailing challenges and point out promising research directions along with the advances of LLMs. By offering a comprehensive overview of technical developments in this field, this survey aspires to be an invaluable resource for researchers navigating the intricate landscape of scientific LLMs.
翻訳日:2024-01-29 15:50:42 公開日:2024-01-26
# 保険紛争に対する韓国の法的判断予測データセット

A Korean Legal Judgment Prediction Dataset for Insurance Disputes ( http://arxiv.org/abs/2401.14654v1 )

ライセンス: Link先を確認
Alice Saebom Kwak, Cheonkam Jeong, Ji Weon Lim, and Byeongcheol Min(参考訳) 本稿では,保険紛争に対する韓国の法的判断予測(LJP)データセットを紹介する。 保険紛争におけるljpモデルの成功は、保険会社とその顧客に利益をもたらす。 紛争調停プロセスに進むと結果がどうなるかを予測することで、双方の時間とお金を節約できる。 低リソース言語ではよくあることだが、この特定のタスクで利用可能なデータ量には制限がある。 この問題を軽減するために,データの制限にもかかわらず,優れた性能を実現する方法について検討する。 実験では,SetFit,TunstallらによるSentence Transformer Fine-tuning(2022)が,トレーニングデータに制限がある場合の標準微調整の代替となることを示した。 我々のデータに対するsetFitアプローチで微調整されたモデルは、データサイズがはるかに小さいにもかかわらず、韓国のLJPベンチマークモデル(Hwang et al., 2022)と同様のパフォーマンスを示している。

This paper introduces a Korean legal judgment prediction (LJP) dataset for insurance disputes. Successful LJP models on insurance disputes can benefit insurance companies and their customers. It can save both sides' time and money by allowing them to predict how the result would come out if they proceed to the dispute mediation process. As is often the case with low-resource languages, there is a limitation on the amount of data available for this specific task. To mitigate this issue, we investigate how one can achieve a good performance despite the limitation in data. In our experiment, we demonstrate that Sentence Transformer Fine-tuning (SetFit, Tunstall et al., 2022) is a good alternative to standard fine-tuning when training data are limited. The models fine-tuned with the SetFit approach on our data show similar performance to the Korean LJP benchmark models (Hwang et al., 2022) despite the much smaller data size.
翻訳日:2024-01-29 15:50:19 公開日:2024-01-26
# LitE-SNN:空間時間圧縮型ネットワーク探索と共同最適化による軽量で効率的なスパイクニューラルネットワークの設計

LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization ( http://arxiv.org/abs/2401.14652v1 )

ライセンス: Link先を確認
Qianhui Liu, Jiaqi Yan, Malu Zhang, Gang Pan, Haizhou Li(参考訳) スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高く、低消費電力エッジデバイスに適している。 しかし、現在の研究における精度の追求は、これらの機器のリソース制約と相反する大きな長時間ステップsnsをもたらす。 軽量で効率的なSNNを設計するために、空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込んだLitESNNという新しいアプローチを提案する。 本稿では,共有重みとプルーニングマスクを用いて探索空間を拡大し,探索量と混合精度の量子化を支援するための新しい圧縮畳み込みブロック(CompConv)を提案する。 我々は,特定の計算コスト制約下で最適な時間ステップ数を同定するための圧縮時間ステップ探索を提案する。 最後に,アーキテクチャパラメータと時空間圧縮戦略を同時に学習し,メモリと計算コストを最小化しながら高い性能を実現するための共同最適化を行う。 CIFAR10、CIFAR100、Google Speech Commandデータセットの実験結果から、提案したLitESNNは、モデルサイズが著しく小さく、計算コストも少なくて、競争力や精度が向上することを示した。 さらに,精度と資源コストのトレードオフに対するLitESNNの有効性を検証するとともに,共同最適化の優位性を示す。 さらに, litesnnのエネルギー効率をさらに確認するために, エネルギー分析を行う。

Spiking Neural Networks (SNNs) mimic the information-processing mechanisms of the human brain and are highly energy-efficient, making them well-suited for low-power edge devices. However, the pursuit of accuracy in current studies leads to large, long-timestep SNNs, conflicting with the resource constraints of these devices. In order to design lightweight and efficient SNNs, we propose a new approach named LitESNN that incorporates both spatial and temporal compression into the automated network design process. Spatially, we present a novel Compressive Convolution block (CompConv) to expand the search space to support pruning and mixed-precision quantization while utilizing the shared weights and pruning mask to reduce the computation. Temporally, we are the first to propose a compressive timestep search to identify the optimal number of timesteps under specific computation cost constraints. Finally, we formulate a joint optimization to simultaneously learn the architecture parameters and spatial-temporal compression strategies to achieve high performance while minimizing memory and computation costs. Experimental results on CIFAR10, CIFAR100, and Google Speech Command datasets demonstrate our proposed LitESNNs can achieve competitive or even higher accuracy with remarkably smaller model sizes and fewer computation costs. Furthermore, we validate the effectiveness of our LitESNN on the trade-off between accuracy and resource cost and show the superiority of our joint optimization. Additionally, we conduct energy analysis to further confirm the energy efficiency of LitESNN
翻訳日:2024-01-29 15:50:04 公開日:2024-01-26
# 回帰に関する大域的予測と凸関数の近似ランク

Omnipredictors for Regression and the Approximate Rank of Convex Functions ( http://arxiv.org/abs/2401.14645v1 )

ライセンス: Link先を確認
Parikshit Gopalan, Princewill Okoroafor, Prasad Raghavendra, Abhishek Shetty, Mihir Singhal(参考訳) 分布から$\mathbf y$ 与えられた点 $\mathbf x$ を予測することを目標とする教師付き学習集合を考える。 損失関数のクラス $\mathcal L$ と、損失関数のクラス $\mathcal C$ に対する \textit{omnipredictor} は、予想される損失が $\mathcal L$ のすべての損失に対する $\mathcal C$ の最良の仮説よりも少ない予測子である。 この概念を導入した [gkr+21] の仕事以来、$\mathbf y \in \{0, 1\}$ というバイナリラベルの設定には多くの作業があったが、$\mathbf y \in [0,1]$ が連続であるような回帰設定についてはあまり知られていない。 我々の主要な概念的貢献は、損失関数の族に対する損失最小化のための「textit{sufficient statistics}」の概念である。 十分統計量の概念は、損失函数の族(英語版)の近似階数に直接関係している。 我々の主要な技術的貢献は、$O(1/\varepsilon^{2/3})$の値で、$\epsilon$-approximate rank of convex, Lipschitz function on the interval $[0,1]$, which show is tight up to a factor of $\mathrm{polylog} (1/\epsilon)$である。 これにより、すべての凸、リプシッツ損失関数のクラスに対して、$\mathcal C$に関する弱い可学習性仮定の下でのオムニプレクタ学習のランタイムが向上する。 また、損失族が低次多項式近似を持つとき、あるいは一般化線形モデル(glms)から生じるとき、効率的な全量予測子を与える。 ブールラベルの[gkh+23]による損失結果の識別可能性の技術を回帰設定へ持ち上げることにより、十分な統計量からより高速な全量予測器への変換が可能となる。

Consider the supervised learning setting where the goal is to learn to predict labels $\mathbf y$ given points $\mathbf x$ from a distribution. An \textit{omnipredictor} for a class $\mathcal L$ of loss functions and a class $\mathcal C$ of hypotheses is a predictor whose predictions incur less expected loss than the best hypothesis in $\mathcal C$ for every loss in $\mathcal L$. Since the work of [GKR+21] that introduced the notion, there has been a large body of work in the setting of binary labels where $\mathbf y \in \{0, 1\}$, but much less is known about the regression setting where $\mathbf y \in [0,1]$ can be continuous. Our main conceptual contribution is the notion of \textit{sufficient statistics} for loss minimization over a family of loss functions: these are a set of statistics about a distribution such that knowing them allows one to take actions that minimize the expected loss for any loss in the family. The notion of sufficient statistics relates directly to the approximate rank of the family of loss functions. Our key technical contribution is a bound of $O(1/\varepsilon^{2/3})$ on the $\epsilon$-approximate rank of convex, Lipschitz functions on the interval $[0,1]$, which we show is tight up to a factor of $\mathrm{polylog} (1/\epsilon)$. This yields improved runtimes for learning omnipredictors for the class of all convex, Lipschitz loss functions under weak learnability assumptions about the class $\mathcal C$. We also give efficient omnipredictors when the loss families have low-degree polynomial approximations, or arise from generalized linear models (GLMs). This translation from sufficient statistics to faster omnipredictors is made possible by lifting the technique of loss outcome indistinguishability introduced by [GKH+23] for Boolean labels to the regression setting.
翻訳日:2024-01-29 15:49:36 公開日:2024-01-26
# 圧縮アーチファクト削減と超解像のための超高効率ニューラルネットワーク

Super Efficient Neural Network for Compression Artifacts Reduction and Super Resolution ( http://arxiv.org/abs/2401.14641v1 )

ライセンス: Link先を確認
Wen Ma, Qiuwen Lou, Arman Kazemi, Julian Faraone, Tariq Afzal(参考訳) ビデオのクオリティは、ユーザによってストリーミングされる間、インターネットのスピードが制限される。 圧縮アーティファクトはビットレートが減少し、利用可能な帯域幅に合わせると現れる。 既存のアルゴリズムでは、圧縮アーティファクトを同じビデオ解像度で削除すること、あるいはビデオ解像度をアップスケールすることに集中しているが、アーティファクトを削除しない。 超解像度のみのアプローチは、デフォルトで詳細とともにアーティファクトを増幅する。 特徴抽出層を拡張し,カスタムトレーニングデータセットを設計することにより,アーティファクトの削減と超解像(ARSR)を同時に行う,軽量畳み込みニューラルネットワーク(CNN)に基づくアルゴリズムを提案する。 このニューラルネットワークの出力は、可変ビットレート(VBR)符号化を用いて低ビットレートで圧縮されたテストストリームに対して評価される。 出力ビデオ品質は,LanczosやBicubicのような従来の補間アップスケーリング手法と比較して,ビデオマルチメソッド評価融合(VMAF)スコアが4~6増加している。

Video quality can suffer from limited internet speed while being streamed by users. Compression artifacts start to appear when the bitrate decreases to match the available bandwidth. Existing algorithms either focus on removing the compression artifacts at the same video resolution, or on upscaling the video resolution but not removing the artifacts. Super resolution-only approaches will amplify the artifacts along with the details by default. We propose a lightweight convolutional neural network (CNN)-based algorithm which simultaneously performs artifacts reduction and super resolution (ARSR) by enhancing the feature extraction layers and designing a custom training dataset. The output of this neural network is evaluated for test streams compressed at low bitrates using variable bitrate (VBR) encoding. The output video quality shows a 4-6 increase in video multi-method assessment fusion (VMAF) score compared to traditional interpolation upscaling approaches such as Lanczos or Bicubic.
翻訳日:2024-01-29 15:48:47 公開日:2024-01-26
# カシミール力の符号を2つのPEMC球に切り替える

Switching the sign of the Casimir force between two PEMC spheres ( http://arxiv.org/abs/2401.14738v1 )

ライセンス: Link先を確認
Tanja Schoger and Gert-Ludwig Ingold(参考訳) 真空中の非相互対象に対して、カシミール相互作用は反発的になる。 本稿では、完全電磁導体(pemc)として知られる理想化非相反性物質の包括的研究を行う。 この系は異なるPEMC材料で作られた2つの球体で構成されており、特定の場合として平面球形幾何学を含む。 カシミール力の符号は球と幾何学的パラメータの間の距離に依存するだけでなく、温度を調整することで制御できる。 小さい距離での反発的なカシミール相互作用は、球面の安定な平衡配置を可能にする。 ゼロ温度の平面幾何学のために以前に導かれた和則は、少なくとも1つの平面が球面に置き換えられる場合、一般に破られる。

For non-reciprocal objects in vacuum, the Casimir interaction can become repulsive. Here, we present a comprehensive study for idealized non-reciprocal materials known as perfect electromagnetic conductors (PEMC). The system consists of two spheres made of different PEMC materials, including the plane-sphere geometry as a particular case. The sign of the Casimir force does not only depend on the distance between the spheres and their geometric parameters but can be controlled by adjusting the temperature. A repulsive Casimir interaction at small distances allows for stable equilibrium configurations of the spheres. A sum rule previously derived for the plane-plane geometry at zero temperature is violated in general, if at least one plane is replaced by a sphere.
翻訳日:2024-01-29 15:42:27 公開日:2024-01-26
# デュアルニューラル放射場に基づく室内環境の3次元再構成と新しいビュー合成

3D Reconstruction and New View Synthesis of Indoor Environments based on a Dual Neural Radiance Field ( http://arxiv.org/abs/2401.14726v1 )

ライセンス: Link先を確認
Zhenyu Bao, Guibiao Liao, Zhongyuan Zhao, Kanglin Liu, Qing Li, Guoping Qiu(参考訳) 屋内環境における3次元再構成と新しいビュー合成の同時実現は、広く応用されているが、技術的には極めて困難である。 暗黙的ニューラルファンクションに基づく最先端の手法は優れた3次元再構成結果が得られるが、新しいビュー合成の性能は不十分である。 ニューラル放射場(NeRF)のエキサイティングな開発は、新しいビュー合成に革命をもたらしたが、NeRFベースのモデルは、きれいな幾何学的表面を再構成することができない。 本研究では,高画質形状再構成とビューレンダリングを同時に実現する2重ニューラルネットワークラジアンスフィールド(du-nerf)を開発した。 Du-NeRFは2つの幾何学的場を含み、1つはSDF場から導出され、もう1つは密度場から導出され、新しいビュー合成が促進される。 Du-NeRFの革新的な特徴の1つは、ビュー非依存のコンポーネントを密度場から切り離し、SDFフィールドの学習プロセスを監督するためにラベルとして使用することである。 これにより、形状の曖昧さが減少し、学習プロセス中に幾何と色が互いに恩恵を受けることができる。 広範にわたる実験により、du-nerfは室内環境における新しい視点合成と3次元再構成の性能を著しく向上できることが示され、多視点カラー一貫性に従わないファインジオメトリを含む領域の構築に特に有効である。

Simultaneously achieving 3D reconstruction and new view synthesis for indoor environments has widespread applications but is technically very challenging. State-of-the-art methods based on implicit neural functions can achieve excellent 3D reconstruction results, but their performances on new view synthesis can be unsatisfactory. The exciting development of neural radiance field (NeRF) has revolutionized new view synthesis, however, NeRF-based models can fail to reconstruct clean geometric surfaces. We have developed a dual neural radiance field (Du-NeRF) to simultaneously achieve high-quality geometry reconstruction and view rendering. Du-NeRF contains two geometric fields, one derived from the SDF field to facilitate geometric reconstruction and the other derived from the density field to boost new view synthesis. One of the innovative features of Du-NeRF is that it decouples a view-independent component from the density field and uses it as a label to supervise the learning process of the SDF field. This reduces shape-radiance ambiguity and enables geometry and color to benefit from each other during the learning process. Extensive experiments demonstrate that Du-NeRF can significantly improve the performance of novel view synthesis and 3D reconstruction for indoor environments and it is particularly effective in constructing areas containing fine geometries that do not obey multi-view color consistency.
翻訳日:2024-01-29 15:42:07 公開日:2024-01-26
# オンライン活動予測のための非パラメトリックベイズ手法

A Nonparametric Bayes Approach to Online Activity Prediction ( http://arxiv.org/abs/2401.14722v1 )

ライセンス: Link先を確認
Mario Beraha, Lorenzo Masoero, Stefano Favaro, Thomas S. Richardson(参考訳) 定義された時間枠内の特定のアクティビティの開始を正確に予測することは、いくつかの適用コンテキストにおいて重要な意味を持つ。 特に、介入にさらされる将来のユーザ数の正確な予測は、オンライン実験(a/bテスト)を実行する実験者にとって重要な情報である。 本研究では,所定の期間にアクティブなユーザ数と,所望のユーザ参加しきい値を達成するのに必要な時間的軌跡を予測するための新しい手法を提案する。 ベイズ的非パラメトリックアプローチを用いてユーザアクティビティをモデル化し、ユーザエンゲージメントの基盤となる不均一性を捉える。 我々は,所定の期間に期待される新規ユーザ数に対するクローズドフォーム表現と,所望のユーザ数を達成するのに必要な日数の後方分布を目標とする単純なモンテカルロアルゴリズムを導出し,後者は実験計画に重要である。 本稿では,本手法が既存の競合相手よりも優れていることを示す,合成および実世界のデータに関するいくつかの実験を通じて,本手法の性能について述べる。

Accurately predicting the onset of specific activities within defined timeframes holds significant importance in several applied contexts. In particular, accurate prediction of the number of future users that will be exposed to an intervention is an important piece of information for experimenters running online experiments (A/B tests). In this work, we propose a novel approach to predict the number of users that will be active in a given time period, as well as the temporal trajectory needed to attain a desired user participation threshold. We model user activity using a Bayesian nonparametric approach which allows us to capture the underlying heterogeneity in user engagement. We derive closed-form expressions for the number of new users expected in a given period, and a simple Monte Carlo algorithm targeting the posterior distribution of the number of days needed to attain a desired number of users; the latter is important for experimental planning. We illustrate the performance of our approach via several experiments on synthetic and real world data, in which we show that our novel method outperforms existing competitors.
翻訳日:2024-01-29 15:41:22 公開日:2024-01-26
# plitterstreet: ストリートレベルのプラスチックごみ検出とマッピング

pLitterStreet: Street Level Plastic Litter Detection and Mapping ( http://arxiv.org/abs/2401.14719v1 )

ライセンス: Link先を確認
Sriram Reddy Mandhati, N. Lakmal Deshapriya, Chatura Lavanga Mendis, Kavinda Gunasekara, Frank Yrle, Angsana Chaksan, Sujit Sanjeev(参考訳) プラスチック汚染は重要な環境問題であり、プラスチックごみの検知と監視はその影響を緩和するために不可欠である。 本稿では, プラスチック廃棄物とごみ箱の立地に着目し, 街路レベルごみのマッピング手法を提案する。 本手法は,車両に搭載されたカメラが撮影した路上画像からごみやゴミ箱を識別する深層学習手法を用いる。 その後,ヒートマップを用いて都市全体のごみやごみの分布を視覚的に表現した。 さらに、我々のアプローチで開発されたオープンソースのデータセット(pLitterStreet)の作成についての詳細を提供する。 データセットには、車載カメラから収集された13,000以上の完全な注釈付き画像と、バウンディングボックスラベルが含まれている。 本データセットの有効性を評価するため,4つの既知の最先端物体検出アルゴリズム(Faster R-CNN, RetinaNet, YOLOv3, YOLOv5)を検証し,平均精度(AP)を40%以上とした。 その結果,平均的な測定値を示したが,車載カメラを用いたプラスチックリッターマッピングの信頼性が実証された。 また、「pLitterStreet」は、都市環境におけるプラスチックごみの検出とマッピングのための既存の機械学習モデルの開発と改善を行う研究者や実践者にとって貴重な資源となる。 データセットはオープンソースで、データセットとトレーニングされたモデルの詳細はhttps://github.com/gicait/pLitter.orgで確認できる。

Plastic pollution is a critical environmental issue, and detecting and monitoring plastic litter is crucial to mitigate its impact. This paper presents the methodology of mapping street-level litter, focusing primarily on plastic waste and the location of trash bins. Our methodology involves employing a deep learning technique to identify litter and trash bins from street-level imagery taken by a camera mounted on a vehicle. Subsequently, we utilized heat maps to visually represent the distribution of litter and trash bins throughout cities. Additionally, we provide details about the creation of an open-source dataset ("pLitterStreet") which was developed and utilized in our approach. The dataset contains more than 13,000 fully annotated images collected from vehicle-mounted cameras and includes bounding box labels. To evaluate the effectiveness of our dataset, we tested four well known state-of-the-art object detection algorithms (Faster R-CNN, RetinaNet, YOLOv3, and YOLOv5), achieving an average precision (AP) above 40%. While the results show average metrics, our experiments demonstrated the reliability of using vehicle-mounted cameras for plastic litter mapping. The "pLitterStreet" can also be a valuable resource for researchers and practitioners to develop and further improve existing machine learning models for detecting and mapping plastic litter in an urban environment. The dataset is open-source and more details about the dataset and trained models can be found at https://github.com/gicait/pLitter.
翻訳日:2024-01-29 15:40:38 公開日:2024-01-26
# ビデオ予測に関する調査 : 決定論的アプローチから生成的アプローチへ

A Survey on Video Prediction: From Deterministic to Generative Approaches ( http://arxiv.org/abs/2401.14718v1 )

ライセンス: Link先を確認
Ruibo Ming, Zhewei Huang, Zhuoxuan Ju, Jianming Hu, Lihui Peng, Shuchang Zhou(参考訳) コンピュータビジョンの基本課題である映像予測は、モデルが既存の映像コンテンツに基づいて将来のフレームのシーケンスを生成することを可能にすることを目的としている。 このタスクは様々なドメインに広く適用されている。 本稿では,この分野における歴史的・現代的作品を総合的に調査し,最も広く利用されているデータセットとアルゴリズムについて述べる。 本調査は,コンピュータビジョンの領域における映像予測の課題と展望を考察する。 本稿では,ビデオ予測アルゴリズムの確率的性質に着目した新しい分類法を提案する。 この分類法は決定論的な予測方法論から生成的予測方法論への段階的な変化を強調し、アプローチの著しい進歩と変化を強調する。

Video prediction, a fundamental task in computer vision, aims to enable models to generate sequences of future frames based on existing video content. This task has garnered widespread application across various domains. In this paper, we comprehensively survey both historical and contemporary works in this field, encompassing the most widely used datasets and algorithms. Our survey scrutinizes the challenges and evolving landscape of video prediction within the realm of computer vision. We propose a novel taxonomy centered on the stochastic nature of video prediction algorithms. This taxonomy accentuates the gradual transition from deterministic to generative prediction methodologies, underlining significant advancements and shifts in approach.
翻訳日:2024-01-29 15:40:01 公開日:2024-01-26
# 音響・大規模言語モデル融合によるターンテイク・バックチャネル予測

Turn-taking and Backchannel Prediction with Acoustic and Large Language Model Fusion ( http://arxiv.org/abs/2401.14717v1 )

ライセンス: Link先を確認
Jinhan Wang, Long Chen, Aparna Khare, Anirudh Raju, Pranav Dheram, Di He, Minhua Wu, Andreas Stolcke, Venkatesh Ravichandran(参考訳) 本稿では,大きな言語モデル(LLM)とニューラル音響モデルを融合させることにより,音声対話におけるターンテイク位置とバックチャネル位置の連続予測手法を提案する。 switchboard human-human conversationデータセットにおける実験は、我々のアプローチが、単一モダリティでベースラインモデルを一貫して上回っていることを示している。 また,タスクや会話コンテキストを理解するためのLLM符号化知識のさらなる活用を目的とした,新しいマルチタスク命令微調整戦略を開発し,さらなる改良を行った。 我々のアプローチは、人間と音声対応AIエージェントとのより自然な対話のためのLLMと音響モデルの組み合わせの可能性を示す。

We propose an approach for continuous prediction of turn-taking and backchanneling locations in spoken dialogue by fusing a neural acoustic model with a large language model (LLM). Experiments on the Switchboard human-human conversation dataset demonstrate that our approach consistently outperforms the baseline models with single modality. We also develop a novel multi-task instruction fine-tuning strategy to further benefit from LLM-encoded knowledge for understanding the tasks and conversational contexts, leading to additional improvements. Our approach demonstrates the potential of combined LLMs and acoustic models for a more natural and conversational interaction between humans and speech-enabled AI agents.
翻訳日:2024-01-29 15:39:23 公開日:2024-01-26
# 新しい安全性の弱み評価手法に基づく子どものオンライン安全のための安全リスク評価枠組み

A safety risk assessment framework for children's online safety based on a novel safety weakness assessment approach ( http://arxiv.org/abs/2401.14713v1 )

ライセンス: Link先を確認
Vinh-Thong Ta(参考訳) 本稿では,成長するデジタルランドスケープの文脈における子どものオンライン安全の問題に対処する。 子供のデジタル技術の利用が急増する中、既存のデータ保護やオンラインプライバシー保護規制にもかかわらず、オンラインの安全被害、リスク、犯罪事件が増加している。 ほとんどの一般的なセキュリティとプライバシーアセスメントのアプローチ/標準は、主に金融損失からビジネスを守ることに焦点を当てているが、オンライン空間で子どもたちが直面するユニークな課題に対応するために特別に設計された方法論には注目すべきギャップがある。 このギャップを埋めるために,子どものオンライン安全に焦点を当てた安全リスク評価手法を提案する。 提案手法の重要な特徴は,オンラインサービスやアプリケーションの潜在的な安全性の弱点を,正確な自動数学的推論に基づいて説明し,体系的に評価することである。 このフレームワークは、システム設計フェーズにおいて、オンラインサービスやアプリデザイナーを積極的にセーフティ・バイ・デザインの確保に役立てる可能性があり、また、監査役やユーザは、既存のサービス/アプリによるリスクを理解し、年齢に配慮した警告や教育材料の設計に関するさらなる研究を促進することができる。

This paper addresses the problem of children's online safety in the context of the growing digital landscape. With a surge in the use of digital technology among children, there has been an increase in online safety harms, risks and criminal incidents despite existing data protection and online privacy protection regulations. Most general security and privacy assessment approaches/standards focus mainly on protecting businesses from financial loss, but there remains a notable gap in methodologies specifically designed to cater to the unique challenges faced by children in the online space. To fill this gap, we propose a safety risk assessment approach that focuses specifically on children's online safety. The key novelty of our approach is providing an explainable and systematic evaluation of potential safety weaknesses of online services and applications based on precise automated mathematical reasoning. This framework has the potential to assist online service and app designers during the system design phase enabling them to proactively ensure Safety-by-Design, as well as auditors and users to understand the risks posed by existing services/apps, promoting further research on designing age-appropriate warnings and education materials for children and parents.
翻訳日:2024-01-29 15:39:11 公開日:2024-01-26
# 特徴連接による逆ロバスト性に対する特徴ギャップの緩和

Mitigating Feature Gap for Adversarial Robustness by Feature Disentanglement ( http://arxiv.org/abs/2401.14707v1 )

ライセンス: Link先を確認
Nuoyan Zhou, Dawei Zhou, Decheng Liu, Xinbo Gao, Nannan Wang(参考訳) ディープニューラルネットワークは敵のサンプルに弱い。 敵意の微調整は、敵意の訓練方法で自然に訓練されたモデルを微調整することで、敵意の強固さを高めることを目的としている。 しかし, 逆行性サンプルの潜伏した特徴は, 逆行性摂動によって混同され, 逆行性サンプルの最後の隠れ層における特徴と逆行性サンプルとの間に予期せぬ差が生じた。 この問題に対処するため,我々は,機能ギャップの原因となる潜伏する特徴を明示的にモデル化し,さらに除去する,アンタングルメントに基づくアプローチを提案する。 具体的には,潜伏した特徴を敵のサンプルの特徴から切り離し,潜伏した特徴を排除することで頑健性を高める機能ディスタングルを導入する。 さらに, 事前学習モデルの特徴と, 微調整モデルにおける対立サンプルの特徴とを一致させ, 混乱を伴わない自然サンプルの特徴をさらに活用する。 3つのベンチマークデータセットにおける経験的評価は、我々のアプローチが既存の敵の微調整方法と敵のトレーニングベースラインを上回っていることを示している。

Deep neural networks are vulnerable to adversarial samples. Adversarial fine-tuning methods aim to enhance adversarial robustness through fine-tuning the naturally pre-trained model in an adversarial training manner. However, we identify that some latent features of adversarial samples are confused by adversarial perturbation and lead to an unexpectedly increasing gap between features in the last hidden layer of natural and adversarial samples. To address this issue, we propose a disentanglement-based approach to explicitly model and further remove the latent features that cause the feature gap. Specifically, we introduce a feature disentangler to separate out the latent features from the features of the adversarial samples, thereby boosting robustness by eliminating the latent features. Besides, we align features in the pre-trained model with features of adversarial samples in the fine-tuned model, to further benefit from the features from natural samples without confusion. Empirical evaluations on three benchmark datasets demonstrate that our approach surpasses existing adversarial fine-tuning methods and adversarial training baselines.
翻訳日:2024-01-29 15:38:49 公開日:2024-01-26
# 深層学習型COVID-19画像分類のためのGANによる拡張の検討

Additional Look into GAN-based Augmentation for Deep Learning COVID-19 Image Classification ( http://arxiv.org/abs/2401.14705v1 )

ライセンス: Link先を確認
Oleksandr Fedoruk, Konrad Klimaszewski, Aleksander Ogonowski and Micha{\l} Kruk(参考訳) トレーニングデータの可用性は、医学画像のディープラーニング応用における大きな制限の1つだ。 データ拡張は、この問題を克服するための一般的なアプローチである。 新しいアプローチは機械学習ベースの拡張であり、特にGAN(Generative Adversarial Networks)を使用する。 この場合、GANは元のデータセットに似た画像を生成し、全体的なトレーニングデータ量が大きくなると、トレーニングされたネットワークのパフォーマンスが向上する。 GANモデルは、ジェネレータと識別器の2つのネットワークで構成され、フィードバックループに相互接続して競合環境を生成する。 この研究は、nvidiaが限定的なcovid-19胸部x線画像データセットでstylegan2-adaをトレーニングした以前の研究の継続です。 本稿では,GANに基づく拡張性能のデータセットサイズ依存性について検討し,小型サンプルに着目した。 1つはクラス当たり1000画像(合計4000画像)、もう1つはクラス当たり500画像(合計2000画像)である。 両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。 我々は,ganに基づく強調法の品質を,covid-19胸部x線画像の転送学習に基づく分類を用いて,2つの異なるアプローチ(古典的増補と無増補)と比較した。 結果は、異なる分類品質指標を用いて定量化され、文献の結果と比較される。 GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。 元のデータセットのサイズと分類の質との間には、拡張アプローチとは独立に相関がある。

The availability of training data is one of the main limitations in deep learning applications for medical imaging. Data augmentation is a popular approach to overcome this problem. A new approach is a Machine Learning based augmentation, in particular usage of Generative Adversarial Networks (GAN). In this case, GANs generate images similar to the original dataset so that the overall training data amount is bigger, which leads to better performance of trained networks. A GAN model consists of two networks, a generator and a discriminator interconnected in a feedback loop which creates a competitive environment. This work is a continuation of the previous research where we trained StyleGAN2-ADA by Nvidia on the limited COVID-19 chest X-ray image dataset. In this paper, we study the dependence of the GAN-based augmentation performance on dataset size with a focus on small samples. Two datasets are considered, one with 1000 images per class (4000 images in total) and the second with 500 images per class (2000 images in total). We train StyleGAN2-ADA with both sets and then, after validating the quality of generated images, we use trained GANs as one of the augmentations approaches in multi-class classification problems. We compare the quality of the GAN-based augmentation approach to two different approaches (classical augmentation and no augmentation at all) by employing transfer learning-based classification of COVID-19 chest X-ray images. The results are quantified using different classification quality metrics and compared to the results from the literature. The GAN-based augmentation approach is found to be comparable with classical augmentation in the case of medium and large datasets but underperforms in the case of smaller datasets. The correlation between the size of the original dataset and the quality of classification is visible independently from the augmentation approach.
翻訳日:2024-01-29 15:38:27 公開日:2024-01-26
# FairSample: 公正で正確なグラフ畳み込みニューラルネットワークを効果的にトレーニングする

FairSample: Training Fair and Accurate Graph Convolutional Neural Networks Efficiently ( http://arxiv.org/abs/2401.14702v1 )

ライセンス: Link先を確認
Zicun Cong, Shi Baoxu, Shan Li, Jaewon Yang, Qi He, Jian Pei(参考訳) グラフ畳み込みニューラルネットワーク(GCN)の公平性は、GCNが多くの重要なアプリケーションで採用されるにつれて、ますます重要になる。 センシティブなグループに対する社会的バイアスは多くの実世界のグラフに存在する。 これらのグラフでトレーニングされたGCNは、そのようなバイアスの影響を受けやすい。 本稿では,人口動態の公平性の概念を広く採用し,公平かつ正確なGCNを効率的に訓練する課題に取り組む。 本稿では,グラフ構造バイアス,ノード属性バイアス,モデルパラメータがGCNの人口動態にどのように影響するかを詳細に分析する。 私たちの洞察は、3種類のバイアスを緩和するフレームワークであるFairSampleにつながります。 グラフ構造の修正には直感的な2つの戦略を用いる。 まず、異なるセンシティブなグループであるがノードの特徴に類似したノードにエッジを注入する。 第2に,モデルの公平性を高め,モデル品質を維持するため,強化学習を用いた学習可能な隣接サンプリングポリシを開発する。 ノードの特徴とモデルパラメータのバイアスに対処するため、fairsampleはフェアネスを最適化するための正規化目的によって補完される。

Fairness in Graph Convolutional Neural Networks (GCNs) becomes a more and more important concern as GCNs are adopted in many crucial applications. Societal biases against sensitive groups may exist in many real world graphs. GCNs trained on those graphs may be vulnerable to being affected by such biases. In this paper, we adopt the well-known fairness notion of demographic parity and tackle the challenge of training fair and accurate GCNs efficiently. We present an in-depth analysis on how graph structure bias, node attribute bias, and model parameters may affect the demographic parity of GCNs. Our insights lead to FairSample, a framework that jointly mitigates the three types of biases. We employ two intuitive strategies to rectify graph structures. First, we inject edges across nodes that are in different sensitive groups but similar in node features. Second, to enhance model fairness and retain model quality, we develop a learnable neighbor sampling policy using reinforcement learning. To address the bias in node features and model parameters, FairSample is complemented by a regularization objective to optimize fairness.
翻訳日:2024-01-29 15:38:00 公開日:2024-01-26
# 表面下:LLM生成データの実用性追跡

Under the Surface: Tracking the Artifactuality of LLM-Generated Data ( http://arxiv.org/abs/2401.14698v1 )

ライセンス: Link先を確認
Debarati Das, Karin De Langis, Anna Martin, Jaehyung Kim, Minhwa Lee, Zae Myung Kim, Shirley Hayati, Risako Owan, Bin Hu, Ritik Parkar, Ryan Koo, Jonginn Park, Aahan Tyagi, Libby Ferland, Sanjali Roy, Vincent Liu, and Dongyeop Kang(参考訳) この研究は、人工データの生成において、大きな言語モデル(LLM)の役割を拡大している。 LLMは、アノテーション、好み、命令プロンプト、シミュレートされた対話、自由テキストなど、様々なアウトプットを作成するためにますます使われている。 これらのLCM生成データはしばしばアプリケーションに交わるため、相互に影響を及ぼし、トレーニングサイクルに組み込まれた人工データの品質と多様性に関する重要な懸念を提起し、人工データエコシステムへと繋がる。 我々の知る限りでは、「タスクラベル」のようなより厳密に制約されたデータから、より軽量に制約された「フリーフォームテキスト」まで、様々な LLM 生成テキストデータを収集する最初の研究である。 次に、LLM生成人工データの品質と意味をテストし、既存のベンチマークで人的データと比較する。 人工データの人間のパフォーマンスにマッチする能力にもかかわらず、特にLLMが本質的な人為的コンテンツに対する微妙な理解を欠いている複雑なタスクにおいて、隠れた相違が顕著である。 本研究は, LLMの生成する多種多様なデータについて批判的に検討し, LLMを用いた場合の倫理的実践の必要性を強調した。 llmが生み出したコンテンツのバイアスやアーティファクトに対処することの重要性を強調し、人間の特性や行動の複製におけるllmの欠点を強調する。 すべてのデータとコードは、プロジェクトのページで利用可能です。

This work delves into the expanding role of large language models (LLMs) in generating artificial data. LLMs are increasingly employed to create a variety of outputs, including annotations, preferences, instruction prompts, simulated dialogues, and free text. As these forms of LLM-generated data often intersect in their application, they exert mutual influence on each other and raise significant concerns about the quality and diversity of the artificial data incorporated into training cycles, leading to an artificial data ecosystem. To the best of our knowledge, this is the first study to aggregate various types of LLM-generated text data, from more tightly constrained data like "task labels" to more lightly constrained "free-form text". We then stress test the quality and implications of LLM-generated artificial data, comparing it with human data across various existing benchmarks. Despite artificial data's capability to match human performance, this paper reveals significant hidden disparities, especially in complex tasks where LLMs often miss the nuanced understanding of intrinsic human-generated content. This study critically examines diverse LLM-generated data and emphasizes the need for ethical practices in data creation and when using LLMs. It highlights the LLMs' shortcomings in replicating human traits and behaviors, underscoring the importance of addressing biases and artifacts produced in LLM-generated content for future research and development. All data and code are available on our project page.
翻訳日:2024-01-29 15:37:43 公開日:2024-01-26
# マルジンバランスとモデレートブロードニングのための漸近的中点混合法

Asymptotic Midpoint Mixup for Margin Balancing and Moderate Broadening ( http://arxiv.org/abs/2401.14696v1 )

ライセンス: Link先を確認
Hoyong Kim, Semi Lee, Kangil Kim(参考訳) 特徴空間において、特徴間の崩壊は、特徴を区別しないまま残すことによって、表現学習における重要な問題を引き起こす。 mixupのような補間に基づく拡張法は、クラス間崩壊と呼ばれる異なるクラス間の崩壊問題を緩和する効果を示している。 しかし, 粗小転校学習におけるクラス内崩壊は, 増補的アプローチでは議論されていない。 そこで本研究では,より優れた機能拡張手法である漸近的中点混合法を提案する。 補間により拡張特徴を生成するが、徐々にクラス間特徴対の中点に向かって移動させる。 その結果、この方法は2つの効果を誘導する。 1)全クラスのマージンのバランスをとること 2) 限界を緩やかに広げるだけで、最大信頼が得られる。 可視化表現を用いたアライメントと均一性の測定により, 崩壊効果を実証的に解析した。 次に,ロングテールデータセットにおけるクラス内崩壊効果と不均衡学習におけるクラス間崩壊効果を検証する。 いずれのタスクにおいても,提案手法は他の拡張手法よりも優れた性能を示す。

In the feature space, the collapse between features invokes critical problems in representation learning by remaining the features undistinguished. Interpolation-based augmentation methods such as mixup have shown their effectiveness in relieving the collapse problem between different classes, called inter-class collapse. However, intra-class collapse raised in coarse-to-fine transfer learning has not been discussed in the augmentation approach. To address them, we propose a better feature augmentation method, asymptotic midpoint mixup. The method generates augmented features by interpolation but gradually moves them toward the midpoint of inter-class feature pairs. As a result, the method induces two effects: 1) balancing the margin for all classes and 2) only moderately broadening the margin until it holds maximal confidence. We empirically analyze the collapse effects by measuring alignment and uniformity with visualizing representations. Then, we validate the intra-class collapse effects in coarse-to-fine transfer learning and the inter-class collapse effects in imbalanced learning on long-tailed datasets. In both tasks, our method shows better performance than other augmentation methods.
翻訳日:2024-01-29 15:37:16 公開日:2024-01-26
# トラヒック予測のための連続進行グラフニューラル制御微分方程式

Continuously Evolving Graph Neural Controlled Differential Equations for Traffic Forecasting ( http://arxiv.org/abs/2401.14695v1 )

ライセンス: Link先を確認
Jiajia Wu, Ling Chen(参考訳) スマートシティの発展に欠かせない技術として、交通予測は何十年もの間、学術と産業のコミュニティで人気のある研究対象となっている。 このタスクは、交通ネットワークにおける複雑で動的な時空間依存性のため、非常に難しい。 既存の作業は、時間とともに進化する継続的時間的依存関係や空間的依存関係を無視します。 本稿では,連続的な時間的依存関係と空間的依存関係を同時に捉えるための連続進化グラフニューラル制御微分方程式(CEGNCDE)を提案する。 特に、ncdeに基づく連続進化グラフ生成器(cegg)を導入し、離散的歴史的観測から時間とともに連続的に進化する空間依存グラフを生成する。 次に,連続時間依存性と空間依存性を同時に捉えるグラフニューラルネットワーク制御微分方程式(gncde)フレームワークを導入する。 CEGNCDEは、平均2.34%のMAE還元、0.97%のRMSE還元、および3.17%のMAPE還元でSOTA法より優れていた。

As a crucial technique for developing a smart city, traffic forecasting has become a popular research focus in academic and industrial communities for decades. This task is highly challenging due to complex and dynamic spatial-temporal dependencies in traffic networks. Existing works ignore continuous temporal dependencies and spatial dependencies evolving over time. In this paper, we propose Continuously Evolving Graph Neural Controlled Differential Equations (CEGNCDE) to capture continuous temporal dependencies and spatial dependencies over time simultaneously. Specifically, a continuously evolving graph generator (CEGG) based on NCDE is introduced to generate the spatial dependencies graph that continuously evolves over time from discrete historical observations. Then, a graph neural controlled differential equations (GNCDE) framework is introduced to capture continuous temporal dependencies and spatial dependencies over time simultaneously. Extensive experiments demonstrate that CEGNCDE outperforms the SOTA methods by average 2.34% relative MAE reduction, 0.97% relative RMSE reduction, and 3.17% relative MAPE reduction.
翻訳日:2024-01-29 15:37:03 公開日:2024-01-26
# TA-RNN:電子健康記録のための注意に基づく時間認識リカレントニューラルネットワークアーキテクチャ

TA-RNN: an Attention-based Time-aware Recurrent Neural Network Architecture for Electronic Health Records ( http://arxiv.org/abs/2401.14694v1 )

ライセンス: Link先を確認
Mohammad Al Olaimat (1, 3), Serdar Bozdag (1, 2 and 3) and the Alzheimer's Disease Neuroimaging Initiative ((1) Dept. of Computer Science and Engineering, University of North Texas, Denton, USA, (2) Dept. of Mathematics, University of North Texas, Denton, USA, (3) BioDiscovery Institute, University of North Texas, Denton, USA)(参考訳) 動機:Electronic Health Records(EHR)は患者の医療史の総合的な資料である。 EHRは、深層学習(DL)のような高度な技術を活用するために不可欠であり、医療提供者が広範なデータを分析し、貴重な洞察を抽出し、正確でデータ駆動型の臨床決定を下すことができる。 リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)のようなDL手法を用いて, EHRを分析して疾患の進行をモデル化し, 診断を予測する。 しかし、これらの手法は、臨床訪問間の不規則な時間間隔など、EHRデータに固有の不規則性には対処しない。 さらに、ほとんどのDLモデルは解釈できない。 本研究では,RNNをベースとした2つの解釈可能なDLアーキテクチャ,TA-RNN(Time-Aware RNN)とTA-RNN-Autoencoder(TA-RNN-AE)を提案する。 本研究では,不規則な時間間隔の影響を軽減するため,訪問時間間の時間埋め込みを提案する。 そこで本研究では,各訪問における訪問と特徴の間で動作する2レベルアテンション機構を提案する。 結果: アルツハイマー病神経画像イニシアチブ (ADNI) と国立アルツハイマー病コーディネートセンター (NACC) データセットを用いて行った実験の結果, F2 と感度に基づく最先端およびベースラインアプローチと比較して,アルツハイマー病(AD)を予測するための提案モデルの優れた性能を示した。 さらに、TA-RNNは、死亡予測のためのMIMIC-IIIデータセットにおいて優れた性能を示した。 アブレーション実験では,時間埋め込みと注意機構を取り入れた予測性能が向上した。 最後に注意重みの調査は、予測に影響力のある訪問や特徴を特定するのに役立った。 可用性:https://github.com/bozdaglab/TA-RNN

Motivation: Electronic Health Records (EHR) represent a comprehensive resource of a patient's medical history. EHR are essential for utilizing advanced technologies such as deep learning (DL), enabling healthcare providers to analyze extensive data, extract valuable insights, and make precise and data-driven clinical decisions. DL methods such as Recurrent Neural Networks (RNN) have been utilized to analyze EHR to model disease progression and predict diagnosis. However, these methods do not address some inherent irregularities in EHR data such as irregular time intervals between clinical visits. Furthermore, most DL models are not interpretable. In this study, we propose two interpretable DL architectures based on RNN, namely Time-Aware RNN (TA-RNN) and TA-RNN-Autoencoder (TA-RNN-AE) to predict patient's clinical outcome in EHR at next visit and multiple visits ahead, respectively. To mitigate the impact of irregular time intervals, we propose incorporating time embedding of the elapsed times between visits. For interpretability, we propose employing a dual-level attention mechanism that operates between visits and features within each visit. Results: The results of the experiments conducted on Alzheimer's Disease Neuroimaging Initiative (ADNI) and National Alzheimer's Coordinating Center (NACC) datasets indicated superior performance of proposed models for predicting Alzheimer's Disease (AD) compared to state-of-the-art and baseline approaches based on F2 and sensitivity. Additionally, TA-RNN showed superior performance on Medical Information Mart for Intensive Care (MIMIC-III) dataset for mortality prediction. In our ablation study, we observed enhanced predictive performance by incorporating time embedding and attention mechanisms. Finally, investigating attention weights helped identify influential visits and features in predictions. Availability: https://github.com/bozdaglab/TA-RNN
翻訳日:2024-01-29 15:36:47 公開日:2024-01-26
# Taiyi-Diffusion-XL:視覚言語モデルによるバイリンガルテキスト画像生成の高速化

Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support ( http://arxiv.org/abs/2401.14688v1 )

ライセンス: Link先を確認
Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu, Renliang Sun, Jiaxing Zhang, Pingjian Zhang, Yan Song(参考訳) 近年のテキスト画像モデルの進歩は画像生成能力を大幅に向上させたが、バイリンガルや中国語のサポートにおいて、オープンソースモデルの顕著なギャップは持続している。 このニーズに対処するために、中国語と英語の新しいバイリンガルテキスト・トゥ・イメージモデルであるTaiyi-Diffusion-XL を、バイリンガル連続事前学習のプロセスを通じてCLIPとStable-Diffusion-XLの能力を拡張して開発する。 このアプローチは、最も頻繁に使われる漢字をCLIPのトークン化器と埋め込み層に統合し、絶対位置エンコーディング拡張と組み合わせることで、語彙の効率的な拡張を含む。 さらに,大きな視覚言語モデルによってテキストプロンプトを豊かにすることで,画像キャプションが向上し,視覚品質も向上した。 これらの拡張はその後、下流のテキストから画像へのモデルに適用される。 実験の結果,開発されたCLIPモデルはバイリンガル画像テキスト検索に優れており,また,タイ・ディフュージョンXLのバイリンガル画像生成能力は過去のモデルより優れていた。 この研究はタイイ拡散XLモデルの開発とオープンソース化につながり、特に中国語における画像生成の分野における顕著な進歩を示している。 この貢献は、マルチモーダル研究におけるより多様な言語サポートの必要性に対処するための一歩である。 モデルとデモは \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}{this https URL} で公開されている。

Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or Chinese language support. To address this need, we present Taiyi-Diffusion-XL, a new Chinese and English bilingual text-to-image model which is developed by extending the capabilities of CLIP and Stable-Diffusion-XL through a process of bilingual continuous pre-training. This approach includes the efficient expansion of vocabulary by integrating the most frequently used Chinese characters into CLIP's tokenizer and embedding layers, coupled with an absolute position encoding expansion. Additionally, we enrich text prompts by large vision-language model, leading to better images captions and possess higher visual quality. These enhancements are subsequently applied to downstream text-to-image models. Our empirical results indicate that the developed CLIP model excels in bilingual image-text retrieval.Furthermore, the bilingual image generation capabilities of Taiyi-Diffusion-XL surpass previous models. This research leads to the development and open-sourcing of the Taiyi-Diffusion-XL model, representing a notable advancement in the field of image generation, particularly for Chinese language applications. This contribution is a step forward in addressing the need for more diverse language support in multimodal research. The model and demonstration are made publicly available at \href{https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/}{this https URL}, fostering further research and collaboration in this domain.
翻訳日:2024-01-29 15:36:10 公開日:2024-01-26
# SimpleEgo:エゴセントリックカメラから確率的ボディポッドを予測する

SimpleEgo: Predicting Probabilistic Body Pose from Egocentric Cameras ( http://arxiv.org/abs/2401.14785v1 )

ライセンス: Link先を確認
Hanz Cuevas-Velasquez, Charlie Hewitt, Sadegh Aliakbarian, Tadas Baltru\v{s}aitis(参考訳) 本研究は、ヘッドマウントデバイス(HMD)上の下向きカメラによる人間中心のポーズ推定の問題に対処する。 これは難しいシナリオであり、身体の一部がしばしば画像の外側に落ちるか、隠されているためである。 これまでのソリューションでは、魚眼カメラレンズを使って広い視野を捉えることで、この問題を最小限に抑えることができた。 彼らはまた、関節あたりの2次元熱マップを予測し、自己閉塞を扱うために3次元空間まで持ち上げるが、これはリソース制約されたHMDにデプロイするには実用的でない大規模なネットワークアーキテクチャを必要とする。 従来の直線型カメラレンズで撮影した画像からポーズを推定する。 これはハードウェア設計の問題を解決するが、ボディ部品はフレーム外であることが多い。 そこで,パラメータ化体モデルに対する行列フィッシャー分布として表される確率的関節回転を直接回帰する。 これにより、不確実性を定量化し、フレーム外または閉塞された関節を説明することができます。 これにより、2dヒートマップを計算する必要がなくなり、計算の少ないdnnアーキテクチャが簡単になる。 直線型カメラレンズを用いたエゴセントリックデータセットの欠如を考えると、synthegoデータセットはポーズ、形状、衣服、肌の色が多様である60kステレオ画像からなる合成データセットである。 提案手法は, この難易度設定の最先端化を実現し, 平均接合位置誤差を23%, 下肢では58%削減する。 私たちのアーキテクチャはパラメータも8倍少なく、現在の最先端の2倍の速度で動作します。 実験によると、われわれの合成データセットのトレーニングは、微調整せずに現実世界の画像に優れた一般化をもたらす。

Our work addresses the problem of egocentric human pose estimation from downwards-facing cameras on head-mounted devices (HMD). This presents a challenging scenario, as parts of the body often fall outside of the image or are occluded. Previous solutions minimize this problem by using fish-eye camera lenses to capture a wider view, but these can present hardware design issues. They also predict 2D heat-maps per joint and lift them to 3D space to deal with self-occlusions, but this requires large network architectures which are impractical to deploy on resource-constrained HMDs. We predict pose from images captured with conventional rectilinear camera lenses. This resolves hardware design issues, but means body parts are often out of frame. As such, we directly regress probabilistic joint rotations represented as matrix Fisher distributions for a parameterized body model. This allows us to quantify pose uncertainties and explain out-of-frame or occluded joints. This also removes the need to compute 2D heat-maps and allows for simplified DNN architectures which require less compute. Given the lack of egocentric datasets using rectilinear camera lenses, we introduce the SynthEgo dataset, a synthetic dataset with 60K stereo images containing high diversity of pose, shape, clothing and skin tone. Our approach achieves state-of-the-art results for this challenging configuration, reducing mean per-joint position error by 23% overall and 58% for the lower body. Our architecture also has eight times fewer parameters and runs twice as fast as the current state-of-the-art. Experiments show that training on our synthetic dataset leads to good generalization to real world images without fine-tuning.
翻訳日:2024-01-29 15:28:55 公開日:2024-01-26
# 金融感情分析のための大規模言語モデル適応

Large Language Model Adaptation for Financial Sentiment Analysis ( http://arxiv.org/abs/2401.14777v1 )

ライセンス: Link先を確認
Pau Rodriguez Inserte, Mariam Nakhl\'e, Raheel Qader, Gaetan Caillaut and Jingshu Liu(参考訳) 自然言語処理(NLP)は、最近、企業や市場の財務文書に非常に貴重な洞察を提供することで、金融機関内での関連性を高めている。 しかし、金融ドメインの展望は、テキストの複雑さと特定の用語の使用のために、nlpにとって余計な課題となっている。 汎用言語モデルは、大きな自然言語理解と生成能力を持つ言語モデル(LLM)を使用しても、金融に特化されたタスクでは不足する傾向にある。 本稿では,金融分野を対象としたLLM適応手法について,金融感情分析に重点を置いて検討する。 この目的のために、1.5B未満のパラメータを持つ2つの基礎モデルが幅広い戦略を用いて適応されている。 財務書類と指示の両方を注意深く微調整することで、これらの基礎モデルが対象ドメインに適応できることを示します。 さらに,小型LLMは大規模モデルに匹敵する性能を有し,パラメータやデータの観点からより効率的であることを示す。 モデルに加えて,LLMを用いて人工的な命令を生成する方法を示し,命令データセットのサンプル数を増大させる。

Natural language processing (NLP) has recently gained relevance within financial institutions by providing highly valuable insights into companies and markets' financial documents. However, the landscape of the financial domain presents extra challenges for NLP, due to the complexity of the texts and the use of specific terminology. Generalist language models tend to fall short in tasks specifically tailored for finance, even when using large language models (LLMs) with great natural language understanding and generative capabilities. This paper presents a study on LLM adaptation methods targeted at the financial domain and with high emphasis on financial sentiment analysis. To this purpose, two foundation models with less than 1.5B parameters have been adapted using a wide range of strategies. We show that through careful fine-tuning on both financial documents and instructions, these foundation models can be adapted to the target domain. Moreover, we observe that small LLMs have comparable performance to larger scale models, while being more efficient in terms of parameters and data. In addition to the models, we show how to generate artificial instructions through LLMs to augment the number of samples of the instruction dataset.
翻訳日:2024-01-29 15:28:28 公開日:2024-01-26
# ゼロショット遺伝子発現予測の空間転写学的解析

Spatial Transcriptomics Analysis of Zero-shot Gene Expression Prediction ( http://arxiv.org/abs/2401.14772v1 )

ライセンス: Link先を確認
Yan Yang and Md Zakir Hossain and Xuesong Li and Shafin Rahman and Eric Stone(参考訳) 空間転写学(st)は、組織スライドの異なる領域(すなわち窓)における遺伝子発現をキャプチャする。 モデルSTに適用された従来の教師付き学習フレームワークは、トレーニング中に見られる遺伝子型に対するスライド画像ウィンドウからの表現を予測するために制約され、見知らぬ遺伝子型への一般化に失敗する。 この制限を克服するため、スライド画像ウィンドウから遺伝子発現を予測するためのゼロショットフレームワークであるセマンティックガイドネットワーク(SGN)を提案する。 遺伝子型を機能と表現型で記述できることを考慮し、その機能と表現型に応じてベクターに遺伝子型を動的に埋め込み、このベクターを用いてスライド画像ウィンドウを機能空間における遺伝子発現に投影し、未発見の遺伝子型に対するゼロショット発現予測を解き放つ。 遺伝子型機能と表現型は、事前訓練された大型言語モデル(LLM)から慎重に設計されたプロンプトでクエリされる。 標準ベンチマークデータセットでは,従来の最先端教師あり学習手法と比較して,ゼロショット性能の競争力を示す。

Spatial transcriptomics (ST) captures gene expression within distinct regions (i.e., windows) of a tissue slide. Traditional supervised learning frameworks applied to model ST are constrained to predicting expression from slide image windows for gene types seen during training, failing to generalize to unseen gene types. To overcome this limitation, we propose a semantic guided network (SGN), a pioneering zero-shot framework for predicting gene expression from slide image windows. Considering a gene type can be described by functionality and phenotype, we dynamically embed a gene type to a vector per its functionality and phenotype, and employ this vector to project slide image windows to gene expression in feature space, unleashing zero-shot expression prediction for unseen gene types. The gene type functionality and phenotype are queried with a carefully designed prompt from a pre-trained large language model (LLM). On standard benchmark datasets, we demonstrate competitive zero-shot performance compared to past state-of-the-art supervised learning approaches.
翻訳日:2024-01-29 15:28:10 公開日:2024-01-26
# 量子回路用低損失ハイブリッドnb/au超伝導共振器

Low loss hybrid Nb/Au superconducting resonators for quantum circuit applications ( http://arxiv.org/abs/2401.14764v1 )

ライセンス: Link先を確認
Marina C. de Ory, David Rodriguez, Maria T. Magaz, V\'ictor Rollano, Daniel Granados and Alicia Gomez(参考訳) 超伝導共振器は、今後の量子計算方式の開発において重要な役割を果たす。 分子スピンベースの量子ビットと超伝導共振器の完全な統合は、特に低損失共鳴と高品質な因子の維持において、さらなる発展を必要とする。 本研究では,NiO(Nb)回路と10nm金(Au)キャッピング層を組み合わせた超伝導デバイスを開発した。 広い温度と駆動力範囲にわたる調査の結果、au層を添加するとデバイスに存在する2レベルシステム(tls)欠陥の密度が減少することが明らかとなった。 さらに、薄いau層の存在は、低温でより高い運動的インダクタンスを誘導し、応答性を高める。 これらの共振器は、金がアルキルチオール基を固定して自己組織化単層を形成する分子スピン量子ビット/ゲートを含むハイブリッドデバイスのためのプラットフォームとして機能する。 この結果から, Nb/Au積層素子共振器(LER)が超伝導量子技術の進歩と固体デバイスへの量子機能の統合に有効である可能性が示唆された。

Superconducting resonators play a crucial role in developing forthcoming quantum computing schemes. The complete integration of molecular spin-based quantum bits with superconducting resonators still requires further developments, notably in maintaining low-loss resonances and high quality factors. In this work, we have developed a superconducting device combining a niobium (Nb) circuit with a 10 nm gold (Au) capping layer, which supports low microwave losses and enables new functionalities such as the integration of magnetic molecules into solid-state devices. Our investigation across a wide temperature and driving power range reveals that adding the Au layer reduces the density of two-level system (TLS) defects present in the device. Moreover, the presence of the thin Au layer induces a higher kinetic inductance at low temperatures, leading to enhanced responsivity. Cryogenic characterization confirms the good performance of the device, allowing these resonators to serve as platforms for hybrid devices involving molecular spin qubits/gates where the gold can anchor alkyl thiol groups to form self-assembled monolayers. Our findings suggest the potential of Nb/Au lumped element resonators (LERs) as versatile and promising tools for advancing superconducting quantum technologies and the integration of quantum functionalities into solid-state devices.
翻訳日:2024-01-29 15:27:51 公開日:2024-01-26
# ハイパースペクトル画像再構成のための圧縮センシングアルゴリズムの比較研究

A Comparative Study of Compressive Sensing Algorithms for Hyperspectral Imaging Reconstruction ( http://arxiv.org/abs/2401.14762v1 )

ライセンス: Link先を確認
Jon Alvarez Justo, Daniela Lupu, Milica Orlandic, Ion Necoara, Tor Arne Johansen(参考訳) ハイパースペクトラルイメージングは過剰なデータを含んでいるため、データ処理、ストレージ、送信において大きな課題となる。 圧縮センシングは、大量のデータを圧縮する技術として、ハイパースペクトルイメージングの分野で使われてきた。 この研究は、2.5倍圧縮されたハイパースペクトル画像の回復に対処する。 本稿では,Greedy gOMP/BIHT/CoSaMPリカバリアルゴリズムに加えて,凸FISTA/ADMMの精度と性能の比較を行った。 この結果から, 圧縮されたデータに対して, gOMPアルゴリズムは, 未知の空間レベルに高い依存を犠牲にして, 他のアルゴリズムと比較して精度が高く, 高速に回復できることがわかった。

Hyperspectral Imaging comprises excessive data consequently leading to significant challenges for data processing, storage and transmission. Compressive Sensing has been used in the field of Hyperspectral Imaging as a technique to compress the large amount of data. This work addresses the recovery of hyperspectral images 2.5x compressed. A comparative study in terms of the accuracy and the performance of the convex FISTA/ADMM in addition to the greedy gOMP/BIHT/CoSaMP recovery algorithms is presented. The results indicate that the algorithms recover successfully the compressed data, yet the gOMP algorithm achieves superior accuracy and faster recovery in comparison to the other algorithms at the expense of high dependence on unknown sparsity level of the data to recover.
翻訳日:2024-01-29 15:27:30 公開日:2024-01-26
# オフポリシー初歩的安全強化学習

Off-Policy Primal-Dual Safe Reinforcement Learning ( http://arxiv.org/abs/2401.14758v1 )

ライセンス: Link先を確認
Zifan Wu, Bo Tang, Qian Lin, Chao Yu, Shangqin Mao, Qianlong Xie, Xingxing Wang, Dong Wang(参考訳) プライマルデュアルセーフなRL法は、ポリシーのプライマリ更新とラグランジュ乗算器の二重更新の繰り返しを一般的に行う。 このようなトレーニングパラダイムは、プライマル更新プロセスとデュアル更新プロセスを結ぶ鍵結合としての役割を担っているため、累積コスト推定の誤差に非常に影響を受けやすい。 本研究は,オフポリシー手法を用いた場合のコストの過小評価を招き,安全性制約を満たさないことを示す。 この問題を解決するために,コスト見積の不確実性を考慮して制約満足領域のポリシーを学習する「textit{conservative Policy Optimization」を提案する。 これにより制約満足度は向上するが、報酬の最大化を妨げる可能性がある。 次に,推定の不確かさを徐々に減少させることで,そのような部分最適性を排除するために, \textit{local policy convexification}を導入する。 これら2つの成分の結合効果の理論的解釈を行い、より広範な実験により検証する。 ベンチマーク結果から,本手法は最先端のオン・ポリシー法に匹敵する漸近的性能を実現するだけでなく,トレーニング中の制約違反を著しく低減することが示された。 私たちのコードはhttps://github.com/zifanwu/calで利用可能です。

Primal-dual safe RL methods commonly perform iterations between the primal update of the policy and the dual update of the Lagrange Multiplier. Such a training paradigm is highly susceptible to the error in cumulative cost estimation since this estimation serves as the key bond connecting the primal and dual update processes. We show that this problem causes significant underestimation of cost when using off-policy methods, leading to the failure to satisfy the safety constraint. To address this issue, we propose \textit{conservative policy optimization}, which learns a policy in a constraint-satisfying area by considering the uncertainty in cost estimation. This improves constraint satisfaction but also potentially hinders reward maximization. We then introduce \textit{local policy convexification} to help eliminate such suboptimality by gradually reducing the estimation uncertainty. We provide theoretical interpretations of the joint coupling effect of these two ingredients and further verify them by extensive experiments. Results on benchmark tasks show that our method not only achieves an asymptotic performance comparable to state-of-the-art on-policy methods while using much fewer samples, but also significantly reduces constraint violation during training. Our code is available at https://github.com/ZifanWu/CAL.
翻訳日:2024-01-29 15:27:19 公開日:2024-01-26
# VJT:デブロアリング・低照度強化・デノイングのジョイントタスクのビデオトランス

VJT: A Video Transformer on Joint Tasks of Deblurring, Low-light Enhancement and Denoising ( http://arxiv.org/abs/2401.14754v1 )

ライセンス: Link先を確認
Yuxiang Hui, Yang Liu, Yaofang Liu, Fan Jia, Jinshan Pan, Raymond Chan, Tieyong Zeng(参考訳) ビデオ復元タスクは、低品質の観察から高品質な動画を復元することを目的としている。 ビデオは、ぼやけ、低照度、ノイズなど、様々な種類の劣化に直面しているため、ビデオのデノイング、低照度化、低照度化などの重要なサブタスクが含まれている。 さらに悪いことに、このような劣化は、極端な環境でビデオを撮るときに同時に起こる可能性がある。 これは、同時にこれらのアーティファクトを削除したい場合、大きな課題となる。 本稿では,ビデオデブラリング,低光度エンハンスメント,デノイジングの合同作業において,映像トランスフォーマーを効率的に行うことを提案する。 この作品は、新しい多層トランスフォーマーを構築し、それぞれの層が異なるレベルのデグレードビデオを使用して、ビデオの特徴を効果的に学習する。 さらに,ビデオ特徴を段階的に学習し,適切な重み付け方式で学習プロセスを高速化する新しい階層間機能融合方式を慎重に設計する。 また,realblurデータセットとyoutubeビデオに基づく共同タスクの特性に応じて,可能な限りリアルなシーンをシミュレートする,新たなマルチシーン・ローライト・ブラインド・ノイズ(mlbn)データセットも提供する。 提案手法の有効性を明らかにするため,従来の最先端手法と比較して広範囲な実験を行った。

Video restoration task aims to recover high-quality videos from low-quality observations. This contains various important sub-tasks, such as video denoising, deblurring and low-light enhancement, since video often faces different types of degradation, such as blur, low light, and noise. Even worse, these kinds of degradation could happen simultaneously when taking videos in extreme environments. This poses significant challenges if one wants to remove these artifacts at the same time. In this paper, to the best of our knowledge, we are the first to propose an efficient end-to-end video transformer approach for the joint task of video deblurring, low-light enhancement, and denoising. This work builds a novel multi-tier transformer where each tier uses a different level of degraded video as a target to learn the features of video effectively. Moreover, we carefully design a new tier-to-tier feature fusion scheme to learn video features incrementally and accelerate the training process with a suitable adaptive weighting scheme. We also provide a new Multiscene-Lowlight-Blur-Noise (MLBN) dataset, which is generated according to the characteristics of the joint task based on the RealBlur dataset and YouTube videos to simulate realistic scenes as far as possible. We have conducted extensive experiments, compared with many previous state-of-the-art methods, to show the effectiveness of our approach clearly.
翻訳日:2024-01-29 15:26:56 公開日:2024-01-26
# エネルギーモデル平衡のトポロジーに基づく探索:トーリックQC-LDPC符号と双曲MET QC-LDPC符号

Topology-Aware Exploration of Energy-Based Models Equilibrium: Toric QC-LDPC Codes and Hyperbolic MET QC-LDPC Codes ( http://arxiv.org/abs/2401.14749v1 )

ライセンス: Link先を確認
Vasiliy Usatyuk, Denis Sapozhnikov, Sergey Egorov(参考訳) 本稿では,不規則格子上の不均等分布電荷と対向するイジングハミルトニアンにおける平衡を達成する方法を提案する。 マルチエッジ)QC-LDPC符号とボルツマンマシンを用いることで,システムの拡張,サーキュラントによる電荷の置換,循環シフトによる距離の表現を行う。 この結果、電荷系を空間に体系的にマッピングし、不規則な格子を均一な構成に変換し、Torical および Circular Hyperboloid Topologies に適用できる。 本稿では,QC-LDPCコード,マルチエッジQC-LDPCコード,ボルツマンマシンに関する基本的定義と表記について述べる。 分割関数を評価するためのグラフ確率モデル上の符号の限界化問題を調べ、厳密で近似的な推定手法を包含する。 トーラスおよび円双曲線下のボルツマン機械の平衡状態を達成するための厳密な証明が提供され,本手法の適用への道を開く。 本手法の実用化は有限幾何QC-LDPC符号、特に材料科学において検討される。 この論文は、自然言語処理トランスフォーマーの深層ニューラルネットワークの分野でその効果をさらに探究し、一般化された繰り返し蓄積符号、空間結合符号、ケージグラフqc-ldpc符号を調べている。 トポロジに配慮したハードウェア効率のよい準サイクル符号平衡法は, 特定の部分記述を使わずに, 様々な科学的領域にまたがって多種多様である。

This paper presents a method for achieving equilibrium in the ISING Hamiltonian when confronted with unevenly distributed charges on an irregular grid. Employing (Multi-Edge) QC-LDPC codes and the Boltzmann machine, our approach involves dimensionally expanding the system, substituting charges with circulants, and representing distances through circulant shifts. This results in a systematic mapping of the charge system onto a space, transforming the irregular grid into a uniform configuration, applicable to Torical and Circular Hyperboloid Topologies. The paper covers fundamental definitions and notations related to QC-LDPC Codes, Multi-Edge QC-LDPC codes, and the Boltzmann machine. It explores the marginalization problem in code on the graph probabilistic models for evaluating the partition function, encompassing exact and approximate estimation techniques. Rigorous proof is provided for the attainability of equilibrium states for the Boltzmann machine under Torical and Circular Hyperboloid, paving the way for the application of our methodology. Practical applications of our approach are investigated in Finite Geometry QC-LDPC Codes, specifically in Material Science. The paper further explores its effectiveness in the realm of Natural Language Processing Transformer Deep Neural Networks, examining Generalized Repeat Accumulate Codes, Spatially-Coupled and Cage-Graph QC-LDPC Codes. The versatile and impactful nature of our topology-aware hardware-efficient quasi-cycle codes equilibrium method is showcased across diverse scientific domains without the use of specific section delineations.
翻訳日:2024-01-29 15:26:30 公開日:2024-01-26
# ホーム環境における安全と幸福の両立のための合成マルチモーダルデータセット

Synthetic Multimodal Dataset for Empowering Safety and Well-being in Home Environments ( http://arxiv.org/abs/2401.14743v1 )

ライセンス: Link先を確認
Takanori Ugai, Shusaku Egami, Swe Nwe Nwe Htun, Kouji Kozaki, Takahiro Kawamura, Ken Fukuda(参考訳) 本稿では,3次元仮想空間シミュレータの映像データと,活動の時空間的文脈を表現した知識グラフを融合した,日常活動のマルチモーダルデータセットを提案する。 このデータセットは、家庭環境における危険な状況の特定と対処に焦点を当てたナレッジグラフ推論チャレンジ(kgrc4si)のために開発された。 データセットは、安全と幸福を高めるために人間の行動を認識する革新的なソリューションを開発する研究者や実践者にとって貴重なリソースとして一般に公開されている。

This paper presents a synthetic multimodal dataset of daily activities that fuses video data from a 3D virtual space simulator with knowledge graphs depicting the spatiotemporal context of the activities. The dataset is developed for the Knowledge Graph Reasoning Challenge for Social Issues (KGRC4SI), which focuses on identifying and addressing hazardous situations in the home environment. The dataset is available to the public as a valuable resource for researchers and practitioners developing innovative solutions recognizing human behaviors to enhance safety and well-being in
翻訳日:2024-01-29 15:26:00 公開日:2024-01-26
# 自動運転車のシミュレーションに基づくテストは人間の知覚にどのようにマッチするか?

How does Simulation-based Testing for Self-driving Cars match Human Perception? ( http://arxiv.org/abs/2401.14736v1 )

ライセンス: Link先を確認
Christian Birchler, Tanzil Kombarabettu Mohammed, Pooja Rani, Teodora Nechita, Timo Kehrer, Sebastiano Panichella(参考訳) カバレッジや突然変異スコアなどのソフトウェアメトリクスは、テストスイートの自動品質評価のために広く研究されている。 従来のツールはこのような定量的なソフトウェアメトリクスに依存しているが、自動運転車(SDC)の分野は、主にテストケースが失敗するか通過するかを決定するために、アウト・オブ・バウンド(OOB)パラメータのような品質指標を使用したシミュレーションベースのテストケース生成に焦点を当てている。 しかし、この基準がSDCの安全性と現実性に対する人間の認識とどの程度一致しているかは、SDCの行動を評価する上で重要な側面である。 このギャップに対処するために,50名の被験者を対象に,安全,安全,安全,現実的,非現実的なsdcテストケースを認識できる要因について実験を行った。 そこで我々は,SDCシミュレータの仮想環境に参加者を没入させるために,SDC-Alabasterと呼ばれる仮想現実技術を活用したフレームワークを開発した。 本研究は,テストの複雑さやSDCとの相互作用の可能性など,テストケースの失敗と通過の安全性と現実性に関する人間の評価が,異なる要因によって異なることを示唆している。 特にリアリズムの評価では、参加者の年齢を結合要因として、異なる認識に導く。 本研究では,SDCシミュレーションによる品質指標の検証の必要性と,SDCの行動評価における人間の知覚の重要性を明らかにする。

Software metrics such as coverage and mutation scores have been extensively explored for the automated quality assessment of test suites. While traditional tools rely on such quantifiable software metrics, the field of self-driving cars (SDCs) has primarily focused on simulation-based test case generation using quality metrics such as the out-of-bound (OOB) parameter to determine if a test case fails or passes. However, it remains unclear to what extent this quality metric aligns with the human perception of the safety and realism of SDCs, which are critical aspects in assessing SDC behavior. To address this gap, we conducted an empirical study involving 50 participants to investigate the factors that determine how humans perceive SDC test cases as safe, unsafe, realistic, or unrealistic. To this aim, we developed a framework leveraging virtual reality (VR) technologies, called SDC-Alabaster, to immerse the study participants into the virtual environment of SDC simulators. Our findings indicate that the human assessment of the safety and realism of failing and passing test cases can vary based on different factors, such as the test's complexity and the possibility of interacting with the SDC. Especially for the assessment of realism, the participants' age as a confounding factor leads to a different perception. This study highlights the need for more research on SDC simulation testing quality metrics and the importance of human perception in evaluating SDC behavior.
翻訳日:2024-01-29 15:25:51 公開日:2024-01-26
# 動き伝達ネットワークによるヒトビデオのパーソナリティ知覚の変化

Personality Perception in Human Videos Altered by Motion Transfer Networks ( http://arxiv.org/abs/2401.14733v1 )

ライセンス: Link先を確認
Ayda Yurto\u{g}lu, Sinan Sonlu, Yal{\i}m Do\u{g}an, U\u{g}ur G\"ud\"ukbay(参考訳) デジタルキャラクタにおける人格描写の成功はコミュニケーションと没入性を改善する。 最近の研究は、ヒューリスティックなルールやデータ駆動モデルを使ってアニメーションを変更することでパーソナリティを表現することに焦点を当てている。 研究によれば、運動様式は見かけの性格に大きな影響を与えるが、外観の役割も同様に不可欠である。 本研究は,運動伝達ネットワークによって変化したショートビデオのパーソナリティに対する動きと外観の影響を分析した。 会議ビデオクリップのパーソナリティをユーザスタディでラベル付けして,5要素モデルのハイ,ニュートラル,低特性を最もよく表現するサンプルを決定する。 選択したサンプルを音源とし, 入力を駆動することにより, 薄板スプライン運動モデルを用いて映像を変化させる。 動作と外観が個性知覚に与える影響を5つの異なるケースで調査した。 我々の比較研究は、動きと外観が異なる要因に影響を与えることを明らかにしている: 動きは知覚外転に強く影響し、外観は満足感と神経症に寄与する。

The successful portrayal of personality in digital characters improves communication and immersion. Current research focuses on expressing personality through modifying animations using heuristic rules or data-driven models. While studies suggest motion style highly influences the apparent personality, the role of appearance can be similarly essential. This work analyzes the influence of movement and appearance on the perceived personality of short videos altered by motion transfer networks. We label the personalities in conference video clips with a user study to determine the samples that best represent the Five-Factor model's high, neutral, and low traits. We alter these videos using the Thin-Plate Spline Motion Model, utilizing the selected samples as the source and driving inputs. We follow five different cases to study the influence of motion and appearance on personality perception. Our comparative study reveals that motion and appearance influence different factors: motion strongly affects perceived extraversion, and appearance helps convey agreeableness and neuroticism.
翻訳日:2024-01-29 15:25:24 公開日:2024-01-26
# 暗黙的ニューラルコードブックによる残留量子化

Residual Quantization with Implicit Neural Codebooks ( http://arxiv.org/abs/2401.14732v1 )

ライセンス: Link先を確認
Iris Huijben, Matthijs Douze, Matthew Muckley, Ruud van Sloun, Jakob Verbeek(参考訳) ベクトル量子化はデータ圧縮とベクトル探索の基本的な操作である。 精度を高めるために、複数のコードブックにまたがるコードワードを用いて各ベクトルを表現することで、マルチコードブック手法によりレートを向上する。 残留量子化(Residual Quantization, RQ)は、前ステップの誤差を反復的に定量化することで精度を高める方法である。 エラー分布は、以前選択されたコードワードに依存する。 しかし、この依存関係は量子化ステップごとに汎用コードブックを使用するため、従来のRQでは考慮されていない。 本稿では,前ステップからベクトルを近似したニューラルネットワークを用いて,ベクトル毎の特殊コードブックを予測するニューラルネットワークであるQINCoを提案する。 実験によると、QINCoはいくつかのデータセットとコードサイズに対して、最先端のメソッドよりも大きなマージンでパフォーマンスを示している。 例えば、QINCoは、BigANNとDeep1Bデータセットの16バイトを使用して、12バイトのコードを使用して、近隣の検索精度を改善する。

Vector quantization is a fundamental operation for data compression and vector search. To obtain high accuracy, multi-codebook methods increase the rate by representing each vector using codewords across multiple codebooks. Residual quantization (RQ) is one such method, which increases accuracy by iteratively quantizing the error of the previous step. The error distribution is dependent on previously selected codewords. This dependency is, however, not accounted for in conventional RQ as it uses a generic codebook per quantization step. In this paper, we propose QINCo, a neural RQ variant which predicts specialized codebooks per vector using a neural network that is conditioned on the approximation of the vector from previous steps. Experiments show that QINCo outperforms state-of-the-art methods by a large margin on several datasets and code sizes. For example, QINCo achieves better nearest-neighbor search accuracy using 12 bytes codes than other methods using 16 bytes on the BigANN and Deep1B dataset.
翻訳日:2024-01-29 15:25:05 公開日:2024-01-26
# Sketch and Refine: 高速かつ正確なレーン検出を目指して

Sketch and Refine: Towards Fast and Accurate Lane Detection ( http://arxiv.org/abs/2401.14729v1 )

ライセンス: Link先を確認
Chao Chen, Jie Liu, Chang Zhou, Jie Tang, Gangshan Wu(参考訳) 車線検出は、道路上の車線の正確な位置と形状を決定することである。 現在の手法による努力にもかかわらず、現実のシナリオの複雑さのため、依然として困難な課題である。 提案ベースであれキーポイントベースであれ、既存のアプローチは車線を効果的かつ効率的に描写することに苦しむ。 提案手法は, レーン表現の柔軟性に欠けるが, 一連の提案を合理化されたトップダウン方式で区別し, 回帰することでレーンを検出する。 一方、キーポイントベースのメソッドは、局所的な記述子から柔軟にレーンを構築する。 本稿では,キーポイント法と提案法の両方の利点を生かした"Sketch-and-Refine"パラダイムを提案する。 動機は、レーンの局所的な方向が意味的にシンプルで明確であることです。 スコッチ」の段階では、鍵点の局所方向は高速畳み込み層によって容易に推定できる。 そして、適度な精度でレーンの提案を組み立てることができます。 Refine」の段階では、適応的な車線セグメント調整を可能にする新しい車線セグメントアソシエーションモジュール(LSAM)により、これらの提案をさらに最適化する。 最後に,レーン特徴表現をより効率的にエンリッチするために,マルチレベル機能統合を提案する。 提案する"sketch and refine"パラダイムに基づき,高速かつ効果的な車線検出器である"srlane"を提案する。 実験の結果、我々のSRLaneは高速(278 FPS)で走ることができ、F1スコアは78.9\%であることがわかった。 ソースコードはhttps://github.com/passerer/srlane。

Lane detection is to determine the precise location and shape of lanes on the road. Despite efforts made by current methods, it remains a challenging task due to the complexity of real-world scenarios. Existing approaches, whether proposal-based or keypoint-based, suffer from depicting lanes effectively and efficiently. Proposal-based methods detect lanes by distinguishing and regressing a collection of proposals in a streamlined top-down way, yet lack sufficient flexibility in lane representation. Keypoint-based methods, on the other hand, construct lanes flexibly from local descriptors, which typically entail complicated post-processing. In this paper, we present a "Sketch-and-Refine" paradigm that utilizes the merits of both keypoint-based and proposal-based methods. The motivation is that local directions of lanes are semantically simple and clear. At the "Sketch" stage, local directions of keypoints can be easily estimated by fast convolutional layers. Then we can build a set of lane proposals accordingly with moderate accuracy. At the "Refine" stage, we further optimize these proposals via a novel Lane Segment Association Module (LSAM), which allows adaptive lane segment adjustment. Last but not least, we propose multi-level feature integration to enrich lane feature representations more efficiently. Based on the proposed "Sketch and Refine" paradigm, we propose a fast yet effective lane detector dubbed "SRLane". Experiments show that our SRLane can run at a fast speed (i.e., 278 FPS) while yielding an F1 score of 78.9\%. The source code is available at: https://github.com/passerer/SRLane.
翻訳日:2024-01-29 15:24:52 公開日:2024-01-26
# sparsecoder:ファイルレベルのコード要約のための識別子認識スパーストランスフォーマ

SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization ( http://arxiv.org/abs/2401.14727v1 )

ライセンス: Link先を確認
Yanlin Wang, Yanxian Huang, Daya Guo, Hongyu Zhang and Zibin Zheng(参考訳) コード要約(code summarization)は、ソースコードの自然言語記述を生成することを目的としている。 従来のコード要約の取り組みは,主にメソッドレベルに重点を置いていたが,本稿では,大規模なソースコードプロジェクトの理解と保守を支援するファイルレベルのコード要約について検討する。 メソッドレベルのコード要約とは異なり、ファイルレベルのコード要約は通常、1つのファイル内の長いソースコードを含むため、Transformerベースのモデルでは、入力シーケンス長と計算複雑性の2次スケーリングのため、これらのモデルの最大入力長に対するコードの意味を理解することは困難である。 この課題に対処するために、長いコードシーケンスを効果的に処理するための識別子対応スパーストランスであるSparseCoderを提案する。 具体的には、sparsecoderは、短期的な依存関係をモデル化するためのセルフアテンションのためのスライディングウィンドウ機構を採用しており、コードの構造メッセージを利用して、グローバルと識別子アテンションという2つのタイプのスパース注意パターンを導入することで、ソースコード識別子間の長期的な依存関係をキャプチャする。 SparseCoderの性能を評価するため,Pythonにおけるファイルレベルのコード要約のための新しいデータセットFILE-CSを構築した。 実験の結果,sparsecoderモデルは他の事前学習モデルと比較して最先端の性能が得られることがわかった。 さらに,本モデルではメモリオーバーヘッドが低く,完全自己認識機構を用いたモデルと同等の性能を実現する。

Code summarization aims to generate natural language descriptions of source code, facilitating programmers to understand and maintain it rapidly. While previous code summarization efforts have predominantly focused on method-level, this paper studies file-level code summarization, which can assist programmers in understanding and maintaining large source code projects. Unlike method-level code summarization,file-level code summarization typically involves long source code within a single file, which makes it challenging for Transformer-based models to understand the code semantics for the maximum input length of these models is difficult to set to a large number that can handle long code input well, due to the quadratic scaling of computational complexity with the input sequence length. To address this challenge, we propose SparseCoder, an identifier-aware sparse transformer for effectively handling long code sequences. Specifically, the SparseCoder employs a sliding window mechanism for self-attention to model short-term dependencies and leverages the structure message of code to capture long-term dependencies among source code identifiers by introducing two types of sparse attention patterns named global and identifier attention. To evaluate the performance of SparseCoder, we construct a new dataset FILE-CS for file-level code summarization in Python. Experimental results show that our SparseCoder model achieves state-of-the-art performance compared with other pre-trained models, including full self-attention and sparse models. Additionally, our model has low memory overhead and achieves comparable performance with models using full self-attention mechanism.
翻訳日:2024-01-29 15:24:28 公開日:2024-01-26
# 高温電子と単一核分裂ダークエキシトンは金属-有機光学マイクロキャビティの強結合条件を調節する

Hot electrons and singlet-fission dark excitons modulate strong-coupling conditions in metal-organic optical microcavities ( http://arxiv.org/abs/2401.14835v1 )

ライセンス: Link先を確認
Pavel V. Kolesnichenko, Manuel Hertzog, Felix Hainer, Oskar Kefer, Jana Zaumseil, Tiago Buckup(参考訳) 光と物質の間の強い混合によって形成されたポラリトンは、有機太陽電池、光学論理ゲート、量子ビットなど多くの応用に期待されている。 低qの有機光学マイクロキャビティでは、光子とフレンケル励起子の間の強いハイブリダイゼーションによるポラリトニックシグネチャがダーク励起子のダイナミクスとともに崩壊することが判明した。 しかし、コンンドラムは、暗い励起子がエキシトン-光子結合強度を変調するかどうかを保った。 また、有機層中の暗い励起子と金属層のホットエレクトロンが、ハイブリッド状態のエネルギーで長寿命の光学応答を形作るのにどのように寄与するかも不明であった。 ここでは,有機層および金属層の偏光子非局在化により,暗励起子と熱電子の影響に敏感であることが確認された。 ダーク励起子の動力学は励起子-光子強結合(ラビエネルギー)を変調する。 金属層の役割は極性分岐のエネルギー付近で吸収成分を寄与させることであり、ホット電子からの寄与も検出されている。 これらは非エルミートハミルトン力学、軸分解された伝達行列シミュレーション、ポンププローブスペクトルの大域的解析、統計相関解析に基づく理論的解析によって支持された。 開発手法は他のマイクロキャビティ構造にも適用できる。 有機および金属層における他の励起から純極性効果を遠ざける方法として, 光物理および光化学プロセスに対する光制御の究極的な目的がある。

Polaritons, formed as a result of strong mixing between light and matter, are promising for numerous applications including organic solar cells, optical logic gates, and qubits. In low-Q organic optical microcavities, polaritonic signatures due to strong hybridization between photons and Frenkel excitons were found to decay together with the dynamics of dark excitons. A conundrum, however, remained whether dark excitons modulate exciton-photon coupling strength. It also remained unclear how dark excitons in the organic layer and hot electrons in the metal layers contribute to shaping the long-lived optical response at the energies of the hybrid states. Here, we identified that due to delocalization of polaritons over both organic and metal layers, they are sensitive to the effects of both dark excitons and hot electrons. We observed that the dynamics of dark excitons modulate exciton-photon strong coupling (Rabi energy). The role of metal layers is to contribute absorptive components near the energies of the polaritonic branches; contributions from hot electrons have also been detected. These and other mechanistic insights into the dynamics of strong-coupling conditions were supported by theoretical analysis based on non-Hermitian Hamiltonian mechanics, axially-resolved transfer-matrix simulations, global analysis of pump-probe spectra, and statistical correlation analysis. The developed methodology can be applied to other microcavity structures. Our findings pave the way for disentangling pure polaritonic effects from other excitations in organic and metal layers, with the ultimate aim of achieving photonic control over photophysical and photochemical processes.
翻訳日:2024-01-29 15:18:58 公開日:2024-01-26
# グローバル構造誘導拡散モデルによるテキスト画像の描画

Text Image Inpainting via Global Structure-Guided Diffusion Models ( http://arxiv.org/abs/2401.14832v1 )

ライセンス: Link先を確認
Shipeng Zhu, Pengfei Fang, Chenjie Zhu, Zuoyan Zhao, Qiang Xu, Hui Xue(参考訳) 現実世界のテキストは、環境や人為的な要因による腐食問題によって損傷を受け、テクスチャや構造などの完全なスタイルの保存を妨げる可能性がある。 これらの腐食問題、例えば落書き標識や不完全な署名は、テキストを理解するのに困難をもたらし、例えばシーンテキスト認識や署名識別といった下流のアプリケーションに重大な課題をもたらす。 特に、現在の塗装技術は、この問題に適切に対処できず、合理的で一貫したスタイルとともに正確なテキストイメージの復元が困難であることが多い。 本論文は,テキスト画像インペインティングのオープン問題として,その研究を容易にするベンチマークを構築することを目的としている。 そこで我々は,シーンテキスト画像と手書きテキスト画像を含む2つの特定のテキストインペイントデータセットを構築した。 それぞれの画像には、実生活と合成のデータセットで改良された画像が含まれており、オリジナル画像のペア、腐敗した画像、その他のアシスタント情報が含まれている。 データセットの上に、新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model(GSDM)を潜在的ソリューションとして開発する。 提案するgsdmは,先行するテキストのグローバル構造を利用して,クリーンテキストを復元する効率的な拡散モデルを構築した。 本手法の有効性は,認識精度と画質が大幅に向上するなど,徹底的な実験によって実証された。 これらの知見は,提案手法の有効性を浮き彫りにするだけでなく,テキスト画像理解と処理の幅広い分野を強化する可能性を強調している。 コードとデータセットはhttps://github.com/blackprotoss/gsdm。

Real-world text can be damaged by corrosion issues caused by environmental or human factors, which hinder the preservation of the complete styles of texts, e.g., texture and structure. These corrosion issues, such as graffiti signs and incomplete signatures, bring difficulties in understanding the texts, thereby posing significant challenges to downstream applications, e.g., scene text recognition and signature identification. Notably, current inpainting techniques often fail to adequately address this problem and have difficulties restoring accurate text images along with reasonable and consistent styles. Formulating this as an open problem of text image inpainting, this paper aims to build a benchmark to facilitate its study. In doing so, we establish two specific text inpainting datasets which contain scene text images and handwritten text images, respectively. Each of them includes images revamped by real-life and synthetic datasets, featuring pairs of original images, corrupted images, and other assistant information. On top of the datasets, we further develop a novel neural framework, Global Structure-guided Diffusion Model (GSDM), as a potential solution. Leveraging the global structure of the text as a prior, the proposed GSDM develops an efficient diffusion model to recover clean texts. The efficacy of our approach is demonstrated by thorough empirical study, including a substantial boost in both recognition accuracy and image quality. These findings not only highlight the effectiveness of our method but also underscore its potential to enhance the broader field of text image understanding and processing. Code and datasets are available at: https://github.com/blackprotoss/GSDM.
翻訳日:2024-01-29 15:18:28 公開日:2024-01-26
# the machine vision iceberg explains: 総合的環境条件を考慮した動的テストの進歩

The Machine Vision Iceberg Explained: Advancing Dynamic Testing by Considering Holistic Environmental Circumstances ( http://arxiv.org/abs/2401.14831v1 )

ライセンス: Link先を確認
Hubert Padusinski, Thilo Braun, Christian Steinhauser, Lennart Ries, Eric Sax(参考訳) 現在の機械ビジョンのテストで氷山に向かっていますか? この作業は、ハイ自動化運転(HAD)システムで非常に必要とされる、マシンビジョン(MV)テストの現場に展開する。 氷山への移動という隠語的な概念を利用して,現在のテスト戦略に隠されている潜在的な欠点について論じる。 我々は,開発プロセスにおけるmvの不透明な機能をどう扱うか,より深く理解する必要があることを強調する。 見過ごされているように、考慮は命がかかる。 私たちの大きな貢献は、粒度グレードと呼ばれる階層的レベルモデルです。 このモデルはmvが運用することを意図した環境の状況を理解するための多スケールな深さの探索を奨励する。 このモデルは、オブジェクト属性のような個々のエンティティの関係から環境シーン全体まで、mv機能に影響を与える可能性のあるすべてのエンティティの全体的概要を提供することを目的としている。 モデルの適用により、特定のドメイン内のエンティティの構造化された探索、それらの関係、MV-アンダーテストの結果の割り当てを行い、エンティティ-リレーショナルグラフを構築する。 グラフ内の関係のクラスタリングパターンを通じて、mv の一般赤字は回避可能である。 本研究は,HAD操作領域の全体的状況と相関して,MV試験対象の欠陥のよりきめ細やかで体系化された同定に寄与する。

Are we heading for an iceberg with the current testing of machine vision? This work delves into the landscape of Machine Vision (MV) testing, which is heavily required in Highly Automated Driving (HAD) systems. Utilizing the metaphorical notion of navigating towards an iceberg, we discuss the potential shortcomings concealed within current testing strategies. We emphasize the urgent need for a deeper understanding of how to deal with the opaque functions of MV in development processes. As overlooked considerations can cost lives. Our main contribution is the hierarchical level model, which we call Granularity Grades. The model encourages a refined exploration of the multi-scaled depths of understanding about the circumstances of environments in which MV is intended to operate. This model aims to provide a holistic overview of all entities that may impact MV functions, ranging from relations of individual entities like object attributes to entire environmental scenes. The application of our model delivers a structured exploration of entities in a specific domain, their relationships and assigning results of a MV-under-test to construct an entity-relationship graph. Through clustering patterns of relations in the graph general MV deficits are arguable. In Summary, our work contributes to a more nuanced and systematized identification of deficits of a MV test object in correlation to holistic circumstances in HAD operating domains.
翻訳日:2024-01-29 15:18:01 公開日:2024-01-26
# UMBRELLA:実験室から現実のIoT実験にギャップを埋めるワンストップショップ

UMBRELLA: A One-stop Shop Bridging the Gap from Lab to Real-World IoT Experimentation ( http://arxiv.org/abs/2401.14829v1 )

ライセンス: Link先を確認
Ioannis Mavromatis and Yichao Jin and Aleksandar Stanoev and Anthony Portelli and Ingram Weeks and Ben Holden and Eliot Glasspole and Tim Farnham and Aftab Khan and Usman Raza and Adnan Aijaz and Ichiro Seto and Nita Patel and Mahesh Sooriyabandara(参考訳) UMBRELLAは、イギリスのサウスグロスターシャーに展開されている、オープンで大規模なIoTエコシステムである。 これは、複数の技術領域にわたるイノベーションを加速することを目的としている。 umbrellaは、既存の特殊なテストベッド間のギャップを橋渡しし、system-of-systems(sos)方式で現実世界の技術的課題に対処するために構築されている。 UMBRELLAは、現実世界のデバイスやインフラへのオープンアクセスを提供し、研究者や業界がスマートシティ、ロボティクス、ワイヤレス通信、エッジインテリジェンスなどのソリューションを評価することを可能にする。 主な機能は、パブリックインフラストラクチャにインストールされた200以上のマルチセンサーノード、20のモバイルロボットを備えたロボティクスアリーナ、5gのネットワーク・イン・ア・ボックスソリューション、管理、制御、セキュアなユーザアクセスのための統合バックエンドプラットフォームなどだ。 多様なセンサー、通信インターフェース、gpu対応エッジデバイスを含むハードウェアコンポーネントの多様性は、デジタルツインのようなツールと相まって、ラボ環境では実現できない革新的なソリューションの包括的な実験とベンチマークを可能にする。 本稿では、UMBRELLAのマルチドメインアーキテクチャと機能の概要を概観し、IoT(Internet of Things)とIoT(Industrial IoT)のイノベーションのための理想的な遊び場となる。 UMBRELLAをオープンで持続可能なテストベッドとして設計、開発、運用する上での課題について論じ、同様の将来のイニシアチブをガイドするために学んだ教訓を共有する。 UMBRELLAはその独特なオープン性、異質性、リアリズム、ツールによって、最先端の技術研究、開発、そして現実世界の進歩への翻訳を加速し続けようとしている。

UMBRELLA is an open, large-scale IoT ecosystem deployed across South Gloucestershire, UK. It is intended to accelerate innovation across multiple technology domains. UMBRELLA is built to bridge the gap between existing specialised testbeds and address holistically real-world technological challenges in a System-of-Systems (SoS) fashion. UMBRELLA provides open access to real-world devices and infrastructure, enabling researchers and the industry to evaluate solutions for Smart Cities, Robotics, Wireless Communications, Edge Intelligence, and more. Key features include over 200 multi-sensor nodes installed on public infrastructure, a robotics arena with 20 mobile robots, a 5G network-in-a-box solution, and a unified backend platform for management, control and secure user access. The heterogeneity of hardware components, including diverse sensors, communication interfaces, and GPU-enabled edge devices, coupled with tools like digital twins, allows for comprehensive experimentation and benchmarking of innovative solutions not viable in lab environments. This paper provides a comprehensive overview of UMBRELLA's multi-domain architecture and capabilities, making it an ideal playground for Internet of Things (IoT) and Industrial IoT (IIoT) innovation. It discusses the challenges in designing, developing and operating UMBRELLA as an open, sustainable testbed and shares lessons learned to guide similar future initiatives. With its unique openness, heterogeneity, realism and tools, UMBRELLA aims to continue accelerating cutting-edge technology research, development and translation into real-world progress.
翻訳日:2024-01-29 15:17:42 公開日:2024-01-26
# TIP-Editor:テキストプロンプと画像プロンプの両方に追随する正確な3Dエディタ

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts ( http://arxiv.org/abs/2401.14828v1 )

ライセンス: Link先を確認
Jingyu Zhuang, Di Kang, Yan-Pei Cao, Guanbin Li, Liang Lin, Ying Shan(参考訳) テキスト駆動の3Dシーン編集は利便性とユーザフレンドリさから注目されている。 しかし,既存の手法では,テキスト記述に固有の制約があるため,特定の外観や編集結果の位置を正確に制御できない。 そこで本稿では,テキストと画像の両方のプロンプトを受け付ける3dシーン編集フレームワークtipeditorと,編集領域を指定する3dバウンディングボックスを提案する。 画像プロンプトにより、ユーザはテキスト記述を補完するターゲットコンテンツの詳細な外観/スタイルを便利に指定でき、外観の正確な制御が可能になる。 具体的には、ティップエディタはステップワイズ2次元パーソナライズ戦略を採用して、既存のシーンと参照画像の表現をよりよく学習し、境界ボックスで指定された正しいオブジェクト配置を促進するためにローカライズ損失を提案する。 さらに、TIPEditorは明示的で柔軟な3Dガウススプラッティングを3D表現として利用し、背景を変更せずにローカル編集を容易にする。 TIP-Editorは、テキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行い、編集品質のベースラインと、そのプロンプトへのアライメントを質的かつ定量的に一貫して上回ることを示した。

Text-driven 3D scene editing has gained significant attention owing to its convenience and user-friendliness. However, existing methods still lack accurate control of the specified appearance and location of the editing result due to the inherent limitations of the text description. To this end, we propose a 3D scene editing framework, TIPEditor, that accepts both text and image prompts and a 3D bounding box to specify the editing region. With the image prompt, users can conveniently specify the detailed appearance/style of the target content in complement to the text description, enabling accurate control of the appearance. Specifically, TIP-Editor employs a stepwise 2D personalization strategy to better learn the representation of the existing scene and the reference image, in which a localization loss is proposed to encourage correct object placement as specified by the bounding box. Additionally, TIPEditor utilizes explicit and flexible 3D Gaussian splatting as the 3D representation to facilitate local editing while keeping the background unchanged. Extensive experiments have demonstrated that TIP-Editor conducts accurate editing following the text and image prompts in the specified bounding box region, consistently outperforming the baselines in editing quality, and the alignment to the prompts, qualitatively and quantitatively.
翻訳日:2024-01-29 15:17:13 公開日:2024-01-26
# 構造知識を用いたタンパク質言語モデルの構築

Endowing Protein Language Models with Structural Knowledge ( http://arxiv.org/abs/2401.14819v1 )

ライセンス: Link先を確認
Dexiong Chen, Philip Hartout, Paolo Pellizzoni, Carlos Oliver, Karsten Borgwardt(参考訳) タンパク質配列、構造、機能の間の関係を理解することは、薬物設計から進化の理解への多様体の影響に関する長年にわたる生物学的課題である。 近年,大規模シーケンシャルデータベースを活用したタンパク質言語モデルが,この課題に好まれる手法として登場している。 しかし、拡張シーケンスデータとパラメータセットに依存することで、現実のシナリオにおける柔軟性と実用性が制限される。 同時に、最近の計算によって予測されるタンパク質構造の増加は、タンパク質表現学習の新しい機会を解き放つ。 このような複雑なデータによってもたらされる計算負荷は、まだ広く採用されている実用的な応用を妨げる。 これらの制約に対処するために,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しい枠組みを提案する。 近年のグラフ変換器の進歩から,構造情報と構造抽出モジュールを統合することにより,事前学習言語変換器の自己認識機構を改良する。 この改良されたモデルであるタンパク質構造トランスフォーマー(pst)は、従来のタンパク質言語モデルと同じマスク言語モデリング目標を用いて、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTの実験的評価は,542K構造のみからなるデータセット上で事前訓練されているにもかかわらず,タンパク質言語モデルと比較して優れたパラメータ効率を示す。 特にPSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。 我々の発見は、構造情報をタンパク質言語モデルに統合し、より効率的かつ効率的なタンパク質モデリングの道を開く可能性を、https://github.com/BorgwardtLab/PSTで示している。

Understanding the relationships between protein sequence, structure and function is a long-standing biological challenge with manifold implications from drug design to our understanding of evolution. Recently, protein language models have emerged as the preferred method for this challenge, thanks to their ability to harness large sequence databases. Yet, their reliance on expansive sequence data and parameter sets limits their flexibility and practicality in real-world scenarios. Concurrently, the recent surge in computationally predicted protein structures unlocks new opportunities in protein representation learning. While promising, the computational burden carried by such complex data still hinders widely-adopted practical applications. To address these limitations, we introduce a novel framework that enhances protein language models by integrating protein structural data. Drawing from recent advances in graph transformers, our approach refines the self-attention mechanisms of pretrained language transformers by integrating structural information with structure extractor modules. This refined model, termed Protein Structure Transformer (PST), is further pretrained on a small protein structure database, using the same masked language modeling objective as traditional protein language models. Empirical evaluations of PST demonstrate its superior parameter efficiency relative to protein language models, despite being pretrained on a dataset comprising only 542K structures. Notably, PST consistently outperforms the state-of-the-art foundation model for protein sequences, ESM-2, setting a new benchmark in protein function prediction. Our findings underscore the potential of integrating structural information into protein language models, paving the way for more effective and efficient protein modeling Code and pretrained models are available at https://github.com/BorgwardtLab/PST.
翻訳日:2024-01-29 15:16:48 公開日:2024-01-26
# ChemDFM: 化学のための対話基盤モデル

ChemDFM: Dialogue Foundation Model for Chemistry ( http://arxiv.org/abs/2401.14818v1 )

ライセンス: Link先を確認
Zihan Zhao, Da Ma, Lu Chen, Liangtai Sun, Zihao Li, Hongshen Xu, Zichen Zhu, Su Zhu, Shuai Fan, Guodong Shen, Xin Chen and Kai Yu(参考訳) 大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めている。 彼らのタスクの一般化と自由形式の対話能力は、化学における現実世界の研究を支援するためにCGI(Chemical General Intelligence)を設計するのに大いに役立つ。 しかし、化学分野における特殊言語と知識の存在、例えば高情報的なSMILES表記は、化学における一般ドメインLSMの性能を妨げている。 そこで我々は,CGIに向けた最初のLCMであるChemDFMを開発した。 chemdfm-13bは、化学文献、教科書、指示の34bトークンと一般ドメインの様々なデータに基づいて訓練されている。 したがって、高度な自由形式言語理解能力を持ちながら、化学知識や言語を保存、理解、推論することができる。 大規模な定量的評価の結果,ChemDFMはオープンソース LLM を著しく上回る性能を示した。 さらに、ChemDFMは、大きな大きさの違いにもかかわらず、多くの化学的なタスクにおいてGPT-4を超えることができる。 さらに質的な評価は、実際の研究シナリオにおけるChemDFMの有効性と有効性を示す。 近いうちにChemDFMモデルをオープンソース化します。

Large language models (LLMs) have established great success in the general domain of natural language processing. Their emerging task generalization and free-form dialogue capabilities can greatly help to design Chemical General Intelligence (CGI) to assist real-world research in chemistry. However, the existence of specialized language and knowledge in the field of chemistry, such as the highly informative SMILES notation, hinders the performance of general-domain LLMs in chemistry. To this end, we develop ChemDFM, the first LLM towards CGI. ChemDFM-13B is trained on 34B tokens from chemical literature, textbooks, and instructions as well as various data from the general domain. Therefore, it can store, understand, and reason over chemical knowledge and languages while still possessing advanced free-form language comprehension capabilities. Extensive quantitative evaluation shows that ChemDFM can significantly outperform the representative open-sourced LLMs. Moreover, ChemDFM can also surpass GPT-4 on a great portion of chemical tasks, despite the significant size difference. Further qualitative evaluations demonstrate the efficiency and effectiveness of ChemDFM in real-world research scenarios. We will open-source the ChemDFM model soon.
翻訳日:2024-01-29 15:16:20 公開日:2024-01-26
# プロセス間分散環境問題のシンボル特異的スパース化

Symbol-Specific Sparsification of Interprocedural Distributive Environment Problems ( http://arxiv.org/abs/2401.14813v1 )

ライセンス: Link先を確認
Kadiray Karakaya and Eric Bodden(参考訳) 以前の研究では、プログラムの制御フローグラフの各エッジではなく、定義-使用チェーンに沿ってデータフローを計算することで、静的解析を大幅にスピードアップすることが示されている。 これはいわゆるスパース静的解析をもたらす。 SparseDroidの最近の研究は、ある変数の接尾辞状態が他の変数に依存しないため、特別な接尾辞解析を異常な有効性で「分離」できることを示した。 これにより、一般的な場合よりも多くのフロー関数計算を省略することができる。 本研究では,この結果が,いわゆるIT(Interprocedural Distributive Environment)問題のより一般的な設定につながるかどうかを評価する。 テイント解析とは対照的に、ideはタイプステート分析や線形定数伝播といった、大きくも無限にも広いドメインを持つ分散問題を含んでいる。 具体的には,Sparse IDEについて述べる。Sparse IDEは,IDEフレームワークに適合する静的解析を実現するフレームワークである。 我々は、人気のあるHeros IDEソルバの拡張としてSparseHerosにSparse IDEを実装し、ベースラインIDEアルゴリズムと比較することにより、実世界のJavaライブラリのパフォーマンスを評価する。 そこで我々は,sparseheros上に線形定数伝搬解析クライアントを設計し,実装し,評価する。 実験の結果,Sparse IDEはシンボルだけでなく,(数値的な)値に関してのみ,IDE解析が分散できることが判明した。

Previous work has shown that one can often greatly speed up static analysis by computing data flows not for every edge in the program's control-flow graph but instead only along definition-use chains. This yields a so-called sparse static analysis. Recent work on SparseDroid has shown that specifically taint analysis can be "sparsified" with extraordinary effectiveness because the taint state of one variable does not depend on those of others. This allows one to soundly omit more flow-function computations than in the general case. In this work, we now assess whether this result carries over to the more generic setting of so-called Interprocedural Distributive Environment (IDE) problems. Opposed to taint analysis, IDE comprises distributive problems with large or even infinitely broad domains, such as typestate analysis or linear constant propagation. Specifically, this paper presents Sparse IDE, a framework that realizes sparsification for any static analysis that fits the IDE framework. We implement Sparse IDE in SparseHeros, as an extension to the popular Heros IDE solver, and evaluate its performance on real-world Java libraries by comparing it to the baseline IDE algorithm. To this end, we design, implement and evaluate a linear constant propagation analysis client on top of SparseHeros. Our experiments show that, although IDE analyses can only be sparsified with respect to symbols and not (numeric) values, Sparse IDE can nonetheless yield significantly lower runtimes and often also memory consumptions compared to the original IDE.
翻訳日:2024-01-29 15:16:02 公開日:2024-01-26
# マルチ目的, リスク感, モーダル課題の表現におけるマルコフ報酬の限界について

On the Limitations of Markovian Rewards to Express Multi-Objective, Risk-Sensitive, and Modal Tasks ( http://arxiv.org/abs/2401.14811v1 )

ライセンス: Link先を確認
Joar Skalse and Alessandro Abate(参考訳) 本稿では,強化学習(rl)におけるスカラー,マルコフ報酬関数の表現性について検討し,その表現能力に対するいくつかの制限を明らかにする。 具体的には、多目的RL、リスク感受性RL、モーダルRLの3つのクラスを考察する。 各クラスについて、このクラス内の問題がスカラー、マルコフの報酬を使って表現できるときを記述する必要十分条件を導出する。 さらに、スカラーとマルコフの報酬は、これら3つのクラスのインスタンスのほとんどを表現できないことが分かりました。 したがって、標準報酬関数ができることと表現できないことのより完全な理解に寄与する。 これに加えて,rl文献では体系的な処理が行われていないため,新たな問題としてモーダル問題にも注意を払っている。 我々はまた、RLアルゴリズムによって議論する問題のいくつかを解決するためのいくつかのアプローチを概説する。

In this paper, we study the expressivity of scalar, Markovian reward functions in Reinforcement Learning (RL), and identify several limitations to what they can express. Specifically, we look at three classes of RL tasks; multi-objective RL, risk-sensitive RL, and modal RL. For each class, we derive necessary and sufficient conditions that describe when a problem in this class can be expressed using a scalar, Markovian reward. Moreover, we find that scalar, Markovian rewards are unable to express most of the instances in each of these three classes. We thereby contribute to a more complete understanding of what standard reward functions can and cannot express. In addition to this, we also call attention to modal problems as a new class of problems, since they have so far not been given any systematic treatment in the RL literature. We also briefly outline some approaches for solving some of the problems we discuss, by means of bespoke RL algorithms.
翻訳日:2024-01-29 15:15:20 公開日:2024-01-26
# 準周期符号トラッピング集合の列挙のための周期群投影

Cyclic Group Projection for Enumerating Quasi-Cyclic Codes Trapping Sets ( http://arxiv.org/abs/2401.14810v1 )

ライセンス: Link先を確認
Vasiliy Usatyuk, Yury Kuznetsov, Sergey Egorov(参考訳) 本稿では,非素数である循環サイズを持つ準巡回符号のトラッピング集合を列挙し,評価する新しい手法を提案する。 この手法は準循環特性を利用して, トラッピング集合の擬符号の重みを推定するための重要サンプリングステップの合理化を行う。 提案手法は,提案定理で確立された数学的枠組みに基づいて,擬似符号語の射影および持ち上げ変換の挙動を解明する。

This paper introduces a novel approach to enumerate and assess Trapping sets in quasi-cyclic codes, those with circulant sizes that are non-prime numbers. Leveraging the quasi-cyclic properties, the method employs a tabular technique to streamline the importance sampling step for estimating the pseudo-codeword weight of Trapping sets. The presented methodology draws on the mathematical framework established in the provided theorem, which elucidates the behavior of projection and lifting transformations on pseudo-codewords
翻訳日:2024-01-29 15:14:49 公開日:2024-01-26
# PL-FSCIL:Few-Shot Class-Incremental Learningのためのプロンプトの力の調和

PL-FSCIL: Harnessing the Power of Prompts for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2401.14807v1 )

ライセンス: Link先を確認
Songsong Tian, Lusi Li, Weijun Li, Hang Ran, Li Li, Xin Ning(参考訳) FSCIL(Few-Shot Class-Incremental Learning)は、深層ニューラルネットワークが、学習済みのタスクを忘れずに、少数のラベル付きサンプルから段階的に新しいタスクを学習できるようにすることを目的としている。 本稿では,事前学習された視覚トランスフォーマー(vit)モデルと連動して,プロンプトのパワーを活用したfscil(pl-fscil)のためのプロンプト学習手法を提案する。 我々の研究は、FSCILにおける視覚的プロンプトの使用の先駆者であり、その顕著な単純さを特徴としている。 PL-FSCILはDomain PromptとFSCIL Promptの2つの異なるプロンプトから構成される。 どちらもViTモデルの注意層に自分自身を埋め込むことでモデルを増強するベクトルである。 具体的には、Domain Promptは新しいデータドメインに適応するViTモデルを支援する。 タスク固有のFSCIL Promptとプロトタイプの分類器が組み合わさって、FSCILタスクを効果的に処理するモデルの能力を増幅する。 CIFAR-100やCUB-200のような広く使われているベンチマークデータセットに対するPL-FSCILの有効性を検証する。 その結果は競争力のあるパフォーマンスを示し、高品質なデータが乏しい現実世界のアプリケーションに期待できる可能性を示している。 ソースコードはhttps://github.com/tiansongs/pl-fscil。

Few-Shot Class-Incremental Learning (FSCIL) aims to enable deep neural networks to learn new tasks incrementally from a small number of labeled samples without forgetting previously learned tasks, closely mimicking human learning patterns. In this paper, we propose a novel approach called Prompt Learning for FSCIL (PL-FSCIL), which harnesses the power of prompts in conjunction with a pre-trained Vision Transformer (ViT) model to address the challenges of FSCIL effectively. Our work pioneers the use of visual prompts in FSCIL, which is characterized by its notable simplicity. PL-FSCIL consists of two distinct prompts: the Domain Prompt and the FSCIL Prompt. Both are vectors that augment the model by embedding themselves into the attention layer of the ViT model. Specifically, the Domain Prompt assists the ViT model in adapting to new data domains. The task-specific FSCIL Prompt, coupled with a prototype classifier, amplifies the model's ability to effectively handle FSCIL tasks. We validate the efficacy of PL-FSCIL on widely used benchmark datasets such as CIFAR-100 and CUB-200. The results showcase competitive performance, underscoring its promising potential for real-world applications where high-quality data is often scarce. The source code is available at: https://github.com/TianSongS/PL-FSCIL.
翻訳日:2024-01-29 15:14:33 公開日:2024-01-26
# 円錐交点近傍での低エネルギーダイナミクスのための精密分解に基づく軌道探索

Exploring exact-factorization-based trajectories for low-energy dynamics near a conical intersection ( http://arxiv.org/abs/2401.14801v1 )

ライセンス: Link先を確認
Lea M. Ibele, Federica Agostini(参考訳) 量子ウェーブパケットとトラジェクトリダイナミクスを用いて円錐交点付近で2次元2状態のヤーン・テラー・ハミルトンが生成する低エネルギーダイナミクスについて検討した。 近年, 2つの理論表現で生じる位相・幾何学的位相効果の異なる性質を強調するために, 断熱的表現と正確な因子分解を比較することにより, これらのダイナミクスが研究されている。 本稿では, 軌道を用いた核運動の近似記述を用いて, 円錐交差近傍の低エネルギーダイナミクスを正確にモデル化する方法を理解するために, 正確な因子分解を用いる。 その結果,非断熱効果は弱いが無視できないため,古典的近似を呼び出す軌道に基づく記述は正しい振る舞いを捉えるのに苦労していることがわかった。

We study low-energy dynamics generated by a two-dimensional two-state Jahn-Teller Hamiltonian in the vicinity of a conical intersection using quantum wavepacket and trajectories dynamics. Recently, these dynamics were studied by comparing the adiabatic representation and the exact factorization, with the purpose to highlight the different nature of topological- and geometric-phase effects arising in the two theoretical representation of the same problem. Here, we employ the exact factorization to understand how to model accurately low-energy dynamics in the vicinity of a conical intersection using an approximate description of the nuclear motion that uses trajectories. We find that, since nonadiabatic effects are weak but non-negligible, the trajectory-based description that invokes the classical approximation struggles to capture the correct behavior.
翻訳日:2024-01-29 15:13:23 公開日:2024-01-26
# 光学格子中のボース・アインシュタイン凝縮体の干渉により形成されるソリトンシート

Soliton sheets formed by interference of Bose-Einstein condensates in optical lattices ( http://arxiv.org/abs/2401.14796v1 )

ライセンス: Link先を確認
Shusong Wang and Suying Zhang(参考訳) 単粒子状態の異なるボース・アインシュタイン凝縮体の干渉によって形成されるソリトンシートは、光学格子電位で観察される。 この構造は、光格子(y方向)のピークに沿って周期的に配置された1次元静止ソリトンで構成され、ソリトンシートの両側の位相差は各周期におけるyの線形関数であるので、ソリトンシートと呼ぶ。 ソリトンシートの両面間にはy成分速度差が存在する。 同様の速度分布は、光学格子のピークに沿った無限個の等方性渦のアライメントによって生成される。 彼らの違いは、ソリトンシート構造は位相特異点の数に制限されず、位相特異点がなくても生成可能であることである。

Soliton sheets which are formed by interference of Bose Einstein condensates occupying different single-particle states are observed in optical lattice potential. This structure consists of one-dimensional stationary solitons arranged periodically along the peaks of optical lattice (y direction) with the phase difference between the two sides of the soliton sheets is a linear function of y in each period, so we call it soliton sheet. A y component velocity difference exists between the two sides of the soliton sheet. Similar velocity distributions can be produced by the alignment of an infinite number of isotropic vortices along the peaks of the optical lattice. Their difference is that the soliton sheet structure is not limited by the number of phase singularities and can be generated even without phase singularities.
翻訳日:2024-01-29 15:13:08 公開日:2024-01-26
# 深部変分プライバシーファンネル:顔認識への応用による一般モデリング

Deep Variational Privacy Funnel: General Modeling with Applications in Face Recognition ( http://arxiv.org/abs/2401.14792v1 )

ライセンス: Link先を確認
Behrooz Razeghi, Parsa Rahimi, S\'ebastien Marcel(参考訳) 本研究では、情報理論プライバシ・ファンネル(PF)モデルを用いて、エンドツーエンドのトレーニングフレームワークを用いて、プライバシ保護表現学習手法を開発する。 我々は難読化と実用性の間のトレードオフに厳格に対処する。 どちらも対数損失によって定量化され、自己情報損失と認識される。 この調査は、情報理論的なプライバシと表現学習の相互作用を深め、識別モデルと生成モデルの両方のデータ保護メカニズムに関する予備的な洞察を提供する。 重要なことは、我々のモデルを最先端の顔認識システムに適用することである。 このモデルは、生の顔画像から派生または洗練された埋め込みまで、様々な入力にまたがる適応性を示し、分類、再構築、生成といったタスクに適している。

In this study, we harness the information-theoretic Privacy Funnel (PF) model to develop a method for privacy-preserving representation learning using an end-to-end training framework. We rigorously address the trade-off between obfuscation and utility. Both are quantified through the logarithmic loss, a measure also recognized as self-information loss. This exploration deepens the interplay between information-theoretic privacy and representation learning, offering substantive insights into data protection mechanisms for both discriminative and generative models. Importantly, we apply our model to state-of-the-art face recognition systems. The model demonstrates adaptability across diverse inputs, from raw facial images to both derived or refined embeddings, and is competent in tasks such as classification, reconstruction, and generation.
翻訳日:2024-01-29 15:12:36 公開日:2024-01-26
# 圧縮型ハイパースペクトル画像の復元のためのgOMPアルゴリズムの検討

Study of the gOMP Algorithm for Recovery of Compressed Sensed Hyperspectral Images ( http://arxiv.org/abs/2401.14786v1 )

ライセンス: Link先を確認
Jon Alvarez Justo, Milica Orlandic(参考訳) ハイパースペクトルイメージング(hsi)はリモートセンシングなどの幅広いアプリケーションで使用されているが、通信データリンクによるhs画像の伝送は、hs画像に含まれている多数のスペクトル帯域と実際のアプリケーションで利用可能な限られたデータ帯域によって困難になる。 圧縮センシングは、各空間画素のスペクトル帯域をランダムにサンプリングして画像を減少させ、ある変換領域にスパーシティを課すリカバリアルゴリズムを用いて、すべての帯域を画像再構成する。 画像画素は厳密にスパースしないので、圧縮前のデータのスパース化前処理段階を研究し、画素のスパース性を保証する。 スパース化画像は2.5\times$で圧縮され、高い精度、低い計算要件、高速な収束性で特徴付けられる一般化直交マッチング追跡アルゴリズム(gomp)を用いて復元される。 未圧縮画像および回収画像の品質に異なるスパーシフィケーションレベルが与える影響について検討した5種類の従来の超スペクトル画像を用いて実験を行った。 gompアルゴリズムは、画素が高度にスパース化され、元の画像に対して復元された画像の品質が低下するときに、高い精度とより高速な収束率でハイパースペクトル画像を再構成する。

Hyperspectral Imaging (HSI) is used in a wide range of applications such as remote sensing, yet the transmission of the HS images by communication data links becomes challenging due to the large number of spectral bands that the HS images contain together with the limited data bandwidth available in real applications. Compressive Sensing reduces the images by randomly subsampling the spectral bands of each spatial pixel and then it performs the image reconstruction of all the bands using recovery algorithms which impose sparsity in a certain transform domain. Since the image pixels are not strictly sparse, this work studies a data sparsification pre-processing stage prior to compression to ensure the sparsity of the pixels. The sparsified images are compressed $2.5\times$ and then recovered using the Generalized Orthogonal Matching Pursuit algorithm (gOMP) characterized by high accuracy, low computational requirements and fast convergence. The experiments are performed in five conventional hyperspectral images where the effect of different sparsification levels in the quality of the uncompressed as well as the recovered images is studied. It is concluded that the gOMP algorithm reconstructs the hyperspectral images with higher accuracy as well as faster convergence when the pixels are highly sparsified and hence at the expense of reducing the quality of the recovered images with respect to the original images.
翻訳日:2024-01-29 15:12:22 公開日:2024-01-26
# Coca: グラフニューラルネットワークによる脆弱性検出システムの改良と説明

Coca: Improving and Explaining Graph Neural Network-Based Vulnerability Detection Systems ( http://arxiv.org/abs/2401.14886v1 )

ライセンス: Link先を確認
Sicong Cao, Xiaobing Sun, Xiaoxue Wu, David Lo, Lili Bo, Bin Li, Wei Liu(参考訳) 近年,グラフニューラルネットワーク(GNN)に基づく脆弱性検出システムが大きな成功を収めている。 しかし、説明可能性の欠如は、セキュリティ関連のドメインにブラックボックスモデルをデプロイする上で重要な課題となる。 このため,検出モデルの決定論理を,その予測に肯定的に寄与する重要な文の集合を提供することによって説明するためのいくつかのアプローチが提案されている。 残念なことに、弱い破壊検出モデルと準最適説明戦略のため、それらは急激な相関と冗長性の問題を明らかにする危険がある。 本稿では,cocaという汎用フレームワークを提案する。 1)既存のGNNベースの脆弱性検出モデルの堅牢性を高めて、素早い説明を避ける。 2) 検出された脆弱性を推論するための簡潔かつ効果的な説明を提供する。 \sysnameはTrainerとExplainerと呼ばれる2つのコア部分で構成される。 前者は組合せの対比学習に基づくランダムな摂動にロバストな検出モデルを訓練することを目的としており、後者は二重視点因果推論を説明として検出された脆弱性に最も決定的な重要なコードステートメントを導出するための説明器を構築している。 典型的な3つのGNNベースの脆弱性検知器にCocaを適用する。 実験結果から,コカはスプリアス相関問題を効果的に緩和し,より有用な高品質な説明を提供することができた。

Recently, Graph Neural Network (GNN)-based vulnerability detection systems have achieved remarkable success. However, the lack of explainability poses a critical challenge to deploy black-box models in security-related domains. For this reason, several approaches have been proposed to explain the decision logic of the detection model by providing a set of crucial statements positively contributing to its predictions. Unfortunately, due to the weakly-robust detection models and suboptimal explanation strategy, they have the danger of revealing spurious correlations and redundancy issue. In this paper, we propose Coca, a general framework aiming to 1) enhance the robustness of existing GNN-based vulnerability detection models to avoid spurious explanations; and 2) provide both concise and effective explanations to reason about the detected vulnerabilities. \sysname consists of two core parts referred to as Trainer and Explainer. The former aims to train a detection model which is robust to random perturbation based on combinatorial contrastive learning, while the latter builds an explainer to derive crucial code statements that are most decisive to the detected vulnerability via dual-view causal inference as explanations. We apply Coca over three typical GNN-based vulnerability detectors. Experimental results show that Coca can effectively mitigate the spurious correlation issue, and provide more useful high-quality explanations.
翻訳日:2024-01-29 15:05:54 公開日:2024-01-26
# 効率良くスケーラブルなモデル予測制御のためのニューロモルフィック二次計画法

Neuromorphic quadratic programming for efficient and scalable model predictive control ( http://arxiv.org/abs/2401.14885v1 )

ライセンス: Link先を確認
Ashish Rao Mangalore, Gabriel Andreas Fonseca Guerra, Sumedh R. Risbud, Philipp Stratmann, Andreas Wild(参考訳) ロボット工学や他のサイズ、重量、電力に制約のある自律システムのエッジでの応用は、大規模な最適化問題に対するリアルタイムおよび低エネルギーのソリューションを必要とすることが多い。 イベントベースおよびメモリ統合ニューロモルフィックアーキテクチャは、従来のフォン・ノイマンアーキテクチャと比較してエネルギー効率と性能に優れた最適化問題を解くことを約束する。 本稿では,Intelのスケーラブルなニューロモルフィック研究チップLoihi 2における2次コスト関数と線形制約を用いた凸連続最適化問題の解法を提案する。 四足歩行ロボットプラットフォームANYmalのモデル予測制御(MPC)問題に適用すると、様々な問題サイズに対して10ミリ秒未満の解時間を持つCPUとGPU上で、最先端のOSQPと比較して2桁以上のエネルギー遅延積の2桁の削減が達成される。 これらの結果は、ロボット制御アプリケーションにおける非ヴォン・ノイマンアーキテクチャの利点を示している。

Applications in robotics or other size-, weight- and power-constrained autonomous systems at the edge often require real-time and low-energy solutions to large optimization problems. Event-based and memory-integrated neuromorphic architectures promise to solve such optimization problems with superior energy efficiency and performance compared to conventional von Neumann architectures. Here, we present a method to solve convex continuous optimization problems with quadratic cost functions and linear constraints on Intel's scalable neuromorphic research chip Loihi 2. When applied to model predictive control (MPC) problems for the quadruped robotic platform ANYmal, this method achieves over two orders of magnitude reduction in combined energy-delay product compared to the state-of-the-art solver, OSQP, on (edge) CPUs and GPUs with solution times under ten milliseconds for various problem sizes. These results demonstrate the benefit of non-von-Neumann architectures for robotic control applications.
翻訳日:2024-01-29 15:05:33 公開日:2024-01-26
# p3ls:プライバシー保護下の部分最小2乗

P3LS: Partial Least Squares under Privacy Preservation ( http://arxiv.org/abs/2401.14884v1 )

ライセンス: Link先を確認
Du Nguyen Duy, Ramin Nikzad-Langerodi(参考訳) 現代の製造業の価値連鎖は、社会と環境の持続可能性を高めながら利益を最大化するために、企業の境界を越えてプロセスのインテリジェントなオーケストレーションを必要とする。 しかし、バリューチェーンに沿ったデータインフォームド意思決定のための統合システムレベルのアプローチの実装は、現在、組織間のデータ交換と統合に関連するプライバシの懸念によって妨げられている。 本稿では,プライバシ保証を伴う組織間データ統合とプロセスモデリングを可能にする新しいフェデレーション学習手法であるプライバシ保存部分最小広場(P3LS)回帰を提案する。 P3LSは、特異値分解(SVD)ベースのPSSアルゴリズムを含み、信頼できる権威によって生成される取り外し可能なランダムマスクを用いて、各データ保持者が提供したデータのプライバシーを保護する。 本稿では,P3LSが3つのパーティからなる仮説値チェーンに沿ってプロセスデータを垂直に統合し,プロセス関連キーパフォーマンス指標の予測性能を向上させる能力を示す。 さらに,シミュレーションデータ上でのp3lsおよびplsモデルコンポーネントの数値等価性を示し,前者のプライバシーを徹底的に解析する。 さらに,この問題に対する貢献データの関連性を判定するメカニズムを提案し,参加者の貢献度を定量化するための基礎を構築した。

Modern manufacturing value chains require intelligent orchestration of processes across company borders in order to maximize profits while fostering social and environmental sustainability. However, the implementation of integrated, systems-level approaches for data-informed decision-making along value chains is currently hampered by privacy concerns associated with cross-organizational data exchange and integration. We here propose Privacy-Preserving Partial Least Squares (P3LS) regression, a novel federated learning technique that enables cross-organizational data integration and process modeling with privacy guarantees. P3LS involves a singular value decomposition (SVD) based PLS algorithm and employs removable, random masks generated by a trusted authority in order to protect the privacy of the data contributed by each data holder. We demonstrate the capability of P3LS to vertically integrate process data along a hypothetical value chain consisting of three parties and to improve the prediction performance on several process-related key performance indicators. Furthermore, we show the numerical equivalence of P3LS and PLS model components on simulated data and provide a thorough privacy analysis of the former. Moreover, we propose a mechanism for determining the relevance of the contributed data to the problem being addressed, thus creating a basis for quantifying the contribution of participants.
翻訳日:2024-01-29 15:05:16 公開日:2024-01-26
# アジャイルソフトウェア開発の文脈における技術的負債の概念の分析: 体系的な文献レビュー

Analyzing the concept of technical debt in the context of agile software development: A systematic literature review ( http://arxiv.org/abs/2401.14882v1 )

ライセンス: Link先を確認
Woubshet Nema Behutiye, Pilar Rodriguez, Markku Oivo, Ayse Tosun(参考訳) 技術的負債(td)は、ソフトウェア開発プラクティスの貧弱さの結果を非技術ステークホルダーに伝えるために使われるメタファーです。 近年、アジャイルソフトウェア開発(asd)において大きな注目を集めている。 本研究の目的は,tdの技術の現状とasdの文脈におけるその原因,結果,管理戦略を分析・統合することである。 系統的文献レビュー(SLR)を用いて,346研究のうち38研究が同定され,分析された。 ASDにおけるTDの文献に関する5つの研究領域を発見した。 これらの領域の中で、ASDにおけるTDの管理が最も注目され、ASDにおけるアーキテクチャとTDとの関係が続いた。 さらに, 原因に関する8つのカテゴリと, ASDにおけるTD誘発結果に関する5つのカテゴリが同定された。 迅速な配送とアーキテクチャと設計の問題に焦点が当てられ、ASDでTDを発生させる最も一般的な原因となった。 生産性の低下, システム劣化, メンテナンスコストの増大は, ASD におけるTD の出現に有意な影響が認められた。 さらに、ASDの文脈でTDを管理するための12の戦略を見つけました。 本研究の成果は,asdの文脈におけるtdとその管理の構造化合成と,さらなる調査のための潜在的研究領域を提供するものである。

Technical debt (TD) is a metaphor that is used to communicate the consequences of poor software development practices to non-technical stakeholders. In recent years, it has gained significant attention in agile software development (ASD). The purpose of this study is to analyze and synthesize the state of the art of TD, and its causes, consequences, and management strategies in the context of ASD. Using a systematic literature review (SLR), 38 primary studies, out of 346 studies, were identified and analyzed. We found five research areas of interest related to the literature of TD in ASD. Among those areas, managing TD in ASD received the highest attention, followed by architecture in ASD and its relationship with TD. In addition, eight categories regarding the causes and five categories regarding the consequences of incurring TD in ASD were identified. Focus on quick delivery and architectural and design issues were the most popular causes of incurring TD in ASD. Reduced productivity, system degradation and increased maintenance cost were identified as significant consequences of incurring TD in ASD. Additionally, we found 12 strategies for managing TD in the context of ASD, out of which refactoring and enhancing the visibility of TD were the most significant. The results of this study provide a structured synthesis of TD and its management in the context of ASD as well as potential research areas for further investigation.
翻訳日:2024-01-29 15:04:55 公開日:2024-01-26
# クロススペース適応フィルタ:グラフトポロジとノード属性の統合によるオーバー・スムーシング問題の軽減

Cross-Space Adaptive Filter: Integrating Graph Topology and Node Attributes for Alleviating the Over-smoothing Problem ( http://arxiv.org/abs/2401.14876v1 )

ライセンス: Link先を確認
Chen Huang, Haoyang Li, Yifan Zhang, Wenqiang Lei, Jiancheng Lv(参考訳) バニラグラフ畳み込みネットワーク(gcn)は低パスフィルタを使用してグラフトポロジーから低周波信号を抽出する。 この目的のために、グラフトポロジから抽出した追加フィルタ(例えば、ハイパスフィルタ)を組み込んで適応フィルタを作成するための様々な手法が提案されている。 しかし、これらの手法は位相情報に強く依存し、特に非因果グラフを扱う場合、深いGCNの表現力を著しく犠牲にするノード属性空間を無視する。 本稿では,位相空間と属性空間の両方から抽出した適応周波数情報を生成するために,csfと呼ばれるクロススペース適応フィルタを提案する。 具体的には, 半教師付きカーネルリッジ回帰の最小化として理論的に解釈可能な属性に基づく高パスフィルタを導出する。 次に、トポロジーベースのローパスフィルタをマーサーのカーネルとしてgcnsのコンテキストにキャストした。 これはアダプティブ周波数情報をキャプチャするために属性ベースのフィルタと組み合わせる基盤となる。 最後に、属性に基づくハイパスフィルタとトポロジに基づくローパスフィルタを統一する効果的なマルチカーネル学習戦略により、クロススペースフィルタを導出する。 これにより、効率を保ちながら過度にスムースな問題に対処できます。 大規模な実験により、CSFは過度に平滑な問題を緩和するだけでなく、ノード分類タスクの有効性も促進することが示された。

The vanilla Graph Convolutional Network (GCN) uses a low-pass filter to extract low-frequency signals from graph topology, which may lead to the over-smoothing problem when GCN goes deep. To this end, various methods have been proposed to create an adaptive filter by incorporating an extra filter (e.g., a high-pass filter) extracted from the graph topology. However, these methods heavily rely on topological information and ignore the node attribute space, which severely sacrifices the expressive power of the deep GCNs, especially when dealing with disassortative graphs. In this paper, we propose a cross-space adaptive filter, called CSF, to produce the adaptive-frequency information extracted from both the topology and attribute spaces. Specifically, we first derive a tailored attribute-based high-pass filter that can be interpreted theoretically as a minimizer for semi-supervised kernel ridge regression. Then, we cast the topology-based low-pass filter as a Mercer's kernel within the context of GCNs. This serves as a foundation for combining it with the attribute-based filter to capture the adaptive-frequency information. Finally, we derive the cross-space filter via an effective multiple-kernel learning strategy, which unifies the attribute-based high-pass filter and the topology-based low-pass filter. This helps to address the over-smoothing problem while maintaining effectiveness. Extensive experiments demonstrate that CSF not only successfully alleviates the over-smoothing problem but also promotes the effectiveness of the node classification task.
翻訳日:2024-01-29 15:04:34 公開日:2024-01-26
# F-Eval:再評価手法による基礎能力の評価

F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods ( http://arxiv.org/abs/2401.14869v1 )

ライセンス: Link先を確認
Yu Sun, Keyu Chen, Shujie Wang, Qipeng Guo, Hang Yan, Xipeng Qiu, Xuanjing Huang, Dahua Lin(参考訳) 大型言語モデル(LLM)は前例のない性能で注目され、LSMを評価する研究が増えている。 しかし、これらの評価ベンチマークは、訓練前の段階で現れる基本的な能力を見越して、指示追従能力の評価に限られている。 従来の主観評価手法は主にAPIモデルによるスコアリングに応答する。 しかし、参照がない場合、大きなモデルは微妙な違いを識別する能力が限られている。 このギャップを埋めるために,表現,常識,論理などの基礎的能力を評価するバイリンガル評価ベンチマークであるf-evalを提案する。 F-Evalのタスクには、複数選択目的タスク、オープンエンド目的タスク、参照ベース主観的タスク、参照フリー主観的タスクが含まれる。 参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。 13の高度LCMの評価を行った。 その結果,評価手法は他の評価装置よりも高い相関係数と大きな差が認められた。 さらに、異なるモデルサイズ、次元、正規化方法の影響についても論じる。 我々は、F-EvalがLLMの基本能力の研究を促進することを期待する。

Large language models (LLMs) garner significant attention for their unprecedented performance, leading to an increasing number of researches evaluating LLMs. However, these evaluation benchmarks are limited to assessing the instruction-following capabilities, overlooking the fundamental abilities that emerge during the pre-training stage. Previous subjective evaluation methods mainly reply on scoring by API models. However, in the absence of references, large models have shown limited ability to discern subtle differences. To bridge the gap, we propose F-Eval, a bilingual evaluation benchmark to evaluate the fundamental abilities, including expression, commonsense and logic. The tasks in F-Eval include multi-choice objective tasks, open-ended objective tasks, reference-based subjective tasks and reference-free subjective tasks. For reference-free subjective tasks, we devise new evaluation methods, serving as alternatives to scoring by API models. We conduct evaluations on 13 advanced LLMs. Results show that our evaluation methods show higher correlation coefficients and larger distinction than other evaluators. Additionally, we discuss the influence of different model sizes, dimensions, and normalization methods. We anticipate that F-Eval will facilitate the study of LLMs' fundamental abilities.
翻訳日:2024-01-29 15:04:08 公開日:2024-01-26
# Particle-MALA と Particle-mGRAD:高次元状態空間モデルのための勾配法MCMCMC法

Particle-MALA and Particle-mGRAD: Gradient-based MCMC methods for high-dimensional state-space models ( http://arxiv.org/abs/2401.14868v1 )

ライセンス: Link先を確認
Adrien Corenflos and Axel Finke(参考訳) 状態空間モデルにおけるベイズ推論の最先端手法 a) 条件付き逐次モンテカルロ(csmc)アルゴリズム (b)MALAやTitsiasやPapaspiliopoulos(2018, arXiv:1610.09641v3[stat.ML])のmGRADのような洗練された「古典的」MCMCアルゴリズム。 前者は、モデルの「デコリレーション・オーバー・タイム」特性を利用するために各時間ステップで$N$粒子を提案し、したがって時間地平線である$T$と好意的にスケールするが、潜在状態の次元である$D$が大きければ分解する。 後者はグラデーション/プリエンプティブなローカル提案を活用して$D$でスケールするが、モデル構造利用の欠如により$T$でサブ最適スケーラビリティを示す。 両アプローチの強みを結合する手法を提案する。 最初のParticle-MALAは、勾配情報を用いて現在の状態にN$の粒子を局所的に拡散し、MALAを1$の時間ステップと1$の提案に拡張する。 第2の particle-mgrad は(条件付きで)ガウスの事前ダイナミクスを提案に取り入れ、mgrad アルゴリズムを $t > 1$ の時間ステップと $n > 1$ の提案に拡張する。 我々は,csmcと粒子malaの間に粒子mgradが補間し,csmc(高情報優先動力学)と粒子mala(弱情報先行動力学)の「調律問題」を解決することを証明した。 同様に、補助的MALA、aGRAD、プレコンディション付きCrank-Nicolson-Langevin(PCNL)などの「古典的」MCMCアプローチを、時間ステップ1ドル、提案1ドルまで拡張する。 実験では,高度かつ弱情報的事前力学の両面において,CSMC法と洗練された「古典的」MCMC法の両方を改良した。

State-of-the-art methods for Bayesian inference in state-space models are (a) conditional sequential Monte Carlo (CSMC) algorithms; (b) sophisticated 'classical' MCMC algorithms like MALA, or mGRAD from Titsias and Papaspiliopoulos (2018, arXiv:1610.09641v3 [stat.ML]). The former propose $N$ particles at each time step to exploit the model's 'decorrelation-over-time' property and thus scale favourably with the time horizon, $T$ , but break down if the dimension of the latent states, $D$, is large. The latter leverage gradient-/prior-informed local proposals to scale favourably with $D$ but exhibit sub-optimal scalability with $T$ due to a lack of model-structure exploitation. We introduce methods which combine the strengths of both approaches. The first, Particle-MALA, spreads $N$ particles locally around the current state using gradient information, thus extending MALA to $T > 1$ time steps and $N > 1$ proposals. The second, Particle-mGRAD, additionally incorporates (conditionally) Gaussian prior dynamics into the proposal, thus extending the mGRAD algorithm to $T > 1$ time steps and $N > 1$ proposals. We prove that Particle-mGRAD interpolates between CSMC and Particle-MALA, resolving the 'tuning problem' of choosing between CSMC (superior for highly informative prior dynamics) and Particle-MALA (superior for weakly informative prior dynamics). We similarly extend other 'classical' MCMC approaches like auxiliary MALA, aGRAD, and preconditioned Crank-Nicolson-Langevin (PCNL) to $T > 1$ time steps and $N > 1$ proposals. In experiments, for both highly and weakly informative prior dynamics, our methods substantially improve upon both CSMC and sophisticated 'classical' MCMC approaches.
翻訳日:2024-01-29 15:03:50 公開日:2024-01-26
# 物理駆動作動型ソフトボディのインプシットニューラル表現

Implicit Neural Representation for Physics-driven Actuated Soft Bodies ( http://arxiv.org/abs/2401.14861v1 )

ライセンス: Link先を確認
Lingchen Yang, Byungsoo Kim, Gaspard Zoss, Baran G\"ozc\"u, Markus Gross, Barbara Solenthaler(参考訳) アクティブな柔らかい体は、変形を引き起こす内部のアクチュエータ機構を通して形状に影響を与える。 最近の研究と同様に、ニューラルネットワークによってパラメータ化されるアクチュエータ信号の最適化に微分可能、準静的、物理に基づくシミュレーション層を利用する。 物質空間内の空間点からアクチュエーション値への連続写像を可能にする関数を定義することにより、アクティブなソフトボディを制御するための一般的な暗黙の定式化である。 この特性により、信号の支配周波数を捉えることができ、離散化法を無依存で広く適用することができる。 顔画像の特定の場合の暗黙的モデルを下顎運動学に拡張し、高品質なキャプチャシステムで捉えた表情を確実に再現できることを示す。 本手法を容積軟体,人間のポーズ,表情に応用し,潜在空間に対する簡易な制御やテスト時の解像度不変性などのアーティストフレンドリーな特性を示す。

Active soft bodies can affect their shape through an internal actuation mechanism that induces a deformation. Similar to recent work, this paper utilizes a differentiable, quasi-static, and physics-based simulation layer to optimize for actuation signals parameterized by neural networks. Our key contribution is a general and implicit formulation to control active soft bodies by defining a function that enables a continuous mapping from a spatial point in the material space to the actuation value. This property allows us to capture the signal's dominant frequencies, making the method discretization agnostic and widely applicable. We extend our implicit model to mandible kinematics for the particular case of facial animation and show that we can reliably reproduce facial expressions captured with high-quality capture systems. We apply the method to volumetric soft bodies, human poses, and facial expressions, demonstrating artist-friendly properties, such as simple control over the latent space and resolution invariance at test time.
翻訳日:2024-01-29 15:03:06 公開日:2024-01-26
# テキスト画像分類のためのメモリインスパイアされた時間的プロンプト相互作用

Memory-Inspired Temporal Prompt Interaction for Text-Image Classification ( http://arxiv.org/abs/2401.14856v1 )

ライセンス: Link先を確認
Xinyao Yu, Hao Sun, Ziwei Niu, Rui Qin, Zhenjia Bai, Yen-Wei Chen, Lanfen Lin(参考訳) 近年、大規模事前学習型マルチモーダルモデル (LMM) が一般的に出現し、様々な自然言語処理やコンピュータビジョンタスクでかなりの成功を収めている。 しかし、LMMのサイズが大きくなると、下流タスクのためにこれらのモデルを微調整するのにかなりの計算コストがかかる。 したがって、より効率的にモダリティを調整するために、プロンプトベースの相互作用戦略が研究される。 本稿では,人間の記憶戦略に触発された新しいプロンプトベースマルチモーダルインタラクション戦略,すなわち記憶に触発された時間的プロンプトインタラクション(mitp)を提案する。 提案手法は,人間の記憶戦略として,獲得段階と統合・活性化段階の2段階を含む。 中間層上の時間的プロンプトを利用して獲得ステージを模倣し、類似性に基づくプロンプトインタラクションを利用してメモリ統合を模倣し、プロンプト生成戦略を用いてメモリ活性化を模倣する。 本論文の主な強みは,中間層上でプロンプトベクトルを相互作用させることで,圧縮学習可能なパラメータとメモリ使用量で,モダリティ間の十分な情報交換を実現することである。 メモリ使用量が比較的少なく、トレーニング可能なパラメータの2.0M(事前学習された基礎モデルの約1%)で競合する結果が得られる。

In recent years, large-scale pre-trained multimodal models (LMM) generally emerge to integrate the vision and language modalities, achieving considerable success in various natural language processing and computer vision tasks. The growing size of LMMs, however, results in a significant computational cost for fine-tuning these models for downstream tasks. Hence, prompt-based interaction strategy is studied to align modalities more efficiently. In this contex, we propose a novel prompt-based multimodal interaction strategy inspired by human memory strategy, namely Memory-Inspired Temporal Prompt Interaction (MITP). Our proposed method involves in two stages as in human memory strategy: the acquiring stage, and the consolidation and activation stage. We utilize temporal prompts on intermediate layers to imitate the acquiring stage, leverage similarity-based prompt interaction to imitate memory consolidation, and employ prompt generation strategy to imitate memory activation. The main strength of our paper is that we interact the prompt vectors on intermediate layers to leverage sufficient information exchange between modalities, with compressed trainable parameters and memory usage. We achieve competitive results on several datasets with relatively small memory usage and 2.0M of trainable parameters (about 1% of the pre-trained foundation model).
翻訳日:2024-01-29 15:02:49 公開日:2024-01-26
# 高次元量子スピンチェーンによるセンシングにおける次元利得

Dimensional gain in sensing through higher-dimensional quantum spin chain ( http://arxiv.org/abs/2401.14853v1 )

ライセンス: Link先を確認
Shivansh Singh, Leela Ganesh Chandra Lakkaraju, Srijon Ghosh, Aditi Sen De(参考訳) 近年の量子技術におけるブレークスルーは、能力と汎用性の観点から量子ビットよりも優れている高次元量子システムの広範な利用への道を開いた。 高次元多体量子プローブを用いて、弱い外部磁場を正確に予測する枠組みを提案する。 我々は、横スピンスイジング鎖が強みが決定される磁場と局所的に相互作用する場合、次元が量子センシングの貴重な資源となることを示した。 半整数スピンと整数スピンを持つスピン鎖に対するセンサの異なる性能を観察する。 さらに,量子エンハンスセンシングに適した時間長は次元の増加とともに増加することを強調する。 さらに、最も近い隣同士の相互作用に加えて、次の隣同士の相互作用を組み込むことで、特に整数スピンを持つスピン鎖に対する知覚精度が向上することが観察された。 また,推定パラメータの精度の限界を与える量子フィッシャー情報に対する境界の次元依存性を証明した。

Recent breakthroughs in quantum technology pave the way for extensive utilization of higher-dimensional quantum systems, which outperform their qubit counterparts in terms of capabilities and versatility. We present a framework for accurately predicting weak external magnetic fields using a higher-dimensional many-body quantum probe. We demonstrate that dimension serves as a valuable resource for quantum sensing when a transverse spin-s Ising chain interacts locally with a magnetic field whose strength has to be determined. We observe the distinct performance of sensors for spin chains with half-integer and integer spins. Furthermore, we highlight that the time duration appropriate for quantum-enhanced sensing increases with the increase of dimension. Additionally, we observe that, in addition to nearest-neighbor interactions, incorporating interactions between the next nearest-neighbor sites increases sensing precision, particularly for spin chains with integer spins. We also prove the dimensional-dependence of the bound on quantum Fisher information which provides the limit on the precision in estimating parameters.
翻訳日:2024-01-29 15:02:26 公開日:2024-01-26
# オブジェクト中心プロセスデータからのプロセス認識決定モデル抽出

Extracting Process-Aware Decision Models from Object-Centric Process Data ( http://arxiv.org/abs/2401.14847v1 )

ライセンス: Link先を確認
Alexandre Goossens, Johannes De Smedt, Jan Vanthienen(参考訳) 組織はビジネスプロセス内で意思決定を日々行う一方で、同じプロセスの複数の視点を必要とする複数の利害関係者を考慮する必要があります。 さらに、これらのビジネスプロセスを実行する情報システムの複雑さは、プロセスに関連するすべてのデータと側面を格納するデータベースにリンクされるため、一般的に高くなります。 実行中のプロセスをサポートする情報システム内の複数のオブジェクトの存在を考えると、決定は、オブジェクト中心のプロセスログにログされるこれらの視点の両方に影響される。 しかしながら、そのような決定をオブジェクト中心のプロセスログから発見することは、ビジネスプロセスが課す逐次的制約を考慮しつつ、決定が実際に何をするのかを正しく発見しながら、関係するオブジェクトを正しくリンクする必要があるため、簡単ではない。 本稿では,オブジェクト中心決定探索アルゴリズム(IODDA)と呼ばれる,オブジェクト中心決定マイニングアルゴリズムを提案する。 IODDAは意思決定の仕組みや意思決定の仕方を知ることができる。 さらに、IODDAは意思決定プロセスにどのアクティビティやオブジェクトタイプが関与しているかを発見することができる。 次に、IODDAは、研究コミュニティにログジェネレータを提供する最初の人工的な知識集約プロセスログで実証される。

Organizations execute decisions within business processes on a daily basis whilst having to take into account multiple stakeholders who might require multiple point of views of the same process. Moreover, the complexity of the information systems running these business processes is generally high as they are linked to databases storing all the relevant data and aspects of the processes. Given the presence of multiple objects within an information system which support the processes in their enactment, decisions are naturally influenced by both these perspectives, logged in object-centric process logs. However, the discovery of such decisions from object-centric process logs is not straightforward as it requires to correctly link the involved objects whilst considering the sequential constraints that business processes impose as well as correctly discovering what a decision actually does. This paper proposes the first object-centric decision-mining algorithm called Integrated Object-centric Decision Discovery Algorithm (IODDA). IODDA is able to discover how a decision is structured as well as how a decision is made. Moreover, IODDA is able to discover which activities and object types are involved in the decision-making process. Next, IODDA is demonstrated with the first artificial knowledge-intensive process logs whose log generators are provided to the research community.
翻訳日:2024-01-29 15:02:10 公開日:2024-01-26
# 領域一般化を理解する: 雑音ロバスト性の観点から

Understanding Domain Generalization: A Noise Robustness Perspective ( http://arxiv.org/abs/2401.14846v1 )

ライセンス: Link先を確認
Rui Qiao, Bryan Kian Hsiang Low(参考訳) ドメイン一般化(DG)のための機械学習アルゴリズムの急速な開発にもかかわらず、既存のDGアルゴリズムが標準ベンチマークにおける古典的経験的リスク最小化(ERM)よりも優れているという明確な実証的証拠はない。 この現象をよりよく理解するために,ラベルノイズのレンズによるEMM上のDGアルゴリズムの利点について検討する。 特に, 有限サンプル解析により, ラベル雑音がermのスプリアス相関の効果を悪化させ, 一般化を損なうことが明らかとなった。 逆に,sprious correlationが存在する場合においても,有限サンプルトレーニング中にdgアルゴリズムが暗黙のラベルノイズロバスト性を示すことを示す。 このような望ましい性質は、スプリアス相関を緩和し、合成実験の一般化を改善するのに役立つ。 しかしながら、実世界のベンチマークデータセットに関するさらなる包括的な実験は、ラベルノイズの堅牢性が必ずしもermよりも優れたパフォーマンスをもたらすとは限らないことを示している。 我々は,スプリアス相関から生じるERMの故障モードが,実際にはあまり顕著でないと推測する。

Despite the rapid development of machine learning algorithms for domain generalization (DG), there is no clear empirical evidence that the existing DG algorithms outperform the classic empirical risk minimization (ERM) across standard benchmarks. To better understand this phenomenon, we investigate whether there are benefits of DG algorithms over ERM through the lens of label noise. Specifically, our finite-sample analysis reveals that label noise exacerbates the effect of spurious correlations for ERM, undermining generalization. Conversely, we illustrate that DG algorithms exhibit implicit label-noise robustness during finite-sample training even when spurious correlation is present. Such desirable property helps mitigate spurious correlations and improve generalization in synthetic experiments. However, additional comprehensive experiments on real-world benchmark datasets indicate that label-noise robustness does not necessarily translate to better performance compared to ERM. We conjecture that the failure mode of ERM arising from spurious correlations may be less pronounced in practice.
翻訳日:2024-01-29 15:01:50 公開日:2024-01-26
# 適応点変換器

Adaptive Point Transformer ( http://arxiv.org/abs/2401.14845v1 )

ライセンス: Link先を確認
Alessandro Baiocchi, Indro Spinelli, Alessandro Nicolosi, Simone Scardapane(参考訳) 最近の3Dデータ取得の急増は、自然言語処理におけるトランスフォーマーの顕著な成功により、ポイントクラウド処理のための幾何学的ディープラーニングモデルの開発を加速させた。 ポイントクラウドトランスフォーマー(pts)は近年、素晴らしい成果を上げているが、ポイントクラウドサイズに対する2次スケーリングは、現実のアプリケーションにとって大きなスケーラビリティの課題となっている。 本稿では,適応トークン選択機構によって拡張された標準PTモデルであるAdaptive Point Cloud Transformer (AdaPT)を提案する。 AdaPTは推論中のトークン数を動的に削減し、大きな点雲の効率的な処理を可能にする。 さらに,モデルの再学習や微調整を必要とせずに,推論時にモデルの計算コストを柔軟に調整するための予算機構を導入する。 ポイントクラウド分類タスクを広範囲に評価した結果,標準ptsに比べて計算複雑性が大幅に低減され,計算精度が向上した。 AdaPTのコードは公開されている。

The recent surge in 3D data acquisition has spurred the development of geometric deep learning models for point cloud processing, boosted by the remarkable success of transformers in natural language processing. While point cloud transformers (PTs) have achieved impressive results recently, their quadratic scaling with respect to the point cloud size poses a significant scalability challenge for real-world applications. To address this issue, we propose the Adaptive Point Cloud Transformer (AdaPT), a standard PT model augmented by an adaptive token selection mechanism. AdaPT dynamically reduces the number of tokens during inference, enabling efficient processing of large point clouds. Furthermore, we introduce a budget mechanism to flexibly adjust the computational cost of the model at inference time without the need for retraining or fine-tuning separate models. Our extensive experimental evaluation on point cloud classification tasks demonstrates that AdaPT significantly reduces computational complexity while maintaining competitive accuracy compared to standard PTs. The code for AdaPT is made publicly available.
翻訳日:2024-01-29 15:01:33 公開日:2024-01-26
# GuardML: ハイブリッド同型暗号化による効率的なプライバシ保護機械学習サービス

GuardML: Efficient Privacy-Preserving Machine Learning Services Through Hybrid Homomorphic Encryption ( http://arxiv.org/abs/2401.14840v1 )

ライセンス: Link先を確認
Eugene Frimpong, Khoa Nguyen, Mindaugas Budzys, Tanveer Khan, Antonis Michalas(参考訳) 機械学習(ML)は、データサイエンスで最も革新的で影響力のある分野の1つである。 しかし、MLが広く採用されているため、MLモデルをターゲットにした悪意のある攻撃が増えているため、プライバシに関する懸念が生じている。 これらの懸念に対処するため、プライバシ保存機械学習(PPML)メソッドが導入され、MLモデルのプライバシとセキュリティを保護する。 そのようなアプローチの1つは、準同型暗号(he)の使用である。 しかしながら、従来のheの重大な欠点と非効率は、高度にスケーラブルなシナリオでは実用的ではない。 幸いなことに、現代的な暗号スキームであるhybrid homomorphic encryption (hhe)が最近登場し、対称暗号の強みとこれらの課題を克服した。 我々の研究は、エンドデバイスに適したPPMLスキームを設計し、HHEをMLに導入することを目指している。 我々はHHEを基本的なビルディングブロックとして活用し、入力データとMLモデルのプライバシを保ちながら、暗号化されたデータに対する分類結果のセキュアな学習を可能にする。 心電図データに基づく心疾患の分類のためのHHEベースのPPMLアプリケーションを開発・評価することで, 建設の現実的な適用性を実証する。 特に,本評価では,平文データの推測に比べて精度がわずかに低下した。 さらに、アナリストとエンドデバイスの両方が最小限の通信と計算コストを経験し、我々のアプローチの実用性を強調している。 HHEをPPMLに統合することで、比較的制約のあるエンドデバイス上でのマシンラーニングにおいて、よりセキュアでプライバシを重視した未来を垣間見ることができます。

Machine Learning (ML) has emerged as one of data science's most transformative and influential domains. However, the widespread adoption of ML introduces privacy-related concerns owing to the increasing number of malicious attacks targeting ML models. To address these concerns, Privacy-Preserving Machine Learning (PPML) methods have been introduced to safeguard the privacy and security of ML models. One such approach is the use of Homomorphic Encryption (HE). However, the significant drawbacks and inefficiencies of traditional HE render it impractical for highly scalable scenarios. Fortunately, a modern cryptographic scheme, Hybrid Homomorphic Encryption (HHE), has recently emerged, combining the strengths of symmetric cryptography and HE to surmount these challenges. Our work seeks to introduce HHE to ML by designing a PPML scheme tailored for end devices. We leverage HHE as the fundamental building block to enable secure learning of classification outcomes over encrypted data, all while preserving the privacy of the input data and ML model. We demonstrate the real-world applicability of our construction by developing and evaluating an HHE-based PPML application for classifying heart disease based on sensitive ECG data. Notably, our evaluations revealed a slight reduction in accuracy compared to inference on plaintext data. Additionally, both the analyst and end devices experience minimal communication and computation costs, underscoring the practical viability of our approach. The successful integration of HHE into PPML provides a glimpse into a more secure and privacy-conscious future for machine learning on relatively constrained end devices.
翻訳日:2024-01-29 15:01:14 公開日:2024-01-26
# 車両キャビン監視における二重特徴シフトに基づく多モード行動認識

Multi-modality action recognition based on dual feature shift in vehicle cabin monitoring ( http://arxiv.org/abs/2401.14838v1 )

ライセンス: Link先を確認
Dan Lin, Philip Hann Yung Lee, Yiming Li, Ruoyu Wang, Kim-Hui Yap, Bingbing Li, and You Shing Ngim(参考訳) 運転行動認識(DAR)は車室内監視システムにおいて重要である。 実世界のアプリケーションでは、キャビンには異なるモードのカメラが装備されることが一般的である。 しかし,カーキャビン内におけるDARタスクに対するマルチモーダリティ融合戦略はめったに研究されていない。 本稿では,DFSという2つの特徴シフトに基づく,効率的かつ効率的な多モードドライバ動作認識手法を提案する。 DFSはまず、モダリティ間の相補的な特徴を統合する。 一方、DFSは、時間的フレーム間の特徴シフトにより、1つのモードで隣り合う特徴伝搬を実現する。 共通パターンを学習し、モデル効率を改善するために、DFSは複数のモードで特徴抽出段階を共有する。 Drive\&Act データセット上で提案した DFS モデルの有効性を検証するために大規模な実験を行った。 その結果,dfsの性能が向上し,マルチモダリティ運転行動認識の効率が向上した。

Driver Action Recognition (DAR) is crucial in vehicle cabin monitoring systems. In real-world applications, it is common for vehicle cabins to be equipped with cameras featuring different modalities. However, multi-modality fusion strategies for the DAR task within car cabins have rarely been studied. In this paper, we propose a novel yet efficient multi-modality driver action recognition method based on dual feature shift, named DFS. DFS first integrates complementary features across modalities by performing modality feature interaction. Meanwhile, DFS achieves the neighbour feature propagation within single modalities, by feature shifting among temporal frames. To learn common patterns and improve model efficiency, DFS shares feature extracting stages among multiple modalities. Extensive experiments have been carried out to verify the effectiveness of the proposed DFS model on the Drive\&Act dataset. The results demonstrate that DFS achieves good performance and improves the efficiency of multi-modality driver action recognition.
翻訳日:2024-01-29 15:00:49 公開日:2024-01-26
# ssdont:シングルサブジェクトデザイン研究を表すオントロジー

SSDOnt: an Ontology for representing Single-Subject Design Studies ( http://arxiv.org/abs/2401.14933v1 )

ライセンス: Link先を確認
Idoia Berges, Jes\'us Berm\'udez, Arantza Illarramendi(参考訳) 背景: 単品デザインは教育やバイオメディシンなどいくつかの分野で使われている。 しかし、詳細な構成を注釈するための適切な形式的語彙や、それらの情報を探すための適切な粒度を持つこの種の研究の結果は存在していない。 したがって、これらの研究デザインの検索は、研究に関する出版物の抽象的、キーワード、あるいは全文の構文的検索に大きく依存しており、いくつかの制限がある。 目的: SSDOntは、単一オブジェクトの設計研究を記述し、注釈付けするための特定の目的のオントロジーである。 メソッド: オントロジーはNeOnメソッドに従って開発された。 オントロジーの要件が定義されると、形式モデルは記述論理で記述され、後にオントロジー言語OWL 2 DLで実装された。 結果: オントロジーは, 単品設計研究のアノテーションや検索, フェーズ, 介入型, 結果, 結果など, 主な構成要素について, 適切な用語で参照モデルを提供するかを示す。 関連するオントロジーの用語によるマッピングがいくつか確立されている。 オントロジーのクラスは、自閉症に関連するような特定の介入や結果に関するより正確な情報に注釈を付けるために容易に拡張できるという概念実証を示す。 さらに、オントロジーに当てはまるいくつかのタイプのクエリの例を示す。 結論:SSDOntは、単一対象研究の領域の記述を網羅する目的を達成している。

Background: Single-Subject Design is used in several areas such as education and biomedicine. However, no suited formal vocabulary exists for annotating the detailed configuration and the results of this type of research studies with the appropriate granularity for looking for information about them. Therefore, the search for those study designs relies heavily on a syntactical search on the abstract, keywords or full text of the publications about the study, which entails some limitations. Objective: To present SSDOnt, a specific purpose ontology for describing and annotating single-subject design studies, so that complex questions can be asked about them afterwards. Methods: The ontology was developed following the NeOn methodology. Once the requirements of the ontology were defined, a formal model was described in a Description Logic and later implemented in the ontology language OWL 2 DL. Results: We show how the ontology provides a reference model with a suitable terminology for the annotation and searching of single-subject design studies and their main components, such as the phases, the intervention types, the outcomes and the results. Some mappings with terms of related ontologies have been established. We show as proof-of-concept that classes in the ontology can be easily extended to annotate more precise information about specific interventions and outcomes such as those related to autism. Moreover, we provide examples of some types of queries that can be posed to the ontology. Conclusions: SSDOnt has achieved the purpose of covering the descriptions of the domain of single-subject research studies.
翻訳日:2024-01-29 14:53:51 公開日:2024-01-26
# 球の中心を見つけるための超指数量子的優位性

Super-exponential quantum advantage for finding the center of a sphere ( http://arxiv.org/abs/2401.14932v1 )

ライセンス: Link先を確認
Guanzhong Li and Lvzhou Li(参考訳) 本稿では、球面上のランダム点のサンプルから、有限体上のベクトル空間における球面の中心を見つけるという幾何学的問題を考察する。 本研究では,連続時間量子ウォークに基づく量子アルゴリズムを提案する。 また、同じタスクに対する古典的アルゴリズムでは、ベクトル空間の次元とほぼ同じ数のサンプルが必要であり、古い代数的結果 -- 警告の第二の定理に還元できることも証明する。 したがって、自然で直観的な幾何学的問題に対して、超指数的量子優位性が初めて明らかにされる。

This article considers the geometric problem of finding the center of a sphere in vector space over finite fields, given samples of random points on the sphere. We propose a quantum algorithm based on continuous-time quantum walks that needs only a constant number of samples to find the center. We also prove that any classical algorithm for the same task requires approximately as many samples as the dimension of the vector space, by a reduction to an old and basic algebraic result -- Warning's second theorem. Thus, a super-exponential quantum advantage is revealed for the first time for a natural and intuitive geometric problem.
翻訳日:2024-01-29 14:53:27 公開日:2024-01-26
# LLMはオントロジーの夢か?

Do LLMs Dream of Ontologies? ( http://arxiv.org/abs/2401.14931v1 )

ライセンス: Link先を確認
Marco Bombieri, Paolo Fiorini, Simone Paolo Ponzetto, Marco Rospocher(参考訳) 大規模言語モデル(LLM)は最近、自動テキスト理解と生成に革命をもたらした。 これらのモデルの性能は、基礎となる神経アーキテクチャの多くのパラメータに依存しており、LLMはトレーニング中に見られる膨大な量のデータを記憶することができる。 本稿では,汎用事前学習LLMが既知のオントロジーからどの程度情報を記憶しているかについて検討する。 以上の結果から, LLMはオントロジーを部分的に理解しており, テキストに記述されているオントロジーから概念を記憶することができるが, それらの概念の記憶レベルは, トレーニング資料の主要な情報源であるWeb上での人気に比例すると考えられる。 また,LLMにおけるオントロジ情報の記憶度を,異なる逐次繰り返し,問合せ言語,決定論の度合いにまたがる出力の一貫性を測定することで推定する新しい指標を提案する。

Large language models (LLMs) have recently revolutionized automated text understanding and generation. The performance of these models relies on the high number of parameters of the underlying neural architectures, which allows LLMs to memorize part of the vast quantity of data seen during the training. This paper investigates whether and to what extent general-purpose pre-trained LLMs have memorized information from known ontologies. Our results show that LLMs partially know ontologies: they can, and do indeed, memorize concepts from ontologies mentioned in the text, but the level of memorization of their concepts seems to vary proportionally to their popularity on the Web, the primary source of their training material. We additionally propose new metrics to estimate the degree of memorization of ontological information in LLMs by measuring the consistency of the output produced across different prompt repetitions, query languages, and degrees of determinism.
翻訳日:2024-01-29 14:53:17 公開日:2024-01-26
# 摩擦課題における有界有理人エージェントの強化学習介入

Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks ( http://arxiv.org/abs/2401.14923v1 )

ライセンス: Link先を確認
Eura Nofshin, Siddharth Swaroop, Weiwei Pan, Susan Murphy, Finale Doshi-Velez(参考訳) 多くの重要な行動変化は摩擦に富み、個人はすぐに満足することなく長期間の努力を尽くさなければならない。 ここでは、人工知能(AI)エージェントが個人が目標を達成するのを助けるためにパーソナライズされた介入を提供する。 これらの設定では、AIエージェントは、行動介入を理解するのを助けるために、(個人が離脱する前に)迅速にパーソナライズし、解釈しなければなりません。 本稿では,AIエージェントが有理な人間エージェントに属するマルコフ決定プロセス(MDP)のパラメータに介入する,行動モデル強化学習(BMRL)を紹介する。 計画エージェントとしての人的意思決定者の定式化は、望ましくない人的政策(目標に導かないもの)を、非常に低い割引係数などの不適応なMDPパラメータに当てはめることができる。 さらに, 摩擦に富む作業の基本的な動作を捉える, 牽引可能な人間モデルを提案する。 BMRLに特有のMDP同値の概念を導入し、理論的かつ実証的に、私たちの人間モデルによるAI計画が、より複雑で地味な幅広い人間に対して有用な政策をもたらすことを示します。

Many important behavior changes are frictionful; they require individuals to expend effort over a long period with little immediate gratification. Here, an artificial intelligence (AI) agent can provide personalized interventions to help individuals stick to their goals. In these settings, the AI agent must personalize rapidly (before the individual disengages) and interpretably, to help us understand the behavioral interventions. In this paper, we introduce Behavior Model Reinforcement Learning (BMRL), a framework in which an AI agent intervenes on the parameters of a Markov Decision Process (MDP) belonging to a boundedly rational human agent. Our formulation of the human decision-maker as a planning agent allows us to attribute undesirable human policies (ones that do not lead to the goal) to their maladapted MDP parameters, such as an extremely low discount factor. Furthermore, we propose a class of tractable human models that captures fundamental behaviors in frictionful tasks. Introducing a notion of MDP equivalence specific to BMRL, we theoretically and empirically show that AI planning with our human models can lead to helpful policies on a wide range of more complex, ground-truth humans.
翻訳日:2024-01-29 14:53:01 公開日:2024-01-26
# PARSAC:並列サンプル合意によるロバストなマルチモデルフィッティングの高速化

PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample Consensus ( http://arxiv.org/abs/2401.14919v1 )

ライセンス: Link先を確認
Florian Kluger, Bodo Rosenhahn(参考訳) 雑音データから幾何モデルの複数事例を頑健に推定するリアルタイム手法を提案する。 消失点、平面ホモグラフ、基本行列などの幾何学モデルが3次元シーン解析に不可欠である。 従来のアプローチでは、異なるモデルインスタンスを反復的に発見し、並列計算によるスピードアップの可能性を制限する。 対照的に,本手法はすべてのモデルインスタンスを独立かつ並列に検出する。 ニューラルネットワークは、複数のサンプルセットと不整合重みを予測することにより、入力データを潜在的モデルインスタンスを表すクラスタに分割する。 予測重みを用いて、RANSACのような方法で各潜在インスタンスのモデルパラメータを別々に決定する。 タスク固有の損失関数を通じてニューラルネットワークをトレーニングする。すなわち、入力データの地対地セグメンテーションは不要である。 ホモグラフィーと基本行列フィッティングに適したトレーニングデータが少ないため、2つの新しい合成データセットも提示する。 我々は、画像当たり5ミリ秒の推論時間を持つ複数の確立されたデータセットと同様に、これらに対して最先端のパフォーマンスを示す。

We present a real-time method for robust estimation of multiple instances of geometric models from noisy data. Geometric models such as vanishing points, planar homographies or fundamental matrices are essential for 3D scene analysis. Previous approaches discover distinct model instances in an iterative manner, thus limiting their potential for speedup via parallel computation. In contrast, our method detects all model instances independently and in parallel. A neural network segments the input data into clusters representing potential model instances by predicting multiple sets of sample and inlier weights. Using the predicted weights, we determine the model parameters for each potential instance separately in a RANSAC-like fashion. We train the neural network via task-specific loss functions, i.e. we do not require a ground-truth segmentation of the input data. As suitable training data for homography and fundamental matrix fitting is scarce, we additionally present two new synthetic datasets. We demonstrate state-of-the-art performance on these as well as multiple established datasets, with inference times as small as five milliseconds per image.
翻訳日:2024-01-29 14:52:39 公開日:2024-01-26
# プロジェクトベース学習におけるAIの未来をグラフ化する:学生との共設計探索

Charting the Future of AI in Project-Based Learning: A Co-Design Exploration with Students ( http://arxiv.org/abs/2401.14915v1 )

ライセンス: Link先を確認
Chengbo Zheng, Kangyu Yuan, Bingcan Guo, Reza Hadi Mogavi, Zhenhui Peng, Shuai Ma, Xiaojuan Ma(参考訳) 学習における人工知能(AI)の利用の増加は、プロジェクトベース学習(PBL)における学習成果を評価する上で、新たな課題を提示している。 本稿では,PBL評価のための新素材として,学生のAI活用データの可能性を検討するための共同設計研究を紹介する。 我々は18人の大学生とワークショップを行い、PBLでAIを自由に活用できる代替世界について推測し、その過程を報告し、彼らのスキルと貢献を評価した。 本研究は,pblにおける学生のai活用に関する様々なシナリオと,学生の教育目標転換のビジョンを基礎とした利用分析を行った。 また、AIに対する異なる態度を持つ学生は、AIの使用の分析と理解の仕方において、異なる好みを示した。 これらの知見に基づいて,学生とAIのインタラクションとAIによる学習の理解に関する今後の研究機会について論じる。

The increasing use of Artificial Intelligence (AI) by students in learning presents new challenges for assessing their learning outcomes in project-based learning (PBL). This paper introduces a co-design study to explore the potential of students' AI usage data as a novel material for PBL assessment. We conducted workshops with 18 college students, encouraging them to speculate an alternative world where they could freely employ AI in PBL while needing to report this process to assess their skills and contributions. Our workshops yielded various scenarios of students' use of AI in PBL and ways of analyzing these uses grounded by students' vision of education goal transformation. We also found students with different attitudes toward AI exhibited distinct preferences in how to analyze and understand the use of AI. Based on these findings, we discuss future research opportunities on student-AI interactions and understanding AI-enhanced learning.
翻訳日:2024-01-29 14:52:23 公開日:2024-01-26
# ChatGPTを用いた量子プログラムの修復について

On Repairing Quantum Programs Using ChatGPT ( http://arxiv.org/abs/2401.14913v1 )

ライセンス: Link先を確認
Xiaoyu Guo, Jianjun Zhao, Pengzhan Zhao(参考訳) APR(Automated Program repair)は、脆弱なプログラムの自動パッチ生成を目的とした、ソフトウェア工学における重要な分野である。 古典的プログラムの修復には多くの技術が提案されているが、量子プログラミングの領域には同等の自動修復技術がない。 本稿では,ChatGPTを用いて量子プログラムの修復を行い,量子プログラムバグのベンチマークスイートであるBugs4Qの性能評価を行う。 本研究は,ChatGPTを用いた量子プログラム修復の可能性を示した。 具体的には、Bugs4Qベンチマーク内のバグに対処するChatGPTの機能を評価し、38のバグのうち29の修正に成功したことを示す。 この研究は、量子プログラムの修復プロセスを自動化するための有望なステップである。

Automated Program Repair (APR) is a vital area in software engineering aimed at generating automatic patches for vulnerable programs. While numerous techniques have been proposed for repairing classical programs, the realm of quantum programming lacks a comparable automated repair technique. In this initial exploration, we investigate the use of ChatGPT for quantum program repair and evaluate its performance on Bugs4Q, a benchmark suite of quantum program bugs. Our findings demonstrate the feasibility of employing ChatGPT for quantum program repair. Specifically, we assess ChatGPT's ability to address bugs within the Bugs4Q benchmark, revealing its success in repairing 29 out of 38 bugs. This research represents a promising step towards automating the repair process for quantum programs.
翻訳日:2024-01-29 14:52:08 公開日:2024-01-26
# 単接合量子回路冷凍機と2トンマイクロ波駆動によるトランスモン量子ビットの多重励起除去

Many-excitation removal of a transmon qubit using a single-junction quantum-circuit refrigerator and a two-tone microwave drive ( http://arxiv.org/abs/2401.14912v1 )

ライセンス: Link先を確認
Wallace Teixeira and Timm M\"orstedt and Arto Viitanen and Heidi Kivij\"arvi and Andr\'as Gunyh\'o and Maaria Tiiri and Suman Kundu and Aashish Sah and Vasilii Vadimov and Mikko M\"ott\"onen(参考訳) 量子ビットの高速かつ正確な初期化を達成することは、量子コンピュータの動作を成功させる上で重要な要件である。 工学環境と全マイクロウェーブ技術の組み合わせは、超伝導量子デバイスのリセットに有望なアプローチとして最近現れている。 本研究では, 単一接合型量子回路冷凍機 (QCR) を用いて, トランスモン量子ビットからの複数の励起を高速に除去する実験を行った。 qcrは分散状態の共振器を介して間接的にトランスモンと結合され、トランスモンの注意深く設計された環境スペクトルを構成する。 単発読み出しを用いて、約500ドルnsまでの励起安定化時間、QCRによる20ドル倍のスピードアップ、およびシステムの$e$-f$と$f0$-g1$トランジションに対応する2トーンドライブの同時実行を観察する。 その結果, 比較的高温のトランスモン浴場が存在する場合, 短時間の動力学およびドライブによる非定常的漸近的挙動に対するプロトコルの利点を完全に把握した。 提案手法は, コールドトランスモンバスや微調整駆動周波数など, 最適化シナリオにおけるプロトコルの性能を推定し, 3つの励起部分空間に切り替わる詳細なLiouvillianモデルを用いて検証する。 これらの結果は、設計された環境を用いた量子電気デバイスの最適化されたリセットと、散逸工学的な状態形成への道を開く。

Achieving fast and precise initialization of qubits is a critical requirement for the successful operation of quantum computers. The combination of engineered environments with all-microwave techniques has recently emerged as a promising approach for the reset of superconducting quantum devices. In this work, we experimentally demonstrate the utilization of a single-junction quantum-circuit refrigerator (QCR) for an expeditious removal of several excitations from a transmon qubit. The QCR is indirectly coupled to the transmon through a resonator in the dispersive regime, constituting a carefully engineered environmental spectrum for the transmon. Using single-shot readout, we observe excitation stabilization times down to roughly $500$ ns, a $20$-fold speedup with QCR and a simultaneous two-tone drive addressing the $e$-$f$ and $f0$-$g1$ transitions of the system. Our results are obtained at a $48$-mK fridge temperature and without postselection, fully capturing the advantage of the protocol for the short-time dynamics and the drive-induced detrimental asymptotic behavior in the presence of relatively hot other baths of the transmon. We validate our results with a detailed Liouvillian model truncated up to the three-excitation subspace, from which we estimate the performance of the protocol in optimized scenarios, such as cold transmon baths and fine-tuned driving frequencies. These results pave the way for optimized reset of quantum-electric devices using engineered environments and for dissipation-engineered state preparation.
翻訳日:2024-01-29 14:51:57 公開日:2024-01-26
# アルゴリズムシステムの保証監査のためのフレームワーク

A Framework for Assurance Audits of Algorithmic Systems ( http://arxiv.org/abs/2401.14908v1 )

ライセンス: Link先を確認
Khoa Lam, Benjamin Lange, Borhane Blili-Hamelin, Jovana Davidovic, Shea Brown, Ali Hasan(参考訳) ますます多くの規制が、AIシステムの透明性と説明責任を達成するための実施メカニズムとして、AI監査の概念を提案している。 ai監査のさまざまな形式に関するいくつかの規範があるが、コンプライアンスと保証の目的での監査は、現在、プラクティス、手順、分類法、標準についてほとんど合意されていない。 本稿では,運用可能なコンプライアンスおよび保証外部監査フレームワークとして,基準監査を提案する。 我々は、金融監査のプラクティス後のこのアプローチの要素をモデル化し、AI監査も同様に、AI組織が人的価値を害し維持する手段でアルゴリズムを管理する能力について、ステークホルダーに保証を提供するべきだ、と論じている。 我々は,基準監査に必要な条件について議論し,実際に監査を行うための手続き的青写真を提供する。 本稿では,2021年のニューヨーク市地方法144条に基づき,採用アルゴリズムのバイアス監査の実施基準を導出することにより,この枠組みを現在の規制に適合させる方法について述べる。 私たちは最後に、より成熟した金融監査業界のプラクティスをai監査に適用するメリット、固有の制限、実装上の課題について批判的な議論を行い、品質保証問題に対する堅牢なガードレールが現われ始めたばかりです。 実際に監査を行った経験から得られた議論は,監査エコシステムがこのような方法論の有効性を確保する上で重要な役割を担っていることを強調している。

An increasing number of regulations propose the notion of AI audits as an enforcement mechanism for achieving transparency and accountability for AI systems. Despite some converging norms around various forms of AI auditing, auditing for the purpose of compliance and assurance currently have little to no agreed upon practices, procedures, taxonomies, and standards. We propose the criterion audit as an operationalizable compliance and assurance external audit framework. We model elements of this approach after financial auditing practices, and argue that AI audits should similarly provide assurance to their stakeholders about AI organizations' ability to govern their algorithms in ways that mitigate harms and uphold human values. We discuss the necessary conditions for the criterion audit, and provide a procedural blueprint for performing an audit engagement in practice. We illustrate how this framework can be adapted to current regulations by deriving the criteria on which bias audits for hiring algorithms can be performed, as required by the recently effective New York City Local Law 144 of 2021. We conclude by offering critical discussion on the benefits, inherent limitations, and implementation challenges of applying practices of the more mature financial auditing industry to AI auditing where robust guardrails against quality assurance issues are only starting to emerge. Our discussion as informed by experiences in performing these audits in practice highlights the critical role that an audit ecosystem plays in ensuring the effectiveness of such methodology.
翻訳日:2024-01-29 14:51:28 公開日:2024-01-26
# ハイブリッドシステムの安全制御のための局所制御障壁関数の学習

Learning Local Control Barrier Functions for Safety Control of Hybrid Systems ( http://arxiv.org/abs/2401.14907v1 )

ライセンス: Link先を確認
Shuo Yang, Yu Chen, Xiang Yin, Rahul Mangharam(参考訳) ハイブリッド力学系は、しばしば連続状態と離散スイッチングの両方を含む実用的なロボット応用としてユビキタスである。 安全はハイブリッドロボットシステムの主要な関心事である。 既存のハイブリッドシステムに対する安全クリティカルな制御アプローチは、計算的に非効率であり、システム性能に有害である。 本稿では,これらの欠点を解消するために,多種多様な非線形ハイブリッド力学系の安全性を保証するために,局所制御障壁関数(cbfs)を構築するための学習可能な手法を提案する。 最終的な結果は、安全な神経CBFベースのスイッチングコントローラである。 我々のアプローチは計算効率が良く、どんな参照コントローラにも最小限に侵入でき、大規模システムにも適用できる。 我々は,この枠組みを実証的に評価し,高次元の自律レーシングケースを含む2つのロボット例を通して,他のcbfベースのアプローチやモデル予測制御に対する有効性と柔軟性を示す。

Hybrid dynamical systems are ubiquitous as practical robotic applications often involve both continuous states and discrete switchings. Safety is a primary concern for hybrid robotic systems. Existing safety-critical control approaches for hybrid systems are either computationally inefficient, detrimental to system performance, or limited to small-scale systems. To amend these drawbacks, in this paper, we propose a learningenabled approach to construct local Control Barrier Functions (CBFs) to guarantee the safety of a wide class of nonlinear hybrid dynamical systems. The end result is a safe neural CBFbased switching controller. Our approach is computationally efficient, minimally invasive to any reference controller, and applicable to large-scale systems. We empirically evaluate our framework and demonstrate its efficacy and flexibility through two robotic examples including a high-dimensional autonomous racing case, against other CBF-based approaches and model predictive control.
翻訳日:2024-01-29 14:51:04 公開日:2024-01-26
# ベイズ量子推定のベンチマーク

Benchmarking Bayesian quantum estimation ( http://arxiv.org/abs/2401.14900v1 )

ライセンス: Link先を確認
Valeria Cimini, Emanuele Polino, Mauro Valeri, Nicol\`o Spagnolo, Fabio Sciarrino(参考訳) パラメータ推定における精度の追求は、異なる科学領域における基本的な課題である。 この問題との関連性は、量子資源を推定プロトコルに適用するための手法を開発する動機となった。 この文脈の中で、ベイズ推定は適応プロトコルのような最適量子メトロジー技術のための完全なフレームワークを提供する。 しかし、ベイジアンアプローチの使用は、特に量子センサーの典型的な運用シナリオを表すマルチパラメータ推定において、広範な計算資源を必要とする。 したがって、ベイズ推定を実装するプロトコルを特徴付ける必要性は大きな課題となる。 この研究は、単一および複数パラメータのシナリオにおいて、これらのプロトコルのパフォーマンスを堅牢にベンチマークする重要なタスクに焦点を当てている。 また, パラメータ空間の数値的離散化, 限られたデータの存在, 数値不安定性による突発的効果を緩和するために, 推定値の2次誤差の中央値を用いた証拠が得られた。 これらの結果は、ベイズプロトコルの堅牢で信頼性の高い特性を提供し、量子推定フレームワーク内の実用的な問題に対する自然な応用を見出す。

The quest for precision in parameter estimation is a fundamental task in different scientific areas. The relevance of this problem thus provided the motivation to develop methods for the application of quantum resources to estimation protocols. Within this context, Bayesian estimation offers a complete framework for optimal quantum metrology techniques, such as adaptive protocols. However, the use of the Bayesian approach requires extensive computational resources, especially in the multiparameter estimations that represent the typical operational scenario for quantum sensors. Hence, the requirement to characterize protocols implementing Bayesian estimations can become a significant challenge. This work focuses on the crucial task of robustly benchmarking the performances of these protocols in both single and multiple-parameter scenarios. By comparing different figures of merits, evidence is provided in favor of using the median of the quadratic error in the estimations in order to mitigate spurious effects due to the numerical discretization of the parameter space, the presence of limited data, and numerical instabilities. These results, providing a robust and reliable characterization of Bayesian protocols, find natural applications to practical problems within the quantum estimation framework.
翻訳日:2024-01-29 14:50:47 公開日:2024-01-26
# mptq-vit:mixed-precisionpost-trainingquantization forvisiontransformer

MPTQ-ViT:Mixed-PrecisionPost-TrainingQuantizationforVisionTransformer ( http://arxiv.org/abs/2401.14895v1 )

ライセンス: Link先を確認
Yu-Shan Tai, An-Yeu (Andy) Wu(参考訳) 視覚変換器(ViT)はコンピュータビジョンタスクにおいて大きな可能性を示しているが、その強力な計算とメモリ要求は実用的な応用に挑戦する。 既存のトレーニング後の量子化法は、ViTの非正規分布に対処するために、値の再分配または特殊量化器を利用する。 しかし、アクティベーションの非対称性や手作りの設定を考慮せずに、これらの手法は低ビット量子化下での性能を維持するのに苦労することが多い。 これらの課題を克服するため,非対称性問題を軽減するため,バイアス項(SQ-b)を持つSmoothQuantを導入する。 また,データ依存機構による量子化パラメータの自動決定のための最適スケーリング係数比探索(OPT-m)を導入する。 圧縮性をさらに高めるため,上述の手法を取り入れ,視覚トランスフォーマー(mptq-vit)のための混合精度後量子化フレームワークを提案する。 モデル性能と圧縮性の両方を考慮して層状ビット幅を割り当てるgreedy mixed-precision quantization (greedy mp) を開発した。 我々のViT、DeiT、Swinに関する実験は、ImageNetデータセットのSOTAと比較して大幅に精度が向上した。 具体的には, 4ビットのvitsでは0.90%から23.35%, 5ビットの完全量子化vitsでは3.82%から78.14%まで精度が向上した。

While vision transformers (ViTs) have shown great potential in computer vision tasks, their intense computation and memory requirements pose challenges for practical applications. Existing post-training quantization methods leverage value redistribution or specialized quantizers to address the non-normal distribution in ViTs. However, without considering the asymmetry in activations and relying on hand-crafted settings, these methods often struggle to maintain performance under low-bit quantization. To overcome these challenges, we introduce SmoothQuant with bias term (SQ-b) to alleviate the asymmetry issue and reduce the clamping loss. We also introduce optimal scaling factor ratio search (OPT-m) to determine quantization parameters by a data-dependent mechanism automatically. To further enhance the compressibility, we incorporate the above-mentioned techniques and propose a mixed-precision post-training quantization framework for vision transformers (MPTQ-ViT). We develop greedy mixed-precision quantization (Greedy MP) to allocate layer-wise bit-width considering both model performance and compressibility. Our experiments on ViT, DeiT, and Swin demonstrate significant accuracy improvements compared with SOTA on the ImageNet dataset. Specifically, our proposed methods achieve accuracy improvements ranging from 0.90% to 23.35% on 4-bit ViTs with single-precision and from 3.82% to 78.14% on 5-bit fully quantized ViTs with mixed-precision.
翻訳日:2024-01-29 14:50:28 公開日:2024-01-26
# 交差部分群間のモデル性能評価のための構造化回帰手法

A structured regression approach for evaluating model performance across intersectional subgroups ( http://arxiv.org/abs/2401.14893v1 )

ライセンス: Link先を確認
Christine Herlihy, Kimberly Truong, Alexandra Chouldechova, Miroslav Dudik(参考訳) 分散評価は、AIフェアネスアセスメントにおける中心的なタスクであり、人口統計学やその他の機密属性の組み合わせによって定義された異なるサブグループ間でAIシステムのパフォーマンスを測定することを目的としている。 標準的なアプローチは、サブグループにまたがって評価データを階層化し、各グループごとにパフォーマンス指標を計算することである。 しかし、中程度の評価データセットであっても、交叉部分群を考えるとサンプルサイズは急速に小さくなり、多くの非凝集評価において交叉群が考慮される範囲は大幅に制限される。 そこで本研究では,非常に小さなサブグループであっても信頼性の高いシステム性能を推定できることを実証する,分散評価のための構造化回帰手法を提案する。 また、信頼区間を構築するための対応する推論戦略を提供し、整合性テストが、交叉群が経験した公平性関連害の構造についての洞察をいかに得るかを探る。 我々は2つの公開データセットといくつかの半合成データに対してアプローチを評価した。 その結果,本手法は,特に小小グループに対して,標準手法よりもかなり正確であり,適合度テストは,性能の差異を引き起こす重要な要因を特定するのに有用であることがわかった。

Disaggregated evaluation is a central task in AI fairness assessment, with the goal to measure an AI system's performance across different subgroups defined by combinations of demographic or other sensitive attributes. The standard approach is to stratify the evaluation data across subgroups and compute performance metrics separately for each group. However, even for moderately-sized evaluation datasets, sample sizes quickly get small once considering intersectional subgroups, which greatly limits the extent to which intersectional groups are considered in many disaggregated evaluations. In this work, we introduce a structured regression approach to disaggregated evaluation that we demonstrate can yield reliable system performance estimates even for very small subgroups. We also provide corresponding inference strategies for constructing confidence intervals and explore how goodness-of-fit testing can yield insight into the structure of fairness-related harms experienced by intersectional groups. We evaluate our approach on two publicly available datasets, and several variants of semi-synthetic data. The results show that our method is considerably more accurate than the standard approach, especially for small subgroups, and goodness-of-fit testing helps identify the key factors that drive differences in performance.
翻訳日:2024-01-29 14:50:00 公開日:2024-01-26
# ロシア語と英語の母音音のパラメータの比較

Comparison of parameters of vowel sounds of russian and english languages ( http://arxiv.org/abs/2401.14890v1 )

ライセンス: Link先を確認
V.I. Fedoseev, A.A. Konev, A. Yu. Yakimuk(参考訳) 多言語音声認識システムでは、事前に言語が分かっていない場合、しばしば発生するが、既に信号が受信され、処理されている。 このような場合、音声の相違に応答できる一般化されたモデルが必要であり、それに応じて、所望の言語で正しく再形化される。 このようなモデルを構築するには、音韻パラメータの値を設定し、類似した音を比較する必要がある。

In multilingual speech recognition systems, a situation can often arise when the language is not known in advance, but the signal has already been received and is being processed. For such cases, some generalized model is needed that will be able to respond to phonetic differences and, depending on them, correctly recog-nize speech in the desired language. To build such a model, it is necessary to set the values of phonetic parameters, and then compare similar sounds, establishing significant differences.
翻訳日:2024-01-29 14:49:42 公開日:2024-01-26
# 騒音のパワー:RAGシステムのための検索の再定義

The Power of Noise: Redefining Retrieval for RAG Systems ( http://arxiv.org/abs/2401.14887v1 )

ライセンス: Link先を確認
Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri(参考訳) 検索型世代 (rag) システムは従来の大規模言語モデル (llm) を大きく上回っている。 RAGシステムは、情報検索(IR)フェーズを通じて取得した外部データを組み込んで、事前訓練された知識と限られたコンテキストウインドウに制限された標準LLMの制限を克服することで、生成能力を向上する。 この分野のほとんどの研究は、RAGシステム内のLLMの生成的側面に主に集中している。 本研究は、IR成分がRAGシステムに与える影響を徹底的かつ批判的に分析することによって、このギャップを埋めるものである。 本稿では,検索すべき文書の種類に焦点をあてて,レトリバーが有効なragのプロンプト定式化のために持つべき特性を分析する。 我々は,プロンプトに対する文書の関連性,その位置,文脈に含まれる数など,様々な要素を評価した。 以上の結果から,無関係な文書を含むことにより,品質低下の最初の仮定と矛盾する精度が30%以上向上する可能性が示唆された。 これらの知見は,検索を言語生成モデルに統合し,将来の研究の道を開くという,特定の要求に合わせた専門的なアプローチを開発することを求めている。 これらの結果は,検索を言語生成モデルと統合する特殊な戦略を開発する必要性を浮き彫りにして,今後の研究の基盤となる。

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These findings call for developing specialized approaches tailored to the specific demands of integrating retrieval with language generation models and pave the way for future research. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.
翻訳日:2024-01-29 14:49:33 公開日:2024-01-26
# エンティティクラスタ修復のためのグラフベースのアクティブラーニング

Graph-based Active Learning for Entity Cluster Repair ( http://arxiv.org/abs/2401.14992v1 )

ライセンス: Link先を確認
Victor Christen, Daniel Obraczka, Marvin Hofer, Martin Franke, Erhard Rahm(参考訳) クラスタ修復手法は、クラスタ内のエラーを判定し、各クラスタが同じエンティティを表すレコードで構成されるように修正することを目的としている。 現在のクラスタ修復手法は、主に重複のないデータソースを前提としており、あるソースからのレコードは別のソースからのユニークなレコードに対応する。 しかし、現実世界のデータは品質の問題によってこの仮定から逸脱することが多い。 近年,クラスタリング手法とリンク分類法を併用して,重複したデータソースに適用する手法が提案されている。 それでも、構成やデータセットによって品質が大きく異なるため、明確な画像は示されていない。 本研究では,基礎となる類似度グラフから得られるグラフメトリクスを活用した,クラスタ修復のための新しい手法を提案する。 これらの指標は、正しいエッジと間違ったエッジを区別する分類モデルを構築する上で重要である。 限られたトレーニングデータの課題に対処するため,クラスタ固有の属性に合わせて,アクティブな学習機構を統合する。 本手法は, 重複のないデータソースと汚いデータソースを区別することなく, 既存のクラスタ修復方法より優れていることを示す。 特に、修正されたアクティブラーニング戦略では、重複を含むデータセットを扱う際の性能が向上し、そのようなシナリオでの有効性を示す。

Cluster repair methods aim to determine errors in clusters and modify them so that each cluster consists of records representing the same entity. Current cluster repair methodologies primarily assume duplicate-free data sources, where each record from one source corresponds to a unique record from another. However, real-world data often deviates from this assumption due to quality issues. Recent approaches apply clustering methods in combination with link categorization methods so they can be applied to data sources with duplicates. Nevertheless, the results do not show a clear picture since the quality highly varies depending on the configuration and dataset. In this study, we introduce a novel approach for cluster repair that utilizes graph metrics derived from the underlying similarity graphs. These metrics are pivotal in constructing a classification model to distinguish between correct and incorrect edges. To address the challenge of limited training data, we integrate an active learning mechanism tailored to cluster-specific attributes. The evaluation shows that the method outperforms existing cluster repair methods without distinguishing between duplicate-free or dirty data sources. Notably, our modified active learning strategy exhibits enhanced performance when dealing with datasets containing duplicates, showcasing its effectiveness in such scenarios.
翻訳日:2024-01-29 14:41:22 公開日:2024-01-26
# 新しいB-スプラインフリーノット配置アルゴリズムによるパラメータ間の非線形関数回帰

Mapping-to-Parameter Nonlinear Functional Regression with Novel B-spline Free Knot Placement Algorithm ( http://arxiv.org/abs/2401.14989v1 )

ライセンス: Link先を確認
Chengdong Shi, Ching-Hsun Tseng, Wei Zhao, Xiao-Jun Zeng(参考訳) 本研究では,任意の教師付き学習手法を用いて,パラメータ空間における複素および非線形関数回帰問題に対処する非線形関数回帰モデル(maps-to-parameter function model)を提案する。 このモデルの中心は、無限次元関数空間から有限次元パラメータ空間への関数データのマッピングである。 これは、任意の選択順序でB-スプライン基底関数の共通集合で複数の関数を同時に近似し、その結び目分布は、新しく提案された自由結び目配置アルゴリズムである反復局所配置アルゴリズムによって決定される。 既定の結び目数に基づいて結び目位置を均一に分配する従来の等価結び目配置戦略とは対照的に,提案アルゴリズムは入力や出力関数の局所的複雑さに応じて結び目位置を決定する。 結び目配置アルゴリズムの性能は, 単一関数近似と多関数近似の両方において堅牢であることが示されている。 さらに, 関数対スカラー回帰問題と関数対関数回帰問題の両方を扱う上で, 提案した予測モデルの有効性と利点を, 最先端手法の4つのグループと比較して実データアプリケーションを用いて示す。

We propose a novel approach to nonlinear functional regression, called the Mapping-to-Parameter function model, which addresses complex and nonlinear functional regression problems in parameter space by employing any supervised learning technique. Central to this model is the mapping of function data from an infinite-dimensional function space to a finite-dimensional parameter space. This is accomplished by concurrently approximating multiple functions with a common set of B-spline basis functions by any chosen order, with their knot distribution determined by the Iterative Local Placement Algorithm, a newly proposed free knot placement algorithm. In contrast to the conventional equidistant knot placement strategy that uniformly distributes knot locations based on a predefined number of knots, our proposed algorithms determine knot location according to the local complexity of the input or output functions. The performance of our knot placement algorithms is shown to be robust in both single-function approximation and multiple-function approximation contexts. Furthermore, the effectiveness and advantage of the proposed prediction model in handling both function-on-scalar regression and function-on-function regression problems are demonstrated through several real data applications, in comparison with four groups of state-of-the-art methods.
翻訳日:2024-01-29 14:41:02 公開日:2024-01-26
# 量子ブラヒストローネ問題における可積分性とカオス

Integrability and chaos in the quantum brachistochrone problem ( http://arxiv.org/abs/2401.14986v1 )

ライセンス: Link先を確認
S. Malikis, V. Cheianov(参考訳) 量子ブラヒストローネ問題 (quantum brachistochrone problem) は、量子システムにおいて与えられたユニタリ操作を実現することを目的としたアプリケーションにおいて、量子速度制限を達成するという根本的な課題に対処している。 具体的には、制御されたハミルトニアンによる量子状態の変換の最適化を考察し、システムの観測可能空間の小さな部分集合を形成する。 ここでは、制御ハミルトニアン部分集合の正統な選択から生じる、完全可積分なブラキストローネプロトコルの広いファミリーを紹介する。 さらに,完全可積分プロトコルの固有の安定性が,非可積分プロトコルとは対照的に数値的にトラクタブルであることを示す。

The quantum brachistochrone problem addresses the fundamental challenge of achieving the quantum speed limit in applications aiming to realize a given unitary operation in a quantum system. Specifically, it looks into optimization of the transformation of quantum states through controlled Hamiltonians, which form a small subset in the space of the system's observables. Here we introduce a broad family of completely integrable brachistochrone protocols, which arise from a judicious choice of the control Hamiltonian subset. Furthermore, we demonstrate how the inherent stability of the completely integrable protocols makes them numerically tractable and therefore practicable as opposed to their non-integrable counterparts.
翻訳日:2024-01-29 14:40:42 公開日:2024-01-26
# 単一検出光子を用いた単一スピンのスピンノイズ分光

Spin Noise Spectroscopy of a Single Spin using Single Detected Photons ( http://arxiv.org/abs/2401.14976v1 )

ライセンス: Link先を確認
Manuel Gund\'in, Paul Hilaire, Cl\'ement Millet, Elham Mehdi, Carlos Ant\'on, Abdelmounaim Harouri, Aristide Lema\^itre, Isabelle Sagnes, Niccolo Somaschi, Olivier Krebs, Pascale Senellart and Lo\"ic Lanco(参考訳) スピンノイズスペクトロスコピーは、スピン揺らぎの光学的検出を通じて、原子・固体系のスピンダイナミクスに関する情報を潜在的に非侵襲的に抽出する幅広い技術となっている。 ここでは、単一光子の検出に基づくスピンノイズ分光の新しいアプローチを実験的に実証する。 決定的に結合した量子ドットマイクロピラー装置によって提供される大きなスピン依存偏光回転により、単一ホールスピンによって誘導される巨大スピンノイズ信号を光子-光子交叉相関の形で抽出する。 究極的には、そのような技術は超高速な状態探索機構にまで拡張され、数十ピコ秒にまで拡張できる。

Spin noise spectroscopy has become a widespread technique to extract information on spin dynamics in atomic and solid-state systems, in a potentially non-invasive way, through the optical probing of spin fluctuations. Here we experimentally demonstrate a new approach in spin noise spectroscopy, based on the detection of single photons. Due to the large spin-dependent polarization rotations provided by a deterministically-coupled quantum dot-micropillar device, giant spin noise signals induced by a single-hole spin are extracted in the form of photon-photon cross-correlations. Ultimately, such a technique can be extended to an ultrafast regime probing mechanisms down to few tens of picoseconds.
翻訳日:2024-01-29 14:40:30 公開日:2024-01-26
# JetBrains IDEにおける埋め込みベースの検索

Embedding-based search in JetBrains IDEs ( http://arxiv.org/abs/2401.14975v1 )

ライセンス: Link先を確認
Evgeny Abramov and Nikolai Palchikov(参考訳) ほとんどのモダンな統合開発環境(IDE)とコードエディタは、オープンソースプロジェクトで利用可能な機能や項目を検索する機能を持っています。 jetbrains ideでは、この機能はsearch everywhereと呼ばれる。単一のエントリポイントからファイル、アクション、クラス、シンボル、設定、およびvcs履歴から何でも検索することができる。 しかし、同義語、複雑な単語の置換、音声修正の一部、タイプミスなど、意味論を考慮しないアルゴリズムによって得られる候補と連携する。 本稿では,検索項目の発見性を向上させるために実装した機械学習手法について述べる。 このプロセスで遭遇した障害と、それらを克服する方法も共有しています。

Most modern Integrated Development Environments (IDEs) and code editors have a feature to search across available functionality and items in an open project. In JetBrains IDEs, this feature is called Search Everywhere: it allows users to search for files, actions, classes, symbols, settings, and anything from VCS history from a single entry point. However, it works with the candidates obtained by algorithms that don't account for semantics, e.g., synonyms, complex word permutations, part of the speech modifications, and typos. In this work, we describe the machine learning approach we implemented to improve the discoverability of search items. We also share the obstacles encountered during this process and how we overcame them.
翻訳日:2024-01-29 14:40:17 公開日:2024-01-26
# 階層的再帰的スイッチング状態モデルによる同期時系列群ダイナミクスの発見

Discovering group dynamics in synchronous time series via hierarchical recurrent switching-state models ( http://arxiv.org/abs/2401.14973v1 )

ライセンス: Link先を確認
Michael Wojnowicz, Preetish Rath, Eric Miller, Jeffrey Miller, Clifford Hancock, Meghan O'Donovan, Seth Elkin-Frankston, Thaddeus Brunye, and Michael C. Hughes(参考訳) 同じ期間に複数のエンティティが相互作用して発生する時系列の集まりをモデル化することを目指す。 近年,個々の時系列のモデル化に焦点を絞った研究は,集合的なシステムレベルの振る舞いが個々の実体の軌跡に影響を及ぼすようなアプリケーションには不十分である。 このような問題に対処するために,システムレベルと個別レベルの両方のダイナミクスを同時に説明するために,教師なしでトレーニング可能な階層型スイッチング状態モデルを提案する。 我々は、潜在エンティティレベルのチェーンを駆動する潜在システムレベルの離散状態マルコフチェーンを採用し、各観測された時系列のダイナミクスを制御している。 エンティティとシステムレベルの両方のチェーンに対する観察からのフィードバックは、コンテキスト依存の状態遷移を通じて柔軟性を向上させる。 我々の階層的スイッチングリカレント力学モデルは、個々の時系列数で線形にスケールする全ての潜在鎖に対する閉形式変動座標昇華更新によって学習することができる。 これは、各エンティティに別々のモデルを適合させるよりも、漸近的にコストがかかる。 合成および実データセットの実験により、我々のモデルは既存の手法よりも将来的な実体行動の予測をより良くできることが示された。 さらに、エンティティとシステムレベルでの潜在状態チェーンの可用性により、グループダイナミクスの解釈が可能になる。

We seek to model a collection of time series arising from multiple entities interacting over the same time period. Recent work focused on modeling individual time series is inadequate for our intended applications, where collective system-level behavior influences the trajectories of individual entities. To address such problems, we present a new hierarchical switching-state model that can be trained in an unsupervised fashion to simultaneously explain both system-level and individual-level dynamics. We employ a latent system-level discrete state Markov chain that drives latent entity-level chains which in turn govern the dynamics of each observed time series. Feedback from the observations to the chains at both the entity and system levels improves flexibility via context-dependent state transitions. Our hierarchical switching recurrent dynamical models can be learned via closed-form variational coordinate ascent updates to all latent chains that scale linearly in the number of individual time series. This is asymptotically no more costly than fitting separate models for each entity. Experiments on synthetic and real datasets show that our model can produce better forecasts of future entity behavior than existing methods. Moreover, the availability of latent state chains at both the entity and system level enables interpretation of group dynamics.
翻訳日:2024-01-29 14:40:07 公開日:2024-01-26
# Atmosphere:エッジフォッグクラウドコンピューティングのためのコンテキストと状況対応のコラボレーティブIoTアーキテクチャ

Atmosphere: Context and situational-aware collaborative IoT architecture for edge-fog-cloud computing ( http://arxiv.org/abs/2401.14968v1 )

ライセンス: Link先を確認
Guadalupe Ortiz, Meftah Zouai, Okba Kazar, Alfonso Garcia-de-Prado, Juan Boubeta-Puig(参考訳) IoT(Internet of Things)は、キャパシティの増大と通信コストの低減、テクノロジの圧倒的な開発などとともに、人気が高まっている。 同時に、ビッグデータとリアルタイムデータ分析は非常に重要であり、市民、行政、その他の生物の間でデータを共有することに対する前例のない関心が伴い、協調的なモノのインターネット(internet of things)と呼ばれるものを生み出している。 データとインフラストラクチャのこの成長には、その搾取を可能にするソフトウェアアーキテクチャが伴わなければならない。 エッジ、フォグおよび/またはクラウドレベルでのiotの利用に焦点を当てたさまざまな提案があるが、これら3層を同時に利用するソフトウェアソリューションを見つけることは容易ではない。 本稿では,エッジ,フォグ,クラウドの各階層のリソース管理に適した新技術を提案することにより,これらの欠点を解決するアーキテクチャを提案する。 さらに、アーキテクチャの3層に沿って双方向通信を行うことで、各レイヤのコンテキスト情報や状況情報を大幅に充実させ、意思決定をリアルタイムに支援することができる。 本論文は, 病院における呼吸器疾患監視のケーススタディを通じて, 提案するソフトウェアアーキテクチャについて述べる。 その結果、提案アーキテクチャは、これらのタイプのIoTシナリオのニーズに応じて異なる層間の効率的な通信を可能にする。

The Internet of Things (IoT) has grown significantly in popularity, accompanied by increased capacity and lower cost of communications, and overwhelming development of technologies. At the same time, big data and real-time data analysis have taken on great importance and have been accompanied by unprecedented interest in sharing data among citizens, public administrations and other organisms, giving rise to what is known as the Collaborative Internet of Things. This growth in data and infrastructure must be accompanied by a software architecture that allows its exploitation. Although there are various proposals focused on the exploitation of the IoT at edge, fog and/or cloud levels, it is not easy to find a software solution that exploits the three tiers together, taking maximum advantage not only of the analysis of contextual and situational data at each tier, but also of two-way communications between adjacent ones. In this paper, we propose an architecture that solves these deficiencies by proposing novel technologies which are appropriate for managing the resources of each tier: edge, fog and cloud. In addition, the fact that two-way communications along the three tiers of the architecture is allowed considerably enriches the contextual and situational information in each layer, and substantially assists decision making in real time. The paper illustrates the proposed software architecture through a case study of respiratory disease surveillance in hospitals. As a result, the proposed architecture permits efficient communications between the different tiers responding to the needs of these types of IoT scenarios.
翻訳日:2024-01-29 14:39:49 公開日:2024-01-26
# マスク付き事前訓練モデルによるユニバーサルゼロショットデノイザの実現

Masked Pre-trained Model Enables Universal Zero-shot Denoiser ( http://arxiv.org/abs/2401.14966v1 )

ライセンス: Link先を確認
Xiaoxiao Ma, Zhixiang Wei, Yi Jin, Pengyang Ling, Tianle Liu, Ben Wang, Junkang Dai, Huaian Chen, Enhong Chen(参考訳) 本研究では,マスキング戦略を用いて膨大な一般画像に訓練されたモデルが,自然画像の分布知識に自然に組み込まれ,強画像化の基盤となるポテンシャルを自然に獲得していることを観察する。 そこで本研究では,新しいゼロショットデノベーションパラダイム,すなわちMasked Pre-train then Iterative fill (MPI)を提案する。 MPIはマスク付きモデルを事前訓練し、ノイズ劣化のない単一画像のデノナイズを行う。 具体的には,提案したMPIには2つの重要な手順がある。 1)マスクプリトレーニングでは,ランダムマスクを用いた複数の自然画像に対するモデルをトレーニングし,一般化された表現を収集することで,ノイズ劣化や異なる画像タイプにおいても実用的な応用が可能となる。 2) 逐次充足は, 事前学習した知識を効率的に融合して発声する。 トレーニング前とは異なり、ランダムマスキングはギャップを橋渡しするために保持されるが、マスクでカバーされた予測された部品のみが効率良く組み立てられるため、限られた数のイテレーションで高品質なノイズ処理が可能になる。 様々なノイズの多いシナリオにわたる包括的な実験は、推定時間を著しく削減した以前のアプローチに対するmpiの注目すべき進歩を裏付けるものだ。 コードはhttps://github.com/krennic999/MPI.gitで入手できる。

In this work, we observe that the model, which is trained on vast general images using masking strategy, has been naturally embedded with the distribution knowledge regarding natural images, and thus spontaneously attains the underlying potential for strong image denoising. Based on this observation, we propose a novel zero-shot denoising paradigm, i.e., Masked Pre-train then Iterative fill (MPI). MPI pre-trains a model with masking and fine-tunes it for denoising of a single image with unseen noise degradation. Concretely, the proposed MPI comprises two key procedures: 1) Masked Pre-training involves training a model on multiple natural images with random masks to gather generalizable representations, allowing for practical applications in varying noise degradation and even in distinct image types. 2) Iterative filling is devised to efficiently fuse pre-trained knowledge for denoising. Similar to but distinct from pre-training, random masking is retained to bridge the gap, but only the predicted parts covered by masks are assembled for efficiency, which enables high-quality denoising within a limited number of iterations. Comprehensive experiments across various noisy scenarios underscore the notable advances of proposed MPI over previous approaches with a marked reduction in inference time. Code is available at https://github.com/krennic999/MPI.git.
翻訳日:2024-01-29 14:39:25 公開日:2024-01-26
# ニューラルネットワーク検証のためのエンドツーエンドセットベーストレーニング

End-To-End Set-Based Training for Neural Network Verification ( http://arxiv.org/abs/2401.14961v1 )

ライセンス: Link先を確認
Lukas Koller, Tobias Ladner, Matthias Althoff(参考訳) ニューラルネットワークは敵の攻撃に弱い、すなわち小さな入力摂動は、ニューラルネットワークの出力を著しく異なるものにすることができる。 安全に重要な環境は、入力の摂動に対して堅牢なニューラルネットワークを必要とする。 しかし、堅牢なニューラルネットワークのトレーニングと正式に検証は困難である。 我々は、形式的検証のために堅牢なニューラルネットワークをトレーニングするエンドツーエンドのセットベースのトレーニング手順を初めて採用することで、この課題に対処します。 トレーニング手順は、トレーニングされたニューラルネットワークの形式的ロバスト性検証を劇的に単純化する。 これまでの研究は主に、ニューラルネットワークのトレーニングを敵の攻撃で強化することに注力してきたが、このアプローチでは、セットベースのコンピューティングを利用して、摂動入力のセット全体をニューラルネットワークで訓練する。 さらに,本手法は,検証が容易な頑健なニューラルネットワークを効果的に学習できることを実証する。 多くの場合、セットベースでトレーニングされたニューラルネットワークは、最先端の敵攻撃でトレーニングされたニューラルネットワークより優れている。

Neural networks are vulnerable to adversarial attacks, i.e., small input perturbations can result in substantially different outputs of a neural network. Safety-critical environments require neural networks that are robust against input perturbations. However, training and formally verifying robust neural networks is challenging. We address this challenge by employing, for the first time, a end-to-end set-based training procedure that trains robust neural networks for formal verification. Our training procedure drastically simplifies the subsequent formal robustness verification of the trained neural network. While previous research has predominantly focused on augmenting neural network training with adversarial attacks, our approach leverages set-based computing to train neural networks with entire sets of perturbed inputs. Moreover, we demonstrate that our set-based training procedure effectively trains robust neural networks, which are easier to verify. In many cases, set-based trained neural networks outperform neural networks trained with state-of-the-art adversarial attacks.
翻訳日:2024-01-29 14:39:03 公開日:2024-01-26
# ユニバーサル予測の学習

Learning Universal Predictors ( http://arxiv.org/abs/2401.14953v1 )

ライセンス: Link先を確認
Jordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Gr\'egoire Del\'etang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness(参考訳) メタラーニングは、限られたデータから新しいタスクを素早く学習するためにニューラルネットワークをトレーニングする強力なアプローチとして登場した。 様々なタスクを広範囲に露呈すると、汎用的な表現が一般的な問題解決を可能にします。 しかし、メタ学習の限界は何か? 本研究では,メタラーニングを限界まで活用することで,最強の普遍的予測子であるソロモノフ誘導(SI)をニューラルネットワークに再生する可能性を探る。 我々はUniversal Turing Machines (UTMs) を用いて、幅広いパターンにネットワークを公開するためのトレーニングデータを生成する。 UTMデータ生成プロセスとメタトレーニングプロトコルの理論解析を行う。 ニューラルネットワーク(LSTM、トランスフォーマーなど)とアルゴリズムデータジェネレータによる、さまざまな複雑さと普遍性の包括的な実験を行う。 以上の結果から,utmデータはメタラーニングに有用な資源であり,普遍的な予測戦略を学習できるニューラルネットワークのトレーニングに使用できることが示唆された。

Meta-learning has emerged as a powerful approach to train neural networks to learn new tasks quickly from limited data. Broad exposure to different tasks leads to versatile representations enabling general problem solving. But, what are the limits of meta-learning? In this work, we explore the potential of amortizing the most powerful universal predictor, namely Solomonoff Induction (SI), into neural networks via leveraging meta-learning to its limits. We use Universal Turing Machines (UTMs) to generate training data used to expose networks to a broad range of patterns. We provide theoretical analysis of the UTM data generation processes and meta-training protocols. We conduct comprehensive experiments with neural architectures (e.g. LSTMs, Transformers) and algorithmic data generators of varying complexity and universality. Our results suggest that UTM data is a valuable resource for meta-learning, and that it can be used to train neural networks capable of learning universal prediction strategies.
翻訳日:2024-01-29 14:38:48 公開日:2024-01-26
# 対人訓練における包括的一般化とロバスト性トレードオフの保存・更新

Conserve-Update-Revise to Cure Generalization and Robustness Trade-off in Adversarial Training ( http://arxiv.org/abs/2401.14948v1 )

ライセンス: Link先を確認
Shruthi Gowda, Bahram Zonooz, Elahe Arani(参考訳) 敵の訓練は、標準と堅牢な一般化の間のトレードオフを犠牲にして、敵の攻撃に対するニューラルネットワークの堅牢性を改善する。 この現象を誘発する要因を明らかにするため、ニューラルネットワークの標準から対向的な環境への移行における階層的学習能力について検討する。 実験の結果,ネットワークの学習能力は,他のレイヤを保存しながら,特定のレイヤを選択的に更新することで大幅に向上することが示された。 そこで我々は,重みの選択的保存,更新,修正を行うために,勾配優位基準を利用した新しいトレーニングフレームワークCUREを提案する。 重要なのは、CUREはデータセットとアーキテクチャに依存しないように設計されており、さまざまなシナリオに適用可能であることだ。 記憶と過剰フィッティングの問題の両方に効果的に対応し、堅牢性と一般化の間のトレードオフを強化し、さらにこのトレーニングアプローチは"ロバストオーバーフィッティング(robust overfitting)"の緩和にも役立つ。 さらに,本研究は,選択的敵意訓練のメカニズムに関する貴重な知見を提供し,今後の研究に有望な道筋を提供する。

Adversarial training improves the robustness of neural networks against adversarial attacks, albeit at the expense of the trade-off between standard and robust generalization. To unveil the underlying factors driving this phenomenon, we examine the layer-wise learning capabilities of neural networks during the transition from a standard to an adversarial setting. Our empirical findings demonstrate that selectively updating specific layers while preserving others can substantially enhance the network's learning capacity. We therefore propose CURE, a novel training framework that leverages a gradient prominence criterion to perform selective conservation, updating, and revision of weights. Importantly, CURE is designed to be dataset- and architecture-agnostic, ensuring its applicability across various scenarios. It effectively tackles both memorization and overfitting issues, thus enhancing the trade-off between robustness and generalization and additionally, this training approach also aids in mitigating "robust overfitting". Furthermore, our study provides valuable insights into the mechanisms of selective adversarial training and offers a promising avenue for future research.
翻訳日:2024-01-29 14:38:33 公開日:2024-01-26
# 球殻トラップにおける閉じ込め誘起共鳴

Confinement Induced Resonances in Spherical Shell Traps ( http://arxiv.org/abs/2401.14946v1 )

ライセンス: Link先を確認
C. Moritz Carmesin and Maxim A. Efremov(参考訳) 球対称な殻状トラップに閉じ込められた2つのボゾン粒子のエネルギースペクトルと対応する波動関数を正確に計算し、三次元ゼロレンジポテンシャルによって相互に相互作用する。 2つの粒子の相対運動と中心運動の強い結合に由来する閉じ込め誘起共鳴(CIR)は、殻半径の一定の値で避けられた交差として同定される。 発見されているCIRに近づき、これらの結果は殻の幾何学的パラメータのみを調整することによって、原子と原子の相互作用を強化する新しい方法を提供する。

We have computed exactly the energy spectrum and corresponding wave functions of two bosonic particles, which are confined in a spherically symmetric shell-shaped trap and interact with each other via a three-dimensional zero-range potential. Confinement induced resonances (CIRs), originating entirely from the strong coupling of the relative and center-of-mass motions of the two particles, are identified as avoided crossings at certain values of the shell radius. By working close to the found CIRs, these results offer a new way to enhance the atom-atom interaction in the atomic gas by tuning only the geometrical parameters of the shell.
翻訳日:2024-01-29 14:38:13 公開日:2024-01-26
# DAM:3次元グローバル説明のための拡散活性化最大化

DAM: Diffusion Activation Maximization for 3D Global Explanations ( http://arxiv.org/abs/2401.14938v1 )

ライセンス: Link先を確認
Hanxiao Tan(参考訳) 近年,ポイントクラウドモデルの性能は急速に向上している。 しかしながら、関連する説明可能性の研究が限られているため、これらのブラックボックスモデルの信頼性の欠如と不透明さは、例えば自動運転や医療など、人間の生命が危険にさらされているアプリケーションに潜在的リスクをもたらす可能性がある。 本研究では,点拡散変換器(PDT)を利用したDDPMベースの点雲大域的説明可能性法(DAM)を提案する。 さらに, DAM の経路勾配積分法を提案し, ポイントクラウドカテゴリに対するサリエンシマップのグローバルな概要を提供するとともに, 生成過程における説明の属性の違いについて光を当てる。 広範な実験により,本手法は既存手法よりも知覚性,代表性,多様性の面で優れており,生成時間の大幅な削減が期待できることがわかった。 私たちのコードは、https://github.com/Explain3D/DAMで利用可能です。

In recent years, the performance of point cloud models has been rapidly improved. However, due to the limited amount of relevant explainability studies, the unreliability and opacity of these black-box models may lead to potential risks in applications where human lives are at stake, e.g. autonomous driving or healthcare. This work proposes a DDPM-based point cloud global explainability method (DAM) that leverages Point Diffusion Transformer (PDT), a novel point-wise symmetric model, with dual-classifier guidance to generate high-quality global explanations. In addition, an adapted path gradient integration method for DAM is proposed, which not only provides a global overview of the saliency maps for point cloud categories, but also sheds light on how the attributions of the explanations vary during the generation process. Extensive experiments indicate that our method outperforms existing ones in terms of perceptibility, representativeness, and diversity, with a significant reduction in generation time. Our code is available at: https://github.com/Explain3D/DAM
翻訳日:2024-01-29 14:38:03 公開日:2024-01-26
# 人中心アプローチによるJavaコードの可読性モデルの再評価

Reassessing Java Code Readability Models with a Human-Centered Approach ( http://arxiv.org/abs/2401.14936v1 )

ライセンス: Link先を確認
Agnia Sergeyuk, Olga Lvova, Sergey Titov, Anastasiia Serova, Farid Bagirov, Evgeniia Kirillova, Timofey Bryksin(参考訳) 大きな言語モデル(llm)がユーザの生産性を効果的にサポートするためには、調整する必要があります。 既存のコード可読性(CR)モデルは、このアライメントを導くことができる。 しかしながら、開発者が可読性の概念を見逃し、時代遅れのコードに依存することが多いため、現代のソフトウェアエンジニアリングにおけるそれらの関係性には懸念がある。 本研究は,LLM調整のための既存のJava CRモデルを評価し,AI生成Javaコードの開発者評価との相関性を評価する。 15人の開発者によるRepertory Grid Techniqueを用いて、120のAI生成スニペットのラベル付け時に390人のプログラマによって評価されたCRに影響を与える12の重要なコード側面を特定した。 我々の研究結果は、AIが簡潔で実行可能なコードを生成する場合、CRモデルや開発者が読みやすいと考えることが多いことを示唆している。 しかし,これらの評価の相関関係は,LLMの調整のための学習目標と,予測モデルに含まれるCR評価に影響を与える側面について,今後の研究の重要性を浮き彫りにしている。

To ensure that Large Language Models (LLMs) effectively support user productivity, they need to be adjusted. Existing Code Readability (CR) models can guide this alignment. However, there are concerns about their relevance in modern software engineering since they often miss the developers' notion of readability and rely on outdated code. This research assesses existing Java CR models for LLM adjustments, measuring the correlation between their and developers' evaluations of AI-generated Java code. Using the Repertory Grid Technique with 15 developers, we identified 12 key code aspects influencing CR that were consequently assessed by 390 programmers when labeling 120 AI-generated snippets. Our findings indicate that when AI generates concise and executable code, it is often considered readable by CR models and developers. However, a limited correlation between these evaluations underscores the importance of future research on learning objectives for adjusting LLMs and on the aspects influencing CR evaluations included in predictive models.
翻訳日:2024-01-29 14:37:45 公開日:2024-01-26
# 量子過程のシャドウシミュレーション

Shadow simulation of quantum processes ( http://arxiv.org/abs/2401.14934v1 )

ライセンス: Link先を確認
Xuanqiang Zhao, Xin Wang, Giulio Chiribella(参考訳) 本稿では,任意の量子可観測性の期待値を対象の物理プロセスの出力で再現することを目的としたシャドープロセスシミュレーションのタスクを紹介する。 送信側と受信側が古典的ランダムビットを共有する場合、シャドープロセスシミュレーションの性能は、通信、ノイズシミュレーション、データ圧縮など様々なシナリオにおいて、従来のプロセスシミュレーションプロトコルよりも優れていることを示す。 驚くべきことに、シャドーシミュレーションはサンプリングコストを増加させることなく精度を高める。 全体としてシャドウシミュレーションは、確率的エラーキャンセルや量子コンピューティングにおける回路編みなど、様々な量子プロトコルの統一フレームワークを提供する。

We introduce the task of shadow process simulation, where the goal is to reproduce the expectation values of arbitrary quantum observables at the output of a target physical process. When the sender and receiver share classical random bits, we show that the performance of shadow process simulation exceeds that of conventional process simulation protocols in a variety of scenarios including communication, noise simulation, and data compression. Remarkably, shadow simulation provides increased accuracy without any increase in the sampling cost. Overall, shadow simulation provides a unified framework for a variety of quantum protocols, including probabilistic error cancellation and circuit knitting in quantum computing.
翻訳日:2024-01-29 14:37:26 公開日:2024-01-26
# 健康テキストの簡易化:消化器癌教育のための注釈コーパスと強化学習のための新しい戦略

Health Text Simplification: An Annotated Corpus for Digestive Cancer Education and Novel Strategies for Reinforcement Learning ( http://arxiv.org/abs/2401.15043v1 )

ライセンス: Link先を確認
Md Mushfiqur Rahman, Mohammad Sabik Irbaz, Kai North, Michelle S. Williams, Marcos Zampieri, Kevin Lybarger(参考訳) 目的: 健康教材の読解レベルは, 情報理解性とアクセシビリティ, 特にマイノリティー人口に多大な影響を与えている。 多くの患者教育資源は、広く受け入れられている標準の読解レベルと複雑さを上回っている。 普及とリテラシーを高めるために、健康情報における高パフォーマンステキスト単純化モデルが不可欠である。 この必要性は、がん教育において特に深刻であり、効果的な予防とスクリーニング教育は、致命率と死亡率を大幅に減らすことができる。 方法: 単純消化器癌 (SimpleDC) は, 健康テキストの簡易化研究に適したがん教材の並列コーパスである。 既存の med-easi コーパスと共に simpledc を利用することで,微調整,強化学習 (rl),人間フィードバックによる強化学習 (rlhf),ドメイン適応,プロンプトベースアプローチなど,大規模言語モデル (llm) に基づく単純化手法を検討する。 実験ではLlama 2とGPT-4を含む。 新しいrlhf報酬関数を導入し、オリジナルテキストと簡易テキストの区別に適した軽量モデルを特徴とし、ラベルなしデータによるモデルの有効性を高める。 結果: 微調整のLlama 2モデルは様々な指標で高い性能を示した。 我々の革新的なRLHF報酬関数は、既存のRLテキストの簡易化報酬関数をはるかに上回った。 その結果、rl/rlhfは微調整を強化でき、ラベルなしテキストのモデルトレーニングが容易になり、性能が向上する。 さらに、これらの手法はドメイン外のテキスト単純化モデルをターゲットドメインに効果的に適用する。

Objective: The reading level of health educational materials significantly influences information understandability and accessibility, particularly for minoritized populations. Many patient educational resources surpass the reading level and complexity of widely accepted standards. There is a critical need for high-performing text simplification models in health information to enhance dissemination and literacy. This need is particularly acute in cancer education, where effective prevention and screening education can substantially reduce morbidity and mortality. Methods: We introduce Simplified Digestive Cancer (SimpleDC), a parallel corpus of cancer education materials tailored for health text simplification research. Utilizing SimpleDC alongside the existing Med-EASi corpus, we explore Large Language Model (LLM)-based simplification methods, including fine-tuning, reinforcement learning (RL), reinforcement learning with human feedback (RLHF), domain adaptation, and prompt-based approaches. Our experimentation encompasses Llama 2 and GPT-4. A novel RLHF reward function is introduced, featuring a lightweight model adept at distinguishing between original and simplified texts, thereby enhancing the model's effectiveness with unlabeled data. Results: Fine-tuned Llama 2 models demonstrated high performance across various metrics. Our innovative RLHF reward function surpassed existing RL text simplification reward functions in effectiveness. The results underscore that RL/RLHF can augment fine-tuning, facilitating model training on unlabeled text and improving performance. Additionally, these methods effectively adapt out-of-domain text simplification models to targeted domains.
翻訳日:2024-01-29 14:31:30 公開日:2024-01-26
# PROXYQA:大規模言語モデルを用いた長文生成のための代替フレームワーク

PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models ( http://arxiv.org/abs/2401.15042v1 )

ライセンス: Link先を確認
Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu, Xiaoguang Li, Yasheng Wang, Lifeng Shang, Qun Liu, Linqi Song(参考訳) 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。 しかし、レポートや記事などの長い内容を生成する能力は依然として不十分である。 現在のベンチマークでは、情報的かつ包括的コンテンツを生成するLLMの能力は十分に評価されておらず、より厳密な評価アプローチが必要である。 そこで本研究では,様々な領域にまたがる詳細な人文計算を行う長文テキスト生成フレームワークである \textsc{ProxyQA} について紹介する。 各メタクエストは、注釈付き回答を持つ対応する \textit{proxy-questions} を含む。 LLMはこれらのメタクエストに応答して広範なコンテンツを生成するよう促される。 評価器を利用し、生成したコンテンツを背景コンテキストとして組み込むことにより、評価器のパフォーマンスに基づいて生成されたコンテンツの品質を評価する。 高品質評価ツールとして,複数のllmを調べ, \textsc{proxyqa} の要求性を強調した。 人的評価は, <textit{proxy-questions} による評価が, 自己整合性が高く, 人的基準に関連のある検証方法であることを示す。 データセットとリーダーボードは \url{https://github.com/Namco0816/ProxyQA} で入手できる。

Large Language Models (LLMs) have exhibited remarkable success in long-form context comprehension tasks. However, their capacity to generate long contents, such as reports and articles, remains insufficiently explored. Current benchmarks do not adequately assess LLMs' ability to produce informative and comprehensive content, necessitating a more rigorous evaluation approach. In this study, we introduce \textsc{ProxyQA}, a framework for evaluating long-form text generation, comprising in-depth human-curated \textit{meta-questions} spanning various domains. Each meta-question contains corresponding \textit{proxy-questions} with annotated answers. LLMs are prompted to generate extensive content in response to these meta-questions. Utilizing an evaluator and incorporating generated content as background context, \textsc{ProxyQA} evaluates the quality of generated content based on the evaluator's performance in answering the \textit{proxy-questions}. We examine multiple LLMs, emphasizing \textsc{ProxyQA}'s demanding nature as a high-quality assessment tool. Human evaluation demonstrates that evaluating through \textit{proxy-questions} is a highly self-consistent and human-criteria-correlated validation method. The dataset and leaderboard will be available at \url{https://github.com/Namco0816/ProxyQA}.
翻訳日:2024-01-29 14:31:04 公開日:2024-01-26
# 汎用マルチモーダル推論におけるニューラルネットワークの一般化能力について

On the generalization capacity of neural networks during generic multimodal reasoning ( http://arxiv.org/abs/2401.15030v1 )

ライセンス: Link先を確認
Takuya Ito, Soham Dan, Mattia Rigotti, James Kozloski, Murray Campbell(参考訳) Transformerの出現は、人間のような能力を実証する大規模言語モデル(LLM)の開発につながった。 マルチモーダル・ドメインに対するこのモデルの一般化と、他の様々なベース・ニューラルネットワーク・アーキテクチャを評価するために、マルチモーダル・ジェネライゼーションの能力を評価し比較した。 そこで,本研究では,od(out-of-distribution)一般化性能を評価するためのマルチモーダル・クエスチョン・アンワー・ベンチマーク(multimodal question-answer benchmark)を提案する。 モデルアーキテクチャ(例えば、rnn、transformers、perceiversなど)、複数の注目層を持つモデル、あるいは入力ドメイン間の相互接続メカニズムを活用したモデルの方が優れていることが分かりました。 我々の肯定的な結果は、マルチモーダルインプットを統合する上で必要となる重要なアーキテクチャ的特徴として、マルチモーダルインプットと系統的一般化があることを示す。 一方、これらのアーキテクチャの特徴はいずれも生産的な一般化につながらず、特定の種類のマルチモーダル一般化に対する既存のアーキテクチャの基本的限界を示唆している。 これらの結果は、マルチモーダル推論のための現代のニューラルモデルの基礎となる特定のアーキテクチャコンポーネントの強みと限界を示している。 最後に、将来の研究のために、複数のマルチモーダル一般化スプリットを備えた構成可能なベンチマークであるジェネリックcog(gcog)を提供する。

The advent of the Transformer has led to the development of large language models (LLM), which appear to demonstrate human-like capabilities. To assess the generality of this class of models and a variety of other base neural network architectures to multimodal domains, we evaluated and compared their capacity for multimodal generalization. We introduce a multimodal question-answer benchmark to evaluate three specific types of out-of-distribution (OOD) generalization performance: distractor generalization (generalization in the presence of distractors), systematic compositional generalization (generalization to new task permutations), and productive compositional generalization (generalization to more complex tasks structures). We found that across model architectures (e.g., RNNs, Transformers, Perceivers, etc.), models with multiple attention layers, or models that leveraged cross-attention mechanisms between input domains, fared better. Our positive results demonstrate that for multimodal distractor and systematic generalization, either cross-modal attention or models with deeper attention layers are key architectural features required to integrate multimodal inputs. On the other hand, neither of these architectural features led to productive generalization, suggesting fundamental limitations of existing architectures for specific types of multimodal generalization. These results demonstrate the strengths and limitations of specific architectural components underlying modern neural models for multimodal reasoning. Finally, we provide Generic COG (gCOG), a configurable benchmark with several multimodal generalization splits, for future studies to explore.
翻訳日:2024-01-29 14:30:41 公開日:2024-01-26
# スケーラブル・微細モニタリングのための森林構造の神経放射場学習

Learning Neural Radiance Fields of Forest Structure for Scalable and Fine Monitoring ( http://arxiv.org/abs/2401.15029v1 )

ライセンス: Link先を確認
Juan Castorena(参考訳) 本研究は,森林用途にニューラルネットワークとリモートセンシングを利用する。 ここでは,森林モニタリングにおける既存のリモートセンシング手法を改善するために,ニューラル放射場が幅広い可能性を提供することを示す。 本研究では,(1)森林3次元構造の微細な特徴を表現し,(2)融解可能なリモートセンシングモダリティを表現し,(3)森林の3次元構造に基づく測定値を改善する実験を行う。 これらの性質は、森林モニタリングプログラムのスケーラビリティと精度をさらに向上させる大きな可能性を持つ、魅力的な計算ツールとなる。

This work leverages neural radiance fields and remote sensing for forestry applications. Here, we show neural radiance fields offer a wide range of possibilities to improve upon existing remote sensing methods in forest monitoring. We present experiments that demonstrate their potential to: (1) express fine features of forest 3D structure, (2) fuse available remote sensing modalities and (3), improve upon 3D structure derived forest metrics. Altogether, these properties make neural fields an attractive computational tool with great potential to further advance the scalability and accuracy of forest monitoring programs.
翻訳日:2024-01-29 14:30:14 公開日:2024-01-26
# slicegpt: 行と列を削除することで、大きな言語モデルを圧縮する

SliceGPT: Compress Large Language Models by Deleting Rows and Columns ( http://arxiv.org/abs/2401.15024v1 )

ライセンス: Link先を確認
Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari do Nascimento, Torsten Hoefler, James Hensman(参考訳) 大規模な言語モデルが自然言語処理の基盤となっているが、その使用には計算とメモリリソースの面でかなりのコストがかかる。 スパーシフィケーションは、これらのリソース制約を緩和するソリューションを提供し、最近の研究は、トレーニングされたモデルをポストホックでスパシフィケーションできることを示した。 既存のスパーシフィケーション技術は、追加のデータ構造を必要とし、現在のハードウェアで制限されたスピードアップを提供するため、課題に直面している。 本稿では,各重み行列をより小さい(センス)行列に置換し,ネットワークの埋め込み次元を減少させる,新しい学習後スパーシフィケーションスキームであるslicegptを提案する。 スライスgptは, llama2-70bモデル, opt 66bモデル, phi-2モデルの最大25%のモデルパラメータ(埋め込みを含む)を除去でき, それぞれ99%, 99%, 90%のゼロショットタスク性能を維持できることを示した。 24GBの消費者向けGPUでは、LLAMA2-70Bでの推論の計算総量は、高密度モデルの64%に削減し、40GBのA100 GPUでは66%に削減しました。 私たちは、slicegptを可能にするトランスフォーマーネットワークにおける新しい洞察と計算不変性を提供し、事前学習されたモデルのメモリと計算要求を削減するための将来の道筋を刺激し、有効にすることを望んでいる。 コードは、https://github.com/microsoft/TransformerCompressionで入手できる。

Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression
翻訳日:2024-01-29 14:30:02 公開日:2024-01-26
# グリオーマ組織切片の機械学習による解析

Machine learning-based analysis of glioma tissue sections: a review ( http://arxiv.org/abs/2401.15022v1 )

ライセンス: Link先を確認
Jan-Philipp Redlich, Friedrich Feuerhake, Joachim Weis, Nadine S. Schaadt, Sarah Teuber-Hanselmann, Christoph Buck, Sabine Luttmann, Andrea Eberle, Stefan Nikolin, Arno Appenzeller, Andreas Portmann, Andr\'e Homeyer(参考訳) 近年,グリオーマの診断が複雑化している。 現代の機械学習技術を用いたグリオーマ組織の組織学的評価は、診断と予後予測を支援する新しい機会を提供する。 研究の現状を概観するため,本論文では,ヒトグリオーマの染色部を機械学習で解析した70の研究成果について検討し,サブタイプ(16/70),グレーディング(23/70),分子マーカー予測(13/70),生存予測(27/70)の診断課題について検討した。 すべての研究は, 方法論的側面と臨床応用性について検討した。 本研究は成人型びまん性グリオーマのヘマトキシリンおよびエオシン染色組織断面の評価に焦点が当てられた。 大部分の研究(49/70)は、がんゲノムアトラス (tcga) から入手可能なグリオブラスト腫と低グレードグリオーマデータセットに基づいており、他のデータセット (10/70) やtcgaデータセット (11/70) に加えて採用されている研究はごくわずかである。 現在のアプローチは主に畳み込みニューラルネットワーク(53/70)を使用して、20倍の倍率(30/70)で組織を分析する。 新しい研究分野は臨床データ、omicsデータ、磁気共鳴イメージング(27/70)の統合である。 これまでのところ、機械学習ベースの手法は有望な成果を上げているが、実際の臨床環境ではまだ使われていない。 将来の研究は、日常的な適用可能性を示すために、高品質で最新の臨床および分子病理アノテーションを備えた大規模マルチサイトデータセットのメソッドの独立した検証に焦点を当てるべきである。

In recent years, the diagnosis of gliomas has become increasingly complex. Histological assessment of glioma tissue using modern machine learning techniques offers new opportunities to support diagnosis and outcome prediction. To give an overview of the current state of research, this review examines 70 publicly available research studies on machine learning-based analysis of stained human glioma tissue sections, covering the diagnostic tasks of subtyping (16/70), grading (23/70), molecular marker prediction (13/70), and survival prediction (27/70). All studies were reviewed with regard to methodological aspects as well as clinical applicability. It was found that the focus of current research is the assessment of hematoxylin and eosin-stained tissue sections of adult-type diffuse gliomas. The majority of studies (49/70) are based on the publicly available glioblastoma and low-grade glioma datasets from The Cancer Genome Atlas (TCGA) and only a few studies employed other datasets in isolation (10/70) or in addition to the TCGA datasets (11/70). Current approaches mostly rely on convolutional neural networks (53/70) for analyzing tissue at 20x magnification (30/70). A new field of research is the integration of clinical data, omics data, or magnetic resonance imaging (27/70). So far, machine learning-based methods have achieved promising results, but are not yet used in real clinical settings. Future work should focus on the independent validation of methods on larger, multi-site datasets with high-quality and up-to-date clinical and molecular pathology annotations to demonstrate routine applicability.
翻訳日:2024-01-29 14:29:32 公開日:2024-01-26
# 構造相転移から量子アニーリングへの非線形旅

A Nonlinear Journey from Structural Phase Transitions to Quantum Annealing ( http://arxiv.org/abs/2401.15020v1 )

ライセンス: Link先を確認
Mithun Thudiyanga, Panayotis G. Kevrekidis, Avadh Saxena and Alan R. Bishop(参考訳) 横場(横場イジング(TFI)モデル)における量子イジングスピンの1次元鎖の平衡特性の正確なマッピングと、二重井戸ポテンシャル(「$\phi^4$モデル」)における2次元古典的な粒子配列の弱い鎖間カップリングにより、二つの系の駆動変種間の接続を探索する。 我々は、古典的$\phi^4$システムにおける隣接鎖間のキンクの形での基本位相孤立波間の結合は、量子tfiモデルにおけるスピンフリップに対する横磁場の競合効果の類似であると主張する。 例えば、周期摂動を受ける古典的$\phi^4$モデルを調べることで、クローズド量子モデルシステムにおける簡易な測定プロトコルを模倣する。 これは記憶とコヒーレンス/デコヒーレンス機構のメモリ/ロスを明らかにし、量子アナログはアニール現象に必須である。 特に, トポロジカル励起が摂動に伴う熱平衡を制御する機構について検討する。 これは、低次元線型量子系と高次元古典非線形系の間の類似性をさらに探究する道を開く。

Motivated by an exact mapping between equilibrium properties of a 1-dimensional chain of quantum Ising spins in a transverse field (the transverse field Ising (TFI) model) and a 2-dimensional classical array of particles in double-well potentials (the "$\phi^4$ model") with weak inter-chain coupling, we explore connections between the driven variants of the two systems. We argue that coupling between the fundamental topological solitary waves in the form of kinks between neighboring chains in the classical $\phi^4$ system is the analogue of the competing effect of the transverse field on spin flips in the quantum TFI model. As an example application, we mimic simplified measurement protocols in a closed quantum model system by studying the classical $\phi^4$ model subjected to periodic perturbations. This reveals memory/loss of memory and coherence/decoherence regimes, whose quantum analogues are essential in annealing phenomena. In particular, we examine regimes where the topological excitations control the thermal equilibration following perturbations. This paves the way for further explorations of the analogy between lower-dimensional linear quantum and higher-dimensional classical nonlinear systems.
翻訳日:2024-01-29 14:29:02 公開日:2024-01-26
# 多体問題における対称性、その解解を見つける方法、ヘリウム原子スペクトル

Symmetries in the many-body problems, a method to find its ayalytical solution, and Helium atom spectrum ( http://arxiv.org/abs/2401.15019v1 )

ライセンス: Link先を確認
Siddhesh C. Ambhire(参考訳) この研究において、ユークリッド群$E\left(3\right)$の3体問題と、逆2乗距離粒子間力を持つ多体問題の拡張による対称性が示されている。 3体問題の対称性は群を成す: $so\left(4\times3,2\times3\right)/\left(c\left(3\times2\right)\right)$, ここで $c\left(n\right)$ は n 次元の平面変換群であり、スペクトル生成群を形成する。 これらの量の一部はハミルトニアンと通勤する。 これらの保存量の存在はヘリウム原子のエネルギースペクトルを計算することによって検証された。 この方法は、多体問題における対称性の発見や、化学におけるあらゆる可能な原子・分子系を含むより複雑な系のエネルギーレベルや波動関数の計算にも用いられる。

In this work it is shown that there are symmetries beyond the Euclidean group $E\left(3\right)$ in 3-body problem, and by extension in many-body problem, with inverse squared distance inter particle force. The symmetries in 3-body problem form a group: $SO\left(4\times3,2\times3\right)/\left(C\left(3\times2\right)\right)$, where $C\left(n\right)$ is the planar translation group in n dimensions, which forms its Spectrum-Generating group. Some of these quantities commute with the Hamiltonian. The existence of these conserved quantities was verified by calculating energy spectrum of the Helium atom. This method can also be used to find symmetries in many-body problem, and to calculate energy levels, and wave-functions of more complicated systems, which include every possible atomic and molecular systems in chemistry.
翻訳日:2024-01-29 14:28:40 公開日:2024-01-26
# 特徴組合せと並列構造分類器を用いたテキスト独立話者検証システムの強化

Enhancement of a Text-Independent Speaker Verification System by using Feature Combination and Parallel-Structure Classifiers ( http://arxiv.org/abs/2401.15018v1 )

ライセンス: Link先を確認
Kerlos Atia Abdalmalak and Ascensi\'on Gallardo-Antol'in(参考訳) 話者検証(SV)システムは主に特徴抽出と分類の2つの段階を含む。 本稿では,これらの2つのモジュールについて,雑音条件下での話者検証システムの性能向上を目的として検討する。 一方、最も適切な音響特徴の選択は、頑健な話者検証を行う上で重要な要素である。 提案システムで用いられる音響パラメータは,Mel Frequency Cepstral Coefficients (MFCC), その第1および第2誘導体 (Deltas and Delta-Deltas), Bark Frequency Cepstral Coefficients (BFCC), Perceptual Linear Predictive (PLP), Relative Spectral Transform Perceptual Linear Predictive (RASTA-PLP) である。 本稿では,先行する特徴の異なる組み合わせの完全な比較について述べる。 一方、従来のサポートベクトルマシン(SVM)分類器の大きな弱点は、データポイント間の距離を計算するために、一般的なカーネル関数を使用することである。 しかし、SVMのカーネル機能は、その性能に大きな影響を与えている。 本研究では,異なるカーネル関数を持つ2つのsvmベースの分類器(線形カーネルとガウス半径基底関数(rbf)カーネルとロジスティック回帰(lr)分類器の組み合わせを提案する。 この組み合わせは、最終的な決定を下すための異なる投票ルールを考慮に入れた並列構造アプローチによって実行される。 その結果,svシステムの性能は,クリーンな音声またはノイズの存在下で,組み合わせた分類器と組み合わせた機能を用いることで著しく向上することがわかった。 最後に,雑音環境下でのシステム強化のために,前処理段階としてマルチバンドノイズ除去技術を導入することを提案する。

Speaker Verification (SV) systems involve mainly two individual stages: feature extraction and classification. In this paper, we explore these two modules with the aim of improving the performance of a speaker verification system under noisy conditions. On the one hand, the choice of the most appropriate acoustic features is a crucial factor for performing robust speaker verification. The acoustic parameters used in the proposed system are: Mel Frequency Cepstral Coefficients (MFCC), their first and second derivatives (Deltas and Delta- Deltas), Bark Frequency Cepstral Coefficients (BFCC), Perceptual Linear Predictive (PLP), and Relative Spectral Transform - Perceptual Linear Predictive (RASTA-PLP). In this paper, a complete comparison of different combinations of the previous features is discussed. On the other hand, the major weakness of a conventional Support Vector Machine (SVM) classifier is the use of generic traditional kernel functions to compute the distances among data points. However, the kernel function of an SVM has great influence on its performance. In this work, we propose the combination of two SVM-based classifiers with different kernel functions: Linear kernel and Gaussian Radial Basis Function (RBF) kernel with a Logistic Regression (LR) classifier. The combination is carried out by means of a parallel structure approach, in which different voting rules to take the final decision are considered. Results show that significant improvement in the performance of the SV system is achieved by using the combined features with the combined classifiers either with clean speech or in the presence of noise. Finally, to enhance the system more in noisy environments, the inclusion of the multiband noise removal technique as a preprocessing stage is proposed.
翻訳日:2024-01-29 14:28:19 公開日:2024-01-26
# 走査型トンネル顕微鏡による表面スピン系の絡み合い確認プロトコル

Protocol for certifying entanglement in surface spin systems using a scanning tunneling microscope ( http://arxiv.org/abs/2401.15017v1 )

ライセンス: Link先を確認
Rik Broekhoven, Curie Lee, Soo-hyon Phark, Sander Otte, Christoph Wolf(参考訳) 量子エンタングルメントの証明は、表面スピン系の量子コヒーレント応用を実現するための重要なステップである。 本研究では,電子スピン共鳴を伴う走査型トンネル顕微鏡 (stm) において,エンタングル状態が系の他の時間変化と明確に区別される特徴的な時間定数を持つ自由時間発展を受けるという事実を生かして,エンタングルメントを曖昧に表現できることを示す。 適切な位相制御方式を実装することにより、この時間進化の位相を一対の絡み合ったスピンの集団にマッピングし、走査トンネル顕微鏡の接合部における弱い結合されたセンサスピンを用いて確実に読み取ることができる。 本研究では, スピンコヒーレンス時間$T_2\approx$300 nsで利用可能な実時間スピンシステムを用いたオープン量子システムシミュレーションにより, セルビン型低温STMシステムにおいて, 100-400 mKの温度範囲で, エンタングルメントの程度と直接相関した信号を測定することができることを示した。

Certifying quantum entanglement is a critical step towards realizing quantum-coherent applications of surface spin systems. In this work, we show that entanglement can be unambiguously shown in a scanning tunneling microscope (STM) with electron spin resonance by exploiting the fact that entangled states undergo a free time evolution with a distinct characteristic time constant that clearly distinguishes it from any other time evolution in the system. By implementing a suitable phase control scheme, the phase of this time evolution can be mapped back onto the population of one entangled spin in a pair, which can then be read out reliably using a weakly coupled sensor spin in the junction of the scanning tunneling microscope. We demonstrate through open quantum system simulations with realistic spin systems, which are currently available with spin coherence times of $T_2\approx$ 300 ns, that a signal directly correlated with the degree of entanglement can be measured at a temperature range of 100$-$400 mK accessible in sub-Kelvin cryogenic STM systems.
翻訳日:2024-01-29 14:27:47 公開日:2024-01-26
# Airavata: ヒンディー語指導のLLMの導入

Airavata: Introducing Hindi Instruction-tuned LLM ( http://arxiv.org/abs/2401.15006v1 )

ライセンス: Link先を確認
Jay Gala and Thanmay Jayakumar and Jaavid Aktar Husain and Aswanth Kumar M and Mohammed Safi Ur Rahman Khan and Diptesh Kanojia and Ratish Puduppully and Mitesh M. Khapra and Raj Dabre and Rudra Murthy and Anoop Kunchukuttan(参考訳) ヒンディー語のための命令調整型LLMである"Airavata"の最初のリリースをアナウンスする。 airavataは、様々な命令をチューニングするヒンディー語データセットでopenhathiを微調整することで作成され、補助的なタスクに適している。 Indic Instructデータセットはまた、Indic LLMのさらなる研究を可能にする多様な命令チューニングデータセットのコレクションであるIndicInstructデータセットも共有しています。 さらに,Hindiにおけるタスク間のLLM性能を評価するための評価ベンチマークとフレームワークを提案する。 現在、AiravataはHindiをサポートしていますが、22の予定のIndic言語に拡張する予定です。 すべてのアーティファクトはhttps://ai4bharat.github.io/airavataでアクセスできる。

We announce the initial release of "Airavata," an instruction-tuned LLM for Hindi. Airavata was created by fine-tuning OpenHathi with diverse, instruction-tuning Hindi datasets to make it better suited for assistive tasks. Along with the model, we also share the IndicInstruct dataset, which is a collection of diverse instruction-tuning datasets to enable further research for Indic LLMs. Additionally, we present evaluation benchmarks and a framework for assessing LLM performance across tasks in Hindi. Currently, Airavata supports Hindi, but we plan to expand this to all 22 scheduled Indic languages. You can access all artifacts at https://ai4bharat.github.io/airavata.
翻訳日:2024-01-29 14:27:22 公開日:2024-01-26
# backdoorbench: backdoor learningの包括的なベンチマークと分析

BackdoorBench: A Comprehensive Benchmark and Analysis of Backdoor Learning ( http://arxiv.org/abs/2401.15002v1 )

ライセンス: Link先を確認
Baoyuan Wu, Hongrui Chen, Mingda Zhang, Zihao Zhu, Shaokui Wei, Danni Yuan, Mingli Zhu, Ruotong Wang, Li Liu, Chao Shen(参考訳) ディープ・ニューラル・ネットワーク(dnn)の脆弱性の研究において、近年、バックドア・ラーニング(backdoor learning)が注目されている。 しかし、主に多様な設定と既存の作品の実装と再現性の難しさから、不公平な比較、信頼できない結論(誤解、偏り、虚偽の結論など)をもたらすバックドア学習の統一的で標準化されたベンチマークが欠如している。 そのため,現在の進展を評価し,今後の開発ロードマップを策定することは困難である。 このジレンマを軽減するために、BackdoorBenchというバックドア学習の包括的なベンチマークを構築しました。 我々のベンチマークは研究コミュニティに3つの貴重な貢献をしている。 1) 拡張可能なモジュラーベースコードベースに基づく,最先端(sota)バックドア学習アルゴリズム(現在は16攻撃と27防御アルゴリズムを含む)の統合実装を提供する。 2) 防犯攻撃12件の総合的評価を4モデルと4データセットに基づいて5件の毒殺率で行い, 合計11,492対の評価を行った。 3) 以上の評価に基づき,8つの視点から18の有用な分析ツールを用いて分析を行い,裏口学習に関するいくつかの洞察を得た。 私たちは、既存のアルゴリズムを調査し、より革新的なアルゴリズムを開発し、バックドア学習の本質的なメカニズムを探るための、バックドア学習の強固な基盤を構築したいと考えています。 最後に、私たちはhttp://backdoorbench.comでユーザフレンドリーなWebサイトを作成しました。

As an emerging and vital topic for studying deep neural networks' vulnerability (DNNs), backdoor learning has attracted increasing interest in recent years, and many seminal backdoor attack and defense algorithms are being developed successively or concurrently, in the status of a rapid arms race. However, mainly due to the diverse settings, and the difficulties of implementation and reproducibility of existing works, there is a lack of a unified and standardized benchmark of backdoor learning, causing unfair comparisons, and unreliable conclusions (e.g., misleading, biased or even false conclusions). Consequently, it is difficult to evaluate the current progress and design the future development roadmap of this literature. To alleviate this dilemma, we build a comprehensive benchmark of backdoor learning called BackdoorBench. Our benchmark makes three valuable contributions to the research community. 1) We provide an integrated implementation of state-of-the-art (SOTA) backdoor learning algorithms (currently including 16 attack and 27 defense algorithms), based on an extensible modular-based codebase. 2) We conduct comprehensive evaluations of 12 attacks against 16 defenses, with 5 poisoning ratios, based on 4 models and 4 datasets, thus 11,492 pairs of evaluations in total. 3) Based on above evaluations, we present abundant analysis from 8 perspectives via 18 useful analysis tools, and provide several inspiring insights about backdoor learning. We hope that our efforts could build a solid foundation of backdoor learning to facilitate researchers to investigate existing algorithms, develop more innovative algorithms, and explore the intrinsic mechanism of backdoor learning. Finally, we have created a user-friendly website at http://backdoorbench.com, which collects all important information of BackdoorBench, including codebase, docs, leaderboard, and model Zoo.
翻訳日:2024-01-29 14:27:11 公開日:2024-01-26
# GameStopショートストリップにおけるReddit集団行動の因果的役割

The causal role of the Reddit collective action on the GameStop short squeeze ( http://arxiv.org/abs/2401.14999v1 )

ライセンス: Link先を確認
Antonio Desiderio, Luca Maria Aiello, Giulio Cimini, Laura Alessandretti(参考訳) 2021年初頭、GameStop、AMC、Nokia、BlackBerryの株価は劇的に上昇した。 これらのイベントは、初めて、オンラインソーシャルネットワークが金融集団のアクションを触媒する可能性を示した。 しかし、Redditユーザーがどのようにして、いつまで、どのようにしてこれらの価格を推し進める役割を担ったのかは不明だ。 これらの問題に対処するために、私たちは因果推論手法を採用し、RedditとTwitterのデータキャプチャアクティビティを活用し、高時間分解能の取引量を利用する。 Redditの議論は、GameStopのショートストレッチの前にトレーディングのボリュームを予想し、その予測力は時間単位の時間スケールで特に強かった。 この効果は突然現れ、イベントの数週間前に目立ったものになったが、投資家のコミュニティがtwitterを通じて広く注目されるようになると衰退した。 因果関係が広がるにつれ、Redditコミュニティの集団投資はGameStopのユーザーの財務的地位を通じて定量化され、株式の市場資本化を反映した。 今回の調査から明らかになった証拠は、RedditユーザーがGameStopの短縮を加速し、Redditが共有金融戦略のコーディネートハブとして機能したことを示している。 1月末、GameStopについて話しているユーザーはBlackBerry、AMC、Nokiaの人気を高めた。 全体として、われわれの調査結果はソーシャルメディアユーザーによる最初の大規模な金融集団行動の背後にあるダイナミクスに光を当てた。

In early 2021, the stock prices of GameStop, AMC, Nokia, and BlackBerry experienced dramatic increases, triggered by short squeeze operations that have been largely attributed to Reddit's retail investors. These events showcased, for the first time, the potential of online social networks to catalyze financial collective action. How, when and to what extent Reddit users played a causal role in driving up these prices, however, remains unclear. To address these questions, we employ causal inference techniques, leveraging data capturing activity on Reddit and Twitter, and trading volume with a high temporal resolution. We find that Reddit discussions foreshadowed trading volume before the GameStop short squeeze, with their predictive power being particularly strong on hourly time scales. This effect emerged abruptly and became prominent a few weeks before the event, but waned once the community of investors gained widespread visibility through Twitter. As the causal link unfolded, the collective investment of the Reddit community, quantified through each user's financial position on GameStop, closely mirrored the market capitalization of the stock. The evidence from our study suggests that Reddit users fueled the GameStop short squeeze, and thereby Reddit served as a coordination hub for a shared financial strategy. Towards the end of January, users talking about GameStop contributed to raise the popularity of BlackBerry, AMC and Nokia, which emerged as the most popular stocks as the community gained global recognition. Overall, our results shed light on the dynamics behind the first large-scale financial collective action driven by social media users.
翻訳日:2024-01-29 14:26:37 公開日:2024-01-26
# 制御位相シフト演算子を用いた量子グラフ状態の絡み合いの幾何学的測定

Geometric measure of entanglement of quantum graph states prepared with controlled phase shift operators ( http://arxiv.org/abs/2401.14997v1 )

ライセンス: Link先を確認
N. A. Susulovska(参考訳) 制御位相シフト演算子の多ビット系の分離状態に対する作用によって生成されるグラフ状態を考える。 全ての量子ビットが最初に任意の状態に準備される場合について検討する。 任意の重み付きグラフで表されるグラフ状態の残りの系と量子ビットの絡み合いの幾何学的測度を求め、状態パラメータとの関係を確立する。 2量子ビットグラフの場合、エンタングルメントの幾何学的測度は、補助平均スピン測定に基づくibmのシミュレータqiskit aerと量子プロセッサibmq limaでも定量化される。 量子計算の結果は解析的な予測を検証する。

We consider graph states generated by the action of controlled phase shift operators on a separable state of a multi-qubit system. The case when all the qubits are initially prepared in arbitrary states is investigated. We obtain the geometric measure of entanglement of a qubit with the remaining system in graph states represented by arbitrary weighted graphs and establish its relationship with state parameters. For two-qubit graph states, the geometric measure of entanglement is also quantified on IBM's simulator Qiskit Aer and quantum processor ibmq lima based on auxiliary mean spin measurements. The results of quantum computations verify our analytical predictions.
翻訳日:2024-01-29 14:26:10 公開日:2024-01-26
# 量子プロセストモグラフィによる非エルミタン系のリウビリアン例外点

Liouvillian Exceptional Points of Non-Hermitian Systems via Quantum Process Tomography ( http://arxiv.org/abs/2401.14993v1 )

ライセンス: Link先を確認
Shilan Abo, Patrycja Tulewicz, Karol Bartkiewicz, \c{S}ahin K. \"Ozdemir, and Adam Miranowicz(参考訳) ハミルトニアン例外点(英: Hamiltonian exceptional points、HEPs)は、古典的および半古典的開系を利得と損失で記述する非エルミート的ハミルトニアンのスペクトル退化である。 しかし、この定義は開量子系の進化における量子ジャンプの発生を見落としている。 これらの量子効果は、リウヴィリアンとその例外点 (LEPs) [Minganti et al., Phys) を考えることによって適切に説明される。 rev. a {\bf 100}, 062131 (2019)]。 ここでは、量子系のダイナミクスを明らかにする標準量子プロセストモグラフィーが、非エルミート系のレップの解明と特徴付けに容易に適用可能であることを明示的に記述する。 我々は,ibm量子プロセッサを用いて,単一量子ビットの減衰を3つの競合チャネルでシミュレーションするプロトタイプモデルを実装した。 その後,単立方解法と二立方解法の両方を用いて,対応する実験的なリウビリアンとレップのトモグラフィーによる再構成を行った。 この例は、モデルにhepsがないにもかかわらず、lepのチューニングと観察におけるプロセストモグラフィーの有効性を強調する。

Hamiltonian exceptional points (HEPs) are spectral degeneracies of non-Hermitian Hamiltonians describing classical and semiclassical open systems with gain and/or loss. However, this definition overlooks the occurrence of quantum jumps in the evolution of open quantum systems. These quantum effects are properly accounted for by considering Liouvillians and their exceptional points (LEPs) [Minganti et al., Phys. Rev. A {\bf 100}, 062131 (2019)]. Here, we explicitly describe how standard quantum process tomography, which reveals the dynamics of a quantum system, can be readily applied to reveal and characterize LEPs of non-Hermitian systems. We conducted experiments on an IBM quantum processor to implement a prototype model simulating the decay of a single qubit through three competing channels. Subsequently, we performed tomographic reconstruction of the corresponding experimental Liouvillians and their LEPs using both single- and two-qubit operations. This example underscores the efficacy of process tomography in tuning and observing LEPs, despite the absence of HEPs in the model.
翻訳日:2024-01-29 14:25:58 公開日:2024-01-26
# EAGLE: 投機的サンプリングは機能不確かさを再考する必要がある

EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty ( http://arxiv.org/abs/2401.15077v1 )

ライセンス: Link先を確認
Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang(参考訳) 自動回帰デコーディングは、LLM(Large Language Models)の推論に時間を要する。 本稿では,損失のないアクセラレーションのための単純なフレームワーク EAGLE (Extrapolation Algorithm for Greater Language-model efficiency) を提案する。 従来の投機的サンプリング手法とは異なり、eagleはより正規な(第2層)機能レベルで自動的にドラフトプロセスを実行し、次の機能予測問題におけるサンプリングの不確実性問題に対処する。 EAGLEが提供する加速度は損失がなく、ターゲットのLSMの微調整を伴わず、生成されたテキストはバニラ自動回帰復号と同じ分布を保持する。 本論文の提出時点で,ERGLEは投機的サンプリングファミリの中では最速のフレームワークである。 MT-benchでは、EAGLEはバニラ復号より3倍、Lookaheadより2倍、Medusaより1.6倍高速である。 gpt-fastを使用すると、1つのRTX 3090 GPU上でLLaMA2-Chat 13Bで平均160トークン/秒を達成する。

Auto-regressive decoding makes the inference of Large Language Models (LLMs) time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), for lossless acceleration. Unlike traditional speculative sampling methods, EAGLE operates the drafting process auto-regressively at the more regular (second-top-layer) feature level and addresses the sampling uncertainty issues in the next-feature prediction problems by integrating tokens from one time step ahead. The acceleration provided by EAGLE is lossless: it involves no fine-tuning of the target LLM, and the generated text maintains the same distribution as that of vanilla auto-regressive decoding. As of the submission of this paper, EAGLE is the fastest known framework within the speculative sampling family. On MT-bench, EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of Huggingface's implementations.
翻訳日:2024-01-29 14:18:45 公開日:2024-01-26
# 生成モデルのための注釈手

Annotated Hands for Generative Models ( http://arxiv.org/abs/2401.15075v1 )

ライセンス: Link先を確認
Yue Yang and Atith N Gandhi and Greg Turk(参考訳) GANや拡散モデルのような生成モデルは印象的な画像生成能力を示している。 これらの成功にもかかわらず、これらのシステムは驚くほど手動で画像を作成するのが苦手だ。 本稿では,手動画像作成能力を大幅に向上する生成モデルのための新しいトレーニングフレームワークを提案する。 私たちのアプローチは、画像にアノテーションを提供する3つの追加チャンネルでトレーニングイメージを強化することです。 これらのアノテーションは、より高品質な手画像を生成するために生成モデルをコークスする追加構造を提供する。 本手法は,2つの異なる生成モデル – 生成逆数ネットワークと拡散モデル – に対して実証する。 本手法は,手画像の新しい合成データセットと,手を含む実写真の両方で実証する。 既製手指検出装置を用いて指関節識別の信頼性を高めることにより, 生成手の品質向上を図った。

Generative models such as GANs and diffusion models have demonstrated impressive image generation capabilities. Despite these successes, these systems are surprisingly poor at creating images with hands. We propose a novel training framework for generative models that substantially improves the ability of such systems to create hand images. Our approach is to augment the training images with three additional channels that provide annotations to hands in the image. These annotations provide additional structure that coax the generative model to produce higher quality hand images. We demonstrate this approach on two different generative models: a generative adversarial network and a diffusion model. We demonstrate our method both on a new synthetic dataset of hand images and also on real photographs that contain hands. We measure the improved quality of the generated hands through higher confidence in finger joint identification using an off-the-shelf hand detector.
翻訳日:2024-01-29 14:18:15 公開日:2024-01-26
# 量子型: 量子ビットと量子ゲートを越えて

Quantum types: going beyond qubits and quantum gates ( http://arxiv.org/abs/2401.15073v1 )

ライセンス: Link先を確認
Tam\'as Varga, Yaiza Aragon\'es-Soria, Manuel Oriol(参考訳) 量子コンピューティングは、大きな応用可能性を持つ成長分野である。 量子プログラムのプログラミングの仕方を学ぶことは、量子ビットの動作の理解と量子ゲートの使い方の学習を意味する。 これは論理ゲートとビットを使って古典的なアルゴリズムを作成するのに似ている。 すべての概念を学習した後でも、ほとんどの開発者が量子プログラミングを受け入れるのを妨げる新しいアルゴリズムを作成するのは難しい。 この記事では、高レベルの抽象化の必要性を概説し、Rhymeという開発者フレンドリーなプログラミング言語でそれらをいくつか提案する。 新しい量子型は、ビット、整数、フロート、文字、配列、文字列を含む古典的な型の拡張である。 このような型をコードスニペットで使う方法を示します。

Quantum computing is a growing field with significant potential applications. Learning how to code quantum programs means understanding how qubits work and learning to use quantum gates. This is analogous to creating classical algorithms using logic gates and bits. Even after learning all concepts, it is difficult to create new algorithms, which hinders the acceptance of quantum programming by most developers. This article outlines the need for higher-level abstractions and proposes some of them in a developer-friendly programming language called Rhyme. The new quantum types are extensions of classical types, including bits, integers, floats, characters, arrays, and strings. We show how to use such types with code snippets.
翻訳日:2024-01-29 14:18:04 公開日:2024-01-26
# GPT-4からGeminiとBeyondへ:4つのモダリティによるMLLMの景観の一般化性, 信頼性, 因果性を評価する

From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities ( http://arxiv.org/abs/2401.15071v1 )

ライセンス: Link先を確認
Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang(参考訳) MLLM(Multi-modal Large Language Models)は,マルチモーダルコンテンツに対して合理的な応答を生成する能力を示す。 しかし、最近のMLLMベースのアプリケーションのパフォーマンスと、最も強力なOpenAIのGPT-4とGoogleのGeminiがデプロイされているにもかかわらず、一般大衆の期待との間にはまだ大きなギャップがある。 本稿では,最近のプロプライエタリでオープンソースであるmllmの汎用性,信頼性,因果的推論能力について,ie,テキスト,コード,画像,ビデオの4つのモードにまたがって定性的な研究を行い,最終的にmllmの透明性向上を目指す。 これらの特性は、様々な下流アプリケーションをサポートする上で、MLLMの信頼性を定義するいくつかの代表的な要因であると考えている。 具体的には、GPT-4 と Gemini と6つのオープンソース LLM と MLLM を評価した。 全体として230のケースを手作業で評価し,定性的な結果を12のスコア(4つのモダリティの3つの特性)にまとめる。 全体として、より信頼性の高いダウンストリームマルチモーダルアプリケーションに向けて、プロプライエタリとオープンソースの両方のmllmの機能と制限を理解するのに有用な14の実証的発見を明らかにする。

Multi-modal Large Language Models (MLLMs) have shown impressive abilities in generating reasonable responses with respect to multi-modal contents. However, there is still a wide gap between the performance of recent MLLM-based applications and the expectation of the broad public, even though the most powerful OpenAI's GPT-4 and Google's Gemini have been deployed. This paper strives to enhance understanding of the gap through the lens of a qualitative study on the generalizability, trustworthiness, and causal reasoning capabilities of recent proprietary and open-source MLLMs across four modalities: ie, text, code, image, and video, ultimately aiming to improve the transparency of MLLMs. We believe these properties are several representative factors that define the reliability of MLLMs, in supporting various downstream applications. To be specific, we evaluate the closed-source GPT-4 and Gemini and 6 open-source LLMs and MLLMs. Overall we evaluate 230 manually designed cases, where the qualitative results are then summarized into 12 scores (ie, 4 modalities times 3 properties). In total, we uncover 14 empirical findings that are useful to understand the capabilities and limitations of both proprietary and open-source MLLMs, towards more reliable downstream multi-modal applications.
翻訳日:2024-01-29 14:17:54 公開日:2024-01-26
# ニューラル編集距離モデルを用いたオルソグラフィ的可変文単語の標準等価化

Pairing Orthographically Variant Literary Words to Standard Equivalents Using Neural Edit Distance Models ( http://arxiv.org/abs/2401.15068v1 )

ライセンス: Link先を確認
Craig Messner and Tom Lippincott(参考訳) 本稿は,19世紀の米国文学において,対応する「標準」単語対に注釈を付した正書的変種単語からなる新しいコーパスを提案する。 我々は、これらの変種を標準形式と組み合わせるために一連のニューラル編集距離モデルを訓練し、これらのモデルの性能をL2英語学習者による正書法誤差のコーパスに基づいて訓練されたニューラル編集距離モデルの性能と比較する。 最後に,これらのモデルの相対的パフォーマンスを,異なる負のトレーニングサンプル生成戦略に照らして分析し,文字列ペアリング手法に対する一意な難易度を示す。

We present a novel corpus consisting of orthographically variant words found in works of 19th century U.S. literature annotated with their corresponding "standard" word pair. We train a set of neural edit distance models to pair these variants with their standard forms, and compare the performance of these models to the performance of a set of neural edit distance models trained on a corpus of orthographic errors made by L2 English learners. Finally, we analyze the relative performance of these models in the light of different negative training sample generation strategies, and offer concluding remarks on the unique challenge literary orthographic variation poses to string pairing methodologies.
翻訳日:2024-01-29 14:17:26 公開日:2024-01-26
# 古典的量子貯水池計算の普遍性条件

Universality conditions of unified classical and quantum reservoir computing ( http://arxiv.org/abs/2401.15067v1 )

ライセンス: Link先を確認
Francesco Monzani, Enrico Prati(参考訳) 貯留層コンピューティング(Reservoir computing)は、計算神経科学と機械学習において汎用的なパラダイムであり、動的システムの非線形ダイナミクスを利用して時間依存情報を効率的に処理する。 導入以来、様々なアプリケーションで顕著な能力を発揮してきた。 広く知られているように、リザーバーコンピュータのクラスは、フェージングメモリを持つ関数の普遍近似器として機能する。 そのような普遍クラスの構成はしばしば文脈特異的に見えるが、実際にはそれらは同じ原理に従う。 本稿では,統一理論の枠組みを提示し,普遍性を確保するための既定設定を提案する。 我々は,量子貯留層計算の結果を起因とする文脈で検証する。 このような統一的な定理に導かれると、空間多重化が量子レジスタを扱う際の計算資源として機能する可能性が示唆される。 この分析は古典的および量子貯水池コンピューティングの統一的な見方に光を当てている。

Reservoir computing is a versatile paradigm in computational neuroscience and machine learning, that exploits the non-linear dynamics of a dynamical system - the reservoir - to efficiently process time-dependent information. Since its introduction, it has exhibited remarkable capabilities in various applications. As widely known, classes of reservoir computers serve as universal approximators of functionals with fading memory. The construction of such universal classes often appears context-specific, but in fact, they follow the same principles. Here we present a unified theoretical framework and we propose a ready-made setting to secure universality. We test the result in the arising context of quantum reservoir computing. Guided by such a unified theorem we suggest why spatial multiplexing may serve as a computational resource when dealing with quantum registers, as empirically observed in specific implementations on quantum hardware. The analysis sheds light on a unified view of classical and quantum reservoir computing.
翻訳日:2024-01-29 14:17:13 公開日:2024-01-26
# リニア光学を用いた高次元エンタングル状態解析装置

Efficient High-Dimensional Entangled State Analyzer with Linear Optics ( http://arxiv.org/abs/2401.15066v1 )

ライセンス: Link先を確認
Niv Bharos, Liubov Markovich and Johannes Borregaard(参考訳) 二次元エンコーディング(qubits)の代わりに高次元フォトニックエンコーディング(qudits)を使用することで、損失耐性を改善し、フォトニックベースの量子情報処理の計算資源を削減することができる。 このポテンシャルを利用するには、線形光学ベル測定の高次元一般化のようなエンタングリング演算の効率的なスキームが必要となる。 線形光学および補助フォトニック状態を用いて効率的な高次元絡み合い状態解析器を実装可能であることを示す。 我々のプロトコルにおける補助状態のシュミットランクは、以前の提案のように指数関数的ではない入力状態の次元にのみ線形にスケールする。 さらに、小さな量子ビットプロセッサに結合した単一量子エミッタから状態がどのように決定的に生成できるかを概説する。 そこで本プロトコルでは,線形光学を用いた効率的な高次元交絡状態解析のための実験可能な経路を概説する。

The use of higher-dimensional photonic encodings (qudits) instead of two-dimensional encodings (qubits) can improve the loss tolerance and reduce the computational resources of photonic-based quantum information processing. To harness this potential, efficient schemes for entangling operations such as the high-dimensional generalization of a linear optics Bell measurement will be required. We show how an efficient high-dimensional entangled state analyzer can be implemented with linear optics and auxiliary photonic states. The Schmidt rank of the auxiliary state in our protocol scales only linearly with the dimensions of the input states instead of more than exponentially, as in previous proposals. In addition, we outline how the state can be generated deterministically from a single quantum emitter coupled to a small qubit processor. Our protocol thus outlines an experimentally feasible route for efficient, high-dimensional entangled state analyzers with linear optics.
翻訳日:2024-01-29 14:16:59 公開日:2024-01-26
# expert with clustering:階層型オンライン選好学習フレームワーク

Expert with Clustering: Hierarchical Online Preference Learning Framework ( http://arxiv.org/abs/2401.15062v1 )

ライセンス: Link先を確認
Tianyue Zhou, Jung-Hoon Cho, Babak Rahimi Ardabili, Hamed Tabkhi, and Cathy Wu(参考訳) 新たなモビリティシステムは、パーソナライズされた持続可能なシステム成果に向けて、モビリティユーザーに選択肢を推奨する能力がますます高まっている。 一般的なレコメンデーションシステムよりも、後悔を最小限に抑えることが重要です。 1)移動手段は利用者の生活に直接影響を与え、 2)システムサステナビリティは十分なユーザ参加に依存している。 本研究では,ユーザのモビリティ嗜好を捉えた低次元の潜在空間を活用し,ユーザの嗜好学習の促進を検討する。 本稿では,クラスタ化手法と予測手法を専門家のアドバイスと統合した,階層的コンテキスト的バンディットフレームワークであるexpert with clustering (ewc)を提案する。 EWCは階層的ユーザ情報を効率的に利用し、新しいロス誘導距離計を組み込む。 この計量は、より代表的な中心体を生成するのに役立つ。 ユーザ毎の$N$,ユーザ毎の$T$,オプション毎の$K$のレコメンデーションシナリオでは,我々のアルゴリズムは,O(N\sqrt{T\log K} + NT)$の後悔の限界を達成している。 この境界は2つの部分から構成される: 第一項はヘッジアルゴリズムの後悔であり、第二項はクラスタリングからの平均損失に依存する。 このアルゴリズムは、特にユーザ間に潜在階層構造が存在する場合、低い後悔で実行される。 この後悔は、特に急速な学習と適応を必要とするシナリオにおいて、ewcの理論的および実験的有効性を強調する。 実験の結果、EWCはLinUCBベースラインと比較して、後悔を27.57%減らすことができた。 我々の研究は、個人と集団の両方の振る舞いを捉えるためのデータ効率のよいアプローチを提供し、階層構造を持つコンテキストに適用できる。 このアルゴリズムは、ユーザの好みと情報の層的なニュアンスを持つ他の設定にも適用できることを期待している。

Emerging mobility systems are increasingly capable of recommending options to mobility users, to guide them towards personalized yet sustainable system outcomes. Even more so than the typical recommendation system, it is crucial to minimize regret, because 1) the mobility options directly affect the lives of the users, and 2) the system sustainability relies on sufficient user participation. In this study, we consider accelerating user preference learning by exploiting a low-dimensional latent space that captures the mobility preferences of users. We introduce a hierarchical contextual bandit framework named Expert with Clustering (EWC), which integrates clustering techniques and prediction with expert advice. EWC efficiently utilizes hierarchical user information and incorporates a novel Loss-guided Distance metric. This metric is instrumental in generating more representative cluster centroids. In a recommendation scenario with $N$ users, $T$ rounds per user, and $K$ options, our algorithm achieves a regret bound of $O(N\sqrt{T\log K} + NT)$. This bound consists of two parts: the first term is the regret from the Hedge algorithm, and the second term depends on the average loss from clustering. The algorithm performs with low regret, especially when a latent hierarchical structure exists among users. This regret bound underscores the theoretical and experimental efficacy of EWC, particularly in scenarios that demand rapid learning and adaptation. Experimental results highlight that EWC can substantially reduce regret by 27.57% compared to the LinUCB baseline. Our work offers a data-efficient approach to capturing both individual and collective behaviors, making it highly applicable to contexts with hierarchical structures. We expect the algorithm to be applicable to other settings with layered nuances of user preferences and information.
翻訳日:2024-01-29 14:16:43 公開日:2024-01-26
# 光ニューラルネットワーク用ディジタル-アナログハイブリッド行列乗算処理装置

Digital-analog hybrid matrix multiplication processor for optical neural networks ( http://arxiv.org/abs/2401.15061v1 )

ライセンス: Link先を確認
Xiansong Meng, Deming Kong, Kwangwoong Kim, Qiuchi Li, Po Dong, Ingemar J. Cox, Christina Lioma, and Hao Hu(参考訳) 現代のAIの計算要求は、高速化と消費電力削減の潜在的なメリットを提供する光学ニューラルネットワーク(ONN)への関心を喚起している。 しかし、現在のONNは計算精度がほとんど(典型的には4ビット程度)、高分解能信号フォーマット変換器(DAC)とアナログ-アナログ変換(ADC)が要求されるなど、様々な課題に直面している。 これらの課題はアナログコンピューティングの性質に固有のものであり、実用的な実装において大きな障害となる。 本稿では,2進語形式のディジタル光入力を利用するONNのためのディジタルアナログハイブリッド光コンピューティングアーキテクチャを提案する。 しきい値に基づく論理レベルと決定を導入することで、計算精度を大幅に向上させることができる。 入力データのDACを除去でき、ADCの解像度を大幅に低減することができる。 これにより、高い計算精度で動作速度が向上し、マイクロエレクトロニクスとの互換性が向上する。 提案手法を検証するために,概念実証フォトニックチップを開発し,ニューラルネットワーク応用のためのハイブリッド光プロセッサ(HOP)システムを構築した。 我々は,高精細画像処理における16ビットの計算精度を実証し,画素誤差率(PER)を18.2dBの信号対雑音比(SNR)で1.8\times10^{-3}$とした。 また,手書き文字認識のための畳み込みニューラルネットワークを実装し,デスクトップコンピュータが達成したのと同じ精度を示す。 デジタルアナログハイブリッド光コンピューティングアーキテクチャの概念は、様々なONN実装に適用可能な方法論を提供し、ニューラルネットワークのための効率的で正確なドメイン固有光コンピューティングアーキテクチャに関する新たな研究を誘致する可能性がある。

The computational demands of modern AI have spurred interest in optical neural networks (ONNs) which offer the potential benefits of increased speed and lower power consumption. However, current ONNs face various challenges,most significantly a limited calculation precision (typically around 4 bits) and the requirement for high-resolution signal format converters (digital-to-analogue conversions (DACs) and analogue-to-digital conversions (ADCs)). These challenges are inherent to their analog computing nature and pose significant obstacles in practical implementation. Here, we propose a digital-analog hybrid optical computing architecture for ONNs, which utilizes digital optical inputs in the form of binary words. By introducing the logic levels and decisions based on thresholding, the calculation precision can be significantly enhanced. The DACs for input data can be removed and the resolution of the ADCs can be greatly reduced. This can increase the operating speed at a high calculation precision and facilitate the compatibility with microelectronics. To validate our approach, we have fabricated a proof-of-concept photonic chip and built up a hybrid optical processor (HOP) system for neural network applications. We have demonstrated an unprecedented 16-bit calculation precision for high-definition image processing, with a pixel error rate (PER) as low as $1.8\times10^{-3}$ at an signal-to-noise ratio (SNR) of 18.2 dB. We have also implemented a convolutional neural network for handwritten digit recognition that shows the same accuracy as the one achieved by a desktop computer. The concept of the digital-analog hybrid optical computing architecture offers a methodology that could potentially be applied to various ONN implementations and may intrigue new research into efficient and accurate domain-specific optical computing architectures for neural networks.
翻訳日:2024-01-29 14:16:09 公開日:2024-01-26
# マルチエージェント強化学習における完全独立通信

Fully Independent Communication in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2401.15059v1 )

ライセンス: Link先を確認
Rafael Pina, Varuna De Silva, Corentin Artaud and Xiaolan Liu(参考訳) MARL(Multi-Agent Reinforcement Learning)は、マルチエージェントシステム分野における幅広い研究領域である。 近年,MARLにおける通信手法の研究に焦点が当てられている。 複数の通信方式が提案されているが、これらは複雑すぎ、より実践的な文脈に容易に転送できない。 その理由の1つは、有名なパラメータ共有トリックを使用することによるものだ。 本稿では,パラメータを共有しないMARLの独立学習者がいかにコミュニケーションできるかを検討する。 そこで本研究では,この設定が問題の原因となりうることを実証し,新しい学習手法を提案する。 この結果から, 独立エージェントは, 課題にも拘わらず, コミュニケーション戦略を学習することができることがわかった。 さらに,本手法を用いて,MARLにおける通信が,パラメータの共有と共有の両面で異なるネットワーク能力にどのように影響するかを検討する。 我々は,コミュニケーションが必ずしも必要ではない場合や,効率的な学習を実現するために,選択したエージェントネットワークサイズをコミュニケーションと併用する場合に考慮する必要があることを観察する。

Multi-Agent Reinforcement Learning (MARL) comprises a broad area of research within the field of multi-agent systems. Several recent works have focused specifically on the study of communication approaches in MARL. While multiple communication methods have been proposed, these might still be too complex and not easily transferable to more practical contexts. One of the reasons for that is due to the use of the famous parameter sharing trick. In this paper, we investigate how independent learners in MARL that do not share parameters can communicate. We demonstrate that this setting might incur into some problems, to which we propose a new learning scheme as a solution. Our results show that, despite the challenges, independent agents can still learn communication strategies following our method. Additionally, we use this method to investigate how communication in MARL is affected by different network capacities, both for sharing and not sharing parameters. We observe that communication may not always be needed and that the chosen agent network sizes need to be considered when used together with communication in order to achieve efficient learning.
翻訳日:2024-01-29 14:15:35 公開日:2024-01-26
# 1次元スピン1/2横場xy模型の励起状態における共起分布:2つの異なる領域

Concurrence distribution in excited states of the 1D spin-1/2 transverse field XY model: two different regions ( http://arxiv.org/abs/2401.15057v1 )

ライセンス: Link先を確認
S. Mahdavifar, Z. Balador, M. R. Soltani(参考訳) スピン-1/2横磁場XY鎖系の励起状態における共起の変動について検討する。 まず, フェルミオン化法を用いて, システムハミルトニアンの固有値問題を正確に解く。 その後、全ての励起状態における近傍のスピンの対の一致を基底状態よりも高いエネルギーで計算する。 h_f=\sqrt{j^2-(j \delta)^2}$ で表される分解体の下には、励起状態における近傍同士の対角関係は見当たらない。 因子化状態に対応する因子化場において、非常に低いエネルギー状態における弱い共起を観測する。 h_f$を超えると、共起は強くなり、全ての励起状態が絡み合う。 絡み合った状態の密度は、励起スペクトルの中心でピークとなる。 さらに、収束の分布は、非零収束範囲の中間点が最も絡み合った励起状態を持つことを示した。

We investigate the variation of concurrence in a spin-1/2 transverse field XY chain system in an excited state. Initially, we precisely solve the eigenvalue problem of the system Hamiltonian using the fermionization technique. Subsequently, we calculate the concurrence between nearest-neighbor pairs of spins in all excited states with higher energy than the ground state. Below the factorized field, denoted as $h_f=\sqrt{J^2-(J \delta)^2}$, we find no pairwise entanglement between nearest neighbors in excited states. At the factorized field, corresponding to a factorized state, we observe weak concurrence in very low energy states. Beyond $h_f$, the concurrence strengthens, entangling all excited states. The density of entangled states peaks at the center of the excited spectrum. Additionally, the distribution of concurrence reveals that the midpoint of the non-zero concurrence range harbors the most entangled excited states.
翻訳日:2024-01-29 14:15:20 公開日:2024-01-26
# 複雑な場面におけるトマト分類のための深層学習に基づくアプローチ

Deep learning-based approach for tomato classification in complex scenes ( http://arxiv.org/abs/2401.15055v1 )

ライセンス: Link先を確認
Mikael A. Mousse, Bethel C. A. R. K. Atohoun, Cina Motamed(参考訳) トマトの熟成を追跡するのは時間と労力を要する。 人工知能技術とコンピュータビジョンの技術の組み合わせは、植物の成熟状態を監視するプロセスを最適化するのに役立つ。 そこで我々は,複雑な場面における深層学習に基づくトマト熟成モニタリング手法を提案する。 目的は、成熟したトマトを検出し、タイムリーに収穫することである。 提案手法は2つの部分に分かれている。 まず、シーンの画像が前処理層に送信される。 このプロセスは興味のある領域(トマトを含む画像の領域)を検出することができる。 そして、これらの画像を成熟度検出層への入力として使用する。 この層は、ディープニューラルネットワーク学習アルゴリズムに基づいて、緑、脆性、ピンク、淡い赤、成熟した赤の5つのカテゴリの1つに提供されるトマトのサムネイルを分類する。 実験は、英語、ドイツ語、フランス語、スペイン語などさまざまな言語でトマトの状態を検索し、インターネットから収集された画像に基づいている。 極端条件下で採取したトマトの画像からなるデータセット上の成熟度検出層の実験結果から,良好な分類率を得た。

Tracking ripening tomatoes is time consuming and labor intensive. Artificial intelligence technologies combined with those of computer vision can help users optimize the process of monitoring the ripening status of plants. To this end, we have proposed a tomato ripening monitoring approach based on deep learning in complex scenes. The objective is to detect mature tomatoes and harvest them in a timely manner. The proposed approach is declined in two parts. Firstly, the images of the scene are transmitted to the pre-processing layer. This process allows the detection of areas of interest (area of the image containing tomatoes). Then, these images are used as input to the maturity detection layer. This layer, based on a deep neural network learning algorithm, classifies the tomato thumbnails provided to it in one of the following five categories: green, brittle, pink, pale red, mature red. The experiments are based on images collected from the internet gathered through searches using tomato state across diverse languages including English, German, French, and Spanish. The experimental results of the maturity detection layer on a dataset composed of images of tomatoes taken under the extreme conditions, gave a good classification rate.
翻訳日:2024-01-29 14:15:05 公開日:2024-01-26
# longfin: 長期金融ドメイン文書のためのマルチモーダル文書理解モデル

LongFin: A Multimodal Document Understanding Model for Long Financial Domain Documents ( http://arxiv.org/abs/2401.15050v1 )

ライセンス: Link先を確認
Ahmed Masry and Amir Hajian(参考訳) Document AIは、日々の業務をより効率的にするために、スキャンされたドキュメントやデジタルドキュメントから情報の理解と抽出に焦点を当てた、成長する研究分野である。 多数のダウンストリームタスクとデータセットが導入され、レシートやスキャンされたフォームなど、さまざまなドキュメントタイプから情報を解析、抽出できるAIモデルのトレーニングが容易になった。 これらの進歩にもかかわらず、既存のデータセットとモデルの両方は、産業的な文脈で発生する重要な課題に対処できない。 既存のデータセットは主に1ページからなる短いドキュメントで構成され、既存のモデルは最大長が制限され、しばしば512トークンに設定される。 その結果、文書が複数のページにまたがる金融サービスにおけるこれらの手法の実践的応用は深刻な障害となる。 これらの課題を克服するために,最大4Kトークンをエンコード可能なマルチモーダルドキュメントAIモデルであるLongFinを紹介した。 また,金融書類にいくつかの産業課題をカプセル化した総合的な金融データセットであるlongforms datasetを提案する。 本研究では,LongFormsデータセット上でのLongFinモデルの有効性を実証し,既存の1ページベンチマークで比較した結果を維持しながら,既存の公開モデルの性能を上回った。

Document AI is a growing research field that focuses on the comprehension and extraction of information from scanned and digital documents to make everyday business operations more efficient. Numerous downstream tasks and datasets have been introduced to facilitate the training of AI models capable of parsing and extracting information from various document types such as receipts and scanned forms. Despite these advancements, both existing datasets and models fail to address critical challenges that arise in industrial contexts. Existing datasets primarily comprise short documents consisting of a single page, while existing models are constrained by a limited maximum length, often set at 512 tokens. Consequently, the practical application of these methods in financial services, where documents can span multiple pages, is severely impeded. To overcome these challenges, we introduce LongFin, a multimodal document AI model capable of encoding up to 4K tokens. We also propose the LongForms dataset, a comprehensive financial dataset that encapsulates several industrial challenges in financial documents. Through an extensive evaluation, we demonstrate the effectiveness of the LongFin model on the LongForms dataset, surpassing the performance of existing public models while maintaining comparable results on existing single-page benchmarks.
翻訳日:2024-01-29 14:14:49 公開日:2024-01-26
# 認識不能だが識別可能:保存埋め込みによる画像歪み

Unrecognizable Yet Identifiable: Image Distortion with Preserved Embeddings ( http://arxiv.org/abs/2401.15048v1 )

ライセンス: Link先を確認
Dmytro Zakharov, Oleksandr Kuznetsov, Emanuele Frontoni(参考訳) セキュリティアプリケーションの分野では、生体認証システムは重要な役割を果たすが、プライバシやセキュリティに関する問題に直面していることが多い。 最も根本的な課題の1つは、生体認証を直接ストレージに格納するのを避けることだ。 この問題に対処するため、人工知能とエンジニアリングの両方に貢献する。 本稿では,ニューラルネットワークモデルによる顔画像の識別性を維持しつつ,視覚に認識不能な顔画像を効果的にレンダリングする,革新的な画像歪み手法を提案する。 理論的観点から、予測されたアイデンティティが変化しない画像歪みの最大度をチェックすることによって、最先端のバイオメトリックス認識ニューラルネットワークがいかに信頼できるかを検討する。 一方, この手法の適用は, 生体認証システムにおけるセキュリティ, 精度, 性能のバランスをとる工学的課題に対して, 実践的な解決方法を示すものである。 広範に使用されているデータセットを実験することにより、AI特徴表現の保存と従来のメトリクスに対する歪曲の有効性を評価する。 また、我々の手法を以前使用した手法と比較する。

In the realm of security applications, biometric authentication systems play a crucial role, yet one often encounters challenges concerning privacy and security while developing one. One of the most fundamental challenges lies in avoiding storing biometrics directly in the storage but still achieving decently high accuracy. Addressing this issue, we contribute to both artificial intelligence and engineering fields. We introduce an innovative image distortion technique that effectively renders facial images unrecognizable to the eye while maintaining their identifiability by neural network models. From the theoretical perspective, we explore how reliable state-of-the-art biometrics recognition neural networks are by checking the maximal degree of image distortion, which leaves the predicted identity unchanged. On the other hand, applying this technique demonstrates a practical solution to the engineering challenge of balancing security, precision, and performance in biometric authentication systems. Through experimenting on the widely used datasets, we assess the effectiveness of our method in preserving AI feature representation and distorting relative to conventional metrics. We also compare our method with previously used approaches.
翻訳日:2024-01-29 14:14:29 公開日:2024-01-26
# 架橋プロトン導体を用いた複合シナプスのエミュレーション

Emulating Complex Synapses Using Interlinked Proton Conductors ( http://arxiv.org/abs/2401.15045v1 )

ライセンス: Link先を確認
Lifu Zhang, Ji-An Li, Yang Hu, Jie Jiang, Rongjie Lai, Marcus K. Benna, Jian Shi(参考訳) エネルギー効率と計算速度の面では、非揮発性メモリデバイスに基づくニューロモルフィックエレクトロニクスは、将来の人工知能(AI)の最も有望なハードウェア候補の1つとして期待されている。 しかし、悲惨なことに、新しいタスクを学ぶ際に学習した重みを素早く上書きするネットワークは、脳のようなコンピューティングの真の力を解き放つために、デジタルまたはアナログAIチップにおいて重要なハードルとなっている。 オンライン記憶記憶の文脈における破滅的な忘れに対処するため、複雑なシナプスモデル(ベンナ・フジモデル)が近年提案されており、そのシナプス重みと内部変数は拡散力学の後に進化する。 本研究では,一連の電荷拡散制御型記憶素子を有するプロトントランジスタの設計により,ベンナ-フシ人工複合体シナプスを実験的に実現している。 結合ストレージコンポーネントからのメモリ統合は数値シミュレーションと実験観測の両方によって明らかにされる。 複雑なシナプスの異なるメモリタイムスケールは、電荷キャリアの拡散長、結合ストレージコンポーネントの容量と数によって設計される。 顔の親近性検出のニューラルネットワークシミュレーションにより,メモリ容量とメモリ統合における複雑なシナプスの利点を明らかにした。 複雑なシナプスの実験的実現は,記憶能力の向上と連続学習の実現に有望なアプローチを示唆する。

In terms of energy efficiency and computational speed, neuromorphic electronics based on non-volatile memory devices is expected to be one of most promising hardware candidates for future artificial intelligence (AI). However, catastrophic forgetting, networks rapidly overwriting previously learned weights when learning new tasks, remains as a pivotal hurdle in either digital or analog AI chips for unleashing the true power of brain-like computing. To address catastrophic forgetting in the context of online memory storage, a complex synapse model (the Benna-Fusi model) has been proposed recently[1], whose synaptic weight and internal variables evolve following a diffusion dynamics. In this work, by designing a proton transistor with a series of charge-diffusion-controlled storage components, we have experimentally realized the Benna-Fusi artificial complex synapse. The memory consolidation from coupled storage components is revealed by both numerical simulations and experimental observations. Different memory timescales for the complex synapse are engineered by the diffusion length of charge carriers, the capacity and number of coupled storage components. The advantage of the demonstrated complex synapse in both memory capacity and memory consolidation is revealed by neural network simulations of face familiarity detection. Our experimental realization of the complex synapse suggests a promising approach to enhance memory capacity and to enable continual learning.
翻訳日:2024-01-29 14:14:12 公開日:2024-01-26
# DeepSeek-Coder: 大規模言語モデルがプログラミングに出会ったとき - コードインテリジェンスの増加

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence ( http://arxiv.org/abs/2401.14196v2 )

ライセンス: Link先を確認
Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y.K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang(参考訳) 大規模言語モデルの急速な開発は、ソフトウェア開発におけるコードインテリジェンスに革命をもたらした。 しかし、クローズドソースモデルの優位は広範な研究と開発を制限している。 これに対処するために、我々は2兆トークンでスクラッチからトレーニングされた、1.3bから33bまでのサイズのオープンソースのコードモデルであるdeepseek-coderシリーズを紹介します。 これらのモデルは高品質なプロジェクトレベルのコードコーパスで事前トレーニングされ、コード生成とインフィルリングを強化するために16kウィンドウのフィルイン・ザ・ブランクタスクを使用する。 広範な評価結果から,deepseek-coderは,複数のベンチマークをまたいだオープンソースコードモデル間の最先端のパフォーマンスを実現するだけでなく,codexやgpt-3.5といった既存のクローズドソースモデルを超えていることが示された。 さらに、DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にするパーミッシブライセンス下にある。

The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use.
翻訳日:2024-01-29 12:30:13 公開日:2024-01-26
# グラフ条件付き画像合成:シーングラフのためのCLIP誘導拡散モデル

Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs ( http://arxiv.org/abs/2401.14111v2 )

ライセンス: Link先を確認
Rameshwar Mishra, A V Subramanyam(参考訳) 生成モデルの進歩は、特定の構造ガイドラインに固執しながら画像を生成することに大きな関心を惹き起こした。 シーングラフから画像生成は、与えられたシーングラフと一致する画像を生成するタスクの1つです。 しかし、視覚的なシーンの複雑さは、シーングラフ内の特定の関係に基づいてオブジェクトを正確に整列させることに挑戦する。 既存の手法では、まずシーンレイアウトを予測し、敵のトレーニングを用いてこれらのレイアウトから画像を生成する。 本研究では,シーングラフから画像を生成する新しい手法を導入し,中間レイアウトの予測を不要にする。 トレーニング済みのテキスト-画像拡散モデルとCLIPガイダンスを利用して、グラフ知識を画像に変換する。 そこで我々はまず,GANベースのトレーニングを用いて,グラフ特徴と対応する画像のCLIP特徴とを一致させるために,グラフエンコーダを事前訓練する。 さらに、与えられたシーングラフに存在するオブジェクトラベルのクリップ埋め込みとグラフの特徴を融合して、グラフ一貫性のあるクリップガイド条件付け信号を生成する。 条件入力では、オブジェクト埋め込みは画像の粗い構造を提供し、グラフ特徴はオブジェクト間の関係に基づいた構造的アライメントを提供する。 最後に,再構成とクリップアライメント損失を伴うグラフ整合コンディショニング信号を用いて,事前学習した拡散モデルを微調整する。 精巧な実験により,coco-stuff と visual genome dataset の標準ベンチマークで既存の手法を上回った。

Advancements in generative models have sparked significant interest in generating images while adhering to specific structural guidelines. Scene graph to image generation is one such task of generating images which are consistent with the given scene graph. However, the complexity of visual scenes poses a challenge in accurately aligning objects based on specified relations within the scene graph. Existing methods approach this task by first predicting a scene layout and generating images from these layouts using adversarial training. In this work, we introduce a novel approach to generate images from scene graphs which eliminates the need of predicting intermediate layouts. We leverage pre-trained text-to-image diffusion models and CLIP guidance to translate graph knowledge into images. Towards this, we first pre-train our graph encoder to align graph features with CLIP features of corresponding images using a GAN based training. Further, we fuse the graph features with CLIP embedding of object labels present in the given scene graph to create a graph consistent CLIP guided conditioning signal. In the conditioning input, object embeddings provide coarse structure of the image and graph features provide structural alignment based on relationships among objects. Finally, we fine tune a pre-trained diffusion model with the graph consistent conditioning signal with reconstruction and CLIP alignment loss. Elaborate experiments reveal that our method outperforms existing methods on standard benchmarks of COCO-stuff and Visual Genome dataset.
翻訳日:2024-01-29 12:29:52 公開日:2024-01-26
# システム工学のシステムの範囲を拡大し、ダイナミックスを習得する持続可能な世界の構築

Engineering a sustainable world by enhancing the scope of systems of systems engineering and mastering dynamics ( http://arxiv.org/abs/2401.14047v2 )

ライセンス: Link先を確認
Rasmus Adler, Frank Elberzhager, Florian Balduf(参考訳) 持続可能な世界は、相互に相互作用する様々なシステムを考える必要がある。 これらのシステムには、生態システム、経済システム、社会システム、テクニカルシステムが含まれる。 それらは疎結合であり、地理的に分散し、永久に進化し、創発的な振る舞いを生み出す。 システム・オブ・システム(SoS)の特徴として,SoS工学の観点から持続可能な世界のエンギネアリングについて論じる。 我々は、政治レコメンデーションとエンジニアリングダイナミックなSoS研究ロードマップを目的とした研究プロジェクトの一環として、SoSエンジニアリングを研究した。 プロジェクトには、さまざまなアプリケーションドメインの業界やアカデミアの代表者による、徹底した文献レビュー、インタビュー、ワークショップが含まれていた。 これらの結果と観測結果に基づいて,SoSエンギナイアリングにおける現在の最先端技術が持続可能性の向上にどの程度適しているかを論じる。 持続可能性(Sustainability)は、すべてのドメインにおいてSoSエンジニアリングの主要な要因であるが、持続可能性(stainability)をエンジニアリングするには、現在のSoSエンジニアリングの範囲があまりに限られている、と我々は主張する。 さらに、この広い範囲のダイナミックスをマスターすることは、エンジニアの持続可能性にとって不可欠であり、技術的SoSの動的適応を伴うと論じる。

Engineering a sustainable world requires to consider various systems that interact with each other. These systems include ecological systems, economical systems, social systems and tech-nical systems. They are loosely coupled, geographically distributed, evolve permanently and generate emergent behavior. As these are characteristics of systems of systems (SoS), we discuss the engi-neering of a sustainable world from a SoS engineering perspective. We studied SoS engineering in context of a research project, which aims at political recommendations and a research roadmap for engineering dynamic SoS. The project included an exhaustive literature review, interviews and work-shops with representatives from industry and academia from different application domains. Based on these results and observations, we will discuss how suitable the current state-of-the-art in SoS engi-neering is in order to engineer sustainability. Sustainability was a major driver for SoS engineering in all domains, but we argue that the current scope of SoS engineering is too limited in order to engineer sustainability. Further, we argue that mastering dynamics in this larger scope is essential to engineer sustainability and that this is accompanied by dynamic adaptation of technological SoS.
翻訳日:2024-01-29 12:29:29 公開日:2024-01-26
# CMMU:中国のマルチモーダル質問理解と推論のためのベンチマーク

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning ( http://arxiv.org/abs/2401.14011v2 )

ライセンス: Link先を確認
Zheqi He, Xinya Wu, Pengfei Zhou, Richeng Xuan, Guang Liu, Xi Yang, Qiannan Zhu, Hua Huang(参考訳) マルチモーダルな大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力な知識理解と推論能力を示した。 しかしながら、mllmの知性を評価する上で不可欠なドメイン固有知識の習得は依然として課題である。 ドメイン固有の知識に対する現在のマルチモーダルベンチマークは、複数の選択の問題に集中しており、主に英語で利用可能であり、評価の包括性に制限を課している。 この目的のために、中国語における多モーダルおよび多型質問理解と推論のための新しいベンチマークであるCMMUを紹介する。 CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。 質問は、マルチチョイス、マルチレスポンス、フィル・イン・ザ・ブランクの3つのタイプに分類でき、mllmにより大きな課題をもたらす。 さらに,複数質問に対する評価を行うShiftCheckという厳密な評価戦略を提案する。 この戦略は位置バイアスを低減し、ランダム性の影響を最小限に抑え、位置バイアスを定量的に分析することを目的としている。 GPT4-V, Gemini-Pro, Qwen-VL-Plusの7つのオープンソースMLLMを評価した。 その結果,近年のMLLMではCMMUが大きな課題となっていることがわかった。

Multi-modal large language models(MLLMs) have achieved remarkable progress and demonstrated powerful knowledge comprehension and reasoning abilities. However, the mastery of domain-specific knowledge, which is essential for evaluating the intelligence of MLLMs, continues to be a challenge. Current multi-modal benchmarks for domain-specific knowledge concentrate on multiple-choice questions and are predominantly available in English, which imposes limitations on the comprehensiveness of the evaluation. To this end, we introduce CMMU, a novel benchmark for multi-modal and multi-type question understanding and reasoning in Chinese. CMMU consists of 3,603 questions in 7 subjects, covering knowledge from primary to high school. The questions can be categorized into 3 types: multiple-choice, multiple-response, and fill-in-the-blank, bringing greater challenges to MLLMs. In addition, we propose a rigorous evaluation strategy called ShiftCheck for assessing multiple-choice questions. The strategy aims to reduce position bias, minimize the influence of randomness on correctness, and perform a quantitative analysis of position bias. We evaluate seven open-source MLLMs along with GPT4-V, Gemini-Pro, and Qwen-VL-Plus. The results demonstrate that CMMU poses a significant challenge to the recent MLLMs.
翻訳日:2024-01-29 12:29:10 公開日:2024-01-26
# インストゥルメンタル変数モデルにおける仮定と境界

Assumptions and Bounds in the Instrumental Variable Model ( http://arxiv.org/abs/2401.13758v2 )

ライセンス: Link先を確認
Thomas S. Richardson and James M. Robins(参考訳) このノートでは、二項応答 $y$ を持つインストゥルメンタル変数 (iv) モデルに関する結果の証明と二項処理 $x$ が、$k$ のインストゥルメンタル変数 $z$ で示します。 これらの結果は、Richardson & Robins (2014), "ACE Bounds; SEMS with Equilibrium Conditions", arXiv:1410.0470に記載されている。

In this note we give proofs for results relating to the Instrumental Variable (IV) model with binary response $Y$ and binary treatment $X$, but with an instrument $Z$ with $K$ states. These results were originally stated in Richardson & Robins (2014), "ACE Bounds; SEMS with Equilibrium Conditions," arXiv:1410.0470.
翻訳日:2024-01-29 12:28:49 公開日:2024-01-26
# 回帰における教師なし領域適応のための不確かさ誘導アライメント

Uncertainty-Guided Alignment for Unsupervised Domain Adaptation in Regression ( http://arxiv.org/abs/2401.13721v2 )

ライセンス: Link先を確認
Ismail Nejjar, Gaetan Frusque, Florent Forest, Olga Fink(参考訳) Unsupervised Domain Adaptation for Regression (UDAR)は、ラベル付きソースドメインからラベル付きターゲットドメインにモデルを適応させることを目標としている。 近年のUDARの研究は、主に部分空間のアライメントに焦点を当て、特徴空間全体の中で選択された部分空間のアライメントを含む。 これは、機能空間全体を整列することを目的としており、有効性は証明されているが、回帰設定ではそうではない、分類に使用される特徴アライメント手法とは対照的である。 特に、分類は埋め込み次元全体にわたって異なるクラスタを識別することを目的としているが、回帰はデータ表現の構造を小さくし、効率的なアライメントのための追加のガイダンスを必要とする。 本稿では,不確実性からのガイダンスを取り入れたUDARの効果的な手法を提案する。 私たちのアプローチは、予測に対する信頼度の測定と埋め込み空間の正規化を提供するという、2つの目的に役立ちます。 具体的には、各サンプルに対して予測と不確実性の両方を出力するDeep Evidential Learningフレームワークを活用する。 特徴量や後部レベルにおける従来のアライメント手法を用いて,ソースドメインとターゲットドメイン間の高次顕在分布のパラメータを整列する手法を提案する。 さらに,ラベルの類似性に基づき,疑似ラベル付きターゲットサンプルとソースサンプルを混合することにより,特徴空間表現の強化を提案する。 このクロスドメイン混合戦略はランダム混合よりも現実的なサンプルを生成し、より高い不確実性をもたらし、さらなるアライメントを促進する。 既存の手法よりも優れているUDARの4つのベンチマークにおいて,本手法の有効性を実証する。

Unsupervised Domain Adaptation for Regression (UDAR) aims to adapt a model from a labeled source domain to an unlabeled target domain for regression tasks. Recent successful works in UDAR mostly focus on subspace alignment, involving the alignment of a selected subspace within the entire feature space. This contrasts with the feature alignment methods used for classification, which aim at aligning the entire feature space and have proven effective but are less so in regression settings. Specifically, while classification aims to identify separate clusters across the entire embedding dimension, regression induces less structure in the data representation, necessitating additional guidance for efficient alignment. In this paper, we propose an effective method for UDAR by incorporating guidance from uncertainty. Our approach serves a dual purpose: providing a measure of confidence in predictions and acting as a regularization of the embedding space. Specifically, we leverage the Deep Evidential Learning framework, which outputs both predictions and uncertainties for each input sample. We propose aligning the parameters of higher-order evidential distributions between the source and target domains using traditional alignment methods at the feature or posterior level. Additionally, we propose to augment the feature space representation by mixing source samples with pseudo-labeled target samples based on label similarity. This cross-domain mixing strategy produces more realistic samples than random mixing and introduces higher uncertainty, facilitating further alignment. We demonstrate the effectiveness of our approach on four benchmarks for UDAR, on which we outperform existing methods.
翻訳日:2024-01-29 12:28:39 公開日:2024-01-26
# 重要な情報:アルゴリズム決定の影響を受ける人々の情報ニーズを探る

Information That Matters: Exploring Information Needs of People Affected by Algorithmic Decisions ( http://arxiv.org/abs/2401.13324v3 )

ライセンス: Link先を確認
Timoth\'ee Schmude, Laura Koesten, Torsten M\"oller, Sebastian Tschiatschek(参考訳) AIシステムの説明は、アルゴリズム意思決定(ADM)によって影響を受ける人々の情報要求にほとんど対処しない。 影響を受ける利害関係者に重要な情報を伝達するこのギャップは、AI法のような規制フレームワークの理解と遵守を妨げる可能性がある。 このギャップに対処するため、我々は「xai novice question bank(xai novice question bank)」という2つの adm ユースケースにおける影響のあるステークホルダの情報ニーズのカタログ(雇用予測とヘルスモニタリング)を提示し、カテゴリデータ、システムコンテキスト、システム使用状況、システム仕様をカバーする。 インタヴュー調査で、参加者は質問に応じて説明を受けた。 参加者はさらに理解と決定の自信を報告し、説明を受けた後に自信が増す傾向にある一方で、参加者は理解が不完全であると感じた理由を理解できないなどの理解課題にも遭遇したことを示した。 説明は、システムのリスクとメリットに対する参加者の認識にさらに影響を与え、ユースケースに応じて確認または変更した。 リスクが高いと感じた場合、参加者は、なぜ、どのようにシステムを実行したのかといった、意図に関する説明に特に関心を示した。 本研究は,admシステムの導入を決定する際に関連する情報や課題の概要を提示することにより,影響のあるステークホルダーを説明可能性に含めることを支援することを目的とする。 私たちは、影響のあるステークホルダーの聴衆に将来の説明のデザインを知らせる6つの重要な含意のリストをまとめることで、調査結果を締めくくった。

Explanations of AI systems rarely address the information needs of people affected by algorithmic decision-making (ADM). This gap between conveyed information and information that matters to affected stakeholders can impede understanding and adherence to regulatory frameworks such as the AI Act. To address this gap, we present the "XAI Novice Question Bank": A catalog of affected stakeholders' information needs in two ADM use cases (employment prediction and health monitoring), covering the categories data, system context, system usage, and system specifications. Information needs were gathered in an interview study where participants received explanations in response to their inquiries. Participants further reported their understanding and decision confidence, showing that while confidence tended to increase after receiving explanations, participants also met understanding challenges, such as being unable to tell why their understanding felt incomplete. Explanations further influenced participants' perceptions of the systems' risks and benefits, which they confirmed or changed depending on the use case. When risks were perceived as high, participants expressed particular interest in explanations about intention, such as why and to what end a system was put in place. With this work, we aim to support the inclusion of affected stakeholders into explainability by contributing an overview of information and challenges relevant to them when deciding on the adoption of ADM systems. We close by summarizing our findings in a list of six key implications that inform the design of future explanations for affected stakeholder audiences.
翻訳日:2024-01-29 12:28:13 公開日:2024-01-26
# DiConStruct:ブラックボックス蒸留による因果概念に基づく説明

DiConStruct: Causal Concept-based Explanations through Black-Box Distillation ( http://arxiv.org/abs/2401.08534v4 )

ライセンス: Link先を確認
Ricardo Moreira, Jacopo Bono, M\'ario Cardoso, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro(参考訳) モデル解釈可能性は人間-AI意思決定システムにおいて中心的な役割を果たす。 理想的には、説明は人間の解釈可能な意味概念を用いて表現されるべきである。 さらに、これらの概念間の因果関係は、説明者によって、説明に関する推論を可能にするために捉えるべきである。 最後に、説明方法は効率的であり、予測タスクのパフォーマンスを損なうべきではない。 近年のai説明能力の急速な進歩にもかかわらず、我々が知る限り、これら3つの特性を満たす方法はない。 実際、局所的な概念説明可能性の主流の手法は因果説明を生み出しず、説明可能性と予測性能の間のトレードオフをもたらす。 提案するDiConStructは,概念ベースと因果関係の両方の手法であり,構造因果モデルと概念属性の形式でより解釈可能な局所的説明を作成することを目的としている。 筆者らは,ブラックボックス機械学習モデルの蒸留モデルとして,その予測を近似し,それぞれの説明を生成する。 このため、DiConStructはブラックボックス予測タスクに影響を与えることなく、効率的に説明を生成する。 本手法を画像データセットと表データデータセット上で検証し,diconstructがブラックボックスモデルを他の概念説明可能性ベースラインよりも高い忠実度で近似することを示すとともに,概念間の因果関係を含む説明を提供する。

Model interpretability plays a central role in human-AI decision-making systems. Ideally, explanations should be expressed using human-interpretable semantic concepts. Moreover, the causal relations between these concepts should be captured by the explainer to allow for reasoning about the explanations. Lastly, explanation methods should be efficient and not compromise the performance of the predictive task. Despite the rapid advances in AI explainability in recent years, as far as we know to date, no method fulfills these three properties. Indeed, mainstream methods for local concept explainability do not produce causal explanations and incur a trade-off between explainability and prediction performance. We present DiConStruct, an explanation method that is both concept-based and causal, with the goal of creating more interpretable local explanations in the form of structural causal models and concept attributions. Our explainer works as a distillation model to any black-box machine learning model by approximating its predictions while producing the respective explanations. Because of this, DiConStruct generates explanations efficiently while not impacting the black-box prediction task. We validate our method on an image dataset and a tabular dataset, showing that DiConStruct approximates the black-box models with higher fidelity than other concept explainability baselines, while providing explanations that include the causal relations between the concepts.
翻訳日:2024-01-29 12:27:47 公開日:2024-01-26
# 情報経路計画を用いた未知環境における意味セグメンテーションのための半教師付きアクティブラーニング

Semi-Supervised Active Learning for Semantic Segmentation in Unknown Environments Using Informative Path Planning ( http://arxiv.org/abs/2312.04402v3 )

ライセンス: Link先を確認
Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、ロボットが幾何学以外の環境を知覚し、推論することを可能にする。 このようなシステムのほとんどは、ディープラーニングのアプローチに基づいている。 自律ロボットは、当初未知の環境で一般的にデプロイされるため、静的データセットの事前トレーニングは、常にさまざまなドメインをキャプチャして、ミッション中のロボットの知覚性能を制限することはできない。 近年,ロボットの視力を向上させるために,自己指導的かつ完全に教師付きな能動学習手法が出現している。 これらのアプローチは、大規模なドメイン内事前トレーニングデータセットに依存している。 本稿では,完全教師付きアプローチと比較して,人間のラベル付け要件を大幅に削減する意味セグメンテーションの半教師付きアクティブラーニング計画法を提案する。 高モデル不確実性が人間のラベル付けのためのトレーニングデータを集めることで、未探索空間のフロンティアに向けて誘導される適応地図ベースのプランナーを活用する。 提案手法の主な特徴は, 環境マップ領域から自動的に抽出される擬似ラベルと, まばらな高品質なラベルを組み合わせることである。 実験の結果, 完全教師ありアプローチに近いセグメンテーション性能に到達し, 自己教師ありアプローチを上回って, 人間のラベル付け労力を大幅に削減した。

Semantic segmentation enables robots to perceive and reason about their environments beyond geometry. Most of such systems build upon deep learning approaches. As autonomous robots are commonly deployed in initially unknown environments, pre-training on static datasets cannot always capture the variety of domains and limits the robot's perception performance during missions. Recently, self-supervised and fully supervised active learning methods emerged to improve a robot's vision. These approaches rely on large in-domain pre-training datasets or require substantial human labelling effort. We propose a planning method for semi-supervised active learning of semantic segmentation that substantially reduces human labelling requirements compared to fully supervised approaches. We leverage an adaptive map-based planner guided towards the frontiers of unexplored space with high model uncertainty collecting training data for human labelling. A key aspect of our approach is to combine the sparse high-quality human labels with pseudo labels automatically extracted from highly certain environment map areas. Experimental results show that our method reaches segmentation performance close to fully supervised approaches with drastically reduced human labelling effort while outperforming self-supervised approaches.
翻訳日:2024-01-29 12:27:26 公開日:2024-01-26
# 現実的な可変ハッシュテーブルの検証

Verifying a Realistic Mutable Hash Table ( http://arxiv.org/abs/2107.08824v4 )

ライセンス: Link先を確認
Samuel Chassot, Viktor Kun\v{c}ak(参考訳) 本研究では,Scala 標準ライブラリから変更可能な LongMap を検証し,単一配列内のオープンアドレスを用いたハッシュテーブルをステンレスプログラム検証器を用いて検証する。 参照実装として、タプルのリストに基づいて不変なマップを書きます。 次に、LongMapの操作がこのアソシエーションリストの操作に対応することを示す。 ハッシュテーブル配列のリサイズ化を表現するため,新しい参照スワップ構造をステンレスで導入する。 これにより、エイリアスを導入することなくデコレータパターンを適用することができます。 検証作業によって、大きなハッシュテーブルに現れるオリジナルの実装のバグを発見し、修正しました。 性能分析の結果、検証されたバージョンはオリジナルのデータ構造の1.5要素以内であることが判明した。

In this work, we verify the mutable LongMap from the Scala standard library, a hash table using open addressing within a single array, using the Stainless program verifier. As a reference implementation, we write an immutable map based on a list of tuples. We then show that LongMap's operations correspond to operations of this association list. To express the resizing of the hash table array, we introduce a new reference swapping construct in Stainless. This allows us to apply the decorator pattern without introducing aliasing. Our verification effort led us to find and fix a bug in the original implementation that manifests for large hash tables. Our performance analysis shows the verified version to be within a 1.5 factor of the original data structure.
翻訳日:2024-01-29 12:27:10 公開日:2024-01-26