このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231003となっている論文です。

PDF登録状況(公開日: 20231003)

TitleAuthorsAbstract論文公表日・翻訳日
# 実世界の処理-インメモリシステムにおける同型動作の評価

Evaluating Homomorphic Operations on a Real-World Processing-In-Memory System ( http://arxiv.org/abs/2309.06545v2 )

ライセンス: Link先を確認
Harshita Gupta, Mayank Kabra, Juan Gómez-Luna, Konstantinos Kanellopoulos, Onur Mutlu, (参考訳) 暗号化されたデータのコンピューティングは、データセキュリティとプライバシリスクを低減するための有望なアプローチであり、同型暗号化がこの目標を達成するファシリテータとして機能する。 本研究では、PIM(Processing-in-Memory)パラダイムを用いて、メモリ容量と頻繁なデータ移動要求を緩和するホモモルフィック操作を高速化する。 実世界のPIMシステムを用いて、同型加法および乗法のためのBrakerski-Fan-Vercauteren (BFV) スキームを高速化する。 統計的ワークロード(パラメータ平均、分散、線形回帰)によるこれらの同型演算のPIM実装を評価し、CPUおよびGPU実装と比較する。 実PIMシステム(UPMEM)をCPU上で50~100倍,ベクトル加算時にGPU上で2~15倍の高速化を示した。 ベクトル乗算では、実際のPIMシステムはCPUを40-50倍の性能で上回る。 しかし、評価された第1世代の実PIMシステムでは、ネイティブな広範な乗算サポートが不足しているため、GPUの10~15倍遅れている。 例えば、分散と線形回帰により、実際のPIMシステムの性能改善はCPU上で30倍から300倍、GPU上では10倍から30倍の間で変化し、様々な量のデータに対して同型演算のスケーラビリティの観点から実際のPIMシステムトレードオフを明らかにする。 将来、実装をオープンソースにする予定です。

Computing on encrypted data is a promising approach to reduce data security and privacy risks, with homomorphic encryption serving as a facilitator in achieving this goal. In this work, we accelerate homomorphic operations using the Processing-in- Memory (PIM) paradigm to mitigate the large memory capacity and frequent data movement requirements. Using a real-world PIM system, we accelerate the Brakerski-Fan-Vercauteren (BFV) scheme for homomorphic addition and multiplication. We evaluate the PIM implementations of these homomorphic operations with statistical workloads (arithmetic mean, variance, linear regression) and compare to CPU and GPU implementations. Our results demonstrate 50-100x speedup with a real PIM system (UPMEM) over the CPU and 2-15x over the GPU in vector addition. For vector multiplication, the real PIM system outperforms the CPU by 40-50x. However, it lags 10-15x behind the GPU due to the lack of native sufficiently wide multiplication support in the evaluated first-generation real PIM system. For mean, variance, and linear regression, the real PIM system performance improvements vary between 30x and 300x over the CPU and between 10x and 30x over the GPU, uncovering real PIM system trade-offs in terms of scalability of homomorphic operations for varying amounts of data. We plan to make our implementation open-source in the future.
翻訳日:2024-03-19 06:43:22 公開日:2023-10-03
# LSTMとSMOTEによるクラス不均衡を用いたマルチクラスネットワーク侵入検出

Multi-class Network Intrusion Detection with Class Imbalance via LSTM & SMOTE ( http://arxiv.org/abs/2310.01850v1 )

ライセンス: Link先を確認
Muhammad Wasim Nawaz, Rashid Munawar, Ahsan Mehmood, Muhammad Mahboob Ur Rahman, Qammer H. Abbasi, (参考訳) ネットワークトラフィックを監視してサービス品質(QoS)を維持し、タイムリーかつ効率的な方法でネットワーク侵入を検出することが不可欠である。 ネットワークトラフィックは逐次的であるため、長い短期記憶(LSTM)のようなリカレントニューラルネットワーク(RNN)は、ネットワーク侵入検知システムを構築するのに適している。 しかし、まれな攻撃型のデータセット例がいくつかある場合、これらのネットワークでさえ性能が良くない。 本稿では,様々な種類のネットワーク侵入を検出するために,オーバーサンプリング手法と適切な損失関数を用いたクラス不均衡処理を提案する。 我々のディープラーニングモデルは、ネットワーク攻撃のマルチクラス分類を行うために、完全に接続された層を持つLSTMを使用している。 我々は少数民族の表現を強化する。 i)SMOTE(Synthetic Minority Over-Sampling Technique)の適用及び 二 多数民族の劣悪な事例に焦点因子を適用し、少数民族の厳しい事例に焦点をあてるために、カテゴリー的焦点クロスエントロピー損失を用いること。 KDD99とCICIDS2017データセットに関する大規模な実験は、ネットワーク侵入を検出するための有望な結果を示している(例:Probe、R2L、DDoS、PortScanなど、多くの稀な攻撃タイプがある)。

Monitoring network traffic to maintain the quality of service (QoS) and to detect network intrusions in a timely and efficient manner is essential. As network traffic is sequential, recurrent neural networks (RNNs) such as long short-term memory (LSTM) are suitable for building network intrusion detection systems. However, in the case of a few dataset examples of the rare attack types, even these networks perform poorly. This paper proposes to use oversampling techniques along with appropriate loss functions to handle class imbalance for the detection of various types of network intrusions. Our deep learning model employs LSTM with fully connected layers to perform multi-class classification of network attacks. We enhance the representation of minority classes: i) through the application of the Synthetic Minority Over-sampling Technique (SMOTE), and ii) by employing categorical focal cross-entropy loss to apply a focal factor to down-weight examples of the majority classes and focus more on hard examples of the minority classes. Extensive experiments on KDD99 and CICIDS2017 datasets show promising results in detecting network intrusions (with many rare attack types, e.g., Probe, R2L, DDoS, PortScan, etc.).
翻訳日:2024-03-19 03:21:56 公開日:2023-10-03
# DNNに基づく変調分類攻撃に対する波形操作

Waveform Manipulation Against DNN-based Modulation Classification Attacks ( http://arxiv.org/abs/2310.01894v1 )

ライセンス: Link先を確認
Dimitrios Varkatzas, Antonios Argyriou, (参考訳) 本稿では,無線通信信号の変調学習にDeep Neural Network (DNN) を用いた盗聴者に対する防御手法を提案する。 本手法は,変調データと混合した連続時間周波数変調(FM)難読化信号を用いて出力波形を操作することに基づく。 結果として得られる波形は、正規受信機(LRx)がデータを復調することを可能にするが、イーブスブッパーにおける事前訓練または逆トレーニングされたDNN分類器のテストエラーを増加させる。 この方式は、アナログ変調やデジタル単一キャリア、マルチキャリア直交周波数分割多重(OFDM)波形に対応し、フレームベースの無線プロトコルで実装できる。 その結果, 難聴波形のパラメータを慎重に選択することで, AWGNでは10%未満に, LRxでは性能損失が無く, フェーディングチャネルでは10%以下に分類性能を低下させることができることがわかった。

In this paper we propose a method for defending against an eavesdropper that uses a Deep Neural Network (DNN) for learning the modulation of wireless communication signals. Our method is based on manipulating the emitted waveform with the aid of a continuous time frequency-modulated (FM) obfuscating signal that is mixed with the modulated data. The resulting waveform allows a legitimate receiver (LRx) to demodulate the data but it increases the test error of a pre-trained or adversarially-trained DNN classifier at the eavesdropper. The scheme works for analog modulation and digital single carrier and multi carrier orthogonal frequency division multiplexing (OFDM) waveforms, while it can implemented in frame-based wireless protocols. The results indicate that careful selection of the parameters of the obfuscating waveform can drop classification performance at the eavesdropper to less than 10% in AWGN and fading channels with no performance loss at the LRx.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-03
# AIモデルLSB攻撃のステガナリシス

Steganalysis of AI Models LSB Attacks ( http://arxiv.org/abs/2310.01969v1 )

ライセンス: Link先を確認
Daniel Gilkarov, Ran Dubin, (参考訳) 人工知能はこの10年で大きな進歩を遂げ、モデル共有の人気が高まった。 事前訓練されたAIモデルのリポジトリであるモデル動物園エコシステムは、AIオープンソースコミュニティを前進させ、サイバーリスクのための新たな道を開いた。 悪意ある攻撃者は、共有モデルを利用してサイバー攻撃を開始することができる。 この研究は、AIモデルに注入された悪意のあるLast Significant Bit(LSB)ステガノグラフィーのステガナリシスに焦点を当てており、AIモデルアタックに焦点を当てた最初の研究である。 本報告では,AI検出ステガナリシス法と教師なしAI検出ステガナリシス法に基づいて,悪意のあるLSBステガノグラフィー攻撃を検出・軽減するためのステガナリシス法を提案する。 提案手法は,共有モデルの完全性を維持し,ユーザの信頼を守り,AIコミュニティ内でのオープンコラボレーションの勢いを維持することを目的としている。 本研究では,3つのステガナリシス法を提案し,コードをオープンソース化する。 ステガナリシスの成功はLSB攻撃部位に依存していることがわかった。 攻撃者がLSBの最小のビットを利用すると決めた場合、攻撃を検出する能力は低い。 しかし、攻撃が最重要なLSBビットである場合、ほぼ完全な精度で攻撃を検出することができる。

Artificial intelligence has made significant progress in the last decade, leading to a rise in the popularity of model sharing. The model zoo ecosystem, a repository of pre-trained AI models, has advanced the AI open-source community and opened new avenues for cyber risks. Malicious attackers can exploit shared models to launch cyber-attacks. This work focuses on the steganalysis of injected malicious Least Significant Bit (LSB) steganography into AI models, and it is the first work focusing on AI model attacks. In response to this threat, this paper presents a steganalysis method specifically tailored to detect and mitigate malicious LSB steganography attacks based on supervised and unsupervised AI detection steganalysis methods. Our proposed technique aims to preserve the integrity of shared models, protect user trust, and maintain the momentum of open collaboration within the AI community. In this work, we propose 3 steganalysis methods and open source our code. We found that the success of the steganalysis depends on the LSB attack location. If the attacker decides to exploit the least significant bits in the LSB, the ability to detect the attacks is low. However, if the attack is in the most significant LSB bits, the attack can be detected with almost perfect accuracy.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-03
# 信頼できるコンピューティングのための実行時検証

Runtime Verification for Trustworthy Computing ( http://arxiv.org/abs/2310.02341v1 )

ライセンス: Link先を確認
Robert Abela, Christian Colombo, Axel Curmi, Mattea Fenech, Mark Vella, Angelo Ferrando, (参考訳) 自律システムとロボットシステムは、信頼が損なわれている場合、潜在的に深刻な結果をもたらすような繊細な活動にますます信頼されている。 実行時検証技術は、通信プロトコルの望ましい特性を監視し、強制するためのインスピレーションの自然な源であり、侵入性を制限するための公式な基礎と方法を提供する。 最近提案された RV-TEE アプローチは、実行時検証がRich Execution Environment (REE) に対する信頼度を高める方法を示し、それによってTrusted Execution Environment (TEE) を中心にさらなる保護層を追加する。 本稿では, RV-TEE監視プロセスにおいて, RVを信頼性の高いコンピュータにデプロイすることの意味を反映して, RV-TEE監視プロセスの2つの脅威モデルに対して, 敵が高特権なしでシステムにアクセスできた場合と, 敵がホストシステムにすべての特権を付与するが、TEEから秘密を盗むことができない場合の実用的な解決策を提案する。

Autonomous and robotic systems are increasingly being trusted with sensitive activities with potentially serious consequences if that trust is broken. Runtime verification techniques present a natural source of inspiration for monitoring and enforcing the desirable properties of the communication protocols in place, providing a formal basis and ways to limit intrusiveness. A recently proposed approach, RV-TEE, shows how runtime verification can enhance the level of trust to the Rich Execution Environment (REE), consequently adding a further layer of protection around the Trusted Execution Environment (TEE). By reflecting on the implication of deploying RV in the context of trustworthy computing, we propose practical solutions to two threat models for the RV-TEE monitoring process: one where the adversary has gained access to the system without elevated privileges, and another where the adversary gains all privileges to the host system but fails to steal secrets from the TEE.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-03
# Jailbreaker in Jail: 大規模言語モデルのためのターゲットディフェンスの移動

Jailbreaker in Jail: Moving Target Defense for Large Language Models ( http://arxiv.org/abs/2310.02417v1 )

ライセンス: Link先を確認
Bocheng Chen, Advait Paliwal, Qiben Yan, (参考訳) 大きな言語モデル(LLM)は、その理解と指示に従う能力で知られており、敵の攻撃に対して脆弱である。 研究者らは、現在の商用LCMは非倫理的な答えを提示することで「無害」であるか、あるいは敵対的なクエリに直面した場合に有意義な答えを出すことを拒んで「無害」であるかを見出した。 有効性と無害性を両立させるため,移動目標防御(MTD)強化LLMシステムを設計した。 このシステムは、複数のモデル候補からの出力と一致し、敵の攻撃に対してより堅牢な非有害な回答を提供することを目的としている。 我々は、安全でない回答や応答しない回答をフィルタリングするために、クエリと出力の分析モデルを設計する。 %は,異なるLLMからランダムに出力を選択するという2つの目的を達成する。 我々は、最新の8つのチャットボットモデルと最先端の逆クエリを評価した。 MTD強化LLMシステムは攻撃成功率を37.5\%から0\%に下げる。 一方、応答拒否率は50\%から0\%に減少する。

Large language models (LLMs), known for their capability in understanding and following instructions, are vulnerable to adversarial attacks. Researchers have found that current commercial LLMs either fail to be "harmless" by presenting unethical answers, or fail to be "helpful" by refusing to offer meaningful answers when faced with adversarial queries. To strike a balance between being helpful and harmless, we design a moving target defense (MTD) enhanced LLM system. The system aims to deliver non-toxic answers that align with outputs from multiple model candidates, making them more robust against adversarial attacks. We design a query and output analysis model to filter out unsafe or non-responsive answers. %to achieve the two objectives of randomly selecting outputs from different LLMs. We evaluate over 8 most recent chatbot models with state-of-the-art adversarial queries. Our MTD-enhanced LLM system reduces the attack success rate from 37.5\% to 0\%. Meanwhile, it decreases the response refusal rate from 50\% to 0\%.
翻訳日:2024-03-19 03:21:56 公開日:2023-10-03
# 6G NTNのためのエッジAIを活用した物理層セキュリティ:潜在的な脅威と将来の可能性

Edge AI Empowered Physical Layer Security for 6G NTN: Potential Threats and Future Opportunities ( http://arxiv.org/abs/2401.01005v1 )

ライセンス: Link先を確認
Hong-fu Chou, Sourabh Solanki, Vu Nguyen Ha, Lin Chen, Sean Longyu Ma, Hayder Al-Hraishawi, Geoffrey Eappen, Symeon Chatzinotas, (参考訳) 人工知能(AI)サーバーによって提供される経済的利益の巨大な可能性のため、サイバーセキュリティの分野は、企業や政府間の国際規模での競争の顕著な場として出現する可能性がある。 AI技術の活用から得られるであろうアプリケーションの1つは、サイバーセキュリティ分野の進歩である。 そこで本論文では,NTN (6G Non-Terrestrial Networks) のコンテキストにおいて,物理層が遭遇する可能性のあるリスクについて概説する。 本研究は,最先端AI技術の物理層セキュリティ向上効果を示すことを目的として,6G NTNの領域におけるエッジAIの統合に関連する,最も予測可能な設計戦略をレビューする。 本稿では,次世代の信頼性の高い6G通信ネットワークにおけるエッジサーバ/デバイスの物理層セキュリティ向上を目的とした今後の調査基盤として,いくつかの知見を提供する。

Due to the enormous potential for economic profit offered by artificial intelligence (AI) servers, the field of cybersecurity has the potential to emerge as a prominent arena for competition among corporations and governments on a global scale. One of the prospective applications that stands to gain from the utilization of AI technology is the advancement in the field of cybersecurity. To this end, this paper provides an overview of the possible risks that the physical layer may encounter in the context of 6G Non-Terrestrial Networks (NTN). With the objective of showcasing the effectiveness of cutting-edge AI technologies in bolstering physical layer security, this study reviews the most foreseeable design strategies associated with the integration of edge AI in the realm of 6G NTN. The findings of this paper provide some insights and serve as a foundation for future investigations aimed at enhancing the physical layer security of edge servers/devices in the next generation of trustworthy 6G telecommunication networks.
翻訳日:2024-03-18 11:08:48 公開日:2023-10-03
# ATLASv2: ATLAS攻撃エンゲージメント、バージョン2

ATLASv2: ATLAS Attack Engagements, Version 2 ( http://arxiv.org/abs/2401.01341v1 )

ライセンス: Link先を確認
Andy Riddle, Kim Westfall, Adam Bates, (参考訳) ATLASv2は、"ATLAS: A Sequence-based Learning Approach for Attack Investigation"に含まれる以前に生成されたデータセットに基づいている。 オリジナルのATLASデータセットは、Windows Security Auditingシステムログ、Firefoxログ、WireShark経由のDNSログで構成されている。 ATLASv2では、品質の高いバックグラウンドノイズと追加のロギングバンテージポイントを備えたATLASデータセットの強化を目指しています。 この作業は、ATLASで記述された10の攻撃シナリオを再現するが、ログを拡張して、VMware Carbon Black Cloudを通じて追跡されるSysmonログとイベントを含む。 ATLASv2の主な貢献は、良質なシステムアクティビティの品質と攻撃シナリオの統合を改善することである。 アクティベーションを生成するために自動スクリプトに頼る代わりに、2人の研究者が、エンゲージメントを通じて、犠牲者のマシンを主要な作業ステーションとして使用しました。 これにより、実際のユーザの振る舞いのシステムログをキャプチャできるようになりました。 さらに、研究者らは、攻撃を被害者の作業フローに統合するためのラボで攻撃を実行した。 これによりATLASv2データセットは、実際の攻撃で生成されたシステムログアクティビティを反映した、現実的なシステムログを提供することができる。

ATLASv2 is based on a previously generated dataset included in "ATLAS: A Sequence-based Learning Approach for Attack Investigation." The original ATLAS dataset is comprised of Windows Security Auditing system logs, Firefox logs, and DNS logs via WireShark. In ATLASv2, we aim to enrich the ATLAS dataset with higher quality background noise and additional logging vantage points. This work replicates the ten attack scenarios described in ATLAS, but extends the logging to include Sysmon logs and events tracked through VMware Carbon Black Cloud. The main contribution of ATLASv2 is to improve the quality of the benign system activity and the integration of the attack scenarios. Instead of relying on automated scripts to generate activity, we had two researchers use the victim machines as their primary work stations throughout the course of the engagement. This allowed us to capture system logs on actual user behavior. Additionally, the researchers conducted the attacks in a lab setup allowing the integration of the attack into the work flow of the victim user. This allows the ATLASv2 dataset to provide realistic system logs that mirror the system log activity generated in real-world attacks.
翻訳日:2024-03-18 10:39:12 公開日:2023-10-03
# 脳波予測のための人工知能:応用カオス理論

Artificial Intelligence for EEG Prediction: Applied Chaos Theory ( http://arxiv.org/abs/2402.03316v1 )

ライセンス: Link先を確認
Soul Syrup(参考訳) 本研究では,脳波データ解析(EEG)の複雑な領域を探索し,32の脳波チャネルにまたがるデータのシーケンス・ツー・シーケンス予測に焦点を当てた。 この研究は、応用カオス理論と力学系理論の原理を調和させ、新しい特徴集合を包含し、深層学習モデルの表現能力を高める。 この試みの土台はトランスフォーマーに基づくシーケンス・ツー・シーケンスアーキテクチャであり、EEGシークエンスに固有の非線形および高次元の時間的依存関係を正確に捉えている。 アーキテクチャ設計,パラメータ初期化戦略,最適化技術を通じて,計算効率と予測性能の複雑なバランスをナビゲートした。 我々のモデルは、EEGデータシーケンス予測の先駆者であり、顕著な一般化性と堅牢性を示している。 この発見は脳波データダイナミクスの理解を広げるだけでなく、神経科学や他の様々な時間的シーケンス予測タスクに適応できる強力な分析フレームワークも明らかにしている。

In the present research, we delve into the intricate realm of electroencephalogram (EEG) data analysis, focusing on sequence-to-sequence prediction of data across 32 EEG channels. The study harmoniously fuses the principles of applied chaos theory and dynamical systems theory to engender a novel feature set, enriching the representational capacity of our deep learning model. The endeavour's cornerstone is a transformer-based sequence-to-sequence architecture, calibrated meticulously to capture the non-linear and high-dimensional temporal dependencies inherent in EEG sequences. Through judicious architecture design, parameter initialisation strategies, and optimisation techniques, we have navigated the intricate balance between computational expediency and predictive performance. Our model stands as a vanguard in EEG data sequence prediction, demonstrating remarkable generalisability and robustness. The findings not only extend our understanding of EEG data dynamics but also unveil a potent analytical framework that can be adapted to diverse temporal sequence prediction tasks in neuroscience and beyond.
翻訳日:2024-02-11 15:52:27 公開日:2023-10-03
# 曲線型ニューラルスタイルトランスファー

Curve-based Neural Style Transfer ( http://arxiv.org/abs/2401.08579v1 )

ライセンス: Link先を確認
Yu-hsuan Chen, Levent Burak Kara, Jonathan Cagan(参考訳) 本研究では,曲線型デザインスケッチ用に設計された新しいパラメトリックスタイルトランスファーフレームワークを提案する。 本研究では,2値スケッチ変換処理におけるニューラルスタイル変換手法が直面する従来の課題を,パラメトリックな形状編集規則,効率的なカーブ・ツー・ピクセル変換手法,画像Net-SketchにおけるVGG19の微調整などを用いて効果的に解決し,正確なスタイル抽出のための特徴ピラミッドネットワークとしての役割を高めた。 本研究は,直観的曲線画像と規則的編集とを調和させることにより,デザインの明瞭化と,製品デザインの領域内でのスタイル伝達の実践を向上する可能性を秘めている。

This research presents a new parametric style transfer framework specifically designed for curve-based design sketches. In this research, traditional challenges faced by neural style transfer methods in handling binary sketch transformations are effectively addressed through the utilization of parametric shape-editing rules, efficient curve-to-pixel conversion techniques, and the fine-tuning of VGG19 on ImageNet-Sketch, enhancing its role as a feature pyramid network for precise style extraction. By harmonizing intuitive curve-based imagery with rule-based editing, this study holds the potential to significantly enhance design articulation and elevate the practice of style transfer within the realm of product design.
翻訳日:2024-01-22 10:02:01 公開日:2023-10-03
# 潜在空間幾何学的共同設立補正を用いた医用画像のAIに基づく関連解析

AI-based association analysis for medical imaging using latent-space geometric confounder correction ( http://arxiv.org/abs/2311.12836v1 )

ライセンス: Link先を確認
Xianjing Liu, Bo Li, Meike W. Vernooij, Eppo B. Wolvius, Gennady V. Roshchupkin, Esther E. Bron(参考訳) AIは医療画像分析を大幅に強化しているが、非線形モデルにおける可視化上の課題や共同設立者の制御の欠如により、疫学的人口画像研究での利用は制限されている。 そこで我々は,複数の共同創設者に対する意味的特徴解釈とレジリエンスを強調するAI手法を提案する。 2d合成データセットから共同ファウンダーフリーな特徴を抽出すること、3dメッシュデータを用いた出生前アルコール曝露と子供の顔形状との関連性を検討すること、3dmriデータセットを用いた世界認知と脳画像の関係を探ること。 その結果, 共同設立者の影響を効果的に低減し, 共同設立団体の設立を減らした。 さらに、ユニークな視覚表現を提供し、識別された相関による特定の画像の変化を強調する。

AI has greatly enhanced medical image analysis, yet its use in epidemiological population imaging studies remains limited due to visualization challenges in non-linear models and lack of confounder control. Addressing this, we introduce an AI method emphasizing semantic feature interpretation and resilience against multiple confounders. Our approach's merits are tested in three scenarios: extracting confounder-free features from a 2D synthetic dataset; examining the association between prenatal alcohol exposure and children's facial shapes using 3D mesh data; exploring the relationship between global cognition and brain images with a 3D MRI dataset. Results confirm our method effectively reduces confounder influences, establishing less confounded associations. Additionally, it provides a unique visual representation, highlighting specific image alterations due to identified correlations.
翻訳日:2024-01-15 15:35:22 公開日:2023-10-03
# HPC-GPT:高性能コンピューティングのための大規模言語モデルの統合

HPC-GPT: Integrating Large Language Model for High-Performance Computing ( http://arxiv.org/abs/2311.12833v1 )

ライセンス: Link先を確認
Xianzhong Ding, Le Chen, Murali Emani, Chunhua Liao, Pei-Hung Lin, Tristan Vanderbruggen, Zhen Xie, Alberto E. Cerpa, Wan Du(参考訳) LLaMAモデルを含むLarge Language Models (LLM)は、様々な汎用自然言語処理(NLP)タスクに対して有効性を示した。 しかし、モデル応答の解釈に必要な専門知識のため、ハイパフォーマンスコンピューティング(HPC)ドメインタスクのパフォーマンスは最適以下である。 この課題に対応するために,HPCドメインの生成したQA(Question-Answer)インスタンスを用いて微調整を行う新しいLLaMAモデルであるHPC-GPTを提案する。 その有効性を評価するため、AIモデルとデータセットの管理とデータ競合検出という2つのHPCタスクに集中する。 HPC-GPTを用いることで、HPC関連シナリオにおけるその卓越性を実証し、既存の手法に匹敵する性能を示す。 LLMとHPC固有のタスク間の性能ギャップを埋めるHPC-GPTの可能性について検討した。 HPC-GPT では,LLM が HPC ドメインで優れ,複雑な計算アプリケーションにおける言語モデルの利用を簡略化することを目的としている。

Large Language Models (LLMs), including the LLaMA model, have exhibited their efficacy across various general-domain natural language processing (NLP) tasks. However, their performance in high-performance computing (HPC) domain tasks has been less than optimal due to the specialized expertise required to interpret the model responses. In response to this challenge, we propose HPC-GPT, a novel LLaMA-based model that has been supervised fine-tuning using generated QA (Question-Answer) instances for the HPC domain. To evaluate its effectiveness, we concentrate on two HPC tasks: managing AI models and datasets for HPC, and data race detection. By employing HPC-GPT, we demonstrate comparable performance with existing methods on both tasks, exemplifying its excellence in HPC-related scenarios. Our experiments on open-source benchmarks yield extensive results, underscoring HPC-GPT's potential to bridge the performance gap between LLMs and HPC-specific tasks. With HPC-GPT, we aim to pave the way for LLMs to excel in HPC domains, simplifying the utilization of language models in complex computing applications.
翻訳日:2024-01-15 15:35:05 公開日:2023-10-03
# 述語拡散:テキスト・画像拡散モデルのための述語論理に基づく注意誘導

Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2311.16117v1 )

ライセンス: Link先を確認
Kota Sueyoshi, Takashi Matsubara(参考訳) 拡散モデルは、高品質で多様で創造的な画像を生成する素晴らしい結果をもたらしている。 しかし、テキストベースの画像生成に関しては、しばしばテキストに示される意図された意味を捉えることに失敗する。 例えば、指定されたオブジェクトは生成されず、不要なオブジェクトは生成され、形容詞は変更を意図していないオブジェクトを変更できる。 さらに、オブジェクト間の保持を示す関係がしばしば見過ごされることがわかった。 テキストにおけるユーザの意図は様々であるが、既存の手法はこれらの一部だけを専門化する傾向がある。 本稿では,ユーザの意図を表現する統一フレームワークであるpredicated diffusionを提案する。 上述の問題の根源はテキストエンコーダであり、しばしば個々の単語のみに焦点を当て、それらの間の論理的関係を無視している。 提案手法は,テキストエンコーダにのみ依存するのではなく,テキスト中の意図した意味を述語論理を用いた命題として表現し,ファジィ述語として注目マップ内の画素を扱う。 これにより、画像を最小化することで、画像が命題を満たせる微分可能損失関数を得ることができる。 複数の既存の方法と比較すると、予測拡散は様々なテキストプロンプトに忠実な画像を生成することができることが示され、人間のエキュレータと事前学習された画像テキストモデルによって検証された。

Diffusion models have achieved remarkable results in generating high-quality, diverse, and creative images. However, when it comes to text-based image generation, they often fail to capture the intended meaning presented in the text. For instance, a specified object may not be generated, an unnecessary object may be generated, and an adjective may alter objects it was not intended to modify. Moreover, we found that relationships indicating possession between objects are often overlooked. While users' intentions in text are diverse, existing methods tend to specialize in only some aspects of these. In this paper, we propose Predicated Diffusion, a unified framework to express users' intentions. We consider that the root of the above issues lies in the text encoder, which often focuses only on individual words and neglects the logical relationships between them. The proposed method does not solely rely on the text encoder, but instead, represents the intended meaning in the text as propositions using predicate logic and treats the pixels in the attention maps as the fuzzy predicates. This enables us to obtain a differentiable loss function that makes the image fulfill the proposition by minimizing it. When compared to several existing methods, we demonstrated that Predicated Diffusion can generate images that are more faithful to various text prompts, as verified by human evaluators and pretrained image-text models.
翻訳日:2024-01-15 15:24:48 公開日:2023-10-03
# 情緒的モデリングの次は何でしょう? 大規模言語モデル

What's Next in Affective Modeling? Large Language Models ( http://arxiv.org/abs/2310.18322v1 )

ライセンス: Link先を確認
Nutchanon Yongsatianchot, Tobias Thejll-Madsen, Stacy Marsella(参考訳) 大規模言語モデル(llm)は、言語理解、推論、ストーリーテリング、情報検索から心の理論まで、様々なタスクでうまく機能することが最近示されている。 本研究の延長として,感情予測に関わる課題を解決するための GPT-4 の能力について検討する。 GPT-4は、感情理論を区別し、感情的な物語を思いつくことができる。 本研究は,GPT-4に感情体験の重要な要因を識別するよう促すことにより,自身の物語の感情的強度を操作可能であることを示す。 さらに, GPT-4 の逆評価能力について, 他者の目標, 信念, 感情の予測を依頼することで検討した。 一般に、GPT-4は正しい推論を行うことができる。 LLMは感情モデルにおいて重要な役割を果たす可能性があるが、感情関連プロセスの基礎となるメカニズムをモデル化しようとする作業を完全に置き換えるものではない。

Large Language Models (LLM) have recently been shown to perform well at various tasks from language understanding, reasoning, storytelling, and information search to theory of mind. In an extension of this work, we explore the ability of GPT-4 to solve tasks related to emotion prediction. GPT-4 performs well across multiple emotion tasks; it can distinguish emotion theories and come up with emotional stories. We show that by prompting GPT-4 to identify key factors of an emotional experience, it is able to manipulate the emotional intensity of its own stories. Furthermore, we explore GPT-4's ability on reverse appraisals by asking it to predict either the goal, belief, or emotion of a person using the other two. In general, GPT-4 can make the correct inferences. We suggest that LLMs could play an important role in affective modeling; however, they will not fully replace works that attempt to model the mechanisms underlying emotion-related processes.
翻訳日:2023-11-05 14:05:04 公開日:2023-10-03
# 不一致の次元:認知科学と人工知能における相違と不一致を解き放つ

Dimensions of Disagreement: Unpacking Divergence and Misalignment in Cognitive Science and Artificial Intelligence ( http://arxiv.org/abs/2310.12994v1 )

ライセンス: Link先を確認
Kerem Oktar, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths(参考訳) 人工エージェントの普及は、人と人工エージェント間の不一致や、人工エージェント自体間の不一致を管理する必要性を増大させる。 心理学における過去の研究は、2つのエージェントが同一のオブジェクトの異なる評価を形成しているため、しばしば意見の相違が生じるが、エージェントがそのオブジェクトをどう表現するかの相違からも意見の相違が生じる。 人間と機械のアライメントに関するAI研究と、コンピュータ認知科学における最近の研究は、この後者の相違に注目し、エージェント間の表現的重複の程度を定量化するツールを開発した。 ばらつきと不一致がどう相互作用するかを理解することは、様々な種類のエージェント間の効果的な協調を促進する鍵となる。

The increasing prevalence of artificial agents creates a correspondingly increasing need to manage disagreements between humans and artificial agents, as well as between artificial agents themselves. Considering this larger space of possible agents exposes an opportunity for furthering our understanding of the nature of disagreement: past studies in psychology have often cast disagreement as two agents forming diverging evaluations of the same object, but disagreement can also arise from differences in how agents represent that object. AI research on human-machine alignment and recent work in computational cognitive science have focused on this latter kind of disagreement, and have developed tools that can be used to quantify the extent of representational overlap between agents. Understanding how divergence and misalignment interact to produce disagreement, and how resolution strategies depend on this interaction, is key to promoting effective collaboration between diverse types of agents.
翻訳日:2023-10-29 16:22:15 公開日:2023-10-03
# IAMモデリングと深層強化学習を用いたクラウドアクセス制御のためのインタラクティブなGreybox浸透試験

Interactive Greybox Penetration Testing for Cloud Access Control using IAM Modeling and Deep Reinforcement Learning ( http://arxiv.org/abs/2304.14540v4 )

ライセンス: Link先を確認
Yang Hu, Wenxi Wang, Sarfraz Khurshid, Mohit Tiwari(参考訳) identity and access management (iam) はクラウドプラットフォームにおけるアクセス制御サービスである。 クラウドリソースをセキュアに管理するには、顧客は、クラウド組織に対するアクセス制御ルールを指定するためにIAMを設定する必要がある。 しかし、不正なIAMの設定は、特権エスカレーション(PE)のようなセキュリティ攻撃を引き起こすために悪用され、深刻な経済損失を引き起こす可能性がある。 IAM設定ミスによるそのようなPEを検出するために、サードパーティのクラウドセキュリティサービスが一般的に使用されている。 最先端のサービスは、完全なIAM構成へのアクセスを必要とするホワイトボックス浸透テスト技術を適用している。 しかし、構成は機密情報を含むことができる。 このような情報の開示を防止するため、顧客は匿名化のために多くの手作業を行う必要がある。 本稿では,IDA PE を検出するためのサードパーティサービスに対して,TAC と呼ばれる正確なグレーボックス浸透試験手法を提案する。 労働集約的な匿名化と潜在的な機密情報開示の二重課題を軽減するため、TACは必要な必須情報のみを選択的にクエリすることで顧客と対話する。 我々の重要な洞察は、IAM PE検出に関係があるのは、IAM設定のわずかな情報のみであるということです。 まず,クエリから収集した部分情報に基づいて,TACが広範囲のIAM PEを検出可能なIAMモデリングを提案する。 TACの効率性と適用性を向上させるため,グラフニューラルネットワーク(GNN)に強化学習(RL)を適用することにより,顧客とのインタラクションを最小限に抑えることを目的としている。 我々の合成タスクセットと唯一の公開タスクセットiamの脆弱性に関する実験結果は、最先端のホワイトボックスアプローチと比較して、tacは限られた数のクエリを用いて、競争的に低い偽陰性率でiam pesを検出することを示している。

Identity and Access Management (IAM) is an access control service in cloud platforms. To securely manage cloud resources, customers are required to configure IAM to specify the access control rules for their cloud organizations. However, incorrectly configuring IAM may be exploited to cause a security attack such as privilege escalation (PE), which can cause severe economic loss. To detect such PEs due to IAM misconfigurations, third-party cloud security services are commonly used. The state-of-the-art services apply whitebox penetration testing techniques, which require the access to complete IAM configurations. However, the configurations can contain sensitive information. To prevent the disclosure of such information, the customers have to put lots of manual efforts for the anonymization. In this paper, we propose a precise greybox penetration testing approach called TAC for third-party services to detect IAM PEs. To mitigate the dual challenges of labor-intensive anonymizations and potentially sensitive information disclosures, TAC interacts with customers by selectively querying only the essential information needed. Our key insight is that only a small fraction of information in the IAM configuration is relevant to the IAM PE detection. We first propose IAM modeling, enabling TAC to detect a broad class of IAM PEs based on the partial information collected from queries. To improve the efficiency and applicability of TAC, we aim to minimize the interactions with customers by applying Reinforcement Learning (RL) with Graph Neural Networks (GNNs), allowing TAC to learn to make as few queries as possible. Experimental results on both our synthesized task set and the only publicly available task set IAM Vulnerable show that, in comparison to state-of-the-art whitebox approaches, TAC detects IAM PEs with competitively low false negative rates, employing a limited number of queries.
翻訳日:2023-10-24 12:26:10 公開日:2023-10-03
# cameo: 構成可能なコンピュータシステムの性能最適化のための因果伝達学習手法

CAMEO: A Causal Transfer Learning Approach for Performance Optimization of Configurable Computer Systems ( http://arxiv.org/abs/2306.07888v2 )

ライセンス: Link先を確認
Md Shahriar Iqbal, Ziyuan Zhong, Iftakhar Ahmad, Baishakhi Ray, Pooyan Jamshidi(参考訳) 現代のコンピュータシステムは高度に構成可能で、数百の設定オプションが相互作用し、構成スペースが膨大になる。 その結果、そのようなシステムにおけるパフォーマンス目標(例えば、レイテンシ)の最適化は、環境の頻繁な不確実性(例えば、ワークロードの変動)のために難しい。 近年, 移動学習は, 対象環境よりも介入しやすく, 介入のコストがかかる, あるいは不可能なソース環境からの知識を再利用することで, この問題に対処するために応用されている。 近年の実証研究では、モデル内の特定の変数の挙動がソースからターゲットへと劇的に変化するため、配置環境が変化すると統計モデルの性能が低下することが示されている。 この問題に対処するため,環境変化下での因果予測器の不変性を同定し,探索空間を縮小し,より高速なシステム性能を実現する手法であるCAMEOを提案する。 本稿では,MLperf深層学習システム,ビデオ分析パイプライン,データベースシステムにおける最先端最適化手法の大幅な性能向上を示す。

Modern computer systems are highly configurable, with hundreds of configuration options that interact, resulting in an enormous configuration space. As a result, optimizing performance goals (e.g., latency) in such systems is challenging due to frequent uncertainties in their environments (e.g., workload fluctuations). Recently, transfer learning has been applied to address this problem by reusing knowledge from configuration measurements from the source environments, where it is cheaper to intervene than the target environment, where any intervention is costly or impossible. Recent empirical research showed that statistical models can perform poorly when the deployment environment changes because the behavior of certain variables in the models can change dramatically from source to target. To address this issue, we propose CAMEO, a method that identifies invariant causal predictors under environmental changes, allowing the optimization process to operate in a reduced search space, leading to faster optimization of system performance. We demonstrate significant performance improvements over state-of-the-art optimization methods in MLperf deep learning systems, a video analytics pipeline, and a database system.
翻訳日:2023-10-23 19:47:09 公開日:2023-10-03
# パッチの表現を学ぶ

Learning to Represent Patches ( http://arxiv.org/abs/2308.16586v2 )

ライセンス: Link先を確認
Xunzhu Tang and Haoye Tian and Zhenghan Chen and Weiguo Pian and Saad Ezzini and Abdoul Kader Kabore and Andrew Habib and Jacques Klein and Tegawende F. Bissyande(参考訳) パッチ表現は、パッチの正確性の決定やコード変更の要約など、さまざまなソフトウェアエンジニアリングタスクを自動化する上で不可欠である。 最近の研究では、トークンシーケンスやAST(Abstract Syntax Tree)に焦点を当てたパッチ表現にディープラーニングを採用しているが、変更の意味的意図や修正された行のコンテキストを見逃してしまうことが多い。 このギャップを埋めるために,新しい手法であるpatcherizerを提案する。 コンテキストと構造という意図を掘り下げ、周囲のコードコンテキストを2つの革新的な表現と組み合わせます。 これらは、コード変更における意図と、AST構造の変更による事前および後パッチの意図をキャプチャする。 この全体的表現は、パッチの基本的な意図を適切に捉えます。 patcherizerはグラフ畳み込みニューラルネットワークを構造意図グラフ表現に、トランスフォーマーを意図シーケンス表現に使用する。 本研究では,(1)パッチ記述生成,(2)パッチ精度予測,(3)パッチ意図同定の3領域におけるpatcherizerの組込みの汎用性を評価した。 実験では,すべてのタスクにおける表現の有効性を実証し,最先端手法を上回った。 例えばパッチ記述生成では、PacherizerはBLEUで平均19.39%、ROUGE-Lで8.71%、METEORで34.03%のアップを示した。

Patch representation is crucial in automating various software engineering tasks, like determining patch accuracy or summarizing code changes. While recent research has employed deep learning for patch representation, focusing on token sequences or Abstract Syntax Trees (ASTs), they often miss the change's semantic intent and the context of modified lines. To bridge this gap, we introduce a novel method, Patcherizer. It delves into the intentions of context and structure, merging the surrounding code context with two innovative representations. These capture the intention in code changes and the intention in AST structural modifications pre and post-patch. This holistic representation aptly captures a patch's underlying intentions. Patcherizer employs graph convolutional neural networks for structural intention graph representation and transformers for intention sequence representation. We evaluated Patcherizer's embeddings' versatility in three areas: (1) Patch description generation, (2) Patch accuracy prediction, and (3) Patch intention identification. Our experiments demonstrate the representation's efficacy across all tasks, outperforming state-of-the-art methods. For example, in patch description generation, Patcherizer excels, showing an average boost of 19.39% in BLEU, 8.71% in ROUGE-L, and 34.03% in METEOR scores.
翻訳日:2023-10-23 11:54:51 公開日:2023-10-03
# LLMはどの程度セキュリティテストを生成するのか?

How well does LLM generate security tests? ( http://arxiv.org/abs/2310.00710v2 )

ライセンス: Link先を確認
Ying Zhang, Wenjia Song, Zhengjie Ji, Danfeng (Daphne) Yao, Na Meng(参考訳) 開発者はプログラマの生産性とソフトウェア品質を改善するために、サードパーティライブラリ(libs)上にソフトウェアを構築することが多い。 ライブラリには、その上に構築されたアプリケーション(アプリケーション)を攻撃するためにハッカーが悪用できる脆弱性が含まれている可能性がある。 こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。 人々は、アプリのライブラリ依存関係をスキャンし、脆弱なライブラリバージョンの使用を識別し、脆弱な依存関係に対する安全な代替案を提案することで、そのような攻撃を軽減するツールを作成した。 しかし、最近の研究では、多くの開発者がこれらのツールによるレポートを信頼していないことが示されており、脆弱性の深刻さと修正の必要性を評価するために、ライブラリの脆弱性がセキュリティエクスプロイトにどのように寄与するかを示すコードや証拠を求めている。 残念ながら、アプリケーション固有の攻撃のデモを手動で作るのは困難で時間がかかり、その手順を自動化するためのツールサポートが不十分です。 本研究では,ChatGPT-4.0を使用してセキュリティテストを生成し,脆弱性のあるライブラリ依存が特定のアプリに対するサプライチェーン攻撃をいかに促進するかを示す。 さまざまなプロンプトスタイル/テンプレートを調査し、ChatGPT-4.0が全55アプリのテストを生成し、24回の攻撃が成功した。 多数のテストを生成し、より多くのエクスプロイトを達成することで、2つの最先端のセキュリティテストジェネレータであるTRANSFERとSIEGEを上回った。 ChatGPT-4.0は、脆弱性、可能なエクスプロイト、コードコンテキストについてより詳しく説明したとき、よりうまく機能した。 私たちの研究は、セキュリティテスト生成の新しい研究に光を当てます。 生成されたテストは、開発者が設計によるセキュアな開発と、デフォルトのソフトウェアによるセキュアな開発を支援する。

Developers often build software on top of third-party libraries (Libs) to improve programmer productivity and software quality. The libraries may contain vulnerabilities exploitable by hackers to attack the applications (Apps) built on top of them. People refer to such attacks as supply chain attacks, the documented number of which has increased 742% in 2022. People created tools to mitigate such attacks, by scanning the library dependencies of Apps, identifying the usage of vulnerable library versions, and suggesting secure alternatives to vulnerable dependencies. However, recent studies show that many developers do not trust the reports by these tools; they ask for code or evidence to demonstrate how library vulnerabilities lead to security exploits, in order to assess vulnerability severity and modification necessity. Unfortunately, manually crafting demos of application-specific attacks is challenging and time-consuming, and there is insufficient tool support to automate that procedure. In this study, we used ChatGPT-4.0 to generate security tests, and to demonstrate how vulnerable library dependencies facilitate the supply chain attacks to given Apps. We explored various prompt styles/templates, and found that ChatGPT-4.0 generated tests for all 55 Apps, demonstrating 24 attacks successfully. It outperformed two state-of-the-art security test generators -- TRANSFER and SIEGE -- by generating a lot more tests and achieving more exploits. ChatGPT-4.0 worked better when prompts described more on the vulnerabilities, possible exploits, and code context. Our research will shed light on new research in security test generation. The generated tests will help developers create secure by design and secure by default software.
翻訳日:2023-10-23 05:27:45 公開日:2023-10-03
# 事前訓練、プロンプト、転送:サイバー物理システムにおける時間-事象分析のための進化するデジタル双生児

Pretrain, Prompt, and Transfer: Evolving Digital Twins for Time-to-Event Analysis in Cyber-physical Systems ( http://arxiv.org/abs/2310.00032v2 )

ライセンス: Link先を確認
Qinghua Xu, Tao Yue, Shaukat Ali and Maite Arratibel(参考訳) CPS(Cyber-Physical Systems)、例えばエレベーターシステムや自動運転システムは、私たちの日常生活に徐々に浸透している。 安全性を確保するためには,異常検出やイベント時間解析(本稿の焦点)など,さまざまな分析を行う必要がある。 近年,デジタル双極子(DT)は,CPSの開発,保守,安全・安全な運用を支援するための効率的な方法として有効であることが広く受け入れられている。 しかし、CPSは、新しい機能や更新機能によって頻繁に進化し、対応するDTをCPSと同期させることを要求する。 そこで本研究では,DT の進化に不確実性を考慮したトランスファー学習を利用した PPT という新しい手法を提案する。 具体的には、まず事前学習データセットを用いてPTTを事前訓練し、CPSに関する一般的な知識を取得し、その後、迅速なチューニングの助けを借りて特定のCPSに適応する。 その結果, PPTはエレベーターとADSの両方のケーススタディにおいて, ハマーロスの点で平均7.31と12.58の基準値よりも優れていることがわかった。 また,両事例において,フーバー損失を少なくとも21.32,3.14,4.08の低減という観点から,伝達学習,迅速なチューニング,不確実性定量化の有効性も確認した。

Cyber-Physical Systems (CPSs), e.g., elevator systems and autonomous driving systems, are progressively permeating our everyday lives. To ensure their safety, various analyses need to be conducted, such as anomaly detection and time-to-event analysis (the focus of this paper). Recently, it has been widely accepted that digital Twins (DTs) can serve as an efficient method to aid in the development, maintenance, and safe and secure operation of CPSs. However, CPSs frequently evolve, e.g., with new or updated functionalities, which demand their corresponding DTs be co-evolved, i.e., in synchronization with the CPSs. To that end, we propose a novel method, named PPT, utilizing an uncertainty-aware transfer learning for DT evolution. Specifically, we first pretrain PPT with a pretraining dataset to acquire generic knowledge about the CPSs, followed by adapting it to a specific CPS with the help of prompt tuning. Results highlight that PPT is effective in time-to-event analysis in both elevator and ADSs case studies, on average, outperforming a baseline method by 7.31 and 12.58 in terms of Huber loss, respectively. The experiment results also affirm the effectiveness of transfer learning, prompt tuning and uncertainty quantification in terms of reducing Huber loss by at least 21.32, 3.14 and 4.08, respectively, in both case studies.
翻訳日:2023-10-23 05:25:25 公開日:2023-10-03
# ソフトウェアテストとコードリファクタリング: 実践者による調査

Software Testing and Code Refactoring: A Survey with Practitioners ( http://arxiv.org/abs/2310.01719v1 )

ライセンス: Link先を確認
Danilo Leandro Lima, Ronnie de Souza Santos, Guilherme Pires Garcia, Sildemir S. da Silva, Cesar Franca, Luiz Fernando Capretz(参考訳) 今日では、テスト自動化に取り組むためのコーディングスキルを開発するために、ソフトウェアテスト専門家が一般的に求められている。 コードリファクタリングはソフトウェア開発の価値のある品質面である。しかし、ソフトウェア開発者は、このプラクティスをうまく適用する上で障害に遭遇することが多い。 このシナリオでは、ソフトウェアテスティングの専門家(ソフトウェアテスタ、テストエンジニア、テストアナリスト、ソフトウェアqasなど)がコードリファクタリングをどのように扱うかを調査し、ソフトウェアテスティングのコンテキストにおけるこのプラクティスのメリットと制限を理解することを目的としています。 ソフトウェア工学における調査を行うためのガイドラインに従い、テスト専門家からデータを収集するために、利便性サンプリング、提案サンプリング、雪だるまサンプリングという3つのサンプリング手法を適用した。 自動テストのコードをリファクタリングした経験を報告した80人から回答を得ました。 ソフトウェアテストの文脈では、リファクタリングは自動テストのメンテナンスのサポートやテストチームのパフォーマンス向上など、いくつかのメリットがある、と結論付けました。 しかし、実践者は、このプラクティスを効果的に実施するための障壁、特にマネージャやリーダーからの関心の欠如に遭遇する可能性がある。 本研究は、テスト専門家が自動テストのコードにリファクタリングを実装し、コーディング能力を向上させることの重要性に関する議論を提起する。

Nowadays, software testing professionals are commonly required to develop coding skills to work on test automation. One essential skill required from those who code is the ability to implement code refactoring, a valued quality aspect of software development; however, software developers usually encounter obstacles in successfully applying this practice. In this scenario, the present study aims to explore how software testing professionals (e.g., software testers, test engineers, test analysts, and software QAs) deal with code refactoring to understand the benefits and limitations of this practice in the context of software testing. We followed the guidelines to conduct surveys in software engineering and applied three sampling techniques, namely convenience sampling, purposive sampling, and snowballing sampling, to collect data from testing professionals. We received answers from 80 individuals reporting their experience refactoring the code of automated tests. We concluded that in the context of software testing, refactoring offers several benefits, such as supporting the maintenance of automated tests and improving the performance of the testing team. However, practitioners might encounter barriers in effectively implementing this practice, in particular, the lack of interest from managers and leaders. Our study raises discussions on the importance of having testing professionals implement refactoring in the code of automated tests, allowing them to improve their coding abilities.
翻訳日:2023-10-23 05:19:39 公開日:2023-10-03
# ChatGPT-3.5の質問応答とコードメンテナンスに関する実証的研究

An empirical study of ChatGPT-3.5 on question answering and code maintenance ( http://arxiv.org/abs/2310.02104v1 )

ライセンス: Link先を確認
Md Mahir Asef Kabir, Sk Adnan Hassan, Xiaoyin Wang, Ying Wang, Hai Yu, Na Meng(参考訳) 2022年にChatGPTがローンチされて以来、ChatGPTがプログラマを置き換わり、職を失うのではないかという懸念が高まっている。 そこで我々は,ChatGPTを質問応答やソフトウェア保守におけるプログラマと体系的に比較する実証的研究を行った。 357のgithubプロジェクトのjava開発者が参照する130のstackoverflow(so)ディスカッションスレッドを含む、事前作業で導入されたデータセットを再利用しました。 我々は主に3つの研究課題(rqs)を調査した。 まず、ChatGPTは技術的な疑問に答える際に、プログラマとどのように比較しますか? 次に、開発者はChatGPTの回答とSOの回答の違いをどう感じますか? 第3に、ChatGPTは、メンテナンス要求のコード修正時に人間とどのように比較しますか? RQ1では、130のSO質問をChatGPTに提供し、ChatGPT回答と最も一般的なSO回答を関連性、可読性、情報性、包括性、再利用性の観点から手動で比較した。 RQ2では,30人の開発者を対象に,情報ソース(ChatGPTやSOなど)を知らずに,各開発者に対して10対の回答の評価と比較を依頼した。 rq3では、48のgithubプロジェクトから48のソフトウェアメンテナンスタスクを蒸留しました。 所定のJavaファイルを更新し、所定のメンテナンス要件を満たすコード実装を組み込むため、ChatGPTを問い合わせました。 調査の結果,多くのSO質問(97/130)に対して,ChatGPTはより良い回答を提供し,300のレーティングのうち203の開発者は,SO回答に対してChatGPTの回答を好んだ。 私たちの研究は、ChatGPTの機能に関する人々の知識を拡大し、ソフトウェア産業におけるChatGPTの今後の採用に光を当てます。

Ever since the launch of ChatGPT in 2022, a rising concern is whether ChatGPT will replace programmers and kill jobs. Motivated by this widespread concern, we conducted an empirical study to systematically compare ChatGPT against programmers in question-answering and software-maintaining. We reused a dataset introduced by prior work, which includes 130 StackOverflow (SO) discussion threads referred to by the Java developers of 357 GitHub projects. We mainly investigated three research questions (RQs). First, how does ChatGPT compare with programmers when answering technical questions? Second, how do developers perceive the differences between ChatGPT's answers and SO answers? Third, how does ChatGPT compare with humans when revising code for maintenance requests? For RQ1, we provided the 130 SO questions to ChatGPT, and manually compared ChatGPT answers with the accepted/most popular SO answers in terms of relevance, readability, informativeness, comprehensiveness, and reusability. For RQ2, we conducted a user study with 30 developers, asking each developer to assess and compare 10 pairs of answers, without knowing the information source (i.e., ChatGPT or SO). For RQ3, we distilled 48 software maintenance tasks from 48 GitHub projects citing the studied SO threads. We queried ChatGPT to revise a given Java file, and to incorporate the code implementation for any prescribed maintenance requirement. Our study reveals interesting phenomena: For the majority of SO questions (97/130), ChatGPT provided better answers; in 203 of 300 ratings, developers preferred ChatGPT answers to SO answers; ChatGPT revised code correctly for 22 of the 48 tasks. Our research will expand people's knowledge of ChatGPT capabilities, and shed light on future adoption of ChatGPT by the software industry.
翻訳日:2023-10-23 05:08:58 公開日:2023-10-03
# dFlow: オープンソースバーチャルアシスタントの迅速な開発のためのドメイン固有言語

dFlow: A Domain Specific Language for the Rapid Development of open-source Virtual Assistants ( http://arxiv.org/abs/2310.02102v1 )

ライセンス: Link先を確認
Nikolaos Malamas, Konstantinos Panayiotou, Andreas L. Symeonidis(参考訳) 自然言語処理 (NLP) や自然言語理解 (NLU) の分野が発展し, 仮想アシスタント (VA) 開発のためのモデルやフレームワークが増えている。 パフォーマンス、人気、使いやすさに関わらず、これらのフレームワークは、単純で反復的なプロセスであっても、NLPとソフトウェア工学の少なくとも基本的な専門知識を必要とし、ドメインやプログラミングの専門家に限る。 しかし、VA開発の現在の状況は簡単なプロセスであるため、モデル駆動工学のアプローチはより便利な方法で自動化と迅速な開発を実現するために利用できます。 この目的のために、低コードでタスク固有のVAを作成するために、単純化され、再利用され、フレームワークに依存しない言語を提供するテキストドメイン特化言語(DSL)である「textit{dFlow}」を紹介します。 本稿では,システムに依存しないVAメタモデル,開発した文法,およびスマートVAの開発と展開に必要なプロセスについて述べる。 さらに便利なのは、クラウドネイティブなアーキテクチャを作成して、discordプラットフォームを通じて公開することです。 私たちは200人以上のシニアソフトウェア開発者を対象に,大規模な実証評価を実施し,ポジティブなフィードバックを収集することで,dflowがva開発プロセス全体を加速するとともに,最小限の経験を持つ市民とソフトウェア開発者も参加できることを示した。

An increasing number of models and frameworks for Virtual Assistant (VA) development exist nowadays, following the progress in the Natural Language Processing (NLP) and Natural Language Understanding (NLU) fields. Regardless of their performance, popularity, and ease of use, these frameworks require at least basic expertise in NLP and software engineering, even for simple and repetitive processes, limiting their use only to the domain and programming experts. However, since the current state of practice of VA development is a straightforward process, Model-Driven Engineering approaches can be utilized to achieve automation and rapid development in a more convenient manner. To this end, we present \textit{dFlow}, a textual Domain-Specific Language (DSL) that offers a simplified, reusable, and framework-agnostic language for creating task-specific VAs in a low-code manner. We describe a system-agnostic VA meta-model, the developed grammar, and all essential processes for developing and deploying smart VAs. For further convenience, we create a cloud-native architecture and expose it through the Discord platform. We conducted a large-scale empirical evaluation with more than 200 junior software developers and collected positive feedback, indicating that dFlow can accelerate the entire VA development process, while also enabling citizen and software developers with minimum experience to participate.
翻訳日:2023-10-23 05:08:09 公開日:2023-10-03
# 総じてcvssのスコアを集計して

Gotta Catch 'em All: Aggregating CVSS Scores ( http://arxiv.org/abs/2310.02062v1 )

ライセンス: Link先を確認
Angel Longueira-Romero, Jose Luis Flores, Rosa Iglesias, I\~naki Garitano(参考訳) セキュリティメトリクスは標準化されていないが、既知のヴァルネラビリティの深刻度を定量化する共通脆弱性スコアシステム(CVSS)のような国際間提案が広く使用されている。 多くのCVSS凝集機構が文献で提案されている。 それでも、システム・アンダー・テスト(SUT)の文脈に関連する要因は集約プロセスでは不正確ではなく、理論上はSUTに影響を及ぼすが、現実には利用できない脆弱性である。 本稿では, SUTの機能破壊, エクスプロイトの難しさ, エクスプロイトの存在, およびSUTが機能する状況に関する情報を統合する ACVSS 集約アルゴリズムを提案する。 最後に,提案アルゴリズムの性質から,通常のCVSSと同様の解釈が可能である。

Security metrics are not standardized, but inter-national proposals such as the Common Vulnerability ScoringSystem (CVSS) for quantifying the severity of known vulnerabil-ities are widely used. Many CVSS aggregation mechanisms havebeen proposed in the literature. Nevertheless, factors related tothe context of the System Under Test (SUT) are not taken intoaccount in the aggregation process; vulnerabilities that in theoryaffect the SUT, but are not exploitable in reality. We propose aCVSS aggregation algorithm that integrates information aboutthe functionality disruption of the SUT, exploitation difficulty,existence of exploits, and the context where the SUT operates.The aggregation algorithm was applied to OpenPLC V3, showingthat it is capable of filtering out vulnerabilities that cannot beexploited in the real conditions of deployment of the particularsystem. Finally, because of the nature of the proposed algorithm,the result can be interpreted in the same way as a normal CVSS.
翻訳日:2023-10-23 05:07:11 公開日:2023-10-03
# GitHubのCopilot生成コードのセキュリティ欠陥

Security Weaknesses of Copilot Generated Code in GitHub ( http://arxiv.org/abs/2310.02059v1 )

ライセンス: Link先を確認
Yujia Fu, Peng Liang, Amjed Tahir, Zengyang Li, Mojtaba Shahin, Jiaxin Yu(参考訳) 現代のコード生成ツールはAIモデル、特にLarge Language Models(LLM)を使用して、機能的で完全なコードを生成する。 このようなツールは開発者には広く普及しているが、セキュリティ上の課題を伴うことが多い。 したがって、特にセキュリティの観点から、生成されたコードの品質を評価することが重要である。 研究者は最近、セキュリティを含むコード生成ツールのさまざまな側面を調査した。 しかし、生成されたコードのセキュリティに関する多くの公然とした質問は、さらなる調査、特に野生の自動生成コードのセキュリティ問題を必要とする。 この目的のために、github copilotが生成するコードスニペットのセキュリティ上の弱点を分析し、githubにホストされている公開プロジェクトの一部として見つけた。 目標は、(現実のシナリオではなく)現実のシナリオにおけるセキュリティ問題の種類と規模を調べることです。 そこで私たちは,copilotが公開プロジェクトから生成した435のコードスニペットを特定した。 次に,これらのコードスニペット中のCWE(Common Weakness Enumeration)インスタンスを特定するために,広範なセキュリティ分析を行った。 その結果,(1)コピロット生成コードスニペットの35.8%がcweを含み,(2)セキュリティ上の弱点が多様であり,(2)cwe-78: osコマンドインジェクション,cwe-330:不十分な乱数値の使用,cwe-703:異常な条件の不正なチェックや処理が最も頻繁に発生し,(3)42のcweのうち11が2022のcweトップ25に属していることがわかった。 私たちの調査では、開発者がCopilot(と同じようなAIコード生成ツール)で生成されたコードを追加する際には注意が必要であることを確認しました。

Modern code generation tools use AI models, particularly Large Language Models (LLMs), to generate functional and complete code. While such tools are becoming popular and widely available for developers, using these tools is often accompanied by security challenges. Therefore, it is important to assess the quality of the generated code, especially in terms of its security. Researchers have recently explored various aspects of code generation tools, including security. However, many open questions about the security of the generated code require further investigation, especially the security issues of automatically generated code in the wild. To this end, we conducted an empirical study by analyzing the security weaknesses in code snippets generated by GitHub Copilot that are found as part of publicly available projects hosted on GitHub. The goal is to investigate the types of security issues and their scale in real-world scenarios (rather than crafted scenarios). To this end, we identified 435 code snippets generated by Copilot from publicly available projects. We then conducted extensive security analysis to identify Common Weakness Enumeration (CWE) instances in these code snippets. The results show that (1) 35.8% of Copilot generated code snippets contain CWEs, and those issues are spread across multiple languages, (2) the security weaknesses are diverse and related to 42 different CWEs, in which CWE-78: OS Command Injection, CWE-330: Use of Insufficiently Random Values, and CWE-703: Improper Check or Handling of Exceptional Conditions occurred the most frequently, and (3) among the 42 CWEs identified, 11 of those belong to the currently recognized 2022 CWE Top-25. Our findings confirm that developers should be careful when adding code generated by Copilot (and similar AI code generation tools) and should also run appropriate security checks as they accept the suggested code.
翻訳日:2023-10-23 05:06:50 公開日:2023-10-03
# 大規模言語モデルによるWeb要素のローカライゼーションの改善

Improving web element localization by using a large language model ( http://arxiv.org/abs/2310.02046v1 )

ライセンス: Link先を確認
Michel Nass, Emil Alegroth, Robert Feldt(参考訳) Webベースのテスト自動化は、Web要素の正確な発見に大きく依存しています。 従来の手法では属性を比較するが、要素や単語の文脈や意味を把握できない。 gpt-4のような大規模言語モデル(llm)の出現は、いくつかのタスクで人間のような推論能力を示すことができ、ソフトウェア工学とweb要素のローカライズに新たな機会を提供する。 本稿では,拡張web要素ローカライゼーションアプローチである von similo llm を紹介し,評価する。 LLMを用いて、既存のVONシミロ法で識別された上位の要素から最も可能性の高いWeb要素を選択し、理想的には人間に似た選択精度に近づくことを目指している。 実世界の48のWebアプリケーションから804のWeb要素ペアを用いて実験を行った。 我々は,VON Similo LLMの有効性と効率をベースラインアルゴリズムと比較し,同定された要素数と実行時間を測定した。 さらに、LLMからのモチベーションが記録され、元のアプローチが適切なWeb要素を見つけられなかったすべての事例について分析された。 von similo llm は性能の向上を示し、ローカライゼーションの失敗を 70 から 39 (804 から 44% に削減した。 実行時間が遅く、GPT-4モデルを使用するための追加費用がかかるにもかかわらず、LLMはウェブ要素のローカライゼーションを強化することを約束している。 LLM技術はGUIテスト自動化におけるWeb要素識別を強化し、偽陽性を減らし、メンテナンスコストを削減できる。 しかし、GUIテストにおけるLLMの機能、制限、実用性を十分に理解するためには、さらなる研究が必要である。

Web-based test automation heavily relies on accurately finding web elements. Traditional methods compare attributes but don't grasp the context and meaning of elements and words. The emergence of Large Language Models (LLMs) like GPT-4, which can show human-like reasoning abilities on some tasks, offers new opportunities for software engineering and web element localization. This paper introduces and evaluates VON Similo LLM, an enhanced web element localization approach. Using an LLM, it selects the most likely web element from the top-ranked ones identified by the existing VON Similo method, ideally aiming to get closer to human-like selection accuracy. An experimental study was conducted using 804 web element pairs from 48 real-world web applications. We measured the number of correctly identified elements as well as the execution times, comparing the effectiveness and efficiency of VON Similo LLM against the baseline algorithm. In addition, motivations from the LLM were recorded and analyzed for all instances where the original approach failed to find the right web element. VON Similo LLM demonstrated improved performance, reducing failed localizations from 70 to 39 (out of 804), a 44 percent reduction. Despite its slower execution time and additional costs of using the GPT-4 model, the LLMs human-like reasoning showed promise in enhancing web element localization. LLM technology can enhance web element identification in GUI test automation, reducing false positives and potentially lowering maintenance costs. However, further research is necessary to fully understand LLMs capabilities, limitations, and practical use in GUI testing.
翻訳日:2023-10-23 05:06:16 公開日:2023-10-03
# simplepim: 生産的かつ効率的なメモリ内処理のためのソフトウェアフレームワーク

SimplePIM: A Software Framework for Productive and Efficient Processing-in-Memory ( http://arxiv.org/abs/2310.01893v1 )

ライセンス: Link先を確認
Jinfan Chen, Juan G\'omez-Luna, Izzat El Hajj, Yuxin Guo, Onur Mutlu(参考訳) メモリとプロセッサ間のデータ移動は、現代のコンピューティングシステムにおいて大きなボトルネックである。 processing-in-memory (pim)パラダイムは、メモリチップ内で計算を行うことで、このボトルネックを緩和することを目的としている。 リアルPIMハードウェア(例: UPMEM システム)が現在利用可能であり、多くのアプリケーションで可能性を示している。 しかし、実際のPIMハードウェアのプログラミングは多くのプログラマにとって課題である。 本稿では,実際のPIMシステムのプログラミングを支援するための新しいソフトウェアフレームワークSimplePIMを提案する。 フレームワークは、ホストからイテレータ関数を呼び出して、PIMデバイス上の任意の要素の配列を処理し、PIMコアとホストシステム間の通信のためのプリミティブを提供する。 我々は,upmem pimシステム用にsimplepimを実装し,主要な6つのアプリケーションで評価する。 その結果,SimplePIMはPIMプログラムのコード行数を66.5%から83.1%削減できることがわかった。 結果として生成されたコードは、3つのアプリケーションで手動最適化されたコードよりも高いパフォーマンス(10%から37%のスピードアップ)をもたらし、3つのアプリケーションで同等のパフォーマンスを提供する。 SimplePIMはhttps://github.com/CMU-SAFARI/SimplePIMで利用可能である。

Data movement between memory and processors is a major bottleneck in modern computing systems. The processing-in-memory (PIM) paradigm aims to alleviate this bottleneck by performing computation inside memory chips. Real PIM hardware (e.g., the UPMEM system) is now available and has demonstrated potential in many applications. However, programming such real PIM hardware remains a challenge for many programmers. This paper presents a new software framework, SimplePIM, to aid programming real PIM systems. The framework processes arrays of arbitrary elements on a PIM device by calling iterator functions from the host and provides primitives for communication among PIM cores and between PIM and the host system. We implement SimplePIM for the UPMEM PIM system and evaluate it on six major applications. Our results show that SimplePIM enables 66.5% to 83.1% reduction in lines of code in PIM programs. The resulting code leads to higher performance (between 10% and 37% speedup) than hand-optimized code in three applications and provides comparable performance in three others. SimplePIM is fully and freely available at https://github.com/CMU-SAFARI/SimplePIM.
翻訳日:2023-10-23 05:05:38 公開日:2023-10-03
# クラウドサービスとネットワークセキュリティ違反の監視と適応によるマルチクラウド環境におけるワークフローセキュリティの強化

Enhancing Workflow Security in Multi-Cloud Environments through Monitoring and Adaptation upon Cloud Service and Network Security Violations ( http://arxiv.org/abs/2310.01878v1 )

ライセンス: Link先を確認
Nafiseh Soveizi and Dimka Karastoyanova(参考訳) クラウドコンピューティングは、データと計算集約的なワークフローを扱う上で重要なソリューションとして登場し、動的要求に対処するためのスケーラビリティを提供する。 しかしながら、信頼できないマルチクラウド環境におけるワークフローのセキュアな実行を保証することは、関連するデータやタスクの機密性を考えると、大きな課題となる。 ワークフロー実行中の攻撃を検出するための包括的なアプローチの欠如と、セキュリティやプライバシ侵害への対処方法の不十分さが文献で確認されている。 このギャップを埋めるため,本研究では,ワークフロー実行中のセキュリティ違反を検出するクラウドサービスやネットワークの監視に重点を置くアプローチを提案する。 検出時にワークフローへの影響を最小限に抑えるために最適な適応動作を選択する。 このような適応に伴う不確実なコストとワークフロー内の他のタスクに対する潜在的な影響を軽減するため、適応学習を用いて最も適切な適応行動を決定する。 提案手法は,検出手順の性能と,選択した適応がワークフローに与える影響に基づいて評価する。

Cloud computing has emerged as a crucial solution for handling data- and compute-intensive workflows, offering scalability to address dynamic demands. However, ensuring the secure execution of workflows in the untrusted multi-cloud environment poses significant challenges, given the sensitive nature of the involved data and tasks. The lack of comprehensive approaches for detecting attacks during workflow execution, coupled with inadequate measures for reacting to security and privacy breaches has been identified in the literature. To close this gap, in this work, we propose an approach that focuses on monitoring cloud services and networks to detect security violations during workflow executions. Upon detection, our approach selects the optimal adaptation action to minimize the impact on the workflow. To mitigate the uncertain cost associated with such adaptations and their potential impact on other tasks in the workflow, we employ adaptive learning to determine the most suitable adaptation action. Our approach is evaluated based on the performance of the detection procedure and the impact of the selected adaptations on the workflows.
翻訳日:2023-10-23 05:05:19 公開日:2023-10-03
# 言語横断的バグ局在の評価:2症例

Evaluation of Cross-Lingual Bug Localization: Two Industrial Cases ( http://arxiv.org/abs/2310.01803v1 )

ライセンス: Link先を確認
Shinpei Hayashi, Takashi Kobayashi, Tadahisa Kato(参考訳) 本研究は,xiaらが提案する言語間バグローカライズ手法を産業用ソフトウェアプロジェクトに適用した結果を報告する。 言語間バグローカライズを実現するために,ソースコードやバグレポートの非英語記述に機械翻訳を適用し,既存の英語ベースのバグローカライズ手法を適用した英語ベースのテキストに統合した。 また、buglocatorをベースとするプロトタイプツールが実装され、日本の2つの産業プロジェクトに適用され、xiaやalと若干性能が異なっていた。

This study reports the results of applying the cross-lingual bug localization approach proposed by Xia et al. to industrial software projects. To realize cross-lingual bug localization, we applied machine translation to non-English descriptions in the source code and bug reports, unifying them into English-based texts, to which an existing English-based bug localization technique was applied. In addition, a prototype tool based on BugLocator was implemented and applied to two Japanese industrial projects, which resulted in a slightly different performance from that of Xia et al.
翻訳日:2023-10-23 05:05:01 公開日:2023-10-03
# LLMParser: LLMベースのログ解析フレームワーク

LLMParser: A LLM-based Log Parsing Framework ( http://arxiv.org/abs/2310.01796v1 )

ライセンス: Link先を確認
Zhihan Jiang, Jinyang Liu, Zhuangbin Chen, Yichen Li, Junjie Huang, Yintong Huo, Pinjia He, Jiazhen Gu and Michael R. Lyu(参考訳) ログメッセージを構造化フォーマットに変換するログ解析のプロセスは、さまざまなログ分析タスクにとって重要なステップである。 多くのログパーサが提案されているが、複雑なログデータに対する効果は、人為的なルールや限られたトレーニングデータによる学習ベースモデルに依存するため、しばしば妨げられる。 最近の強力な大規模言語モデル(LLM)の台頭は、コードとロギングに関する広範な事前訓練された知識のため、ログ解析の可能性を示している。 しかし、その正確性は現在、特殊なログ解析機能がないために制限されている。 さらに、回答の不一致と重大なオーバーヘッドは、llmベースのログ解析の実践的実装を妨げる。 これらの課題に対処するために、最初の実用的なLLMベースのログ解析フレームワークであるLLMParserを紹介する。 LLMParserは、LLMのコンテキスト内学習(ICL)機能を活用し、階層的候補サンプリングアルゴリズムを使用し、高品質な実演を選択することにより、正確で堅牢なログ解析を可能にする。 LLMParserはまた、LLMによって生成されたテンプレートを保存および洗練するための新しい適応解析キャッシュコンポーネントを含んでいる。 この設計は、以前解析されたログテンプレートに迅速にマッチングすることで、LLMの非効率性に対処するのに役立つ。 LLMParserはまた、解析キャッシュ内のテンプレートを適応的に更新し、一貫性のある解析結果を保証する。 大規模な公開データセットの広範な評価は、llmparserが最先端のメソッドを上回っていることを示している。 さらに、LLMParserはクエリ時間をLLMに大幅に短縮し、最も効率的なベースラインであるDrainに匹敵する効率を達成する。

The process of log parsing, which converts log messages into structured formats, is a crucial step for various log analysis tasks. Although numerous log parsers have been proposed, their effectiveness on complex log data is often hindered due to reliance on human-made rules or learning-based models with limited training data. The recent rise of powerful large language models (LLMs) shows potential for log parsing due to their extensive pre-trained knowledge related to code and logging. However, their accuracy is currently limited due to the lack of specialized log parsing capabilities. Additionally, the inconsistency of their answers and significant overhead obstruct the practical implementation of LLM-based log parsing. To tackle these challenges, we introduce LLMParser, the first practical LLM-based log parsing framework. LLMParser enables accurate and robust log parsing by leveraging the in-context learning (ICL) capability of the LLM, employing a hierarchical candidate sampling algorithm, and selecting high-quality demonstrations. LLMParser also includes a novel adaptive parsing cache component to store and refine the templates generated by the LLM. This design aids in addressing the inefficiency of LLMs by rapid matching to previously parsed log templates. LLMParser also adaptively updates the templates in the parsing cache to ensure consistent parsed results. Extensive evaluation on large-scale public datasets demonstrates that LLMParser surpasses the state-of-the-art methods. Furthermore, LLMParser significantly reduces the query times to LLMs, achieving efficiency comparable to the most efficient baseline, Drain.
翻訳日:2023-10-23 05:04:50 公開日:2023-10-03
# beyond dark patterns: ソフトウェア設計倫理のための概念ベースのフレームワーク

Beyond Dark Patterns: A Concept-Based Framework for Software Design Ethics ( http://arxiv.org/abs/2310.02432v1 )

ライセンス: Link先を確認
Evan Caragay, Katherine Xiong, Jonathan Zong, Daniel Jackson(参考訳) ユーザの期待に根ざしたダークパターンのフレームワークを提案する。 デザインテクニックを本質的に善か悪かのどちらかとして扱う従来のアプローチとは対照的に、私たちは概念を使ってアプリケーションの振る舞いに対する不一致したユーザ期待を分析します。 設計は、その概念がユーザの期待に反している場合に暗く定義し、ユーザの費用でアプリケーションのプロバイダに利益をもたらす。 ユーザの期待は異なり、インターフェースの倫理に対する主観的な認識に繋がるが、ユーザは複数のアプリケーションで同じ概念を繰り返し経験するので、共通の期待を抱く傾向がある。 この再利用により、ユーザーは標準概念として記録できる概念機能に対する期待を共有している。 ケーススタディを通じて、設計者がダークパターンを特定し、比較し、解決するのに役立つ概念分析について説明する。 我々は、ダークパターン分類からより体系的で実用的なインターフェース設計倫理へのシフトを提案する。

We present a framework of dark patterns grounded in user expectations. In contrast to prior approaches that treat design techniques as inherently either good or bad, we analyze mismatched user expectations for application behavior using concepts -- reusable units of functionality that users encounter across applications. We define a design as dark when its concepts violate users' expectations, and benefit the provider of the application at the user's expense. Though user expectations can differ, leading to subjective perceptions of the ethics of an interface, users tend to develop common expectations as they encounter the same concepts repeatedly across multiple applications. This reuse results in users having shared expectations of concept functionality, which we can record as standard concepts. Through case studies, we illustrate how concept analysis helps designers identify, compare, and resolve dark patterns. We suggest a shift away from dark pattern taxonomies toward more systematic, actionable accounts of interface design ethics
翻訳日:2023-10-23 04:58:36 公開日:2023-10-03
# ユニットテストとのセマンティックコンフリクトの検出

Detecting Semantic Conflicts with Unit Tests ( http://arxiv.org/abs/2310.02395v1 )

ライセンス: Link先を確認
L\'euson Da Silva, Paulo Borba, Toni Maciel, Wardah Mahmood, Thorsten Berger, Jo\~ao Moisakis, Aldiberg Gomes, Vin\'icius Leite(参考訳) ブランチとマージは協調ソフトウェア開発における一般的なプラクティスであり、開発者の生産性を高めます。 このようなメリットがあるにも関わらず、開発者はソフトウェアをマージし、マージ競合を解決する必要がある。 現代のマージ技術はテキストの衝突を自動的に解決するが、意味レベルでの衝突が発生すると失敗する。 セマンティックマージツールは提案されているが、通常は重み付け静的解析に基づいており、プログラム動作の明確な仕様を必要とする。 そこで本研究では,部分的な仕様として使用されるユニットテストの自動生成に基づく意味的マージツールであるsam(semantic merge)を提案する。 コンフリクトを検出するSAMの有効性を評価するために,51のメルジシナリオから80組以上の変更を共通クラス要素に統合する実験を行った。 さらに、SAMが使用する4つのユニットテスト生成ツールがコンフリクト識別にどのように貢献するかを評価する。 テスト可能性変換とシリアライゼーションの導入を提案し,評価する。 その結果、SAMは、差分EvoSuiteとEvoSuiteで生成されたテストのみを組み合わせて、提案したTestability Transformations(28件中9件のコンフリクトを検出した)を使用することで、最高の性能を示した。 これらの結果は,テストケース生成によるテストコンフリクトの検出の可能性に関する過去の知見を裏付けるものである。

Branching and merging are common practices in collaborative software development, increasing developer's productivity. Despite such benefits, developers need to merge software and resolve merge conflicts. While modern merge techniques can resolve textual conflicts automatically, they fail when the conflict arises at the semantic level. Although semantic merge tools have been proposed, they are usually based on heavyweight static analyses or need explicit specifications of program behavior. In this work, we take a different route and propose SAM (SemAntic Merge), a semantic merge tool based on the automated generation of unit tests that are used as partial specifications. To evaluate SAM's feasibility for detecting conflicts, we perform an empirical study analyzing more than 80 pairs of changes integrated into common class elements from 51 merge scenarios. Furthermore, we also assess how the four unit-test generation tools used by SAM contribute to conflict identification. We propose and assess the adoption of Testability Transformations and Serialization. Our results show that SAM best performs when combining only the tests generated by Differential EvoSuite and EvoSuite and using the proposed Testability Transformations (nine detected conflicts out of 28). These results reinforce previous findings about the potential of using test-case generation to detect test conflicts.
翻訳日:2023-10-23 04:58:18 公開日:2023-10-03
# 前提条件生成を考慮したプログラム構造

Program Structure Aware Precondition Generation ( http://arxiv.org/abs/2310.02154v1 )

ライセンス: Link先を確認
Elizabeth Dinella, Shuvendu Lahiri, Mayur Naik(参考訳) コードから自然条件を推定するための新しい手法を提案する。 本手法は, 精度(試験生成器のモジュロ)と自然さの両面から, 高品質なプレコンディションを生成する。 先行研究はブール式述語の組み合わせによってスクラッチから事前条件を生成するが、読みやすさと理解の容易さに欠ける。 私たちのイノベーションは、プログラム変換を通じて前提条件を推論するために、ターゲットメソッドの構造をシードとして活用することにあります。 評価の結果,人間はより容易に前提条件を推論できることがわかった。 最後に、我々の技術を大規模に適用可能なフレームワークにインスタンス化する。 実世界の87のプロジェクトにフレームワークを適用した,約18kのJava(メソッド,プレ条件)ペアのデータセットを提案する。 このデータセットを用いて、我々のアプローチを評価し、事前条件推論における将来の研究に役立つ洞察を得る。

We introduce a novel approach for inferring natural preconditions from code. Our technique produces preconditions of high quality in terms of both correctness (modulo a test generator) and naturalness. Prior works generate preconditions from scratch through combinations of boolean predicates, but fall short in readability and ease of comprehension. Our innovation lies in, instead, leveraging the structure of a target method as a seed to infer a precondition through program transformations. Our evaluation shows that humans can more easily reason over preconditions inferred using our approach. Lastly, we instantiate our technique into a framework which can be applied at scale. We present a dataset of ~18k Java (method, precondition) pairs obtained by applying our framework to 87 real-world projects. We use this dataset to both evaluate our approach and draw useful insights for future research in precondition inference.
翻訳日:2023-10-23 04:56:12 公開日:2023-10-03
# Semantic Code Graph -- ソフトウェアの理解を促進する情報モデル

Semantic Code Graph -- an information model to facilitate software comprehension ( http://arxiv.org/abs/2310.02128v1 )

ライセンス: Link先を確認
Krzysztof Borowski, Bartosz Bali\'s, Tomasz Orzechowski(参考訳) コードベースが増え続けているため、ソフトウェア理解は極めて時間がかかります。 その結果、メンテナンスを容易にし、関連するコストを削減するために、コード理解プロセスを加速する必要性が高まっている。 このプロセスの重要な側面は、コード依存関係の構造の高品質を理解し保存することである。 さまざまなコード構造モデルがすでに存在しているが、ソースコードを密接に表現し、ソフトウェア理解に焦点を当てたモデルが驚くほど欠如している。 結果として、依存性の理解、リファクタリング、コードの品質監視を支援するツールが簡単には利用できない。 このギャップに対処するため,ソースコードと密接な関係を持つコード依存関係の詳細な抽象表現を提供する情報モデルであるSemantic Code Graph (SCG)を提案する。 ソフトウェア理解におけるSCGモデルの有用性を検証するため、他の9つのソースコード表現モデルと比較した。 さらに,java と scala で開発されている11の著名なオープンソースプロジェクトを選択し,提案する scg,コールグラフ (cg),クラスコラボレーションネットワーク (ccn) という3つの異なるコード表現モデルを用いて,さまざまなソフトウェア理解活動を行う。 次に、ソフトウェア理解能力の観点から結果を分析し、これらのモデルの性能を比較する。 これらのアクティビティは、プロジェクト構造理解、重要なプロジェクトエンティティの識別、コードの依存関係のインタラクティブな可視化、ソフトウェアマイニングによるコード類似性の発見を含む。 その結果, SCG は CCN や CG モデルと比較して, ソフトウェア理解能力の向上を図っている。 説明した作業は、コードの依存性の理解と管理を効率化する次世代のツールへの一歩だと思います。

Software comprehension can be extremely time-consuming due to the ever-growing size of codebases. Consequently, there is an increasing need to accelerate the code comprehension process to facilitate maintenance and reduce associated costs. A crucial aspect of this process is understanding and preserving the high quality of the code dependency structure. While a variety of code structure models already exist, there is a surprising lack of models that closely represent the source code and focus on software comprehension. As a result, there are no readily available and easy-to-use tools to assist with dependency comprehension, refactoring, and quality monitoring of code. To address this gap, we propose the Semantic Code Graph (SCG), an information model that offers a detailed abstract representation of code dependencies with a close relationship to the source code. To validate the SCG model's usefulness in software comprehension, we compare it to nine other source code representation models. Additionally, we select 11 well-known and widely-used open-source projects developed in Java and Scala and perform a range of software comprehension activities on them using three different code representation models: the proposed SCG, the Call Graph (CG), and the Class Collaboration Network (CCN). We then qualitatively analyze the results to compare the performance of these models in terms of software comprehension capabilities. These activities encompass project structure comprehension, identifying critical project entities, interactive visualization of code dependencies, and uncovering code similarities through software mining. Our findings demonstrate that the SCG enhances software comprehension capabilities compared to the prevailing CCN and CG models. We believe that the work described is a step towards the next generation of tools that streamline code dependency comprehension and management.
翻訳日:2023-10-23 04:55:57 公開日:2023-10-03
# scg-cli --セマンティックコードグラフの抽出と解析によるソフトウェア理解を支援するツール

scg-cli -- a Tool Supporting Software Comprehension via Extraction and Analysis of Semantic Code Graph ( http://arxiv.org/abs/2310.03044v1 )

ライセンス: Link先を確認
Krzysztof Borowski, Bartosz Bali\'s(参考訳) ソフトウェア理解を容易にするコマンドラインツールである scg-cli を提案する。 このツールは、JavaおよびScalaプロジェクトからコード構造と依存関係に関するセマンティック情報を抽出し、それをSCG(Semantic Code Graph)として構造化する。 SCGデータは、一旦--portableでオープンなprotobufベースのフォーマットに書き込まれ、 scg-cliコマンドラインツールでプロジェクトメトリクスを取得し、最も重要なコードエンティティを見つけ、プロジェクトのパーティショニングを計算することができる。 この分析結果とSCGデータは、Gephiソフトウェア(視覚化)などの外部ツールによるさらなる調査のためにエクスポートされ、特に、ヘルパーAPIを備えたJupyter Notebook環境として、データ分析手法を使用してプロジェクトの高度な分析を可能にする。 scg-cli ツールの機能を説明し,オープンソースの Java プロジェクト Commons-io の例を示し,その機能を示す。

We present scg-cli, a~command line tool facilitating software comprehension. The tool extracts semantic information about code structure and dependencies from the Java and Scala projects, and structures it as a~Semantic Code Graph (SCG), an information model underlying scg-cli. The SCG data, once written into a~portable, open protobuf-based format, can be used by the scg-cli command line tool to obtain project metrics, find the most critical code entities, and compute project partitionings. The results of this analysis and the SCG data can be exported for further investigation by external tools such as Gephi software (visualization) and, notably, as a Jupyter Notebook environment with helper APIs to enable advanced analysis of the project using data analytics methods. We explain functionalities of the scg-cli tool and demonstrate its capabilities by showing an example analysis of an open-source Java project commons-io.
翻訳日:2023-10-23 04:46:18 公開日:2023-10-03
# 自律認知エンティティの概念的枠組み

Conceptual Framework for Autonomous Cognitive Entities ( http://arxiv.org/abs/2310.06775v1 )

ライセンス: Link先を確認
David Shapiro, Wangfan Li, Manuel Delaflor, Carlos Toxtli(参考訳) chatgptやclaudeといったチャットボットによる生成ai(gai)技術の急速な開発と普及は、エージェントマシンへの関心を大きく高めている。 本稿では、認知アーキテクチャの新しいフレームワークである自律認知エンティティ(ACE)モデルを紹介し、マシンとソフトウェアエージェントがより独立して動作できるようにする。 OSIモデルからインスピレーションを得たACEフレームワークは、人工認知アーキテクチャを概念化する抽象レイヤを提供する。 このモデルは、大規模言語モデル(LLM)やマルチモーダル生成モデル(MMM)など、最新の生成AI技術の能力を活用して、自律的なエージェントシステムを構築するように設計されている。 ACEフレームワークは、Aspirational Layer、Global Strategy、Agens Model、Executive Function、Cognitive Control、Task Prosecutionの6つのレイヤで構成されている。 各レイヤは、モラルコンパスの設定や戦略思考からタスクの選択と実行に至るまで、それぞれ異なる役割を担っている。 ACEフレームワークには、障害の処理とアクションの適応のためのメカニズムも組み込まれているため、自律エージェントの堅牢性と柔軟性が向上する。 本稿では,この概念的枠組みを紹介し,業界で検証・観察された実装戦略を提案する。 本稿の目標は,このフレームワークをよりアクセスしやすいものにするための形式化である。

The rapid development and adoption of Generative AI (GAI) technology in the form of chatbots such as ChatGPT and Claude has greatly increased interest in agentic machines. This paper introduces the Autonomous Cognitive Entity (ACE) model, a novel framework for a cognitive architecture, enabling machines and software agents to operate more independently. Drawing inspiration from the OSI model, the ACE framework presents layers of abstraction to conceptualize artificial cognitive architectures. The model is designed to harness the capabilities of the latest generative AI technologies, including large language models (LLMs) and multimodal generative models (MMMs), to build autonomous, agentic systems. The ACE framework comprises six layers: the Aspirational Layer, Global Strategy, Agent Model, Executive Function, Cognitive Control, and Task Prosecution. Each layer plays a distinct role, ranging from setting the moral compass and strategic thinking to task selection and execution. The ACE framework also incorporates mechanisms for handling failures and adapting actions, thereby enhancing the robustness and flexibility of autonomous agents. This paper introduces the conceptual framework and proposes implementation strategies that have been tested and observed in industry. The goal of this paper is to formalize this framework so as to be more accessible.
翻訳日:2023-10-23 03:33:41 公開日:2023-10-03
# 社会科学における機械学習を用いた短文分類 : Twitterにおける気候変動の事例

Short text classification with machine learning in the social sciences: The case of climate change on Twitter ( http://arxiv.org/abs/2310.04452v1 )

ライセンス: Link先を確認
Karina Shyrokykh, Maksym Girnyk, Lisa Dellmuth(参考訳) 大量のテキストを分析するために、社会科学研究者はテキスト分類の課題に直面している。 手動ラベリングが不可能で、研究者がテキストを分類する自動化された方法を見つける必要があるとき、コンピュータサイエンスは、社会科学で研究されていないパフォーマンスを持つ機械学習手法の有用なツールボックスを提供する。 本稿では、最も広く使われているテキスト分類器の性能を、社会科学研究における典型的な研究シナリオに適用することで比較する。 例えば、気候変動に関するTwitterのコミュニケーションは、学際的な社会科学研究への学術的関心を高めている。 気候変動の高度にあいまいな概念に関する様々な国際機関からの5750のツイートを含む新しいデータセットを用いて、気候変動に関するか否かに基づいて自動的にツイートを分類する手法の性能を評価する。 この文脈では、主な2つの発見を強調します。 まず、教師付き機械学習手法は最先端のレキシコンよりも優れた性能を発揮する。 第2に、ロジスティック回帰やランダムフォレストといった従来の機械学習手法は、トレーニング時間と計算リソースをはるかに削減しながら、高度なディープラーニング手法と同様に実行する。 この結果は社会科学研究における短文の分析に重要な意味を持つ。

To analyse large numbers of texts, social science researchers are increasingly confronting the challenge of text classification. When manual labeling is not possible and researchers have to find automatized ways to classify texts, computer science provides a useful toolbox of machine-learning methods whose performance remains understudied in the social sciences. In this article, we compare the performance of the most widely used text classifiers by applying them to a typical research scenario in social science research: a relatively small labeled dataset with infrequent occurrence of categories of interest, which is a part of a large unlabeled dataset. As an example case, we look at Twitter communication regarding climate change, a topic of increasing scholarly interest in interdisciplinary social science research. Using a novel dataset including 5,750 tweets from various international organizations regarding the highly ambiguous concept of climate change, we evaluate the performance of methods in automatically classifying tweets based on whether they are about climate change or not. In this context, we highlight two main findings. First, supervised machine-learning methods perform better than state-of-the-art lexicons, in particular as class balance increases. Second, traditional machine-learning methods, such as logistic regression and random forest, perform similarly to sophisticated deep-learning methods, whilst requiring much less training time and computational resources. The results have important implications for the analysis of short texts in social science research.
翻訳日:2023-10-15 14:37:54 公開日:2023-10-03
# autodan: 大きな言語モデルでシームレスなジェイルブレイクプロンプトを生成する

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models ( http://arxiv.org/abs/2310.04451v1 )

ライセンス: Link先を確認
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao(参考訳) LLM(Large Language Models)は、人間のフィードバックと広範囲に一致して作成された強力な言語理解と意思決定ツールである。 しかし、これらの大きなモデルはジェイルブレイク攻撃の影響を受けやすいままであり、敵は、一致したLSMが与えるべきでない悪意のある出力を引き出すプロンプトを操作する。 ジェイルブレイクのプロンプトを調査すれば、LSMの限界を掘り下げて、それらを保護するためのガイドになります。 残念なことに、既存のジェイルブレイク技術は、(1)プロンプトの手動作りに大きく依存するスケーラビリティの問題、または(2)ステルス性の問題、(2)攻撃は、しばしば意味的に意味のないプロンプトを生成するためにトークンベースのアルゴリズムに依存している。 これらの課題を踏まえて、私たちはこの質問に答えるつもりです: ステルスなジェイルブレイクプロンプトを自動的に生成できるアプローチを開発できるか? 本稿では,ALMに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。 広範囲な評価の結果,AutoDANは意味的意味性を維持しながらプロセスを自動化するだけでなく,モデル間の伝達性やベースラインと比較して,より優れた攻撃強度を示す。 さらに,AutoDANとパープレキシティベースの防御手法を比較し,それらを効果的に回避できることを示す。

The aligned Large Language Models (LLMs) are powerful language understanding and decision-making tools that are created through extensive alignment with human feedback. However, these large models remain susceptible to jailbreak attacks, where adversaries manipulate prompts to elicit malicious outputs that should not be given by aligned LLMs. Investigating jailbreak prompts can lead us to delve into the limitations of LLMs and further guide us to secure them. Unfortunately, existing jailbreak techniques suffer from either (1) scalability issues, where attacks heavily rely on manual crafting of prompts, or (2) stealthiness problems, as attacks depend on token-based algorithms to generate prompts that are often semantically meaningless, making them susceptible to detection through basic perplexity testing. In light of these challenges, we intend to answer this question: Can we develop an approach that can automatically generate stealthy jailbreak prompts? In this paper, we introduce AutoDAN, a novel jailbreak attack against aligned LLMs. AutoDAN can automatically generate stealthy jailbreak prompts by the carefully designed hierarchical genetic algorithm. Extensive evaluations demonstrate that AutoDAN not only automates the process while preserving semantic meaningfulness, but also demonstrates superior attack strength in cross-model transferability, and cross-sample universality compared with the baseline. Moreover, we also compare AutoDAN with perplexity-based defense methods and show that AutoDAN can bypass them effectively.
翻訳日:2023-10-15 14:37:29 公開日:2023-10-03
# 評価理論を用いた大規模言語モデルの感情知覚の検討

Investigating Large Language Models' Perception of Emotion Using Appraisal Theory ( http://arxiv.org/abs/2310.04450v1 )

ライセンス: Link先を確認
Nutchanon Yongsatianchot, Parisa Ghanad Torshizi, Stacy Marsella(参考訳) ChatGPTのような大規模言語モデル(LLM)は近年大きく進歩し、現在一般に使われている。 これらのシステムと対話する人が増えるにつれて、ブラックボックスモデルの理解を深めることは、特に人間の心理的側面の理解において重要である。 本研究では,Scress and Coping Process Questionaire (SCPQ) を用いた評価・対処理論のレンズによる感情知覚について検討する。 SCPQは、時間とともに進化し、制御性や変更性といった重要な評価変数が異なる複数のストーリーからなる検証済みの臨床機器である。 SCPQ を OpenAI, davinci-003, ChatGPT, GPT-4 の3つの最近の LLM に適用し,評価理論と人的データによる予測と比較した。 その結果,llmsの応答は評価とコーピングのダイナミクスにおいてヒトと類似しているが,その応答は理論とデータによって予測されるような重要な評価次元では変化しなかった。 反応の大きさも、いくつかの変数のヒトとは大きく異なる。 また, GPTは, 質問に対して非常に敏感であることがわかった。 この研究は、llmの心理的側面を評価する文学の増加につながり、現在のモデルの理解を深める助けとなる。

Large Language Models (LLM) like ChatGPT have significantly advanced in recent years and are now being used by the general public. As more people interact with these systems, improving our understanding of these black box models is crucial, especially regarding their understanding of human psychological aspects. In this work, we investigate their emotion perception through the lens of appraisal and coping theory using the Stress and Coping Process Questionaire (SCPQ). SCPQ is a validated clinical instrument consisting of multiple stories that evolve over time and differ in key appraisal variables such as controllability and changeability. We applied SCPQ to three recent LLMs from OpenAI, davinci-003, ChatGPT, and GPT-4 and compared the results with predictions from the appraisal theory and human data. The results show that LLMs' responses are similar to humans in terms of dynamics of appraisal and coping, but their responses did not differ along key appraisal dimensions as predicted by the theory and data. The magnitude of their responses is also quite different from humans in several variables. We also found that GPTs can be quite sensitive to instruction and how questions are asked. This work adds to the growing literature evaluating the psychological aspects of LLMs and helps enrich our understanding of the current models.
翻訳日:2023-10-15 14:37:02 公開日:2023-10-03
# 大規模言語モデルを用いた協調行動に関連する性格特性の進化モデル

An evolutionary model of personality traits related to cooperative behavior using a large language model ( http://arxiv.org/abs/2310.05976v1 )

ライセンス: Link先を確認
Reiji Suzuki and Takaya Arita(参考訳) 本稿では,多様な個体群と社会集団の進化的ダイナミクスを,生成モデルの特徴表現に富んだ表現性を導入することで,その進化的ダイナミクスを解明することを目的とする。 具体的には、個人間利益が強い選択圧力を及ぼす状況として、ゲーム理論的関係の文脈における性格特性の進化に焦点を当てる。 協調行動に関連するパーソナリティ特性の言語的記述を遺伝子として用いるエージェントモデルを構築した。 これらの性格特性に基づいて行動決定を行う大言語モデル(llm)から抽出された決定論的戦略は行動特性として用いられる。 集団は、llmに親遺伝子を協調的あるいは利己的に変えるよう要求することで、平均的な報酬と遺伝子の変異に基づいて選択によって進化する。 予備実験と分析により,このようなモデルが,個性特性の多様かつ高次表現に基づく協調行動の進化を実際に示すことができることを明らかにした。 また, 人格特性の表現の変化を通じて, 協調的・自尊的性格特性の反復的侵入を観察し, 進化した遺伝子に出現する単語が, 人格の行動傾向を意味的に反映していることを見出した。

This paper aims to shed light on the evolutionary dynamics of diverse and social populations by introducing the rich expressiveness of generative models into the trait expression of social agent-based evolutionary models. Specifically, we focus on the evolution of personality traits in the context of a game-theoretic relationship as a situation in which inter-individual interests exert strong selection pressures. We construct an agent model in which linguistic descriptions of personality traits related to cooperative behavior are used as genes. The deterministic strategies extracted from Large Language Model (LLM) that make behavioral decisions based on these personality traits are used as behavioral traits. The population is evolved according to selection based on average payoff and mutation of genes by asking LLM to slightly modify the parent gene toward cooperative or selfish. Through preliminary experiments and analyses, we clarify that such a model can indeed exhibit the evolution of cooperative behavior based on the diverse and higher-order representation of personality traits. We also observed the repeated intrusion of cooperative and selfish personality traits through changes in the expression of personality traits, and found that the emerging words in the evolved gene well reflected the behavioral tendency of its personality in terms of their semantics.
翻訳日:2023-10-15 14:15:17 公開日:2023-10-03
# 幾何学的深層学習による混合系の勾配特性最適化のための微分化学物理

Differentiable Chemical Physics by Geometric Deep Learning for Gradient-based Property Optimization of Mixtures ( http://arxiv.org/abs/2310.03047v1 )

ライセンス: Link先を確認
Shang Zhu, Bharath Ramsundar, Emil Annevelink, Hongyi Lin, Adarsh Dave, Pin-Wen Guan, Kevin Gering, Venkatasubramanian Viswanathan(参考訳) 多目的性能指標と制約を満たす化学混合物は、化学プロセスや電気化学デバイスでの使用を可能にする。 本研究では, 分子種, 組成, 環境条件から混合物理法則の物理係数へのマッピングに幾何学的深層学習(GDL)を利用するDiffMixという, 化学混合物をモデル化するための微分可能な化学物理フレームワークを開発する。 特に,分子エンコーダとしてグラフニューラルネットワークを用い,成分単位の置換不変性を強制する学習可能な物理係数を作成することにより,熱力学と輸送の混合法則を拡張した。 我々は, 2成分混合系の熱力学からモデル評価を開始し, さらに, モデル一般化性をテストするために, 輸送特性に関する多成分電解質混合物のベンチマークを行った。 diffmixの予測精度とモデルロバスト性は,データ駆動型よりも向上した。 さらに,diffmix 自己微分法による勾配に基づく電解質輸送特性の効率的な最適化を示す。 シミュレーションの実行は、ロボット実験のセットアップであるclioによって生成されたデータによってバックアップされます。 混合物理とGDLを組み合わせることで、DiffMixは化学混合物の予測モデリング手法を拡張し、大規模化学空間における低コストな最適化手法を提供する。

Chemical mixtures, satisfying multi-objective performance metrics and constraints, enable their use in chemical processes and electrochemical devices. In this work, we develop a differentiable chemical-physics framework for modeling chemical mixtures, DiffMix, where geometric deep learning (GDL) is leveraged to map from molecular species, compositions and environment conditions, to physical coefficients in the mixture physics laws. In particular, we extend mixture thermodynamic and transport laws by creating learnable physical coefficients, where we use graph neural networks as the molecule encoder and enforce component-wise permutation-invariance. We start our model evaluations with thermodynamics of binary mixtures, and further benchmarked multicomponent electrolyte mixtures on their transport properties, in order to test the model generalizability. We show improved prediction accuracy and model robustness of DiffMix than its purely data-driven variants. Furthermore, we demonstrate the efficient optimization of electrolyte transport properties, built on the gradient obtained using DiffMix auto-differentiation. Our simulation runs are then backed up by the data generated by a robotic experimentation setup, Clio. By combining mixture physics and GDL, DiffMix expands the predictive modeling methods for chemical mixtures and provides low-cost optimization approaches in large chemical spaces.
翻訳日:2023-10-06 21:03:22 公開日:2023-10-03
# eco assistant: llmアシスタントをもっと手頃で正確に使う

EcoAssistant: Using LLM Assistant More Affordably and Accurately ( http://arxiv.org/abs/2310.03046v1 )

ライセンス: Link先を確認
Jieyu Zhang, Ranjay Krishna, Ahmed H. Awadallah, Chi Wang(参考訳) 今日では、ユーザーは、外部の知識を必要とするクエリに答えるアシスタントとしてLarge Language Model (LLM) を尋ね、特定の都市の天気、株価、さらには近隣の特定の場所についても尋ねる。 これらのクエリは、ユーザーの質問に答えるために外部APIを呼び出すコードを生成する必要があるが、LCMは最初の試行で正しいコードを生成することはめったにない。 さらに、高いクエリボリュームをサポートするためにllmアシスタントを使用することは高価である。 本研究では,LLMがコード駆動クエリに対して,より安価かつ正確に応答できるフレームワークであるEcoAssistantを提案する。 EcoAssistantには3つのコンポーネントが含まれている。 まず、LLMアシスタントが自動コード実行器と会話することで、コードを反復的に洗練したり、実行結果に基づいて回答を生成できる。 次に、より強力で高価なものにバックアップする前に、より弱い、より安価なllmでクエリに答えようとする、llmアシスタントの階層を使用する。 第三に、過去の成功したクエリからのソリューションをコンテキスト内デモとして取り出して、その後のクエリを支援する。 実験により,EcoAssistantは,GPT-4のコストの50%以下で,GPT-4を10ポイント超え,手頃な価格と精度に明確な優位性があることが判明した。

Today, users ask Large language models (LLMs) as assistants to answer queries that require external knowledge; they ask about the weather in a specific city, about stock prices, and even about where specific locations are within their neighborhood. These queries require the LLM to produce code that invokes external APIs to answer the user's question, yet LLMs rarely produce correct code on the first try, requiring iterative code refinement upon execution results. In addition, using LLM assistants to support high query volumes can be expensive. In this work, we contribute a framework, EcoAssistant, that enables LLMs to answer code-driven queries more affordably and accurately. EcoAssistant contains three components. First, it allows the LLM assistants to converse with an automatic code executor to iteratively refine code or to produce answers based on the execution results. Second, we use a hierarchy of LLM assistants, which attempts to answer the query with weaker, cheaper LLMs before backing off to stronger, expensive ones. Third, we retrieve solutions from past successful queries as in-context demonstrations to help subsequent queries. Empirically, we show that EcoAssistant offers distinct advantages for affordability and accuracy, surpassing GPT-4 by 10 points of success rate with less than 50% of GPT-4's cost.
翻訳日:2023-10-06 21:02:59 公開日:2023-10-03
# 文レベルフィードバックを用いた対話型検索のための深層強化学習手法

A Deep Reinforcement Learning Approach for Interactive Search with Sentence-level Feedback ( http://arxiv.org/abs/2310.03043v1 )

ライセンス: Link先を確認
Jianghong Zhou, Joyce C. Ho, Chen Lin, Eugene Agichtein(参考訳) 対話型検索は、ユーザからのインタラクションフィードバックを取り入れることで、よりよいエクスペリエンスを提供することができる。 これにより、無関係な情報を避け、ユーザの検索意図をキャプチャするので、検索精度が大幅に向上する。 既存の最先端(SOTA)システムでは、強化学習(RL)モデルを使用してインタラクションを組み込むが、アイテムレベルのフィードバックに重点を置いており、文レベルのフィードバックに見られる詳細な情報を無視している。 しかしそのようなフィードバックには、広範囲なRLアクションスペース探索と大量の注釈付きデータが必要である。 この作業は、新しいディープラーニング(DQ)アプローチであるDQrankを提案することで、これらの課題に対処する。 DQrank は BERT ベースのモデル SOTA を自然言語処理に適用し、ユーザのエンゲージメントに基づいて重要な文を選択し、アイテムのランク付けを行い、より満足な応答を得る。 また,最適な行動を探るための2つのメカニズムを提案する。 DQrankはさらに、DQのエクスペリエンス再生機構を利用してフィードバック文を格納し、より優れた初期ランク付け性能を得る。 3つの検索データセットに対するDQrankの有効性を検証する。 その結果、DQRankは以前のSOTA RLアプローチよりも少なくとも12%高い性能を示した。 詳細なアブレーション研究も行っています。 その結果、各モデルコンポーネントは、ユーザの文レベルのフィードバックから、長期的なエンゲージメント効果を効率的に抽出し蓄積できることが示される。 この構造は、文レベルの対話を伴う検索システムを構築するための、約束された性能を持つ新しい技術を提供する。

Interactive search can provide a better experience by incorporating interaction feedback from the users. This can significantly improve search accuracy as it helps avoid irrelevant information and captures the users' search intents. Existing state-of-the-art (SOTA) systems use reinforcement learning (RL) models to incorporate the interactions but focus on item-level feedback, ignoring the fine-grained information found in sentence-level feedback. Yet such feedback requires extensive RL action space exploration and large amounts of annotated data. This work addresses these challenges by proposing a new deep Q-learning (DQ) approach, DQrank. DQrank adapts BERT-based models, the SOTA in natural language processing, to select crucial sentences based on users' engagement and rank the items to obtain more satisfactory responses. We also propose two mechanisms to better explore optimal actions. DQrank further utilizes the experience replay mechanism in DQ to store the feedback sentences to obtain a better initial ranking performance. We validate the effectiveness of DQrank on three search datasets. The results show that DQRank performs at least 12% better than the previous SOTA RL approaches. We also conduct detailed ablation studies. The ablation results demonstrate that each model component can efficiently extract and accumulate long-term engagement effects from the users' sentence-level feedback. This structure offers new technologies with promised performance to construct a search system with sentence-level interaction.
翻訳日:2023-10-06 21:02:35 公開日:2023-10-03
# wise-srnet: 特徴地図の空間分解能学習による画像分類強化のための新しいアーキテクチャ

Wise-SrNet: A Novel Architecture for Enhancing Image Classification by Learning Spatial Resolution of Feature Maps ( http://arxiv.org/abs/2104.12294v2 )

ライセンス: Link先を確認
Mohammad Rahimzadeh, AmirAli Askari, Soroush Parvin, Elnaz Safi, Mohammad Reza Mohammadi(参考訳) 畳み込みニューラルネットワークの進歩以降の主な課題の1つは、抽出された特徴マップを最終分類層に接続する方法である。 VGGモデルはアーキテクチャの分類に2つの完全に接続された層を使用し、モデルの重みを著しく増やした。 ResNetと次の深層畳み込みモデルでは、Global Average Pooling(GAP)レイヤを使用してフィーチャーマップを圧縮し、それを分類層に供給する。 GAPレイヤを使用すると計算コストが削減されるが、特徴マップの空間分解能が低下し、学習効率が低下する。 本稿では,GAP層をWise-SrNetと呼ばれる新しいアーキテクチャに置き換えることで,この問題に対処する。 深遠な畳み込みのアイデアにインスパイアされ、計算コストを増大させることなく空間分解能を処理するように設計されている。 我々は、Intel Image Classification Challenge、MIT Indoors Scenes、ImageNetデータセットの一部の3つの異なるデータセットを用いて手法を評価した。 我々は,インセプション,ResNet,DenseNetファミリーの各モデルにおけるアーキテクチャの実装について検討した。 アーキテクチャを適用することで、収束速度と精度が向上することが明らかになりました。 224*224解像度の画像に対する実験は、データセットやモデルでTop-1の精度を2%から8%向上させた。 MIT Indoors Scenesデータセットの512*512解像度画像上でモデルを実行すると、Top-1の精度が3%から26%向上した。 また,入力画像が大きく,クラス数が少ない場合にGAP層の欠点を示す。 この状況下では,提案アーキテクチャは分類結果の強化に大いに役立てることができる。 コードはhttps://github.com/mr7495/image-classification-spatialで共有される。

One of the main challenges since the advancement of convolutional neural networks is how to connect the extracted feature map to the final classification layer. VGG models used two sets of fully connected layers for the classification part of their architectures, which significantly increased the number of models' weights. ResNet and the next deep convolutional models used the Global Average Pooling (GAP) layer to compress the feature map and feed it to the classification layer. Although using the GAP layer reduces the computational cost, but also causes losing spatial resolution of the feature map, which results in decreasing learning efficiency. In this paper, we aim to tackle this problem by replacing the GAP layer with a new architecture called Wise-SrNet. It is inspired by the depthwise convolutional idea and is designed for processing spatial resolution while not increasing computational cost. We have evaluated our method using three different datasets: Intel Image Classification Challenge, MIT Indoors Scenes, and a part of the ImageNet dataset. We investigated the implementation of our architecture on several models of the Inception, ResNet, and DenseNet families. Applying our architecture has revealed a significant effect on increasing convergence speed and accuracy. Our Experiments on images with 224*224 resolution increased the Top-1 accuracy between 2% to 8% on different datasets and models. Running our models on 512*512 resolution images of the MIT Indoors Scenes dataset showed a notable result of improving the Top-1 accuracy within 3% to 26%. We will also demonstrate the GAP layer's disadvantage when the input images are large and the number of classes is not few. In this circumstance, our proposed architecture can do a great help in enhancing classification results. The code is shared at https://github.com/mr7495/image-classification-spatial.
翻訳日:2023-10-05 23:02:47 公開日:2023-10-03
# 高速トレーニングのためのパラメータ化量子回路への空間対称性の構築

Building spatial symmetries into parameterized quantum circuits for faster training ( http://arxiv.org/abs/2207.14413v2 )

ライセンス: Link先を確認
Frederic Sauvage, Martin Larocca, Patrick J. Coles, M. Cerezo(参考訳) 量子学習モデルの実践的な成功は、パラメータ化量子回路に適した構造を持つことにある。 このような構造は、使用するゲートの種類とパラメータの相関によって定義される。 ゲートセットの適切な設計に多くの研究が注がれており、通常は問題の対称性を尊重しているが、それらのパラメータがどのように構成されるべきかはほとんど分かっていない。 本研究では,空間的対称性(すなわち,研究中の系の一部の置換である対称性)を慎重に考えると,理想的パラメータ構造が自然に出現することを示す。 すなわち、問題ハミルトニアンの自己同型群を考えると、この対称性群の下で同値である回路構成を開発することになる。 ORBと呼ばれる新しい回路構造の利点は、いくつかの基底状態問題において数値的に探索される。 文献的な回路構成と比較して,回路の深さ,パラメータ数,勾配等級などにおいて,一貫した改善がみられた。

Practical success of quantum learning models hinges on having a suitable structure for the parameterized quantum circuit. Such structure is defined both by the types of gates employed and by the correlations of their parameters. While much research has been devoted to devising adequate gate-sets, typically respecting some symmetries of the problem, very little is known about how their parameters should be structured. In this work, we show that an ideal parameter structure naturally emerges when carefully considering spatial symmetries (i.e., the symmetries that are permutations of parts of the system under study). Namely, we consider the automorphism group of the problem Hamiltonian, leading us to develop a circuit construction that is equivariant under this symmetry group. The benefits of our novel circuit structure, called ORB, are numerically probed in several ground-state problems. We find a consistent improvement (in terms of circuit depth, number of parameters required, and gradient magnitudes) compared to literature circuit constructions.
翻訳日:2023-10-05 22:51:04 公開日:2023-10-03
# 構造幻覚型変圧器カスケードによるフロアプランの復元

Floorplan Restoration by Structure Hallucinating Transformer Cascades ( http://arxiv.org/abs/2206.00645v4 )

ライセンス: Link先を確認
Sepidehsadat Hosseini, Yasutaka Furukawa(参考訳) 本稿では,エクストリームフロアプラン再構築タスク,新しいタスクベンチマーク,ニューラルネットワークアーキテクチャを解として提示する。 パノラマ画像から推定またはキュレートされた部分的なフロアプランの再構築を前提として、見えない建築構造を含む完全なフロアプランの再構築を行う。 ニューラルネットワークの提案 1)畳み込みニューラルネットワークとトランスフォーマによって入力された部分床版を一連の潜在ベクトルに符号化する。 2) トランスフォーマーデコーダをカスケードすることにより, 見えない部屋や扉を幻覚しながら, フロアプラン全体を再構築する。 定性的,定量的評価により,701戸の住宅に対するアプローチの有効性が示された。 コード、モデル、データを共有します。

This paper presents an extreme floorplan reconstruction task, a new benchmark for the task, and a neural architecture as a solution. Given a partial floorplan reconstruction inferred or curated from panorama images, the task is to reconstruct a complete floorplan including invisible architectural structures. The proposed neural network 1) encodes an input partial floorplan into a set of latent vectors by convolutional neural networks and a Transformer; and 2) reconstructs an entire floorplan while hallucinating invisible rooms and doors by cascading Transformer decoders. Qualitative and quantitative evaluations demonstrate effectiveness of our approach over the benchmark of 701 houses, outperforming the state-of-the-art reconstruction techniques. We will share our code, models, and data.
翻訳日:2023-10-05 22:50:12 公開日:2023-10-03
# puzzlefusion:空間パズル解のための拡散モデルの力を解き放つ

PuzzleFusion: Unleashing the Power of Diffusion Models for Spatial Puzzle Solving ( http://arxiv.org/abs/2211.13785v3 )

ライセンス: Link先を確認
Sepidehsadat Hosseini, Mohammad Amin Shabani, Saghar Irandoust, Yasutaka Furukawa(参考訳) 本稿では,空間パズル解法,特にジグソーパズルとルームアレンジタスクのための拡散モデルに基づくエンドツーエンドニューラルネットワークアーキテクチャを提案する。 後者のタスクでは、例えば、提案システム「PuzzleFusion」は、一組の部屋レイアウトをトップダウンビューの多角形曲線として取り、部屋レイアウトのジグソーパズルの解法と同様に、2次元の翻訳と回転を推定して部屋レイアウトを整列する。 この論文の驚くべき発見は、拡散モデル(Diffusion Model)の簡単な使用により、条件生成プロセスとしてこれらの困難な空間パズルタスクを効果的に解くことである。 本稿では,エンド・ツー・エンドのニューラルネットワークの学習を可能にするために,接地配置を用いた新しいデータセットを提案する。 1) 2d voronoi jigsawデータセット,2d pointsetのvoronoiダイアグラムによってピースが生成される合成データセット, 2) magicplanデータセットは、製品パイプラインからmagicplanが提供する現実のデータセットで、現実の消費者が拡張現実アプリによって構築したルームレイアウトである。 定性的かつ定量的な評価は、我々の手法が全てのタスクにおいて大きなマージンで競合する手法よりも優れていることを示す。

This paper presents an end-to-end neural architecture based on Diffusion Models for spatial puzzle solving, particularly jigsaw puzzle and room arrangement tasks. In the latter task, for instance, the proposed system "PuzzleFusion" takes a set of room layouts as polygonal curves in the top-down view and aligns the room layout pieces by estimating their 2D translations and rotations, akin to solving the jigsaw puzzle of room layouts. A surprising discovery of the paper is that the simple use of a Diffusion Model effectively solves these challenging spatial puzzle tasks as a conditional generation process. To enable learning of an end-to-end neural system, the paper introduces new datasets with ground-truth arrangements: 1) 2D Voronoi jigsaw dataset, a synthetic one where pieces are generated by Voronoi diagram of 2D pointset; and 2) MagicPlan dataset, a real one offered by MagicPlan from its production pipeline, where pieces are room layouts constructed by augmented reality App by real-estate consumers. The qualitative and quantitative evaluations demonstrate that our approach outperforms the competing methods by significant margins in all the tasks.
翻訳日:2023-10-05 22:41:27 公開日:2023-10-03
# Covid-19ワクチン接種に関するペルシアのツイートの大規模分析

A Large-Scale Analysis of Persian Tweets Regarding Covid-19 Vaccination ( http://arxiv.org/abs/2302.04511v2 )

ライセンス: Link先を確認
Taha ShabaniMirzaei, Houmaan Chamani, Amirhossein Abaskohi, Zhivar Sourati Hassan Zadeh, Behnam Bahrak(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、私たちの生活、特に人々の相互作用に大きな影響を与えました。 Covid-19ワクチンの導入により、ワクチンの接種の有無に関して、肯定的、否定的な意見の両方が持ち上がった。 本稿では、ツイートやユーザープロフィールを含むTwitterから集めたデータを用いて、イランにおけるコロナウイルスワクチンに関する世論を包括的に分析する。 そこで本研究では,ワクチン関連ツイート抽出のためのトピックモデリング手法と組み合わせた検索クエリ手法を適用した。 トランスフォーマーモデルを用いて, ツイートの内容の分類と予防接種に関するテーマの抽出を行った。 また,この話題に関する世論の幸福感と怒りを評価するために感情分析を行った。 以上の結果から,コビッドウイルスワクチン接種は,政府の問題,安全性,過敏性,副作用など,さまざまな角度から注目されている。 さらに、ワクチン接種や感染率などのコロナウイルス関連現象は、公衆の感情状態やユーザーの相互作用に深く影響した。

The Covid-19 pandemic had an enormous effect on our lives, especially on people's interactions. By introducing Covid-19 vaccines, both positive and negative opinions were raised over the subject of taking vaccines or not. In this paper, using data gathered from Twitter, including tweets and user profiles, we offer a comprehensive analysis of public opinion in Iran about the Coronavirus vaccines. For this purpose, we applied a search query technique combined with a topic modeling approach to extract vaccine-related tweets. We utilized transformer-based models to classify the content of the tweets and extract themes revolving around vaccination. We also conducted an emotion analysis to evaluate the public happiness and anger around this topic. Our results demonstrate that Covid-19 vaccination has attracted considerable attention from different angles, such as governmental issues, safety or hesitancy, and side effects. Moreover, Coronavirus-relevant phenomena like public vaccination and the rate of infection deeply impacted public emotional status and users' interactions.
翻訳日:2023-10-05 22:29:35 公開日:2023-10-03
# リッチアレタリックおよびてんかん不確実性モデリングのための正規化フローアンサンブル

Normalizing Flow Ensembles for Rich Aleatoric and Epistemic Uncertainty Modeling ( http://arxiv.org/abs/2302.01312v3 )

ライセンス: Link先を確認
Lucas Berry and David Meger(参考訳) そこで本研究では,複雑なアレゲータ分布を捉えるのに必要な柔軟性を維持しつつ,認識的不確実性を確実に推定する方法を示す。 そこで本研究では,アレエータ的不確かさのモデル化における最先端手法である正規化流れ(nf)のアンサンブルを提案する。 アンサンブルは固定されたドロップアウトマスクのセットで作られ、異なるNFモデルを作成するよりも安価である。 本研究では, NFsの特異構造, 基底分布, 平均不確かさをサンプルに頼らずに推定する方法を示し, ベースラインの包括的セットを提供し, 微分エントロピーの偏りのない推定を導出する。 これらの手法は,1次元正弦波データ,2次元風洞グリッドワールド(\it{Wet Chicken}$),$\it{Pendulum}$,$\it{Hopper}$など,様々な実験に応用された。 これらの実験では,能動的学習フレームワークを構築し,各モデルがアレタリックおよびてんかん不確実性を測定する能力を評価する。 以上の結果から,nfアンサンブルを用いて正確な認識の不確実性推定を保ちながら複雑なアレオータリックを捉えることの利点が示された。

In this work, we demonstrate how to reliably estimate epistemic uncertainty while maintaining the flexibility needed to capture complicated aleatoric distributions. To this end, we propose an ensemble of Normalizing Flows (NF), which are state-of-the-art in modeling aleatoric uncertainty. The ensembles are created via sets of fixed dropout masks, making them less expensive than creating separate NF models. We demonstrate how to leverage the unique structure of NFs, base distributions, to estimate aleatoric uncertainty without relying on samples, provide a comprehensive set of baselines, and derive unbiased estimates for differential entropy. The methods were applied to a variety of experiments, commonly used to benchmark aleatoric and epistemic uncertainty estimation: 1D sinusoidal data, 2D windy grid-world ($\it{Wet Chicken}$), $\it{Pendulum}$, and $\it{Hopper}$. In these experiments, we setup an active learning framework and evaluate each model's capability at measuring aleatoric and epistemic uncertainty. The results show the advantages of using NF ensembles in capturing complicated aleatoric while maintaining accurate epistemic uncertainty estimates.
翻訳日:2023-10-05 22:29:08 公開日:2023-10-03
# 効率的な変圧器の更新

Alternating Updates for Efficient Transformers ( http://arxiv.org/abs/2301.13310v2 )

ライセンス: Link先を確認
Cenk Baykal and Dylan Cutler and Nishanth Dikkala and Nikhil Ghosh and Rina Panigrahy and Xin Wang(参考訳) ディープトランスフォーマーネットワークのスケールアップによって、品質とパフォーマンスが向上することが確立されている。 しかし、このスケールの増大は、しばしば計算コストと推論遅延の制限的な増加を伴う。 計算負担を伴わずにモデル容量を増大させる簡単な実装法であるAltUp(AltUp)を導入する。 AltUpは学習した表現、すなわちトークンの埋め込みの拡大を可能にするが、遅延の無視できる増加しか生じない。 AltUpは、各レイヤで拡張された表現のサブブロックに取り組み、不活性なブロックを更新するために予測と修正のメカニズムを使用する。 本稿では,AltUpの拡張について述べる。例えば,AltUpをSparse Mixture-of-Expertsモデルなどの既存手法と相乗的に組み合わせることで,より高いキャパシティを持つ効率的なモデルが得られることを示す。 ベンチマークトランスフォーマーモデルと言語タスクに関する実験により,様々なシナリオにおけるaltupの有効性が実証された。 特に、SuperGLUEとSQuADベンチマークでは、AltUpは同じ精度で密度の高いベースラインに対して最大8,7\%のスピードアップを可能にする。

It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87\%$ speedup relative to the dense baselines at the same accuracy.
翻訳日:2023-10-05 22:28:26 公開日:2023-10-03
# 構造スパースを用いたダイナミックスパーストレーニング

Dynamic Sparse Training with Structured Sparsity ( http://arxiv.org/abs/2305.02299v3 )

ライセンス: Link先を確認
Mike Lasby, Anna Golubeva, Utku Evci, Mihai Nica, Yani Ioannou(参考訳) 動的スパーストレーニング(dst)法は、スパースニューラルネットワークトレーニングにおいて最先端の結果を達成し、スパーストレーニングと推論を可能にしながら、密集したモデルの一般化と一致する。 結果のモデルは非常に疎結合であり、理論上は計算コストが低いが、現実のハードウェア上で非構造化の間隔でスピードアップを達成することは困難である。 本研究では, 一定のファンイン制約を課すことで, 微細構造N:M空間の変動を学習するための, スパース・トゥ・スパースDST法であるStructured RigL(SRigL)を提案する。 既存のDST手法を高間隔で実証分析することにより,SRigLが様々なニューラルネットワーク(NN)アーキテクチャ上で,最先端のスパース・ツー・スパース構造DST性能を達成できるニューロンアブレーション法も導入する。 オンライン推論のためのCPU上の実世界のタイミングを、同等の密度/非構造化のスパース層よりも90%の間隔で3.6x/2倍高速に削減した。 私たちのソースコードはhttps://github.com/calgaryml/condensed-sparsityで利用可能です。

Dynamic Sparse Training (DST) methods achieve state-of-the-art results in sparse neural network training, matching the generalization of dense models while enabling sparse training and inference. Although the resulting models are highly sparse and theoretically less computationally expensive, achieving speedups with unstructured sparsity on real-world hardware is challenging. In this work, we propose a sparse-to-sparse DST method, Structured RigL (SRigL), to learn a variant of fine-grained structured N:M sparsity by imposing a constant fan-in constraint. Using our empirical analysis of existing DST methods at high sparsity, we additionally employ a neuron ablation method which enables SRigL to achieve state-of-the-art sparse-to-sparse structured DST performance on a variety of Neural Network (NN) architectures. We demonstrate reduced real-world timings on CPU for online inference -- 3.6x/2x faster at 90% sparsity than equivalent dense/unstructured sparse layers, respectively. Our source code is available at https://github.com/calgaryml/condensed-sparsity
翻訳日:2023-10-05 22:08:43 公開日:2023-10-03
# 塑性注入による深層強化学習

Deep Reinforcement Learning with Plasticity Injection ( http://arxiv.org/abs/2305.15555v2 )

ライセンス: Link先を確認
Evgenii Nikishin, Junhyuk Oh, Georg Ostrovski, Clare Lyle, Razvan Pascanu, Will Dabney, Andr\'e Barreto(参考訳) 深部強化学習(RL)に使用されるニューラルネットワークは、徐々に可塑性を失い、新しいデータから学習する能力が低下することを示す証拠が増えているが、この現象の分析と緩和は、RLの可塑性、探索、性能の複雑な関係によって妨げられている。 本稿では,学習可能なパラメータの数や予測のバイアスを伴わずに,ネットワーク可塑性を高める最小限の介入である塑性注入を導入する。 第一に、診断ツールである$\unicode{x2014}$ インジェクションが性能を向上させると、エージェントのネットワークはその可塑性を失いつつあると結論付けることができる。 このツールにより,可塑性の欠如が性能高原の原因となるアタリ環境のサブセットを特定し,可塑性損失の理解と対策に関する今後の研究を動機付けることができる。 第2に、可塑性注入は、消耗した可塑性によるスクラッチからの学習や、性能を損なうことなくエージェントのネットワークを動的に成長させることで、RLトレーニングの計算効率を向上させるために用いられる。 その結果, 可塑性注入は, 計算効率が高く, 代替手法に比べて高い性能が得られることがわかった。

A growing body of evidence suggests that neural networks employed in deep reinforcement learning (RL) gradually lose their plasticity, the ability to learn from new data; however, the analysis and mitigation of this phenomenon is hampered by the complex relationship between plasticity, exploration, and performance in RL. This paper introduces plasticity injection, a minimalistic intervention that increases the network plasticity without changing the number of trainable parameters or biasing the predictions. The applications of this intervention are two-fold: first, as a diagnostic tool $\unicode{x2014}$ if injection increases the performance, we may conclude that an agent's network was losing its plasticity. This tool allows us to identify a subset of Atari environments where the lack of plasticity causes performance plateaus, motivating future studies on understanding and combating plasticity loss. Second, plasticity injection can be used to improve the computational efficiency of RL training if the agent has to re-learn from scratch due to exhausted plasticity or by growing the agent's network dynamically without compromising performance. The results on Atari show that plasticity injection attains stronger performance compared to alternative methods while being computationally efficient.
翻訳日:2023-10-05 22:01:34 公開日:2023-10-03
# 忠実度ランドスケープのロバストモデルに基づく最適化

Robust Model-Based Optimization for Challenging Fitness Landscapes ( http://arxiv.org/abs/2305.13650v2 )

ライセンス: Link先を確認
Saba Ghaffari, Ehsan Saleh, Alexander G. Schwing, Yu-Xiong Wang, Martin D. Burke, Saurabh Sinha(参考訳) タンパク質設計は、当時の大きな課題であり、フィットネスランドスケープの最適化を伴い、主要な手法はモデルベースのアプローチを採用し、モデルがトレーニングセット(タンパク質配列とフィットネス)に基づいてトレーニングされ、次に探索する候補を提案する。 これらの手法は、トレーニングセットにおける高適合度サンプルのばらばらさによって挑戦されている。 設計分野におけるトレーニングサンプルの分布は、あまり認識されていないが、同様に重要な問題である: 望ましい最適がトレーニングデータで不十分なだけでなく、高度に表現された低適合領域から比較的遠い領域にあるシナリオに対して、リード手法が設計されていない。 設計空間におけるこの「分離」問題は,既存のモデルに基づく最適化ツールにおいて重大なボトルネックであり,新しいvaeを探索モデルとして用いる新しい手法を提案する。 低適合度と高適合度のトレーニングサンプル間の不均衡と分離に関わらず、改良されたサンプルを堅牢に発見する以前の方法よりもその利点を実証する。 実および半合成タンパク質データセットに関する包括的なベンチマークと物理情報ニューラルネットワークのソリューション設計は、離散的かつ連続的な設計空間における我々のアプローチの一般化を示している。 実装はhttps://github.com/sabagh1994/pgvaeで利用可能です。

Protein design, a grand challenge of the day, involves optimization on a fitness landscape, and leading methods adopt a model-based approach where a model is trained on a training set (protein sequences and fitness) and proposes candidates to explore next. These methods are challenged by sparsity of high-fitness samples in the training set, a problem that has been in the literature. A less recognized but equally important problem stems from the distribution of training samples in the design space: leading methods are not designed for scenarios where the desired optimum is in a region that is not only poorly represented in training data, but also relatively far from the highly represented low-fitness regions. We show that this problem of "separation" in the design space is a significant bottleneck in existing model-based optimization tools and propose a new approach that uses a novel VAE as its search model to overcome the problem. We demonstrate its advantage over prior methods in robustly finding improved samples, regardless of the imbalance and separation between low- and high-fitness training samples. Our comprehensive benchmark on real and semi-synthetic protein datasets as well as solution design for physics-informed neural networks, showcases the generality of our approach in discrete and continuous design spaces. Our implementation is available at https://github.com/sabagh1994/PGVAE.
翻訳日:2023-10-05 21:59:09 公開日:2023-10-03
# awq: llm圧縮と加速度のためのアクティベーションアウェアウェイト量子化

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration ( http://arxiv.org/abs/2306.00978v2 )

ライセンス: Link先を確認
Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Chuang Gan, Song Han(参考訳) 大規模言語モデル(LLM)は様々なタスクにおいて優れた性能を示すが、天文学的なモデルサイズは、サービス(メモリサイズ)のハードウェア障壁を高め、トークン生成(メモリ帯域幅)を遅くする。 本稿では,llm低ビットウェイトオンリー量子化のためのハードウェアフレンドリなアプローチであるアクティベーションアウェアウェイト量子化(awq)を提案する。 我々の手法は、重量が等しく重要でないという観測に基づいており、正の重量の1%しか保護していないため、量子化誤差を大幅に低減できる。 次に,重みではなく活性化を観察して塩分重みを保護できる最適なチャネル単位のスケーリングを探索する。 awqはバックプロパゲーションやレコンストラクションに依存しないため、キャリブレーションセットに過度に適合することなく、異なるドメインやモダリティに対するllmsの一般化能力を維持することができる。 AWQは、様々な言語モデリングやドメイン固有のベンチマークにおける既存の作業よりも優れています。 より優れた一般化により、命令調整されたLMに対して優れた量子化性能を実現し、初めてマルチモーダルなLMを実現する。 AWQと並行して、エッジ上のLLMに適した効率的で柔軟な推論フレームワークを実装し、デスクトップとモバイルの両方のGPU上でのHuggingface FP16実装よりも3倍以上のスピードアップを提供します。 また、モバイルGPU(NVIDIA Jetson Orin 64GB)への70B Llama-2モデルのデプロイを民主化している。

Large language models (LLMs) have shown excellent performance on various tasks, but the astronomical model size raises the hardware barrier for serving (memory size) and slows down token generation (memory bandwidth). In this paper, we propose Activation-aware Weight Quantization (AWQ), a hardware-friendly approach for LLM low-bit weight-only quantization. Our method is based on the observation that weights are not equally important: protecting only 1% of salient weights can greatly reduce quantization error. We then propose to search for the optimal per-channel scaling that protects the salient weights by observing the activation, not weights. AWQ does not rely on any backpropagation or reconstruction, so it can well preserve LLMs' generalization ability on different domains and modalities, without overfitting to the calibration set. AWQ outperforms existing work on various language modeling and domain-specific benchmarks. Thanks to better generalization, it achieves excellent quantization performance for instruction-tuned LMs and, for the first time, multi-modal LMs. Alongside AWQ, we implement an efficient and flexible inference framework tailored for LLMs on the edge, offering more than 3x speedup over the Huggingface FP16 implementation on both desktop and mobile GPUs. It also democratizes the deployment of the 70B Llama-2 model on mobile GPU (NVIDIA Jetson Orin 64GB).
翻訳日:2023-10-05 21:48:27 公開日:2023-10-03
# 演算子代数と欠測情報を特徴付ける幾何学的位相

Geometric Phases Characterise Operator Algebras and Missing Information ( http://arxiv.org/abs/2306.00055v2 )

ライセンス: Link先を確認
Souvik Banerjee, Moritz Dorband, Johanna Erdmenger, Anna-Lena Weigel(参考訳) ヒルベルト空間の幾何学と位相に関する知識を提供することにより、重力の有無にかかわらず量子系を完全に記述するために幾何位相がどのように用いられるかを示す。 幾何学的位相とフォン・ノイマン代数の直接的な関係を見いだす。 特に、消失する幾何学的位相は代数上のよく定義されたトレース汎関数の存在を意味する。 永遠ブラックホールのAdS/CFT対応の中でどのように実現されるのかを論じる。 一方、バニッシュでない幾何位相は、考慮された量子系の一部のみをカバーする参照フレームに関連する局所観測者の欠落情報を示す。 磁場中の1つのスピンからビラソーロベリー相、AdS時空における永遠ブラックホールに付随する幾何学的位相まで、いくつかの例でこれを説明する。 後者の場合、非消滅幾何学的な位相は、関連するフォン・ノイマン代数の中心の存在と結びついている。

We show how geometric phases may be used to fully describe quantum systems, with or without gravity, by providing knowledge about the geometry and topology of its Hilbert space. We find a direct relation between geometric phases and von Neumann algebras. In particular, we show that a vanishing geometric phase implies the existence of a well-defined trace functional on the algebra. We discuss how this is realised within the AdS/CFT correspondence for the eternal black hole. On the other hand, a non-vanishing geometric phase indicates missing information for a local observer, associated to reference frames covering only parts of the quantum system considered. We illustrate this with several examples, ranging from a single spin in a magnetic field to Virasoro Berry phases and the geometric phase associated to the eternal black hole in AdS spacetime. For the latter, a non-vanishing geometric phase is tied to the presence of a centre in the associated von Neumann algebra.
翻訳日:2023-10-05 21:48:01 公開日:2023-10-03
# 多極凝縮体と多極ジョセフソン効果

Multipolar condensates and multipolar Josephson effects ( http://arxiv.org/abs/2306.14214v2 )

ライセンス: Link先を確認
Wenhui Xu, Chenwei Lv, and Qi Zhou(参考訳) ある強相関系で単粒子ダイナミクスが抑制されるとき、双極子は量子速度論の一次キャリアとして現れる。 これらの双極子はさらに凝縮し、物理学者に物質のフラクトン相を研究するための豊富な領域を与える。 最近の理論的な発見では、非伝統的な格子モデルが双極子凝縮を基底状態として持つことが示されているが、双極子凝縮は特定のモデルに固有のものよりも一般的な現象であり、双極子凝縮がもたらす新しい量子マクロ現象であるかどうかという根本的な疑問が生じる。 ここでは,双極子凝縮がボソニック系で優勢であることを示す。 単粒子運動学が必然的に双極子の有限次パラメータを誘導する自己近似効果のため、双極子凝縮はボソンの通常の相で容易に起こる。 以上の結果から, 実験者は双極子凝縮相を操作でき, 粒子流の不在時に双極子超電流が発生する双極子ヨーゼフソン効果をもたらすことができる。 自己公理効果は、ジェネリック多極縮合体を生成するためにも利用できる。 n$-次多極子の運動論は、$(n+1)$-次多極子の凝縮を不可避的に生成し、物理学者に全く新しいマクロ量子現象のクラスを与える多極性凝縮体の階層を形成する。

When single-particle dynamics are suppressed in certain strongly correlated systems, dipoles arise as elementary carriers of quantum kinetics. These dipoles can further condense, providing physicists with a rich realm to study fracton phases of matter. Whereas recent theoretical discoveries have shown that an unconventional lattice model may host a dipole condensate as the ground state, fundamental questions arise as to whether dipole condensation is a generic phenomenon rather than a specific one unique to a particular model and what new quantum macroscopic phenomena a dipole condensate may bring us with. Here, we show that dipole condensates prevail in bosonic systems. Because of a self-proximity effect, where single-particle kinetics inevitably induces a finite order parameter of dipoles, dipole condensation readily occurs in conventional normal phases of bosons. Our findings allow experimentalists to manipulate the phase of a dipole condensate and deliver dipolar Josephson effects, where supercurrents of dipoles arise in the absence of particle flows. The self-proximity effects can also be utilized to produce a generic multipolar condensate. The kinetics of the $n$-th order multipoles unavoidably creates a condensate of the $(n+1)$-th order multipoles, forming a hierarchy of multipolar condensates that will offer physicists a whole new class of macroscopic quantum phenomena.
翻訳日:2023-10-05 21:40:09 公開日:2023-10-03
# 単位球面上の学習表現:オンライン連続学習のための角ガウスとフォン・ミセス・フィッシャー分布の探索

Learning Representations on the Unit Sphere: Investigating Angular Gaussian and von Mises-Fisher Distributions for Online Continual Learning ( http://arxiv.org/abs/2306.03364v2 )

ライセンス: Link先を確認
Nicolas Michel, Giovanni Chierchia, Romain Negrel, Jean-Fran\c{c}ois Bercher(参考訳) 単位球上に分布する表現の学習には,最大アフター推定原理を用いる。 本研究では,単位球面上に投影されたガウス分布に対応する角ガウス分布を用い,それに伴う損失関数を導出する。 また、単位球面におけるガウスの条件であるフォン・ミセス=フィッシャー分布も考慮する。 学習された表現は、ガウスの以前の手段である固定方向に向かってプッシュされ、データドリフトに耐性のある学習戦略が実現される。 これにより、連続したデータストリーム上でニューラルネットワークをトレーニングする問題であるオンライン連続学習に適合する。複数の分類タスクが順次提示され、過去のタスクからのデータがアクセス不能になり、現在のタスクからのデータは1回だけ見ることができる。 この課題に対処するために,新たな損失関数を備えたメモリベース表現学習手法を提案する。 提案手法では,タスク境界に関する負のデータや知識は必要とせず,計算効率が向上し,バッチサイズも小さくなった。 提案手法は,標準的な評価シナリオと,ぼやけたタスク境界を持つ現実シナリオの両方において,現在の最先端手法よりも優れていることを示す。 再現性のために、比較対象のメソッド毎に同じトレーニングパイプラインを使用し、コードをhttps://t.ly/SQTj.orgで共有します。

We use the maximum a posteriori estimation principle for learning representations distributed on the unit sphere. We propose to use the angular Gaussian distribution, which corresponds to a Gaussian projected on the unit-sphere and derive the associated loss function. We also consider the von Mises-Fisher distribution, which is the conditional of a Gaussian in the unit-sphere. The learned representations are pushed toward fixed directions, which are the prior means of the Gaussians; allowing for a learning strategy that is resilient to data drift. This makes it suitable for online continual learning, which is the problem of training neural networks on a continuous data stream, where multiple classification tasks are presented sequentially so that data from past tasks are no longer accessible, and data from the current task can be seen only once. To address this challenging scenario, we propose a memory-based representation learning technique equipped with our new loss functions. Our approach does not require negative data or knowledge of task boundaries and performs well with smaller batch sizes while being computationally efficient. We demonstrate with extensive experiments that the proposed method outperforms the current state-of-the-art methods on both standard evaluation scenarios and realistic scenarios with blurry task boundaries. For reproducibility, we use the same training pipeline for every compared method and share the code at https://t.ly/SQTj.
翻訳日:2023-10-05 21:37:28 公開日:2023-10-03
# 階層的エンパワーメント:気軽なエンパワーメントに基づくスキル学習に向けて

Hierarchical Empowerment: Towards Tractable Empowerment-Based Skill Learning ( http://arxiv.org/abs/2307.02728v2 )

ライセンス: Link先を確認
Andrew Levy, Sreehari Rammohan, Alessandro Allievi, Scott Niekum, George Konidaris(参考訳) 汎用エージェントには大量のスキルのレパートリーが必要です。 スキルと国家間の最大の相互情報であるエンパワーメントは、異なるスキルの大規模なコレクションを学ぶための経路を提供するが、相互情報の最適化は困難である。 我々は,目標条件付き階層強化学習の概念を統合することにより,コンピュータエンパワメントをより扱いやすくする新しいフレームワークである階層エンパワメントを導入する。 私たちのフレームワークは2つの特別な貢献をします。 まず,短時間の地平線上でのエンパワーメントの計算に使用可能な,相互情報に基づく新しい変分下界を導入する。 第2に,指数的に長い時間スケールで計算能力を高める階層アーキテクチャを導入する。 シミュレーションロボットタスクにおけるフレームワークの貢献を検証する。 一般的なアリナビゲーション領域では、我々の4つのレベルエージェントは、以前の作業よりも2桁大きい表面積をカバーするスキルを学ぶことができる。

General purpose agents will require large repertoires of skills. Empowerment -- the maximum mutual information between skills and states -- provides a pathway for learning large collections of distinct skills, but mutual information is difficult to optimize. We introduce a new framework, Hierarchical Empowerment, that makes computing empowerment more tractable by integrating concepts from Goal-Conditioned Hierarchical Reinforcement Learning. Our framework makes two specific contributions. First, we introduce a new variational lower bound on mutual information that can be used to compute empowerment over short horizons. Second, we introduce a hierarchical architecture for computing empowerment over exponentially longer time scales. We verify the contributions of the framework in a series of simulated robotics tasks. In a popular ant navigation domain, our four level agents are able to learn skills that cover a surface area over two orders of magnitude larger than prior work.
翻訳日:2023-10-05 21:28:07 公開日:2023-10-03
# 高次元線形回帰のための統一伝達学習モデル

Unified Transfer Learning Models for High-Dimensional Linear Regression ( http://arxiv.org/abs/2307.00238v2 )

ライセンス: Link先を確認
Shuo Shuo Liu(参考訳) トランスファーラーニングは,(1)ターゲットデータが少ないが,ソースデータが十分である,(2)ソースとターゲットデータの分布が不均一である,といった現代データ解析において重要な役割を担っている。 本稿では,トランスファー可能な変数とソースデータの両方を検出可能な,UTransと呼ばれる解釈可能な統合トランスファー学習モデルを開発する。 具体的には、推定誤差境界を確立し、対象データのみを持つものよりも境界が低いことを示す。 また,非変換データを排除するための仮説検証に基づくソース検出アルゴリズムを提案する。 複数の実験において,UTransを既存のアルゴリズムと比較した。 UTransは,解釈可能性を維持しつつ,既存の手法よりもはるかに低い推定誤差と予測誤差が得られることを示す。 最終的に、米国の世代間移動データに適用し、提案したアルゴリズムを従来の機械学習アルゴリズムと比較する。

Transfer learning plays a key role in modern data analysis when: (1) the target data are scarce but the source data are sufficient; (2) the distributions of the source and target data are heterogeneous. This paper develops an interpretable unified transfer learning model, termed as UTrans, which can detect both transferable variables and source data. More specifically, we establish the estimation error bounds and prove that our bounds are lower than those with target data only. Besides, we propose a source detection algorithm based on hypothesis testing to exclude the nontransferable data. We evaluate and compare UTrans to the existing algorithms in multiple experiments. It is shown that UTrans attains much lower estimation and prediction errors than the existing methods, while preserving interpretability. We finally apply it to the US intergenerational mobility data and compare our proposed algorithms to the classical machine learning algorithms.
翻訳日:2023-10-05 21:26:50 公開日:2023-10-03
# REFLECT:失敗説明と訂正のためのロボット体験の要約

REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction ( http://arxiv.org/abs/2306.15724v3 )

ライセンス: Link先を確認
Zeyi Liu, Arpit Bahety, Shuran Song(参考訳) 故障した実行を自動的に検出し分析する能力は、説明可能で堅牢なロボットシステムにとって不可欠である。 近年,Large Language Models (LLM) はテキスト入力に対して強い推論能力を示している。 ロボットの故障説明にllmのパワーを活用するために,マルチセンサによるロボットの過去の経験の階層的要約に基づいて,障害推論にllmを問合せするフレームワークであるreflectionを提案する。 失敗の説明はさらに、言語ベースのプランナーに障害を修正し、タスクを完了させるよう誘導する。 フレームワークを体系的に評価するために、さまざまなタスクと障害シナリオを備えたRoboFailデータセットを作成します。 LLMをベースとしたフレームワークは,修正計画の成功を支援する情報的障害説明を生成可能であることを実証する。

The ability to detect and analyze failed executions automatically is crucial for an explainable and robust robotic system. Recently, Large Language Models (LLMs) have demonstrated strong reasoning abilities on textual inputs. To leverage the power of LLMs for robot failure explanation, we introduce REFLECT, a framework which queries LLM for failure reasoning based on a hierarchical summary of robot past experiences generated from multisensory observations. The failure explanation can further guide a language-based planner to correct the failure and complete the task. To systematically evaluate the framework, we create the RoboFail dataset with a variety of tasks and failure scenarios. We demonstrate that the LLM-based framework is able to generate informative failure explanations that assist successful correction planning.
翻訳日:2023-10-05 21:26:13 公開日:2023-10-03
# Shortcut-V2V:時間冗長化に基づくビデオ間翻訳のための圧縮フレームワーク

Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction ( http://arxiv.org/abs/2308.08011v2 )

ライセンス: Link先を確認
Chaeyeon Chung, Yeojeong Park, Seunghwan Choi, Munkhsoyol Ganbat, Jaegul Choo(参考訳) ビデオからビデオへの変換は、入力ビデオから対象領域のビデオフレームを生成することを目的としている。 その有用性にもかかわらず、既存のネットワークは膨大な計算を必要とするため、モデル圧縮を広範囲に利用する必要がある。 様々な映像・映像タスクの計算効率を向上する圧縮法は存在するが、ビデオ間翻訳の一般的な圧縮法はあまり研究されていない。 これに対して,ビデオ間翻訳のための汎用圧縮フレームワークであるShortcut-V2Vを提案する。 shourcut-v2vは、従来のフレームから現在のフレームの中間特性を近似することにより、隣り合う全てのビデオフレームの完全な推論を回避する。 さらに,本フレームワークでは,AdaBDと呼ばれるブロックが隣接フレームの特徴を適応的にブレンドして変形し,中間特徴のより正確な予測を可能にする。 我々は,様々なタスクにおいて,よく知られたビデオからビデオへの翻訳モデルを用いて定量的・質的評価を行い,フレームワークの汎用性を示す。 結果から,Shourcut-V2Vは従来のビデオ間翻訳モデルと比較して,3.2~5.7倍,テスト時に7.8~44倍のメモリを節約できることがわかった。

Video-to-video translation aims to generate video frames of a target domain from an input video. Despite its usefulness, the existing networks require enormous computations, necessitating their model compression for wide use. While there exist compression methods that improve computational efficiency in various image/video tasks, a generally-applicable compression method for video-to-video translation has not been studied much. In response, we present Shortcut-V2V, a general-purpose compression framework for video-to-video translation. Shourcut-V2V avoids full inference for every neighboring video frame by approximating the intermediate features of a current frame from those of the previous frame. Moreover, in our framework, a newly-proposed block called AdaBD adaptively blends and deforms features of neighboring frames, which makes more accurate predictions of the intermediate features possible. We conduct quantitative and qualitative evaluations using well-known video-to-video translation models on various tasks to demonstrate the general applicability of our framework. The results show that Shourcut-V2V achieves comparable performance compared to the original video-to-video translation model while saving 3.2-5.7x computational cost and 7.8-44x memory at test time.
翻訳日:2023-10-05 21:20:37 公開日:2023-10-03
# PokerKit: 細粒度多変数ポーカーゲームシミュレーションのための総合Pythonライブラリ

PokerKit: A Comprehensive Python Library for Fine-Grained Multi-Variant Poker Game Simulations ( http://arxiv.org/abs/2308.07327v3 )

ライセンス: Link先を確認
Juho Kim(参考訳) PokerKitは、既存のポーカーゲームシミュレーションと手評価ツールの制限を克服するために設計された、オープンソースのPythonライブラリである。 対照的に、ポーカーキットはポーカーの多種多様なバリエーションをサポートし、ユーザーが独自のゲームを定義するための柔軟なアーキテクチャを提供する。 本稿では,ポーカーキットの設計と実装について詳述する。ポーカーキットは,直感的なプログラムapi,多変量ゲームサポート,さまざまな手のタイプにわたる統一的なハンド評価スイートなどである。 PokerKitの柔軟性により、ポーカーAI開発、ツール作成、オンラインポーカーカジノ実装など、さまざまな分野のアプリケーションが可能になる。 PokerKitの信頼性は静的型チェック、広範なドクテスト、ユニットテストを通じて確立され、99%のコードカバレッジを達成した。 PokerKitの導入は、コンピュータポーカーの分野への重要な貢献であり、様々なポーカーゲームのための将来の研究と高度なAI開発を促進する。 ソースコードはhttps://github.com/uoftcprg/pokerkitで入手できる。

PokerKit is an open-source Python library designed to overcome the restrictions of existing poker game simulation and hand evaluation tools, which typically support only a handful of poker variants and lack flexibility in game state control. In contrast, PokerKit significantly expands this scope by supporting an extensive array of poker variants and it provides a flexible architecture for users to define their custom games. This paper details the design and implementation of PokerKit, including its intuitive programmatic API, multi-variant game support, and a unified hand evaluation suite across different hand types. The flexibility of PokerKit allows for applications in diverse areas, such as poker AI development, tool creation, and online poker casino implementation. PokerKit's reliability has been established through static type checking, extensive doctests, and unit tests, achieving 99% code coverage. The introduction of PokerKit represents a significant contribution to the field of computer poker, fostering future research and advanced AI development for a wide variety of poker games. The source code is available at https://github.com/uoftcprg/pokerkit
翻訳日:2023-10-05 21:20:16 公開日:2023-10-03
# PINNsFormer:物理インフォームドニューラルネットワークのためのトランスフォーマーベースのフレームワーク

PINNsFormer: A Transformer-Based Framework For Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.11833v2 )

ライセンス: Link先を確認
Zhiyuan Zhao, Xueying Ding, B. Aditya Prakash(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の数値解を近似するための有望なディープラーニングフレームワークとして登場した。 しかし、従来のPINNは多層パーセプトロン(MLP)に依存しており、実際的な物理系に固有の重要な時間的依存関係を無視しているため、初期条件制約をグローバルに伝播せず、様々なシナリオ下で真の解を正確に捉えることができなかった。 本稿では,この制限に対処するために,新しいトランスフォーマーベースのフレームワークであるPINNsFormerを紹介する。 PINNsFormerはマルチヘッドアテンション機構を利用してPDEソリューションを正確に近似し、時間的依存関係をキャプチャする。 PINNsFormerは、ポイントワイズ入力を擬似シーケンスに変換し、ポイントワイズPINNの損失を逐次損失に置き換える。 さらに、深層ニューラルネットワークを通じてフーリエ分解を予測する新しいアクティベーション機能であるWaveletも組み込まれている。 実験の結果,pinnsformerはpinns障害モードや高次元pdesなど,様々なシナリオにおいて優れた一般化能力と精度を達成していることがわかった。 さらに、PINNsFormerは、既存のPINNの学習スキームの統合の柔軟性を提供し、パフォーマンスをさらに向上させる。

Physics-Informed Neural Networks (PINNs) have emerged as a promising deep learning framework for approximating numerical solutions to partial differential equations (PDEs). However, conventional PINNs, relying on multilayer perceptrons (MLP), neglect the crucial temporal dependencies inherent in practical physics systems and thus fail to propagate the initial condition constraints globally and accurately capture the true solutions under various scenarios. In this paper, we introduce a novel Transformer-based framework, termed PINNsFormer, designed to address this limitation. PINNsFormer can accurately approximate PDE solutions by utilizing multi-head attention mechanisms to capture temporal dependencies. PINNsFormer transforms point-wise inputs into pseudo sequences and replaces point-wise PINNs loss with a sequential loss. Additionally, it incorporates a novel activation function, Wavelet, which anticipates Fourier decomposition through deep neural networks. Empirical results demonstrate that PINNsFormer achieves superior generalization ability and accuracy across various scenarios, including PINNs failure modes and high-dimensional PDEs. Moreover, PINNsFormer offers flexibility in integrating existing learning schemes for PINNs, further enhancing its performance.
翻訳日:2023-10-05 21:18:00 公開日:2023-10-03
# 強結合状態における温度測定用マルチスピンプローブ

Multi-spin probes for thermometry in the strong-coupling regime ( http://arxiv.org/abs/2307.04232v2 )

ライセンス: Link先を確認
Marlon Brenes and Dvira Segal(参考訳) 温度$t$で調製した試料にn$のスピンを結合した熱測定プローブの感度について検討した。 我々の分析は弱い結合限界を超えて強いサンプル-プローブカップリングレジームにまで及んでいる。 特に、各スピン間のサンプル誘起相互作用は強いカップリング効果によって生成され、プローブを構成する各物体間で微調整されていない。 反応座標マッピングを用いて、プローブの非正準平衡状態を有限結合で評価することにより、平衡状態自体を通じて量子フィッシャー情報を介して熱量感度を計算する。 単スピンプローブが$(N = 1)$の場合、温度感度は弱い中間結合強度のレギュレーションで低下するが、結合の増大に伴い、低温のレギュレーションにおいてプローブのより高い感度が観察される。 さらに、N > 1$ である限り、試料-プローブ相互作用エネルギーの最適値が存在し、特に低温の状態では、熱ギブス状態から得られる最大精度と比較して、温度測定感度を高めることができる。 最後に, この感度の増大は, サブオプティカルな測定から観察できることを示した。

We study the sensitivity of thermometric probes that are composed of $N$ spins coupled to a sample prepared at temperature $T$. Our analysis extends beyond the weak-coupling limit into the strong sample-probe coupling regime. In particular, sample-induced interactions between each of the spins are generated via strong coupling effects and are not fine-tuned amongst each body composing the probe. By employing the reaction-coordinate mapping to evaluate the non-canonical equilibrium state of the probe at finite coupling, we compute the thermometric sensitivity via the quantum Fisher information through the equilibrium state itself. We find that for single-spin probes $(N = 1)$, temperature sensitivity decreases in the regime of weak-to-intermediate coupling strength, however, as the coupling increases we observe much higher sensitivity of the probe in the low-temperature regime. Furthermore, as long as $N > 1$, there exist optimal values of the sample-probe interaction energy that allow one to attain enhanced thermometric sensitivity when compared to the maximum achieved precision obtained from thermal Gibbs states at weak coupling, particularly in the regime of low temperature. Finally, we show that this enhanced sensitivity may be observed from suboptimal measurements.
翻訳日:2023-10-05 21:17:13 公開日:2023-10-03
# 皮膚のトーンを超える:鮮明な肌の色を多次元的に測定する

Beyond Skin Tone: A Multidimensional Measure of Apparent Skin Color ( http://arxiv.org/abs/2309.05148v2 )

ライセンス: Link先を確認
William Thong, Przemyslaw Joniak, Alice Xiang(参考訳) 本稿では, コンピュータビジョンにおける皮膚の色を, 皮膚のトーンの1次元スケールを超えて測定することを目的とする。 独創的な論文『genal shades』において、buolamwini と gebru は、肌の色が暗い女性に対して性別分類システムがどのように偏っているかを示した。 その後、公正な研究者や実践者は、コンピュータビジョンシステムにおける肌の色バイアスを評価するための一般的な尺度として、フィッツパトリック皮膚型分類を採用した。 効果はあるものの、フィッツパトリックスケールは光から暗いまでの肌のトーンのみに焦点を当てている。 肌の色をより包括的に測定するために,赤から黄色までの色角を紹介する。 画像に適用すると、色寸法はコンピュータビジョンデータセットとモデルの両方で肌の色に関連する追加のバイアスを明らかにする。 次に,肌の色調と色調に依存する多次元肌色尺度を,公正度評価のために推奨する。

This paper strives to measure apparent skin color in computer vision, beyond a unidimensional scale on skin tone. In their seminal paper Gender Shades, Buolamwini and Gebru have shown how gender classification systems can be biased against women with darker skin tones. Subsequently, fairness researchers and practitioners have adopted the Fitzpatrick skin type classification as a common measure to assess skin color bias in computer vision systems. While effective, the Fitzpatrick scale only focuses on the skin tone ranging from light to dark. Towards a more comprehensive measure of skin color, we introduce the hue angle ranging from red to yellow. When applied to images, the hue dimension reveals additional biases related to skin color in both computer vision datasets and models. We then recommend multidimensional skin color scales, relying on both skin tone and hue, for fairness assessments.
翻訳日:2023-10-05 21:07:54 公開日:2023-10-03
# 非結合相互作用の物理に触発された同変ディスクリプタ

Physics-inspired Equivariant Descriptors of Non-bonded Interactions ( http://arxiv.org/abs/2308.13208v2 )

ライセンス: Link先を確認
Kevin K. Huguenin-Dumittan, Philip Loche, Ni Haoran and Michele Ceriotti(参考訳) 多くの機械学習(ML)に基づく物質や分子の原子論的モデリングにおける重要な要素は局所性の利用である。 システム規模のスケーリングを改善する一方で、静電や分散相互作用のような長距離(lr)効果を体系的に無視する。 本稿では,多種多様なlrインタラクションを一貫した方法で処理可能なlong distance equivariant(lode)フレームワークを拡張し,新しいatom中心の機能セットを構築することにより,既存の手法とシームレスに統合する。 我々は、よりシンプルで効率的な実装を可能にするマルチポール拡張を用いて、これらを直接物理的に解釈する。 このフレームワークは概念の証明として単純な玩具システムに適用され、その手法を限界まで押し上げるために不均一な分子ダイマーのセットである。 LODEを任意の漸近的振る舞いに一般化することにより、物質のデータ駆動モデリングにおいて、任意の2体および多体非結合相互作用を扱うコヒーレントなアプローチを提供する。

One essential ingredient in many machine learning (ML) based methods for atomistic modeling of materials and molecules is the use of locality. While allowing better system-size scaling, this systematically neglects long-range (LR) effects, such as electrostatics or dispersion interaction. We present an extension of the long distance equivariant (LODE) framework that can handle diverse LR interactions in a consistent way, and seamlessly integrates with preexisting methods by building new sets of atom centered features. We provide a direct physical interpretation of these using the multipole expansion, which allows for simpler and more efficient implementations. The framework is applied to simple toy systems as proof of concept, and a heterogeneous set of molecular dimers to push the method to its limits. By generalizing LODE to arbitrary asymptotic behaviors, we provide a coherent approach to treat arbitrary two- and many-body non-bonded interactions in the data-driven modeling of matter.
翻訳日:2023-10-05 21:06:20 公開日:2023-10-03
# 対称性に基づくハミルトン変換を用いたマルチキュービット系の量子最適制御の高速化

Accelerating Quantum Optimal Control of Multi-Qubit Systems with Symmetry-Based Hamiltonian Transformations ( http://arxiv.org/abs/2309.05884v2 )

ライセンス: Link先を確認
Xian Wang, Mahmut Sait Okyay, Anshuman Kumar, Bryan M. Wong(参考訳) 本稿では,様々な量子コンピューティングアプリケーションで使用される大規模マルチキュービットシステムの量子最適制御計算を高速化する,新しい計算効率の高い手法を提案する。 有限群の内在対称性を利用することでヒルベルト空間を分解し、ハミルトニアンはブロック対角化して超高速な量子最適制御計算を可能にする。 我々のアプローチは、Sn あるいは Dn 対称性の下で、$n$-qubit 系のハミルトニアンサイズを 2^n × 2^n から O(n by n) または O((2^n / n) から (2^n / n)) に減少させる。 最も重要なことに、このアプローチは、従来の方法と同じ精度を維持しながら、量子ビット最適制御計算の計算ランタイムを桁違いに削減する。 その結果,(1)対称性が保護された部分空間は他の量子ハミルトニアンの量子誤差抑制とシミュレーションの潜在的な基盤となりうること,(2)リートロッター・スズキ分解アプローチは,この手法を様々なマルチ量子ビット系に一般化できることを示した。

We present a novel, computationally efficient approach to accelerate quantum optimal control calculations of large multi-qubit systems used in a variety of quantum computing applications. By leveraging the intrinsic symmetry of finite groups, the Hilbert space can be decomposed and the Hamiltonians block-diagonalized to enable extremely fast quantum optimal control calculations. Our approach reduces the Hamiltonian size of an $n$-qubit system from 2^n by 2^n to O(n by n) or O((2^n / n) by (2^n / n)) under Sn or Dn symmetry, respectively. Most importantly, this approach reduces the computational runtime of qubit optimal control calculations by orders of magnitude while maintaining the same accuracy as the conventional method. As prospective applications, we show that (1) symmetry-protected subspaces can be potential platforms for quantum error suppression and simulation of other quantum Hamiltonians, and (2) Lie-Trotter-Suzuki decomposition approaches can generalize our method to a general variety of multi-qubit systems.
翻訳日:2023-10-05 20:56:56 公開日:2023-10-03
# 量子チャネルによる情報とエネルギーの同時伝送について

On Simultaneous Information and Energy Transmission through Quantum Channels ( http://arxiv.org/abs/2309.13691v2 )

ライセンス: Link先を確認
Bishal Kumar Das, Lav R. Varshney, Vaibhav Madhok(参考訳) 送信信号が最小限のエネルギーを同時に持たなければならない場合に、量子チャネルを介して情報を送信できる最適なレートを特徴付ける。 そこで我々は,キャパシティ・パワー関数の量子古典的アナログを導入し,古典情報理論におけるノイズチャネルを通じて古典情報を伝達する結果を一般化する。 量子チャネルのキャパシティ・パワー関数は、非アシストプロトコルとプライベートプロトコルの両方で共役であり、入力信号のアンサンブルと無相関なアンサンブルの加算性も証明している。 これは、計算に正規化公式は必要ないことを意味する。 いくつかの標準チャネルモデルに対して,これらの特性を数値的に示す。 本研究では、ランダム量子状態の性質と大きなヒルベルト空間における集中現象を用いて、無ノイズチャネルの場合の容量-パワー関数の解析式を得る。

The optimal rate at which information can be sent through a quantum channel when the transmitted signal must simultaneously carry some minimum amount of energy is characterized. To do so, we introduce the quantum-classical analogue of the capacity-power function and generalize results in classical information theory for transmitting classical information through noisy channels. We show that the capacity-power function for a quantum channel, for both unassisted and private protocol, is concave and also prove additivity for unentangled and uncorrelated ensembles of input signals. This implies we do not need regularized formulas for calculation. We numerically demonstrate these properties for some standard channel models. We obtain analytical expressions for the capacity-power function for the case of noiseless channels using properties of random quantum states and concentration phenomenon in large Hilbert spaces.
翻訳日:2023-10-05 20:48:09 公開日:2023-10-03
# 確率的重み付け:量子化のためのニューラルネットワークの重み付け不確かさの大規模トレーニング

Probabilistic Weight Fixing: Large-scale training of neural network weight uncertainties for quantization ( http://arxiv.org/abs/2309.13575v3 )

ライセンス: Link先を確認
Christopher Subia-Waud and Srinandan Dasmahapatra(参考訳) 重み共有量子化は、重みを限られた値に制限することで、大きなニューラルネットワークの推論におけるエネルギー支出を減らす技術として登場した。 しかし、既存の量共有量子化法はしばしば、ユニークな役割の重み位置の作用を無視した値のみに基づく重みの扱いについて仮定する。 本稿では,ベイズニューラルネットワーク(BNN)に基づく確率的枠組みと,どの重みがどのクラスタ中心に移動できるか,それぞれの位置固有の学習不確実性分布に基づいてどの程度に移動できるかを同定する変動緩和手法を提案する。 複雑なデータセットとモデルの組み合わせでBNNを訓練できる新しい初期化設定と正規化項を導入する。 確率分布から得られた重み値の柔軟性を利用して、雑音耐性と下流圧縮性を高める。 反復クラスタリング手法は,resnetモデルとより複雑なtransformerベースのアーキテクチャの両方において,最先端の手法と比較して高い圧縮性と高い精度を示す。 特に,DeiT-Tinyを用いたImageNetでは,現状の量子化手法であるtop-1精度を1.6%向上させ,500万以上の重みを296個のユニークな値で表している。

Weight-sharing quantization has emerged as a technique to reduce energy expenditure during inference in large neural networks by constraining their weights to a limited set of values. However, existing methods for weight-sharing quantization often make assumptions about the treatment of weights based on value alone that neglect the unique role weight position plays. This paper proposes a probabilistic framework based on Bayesian neural networks (BNNs) and a variational relaxation to identify which weights can be moved to which cluster centre and to what degree based on their individual position-specific learned uncertainty distributions. We introduce a new initialisation setting and a regularisation term which allow for the training of BNNs under complex dataset-model combinations. By leveraging the flexibility of weight values captured through a probability distribution, we enhance noise resilience and downstream compressibility. Our iterative clustering procedure demonstrates superior compressibility and higher accuracy compared to state-of-the-art methods on both ResNet models and the more complex transformer-based architectures. In particular, our method outperforms the state-of-the-art quantization method top-1 accuracy by 1.6% on ImageNet using DeiT-Tiny, with its 5 million+ weights now represented by only 296 unique values.
翻訳日:2023-10-05 20:47:56 公開日:2023-10-03
# DeFormer: 単一画像からの3次元形状抽象化のための変形可能なモデルと変換器の統合

DeFormer: Integrating Transformers with Deformable Models for 3D Shape Abstraction from a Single Image ( http://arxiv.org/abs/2309.12594v2 )

ライセンス: Link先を確認
Di Liu, Xiang Yu, Meng Ye, Qilong Zhangli, Zhuowei Li, Zhixing Zhang, Dimitris N. Metaxas(参考訳) 単一の2d画像からの正確な3d形状の抽象化は、コンピュータビジョンとグラフィックスの長年の問題である。 対象形状を表すためにプリミティブのセットを活用することで、最近の手法は有望な結果を得た。 しかし、これらの手法は比較的多くのプリミティブを使用するか、プリミティブの表現可能性に制限があるため幾何学的柔軟性を欠いている。 本稿では,プリミティブの大域的および局所的な変形を同時に推定するために,パラメータ化された変形可能なモデルと統合した新しいバイチャネルトランスフォーマアーキテクチャを提案する。 このようにして、deformerは、より広い幾何学的範囲とより詳細な詳細を提供する少数のプリミティブを使いながら、複雑なオブジェクトの形状を抽象化することができる。 次に,プリミティブパラメータを最適化するために,力駆動型動的フィッティングとサイクル一貫性のある再射影損失を導入する。 様々な設定にわたるShapeNetに関する大規模な実験により、DeFormerは最先端の再現精度を向上し、一貫したセマンティック対応で可視化し、解釈可能性を向上させる。

Accurate 3D shape abstraction from a single 2D image is a long-standing problem in computer vision and graphics. By leveraging a set of primitives to represent the target shape, recent methods have achieved promising results. However, these methods either use a relatively large number of primitives or lack geometric flexibility due to the limited expressibility of the primitives. In this paper, we propose a novel bi-channel Transformer architecture, integrated with parameterized deformable models, termed DeFormer, to simultaneously estimate the global and local deformations of primitives. In this way, DeFormer can abstract complex object shapes while using a small number of primitives which offer a broader geometry coverage and finer details. Then, we introduce a force-driven dynamic fitting and a cycle-consistent re-projection loss to optimize the primitive parameters. Extensive experiments on ShapeNet across various settings show that DeFormer achieves better reconstruction accuracy over the state-of-the-art, and visualizes with consistent semantic correspondences for improved interpretability.
翻訳日:2023-10-05 20:45:32 公開日:2023-10-03
# Kerrパラメトリック発振器に対する有効対フロケ理論

Effective versus Floquet theory for the Kerr parametric oscillator ( http://arxiv.org/abs/2309.12516v2 )

ライセンス: Link先を確認
Ignacio Garc\'ia-Mata, Rodrigo G. Corti\~nas, Xu Xiao, Jorge Ch\'avez-Carlos, Victor S. Batista, Lea F. Santos, and Diego A. Wisniacki(参考訳) 駆動系の静的有効ハミルトニアンの観点から設計されたパラメトリックゲートとプロセスは量子技術の中心である。 しかし、静的有効モデルの導出に使われる摂動展開は、元の系のすべての関連する物理を効率的に捉えることができないかもしれない。 本研究では,スキーズ駆動下でのKerr発振器を記述するために用いられる,通常の低次静的ハミルトニアンの有効性について検討する。 本研究は,本システムが提供する機会を生かし,実験室で構築・運用することが十分簡単であり,非自明なパラメータの探索に現代的な計算技術を必要とするほどに複雑であり,基礎的かつ技術的興味を持つほどに豊富である。 低次の静的有効状態とエネルギーを、正確なフロケ状態と準エネルギーと比較し、記述が一致するパラメータ状態を決定する。 我々の研究は、通常の静的な効果的な処理によって取り残され、最先端の実験によって探索される物理学の光をもたらす。

Parametric gates and processes engineered from the perspective of the static effective Hamiltonian of a driven system are central to quantum technology. However, the perturbative expansions used to derive static effective models may not be able to efficiently capture all the relevant physics of the original system. In this work, we investigate the conditions for the validity of the usual low-order static effective Hamiltonian used to describe a Kerr oscillator under a squeezing drive. In this work, we exploit the opportunity provided by this system, which is sufficiently simple to be built and operated in the lab, sufficiently complex to require modern calculation techniques for the exploration of nontrivial parameter regimes, and sufficiently rich to be of fundamental and technological interest. We compare the low-order static effective states and energies with the exact Floquet states and quasi-energies and determine the parameter regime where the descriptions agree. Our work brings to light the physics that is left out by ordinary static effective treatments and that can be explored by state-of-the-art experiments.
翻訳日:2023-10-05 20:45:11 公開日:2023-10-03
# 肺胸部x線データを用いた2値分類のための深層学習モデルの比較検討

Comparative study of Deep Learning Models for Binary Classification on Combined Pulmonary Chest X-ray Dataset ( http://arxiv.org/abs/2309.10829v2 )

ライセンス: Link先を確認
Shabbir Ahmed Shuvo, Md Aminul Islam, Md. Mozammel Hoque, Rejwan Bin Sulaiman(参考訳) 疾患検出のためのCNNベースのディープラーニングモデルが最近人気を集めている。 DenseNet 121, DenseNet 169, DenseNet 201, EffecientNet b0, EffecientNet lite4, GoogleNet, MobileNet, ResNet18の8つの著名なディープラーニングモデルのバイナリ分類性能を比較した。 医療画像の異なる分野に広く適用されているにもかかわらず、同じデータセットに適用した場合の相対的なパフォーマンスを決定するための知識のギャップは残っている。 このデータセットは、中国深セン(CH)と米国モンゴメリー(MC)のデータを組み合わせたものだ。 私たちは二分分類のためにモデルをトレーニングし、上記のモデルの異なるパラメータを計算し、比較しました。 モデルは、制御された比較環境を維持するために、同じトレーニングパラメータに従うようにトレーニングされました。 研究の終わりには、肺胸部x線画像データセットに適用すると、他のモデルとパフォーマンスの差が明らかになりました。このデータでは、drknet169が89.38パーセント、mobilenetが92.2%の精度で動作しています。 キーワード:肺、深層学習、結核、疾患検出、X線

CNN-based deep learning models for disease detection have become popular recently. We compared the binary classification performance of eight prominent deep learning models: DenseNet 121, DenseNet 169, DenseNet 201, EffecientNet b0, EffecientNet lite4, GoogleNet, MobileNet, and ResNet18 for their binary classification performance on combined Pulmonary Chest Xrays dataset. Despite the widespread application in different fields in medical images, there remains a knowledge gap in determining their relative performance when applied to the same dataset, a gap this study aimed to address. The dataset combined Shenzhen, China (CH) and Montgomery, USA (MC) data. We trained our model for binary classification, calculated different parameters of the mentioned models, and compared them. The models were trained to keep in mind all following the same training parameters to maintain a controlled comparison environment. End of the study, we found a distinct difference in performance among the other models when applied to the pulmonary chest Xray image dataset, where DenseNet169 performed with 89.38 percent and MobileNet with 92.2 percent precision. Keywords: Pulmonary, Deep Learning, Tuberculosis, Disease detection, Xray
翻訳日:2023-10-05 20:44:32 公開日:2023-10-03
# 新しいノードと新しい関係型の両方のインダクティブリンク予測のための二重等価性

Double Equivariance for Inductive Link Prediction for Both New Nodes and New Relation Types ( http://arxiv.org/abs/2302.01313v6 )

ライセンス: Link先を確認
Jianfei Gao, Yangze Zhou, Jincheng Zhou, Bruno Ribeiro(参考訳) 離散属性多重グラフ(知識グラフ、多層ネットワーク、異種ネットワークなど)における帰納的リンク予測のタスクは、一般に新しいノードのみによるテスト予測に焦点を当てるが、新しいノードと新しい関係型の両方ではない。 本研究では,新しいノードとテスト中の新しい関係型を二重帰納的リンク予測タスクとして予測するタスクを正式に定義し,その解に対する理論的枠組みを提案する。 まず、ノードアイデンティティとエッジ関係型の両方の置換に同値な二重置換同変表現の概念を定義する。 次に,学習ノードと関係から,適応やサイド情報やリトレーニングを必要とせずに任意に新しいテストノードと関係に誘導的に一般化できる関係構造表現を課す,ニューラルネットワークの設計のための一般的な青写真を提案する。 また、同じタスクを実行するように設計された分布二重同変位置埋め込みの概念も導入する。 最後に, 提案した2つのモデルについて, 実世界の新しいベンチマークで実証実験を行い, ベースラインよりも新しい関係型を予測する上での平均相対的性能が39.65 %$であることを示した。

The task of inductive link prediction in discrete attributed multigraphs (e.g., knowledge graphs, multilayer networks, heterogeneous networks, etc.) generally focuses on test predictions with solely new nodes but not both new nodes and new relation types. In this work, we formally define the task of predicting (completely) new nodes and new relation types in test as a doubly inductive link prediction task and introduce a theoretical framework for the solution. We start by defining the concept of double permutation-equivariant representations that are equivariant to permutations of both node identities and edge relation types. We then propose a general blueprint to design neural architectures that impose a structural representation of relations that can inductively generalize from training nodes and relations to arbitrarily new test nodes and relations without the need for adaptation, side information, or retraining. We also introduce the concept of distributionally double equivariant positional embeddings designed to perform the same task. Finally, we empirically demonstrate the capability of the two proposed models on a set of novel real-world benchmarks, showcasing average relative performance gains of $39.65\%$ on predicting new relations types compared to baselines.
翻訳日:2023-10-05 18:49:05 公開日:2023-10-03
# チェーン・オブ・サート推論の導出検証

Deductive Verification of Chain-of-Thought Reasoning ( http://arxiv.org/abs/2306.03872v3 )

ライセンス: Link先を確認
Zhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee, Roland Memisevic and Hao Su(参考訳) 大規模言語モデル(llm)は、様々な推論タスクの実行を促す連鎖的思考(cot)の恩恵を受ける。 CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積誤差を導入し、複雑な推論タスクを解くモデルの能力を制限する。 人間の課題解決に用いた注意深い推論的論理的推論プロセスへの取り組みから着想を得て、言語モデルによる明示的で厳格な推論を可能にし、自己検証を通じて推論プロセスの信頼性を確保することを目指す。 しかし、ChatGPTのような先進的なモデルであっても、導出的推論プロセス全体の妥当性を直接検証することは困難である。 これを踏まえて,推論検証プロセスをステップバイステップの一連のサブプロセスに分解し,それぞれに必要なコンテキストと前提のみを受け取ることを提案する。 そこで本研究では,自然言語に基づく推論形式であるNatural Programを提案する。 我々のアプローチでは、モデルがより厳密な事前ステップに基づく正確な推論ステップを生成することができる。 また、言語モデルに対して、段階的に自己検証を行う権限を与える。 この検証プロセスを各推論段階に統合することにより、生成した推論段階の厳密性と信頼性を著しく向上する。 この過程では,複雑な推論タスクに対する回答の正確性も向上する。 コードはhttps://github.com/lz1oceani/verify_cotでリリースされる。

Large Language Models (LLMs) significantly benefit from Chain-of-Thought (CoT) prompting in performing various reasoning tasks. While CoT allows models to produce more comprehensive reasoning processes, its emphasis on intermediate reasoning steps can inadvertently introduce hallucinations and accumulated errors, thereby limiting models' ability to solve complex reasoning tasks. Inspired by how humans engage in careful and meticulous deductive logical reasoning processes to solve tasks, we seek to enable language models to perform explicit and rigorous deductive reasoning, and also ensure the trustworthiness of their reasoning process through self-verification. However, directly verifying the validity of an entire deductive reasoning process is challenging, even with advanced models like ChatGPT. In light of this, we propose to decompose a reasoning verification process into a series of step-by-step subprocesses, each only receiving their necessary context and premises. To facilitate this procedure, we propose Natural Program, a natural language-based deductive reasoning format. Our approach enables models to generate precise reasoning steps where subsequent steps are more rigorously grounded on prior steps. It also empowers language models to carry out reasoning self-verification in a step-by-step manner. By integrating this verification process into each deductive reasoning stage, we significantly enhance the rigor and trustfulness of generated reasoning steps. Along this process, we also improve the answer correctness on complex reasoning tasks. Code will be released at https://github.com/lz1oceani/verify_cot.
翻訳日:2023-10-05 18:45:17 公開日:2023-10-03
# Alt-Text with Context: Twitter上の画像のアクセシビリティ改善

Alt-Text with Context: Improving Accessibility for Images on Twitter ( http://arxiv.org/abs/2305.14779v2 )

ライセンス: Link先を確認
Nikita Srivatsan, Sofia Samaniego, Omar Florez, Taylor Berg-Kirkpatrick(参考訳) 本研究では,ソーシャルメディア,特にTwitterで共有された画像に対して,代替テキスト(あるいはalt-text)記述を生成するアプローチを提案する。 画像キャプションの特別な場合だけでなく、alt-textは文字通り記述的でコンテキストに特有です。 また、Twitterに投稿された画像には、必ずしもその画像を記述する必要がなくても、適切に活用された場合、有益なコンテキストを提供する、ユーザ記述のテキストが添付されることが多い。 この課題をマルチモーダルモデルで解決し,関連するソーシャルメディア投稿からのテキスト情報と画像からの視覚信号の両方を条件とし,これら2つの情報ソースの有効性を示す。 私たちは、twitterから削除されたalt-textとつぶやきを組み合わせた371kの画像の新しいデータセットを作成し、さまざまな自動メトリクスと人的評価で評価しました。 従来の作業では, BLEU@4で2倍以上に向上し, ツイートテキストと視覚情報の両方の条件付けのアプローチが著しく優れていた。

In this work we present an approach for generating alternative text (or alt-text) descriptions for images shared on social media, specifically Twitter. More than just a special case of image captioning, alt-text is both more literally descriptive and context-specific. Also critically, images posted to Twitter are often accompanied by user-written text that despite not necessarily describing the image may provide useful context that if properly leveraged can be informative. We address this task with a multimodal model that conditions on both textual information from the associated social media post as well as visual signal from the image, and demonstrate that the utility of these two information sources stacks. We put forward a new dataset of 371k images paired with alt-text and tweets scraped from Twitter and evaluate on it across a variety of automated metrics as well as human evaluation. We show that our approach of conditioning on both tweet text and visual information significantly outperforms prior work, by more than 2x on BLEU@4.
翻訳日:2023-10-05 18:44:00 公開日:2023-10-03
# 事前学習汎用音声モデルを用いたアラビア方言識別のためのパラメータ効率よい学習手法

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model ( http://arxiv.org/abs/2305.11244v2 )

ライセンス: Link先を確認
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner(参考訳) 本研究では、アラビア方言識別(ADI)のための一般目的音声(GSM)モデルを応用するためのパラメータ効率学習(PEL)手法について検討する。 具体的には,多層エンコーダ・デコーダgsm定式化にトレーニング可能な機能を組み込むための,既定の凍結条件下での異なる設定について検討する。 私たちのアーキテクチャには、残余のアダプタとモデル再プログラミング(インプットプロンプティング)が含まれています。 アラビア語方言識別のためのgsmを条件としてトークンレベルラベルマッピングを設計する。 これは、多くの方言の中で語彙や発音のばらつきが高いためである。 我々は,バニラ微調整により,ADI-17データセットの最先端性を実現する。 さらに,ネットワークトレーニング可能なパラメータの2.5%しか使用せず,1.86%の精度で微調整を行うPEL法のトレーニング予算を削減した。 本研究は,オープンソースコードと事前学習モデルを用いて,小さなデータセットと限られた計算量を用いてアラビア方言を識別する方法を示す。

In this work, we explore Parameter-Efficient-Learning (PEL) techniques to repurpose a General-Purpose-Speech (GSM) model for Arabic dialect identification (ADI). Specifically, we investigate different setups to incorporate trainable features into a multi-layer encoder-decoder GSM formulation under frozen pre-trained settings. Our architecture includes residual adapter and model reprogramming (input-prompting). We design a token-level label mapping to condition the GSM for Arabic Dialect Identification (ADI). This is challenging due to the high variation in vocabulary and pronunciation among the numerous regional dialects. We achieve new state-of-the-art accuracy on the ADI-17 dataset by vanilla fine-tuning. We further reduce the training budgets with the PEL method, which performs within 1.86% accuracy to fine-tuning using only 2.5% of (extra) network trainable parameters. Our study demonstrates how to identify Arabic dialects using a small dataset and limited computation with open source code and pre-trained models.
翻訳日:2023-10-05 18:43:43 公開日:2023-10-03
# PDP:パラメータフリーで微分可能なプルーニング

PDP: Parameter-free Differentiable Pruning is All You Need ( http://arxiv.org/abs/2305.11203v2 )

ライセンス: Link先を確認
Minsik Cho, Saurabh Adya, Devang Naik(参考訳) DNNプルーニングは、モデルのサイズを小さくし、推論遅延を改善し、DNNアクセラレータの消費電力を最小化する一般的な方法である。 しかし、既存のアプローチは複雑すぎる、高価すぎる、あるいは不効率すぎるため、様々な視覚/言語タスク、DNNアーキテクチャ、構造化プルーニング制約に対処できない。 本稿では, モデルサイズ, 精度, トレーニングコストの最先端性を提供する, 効率的かつ効果的な列車時プルーニング手法であるパラメータフリー微分可能プルーニング(PDP)を提案する。 PDPはトレーニング中に重量の動的関数を使用して、所定のプルーニング対象に対してパラメータフリーな方法で重量の軟式プルーニングマスクを生成する。 微分可能ではあるが、PDPの単純さと効率性により、様々な視覚や自然言語のタスクに対して最先端のランダム/構造化/チャネルプルーニング結果を提供することができる。 例えば、MobileNet-v1では、PDPは86.6%の間隔で68.2%のトップ-1 ImageNet1kの精度を達成できる。 また、PDPはマルチジェネラル言語推論において83.1%以上の精度が得られ、BERTでは90%の精度が得られたが、既存の手法では81.5%の精度が得られた。 さらに、PDPはN:Mプルーニングやチャネルプルーニングなどの構造化プルーニングにも適用できる。 ResNet18の1:4構造化プルーニングでは、PDPは最先端のImageNet1kの精度を3.6%以上改善した。 ResNet50のチャネルプルーニングでは、PDPは最先端のImageNet1kの精度を0.6%削減した。

DNN pruning is a popular way to reduce the size of a model, improve the inference latency, and minimize the power consumption on DNN accelerators. However, existing approaches might be too complex, expensive or ineffective to apply to a variety of vision/language tasks, DNN architectures and to honor structured pruning constraints. In this paper, we propose an efficient yet effective train-time pruning scheme, Parameter-free Differentiable Pruning (PDP), which offers state-of-the-art qualities in model size, accuracy, and training cost. PDP uses a dynamic function of weights during training to generate soft pruning masks for the weights in a parameter-free manner for a given pruning target. While differentiable, the simplicity and efficiency of PDP make it universal enough to deliver state-of-the-art random/structured/channel pruning results on various vision and natural language tasks. For example, for MobileNet-v1, PDP can achieve 68.2% top-1 ImageNet1k accuracy at 86.6% sparsity, which is 1.7% higher accuracy than those from the state-of-the-art algorithms. Also, PDP yields over 83.1% accuracy on Multi-Genre Natural Language Inference with 90% sparsity for BERT, while the next best from the existing techniques shows 81.5% accuracy. In addition, PDP can be applied to structured pruning, such as N:M pruning and channel pruning. For 1:4 structured pruning of ResNet18, PDP improved the top-1 ImageNet1k accuracy by over 3.6% over the state-of-the-art. For channel pruning of ResNet50, PDP reduced the top-1 ImageNet1k accuracy by 0.6% from the state-of-the-art.
翻訳日:2023-10-05 18:43:30 公開日:2023-10-03
# 画像モデル評価のためのXAI基底真理を用いたデータセット生成手法

A novel approach to generate datasets with XAI ground truth to evaluate image models ( http://arxiv.org/abs/2302.05624v2 )

ライセンス: Link先を確認
Miquel Mir\'o-Nicolau, Antoni Jaume-i-Cap\'o, Gabriel Moy\`a-Alcover(参考訳) 人工知能(AI)の利用の増加により、これらのモデルが内部でどのように機能するかを理解することが不可欠である。 これらのニーズは、eXplainable Artificial Intelligence (XAI)と呼ばれる新しい分野の開発につながった。 この分野は、AI決定の原因を理論的に決定できる一連の技術に基づいて構成されます。 XAIの主な課題の1つは、基礎的真理(GT)の欠如を考慮して、この分野での作業を検証する方法である。 本研究では,GTを用いたデータセット生成手法を提案する。 本研究は,gtと実モデル説明を比較した実験を行い,提案手法が正しいことを示す優れた結果を得た。

With the increased usage of artificial intelligence (AI), it is imperative to understand how these models work internally. These needs have led to the development of a new field called eXplainable artificial intelligence (XAI). This field consists of on a set of techniques that allows us to theoretically determine the cause of the AI decisions. One main issue of XAI is how to verify the works on this field, taking into consideration the lack of ground truth (GT). In this study, we propose a new method to generate datasets with GT. We conducted a set of experiments that compared our GT with real model explanations and obtained excellent results confirming that our proposed method is correct.
翻訳日:2023-10-05 18:42:13 公開日:2023-10-03
# マルチモーダル大言語モデルにおけるカタストロフィック・フォーミングの検討

Investigating the Catastrophic Forgetting in Multimodal Large Language Models ( http://arxiv.org/abs/2309.10313v3 )

ライセンス: Link先を確認
Yuexiang Zhai, Shengbang Tong, Xiao Li, Mu Cai, Qing Qu, Yong Jae Lee, Yi Ma(参考訳) GPT4の成功を受けて、マルチモーダル大言語モデル(MLLM)研究への関心が高まっている。 この一連の研究は、微調整済みのLLMと視覚モデルによる汎用LLMの開発に焦点を当てている。 しかし、微調整モデルが事前訓練モデルと同じような性能を保たないという悪名高い破滅的な忘れ込みは、マルチモーダルLLM(MLLM)に固有の問題として残っている。 本稿では,各MLLMを画像分類器として扱うことにより,MLLMの破滅的忘れを評価するためのMulTimodalityの評価を行う。 我々はまず,オープンソースの細調整MLLMの評価にEMTを適用し,ほぼすべての評価されたMLLMが,標準的な画像分類タスクにおける視覚エンコーダと同じ性能を維持することができないことを発見した。 さらに、MLLMであるLLaVAの微調整を継続し、EMTを用いて微調整を通して性能を評価する。 興味深いことに、画像データセットの初期段階の微調整により、テキストとビジュアル機能のアライメントが向上し、他の画像データセットのパフォーマンスが向上することが示唆される。 しかし、微調整が進むにつれてMLLMは幻覚し始め、イメージエンコーダが凍結したままでも、一般化性が著しく低下する。 以上の結果から,MLLMは標準的な画像分類作業におけるビジョンモデルと同等の性能を示していないことが示唆された。

Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-trained LLMs and vision models. However, catastrophic forgetting, a notorious phenomenon where the fine-tuned model fails to retain similar performance compared to the pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM). In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier. We first apply EMT to evaluate several open-source fine-tuned MLLMs and we discover that almost all evaluated MLLMs fail to retain the same performance levels as their vision encoders on standard image classification tasks. Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess performance throughout the fine-tuning. Interestingly, our results suggest that early-stage fine-tuning on an image dataset improves performance across other image datasets, by enhancing the alignment of text and visual features. However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in a significant loss of generalizability, even when the image encoder remains frozen. Our results suggest that MLLMs have yet to demonstrate performance on par with their vision models on standard image classification tasks and the current MLLM fine-tuning procedure still has room for improvement.
翻訳日:2023-10-05 18:33:02 公開日:2023-10-03
# AutoGen:マルチエージェント会話による次世代LLMアプリケーションの実現

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation ( http://arxiv.org/abs/2308.08155v2 )

ライセンス: Link先を確認
Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li, Erkang Zhu, Li Jiang, Xiaoyun Zhang, Shaokun Zhang, Jiale Liu, Ahmed Hassan Awadallah, Ryen W White, Doug Burger, and Chi Wang(参考訳) AutoGenはオープンソースのフレームワークで、複数のエージェントを介してLLMアプリケーションを構築することができる。 AutoGenエージェントはカスタマイズ可能で、変換可能で、LLM、ヒューマンインプット、ツールの組み合わせを使った様々なモードで動作する。 AutoGenを使うことで、開発者はエージェントのインタラクション動作を柔軟に定義できる。 自然言語とコンピュータコードは、異なるアプリケーションに対して柔軟な会話パターンをプログラムするために使用できる。 AutoGenは、様々な複雑さとLLM能力の多様なアプリケーションを構築するための一般的なインフラとして機能する。 実証的な研究は、数学、コーディング、質問応答、運用研究、オンライン意思決定、エンターテイメントなど、多くの例でフレームワークの有効性を実証している。

AutoGen is an open-source framework that allows developers to build LLM applications via multiple agents that can converse with each other to accomplish tasks. AutoGen agents are customizable, conversable, and can operate in various modes that employ combinations of LLMs, human inputs, and tools. Using AutoGen, developers can also flexibly define agent interaction behaviors. Both natural language and computer code can be used to program flexible conversation patterns for different applications. AutoGen serves as a generic infrastructure to build diverse applications of various complexities and LLM capacities. Empirical studies demonstrate the effectiveness of the framework in many example applications, with domains ranging from mathematics, coding, question answering, operations research, online decision-making, entertainment, etc.
翻訳日:2023-10-05 18:31:49 公開日:2023-10-03
# DiMSam:部分観測可能性下における作業計画用サンプリング器としての拡散モデル

DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability ( http://arxiv.org/abs/2306.13196v2 )

ライセンス: Link先を確認
Xiaolin Fang, Caelan Reed Garrett, Clemens Eppner, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling, Dieter Fox(参考訳) タスク・アンド・モーション・プランニング(TAMP)アプローチは、長距離自律ロボット操作の計画に有効である。 しかし、環境とそのダイナミクスが完全には知られていない領域に適用することは困難である。 本稿では,これらの制約を,特に拡散モデル(拡散モデル)の深層生成モデルを活用することで克服することを提案する。 これらの学習されたサンプルは、計画に沿った制約を満たすアクションパラメータ値を見つけるために、TAMPソルバ内で構成・結合される。 環境中における未知の物体の予測を的確に行うため, 物体状態変化の低次元学習潜伏埋め込み上にこれらのサンプルを定式化する。 このアプローチをarticulated object manipulation domainで評価し,古典的タンプ,生成的学習,潜在的埋め込みの組み合わせによって,長期ホリゾン制約に基づく推論が可能かを示す。 また、学習したサンプルを現実世界に適用する。 詳細はhttps://sites.google.com/view/dimsam-tampで確認できる。

Task and Motion Planning (TAMP) approaches are effective at planning long-horizon autonomous robot manipulation. However, it can be difficult to apply them to domains where the environment and its dynamics are not fully known. We propose to overcome these limitations by leveraging deep generative modeling, specifically diffusion models, to learn constraints and samplers that capture these difficult-to-engineer aspects of the planning model. These learned samplers are composed and combined within a TAMP solver in order to find action parameter values jointly that satisfy the constraints along a plan. To tractably make predictions for unseen objects in the environment, we define these samplers on low-dimensional learned latent embeddings of changing object state. We evaluate our approach in an articulated object manipulation domain and show how the combination of classical TAMP, generative learning, and latent embeddings enables long-horizon constraint-based reasoning. We also apply the learned sampler in the real world. More details are available at https://sites.google.com/view/dimsam-tamp
翻訳日:2023-10-05 18:31:16 公開日:2023-10-03
# CLIPは優れた教師である: 帰納的ゼロショットセマンティックセマンティックセグメンテーションのための新しい学習フレームワーク

CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2310.02296v1 )

ライセンス: Link先を確認
Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Xu Zheng, Hiroshi Murase(参考訳) 既存の汎用ゼロショットセマンティックセマンティックセグメンテーション(GZLSS)法は、CLIPパラダイムを微調整するか、マスク分類タスクとして定式化し、ビジョンランゲージモデル(VLM)の恩恵を受けている。 しかし、微調整法はセグメント化に柔軟性のない固定バックボーンモデルに制限されており、マスク分類法は追加の明示的なマスク提案者に大きく依存している。 一方, 広く普及している手法では, 大きな廃棄物である目に見えるカテゴリーのみを利用する。 この目的のために,CLIPTeacherを提案する。これは,明示的なマスクの提案やCLIPの構造の変更を伴わずに,さまざまな画素単位の分類セグメンテーションモデルに適用可能な,新しい学習フレームワークである。 具体的には、CLIPTeacherはGlobal Learning Module(GLM)とPixel Learning Module(PLM)の2つの主要なモジュールで構成される。 特に、GLMは画像エンコーダからCLIPでトレーニングされた唯一のトークン、すなわちCLIPモデルからグローバル情報を探索する単純で効果的な方法であるCRSトークンと、密集した特徴を一致させる。 対照的に、PLMはCLIPからの高密度トークンのみを利用して、マスクプロジェクタを導入することなく、領域を無視した高レベルの偽アノテーションを生成する。 一方、PLMは擬似アノテーションに基づいて画像全体をフルに活用することができる。 PASCAL VOC 2012、COCO-Stuff 164k、PASCAL Contextの3つのベンチマークデータセットの実験結果は、大きなパフォーマンス向上、すなわち2.2%、1.3%、そして8.8%を示している。

Existing Generalized Zero-shot Semantic Segmentation (GZLSS) methods apply either finetuning the CLIP paradigm or formulating it as a mask classification task, benefiting from the Vision-Language Models (VLMs). However, the fine-tuning methods are restricted with fixed backbone models which are not flexible for segmentation, and mask classification methods heavily rely on additional explicit mask proposers. Meanwhile, prevalent methods utilize only seen categories which is a great waste, i.e., neglecting the area exists but not annotated. To this end, we propose CLIPTeacher, a new learning framework that can be applied to various per-pixel classification segmentation models without introducing any explicit mask proposer or changing the structure of CLIP, and utilize both seen and ignoring areas. Specifically, CLIPTeacher consists of two key modules: Global Learning Module (GLM) and Pixel Learning Module (PLM). Specifically, GLM aligns the dense features from an image encoder with the CLS token, i.e., the only token trained in CLIP, which is a simple but effective way to probe global information from the CLIP models. In contrast, PLM only leverages dense tokens from CLIP to produce high-level pseudo annotations for ignoring areas without introducing any extra mask proposer. Meanwhile, PLM can fully take advantage of the whole image based on the pseudo annotations. Experimental results on three benchmark datasets: PASCAL VOC 2012, COCO-Stuff 164k, and PASCAL Context show large performance gains, i.e., 2.2%, 1.3%, and 8.8%
翻訳日:2023-10-05 18:25:43 公開日:2023-10-03
# 準定常源の活性化配列回復のための教師なし複素半バイナリ行列因子分解

Unsupervised Complex Semi-Binary Matrix Factorization for Activation Sequence Recovery of Quasi-Stationary Sources ( http://arxiv.org/abs/2310.02295v1 )

ライセンス: Link先を確認
Romain Delabeye (QUARTZ, ISAE-Supm\'eca), Martin Ghienne (QUARTZ, ISAE-Supm\'eca), Olivia Penas (QUARTZ, ISAE-Supm\'eca), Jean-Luc Dion (QUARTZ, ISAE-Supm\'eca)(参考訳) 持続可能で弾力性があり、人間中心の産業を提唱する業界5.0の3つの柱は、産業プロセスと製造システムに対する理解の高まりと、そのエネルギー持続可能性を求めている。 理解の最も基本的な要素の1つは、システムがいつ運用されるかを知ることである。 そのような知識はしばしば実践に欠けている。 しかし、アクティベーションステータスはセンサーデータから復元できる。 いくつかの非侵入型センサー(加速度計、電流センサ等)は、複数のアクチュエータに関する情報を含む混合信号を取得する。 監視するシステム群に関するコストは低いが、個々のアクティベーションシーケンスを抽出するには追加の信号処理が必要である。 この目的のために、スパース回帰技術はシーケンシャルデータのリードダイナミクスを抽出することができる。 有名な辞書学習アルゴリズムはこの点において有効であることが証明されている。 本稿では,バイナリサブシステムのアクティベーションシーケンスの同定が求められる異なる産業環境について考察する。 この文脈では、各センサが広い物理的特性を測定し、ソース信号は周期的、準定常的、独立的であり、これらの信号は相関しうるが、ノイズ分布は任意である。 既存の手法では、例えば直交性やノイズ特性を課すことでこれらの仮定を制限したり、非線形変換を用いて追加の仮定でそれらを持ち上げたりしている。

Advocating for a sustainable, resilient and human-centric industry, the three pillars of Industry 5.0 call for an increased understanding of industrial processes and manufacturing systems, as well as their energy sustainability. One of the most fundamental elements of comprehension is knowing when the systems are operated, as this is key to locating energy intensive subsystems and operations. Such knowledge is often lacking in practice. Activation statuses can be recovered from sensor data though. Some non-intrusive sensors (accelerometers, current sensors, etc.) acquire mixed signals containing information about multiple actuators at once. Despite their low cost as regards the fleet of systems they monitor, additional signal processing is required to extract the individual activation sequences. To that end, sparse regression techniques can extract leading dynamics in sequential data. Notorious dictionary learning algorithms have proven effective in this regard. This paper considers different industrial settings in which the identification of binary subsystem activation sequences is sought. In this context, it is assumed that each sensor measures an extensive physical property, source signals are periodic, quasi-stationary and independent, albeit these signals may be correlated and their noise distribution is arbitrary. Existing methods either restrict these assumptions, e.g., by imposing orthogonality or noise characteristics, or lift them using additional assumptions, typically using nonlinear transforms.
翻訳日:2023-10-05 18:25:09 公開日:2023-10-03
# 量子力学と重力の界面における不定次数

Indefinite order in the interface of quantum mechanics and gravity ( http://arxiv.org/abs/2310.02290v1 )

ライセンス: Link先を確認
Bruna Sahdo(参考訳) 研究者は長い間、量子理論と一般相対性理論の特徴がインターフェイスの仕組みをどう組み合わせるかを理解しようとしてきた。 これが難しい仕事である理由の一つは、理論がいかに時間と因果性に近づくかである。 例えば、相対性理論における因果構造は時空における質量の分布によって決定されるが、量子形式論では固定され、事前に与えられる。 このマスターの論文では、まず量子論の抽象的な一般化に現れる不定順序の概念について議論し、大域因果構造に対する需要を排除し、原則として、プロトコルにおける操作の順序が必ずしも適切に定義されていないケースを許容する。 不定順序の1つのエピトーム的な例は量子スイッチプロセスであり、ターゲットシステム上で2つの演算の順序の量子重ね合わせを実現する。 量子スイッチの確率は、量子力学によって原理的に記述された実験的な光学的セットアップで再現されている。 これらの実験は時空因果構造と相容れないため、文脈によってこれらの結果を得ることから得られる結論に関する不確実性を生み出した。 ここでは、最初の動機に戻り、低エネルギーでの重力によるシナリオが無期限秩序につながる可能性を示す。 これには量子重力シナリオにおける量子スイッチの定式化や、古典的なシュワルツシルト計量における量子スイッチの定式化が含まれる。 スイッチは、異なる種類の設定を議論するための共通基盤を提供する。 古典的計量における量子スイッチの後者の提案は、不定順序の例とは別に、まだ実験的に研究されていない曲線時空上の量子力学のテストとして、地球の重力におけるプロトコルの実現を提唱するオリジナルの研究である。

Researchers have long been aiming to understand how the characteristics of Quantum Theory and General Relativity combine to account for regimes in their interface. One reason why this is a hard task is how differently the theories approach time and causality. For instance, causal structure in relativity is determined by the distribution of mass in spacetime while, in the quantum formalism, it is supposed to be fixed and given in advance. In this master's thesis, we discuss the notion of indefinite order, which first appears in an abstract generalization of Quantum Theory [...] where the demand for global causal structure is removed, in principle allowing cases for which the order of operations in protocols is not necessarily well defined. One epitomical example of indefinite order is the quantum switch process, which realizes a quantum superposition of orders of two operations on a target system. The quantum switch probabilities have been reproduced in experimental optical setups that are fully described in principle by quantum mechanics. Since these experiments are compatible with spacetime causal structure, this generated uncertainty about the conclusions that can be drawn from obtaining these results depending on the context. Here, we return to the initial motivations and also present how scenarios involving gravity in low energies could lead to indefinite order. This includes the formulation of a quantum switch in a quantum gravity scenario and of a quantum switch in a classical Schwarzschild metric. The switch then provides a common ground to discuss different kinds of setups. The latter proposal of a quantum switch in a classical metric is an original work that, aside from being an example of indefinite order, proposes the realization of the protocol in Earth's gravity as a test of quantum mechanics on curved spacetimes, a regime which has not yet been explored experimentally.
翻訳日:2023-10-05 18:24:45 公開日:2023-10-03
# オンライン確率定数計画のためのロールアウトヒューリスティックス

Rollout Heuristics for Online Stochastic Contingent Planning ( http://arxiv.org/abs/2310.02345v1 )

ライセンス: Link先を確認
Oded Blumenthal, Guy Shani(参考訳) 部分観測可能なマルコフ決定プロセス(POMDP)は、部分観測可能性および確率的行動の下での意思決定に有用なモデルである。 部分的に観測可能なモンテカルロ計画(英語版)は、完全なマルコフ決定プロセスのためのUCBアルゴリズムに基づくモンテカルロ木探索手法を用いて、次の行動を決定するオンラインアルゴリズムである。 POMCPは行動観測木を開発し、葉っぱではロールアウトポリシーを使用して葉の値の推定を行う。 したがって、POMCPは良い見積もりを計算するためにロールアウトポリシーに強く依存しているため、良い行動を特定する。 したがって、POMCPを使用する多くの実践者は、強いドメイン固有のヒューリスティックを作る必要がある。 本稿では,POMDPを確率定数計画問題としてモデル化する。 これにより、計画コミュニティで開発されたドメインに依存しないヒューリスティックを活用できます。 1つは古典的計画からよく知られたh_addヒューリスティックに基づいており、2つ目は信念空間で計算され、情報の価値を考慮に入れている。

Partially observable Markov decision processes (POMDP) are a useful model for decision-making under partial observability and stochastic actions. Partially Observable Monte-Carlo Planning is an online algorithm for deciding on the next action to perform, using a Monte-Carlo tree search approach, based on the UCT (UCB applied to trees) algorithm for fully observable Markov-decision processes. POMCP develops an action-observation tree, and at the leaves, uses a rollout policy to provide a value estimate for the leaf. As such, POMCP is highly dependent on the rollout policy to compute good estimates, and hence identify good actions. Thus, many practitioners who use POMCP are required to create strong, domain-specific heuristics. In this paper, we model POMDPs as stochastic contingent planning problems. This allows us to leverage domain-independent heuristics that were developed in the planning community. We suggest two heuristics, the first is based on the well-known h_add heuristic from classical planning, and the second is computed in belief space, taking the value of information into account.
翻訳日:2023-10-05 18:14:29 公開日:2023-10-03
# 英国の原子力環境における自律システムの安全対策

Autonomous Systems' Safety Cases for use in UK Nuclear Environments ( http://arxiv.org/abs/2310.02344v1 )

ライセンス: Link先を確認
Christopher R. Anderson, Louise A. Dennis(参考訳) 英国における原子力施設における自律ロボット配備の安全ケース開発プロセスの概要を述べるとともに,AIを組み込んだ仮説ロボットの安全ケースについて述べる。 これはデプロイに向けた第一歩となり、現在何が可能で、ツールの開発で何が可能かを示す。 核施設ライセンス、原子力規制局(onr)、産業、学界の間でさらなる議論の基盤となっている。

An overview of the process to develop a safety case for an autonomous robot deployment on a nuclear site in the UK is described and a safety case for a hypothetical robot incorporating AI is presented. This forms a first step towards a deployment, showing what is possible now and what may be possible with development of tools. It forms the basis for further discussion between nuclear site licensees, the Office for Nuclear Regulation (ONR), industry and academia.
翻訳日:2023-10-05 18:14:04 公開日:2023-10-03
# ハイパースペクトルアンミックスのための解釈可能な遠絡ニューラルネットワークの学習

Learning Interpretable Deep Disentangled Neural Networks for Hyperspectral Unmixing ( http://arxiv.org/abs/2310.02340v1 )

ライセンス: Link先を確認
Ricardo Augusto Borsoi, Deniz Erdo\u{g}mu\c{s}, Tales Imbiriba(参考訳) ハイパースペクトルアンミックス問題に対する解法の改善に多大な努力が注がれているが、複雑な放射散乱や終端変動のような非イデアル性は既存のアルゴリズムの性能に悪影響を及ぼし、対処が非常に困難である。 近年,その柔軟性と強力な表現能力から,ハイパースペクトルの表記のためにディープラーニングベースのフレームワークが検討されている。 しかし、そのような手法は混合問題の不理想性に対処しないか、解釈できないブラックボックスモデルに依存する。 本稿では,非線形性および終端変動を考慮したハイパースペクトルアンミックスのための新しい解釈可能な深層学習法を提案する。 提案手法は確率的変分深層学習の枠組みを応用し, アンタングルメント学習を用いてアマンダンスとエンドメンバーを適切に分離する。 このモデルは確率的バックプロパゲーションを用いてエンドツーエンドに学習され、半教師付き学習技術の利点を利用する自己教師型戦略を用いて訓練される。 さらに、モデルは高い解釈可能性を提供するよう慎重に設計されている。 これには、ディリクレ分布、低次元の深層潜伏変数表現を用いたエンドメンバー、加法的ピースワイド線形/非線形成分からなる2ストリームニューラルネットワークなどが含まれる。 合成および実データを用いた実験結果は,最先端アルゴリズムと比較して提案手法の性能を示す。

Although considerable effort has been dedicated to improving the solution to the hyperspectral unmixing problem, non-idealities such as complex radiation scattering and endmember variability negatively impact the performance of most existing algorithms and can be very challenging to address. Recently, deep learning-based frameworks have been explored for hyperspectral umixing due to their flexibility and powerful representation capabilities. However, such techniques either do not address the non-idealities of the unmixing problem, or rely on black-box models which are not interpretable. In this paper, we propose a new interpretable deep learning method for hyperspectral unmixing that accounts for nonlinearity and endmember variability. The proposed method leverages a probabilistic variational deep-learning framework, where disentanglement learning is employed to properly separate the abundances and endmembers. The model is learned end-to-end using stochastic backpropagation, and trained using a self-supervised strategy which leverages benefits from semi-supervised learning techniques. Furthermore, the model is carefully designed to provide a high degree of interpretability. This includes modeling the abundances as a Dirichlet distribution, the endmembers using low-dimensional deep latent variable representations, and using two-stream neural networks composed of additive piecewise-linear/nonlinear components. Experimental results on synthetic and real datasets illustrate the performance of the proposed method compared to state-of-the-art algorithms.
翻訳日:2023-10-05 18:13:51 公開日:2023-10-03
# モザイクフォトニック格子における非エルミート制御

Non-Hermitian control of localization in mosaic photonic lattices ( http://arxiv.org/abs/2310.02334v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) 非エルミート系における局所化、障害、波動輸送に関する深い洞察を探求することは、物理学の様々な領域における関連性の研究の創発的な領域である。 光学的利得と損失の空間的領域を持つ工学的フォトニック格子は、非エルミート的ハミルトニアンを調整し、障害と非ハーモニティの間の興味深い相互作用を明らかにするための素かつ単純な物理プラットフォームを提供する。 ここでは, オンサイト非相関性障害や準周期性秩序を有するモザイクフォトニック格子において, 格子の交互な位置における一様損失の付加は, 波動拡散の抑制や増大をもたらすことが示され, 乱れた系における波動輸送の非エルミタン制御のための簡単な方法が提供される。 この結果は、合成フォトニック格子における離散時間量子ウォークを考慮に入れて示される。

Exploring the deep insights into localization, disorder, and wave transport in non-Hermitian systems is an emergent area of research of relevance in different areas of physics. Engineered photonic lattices, with spatial regions of optical gain and loss, provide a prime and simple physical platform for tailoring non-Hermitian Hamiltonians and for unveiling the intriguing interplay between disorder and non-Hermiticity. Here it is shown that in mosaic photonic lattices with on-site uncorrelated disorder or quasi-periodic order, the addition of uniform loss at alternating sites of the lattice results in the suppression or enhancement of wave spreading, thus providing a simple method for non-Hermitian control of wave transport in disordered systems. The results are illustrated by considering discrete-time quantum walks in synthetic photonic lattices.
翻訳日:2023-10-05 18:13:13 公開日:2023-10-03
# 画像における$p4m$群対称性に対する近似同変量子ニューラルネットワーク

Approximately Equivariant Quantum Neural Network for $p4m$ Group Symmetries in Images ( http://arxiv.org/abs/2310.02323v1 )

ライセンス: Link先を確認
Su Yeon Chang, Michele Grossi, Bertrand Le Saux, and Sofia Vallecorsa(参考訳) 量子ニューラルネットワーク(QNN)は、ノイズの存在下で、短期量子ハードウェアの低深さで効率的にシミュレートできる量子アルゴリズムの1つとして提案されている。 しかし、それらの性能は変分量子アルゴリズム(VQA)の最も適したアーキテクチャの選択に大きく依存しており、問題に依存しないモデルはしばしば訓練性や一般化能力に関する問題に悩まされる。 解決策として、最新の研究は、データセットの基礎となる対称性に関してQNNを同変とする幾何学量子機械学習(GQML)を探索している。 GQMLは、与えられたデータセットに事前の知識を取り入れ、探索空間を制約しながら最適化性能を向上させることによって、モデルに誘導バイアスを加える。 本研究では、平面$p4m$対称性と90^\circ$回転対称性を含む画像分類のための同変量子畳み込みニューラルネットワーク(EquivQCNNs)を提案する。 本研究では,2次元イジングモデルの位相検出や拡張MNISTデータセットの分類などの異なるユースケースでテストされた結果について,同値モデルと比較し,同値がモデルのより優れた一般化を促進することを証明した。

Quantum Neural Networks (QNNs) are suggested as one of the quantum algorithms which can be efficiently simulated with a low depth on near-term quantum hardware in the presence of noises. However, their performance highly relies on choosing the most suitable architecture of Variational Quantum Algorithms (VQAs), and the problem-agnostic models often suffer issues regarding trainability and generalization power. As a solution, the most recent works explore Geometric Quantum Machine Learning (GQML) using QNNs equivariant with respect to the underlying symmetry of the dataset. GQML adds an inductive bias to the model by incorporating the prior knowledge on the given dataset and leads to enhancing the optimization performance while constraining the search space. This work proposes equivariant Quantum Convolutional Neural Networks (EquivQCNNs) for image classification under planar $p4m$ symmetry, including reflectional and $90^\circ$ rotational symmetry. We present the results tested in different use cases, such as phase detection of the 2D Ising model and classification of the extended MNIST dataset, and compare them with those obtained with the non-equivariant model, proving that the equivariance fosters better generalization of the model.
翻訳日:2023-10-05 18:12:24 公開日:2023-10-03
# 振動場, 創発重力, 粒子トラップ

Oscillating Fields, Emergent Gravity and Particle Traps ( http://arxiv.org/abs/2310.02311v1 )

ライセンス: Link先を確認
Alexander A. Penin and Aneca Su(参考訳) 急速振動場における荷電粒子の大規模ダイナミクスを研究し、その古典的および量子有効理論記述を定式化する。 有効作用に対する高次摂動結果を示す。 驚くべきことに、この作用は非相対論的粒子の運動に対する一般相対性理論の影響を場空間分布と周波数によって決定される創発的曲率と光の速度の値でモデル化する。 本研究は,荷電粒子トラップおよびフロッケ量子材料の高精度解析と設計を含む,幅広い物理問題に適用可能である。

We study the large-scale dynamics of charged particles in a rapidly oscillating field and formulate its classical and quantum effective theory description. The high-order perturbative results for the effective action are presented. Remarkably, the action models the effects of general relativity on the motion of nonrelativistic particles, with the values of the emergent curvature and speed of light determined by the field spatial distribution and frequency. Our results can be applied to a wide range of physical problems including the high-precision analysis and design of the charged particle traps and Floquet quantum materials.
翻訳日:2023-10-05 18:11:57 公開日:2023-10-03
# ニューラルネットワークを用いた連続光子計数データの量子相関学習によるパラメータ推定

Parameter estimation by learning quantum correlations in continuous photon-counting data using neural networks ( http://arxiv.org/abs/2310.02309v1 )

ライセンス: Link先を確認
Enrico Rinaldi, Manuel Gonz\'alez Lastre, Sergio Garc\'ia Herreros, Shahnawaz Ahmed, Maryam Khanahmadi, Franco Nori, Carlos S\'anchez Mu\~noz(参考訳) 本稿では,ニューラルネットワークを用いた1つの連続計測による量子プローブのパラメータ推定手法を提案する。 連続的な弱測定によって生じる拡散信号に着目した既存の手法とは異なり、量子ジャンプを特徴とする離散光子計数データの量子相関を利用する。 本稿では,この手法の精度をベイズ推定と比較し,情報検索の分野で最適であることを示す。 2レベル量子システムにおける数値実験を用いて, 計算コストを劇的に削減しつつ, ベイズ推論と同様の最適性能が得られることを示す。 さらに、測定データとトレーニングデータの両方において、不完全性の存在に対して堅牢性を示す。 このアプローチは、量子センシングや量子イメージングなどの応用に関連する光子計数データを用いた量子パラメータ推定のための有望で計算学的に効率的なツールを提供する。

We present an inference method utilizing artificial neural networks for parameter estimation of a quantum probe monitored through a single continuous measurement. Unlike existing approaches focusing on the diffusive signals generated by continuous weak measurements, our method harnesses quantum correlations in discrete photon-counting data characterized by quantum jumps. We benchmark the precision of this method against Bayesian inference, which is optimal in the sense of information retrieval. By using numerical experiments on a two-level quantum system, we demonstrate that our approach can achieve a similar optimal performance as Bayesian inference, while drastically reducing computational costs. Additionally, the method exhibits robustness against the presence of imperfections in both measurement and training data. This approach offers a promising and computationally efficient tool for quantum parameter estimation with photon-counting data, relevant for applications such as quantum sensing or quantum imaging, as well as robust calibration tasks in laboratory-based settings.
翻訳日:2023-10-05 18:11:34 公開日:2023-10-03
# 自己学習最適化 (STOP): 繰り返し自己改善コード生成

Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation ( http://arxiv.org/abs/2310.02304v1 )

ライセンス: Link先を確認
Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai(参考訳) 近年のAIシステム(例:Tree-of-ThoughtsとProgram-Aided Language Models)の進歩は、より良い出力を生成するために複数の言語モデルへの呼び出しを構造化する"スキャフォールディング"プログラムを提供することで、問題を解決している。 足場プログラムはPythonのようなプログラミング言語で記述されている。 本研究では,言語モデルを用いた足場構築プログラムを用いて自己改善を行う。 まず、言語モデルを何回かクエリし、最良のソリューションを返すことで、所定のユーティリティ機能に従って入力プログラムを改善するシード "improver" から始める。 そして、このシード改善器を実行して改善します。 ダウンストリームタスクの小さなセット全体で、改善された改善プログラムは、シード改善プログラムよりも大幅にパフォーマンスの高いプログラムを生成する。 その後,ビーム探索,遺伝的アルゴリズム,シミュレーションアニールなど,言語モデルが提案する自己改善戦略の多様性を分析した。 言語モデル自体が変更されないため、これは完全な再帰的自己改善ではない。 それでも、概念実証実験において、現代的な言語モデルであるGPT-4が、自分自身を呼び出して改善できるコードを書くことができることを示した。 我々は、自己改善技術の開発に関する懸念を検討し、生成されたコードがサンドボックスをバイパスする頻度を評価する。

Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.
翻訳日:2023-10-05 18:11:20 公開日:2023-10-03
# 3次元物理系における対称性の破断学習のための緩和オクタヘドラル群畳み込み

Relaxed Octahedral Group Convolution for Learning Symmetry Breaking in 3D Physical Systems ( http://arxiv.org/abs/2310.02299v1 )

ライセンス: Link先を確認
Rui Wang, Robin Walters, Tess E.Smidt(参考訳) 深部等変モデルでは、サンプル効率と一般化を改善するために対称性を用いる。 しかし、これらのモデルの多くにおける完全対称性の仮定は、特にデータがそのような対称性と完全に一致しない場合に制限的である。 そこで本稿では,3次元物理系をモデル化するための緩和八面体群畳み込みを導入する。 このフレキシブルな畳み込み法は、モデルがデータと整合する最も高いレベルの等値を維持し、物理的システムの微妙な対称性を破る要因を発見できるようにする。 実験により,本手法は相転移における対称性破壊要因の洞察を与えるだけでなく,流体超解像タスクにおいて優れた性能を達成できることを示す。

Deep equivariant models use symmetries to improve sample efficiency and generalization. However, the assumption of perfect symmetry in many of these models can sometimes be restrictive, especially when the data does not perfectly align with such symmetries. Thus, we introduce relaxed octahedral group convolution for modeling 3D physical systems in this paper. This flexible convolution technique provably allows the model to both maintain the highest level of equivariance that is consistent with data and discover the subtle symmetry-breaking factors in the physical systems. Empirical results validate that our approach can not only provide insights into the symmetry-breaking factors in phase transitions but also achieves superior performance in fluid super-resolution tasks.
翻訳日:2023-10-05 18:11:00 公開日:2023-10-03
# 感情表現のための音響特性を用いたプロンプトオーディオ

Prompting Audios Using Acoustic Properties For Emotion Representation ( http://arxiv.org/abs/2310.02298v1 )

ライセンス: Link先を確認
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh(参考訳) 感情は連続体上に存在するが、現在のモデルは感情を有限値離散変数として扱う。 この表現は感情表現の多様性を捉えない。 感情をより良く表現するために、自然言語記述(あるいはプロンプト)の使用を提案する。 本稿では,これらのプロンプトを自動的に生成し,音声とプロンプトペアから感情表現を学習するためにモデルをトレーニングするという課題に対処する。 ピッチ,強度,発話速度,調音率などの感情と相関する音響特性を用いて,音のプロンプト,すなわち「音響プロンプト」を自動的に生成する。 コントラスト学習目的を用いて,音声をそれぞれの音響プロンプトにマッピングする。 我々は感情音声検索と音声感情認識のモデルを評価する。 以上の結果から, EARにおける音響的プロンプトは, 様々なPrecision@K測定値において, モデルの性能を著しく向上させることがわかった。 SERでは,Ravdessデータセットの相対精度が3.8%向上した。

Emotions lie on a continuum, but current models treat emotions as a finite valued discrete variable. This representation does not capture the diversity in the expression of emotion. To better represent emotions we propose the use of natural language descriptions (or prompts). In this work, we address the challenge of automatically generating these prompts and training a model to better learn emotion representations from audio and prompt pairs. We use acoustic properties that are correlated to emotion like pitch, intensity, speech rate, and articulation rate to automatically generate prompts i.e. 'acoustic prompts'. We use a contrastive learning objective to map speech to their respective acoustic prompts. We evaluate our model on Emotion Audio Retrieval and Speech Emotion Recognition. Our results show that the acoustic prompts significantly improve the model's performance in EAR, in various Precision@K metrics. In SER, we observe a 3.8% relative accuracy improvement on the Ravdess dataset.
翻訳日:2023-10-05 18:10:47 公開日:2023-10-03
# 会話型健康エージェント:パーソナライズされたLLMエージェントフレームワーク

Conversational Health Agents: A Personalized LLM-Powered Agent Framework ( http://arxiv.org/abs/2310.02374v1 )

ライセンス: Link先を確認
Mahyar Abbasian, Iman Azimi, Amir M. Rahmani, Ramesh Jain(参考訳) conversational health agents(chas)は、共感的な会話に関わり、マルチモーダルデータを処理することによって、パーソナルヘルスケアサービスを強化するために設計された対話型システムである。 現在のCHA(特にLarge Language Models (LLMs))は会話に重点を置いているが、包括的なエージェント機能に欠けることが多い。 これには、ウェアラブル、24/7のデータ収集ソース、電子健康記録から個人ユーザーの健康データにアクセスする機能、最新のhealth insightsの統合、確立されたマルチモーダルデータ分析ツールとの接続が含まれる。 我々は、批判的思考、知識獲得、問題解決能力を備えたCHAを強化するフレームワークを開発している。 当社のCHAプラットフォームはLLMをベースとして,医療ツールをシームレスに統合し,多言語およびマルチモーダルな会話や,さまざまなユーザデータ分析ツールとのインターフェースを実現しています。 本稿では,ストレスレベル推定やエージェントの認知・操作能力の表出など,複雑な医療タスクの処理能力について述べる。

Conversational Health Agents (CHAs) are interactive systems designed to enhance personal healthcare services by engaging in empathetic conversations and processing multimodal data. While current CHAs, especially those utilizing Large Language Models (LLMs), primarily focus on conversation, they often lack comprehensive agent capabilities. This includes the ability to access personal user health data from wearables, 24/7 data collection sources, and electronic health records, as well as integrating the latest published health insights and connecting with established multimodal data analysis tools. We are developing a framework to empower CHAs by equipping them with critical thinking, knowledge acquisition, and problem-solving abilities. Our CHA platform, powered by LLMs, seamlessly integrates healthcare tools, enables multilingual and multimodal conversations, and interfaces with a variety of user data analysis tools. We illustrate its proficiency in handling complex healthcare tasks, such as stress level estimation, showcasing the agent's cognitive and operational capabilities.
翻訳日:2023-10-05 18:04:30 公開日:2023-10-03
# 機械学習のための安全かつ効果的なデータ評価

Secure and Effective Data Appraisal for Machine Learning ( http://arxiv.org/abs/2310.02373v1 )

ライセンス: Link先を確認
Xu Ouyang, Changhong Yang, Felix Xiaozhu Lin, Yangfeng Ji(参考訳) データマーケットにとって不可欠なのは、データオーナとモデルオーナの間のトランザクションが完了する前にトレーニングデータを選択して評価する能力だ。 データとモデルの両方のプライバシを保護するため、このプロセスでは、Multi-Party Computation (MPC)を通じてターゲットモデルを精査する。 MPCを用いたTransformerモデルの評価は資源集約的だが,本研究では,データ選択を現実的に行う革新的なアプローチを提案する。 本研究の貢献は,(1) MPCを用いた秘密データ選択のためのグラウンディングパイプライン,(2) 関連するデータの限られたサブセットで訓練された簡易な低次元MLPによる複雑な高次元操作の複製,(3) MPCを同時かつ多相的に実装する3つの重要な要素を含む。 提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。 対象モデルの直接的mpcベース評価と比較すると,本手法は,選択したデータを用いたトレーニングの精度が0.20%低下しただけで,数千時間からわずか数時間という,必要な時間を大幅に削減する。

Essential for an unfettered data market is the ability to discreetly select and evaluate training data before finalizing a transaction between the data owner and model owner. To safeguard the privacy of both data and model, this process involves scrutinizing the target model through Multi-Party Computation (MPC). While prior research has posited that the MPC-based evaluation of Transformer models is excessively resource-intensive, this paper introduces an innovative approach that renders data selection practical. The contributions of this study encompass three pivotal elements: (1) a groundbreaking pipeline for confidential data selection using MPC, (2) replicating intricate high-dimensional operations with simplified low-dimensional MLPs trained on a limited subset of pertinent data, and (3) implementing MPC in a concurrent, multi-phase manner. The proposed method is assessed across an array of Transformer models and NLP/CV benchmarks. In comparison to the direct MPC-based evaluation of the target model, our approach substantially reduces the time required, from thousands of hours to mere tens of hours, with only a nominal 0.20% dip in accuracy when training with the selected data.
翻訳日:2023-10-05 18:04:12 公開日:2023-10-03
# ProtoNER: プロトタイプネットワークを用いた名前付きエンティティ認識のためのショットインクリメンタル学習

ProtoNER: Few shot Incremental Learning for Named Entity Recognition using Prototypical Networks ( http://arxiv.org/abs/2310.02372v1 )

ライセンス: Link先を確認
Ritesh Kumar, Saurabh Goyal, Ashish Verma, Vatche Isahagian(参考訳) 視覚的にリッチな文書からキーバリューペア(KVP)抽出や名前付きエンティティ認識(NER)は、文書理解とデータ抽出領域において活発な研究領域となっている。 LayoutLMv2、LayoutLMv3、LiLTなど、いくつかのトランスフォーマーベースのモデルが技術成果の達成を実現している。 しかし、既存のモデルに1つの新しいクラスを追加する必要がある。 (a)この新クラスを含むためのトレーニングデータセット全体の再アノテーション (b)再びモデルを再訓練する。 これらの問題はどちらも、更新されたモデルのデプロイを本当に遅くする。 原型ネットワークベースのエンドツーエンドのKVP抽出モデルで、既存のモデルに新しいクラスを追加できると同時に、新たに注釈付けされたトレーニングサンプルの最小数を必要とします。 The key contributions of our model are: (1) No dependency on dataset used for initial training of the model, which alleviates the need to retain original training dataset for longer duration as well as data re-annotation which is very time consuming task, (2) No intermediate synthetic data generation which tends to add noise and results in model's performance degradation, and (3) Hybrid loss function which allows model to retain knowledge about older classes as well as learn about newly added classes. 実験の結果、30個のサンプルで微調整されたプロトンは、2600個のサンプルで微調整された通常のモデルと同様の結果が得られることがわかった。

Key value pair (KVP) extraction or Named Entity Recognition(NER) from visually rich documents has been an active area of research in document understanding and data extraction domain. Several transformer based models such as LayoutLMv2, LayoutLMv3, and LiLT have emerged achieving state of the art results. However, addition of even a single new class to the existing model requires (a) re-annotation of entire training dataset to include this new class and (b) retraining the model again. Both of these issues really slow down the deployment of updated model. \\ We present \textbf{ProtoNER}: Prototypical Network based end-to-end KVP extraction model that allows addition of new classes to an existing model while requiring minimal number of newly annotated training samples. The key contributions of our model are: (1) No dependency on dataset used for initial training of the model, which alleviates the need to retain original training dataset for longer duration as well as data re-annotation which is very time consuming task, (2) No intermediate synthetic data generation which tends to add noise and results in model's performance degradation, and (3) Hybrid loss function which allows model to retain knowledge about older classes as well as learn about newly added classes.\\ Experimental results show that ProtoNER finetuned with just 30 samples is able to achieve similar results for the newly added classes as that of regular model finetuned with 2600 samples.
翻訳日:2023-10-05 18:03:51 公開日:2023-10-03
# 高品質ユニットテスト生成のための自動フィードバックによる強化学習

Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation ( http://arxiv.org/abs/2310.02368v1 )

ライセンス: Link先を確認
Benjamin Steenhoek, Michele Tufano, Neel Sundaresan, Alexey Svyatkovskiy(参考訳) ソフトウェアテストはソフトウェア開発の重要な側面であり、ベストプラクティスに準拠した高品質なテストの作成は効果的なメンテナンスに不可欠である。 近年、LLM(Large Language Models)は、テストケースの自動生成を含むコード生成で人気を集めている。 しかしながら、これらのllmは、ベストプラクティスに準拠せず、テストの臭い(アンチパターン)を含むテストケースを含む、膨大な量の公開コードでトレーニングされることが多い。 そこで本研究では,RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。 まず, LLM が生成するアンチパターンを分析し, LLM が好ましくない試験臭を発生させることを示す。 そこで我々は,静的な指標ごとに特定の報酬モデルを訓練し,その上でPPO(Pximal Policy Optimization)を用いて,単一品質指標を同時に最適化するモデルを訓練する。 さらに、これらの報酬を、さまざまなベストプラクティスとテストの品質面を捉えることを目的とした、統一的な報酬モデルに分類します。 rl学習モデルと教師付き学習を用いた学習モデルを比較することで,テスト生成品質向上にrlをどのように活用するか,さまざまなトレーニング戦略の効果について考察する。 実験の結果,rl最適化モデルはベースllmと比較して品質の高いテストケースを一貫して生成し,最大21%改善し,100%の構文的正しいコードを生成することに成功した。 RLSQMは7つの指標のうち4つでGPT-4を上回った。 これは強化学習と静的品質メトリクスを通じて、ソフトウェアテストの全体的な効率と信頼性を高めるための重要なステップである。 我々のデータは、このリンクで入手できる。

Software testing is a crucial aspect of software development, and the creation of high-quality tests that adhere to best practices is essential for effective maintenance. Recently, Large Language Models (LLMs) have gained popularity for code generation, including the automated creation of test cases. However, these LLMs are often trained on vast amounts of publicly available code, which may include test cases that do not adhere to best practices and may even contain test smells (anti-patterns). To address this issue, we propose a novel technique called Reinforcement Learning from Static Quality Metrics (RLSQM). To begin, we analyze the anti-patterns generated by the LLM and show that LLMs can generate undesirable test smells. Thus, we train specific reward models for each static quality metric, then utilize Proximal Policy Optimization (PPO) to train models for optimizing a single quality metric at a time. Furthermore, we amalgamate these rewards into a unified reward model aimed at capturing different best practices and quality aspects of tests. By comparing RL-trained models with those trained using supervised learning, we provide insights into how reliably utilize RL to improve test generation quality and into the effects of various training strategies. Our experimental results demonstrate that the RL-optimized model consistently generated high-quality test cases compared to the base LLM, improving the model by up to 21%, and successfully generates nearly 100% syntactically correct code. RLSQM also outperformed GPT-4 on four out of seven metrics. This represents a significant step towards enhancing the overall efficiency and reliability of software testing through Reinforcement Learning and static quality metrics. Our data are available at this link: https://figshare.com/s/ded476c8d4c221222849.
翻訳日:2023-10-05 18:03:32 公開日:2023-10-03
# 密度推定による確率的力推定

Stochastic force inference via density estimation ( http://arxiv.org/abs/2310.02366v1 )

ライセンス: Link先を確認
Victor Chard\`es, Suryanarayana Maddu, Michael J. Shelley(参考訳) 低分解能時間データから動的モデルを推定することは、生体物理学、特に分子プログラムとノイズの分離が重要な問題である転写学において重要な課題である。 我々は,いくつかの時点において十分な量の断面サンプルにアクセスでき,そのサンプルが潜在拡散過程から生成されると仮定する一般的なシナリオを考察する。 本研究では, 分布間を補間する自律的非線形力場を推定するために, 基礎となる拡散過程に付随する確率フローに依存する手法を提案する。 ノイズモデルに先行して、本質的なノイズと力場を区別するためにスコアマッチングを用いる。 そこで本研究では,非定常データから非保存的力を抽出し,定常状態データに適用した場合に平衡力学を学習し,加法的および乗法的ノイズモデルの両方で適用可能であることを示す。

Inferring dynamical models from low-resolution temporal data continues to be a significant challenge in biophysics, especially within transcriptomics, where separating molecular programs from noise remains an important open problem. We explore a common scenario in which we have access to an adequate amount of cross-sectional samples at a few time-points, and assume that our samples are generated from a latent diffusion process. We propose an approach that relies on the probability flow associated with an underlying diffusion process to infer an autonomous, nonlinear force field interpolating between the distributions. Given a prior on the noise model, we employ score-matching to differentiate the force field from the intrinsic noise. Using relevant biophysical examples, we demonstrate that our approach can extract non-conservative forces from non-stationary data, that it learns equilibrium dynamics when applied to steady-state data, and that it can do so with both additive and multiplicative noise models.
翻訳日:2023-10-05 18:02:59 公開日:2023-10-03
# 辞書強化学習のための優先度付きソフトQ分解

Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning ( http://arxiv.org/abs/2310.02360v1 )

ライセンス: Link先を確認
Finn Rietz, Stefan Heinrich, Erik Schaffernicht, Johannes Andreas Stork(参考訳) 複雑なタスクに対する強化学習(RL)は、主にエンジニアリングスカラー報酬関数の難しさと、スクラッチからトレーニングモデルの本来の非効率性のために、依然として課題である。 代わりに、基本的なサブタスクの観点から複雑なタスクを指定し、可能な限りサブタスクソリューションを再利用する方がよい。 本研究では,連続空間レキシコグラフィーによる多重対象RL問題に対処する。 本研究では,これらをサブタスク変換でスキャラライズし,値分解を用いて段階的に解いた。 この知見を出し, 連続状態-作用空間における語彙的優先度の下でのサブタスク解の学習と適応のための新しいアルゴリズムである, 優先度付きソフトQ分解(PSQD)を提案する。 PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。 オフライン学習に保持されたサブタスクトレーニングデータを使用する能力は、適応中に新たな環境インタラクションを不要にする。 我々は,低次元・高次元のロボット制御タスクとオフライン学習結果の両方に対して,学習,再利用,適応を成功させる手法の有効性を示す。 ベースラインアプローチとは対照的に、PSQDは競合するサブタスクや優先順位制約をトレードオフせず、学習中にサブタスクの優先順位を満たす。 PSQDは複雑なRL問題に取り組むための直感的なフレームワークを提供し、サブタスク構成の内部動作に関する洞察を提供する。

Reinforcement learning (RL) for complex tasks remains a challenge, primarily due to the difficulties of engineering scalar reward functions and the inherent inefficiency of training models from scratch. Instead, it would be better to specify complex tasks in terms of elementary subtasks and to reuse subtask solutions whenever possible. In this work, we address continuous space lexicographic multi-objective RL problems, consisting of prioritized subtasks, which are notoriously difficult to solve. We show that these can be scalarized with a subtask transformation and then solved incrementally using value decomposition. Exploiting this insight, we propose prioritized soft Q-decomposition (PSQD), a novel algorithm for learning and adapting subtask solutions under lexicographic priorities in continuous state-action spaces. PSQD offers the ability to reuse previously learned subtask solutions in a zero-shot composition, followed by an adaptation step. Its ability to use retained subtask training data for offline learning eliminates the need for new environment interaction during adaptation. We demonstrate the efficacy of our approach by presenting successful learning, reuse, and adaptation results for both low- and high-dimensional simulated robot control tasks, as well as offline learning results. In contrast to baseline approaches, PSQD does not trade off between conflicting subtasks or priority constraints and satisfies subtask priorities during learning. PSQD provides an intuitive framework for tackling complex RL problems, offering insights into the inner workings of the subtask composition.
翻訳日:2023-10-05 18:02:43 公開日:2023-10-03
# NLPにおける毒性の定義について

On the definition of toxicity in NLP ( http://arxiv.org/abs/2310.02357v1 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi(参考訳) 毒性検出タスクの根本的な問題は、毒性が不定義であるという事実にある。 Google内のユニットでこの分野のリーダーの一人であるJigsawは、Dixonらによって与えられた毒性の定義を使用している。 -「誰かを議論から遠ざけるような、真実、軽蔑、または不合理な言語」。 毒性の定量的測定は行わず、非常に主観的な文化的用語で活動するため、この定義の問題を即座に見ることができる。 曖昧さと欠点にもかかわらず、この定義は多くの研究者によって広く使われているデファクトである。 本研究では,既存の欠点を克服する毒性に対する定量的ストレスに基づく評価を提案する。

The fundamental problem in toxicity detection task lies in the fact that the toxicity is ill-defined. Jigsaw, a unit within Google and one of the leaders in the field, uses a definition of toxicity given by Dixon et al. - 'rude, disrespectful, or unreasonable language that is likely to make someone leave a discussion'. One can instantly see the issue with this definition, as it gives no quantitative measure of the toxicity and operates with highly subjective cultural terms. Despite all vagueness and flaws, this definition is de-facto widely used by many researchers. In this work we suggest quantative stress-based defenition for the toxicity that overcomes existing shortcomings.
翻訳日:2023-10-05 18:02:16 公開日:2023-10-03
# 直観主義計算木論理の推論

Reasoning about Intuitionistic Computation Tree Logic ( http://arxiv.org/abs/2310.02355v1 )

ライセンス: Link先を確認
Davide Catta, Vadim Malvone, Aniello Murano(参考訳) 本稿では,計算木論理の直観的バージョンを定義する。 直観主義論理のセマンティックな特徴を説明した後、これらの特徴が形式的検証のためにどのように興味深いかを検討する。 その後、直観主義的なバージョンのctlの構文と意味を定義し、得られた論理の単純な性質について研究する。 我々は、CTLの固定点公理が、私たちが定義した直観論的なバージョンのCTLでは有効でないことを証明して結論付ける。

In this paper, we define an intuitionistic version of Computation Tree Logic. After explaining the semantic features of intuitionistic logic, we examine how these characteristics can be interesting for formal verification purposes. Subsequently, we define the syntax and semantics of our intuitionistic version of CTL and study some simple properties of the so obtained logic. We conclude by demonstrating that some fixed-point axioms of CTL are not valid in the intuitionistic version of CTL we have defined.
翻訳日:2023-10-05 18:02:07 公開日:2023-10-03
# 直接検出と真空状態に基づくマルチGbps量子ランダム性源

Multi-Gbps quantum randomness source based on direct detection and vacuum states ( http://arxiv.org/abs/2310.02354v1 )

ライセンス: Link先を確認
Dino Solar Nikolic, Cosmo Lupo, Runjia Zhang, Tobias Rydberg, Ulrik L. Andersen, Tobias Gehring(参考訳) 真空の2次測定に基づく量子乱数生成器(QRNG)は、これまで高エントロピー源を得るために平衡ホモダイン検出を用いてきた。 本稿では,真空変動から乱れを抽出するレーザとフォトダイオードのみを用いた簡易な直接検出手法を提案する。 我々は,従来の2次検出のセキュリティ証明と比較して,レーザーや電子ノイズがガウス的である必要がないため,qrngのセキュリティを低減した仮定に基づいて証明する。 垂直キャビティ表面発光レーザに基づく低コストのセットアップを用いて,QRNG方式を実験的に実装した。 本稿では,システム評価手法を提案し,実装に適用し,リアルタイムなランダム性抽出速度を3.41Gbit/秒で示す。 スピード、低コスト、厳格なセキュリティ証明の独特な組み合わせによって、QRNG設計は、量子キーの配布からモバイルアプリケーション、モノのインターネットに至るまで、さまざまなアプリケーションで広範囲に使用される大きな可能性を秘めています。

Quantum random number generators (QRNGs) based on quadrature measurements of the vacuum have so far used balanced homodyne detection to obtain a source of high entropy. Here we propose a simple direct detection measurement scheme using only a laser and a photodiode that still extracts randomness from vacuum fluctuations. We prove the security of the QRNG based on a reduced set of assumptions in comparison to previous security proofs for quadrature detection as our proof does not require the laser or electronic noise to be Gaussian. Using a low-cost setup based on a vertical-cavity surface-emitting laser we experimentally implement the QRNG scheme. We propose a system characterization method, apply it to our implementation and demonstrate a real-time randomness extraction rate of 3.41 Gbit per second. The unique combination of speed, low cost, and rigorous security proof gives our QRNG design a large potential for a wide-scale usage in a variety of applications ranging from quantum key distribution to mobile applications and internet of things.
翻訳日:2023-10-05 18:01:57 公開日:2023-10-03
# グルコースエピソードにおける速度偏差パターンの検討--量子回帰アプローチ

Investigating Speed Deviation Patterns During Glucose Episodes: A Quantile Regression Approach ( http://arxiv.org/abs/2310.02351v1 )

ライセンス: Link先を確認
Aparna Joshi, Jennifer Merickel, Cyrus V. Desouza, Matthew Rizzo, Pujitha Gunaratne, Anuj Sharma(参考訳) 糖尿病の流行が高まる中、糖尿病が運転などの日常機能にどのように影響するかを決定することに大きな関心が寄せられている。 糖尿病における血糖コントロールの合併症には、低血糖と高血糖のエピソードがあり、安全な運転に必要な認知機能や精神運動機能を損なう可能性がある。 本研究の目的は, 急性血糖時の糖尿病速度のパターンを, 自然主義運転環境において, 糖尿病を伴わない, あるいはコントロールする運転者に対して明らかにすることであった。 本研究では,分布パターンをキャプチャする分布解析手法を用いて,従来の平均速度法に着目した先行文献を進化させ,速度偏差パターンを探索する。

Given the growing prevalence of diabetes, there has been significant interest in determining how diabetes affects instrumental daily functions, like driving. Complication of glucose control in diabetes includes hypoglycemic and hyperglycemic episodes, which may impair cognitive and psychomotor functions needed for safe driving. The goal of this paper was to determine patterns of diabetes speed behavior during acute glucose to drivers with diabetes who were euglycemic or control drivers without diabetes in a naturalistic driving environment. By employing distribution-based analytic methods which capture distribution patterns, our study advances prior literature that has focused on conventional approach of average speed to explore speed deviation patterns.
翻訳日:2023-10-05 18:01:40 公開日:2023-10-03
# 量子通信の利点を生かしたクリーンな量子ビット suffices

One Clean Qubit Suffices for Quantum Communication Advantage ( http://arxiv.org/abs/2310.02406v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Uma Girish and Noam Lifshitz(参考訳) 1つの量子ビットが純粋な状態にあり、他の全ての量子ビットが最大混合される量子通信の1つのクリーン量子ビットモデルについて検討する。 このモデルでは、コスト$O(\log N)$の量子プロトコルを持つ部分関数を実証するが、すべての対話的ランダム化プロトコルはコスト$\Omega(\sqrt{N})$を持ち、Klauck と Lim の予想を定めている。 対照的に、全ての以前の量子対古典的な通信分離は、少なくとも$\Omega(\log N)$ clean qubitsを必要とした。 我々の分離を示す関数は、コスト$O(\log N )$の量子同時絡み合いモデルにおいて効率的なプロトコルを持つ。 これにより、量子と古典的コミュニケーションの複雑さの間の最先端の分離を回復する。 我々の証明は、Ellis, Kindler, Lifshitz, Minzerによって導入された最近の超収縮性不等式と、コンパクトリー群の表現論のツールを併用したものである。

We study the one-clean-qubit model of quantum communication where one qubit is in a pure state and all other qubits are maximally mixed. We demonstrate a partial function that has a quantum protocol of cost $O(\log N)$ in this model, however, every interactive randomized protocol has cost $\Omega(\sqrt{N})$, settling a conjecture of Klauck and Lim. In contrast, all prior quantum versus classical communication separations required at least $\Omega(\log N)$ clean qubits. The function demonstrating our separation also has an efficient protocol in the quantum-simultaneous-with-entanglement model of cost $O(\log N )$. We thus recover the state-of-the-art separations between quantum and classical communication complexity. Our proof is based on a recent hypercontractivity inequality introduced by Ellis, Kindler, Lifshitz, and Minzer, in conjunction with tools from the representation theory of compact Lie groups.
翻訳日:2023-10-05 17:53:27 公開日:2023-10-03
# PCGPT:トランスフォーマーによる手続き的コンテンツ生成

PCGPT: Procedural Content Generation via Transformers ( http://arxiv.org/abs/2310.02405v1 )

ライセンス: Link先を確認
Sajad Mohaghegh, Mohammad Amin Ramezan Dehnavi, Golnoosh Abdollahinejad, Matin Hashemi(参考訳) オフライン強化学習とトランスフォーマーネットワークを用いた手続き型コンテンツ生成(PCG)の革新的アプローチであるPCGPTフレームワークを提案する。 PCGPTはトランスフォーマーに基づく自己回帰モデルを用いてゲームレベルを反復的に生成し、繰り返し、予測可能、一貫性のないコンテンツといった従来のPCG手法の課題に対処する。 フレームワークは行動、状態、報酬の軌跡をモデル化し、トランスフォーマーの自己注意機構を利用して時間的依存や因果関係を捉える。 この手法はソコバンパズルゲーム(英語版)で評価され、モデルが対応する場所に必要なアイテムを予測する。 ゲーム実験の結果,PCGPTはより複雑で多様なゲームコンテンツを生成することが示された。 興味深いことに、既存の方法に比べてはるかに少ないステップでこれらの結果を達成し、ゲームデザインとオンラインコンテンツ生成を強化する可能性を示している。 本モデルは,従来の手法よりも優れたPCGパラダイムを示す。

The paper presents the PCGPT framework, an innovative approach to procedural content generation (PCG) using offline reinforcement learning and transformer networks. PCGPT utilizes an autoregressive model based on transformers to generate game levels iteratively, addressing the challenges of traditional PCG methods such as repetitive, predictable, or inconsistent content. The framework models trajectories of actions, states, and rewards, leveraging the transformer's self-attention mechanism to capture temporal dependencies and causal relationships. The approach is evaluated in the Sokoban puzzle game, where the model predicts items that are needed with their corresponding locations. Experimental results on the game Sokoban demonstrate that PCGPT generates more complex and diverse game content. Interestingly, it achieves these results in significantly fewer steps compared to existing methods, showcasing its potential for enhancing game design and online content generation. Our model represents a new PCG paradigm which outperforms previous methods.
翻訳日:2023-10-05 17:53:08 公開日:2023-10-03
# 確率勾配勾配におけるマルチレベルモンテカルロの並列複雑性について

On the Parallel Complexity of Multilevel Monte Carlo in Stocahstic Gradient Descent ( http://arxiv.org/abs/2310.02402v1 )

ライセンス: Link先を確認
Kei Ishikawa(参考訳) 神経確率微分方程式のような逐次シミュレーションのための確率勾配勾配(SGD)では、マルチレベルモンテカルロ法(MLMC)は、単純モンテカルロ法よりも理論的に複雑であることが知られている。 しかし、実際にはmlmcは、ナイーブモンテカルロ法と同等の大きな並列複雑性のため、現代のgpuのような超並列コンピューティングプラットフォームではスケールが貧弱である。 この問題に対処するため,計算済み勾配成分をSGDの初期段階から再利用することにより,MLMCの並列複雑性を大幅に低減する遅延MLMC勾配推定器を提案する。 提案する推定器は, シナリオ毎の収束率をやや下回るコストで, イテレーション毎の平均並列複雑性を低減できる。 数値実験では,SGD の標準 MLMC と比較して,本手法の並列複雑性が優れていることを示すために,ディープヘッジの例を用いる。

In the stochastic gradient descent (SGD) for sequential simulations such as the neural stochastic differential equations, the Multilevel Monte Carlo (MLMC) method is known to offer better theoretical computational complexity compared to the naive Monte Carlo approach. However, in practice, MLMC scales poorly on massively parallel computing platforms such as modern GPUs, because of its large parallel complexity which is equivalent to that of the naive Monte Carlo method. To cope with this issue, we propose the delayed MLMC gradient estimator that drastically reduces the parallel complexity of MLMC by recycling previously computed gradient components from earlier steps of SGD. The proposed estimator provably reduces the average parallel complexity per iteration at the cost of a slightly worse per-iteration convergence rate. In our numerical experiments, we use an example of deep hedging to demonstrate the superior parallel complexity of our method compared to the standard MLMC in SGD.
翻訳日:2023-10-05 17:52:53 公開日:2023-10-03
# FT-Shield:テキスト・画像拡散モデルにおける不正微調整に対する透かし

FT-Shield: A Watermark Against Unauthorized Fine-tuning in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2310.02401v1 )

ライセンス: Link先を確認
Yingqian Cui, Jie Ren, Yuping Lin, Han Xu, Pengfei He, Yue Xing, Wenqi Fan, Hui Liu, Jiliang Tang(参考訳) 潜在拡散モデル(ldm)に基づくテキストから画像への生成モデルは、言語プロンプトに応じて高品質で高解像度な画像を生成する能力を示す。 これらの強力な潜伏拡散モデルに基づいて,芸術的スタイル適応や人物の顔伝達といったテキスト間拡散モデルのパーソナライズを実現するために,様々な微調整手法が提案されている。 しかし、モデルパーソナライズのためのデータの使用は、著作権侵害に関する一般的な懸念として現れている。 例えば、悪意のあるユーザーは、微調整技術を使用して、許可なく画家のスタイルを模倣した画像を生成することができる。 そこで本研究では,テキスト・画像拡散モデルの微調整を目的とした透かし手法であるFT-Shieldを提案する。 トレーニング画像上の透かしをテキスト・ツー・イメージ拡散モデルの生成された画像に迅速かつ正確に転送できるように,透かし生成のための新しいアルゴリズムを開発した。 保護された透かし画像を用いて微調整されたモデルによって画像が生成されると、2値の透かし検出器によって画像上に透かしが検出される。 FTシールドの有効性を検証するための総合実験を行った。

Text-to-image generative models based on latent diffusion models (LDM) have demonstrated their outstanding ability in generating high-quality and high-resolution images according to language prompt. Based on these powerful latent diffusion models, various fine-tuning methods have been proposed to achieve the personalization of text-to-image diffusion models such as artistic style adaptation and human face transfer. However, the unauthorized usage of data for model personalization has emerged as a prevalent concern in relation to copyright violations. For example, a malicious user may use the fine-tuning technique to generate images which mimic the style of a painter without his/her permission. In light of this concern, we have proposed FT-Shield, a watermarking approach specifically designed for the fine-tuning of text-to-image diffusion models to aid in detecting instances of infringement. We develop a novel algorithm for the generation of the watermark to ensure that the watermark on the training images can be quickly and accurately transferred to the generated images of text-to-image diffusion models. A watermark will be detected on an image by a binary watermark detector if the image is generated by a model that has been fine-tuned using the protected watermarked images. Comprehensive experiments were conducted to validate the effectiveness of FT-Shield.
翻訳日:2023-10-05 17:52:34 公開日:2023-10-03
# トランスファーユークリッドアライメントを用いたヒトおよびマウスの外傷性脳損傷脳波における種内および種間変動の低減

Reducing Intraspecies and Interspecies Covariate Shift in Traumatic Brain Injury EEG of Humans and Mice Using Transfer Euclidean Alignment ( http://arxiv.org/abs/2310.02398v1 )

ライセンス: Link先を確認
Manoj Vishwanath, Steven Cao, Nikil Dutt, Amir M. Rahmani, Miranda M. Lim, Hung Cao(参考訳) 睡眠脳波解析(eeg)は、臨床応用における他の方法よりもいくつかの利点があるが、被験者間の高い変動性は、現実世界における分類タスクのための機械学習モデルのデプロイにおいて大きな課題となる。 そのような場合、特定のデータセットで例外的なパフォーマンスを示す機械学習モデルは、同じタスクのために異なるデータセットに適用された場合、必ずしも同様の熟練度を示すとは限らない。 高品質なバイオメディカルデータの不足は、この課題をさらに複雑にし、モデルの全般性を総合的に評価することは困難である。 本稿では, 深層学習モデルのトレーニングにおいて, ヒトの生医学データの変形に対処するトランスファー・ユークリッド・アライメント(Transfer Euclidean Alignment)を提案する。 外傷性脳損傷(TBI)を伴わない個人を検出する二項分類タスクにおいて、人やマウスのデータを含むさまざまなデータセットを用いて、脳波に基づく学習モデルとEEGNetに基づくディープラーニングモデルを用いて、この伝達学習技術の堅牢性を検証した。 種内データセットの平均14.42%,種間データセット5.53%の増加による顕著な改善を示すことによって,本研究は,多種多様なデータセットを用いたトレーニングにおいて,機械学習モデルとディープラーニングモデルの性能向上にトランスファーラーニングを用いることの重要性を強調した。

While analytics of sleep electroencephalography (EEG) holds certain advantages over other methods in clinical applications, high variability across subjects poses a significant challenge when it comes to deploying machine learning models for classification tasks in the real world. In such instances, machine learning models that exhibit exceptional performance on a specific dataset may not necessarily demonstrate similar proficiency when applied to a distinct dataset for the same task. The scarcity of high-quality biomedical data further compounds this challenge, making it difficult to evaluate the model's generality comprehensively. In this paper, we introduce Transfer Euclidean Alignment - a transfer learning technique to tackle the problem of the dearth of human biomedical data for training deep learning models. We tested the robustness of this transfer learning technique on various rule-based classical machine learning models as well as the EEGNet-based deep learning model by evaluating on different datasets, including human and mouse data in a binary classification task of detecting individuals with versus without traumatic brain injury (TBI). By demonstrating notable improvements with an average increase of 14.42% for intraspecies datasets and 5.53% for interspecies datasets, our findings underscore the importance of the use of transfer learning to improve the performance of machine learning and deep learning models when using diverse datasets for training.
翻訳日:2023-10-05 17:52:17 公開日:2023-10-03
# 過パラメータニューラルネットワークにおけるマルチタスク学習と微調整の暗黙正則化

Implicit regularization of multi-task learning and finetuning in overparameterized neural networks ( http://arxiv.org/abs/2310.02396v1 )

ライセンス: Link先を確認
Jack W. Lindsey and Samuel Lippl(参考訳) ディープラーニングでは、学習が少なくとも部分的に別の関心のあるタスクに移ることを期待して、補助的なタスクでネットワークを訓練することが一般的である。 本研究では,複数タスク(マルチタスク学習,MTL)と逐次(事前学習,その後の微調整,PT+FT)の同時学習から生じる帰納的バイアスについて検討する。 勾配降下を訓練した2層対角線ネットワークの簡易な設定において, MTL と PT+FT に関連する暗黙正則化のペナルティを同定した。 我々の結果は、微調整の間、ネットワークがカーネル(または「怠け者」)と機能学習(リッチ」)のハイブリッドで動作していることを示唆している。 さらにPT+FTは、どちらのレジームも捉えない、新しい「ネストされた特徴学習」行動を示し、事前訓練中に学習した特徴のスパースサブセットを抽出するバイアスを与える。 ReLUネットワークでは、これらの定性的行動をすべて再現する。 また、PT+FT(MTLではない)は補助作業に必要な機能と相関する(ただし異なる)特徴を学習するために偏りがあるのに対し、MTLは両方のタスクに同一の機能を使用することに偏りがある。 その結果、現実的な設定では、比較的少ないデータが興味のあるタスクで利用できる場合、MPLはより一般化され、PT+FTはより多くのデータでより優れることがわかった。 本稿では,画像分類タスクを訓練した深層アーキテクチャについて,定性的に考察する。 ネスト型特徴学習システムの特徴として,PT+FTに改良を加えた結果,性能が向上した。 全体として、我々の結果は、補助的なタスク学習の影響に光を当て、より効果的に活用する方法を提案する。

It is common in deep learning to train networks on auxiliary tasks with the expectation that the learning will transfer, at least partially, to another task of interest. In this work, we investigate the inductive biases that result from learning auxiliary tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). In the simplified setting of two-layer diagonal linear networks trained with gradient descent, we identify implicit regularization penalties associated with MTL and PT+FT, both of which incentivize feature sharing between tasks and sparsity in learned task-specific features. Notably, our results imply that during finetuning, networks operate in a hybrid of the kernel (or "lazy") regime and the feature learning ("rich") regime identified in prior work. Moreover, PT+FT can exhibit a novel "nested feature learning" behavior not captured by either regime, which biases it to extract a sparse subset of the features learned during pretraining. In ReLU networks, we reproduce all of these qualitative behaviors. We also observe that PT+FT (but not MTL) is biased to learn features that are correlated with (but distinct from) those needed for the auxiliary task, while MTL is biased toward using identical features for both tasks. As a result, we find that in realistic settings, MTL generalizes better when comparatively little data is available for the task of interest, while PT+FT outperforms it with more data available. We show that our findings hold qualitatively for a deep architecture trained on image classification tasks. Our characterization of the nested feature learning regime also motivates a modification to PT+FT that we find empirically improves performance. Overall, our results shed light on the impact of auxiliary task learning and suggest ways to leverage it more effectively.
翻訳日:2023-10-05 17:51:50 公開日:2023-10-03
# SE(3)-Stochastic Flow Matching for protein Backbone Generation (特集 バイオサイバネティックスとバイオサイバネティックス)

SE(3)-Stochastic Flow Matching for Protein Backbone Generation ( http://arxiv.org/abs/2310.02391v1 )

ライセンス: Link先を確認
Avishek Joey Bose, Tara Akhound-Sadegh, Kilian Fatras, Guillaume Huguet, Jarrid Rector-Brooks, Cheng-Hao Liu, Andrei Cristian Nica, Maksym Korablyov, Michael Bronstein, and Alexander Tong(参考訳) 新規タンパク質構造の計算設計は、多くの科学分野に大きな影響を与える可能性がある。 この目的に向けて、$\text{foldflow}$という3ドルの厳格な動き(つまり、$\text{se(3)}$ --)よりもフローマッチングパラダイムに基づくモデリング能力を向上させる一連の新しい生成モデルを紹介します。 最初に$\text{foldflow-base}$を導入し、決定論的連続時間ダイナミクスを学習し、$\text{se(3)}$の不変目標分布をマッチングするためのシミュレーションフリーなアプローチを導入する。 次に、$\text{foldflow-ot}$を作成するためにリーマン最適トランスポートを組み込むことでトレーニングを加速し、より単純で安定したフローを構築する。 最後に、Riemannian OTとシミュレーションなしのトレーニングの両方を結合して$\text{FoldFlow-SFM}$を設計し、$\text{SE(3)}$上で確率的連続時間力学を学習する。 我々の生成モデルは、拡散ベースのアプローチよりも安定で訓練が速い、そして我々のモデルは、任意の不変なソース分布を$\text{SE(3)}$上の不変なターゲット分布にマッピングする能力を持っている。 実験により、FoldFlowモデルを用いて、最大300ドルのアミノ酸のタンパク質のバックボーン生成を検証し、高品質で多種多様で斬新なサンプルを作成しました。

The computational design of novel protein structures has the potential to impact numerous scientific disciplines greatly. Toward this goal, we introduce $\text{FoldFlow}$ a series of novel generative models of increasing modeling power based on the flow-matching paradigm over $3\text{D}$ rigid motions -- i.e. the group $\text{SE(3)}$ -- enabling accurate modeling of protein backbones. We first introduce $\text{FoldFlow-Base}$, a simulation-free approach to learning deterministic continuous-time dynamics and matching invariant target distributions on $\text{SE(3)}$. We next accelerate training by incorporating Riemannian optimal transport to create $\text{FoldFlow-OT}$, leading to the construction of both more simple and stable flows. Finally, we design $\text{FoldFlow-SFM}$ coupling both Riemannian OT and simulation-free training to learn stochastic continuous-time dynamics over $\text{SE(3)}$. Our family of $\text{FoldFlow}$ generative models offer several key advantages over previous approaches to the generative modeling of proteins: they are more stable and faster to train than diffusion-based approaches, and our models enjoy the ability to map any invariant source distribution to any invariant target distribution over $\text{SE(3)}$. Empirically, we validate our FoldFlow models on protein backbone generation of up to $300$ amino acids leading to high-quality designable, diverse, and novel samples.
翻訳日:2023-10-05 17:51:16 公開日:2023-10-03
# ScaleNet: 限定情報のための教師なし表現学習手法

ScaleNet: An Unsupervised Representation Learning Method for Limited Information ( http://arxiv.org/abs/2310.02386v1 )

ライセンス: Link先を確認
Huili Huang, M. Mahdi Roozbahani(参考訳) 深層畳み込みニューラルネットワーク (deep convolutional neural network, convnets) では,高レベルの意味的表現を学ぶ上で,大規模ラベル付きデータが不可欠であるが,大規模データセットの収集と注釈付けには時間を要する。 本研究では,マルチスケール画像に基づく簡易かつ効率的な非教師なし表現学習手法であるScaleNetを提案し,限られた情報が得られる場合にConvNetの性能を向上させる。 入力画像は、まず小さなサイズにリサイズされ、その回転度を認識するためにConvNetに供給される。 次に、ConvNetは、前モデルから転送されたパラメータに基づいて、原サイズの画像の回転予測タスクを学習する。 CIFAR-10とImageNetデータセットは、AlexNetやResNet50のような異なるアーキテクチャで研究されている。 現在の研究では、ハリス角情報のような特定の画像特徴が回転予測タスクの効率において重要な役割を果たすことが示されている。 ScaleNetは、限られたCIFAR-10データセットで、RotNetを約7%置き換えている。 限られたデータを持つScaleNetモデルから転送されたパラメータは、RotNetモデルと比較して、ImageNet分類タスクを約6%改善する。 本研究は,SimCLRのような他の最先端モデルを改善するためのScaleNet法の有効性を示す。

Although large-scale labeled data are essential for deep convolutional neural networks (ConvNets) to learn high-level semantic visual representations, it is time-consuming and impractical to collect and annotate large-scale datasets. A simple and efficient unsupervised representation learning method named ScaleNet based on multi-scale images is proposed in this study to enhance the performance of ConvNets when limited information is available. The input images are first resized to a smaller size and fed to the ConvNet to recognize the rotation degree. Next, the ConvNet learns the rotation-prediction task for the original size images based on the parameters transferred from the previous model. The CIFAR-10 and ImageNet datasets are examined on different architectures such as AlexNet and ResNet50 in this study. The current study demonstrates that specific image features, such as Harris corner information, play a critical role in the efficiency of the rotation-prediction task. The ScaleNet supersedes the RotNet by ~7% in the limited CIFAR-10 dataset. The transferred parameters from a ScaleNet model with limited data improve the ImageNet Classification task by about 6% compared to the RotNet model. This study shows the capability of the ScaleNet method to improve other cutting-edge models such as SimCLR by learning effective features for classification tasks.
翻訳日:2023-10-05 17:50:46 公開日:2023-10-03
# N-スキップグラムと位置ユニグラムマッチングによる教師なし音声認識

Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching ( http://arxiv.org/abs/2310.02382v1 )

ライセンス: Link先を確認
Liming Wang, Mark Hasegawa-Johnson and Chang D. Yoo(参考訳) 教師なし音声認識システムのトレーニングは、gan関連不安定性、音声とテキスト間の不一致、重要なメモリ要求による課題を示す。 これらの課題に対処するために,新しいASRシステムであるESPUMを導入する。 このシステムは、少数のサンプルから集めた位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。 timitベンチマークで評価されたこのモデルは、asrと音素セグメンテーションタスクにおける競合性能を示す。 公開されているコードはhttps://github.com/lwang114/GraphUnsupASRでアクセスできます。

Training unsupervised speech recognition systems presents challenges due to GAN-associated instability, misalignment between speech and text, and significant memory demands. To tackle these challenges, we introduce a novel ASR system, ESPUM. This system harnesses the power of lower-order N-skipgrams (up to N=3) combined with positional unigram statistics gathered from a small batch of samples. Evaluated on the TIMIT benchmark, our model showcases competitive performance in ASR and phoneme segmentation tasks. Access our publicly available code at https://github.com/lwang114/GraphUnsupASR.
翻訳日:2023-10-05 17:50:26 公開日:2023-10-03
# 医用画像分割のための基礎モデルのマルチプロンプト微調整

Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image Segmentation ( http://arxiv.org/abs/2310.02381v1 )

ライセンス: Link先を確認
Xiangru Li, Yifei Zhang, Liang Zhao(参考訳) Segment Anything Model (SAM) は、自然画像セグメンテーションの革命的進歩を導入した強力な基礎モデルである。 しかし、複数の臓器や組織が1つの画像に介在する生体画像の複雑な構造を規定する場合、その性能は依然として準最適である。 本研究では,SAMが画像毎に複数のプロンプトを束ね,処理する能力を活用し,SAMの性能向上を目指す,新しい微調整フレームワークを提案する。 まず,各臓器の病変をCTでスキャンし,それぞれに臓器と病変のアノテーションを2つ設けた医用画像データセットを作成した。 次に,地中真理マスクから生成された両方の境界ボックスを基準としてバッチ化することにより,SAMのマスクデコーダをフレームワーク内で微調整する。 私たちが導入したバッチプロンプト戦略は、医療画像に見られる固有の複雑さと曖昧さに対処するだけでなく、幅広いセグメンテーションタスクに適用される場合のパフォーマンスメトリクスを大幅に向上させるものです。

The Segment Anything Model (SAM) is a powerful foundation model that introduced revolutionary advancements in natural image segmentation. However, its performance remains sub-optimal when delineating the intricate structure of biomedical images, where multiple organs and tissues intertwine in a single image. In this study, we introduce a novel fine-tuning framework that leverages SAM's ability to bundle and process multiple prompts per image and seeks to improve SAM's performance in medical images. We first curated a medical image dataset that consists of CT scans of lesions in various organs, each with two annotations for organs and lesions respectively. Then, we fine-tuned SAM's mask decoder within our framework by batching both bounding boxes generated from ground truth masks as reference. The batched prompt strategy we introduced not only addresses the inherent complexity and ambiguity often found in medical images but also substantially enhances performance metrics when applied onto a wide range of segmentation tasks.
翻訳日:2023-10-05 17:50:18 公開日:2023-10-03
# AXNav: 自然言語からアクセシビリティテストの再生

AXNav: Replaying Accessibility Tests from Natural Language ( http://arxiv.org/abs/2310.02424v1 )

ライセンス: Link先を確認
Maryam Taeb, Amanda Swearngin, Eldon School, Ruijia Cheng, Yue Jiang, Jeffrey Nichols(参考訳) 開発者と品質保証テスターは、しばしば製品ライフサイクル全体を通してアクセシビリティ機能をテストするために手動テストに依存している。 残念ながら、手動テストは面倒で、多くの場合、圧倒的なスコープを持ち、他の開発マイルストーンのスケジュールが難しい。 近年、大規模言語モデル(llm)はuiの自動化など様々なタスクに使われているが、アクセシビリティテストをサポートする目的で、アシスト技術を制御するための使用について誰も検討していない。 本稿では,自然言語を用いたアクセシビリティテストワークフローの要件について検討する。 このことから、手動アクセシビリティテスト(例: ``Search for a show in VoiceOver'')を入力として、LLMとピクセルベースのUI理解モデルを組み合わせてテストを実行し、章入りのナビゲート可能なビデオを生成するシステムを構築する。 各ビデオでは、QAテスタを支援するために、アクセシビリティの問題の検出とフラグ付けにヒューリスティックを適用します(例えば、Large Textを有効にしてテキストサイズが増加しない、VoiceOverナビゲーションループなど)。 本システムを,アクセシビリティQA専門家による10名の参加者を対象に評価し,そのツールが現在の作業で非常に有用であることを示すとともに,手動で機能をテストする方法と同様のテストを行うことを示した。 この研究はまた、アクセシビリティテストにLLMを使うことに関する今後の研究の洞察を明らかにしている。

Developers and quality assurance testers often rely on manual testing to test accessibility features throughout the product lifecycle. Unfortunately, manual testing can be tedious, often has an overwhelming scope, and can be difficult to schedule amongst other development milestones. Recently, Large Language Models (LLMs) have been used for a variety of tasks including automation of UIs, however to our knowledge no one has yet explored their use in controlling assistive technologies for the purposes of supporting accessibility testing. In this paper, we explore the requirements of a natural language based accessibility testing workflow, starting with a formative study. From this we build a system that takes as input a manual accessibility test (e.g., ``Search for a show in VoiceOver'') and uses an LLM combined with pixel-based UI Understanding models to execute the test and produce a chaptered, navigable video. In each video, to help QA testers we apply heuristics to detect and flag accessibility issues (e.g., Text size not increasing with Large Text enabled, VoiceOver navigation loops). We evaluate this system through a 10 participant user study with accessibility QA professionals who indicated that the tool would be very useful in their current work and performed tests similarly to how they would manually test the features. The study also reveals insights for future work on using LLMs for accessibility testing.
翻訳日:2023-10-05 17:44:17 公開日:2023-10-03
# Delta-AI:スパースグラフィカルモデルにおける償却推論のための局所的目的

Delta-AI: Local objectives for amortized inference in sparse graphical models ( http://arxiv.org/abs/2310.02423v1 )

ライセンス: Link先を確認
Jean-Pierre Falet, Hae Beom Lee, Nikolay Malkin, Chen Sun, Dragos Secrieru, Dinghuai Zhang, Guillaume Lajoie, Yoshua Bengio(参考訳) 本稿では,スパース確率的グラフィカルモデル (PGM) における償却推論の新しいアルゴリズムを提案し,これを$\Delta$-amortized inference(\Delta$-AI)と呼ぶ。 提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。 これにより、オフライントレーニングを可能にする生成フローネットワーク(gflownets)のスタイルで局所的な損失となるローカル制約が発生するが、パラメータ更新毎にすべての変数をインスタンス化する必要がなくなるため、トレーニングが大幅に高速化される。 $\delta$-ai の目標は、目的の pgm の下で同じ条件分布を持つベイズネットワークの構造を持つ扱いやすい学習サンプル器において、マルコフブランケットが与えられた変数の条件分布と一致する。 このように、訓練されたサンプルは興味の限界分布と条件分布を復元し、変数の部分部分集合の推論を可能にする。 合成PGMからサンプリングし、スパース係数構造を持つ潜在変数モデルを訓練するための$\Delta$-AIの有効性について説明する。

We present a new algorithm for amortized inference in sparse probabilistic graphical models (PGMs), which we call $\Delta$-amortized inference ($\Delta$-AI). Our approach is based on the observation that when the sampling of variables in a PGM is seen as a sequence of actions taken by an agent, sparsity of the PGM enables local credit assignment in the agent's policy learning objective. This yields a local constraint that can be turned into a local loss in the style of generative flow networks (GFlowNets) that enables off-policy training but avoids the need to instantiate all the random variables for each parameter update, thus speeding up training considerably. The $\Delta$-AI objective matches the conditional distribution of a variable given its Markov blanket in a tractable learned sampler, which has the structure of a Bayesian network, with the same conditional distribution under the target PGM. As such, the trained sampler recovers marginals and conditional distributions of interest and enables inference of partial subsets of variables. We illustrate $\Delta$-AI's effectiveness for sampling from synthetic PGMs and training latent variable models with sparse factor structure.
翻訳日:2023-10-05 17:43:49 公開日:2023-10-03
# OneAdapt: バックプロパゲーションによるディープラーニングアプリケーションの高速適応

OneAdapt: Fast Adaptation for Deep Learning Applications via Backpropagation ( http://arxiv.org/abs/2310.02422v1 )

ライセンス: Link先を確認
Kuntai Du, Yuhan Liu, Yitian Hao, Qizheng Zhang, Haodong Wang, Yuyang Huang, Ganesh Ananthanarayanan, Junchen Jiang(参考訳) ビデオやLiDARフィードのオブジェクト検出や音声波からのテキスト抽出など,ストリーミングメディアデータに対するディープラーニング推論が普及している。 高い推論精度を達成するために、これらのアプリケーションは通常、高忠実度データを集めるためのネットワーク帯域幅と、ディープニューラルネットワーク(dnn)を実行するための広範なgpuリソースを必要とする。 ビデオ解像度やフレームレートなどの構成ノブを最適に適応させることで、ネットワーク帯域幅やgpuリソースに対する高い需要は大幅に削減できるが、現在の適応技術は3つの要件を同時に満たさない。 (i) 最低限のgpuまたは帯域幅のオーバーヘッドで (ii)データが最終dnnの正確性にどのように影響するかに基づいて、至近の最適決定に達すること、及び (iii)様々な構成ノブについてそうする。 本稿では,配置ノブを適応させるグラデーション・アセント・ストラテジーを活用することで,これらの要件を満たしたoneadaptを提案する。 鍵となる考え方は、DNNの微分可能性を採用して、AccGradと呼ばれる各構成ノブへの精度の勾配を素早く見積もることである。 具体的には、OneAdaptはAccGradを、InputGrad(各構成ノブがDNNへの入力にどのように影響するか)とDNNGrad(DNN入力がDNN推論出力にどのように影響するか)という2つの勾配を乗じて推定する。 我々は,5種類の構成,4種類の解析タスク,5種類の入力データに対してOneAdaptを評価する。 最先端の適応方式と比較して、oneadaptは帯域幅とgpu使用量を15~59%削減し、同等の精度を維持したり、1~5%の精度向上を図っている。

Deep learning inference on streaming media data, such as object detection in video or LiDAR feeds and text extraction from audio waves, is now ubiquitous. To achieve high inference accuracy, these applications typically require significant network bandwidth to gather high-fidelity data and extensive GPU resources to run deep neural networks (DNNs). While the high demand for network bandwidth and GPU resources could be substantially reduced by optimally adapting the configuration knobs, such as video resolution and frame rate, current adaptation techniques fail to meet three requirements simultaneously: adapt configurations (i) with minimum extra GPU or bandwidth overhead; (ii) to reach near-optimal decisions based on how the data affects the final DNN's accuracy, and (iii) do so for a range of configuration knobs. This paper presents OneAdapt, which meets these requirements by leveraging a gradient-ascent strategy to adapt configuration knobs. The key idea is to embrace DNNs' differentiability to quickly estimate the accuracy's gradient to each configuration knob, called AccGrad. Specifically, OneAdapt estimates AccGrad by multiplying two gradients: InputGrad (i.e. how each configuration knob affects the input to the DNN) and DNNGrad (i.e. how the DNN input affects the DNN inference output). We evaluate OneAdapt across five types of configurations, four analytic tasks, and five types of input data. Compared to state-of-the-art adaptation schemes, OneAdapt cuts bandwidth usage and GPU usage by 15-59% while maintaining comparable accuracy or improves accuracy by 1-5% while using equal or fewer resources.
翻訳日:2023-10-05 17:43:26 公開日:2023-10-03
# 生徒の大規模言語モデルは教師と同じように機能できるのか?

Can a student Large Language Model perform as well as it's teacher? ( http://arxiv.org/abs/2310.02421v1 )

ライセンス: Link先を確認
Sia Gholami, Marwan Omar(参考訳) 現代のディープラーニングモデルの急激な複雑さは、非並列的な精度を達成する一方で、リソース制約のある環境における配置課題を必然的に導入している。 知識蒸留は、高容量の「教師」モデルから流線形の「学生」モデルに知識を伝達する技術であり、このジレンマに対する有望な解決策として現れる。 本稿では,ソフトラベルの有用性や温度スケーリングの重要性といった基本原則を強調し,知識蒸留のパラダイムの概要を概観する。 本研究は, 留学生モデルのアーキテクチャ, 教師の口径, ハイパーパラメータの微妙なバランスなど, 蒸留成功の決定要因を明らかにする。 その大きな利点を認めながら、プロセスに固有の複雑さと課題を掘り下げています。 我々の調査は,モデル性能とデプロイメント効率のトレードオフを最適化するための重要な技術としての知識蒸留の可能性を強調している。

The burgeoning complexity of contemporary deep learning models, while achieving unparalleled accuracy, has inadvertently introduced deployment challenges in resource-constrained environments. Knowledge distillation, a technique aiming to transfer knowledge from a high-capacity "teacher" model to a streamlined "student" model, emerges as a promising solution to this dilemma. This paper provides a comprehensive overview of the knowledge distillation paradigm, emphasizing its foundational principles such as the utility of soft labels and the significance of temperature scaling. Through meticulous examination, we elucidate the critical determinants of successful distillation, including the architecture of the student model, the caliber of the teacher, and the delicate balance of hyperparameters. While acknowledging its profound advantages, we also delve into the complexities and challenges inherent in the process. Our exploration underscores knowledge distillation's potential as a pivotal technique in optimizing the trade-off between model performance and deployment efficiency.
翻訳日:2023-10-05 17:42:55 公開日:2023-10-03
# FedL2P: 個人化のためのフェデレーションラーニング

FedL2P: Federated Learning to Personalize ( http://arxiv.org/abs/2310.02420v1 )

ライセンス: Link先を確認
Royson Lee, Minyoung Kim, Da Li, Xinchi Qiu, Timothy Hospedales, Ferenc Husz\'ar, Nicholas D. Lane(参考訳) フェデレートラーニング(FL)研究は、グローバルモデルの分散学習のためのアルゴリズムや、それらの共通モデルの局所的パーソナライズのためのアルゴリズムを、各クライアントのローカルデータ分布の特定物に対して開発している。 しかしながら、異なるfl問題は異なるパーソナライズ戦略を必要とする可能性があり、すべてのクライアントに対して効果的な1サイズ適合のパーソナライズ戦略を定義することさえできないかもしれない。 本稿では,学習のパーソナライゼーション戦略におけるフェデレーションメタラーニング問題について考察する。 具体的には,各クライアントのローカルデータ統計値からバッチノルムと学習率パラメータを誘導するメタネットを検討する。 FLを通してこれらのメタネットを学習することにより、FLネットワーク全体がクライアントごとにカスタマイズされたパーソナライズ戦略を学習できるようにする。 実験の結果,このフレームワークは,ラベルと特徴シフトの両状況において,手作りの標準的なパーソナライゼーションベースラインを改善していることがわかった。

Federated learning (FL) research has made progress in developing algorithms for distributed learning of global models, as well as algorithms for local personalization of those common models to the specifics of each client's local data distribution. However, different FL problems may require different personalization strategies, and it may not even be possible to define an effective one-size-fits-all personalization strategy for all clients: depending on how similar each client's optimal predictor is to that of the global model, different personalization strategies may be preferred. In this paper, we consider the federated meta-learning problem of learning personalization strategies. Specifically, we consider meta-nets that induce the batch-norm and learning rate parameters for each client given local data statistics. By learning these meta-nets through FL, we allow the whole FL network to collaborate in learning a customized personalization strategy for each client. Empirical results show that this framework improves on a range of standard hand-crafted personalization baselines in both label and feature shift situations.
翻訳日:2023-10-05 17:42:38 公開日:2023-10-03
# 完全テスト時間適応のためのトリックの袋

Bag of Tricks for Fully Test-Time Adaptation ( http://arxiv.org/abs/2310.02416v1 )

ライセンス: Link先を確認
Saypraseuth Mounsaveng, Florent Chiaroni, Malik Boudiaf, Marco Pedersoli, Ismail Ben Ayed(参考訳) データドリフトへのモデル適応を目的とした完全テストタイム適応(tta)が最近注目を集めている。 ラベルなしデータの任意のストリームに対する堅牢な学習を保証するための、数多くのトリックとテクニックが提案されている。 しかし、各技法の真の影響を評価し、公平な比較を得ることは依然として大きな課題となっている。 コミュニティの知識を集約するために,我々は,小規模バッチ正規化,ストリーム再バランス,信頼性の高いサンプル選択,ネットワーク信頼度校正など,選択した直交TTA手法の分類を提案する。 それぞれのアプローチが関心の異なるシナリオに与える影響を慎重に判別する。 分析を通じて、精度、計算能力、モデルの複雑さの間のテクニックによって引き起こされるトレードオフに光を当てた。 また,技術の組み合わせによって生じる相乗効果を明らかにし,新たな最先端の成果を樹立する。

Fully Test-Time Adaptation (TTA), which aims at adapting models to data drifts, has recently attracted wide interest. Numerous tricks and techniques have been proposed to ensure robust learning on arbitrary streams of unlabeled data. However, assessing the true impact of each individual technique and obtaining a fair comparison still constitutes a significant challenge. To help consolidate the community's knowledge, we present a categorization of selected orthogonal TTA techniques, including small batch normalization, stream rebalancing, reliable sample selection, and network confidence calibration. We meticulously dissect the effect of each approach on different scenarios of interest. Through our analysis, we shed light on trade-offs induced by those techniques between accuracy, the computational power required, and model complexity. We also uncover the synergy that arises when combining techniques and are able to establish new state-of-the-art results.
翻訳日:2023-10-05 17:42:19 公開日:2023-10-03
# 量子化エキスパートの混合(MoQE):低ビット量子化とロバストネスの相補効果

Mixture of Quantized Experts (MoQE): Complementary Effect of Low-bit Quantization and Robustness ( http://arxiv.org/abs/2310.02410v1 )

ライセンス: Link先を確認
Young Jin Kim, Raffy Fahim, Hany Hassan Awadalla(参考訳) 大規模なMixture of Experts(MoE)モデルは、専門家並列性を備えた効率的なモデルスケーリング能力のおかげで、機械翻訳タスクを含む様々な言語タスクにおいて最先端の品質を達成することができる。 しかし、メモリ消費の増大とデプロイメント時のメモリ帯域のボトルネックの増大という根本的な問題をもたらした。 本稿では,Mixture of Quantized Experts (MoQE)を提案する。これは,超低ビットから2ビットの量子化を適用した単純な量のみの量子化法で,MoEモデルのメモリおよびレイテンシの増大を緩和する専門家の重みにのみ適用する。 我々は、低ビット量子化がmoeアーキテクチャと共に信頼性の高いモデル性能をもたらすと同時に、多くの場合、追加のトレーニングなしでもメモリサイズを大幅に削減できることを示す。 特に、moeモデルのエキスパート層は、従来のfeedforward network (ffn)層よりも量子化に対してはるかに堅牢である。 包括的分析では、2ビットのエキスパートウェイトを持つMoEモデルが、同じデータセットでトレーニングされた高密度モデルよりも優れたモデル性能を提供できることを示した。 低ビット量子化の結果、元の半精度浮動小数点 (fp16) MoE モデルの79.6%でモデルサイズを縮小できることを示した。 最適化されたGPUランタイム実装と組み合わせて、A100 GPU上で1.24倍のスピードアップを実現する。

Large Mixture of Experts (MoE) models could achieve state-of-the-art quality on various language tasks, including machine translation task, thanks to the efficient model scaling capability with expert parallelism. However, it has brought a fundamental issue of larger memory consumption and increased memory bandwidth bottleneck at deployment time. In this paper, we propose Mixture of Quantized Experts (MoQE) which is a simple weight-only quantization method applying ultra low-bit down to 2-bit quantizations only to expert weights for mitigating the increased memory and latency issues of MoE models. We show that low-bit quantization together with the MoE architecture delivers a reliable model performance while reducing the memory size significantly even without any additional training in most cases. In particular, expert layers in MoE models are much more robust to the quantization than conventional feedforward networks (FFN) layers. In our comprehensive analysis, we show that MoE models with 2-bit expert weights can deliver better model performance than the dense model trained on the same dataset. As a result of low-bit quantization, we show the model size can be reduced by 79.6% of the original half precision floating point (fp16) MoE model. Combined with an optimized GPU runtime implementation, it also achieves 1.24X speed-up on A100 GPUs.
翻訳日:2023-10-05 17:42:04 公開日:2023-10-03
# Nugget 2D:デコーダのみの言語モデルのスケーリングのための動的コンテキスト圧縮

Nugget 2D: Dynamic Contextual Compression for Scaling Decoder-only Language Models ( http://arxiv.org/abs/2310.02409v1 )

ライセンス: Link先を確認
Guanghui Qin, Corby Rosset, Ethan C. Chau, Nikhil Rao, Benjamin Van Durme(参考訳) 標準トランスフォーマーベースの言語モデル (LM) は、長いコンテキストに対して低スケールである。 本研究では,Qin & Van Durme(2023)のNuggetアプローチをBERTライクなフレームワークからデコーダのみのLMに拡張した動的文脈圧縮に基づくソリューションを提案する。 提案手法は, 圧縮された「ナゲット」として履歴をモデル化し, LLaMAのような既製のモデルで初期化することができる。 我々は,言語モデリング,質問応答,要約における実験を通じて,Nugget2Dがこれらのタスクの能力を保ちながら,時間と空間の面でデコード時のオーバーヘッドを大幅に削減することを示した。 例えば、自動符号化の実験では、Nugget2Dはコンテクストを20倍圧縮比で縮小することができ、BLEUスコアは98%であり、ほとんどロスレスエンコーディングを実現している。

Standard Transformer-based language models (LMs) scale poorly to long contexts. We propose a solution based on dynamic contextual compression, which extends the Nugget approach of Qin & Van Durme (2023) from BERT-like frameworks to decoder-only LMs. Our method models history as compressed "nuggets" which are trained to allow for reconstruction, and it can be initialized with off-the-shelf models such as LLaMA. We demonstrate through experiments in language modeling, question answering, and summarization that Nugget2D retains capabilities in these tasks, while drastically reducing the overhead during decoding in terms of time and space. For example, in the experiments of autoencoding, Nugget2D can shrink context at a 20x compression ratio with a BLEU score of 98% for reconstruction, achieving nearly lossless encoding.
翻訳日:2023-10-05 17:41:42 公開日:2023-10-03
# MindTheDApp:Ethereumベースの分散アプリケーションの複雑なネットワーク駆動構造解析のためのツールチェーン

MindTheDApp: A Toolchain for Complex Network-Driven Structural Analysis of Ethereum-based Decentralised Applications ( http://arxiv.org/abs/2310.02408v1 )

ライセンス: Link先を確認
Giacomo Ibba, Sabrina Aufiero, Silvia Bartolucci, Rumyana Neykova, Marco Ortu, Roberto Tonelli, Giuseppe Destefanis(参考訳) 本稿では,Ethereumベースの分散アプリケーション(DApp)の構造解析に特化して設計されたツールチェーンであるMindTheDAppについて述べる。 既存のツールとは異なり、当社のツールチェーンはANTLR4とAST(Abstract Syntax Tree)のトラバース技術を組み合わせて、スマートコントラクト内のアーキテクチャとインタラクションを特殊な二部グラフに変換する。 これにより、高度なネットワーク分析により、DAppアーキテクチャ内の運用効率を強調できる。 提案ツールが生成する二部グラフは,スマートコントラクト,インターフェース,ライブラリ,関数,イベント,修飾子を含む2つのノードからなる。 グラフのエッジは関数と対話するスマートコントラクトを接続し、dapp内の相互依存性と実行フローの詳細なビューを提供する。 このネットワーク中心のアプローチにより、研究者や実践者は分散システムのロバスト性、適応性、複雑さを理解するために複雑なネットワーク理論を適用することができる。 我々の研究は、ネットワークの可視化を可能にするスマートコントラクトのセキュリティ向上に貢献し、DApps内のアーキテクチャと運用ロジックの深い理解を提供する。 ブロックチェーンエコシステムにおけるスマートコントラクトの重要性の高まりと、テクノロジにおける複雑なネットワーク理論の新たな応用を考えると、当社のツールチェーンは、ブロックチェーン技術分野における学術研究と実践的アプリケーションの両方にタイムリーな貢献をしています。

This paper presents MindTheDApp, a toolchain designed specifically for the structural analysis of Ethereum-based Decentralized Applications (DApps), with a distinct focus on a complex network-driven approach. Unlike existing tools, our toolchain combines the power of ANTLR4 and Abstract Syntax Tree (AST) traversal techniques to transform the architecture and interactions within smart contracts into a specialized bipartite graph. This enables advanced network analytics to highlight operational efficiencies within the DApp's architecture. The bipartite graph generated by the proposed tool comprises two sets of nodes: one representing smart contracts, interfaces, and libraries, and the other including functions, events, and modifiers. Edges in the graph connect functions to smart contracts they interact with, offering a granular view of interdependencies and execution flow within the DApp. This network-centric approach allows researchers and practitioners to apply complex network theory in understanding the robustness, adaptability, and intricacies of decentralized systems. Our work contributes to the enhancement of security in smart contracts by allowing the visualisation of the network, and it provides a deep understanding of the architecture and operational logic within DApps. Given the growing importance of smart contracts in the blockchain ecosystem and the emerging application of complex network theory in technology, our toolchain offers a timely contribution to both academic research and practical applications in the field of blockchain technology.
翻訳日:2023-10-05 17:41:26 公開日:2023-10-03
# 大規模言語モデルにおける自動バグ生成

Automated Bug Generation in the era of Large Language Models ( http://arxiv.org/abs/2310.02407v1 )

ライセンス: Link先を確認
Ali Reza Ibrahimzada, Yang Chen, Ryan Rong, Reyhaneh Jabbarvand(参考訳) バグはソフトウェア工学において必須であり、ソフトウェアシステムのバグを検出し、ローカライズし、修復するための過去数十年の研究が数多く提案されている。 このようなテクニックの有効性評価には、複雑なバグ、すなわちテストを通じて検出が困難で、デバッグによる修復が難しいバグが必要である。 古典的なソフトウェアエンジニアリングの観点から見れば、修復が難しいバグは、複数の場所にある正しいコードとは異なるため、ローカライズと修復が難しい。 一方、検出しにくいバグは、特定のテスト入力と到達可能性条件の下で現れる。 これらの2つの目的、すなわち、検出しにくいバグと修復しにくいバグを生成することは、ほとんど一致している。 バグはトレーニングデータ内の正しいコードと同じようなコード表現を持ち、それらを区別するためにバグ予測モデルに挑戦するべきです。 バグが元のコードと(複数の場所で)異なるほど、それらの表現はより遠く、検出しやすくなります。 任意のコードを複数の複雑なバグに変換するbugfarmを提案する。 BugFarmはLLMを活用して、複数の場所(ハード・トゥ・リペア)でコードを変更する。 複数の変更がコード表現を著しく変更しないことを保証するため、bugfarmは基礎となるモデルの注意を解析し、llmに最下位の場所のみを変更するよう指示する(検出が難しい)。 BugFarmが生成した2.5万以上のミュータントによる320k以上のバグの包括的評価と、2つの別のアプローチは、学習ベースのバグ予測アプローチとSOTA学習ベースのプログラム修復手法による修正が難しいバグの検出において、我々の優位性を示している。

Bugs are essential in software engineering; many research studies in the past decades have been proposed to detect, localize, and repair bugs in software systems. Effectiveness evaluation of such techniques requires complex bugs, i.e., those that are hard to detect through testing and hard to repair through debugging. From the classic software engineering point of view, a hard-to-repair bug differs from the correct code in multiple locations, making it hard to localize and repair. Hard-to-detect bugs, on the other hand, manifest themselves under specific test inputs and reachability conditions. These two objectives, i.e., generating hard-to-detect and hard-to-repair bugs, are mostly aligned; a bug generation technique can change multiple statements to be covered only under a specific set of inputs. However, these two objectives are conflicting for learning-based techniques: A bug should have a similar code representation to the correct code in the training data to challenge a bug prediction model to distinguish them. The hard-to-repair bug definition remains the same but with a caveat: the more a bug differs from the original code (at multiple locations), the more distant their representations are and easier to be detected. We propose BugFarm, to transform arbitrary code into multiple complex bugs. BugFarm leverages LLMs to mutate code in multiple locations (hard-to-repair). To ensure that multiple modifications do not notably change the code representation, BugFarm analyzes the attention of the underlying model and instructs LLMs to only change the least attended locations (hard-to-detect). Our comprehensive evaluation of 320k+ bugs from over 2.5M mutants generated by BugFarm and two alternative approaches demonstrates our superiority in generating bugs that are hard to detect by learning-based bug prediction approaches and hard to repair by SOTA learning-based program repair technique.
翻訳日:2023-10-05 17:41:02 公開日:2023-10-03
# 一般化クロスカー光機械回路における光子遮断、絡み合い、メカニカルキャット状態生成の改善

Improving photon blockade, entanglement and mechanical-cat-state generation in a generalized cross-Kerr optomechanical circuit ( http://arxiv.org/abs/2310.02443v1 )

ライセンス: Link先を確認
Hossein Solki, Ali Motazedifard, Mohammad Hossein Naderi(参考訳) 本稿では,光子遮断やメカニカル・シュロディンガー・キャットステート発生,トリパルタイトマイクロ波光学回路におけるフォトン・フォノンの絡み合いなど,光子数光子の光学効果を改善するための実験手法を提案する。 検討中のシステムは、シングルクーパペアトランジスタ、マイクロ波lc共振器、マイクロメカニカル共振器によって構成される。 本方式は,クーパー・ペアトランジスタのゲート電荷を調節することで実現可能な機械式フォノン1を二次的に依存しながら,光子数に線形に依存する高次(一般化)非線形クロスカー結合方式に基づいている。 解析的にも数値的にも、クロスカー非線形性と一般化クロスカー非線形性の両方の存在が、1光子および2光子によるトンネルトンネルの強化をもたらすだけでなく、それらに対する制御性も向上することを示した。 さらに, 一般クロスカー非線形性の支援により, ゼロ光機械的カップリング法では, 系散逸に対するロバスト性を示す多成分機械的重ね合わせ状態が生成できることが示されている。 また,マイクロ波モードとメカニカルモードの定常的絡み合いについても検討し,大赤のデチューニングにおける絡み合い強化における一般化クロスカー非線形性の役割を示す。 提案する一般クロスカー光力学系は、マイクロ波量子センシング、量子通信、量子情報プロトコルにおいて潜在的に応用できる。

We propose a feasible experimental scheme to improve the few-photon optomechanical effects, including photon blockade and mechanical-Schrodinger cat-state generation, as well as photon-phonon entanglement in a tripartite microwave optomechanical circuit. The system under consideration is formed by a single-Cooper-pair transistor, a microwave LC resonator, and a micromechanical resonator. Our scheme is based on an additional higher-order (generalized) nonlinear cross-Kerr type of coupling, linearly dependent on photon number while quadratically dependent on mechanical phonon one, which can be realized via adjusting the gate charge of the Cooper-pair transistor. We show, both analytically and numerically, that the presence of both cross-Kerr and generalized cross-Kerr nonlinearities not only may give rise to the enhancement of one- and two-photon blockades as well as photon induced tunneling but can also provide more controllability over them. Furthermore, it is shown that in the regime of zero optomechanical coupling, with the aid of generalized cross-Kerr nonlinearity, one can generate multi-components mechanical superposition states which exhibit robustness against system dissipations. We also study the steady-state entanglement between the microwave and mechanical modes, the results of which signify the role of generalized cross-Kerr nonlinearity in enhancing the entanglement in the regime of large-red detuning. The proposed generalized cross-Kerr optomechanical system can be found potential applications in microwave quantum sensing, quantum telecommunication, and quantum information protocols.
翻訳日:2023-10-05 17:33:37 公開日:2023-10-03
# GenCO: コンビナティブな性質を持つ設計問題に対するさまざまなソリューションの生成

GenCO: Generating Diverse Solutions to Design Problems with Combinatorial Nature ( http://arxiv.org/abs/2310.02442v1 )

ライセンス: Link先を確認
Aaron Ferber, Arman Zharmagambetov, Taoan Huang, Bistra Dilkina, Yuandong Tian(参考訳) 生成モデル(GANやVAEなど)を用いた多様なオブジェクト(画像など)の生成は近年、人間によって伝統的に行われている多くの設計問題の解決に役立っている。 画像生成以外にも,設計の多様性と制約の適合性の両方が重要である,より一般的な設計問題の解決策を見出すことを目指している。 このような設定は、コンピュータグラフィックス、アニメーション、インダストリアルデザイン、マテリアルサイエンスなどの応用があり、ジェネレータの出力は離散的/結合的制約に従い、任意の偏差をペナライズすることを望んでおり、これは既存の生成モデルや最適化解法とは非自明である。 そこで我々は, 組込み組合せ解法と統合された深層生成モデルのエンドツーエンドトレーニングを行う新しいフレームワークであるGenCOを提案し, 非線形目的に整合した高品質な解を明らかにすることを目的とした。 構造的には従来の生成モデルに似ているが、GenCOはその役割を多様化し、最終オブジェクト(画像など)ではなく組合せ最適化問題のインスタンスを生成することに重点を置いている。 このシフトにより、生成された出力をより細かく制御でき、その実現可能性を評価し、追加の組合せ損失成分を導入することができる。 提案手法は,ゲームレベルの生成や経路計画のためのマップ作成など,組み合わせの複雑さを特徴とする多種多様な生成課題に対する効果を実証し,ユーザ指定の組合せ特性に確実に準拠する多種多様な高品質なソリューションを実現する能力を一貫して示す。

Generating diverse objects (e.g., images) using generative models (such as GAN or VAE) has achieved impressive results in the recent years, to help solve many design problems that are traditionally done by humans. Going beyond image generation, we aim to find solutions to more general design problems, in which both the diversity of the design and conformity of constraints are important. Such a setting has applications in computer graphics, animation, industrial design, material science, etc, in which we may want the output of the generator to follow discrete/combinatorial constraints and penalize any deviation, which is non-trivial with existing generative models and optimization solvers. To address this, we propose GenCO, a novel framework that conducts end-to-end training of deep generative models integrated with embedded combinatorial solvers, aiming to uncover high-quality solutions aligned with nonlinear objectives. While structurally akin to conventional generative models, GenCO diverges in its role - it focuses on generating instances of combinatorial optimization problems rather than final objects (e.g., images). This shift allows finer control over the generated outputs, enabling assessments of their feasibility and introducing an additional combinatorial loss component. We demonstrate the effectiveness of our approach on a variety of generative tasks characterized by combinatorial intricacies, including game level generation and map creation for path planning, consistently demonstrating its capability to yield diverse, high-quality solutions that reliably adhere to user-specified combinatorial properties.
翻訳日:2023-10-05 17:32:50 公開日:2023-10-03
# 多制約最適条件下でのローカルナビゲーションのための多変量学習

Learning Diverse Skills for Local Navigation under Multi-constraint Optimality ( http://arxiv.org/abs/2310.02440v1 )

ライセンス: Link先を確認
Jin Cheng, Marin Vlastelica, Pavel Kolev, Chenhao Li, Georg Martius(参考訳) ロボット工学におけるデータ駆動制御の多くの応用にもかかわらず、有意義な多様な行動の抽出は依然として課題である。 通常、タスクのパフォーマンスは多様性を達成するために妥協する必要があります。 多くのシナリオでは、タスク要件は様々な報酬条件として指定され、それぞれが異なるトレードオフを必要とする。 本研究では,品質・多様性トレードオフに関する制約付き最適化の視点を取り,異なる報酬によって定義される価値関数に制約を課しながら,多様なポリシーを得ることができることを示す。 以前の研究に則って、ヴァン・デル・ワールスの力によって動機付けられた誘引的報酬項によって、多様性レベルのさらなる制御が達成される。 本研究では,四足ロボットが有限地平線内で目標に到達する必要がある局所ナビゲーションタスクにおいて,本手法の有効性を示す。 最後に、トレーニングされたポリシーは、実際の12-DoF四足歩行ロボットであるSolo12にうまく移行し、障害物を回避して様々なアジャイル行動を示す。

Despite many successful applications of data-driven control in robotics, extracting meaningful diverse behaviors remains a challenge. Typically, task performance needs to be compromised in order to achieve diversity. In many scenarios, task requirements are specified as a multitude of reward terms, each requiring a different trade-off. In this work, we take a constrained optimization viewpoint on the quality-diversity trade-off and show that we can obtain diverse policies while imposing constraints on their value functions which are defined through distinct rewards. In line with previous work, further control of the diversity level can be achieved through an attract-repel reward term motivated by the Van der Waals force. We demonstrate the effectiveness of our method on a local navigation task where a quadruped robot needs to reach the target within a finite horizon. Finally, our trained policies transfer well to the real 12-DoF quadruped robot, Solo12, and exhibit diverse agile behaviors with successful obstacle traversal.
翻訳日:2023-10-05 17:32:21 公開日:2023-10-03
# novice learner and expert tutor: 誤解を伴う大規模言語モデルの数学推論能力の評価

Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of Large Language Models with Misconceptions ( http://arxiv.org/abs/2310.02439v1 )

ライセンス: Link先を確認
Naiming Liu, Shashank Sonkar, Zichao Wang, Simon Woodhead, Richard G. Baraniuk(参考訳) 本稿では,Large Language Models (LLM) の数学的推論能力の数学的誤解に基づく新しい評価法を提案する。 我々の第一のアプローチは、初等学習者および専門教師としてLSMをシミュレートし、特定の誤解から得られた数学問題に対する誤った回答を識別し、誤った回答の背後にある誤解(s)を認識することである。 数学の質問に正しく答えることに焦点を当てた従来のLLMの数学的評価とは対照的に、我々のアプローチは教育学習科学の原理からインスピレーションを得ている。 本研究では,LLMに対して,不完全な知識に基づいて,特定の不完全な質問に答えることによって初心者の学習者を模倣すること,また質問に対する誤った回答に対応する誤解を識別することで専門家の学習者を模倣することを求める。 単純な小学校数学問題を用いて、llmはこれらの質問に正しく答えられるが、彼らは識別に苦慮していることを実験で明らかにした。 1) 特定の不完全な知識に対応する不正確な回答(誤解) 2) 特定の誤った回答を説明する誤解。 本研究は,特に知的指導システムなどの教育応用におけるロバストな学生シミュレーションとエキスパート指導モデルの開発において,llmsの数学推論能力を高める新たな機会を示す。

We propose novel evaluations for mathematical reasoning capabilities of Large Language Models (LLMs) based on mathematical misconceptions. Our primary approach is to simulate LLMs as a novice learner and an expert tutor, aiming to identify the incorrect answer to math question resulted from a specific misconception and to recognize the misconception(s) behind an incorrect answer, respectively. Contrary to traditional LLMs-based mathematical evaluations that focus on answering math questions correctly, our approach takes inspirations from principles in educational learning sciences. We explicitly ask LLMs to mimic a novice learner by answering questions in a specific incorrect manner based on incomplete knowledge; and to mimic an expert tutor by identifying misconception(s) corresponding to an incorrect answer to a question. Using simple grade-school math problems, our experiments reveal that, while LLMs can easily answer these questions correctly, they struggle to identify 1) the incorrect answer corresponding to specific incomplete knowledge (misconceptions); 2) the misconceptions that explain particular incorrect answers. Our study indicates new opportunities for enhancing LLMs' math reasoning capabilities, especially on developing robust student simulation and expert tutoring models in the educational applications such as intelligent tutoring systems.
翻訳日:2023-10-05 17:32:05 公開日:2023-10-03
# EvDNeRF:動的ニューラルラジアンス場を用いたイベントデータ再構成

EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2310.02437v1 )

ライセンス: Link先を確認
Anish Bhattacharya, Ratnesh Madaan, Fernando Cladera, Sai Vemprala, Rogerio Bonatti, Kostas Daniilidis, Ashish Kapoor, Vijay Kumar, Nikolai Matni, Jayesh K. Gupta(参考訳) 本稿では,イベントデータを生成し,イベントベースの動的NeRFをトレーニングするためのパイプラインであるEvDNeRFについて述べる。 イベントカメラは、高ダイナミックレンジでMHzレートで非同期の1ピクセル当たりの明るさ変化を登録する。 ニューラルラディアンス場(NeRF)は、視覚的品質の幾何ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。 我々のevdnerfは、所望のタイムスタンプ間の静的または移動視点から動的シーンのイベントストリームを予測できるので、所定のシーンのイベントベースのシミュレータとして使用できる。 各種イベントのバッチサイズをトレーニングすることにより、イベントの細かな時間分解におけるテスト時間予測を改善し、標準的な動的NeRFとイベントシミュレータを組み合わせたベースラインより優れた性能が得られることを示す。 また、イベントベースのデータ生成とイベントベースの動的NeRFモデルのトレーニングのためのコードもリリースしています(https://github.com/anish-bhattacharya/EvDNeRF)。

We present EvDNeRF, a pipeline for generating event data and training an event-based dynamic NeRF, for the purpose of faithfully reconstructing eventstreams on scenes with rigid and non-rigid deformations that may be too fast to capture with a standard camera. Event cameras register asynchronous per-pixel brightness changes at MHz rates with high dynamic range, making them ideal for observing fast motion with almost no motion blur. Neural radiance fields (NeRFs) offer visual-quality geometric-based learnable rendering, but prior work with events has only considered reconstruction of static scenes. Our EvDNeRF can predict eventstreams of dynamic scenes from a static or moving viewpoint between any desired timestamps, thereby allowing it to be used as an event-based simulator for a given scene. We show that by training on varied batch sizes of events, we can improve test-time predictions of events at fine time resolutions, outperforming baselines that pair standard dynamic NeRFs with event simulators. We release our simulated and real datasets, as well as code for both event-based data generation and the training of event-based dynamic NeRF models (https://github.com/anish-bhattacharya/EvDNeRF).
翻訳日:2023-10-05 17:31:42 公開日:2023-10-03
# 大規模信号制御のための表現通信に基づくマルチエージェント強化学習

Multi-Agent Reinforcement Learning Based on Representational Communication for Large-Scale Traffic Signal Control ( http://arxiv.org/abs/2310.02435v1 )

ライセンス: Link先を確認
Rohit Bokade, Xiaoning Jin, Christopher Amato(参考訳) 交通信号制御(TSC)は、インテリジェント交通システムにおいて困難な問題であり、マルチエージェント強化学習(MARL)を用いて取り組まれてきた。 集中型アプローチは大規模なtsc問題では実現できないことが多いが、分散型アプローチはスケーラビリティを提供するが、部分的可観測性などの新たな課題を導入する。 エージェントは、システムを理解し、効果的な協調を達成するために、メッセージを使って情報を交換することを学ぶ必要がある。 Deep MARLは、コミュニケーションプロトコルを異なる方法で学習することで、エージェント間通信を可能にするために使用されている。 しかし、TSCのために提案された多くのディープMARL通信フレームワークは、エージェントが他のエージェントと常に通信できるので、システム内の既存のノイズを増し、全体的なパフォーマンスを低下させることができる。 本研究では,大規模TSCのための通信ベースのMARLフレームワークを提案する。 我々のフレームワークは、各エージェントがメッセージのどの部分を誰に"送信"するかを指示するコミュニケーションポリシーを学ぶことができる。 本質的には、エージェントがメッセージの受信者を選択的に選択し、可変長メッセージを交換することを可能にするフレームワークです。 これにより、エージェントが必要なときにのみ通信チャネルを効果的に使用できる分散型で柔軟な通信メカニズムが実現される。 4 \times 4$グリッドネットワークとbolognaのpasubio地区に基づく実世界ネットワークの2つのネットワークを設計した。 我々のフレームワークは,通信チャネルの$\sim 47-65 \% のエージェントを用いて,関連手法と比較してネットワークの混雑率を低くした。 アブレーション研究は、我々のフレームワークで学んだコミュニケーションポリシーの有効性をさらに実証した。

Traffic signal control (TSC) is a challenging problem within intelligent transportation systems and has been tackled using multi-agent reinforcement learning (MARL). While centralized approaches are often infeasible for large-scale TSC problems, decentralized approaches provide scalability but introduce new challenges, such as partial observability. Communication plays a critical role in decentralized MARL, as agents must learn to exchange information using messages to better understand the system and achieve effective coordination. Deep MARL has been used to enable inter-agent communication by learning communication protocols in a differentiable manner. However, many deep MARL communication frameworks proposed for TSC allow agents to communicate with all other agents at all times, which can add to the existing noise in the system and degrade overall performance. In this study, we propose a communication-based MARL framework for large-scale TSC. Our framework allows each agent to learn a communication policy that dictates "which" part of the message is sent "to whom". In essence, our framework enables agents to selectively choose the recipients of their messages and exchange variable length messages with them. This results in a decentralized and flexible communication mechanism in which agents can effectively use the communication channel only when necessary. We designed two networks, a synthetic $4 \times 4$ grid network and a real-world network based on the Pasubio neighborhood in Bologna. Our framework achieved the lowest network congestion compared to related methods, with agents utilizing $\sim 47-65 \%$ of the communication channel. Ablation studies further demonstrated the effectiveness of the communication policies learned within our framework.
翻訳日:2023-10-05 17:31:17 公開日:2023-10-03
# 大規模言語モデルはセキュリティとプライバシのアドバイスを提供できるか? 誤解を解消するLSMの能力の測定

Can Large Language Models Provide Security & Privacy Advice? Measuring the Ability of LLMs to Refute Misconceptions ( http://arxiv.org/abs/2310.02431v1 )

ライセンス: Link先を確認
Yufan Chen, Arjun Arunasalam, Z. Berkay Celik(参考訳) ユーザーは、信頼できるウェブサイトやコンテンツ共有プラットフォームを含むオンラインリソースからセキュリティとプライバシ(S&P)アドバイスを求める。 これらのリソースは、ユーザがS&P技術やツールを理解し、実行可能な戦略を提案するのに役立つ。 大規模言語モデル(LLM)は、最近信頼できる情報ソースとして登場した。 しかし、その正確さと正確性は疑問視されている。 以前の研究では、複数の選択の質問に答える上でのLCMの欠点と、モデル制約(例えば有害なコンテンツを生み出すために)を不注意に回避するユーザ能力を概説している。 しかし、LSMsが信頼できるS&Pアドバイスを提供する能力は十分に探索されていない。 本稿では,一般市民が抱いている一般的なS&P誤解を解消する能力を測定する。 本稿では,最近の学術文献から,S&P関連誤解のデータセットを6つのトピックにまとめる。 次に2つの人気のあるllm(bardとchatgpt)をクエリし、これらの誤解に対する反応を評価するためのラベルガイドを作成します。 回答を包括的に評価するために、各誤解を複数回クエリし、パラフレーズを生成してクエリし、レスポンスのソースURLを要求する3つの戦略を適用する。 どちらのモデルも平均21.3%の非無視エラー率を示し、一般的なS&Pの誤解を誤って裏付けている。 同じまたはパラフレーズの誤解で繰り返しllmを問い合わせると、エラー率は32.6%に増加する。 また、モデルが部分的に誤解を支持したり、非決定的であり続ける可能性があることも明らかにします。 回答の情報源を調査したところ、llmは無効なurlの提供(bardでは21.2%、chatgptでは67.7%)や無関係な情報源(bardでは44.2%、chatgptでは18.3%)の影響を受けやすいことがわかった。

Users seek security & privacy (S&P) advice from online resources, including trusted websites and content-sharing platforms. These resources help users understand S&P technologies and tools and suggest actionable strategies. Large Language Models (LLMs) have recently emerged as trusted information sources. However, their accuracy and correctness have been called into question. Prior research has outlined the shortcomings of LLMs in answering multiple-choice questions and user ability to inadvertently circumvent model restrictions (e.g., to produce toxic content). Yet, the ability of LLMs to provide reliable S&P advice is not well-explored. In this paper, we measure their ability to refute popular S&P misconceptions that the general public holds. We first study recent academic literature to curate a dataset of over a hundred S&P-related misconceptions across six different topics. We then query two popular LLMs (Bard and ChatGPT) and develop a labeling guide to evaluate their responses to these misconceptions. To comprehensively evaluate their responses, we further apply three strategies: query each misconception multiple times, generate and query their paraphrases, and solicit source URLs of the responses. Both models demonstrate, on average, a 21.3% non-negligible error rate, incorrectly supporting popular S&P misconceptions. The error rate increases to 32.6% when we repeatedly query LLMs with the same or paraphrased misconceptions. We also expose that models may partially support a misconception or remain noncommittal, refusing a firm stance on misconceptions. Our exploration of information sources for responses revealed that LLMs are susceptible to providing invalid URLs (21.2% for Bard and 67.7% for ChatGPT) or point to unrelated sources (44.2% returned by Bard and 18.3% by ChatGPT).
翻訳日:2023-10-05 17:30:49 公開日:2023-10-03
# 繰り返しニューラルネットワークの機械的解釈のためのエピソード記憶理論

Episodic Memory Theory for the Mechanistic Interpretation of Recurrent Neural Networks ( http://arxiv.org/abs/2310.02430v1 )

ライセンス: Link先を確認
Arjun Karuvally and Peter Delmastro and Hava T. Siegelmann(参考訳) リカレントニューラルネットワーク(RNN)の複雑な操作を機械的に理解することは、その能力と応用を前進させる上で重要である。 本稿では,最近提案された一般逐次記憶モデルにおいて,RNNを離散時間アナログとして概念化可能であることを示す,エピソード記憶理論(EMT)を提案する。 本稿では,EMTのサブスタンスとして,RNNにおける可変結合挙動を探索するアルゴリズムを提案する。 EMTを利用して、これらのタスクにおける可変結合を容易にする数学的に厳密な回路を定式化する。 実験により、訓練されたRNNは可変結合回路に一貫して収束し、RNNのダイナミクスの普遍性を示すことが明らかとなった。 これらの知見に基づいて,変数の時間的保存と構成に有用な隠されたニューロンが,これらのタスクの一般化に不可欠なメカニズムであることを示す特権基底を定義するアルゴリズムを考案した。 特権ベースが学習パラメータとRNNの隠れ状態の解釈可能性を高めることを示す。 我々の研究は、RNNの内部メカニズムを解明するための一歩であり、計算神経科学のために、人工ニューラルネットワークとニューラルメモリモデルのギャップを埋めるのに役立つ。

Understanding the intricate operations of Recurrent Neural Networks (RNNs) mechanistically is pivotal for advancing their capabilities and applications. In this pursuit, we propose the Episodic Memory Theory (EMT), illustrating that RNNs can be conceptualized as discrete-time analogs of the recently proposed General Sequential Episodic Memory Model. To substantiate EMT, we introduce a novel set of algorithmic tasks tailored to probe the variable binding behavior in RNNs. Utilizing the EMT, we formulate a mathematically rigorous circuit that facilitates variable binding in these tasks. Our empirical investigations reveal that trained RNNs consistently converge to the variable binding circuit, thus indicating universality in the dynamics of RNNs. Building on these findings, we devise an algorithm to define a privileged basis, which reveals hidden neurons instrumental in the temporal storage and composition of variables, a mechanism vital for the successful generalization in these tasks. We show that the privileged basis enhances the interpretability of the learned parameters and hidden states of RNNs. Our work represents a step toward demystifying the internal mechanisms of RNNs and, for computational neuroscience, serves to bridge the gap between artificial neural networks and neural memory models.
翻訳日:2023-10-05 17:30:13 公開日:2023-10-03
# EGraFFBench:原子論シミュレーションのための等価なグラフニューラルネットワーク力場の評価

EGraFFBench: Evaluation of Equivariant Graph Neural Network Force Fields for Atomistic Simulations ( http://arxiv.org/abs/2310.02428v1 )

ライセンス: Link先を確認
Vaibhav Bihani, Utkarsh Pratiush, Sajid Mannan, Tao Du, Zhimin Chen, Santiago Miret, Matthieu Micoulaut, Morten M Smedskjaer, Sayan Ranu, N M Anoop Krishnan(参考訳) 等変グラフニューラルネットワーク力場(EGraFFs)は、グラフ固有の対称性を利用することで、原子系の複雑な相互作用をモデル化する大きな可能性を示してきた。 最近の研究は、グラフトランスフォーマーやメッセージパッシングといったアーキテクチャ革新と、原子間相互作用をモデル化する等分散に基づく帰納的バイアスを組み込んだ新しいアーキテクチャの開発に繋がった。 しかし,これらの展開EGraFFによる実世界の原子学シミュレーションの下流タスクの徹底的な評価は不十分である。 そこで本研究では,6つのEGraFFアルゴリズム (NequIP, Allegro, BOTNet, MACE, Equiformer, TorchMDNet) の系統的なベンチマークを行い,それらの能力と限界を現実的な原子論シミュレーションで理解することを目的とする。 ベンチマーク文献に基づく8つの既存データセットの徹底的な評価と分析に加えて,2つのベンチマークデータセット,4つの新しいメトリクスの提案,そして3つの新たな挑戦的タスクを新たにリリースした。 新しいデータセットとタスクは、異なる結晶構造、温度、および新しい分子の観点から、分布外データに対するegraffの性能を評価する。 興味深いことに、力学シミュレーションに基づくEGraFFモデルの評価は、エネルギーや力の誤差が低いことは、安定あるいは信頼性のあるシミュレーションや原子構造の忠実な複製を保証しないことを示している。 さらに、すべてのデータセットやタスクで、他のモデルよりも明確なモデルがないことも分かりました。 重要なことは、実世界のシミュレーションで使用できる力場の基礎モデルの開発の必要性を指摘し、分布外データセット上の全てのモデルの性能が信頼できないことを示している。 要約すると、この研究は原子シミュレーションの文脈で機械学習力場を評価するための厳密な枠組みを確立し、この分野におけるオープンな研究課題を指摘する。

Equivariant graph neural networks force fields (EGraFFs) have shown great promise in modelling complex interactions in atomic systems by exploiting the graphs' inherent symmetries. Recent works have led to a surge in the development of novel architectures that incorporate equivariance-based inductive biases alongside architectural innovations like graph transformers and message passing to model atomic interactions. However, thorough evaluations of these deploying EGraFFs for the downstream task of real-world atomistic simulations, is lacking. To this end, here we perform a systematic benchmarking of 6 EGraFF algorithms (NequIP, Allegro, BOTNet, MACE, Equiformer, TorchMDNet), with the aim of understanding their capabilities and limitations for realistic atomistic simulations. In addition to our thorough evaluation and analysis on eight existing datasets based on the benchmarking literature, we release two new benchmark datasets, propose four new metrics, and three new challenging tasks. The new datasets and tasks evaluate the performance of EGraFF to out-of-distribution data, in terms of different crystal structures, temperatures, and new molecules. Interestingly, evaluation of the EGraFF models based on dynamic simulations reveals that having a lower error on energy or force does not guarantee stable or reliable simulation or faithful replication of the atomic structures. Moreover, we find that no model clearly outperforms other models on all datasets and tasks. Importantly, we show that the performance of all the models on out-of-distribution datasets is unreliable, pointing to the need for the development of a foundation model for force fields that can be used in real-world simulations. In summary, this work establishes a rigorous framework for evaluating machine learning force fields in the context of atomic simulations and points to open research challenges within this domain.
翻訳日:2023-10-05 17:29:52 公開日:2023-10-03
# editval: ベンチマーク拡散に基づくテキストガイド画像編集手法

EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods ( http://arxiv.org/abs/2310.02426v1 )

ライセンス: Link先を確認
Samyadeep Basu, Mehrdad Saberi, Shweta Bhardwaj, Atoosa Malemir Chegini, Daniela Massiceti, Maziar Sanjabi, Shell Xu Hu, Soheil Feizi(参考訳) 近年,imagenやstable diffusionのような大規模拡散ベース生成モデルの印象的な機能を活用して,テキストガイド付き画像編集手法が多数開発されている。 しかし、標準化された評価プロトコルは、様々な種類の細かい編集方法を比較するために存在しない。 このギャップに対処するために,テキストガイド画像編集手法を定量的に評価するための標準ベンチマークであるeditvalを紹介する。 EditValは、画像のキュレートされたデータセットと、可能な編集タイプ13から抽出された各画像に対する編集可能な属性セットと、事前トレーニングされた視覚言語モデルを使用して、編集タイプ毎に生成された画像の忠実度を評価する自動評価パイプラインで構成される。 我々はEditValを用いて、SINE、Imagic、Instruct-Pix2Pixを含む8つの最先端拡散ベースの編集手法をベンチマークする。 そこで我々は、EditVallの自動評価パイプラインが、私たちが検討した編集タイプに対する人間の嗜好と強く相関していることを示す。 人間の研究と自動評価の両方から、以下のことが分かる。 (i)Instruct-Pix2Pix、Null-Text、SINEは、異なる編集タイプで平均されるトップパフォーマンスメソッドであるが、Instruct-Pix2PixとNull-Textはオリジナルの画像プロパティを保存することができる。 (ii)ほとんどの編集方法は、空間的な操作(例えば、オブジェクトの位置を変更する)を伴う編集では失敗する。 (iii)様々な編集タイプにまたがって個別にベストをランク付けする「ウィナー」メソッドは存在しない。 将来、より信頼性の高いテキストガイド画像編集ツールの開発に、我々のベンチマークが道を開くことを期待しています。 EditValと関連するコードと人為的なテンプレートは、https://deep-ml-research.github.io/editval/で公開します。

A plethora of text-guided image editing methods have recently been developed by leveraging the impressive capabilities of large-scale diffusion-based generative models such as Imagen and Stable Diffusion. A standardized evaluation protocol, however, does not exist to compare methods across different types of fine-grained edits. To address this gap, we introduce EditVal, a standardized benchmark for quantitatively evaluating text-guided image editing methods. EditVal consists of a curated dataset of images, a set of editable attributes for each image drawn from 13 possible edit types, and an automated evaluation pipeline that uses pre-trained vision-language models to assess the fidelity of generated images for each edit type. We use EditVal to benchmark 8 cutting-edge diffusion-based editing methods including SINE, Imagic and Instruct-Pix2Pix. We complement this with a large-scale human study where we show that EditVall's automated evaluation pipeline is strongly correlated with human-preferences for the edit types we considered. From both the human study and automated evaluation, we find that: (i) Instruct-Pix2Pix, Null-Text and SINE are the top-performing methods averaged across different edit types, however {\it only} Instruct-Pix2Pix and Null-Text are able to preserve original image properties; (ii) Most of the editing methods fail at edits involving spatial operations (e.g., changing the position of an object). (iii) There is no `winner' method which ranks the best individually across a range of different edit types. We hope that our benchmark can pave the way to developing more reliable text-guided image editing tools in the future. We will publicly release EditVal, and all associated code and human-study templates to support these research directions in https://deep-ml-research.github.io/editval/.
翻訳日:2023-10-05 17:29:22 公開日:2023-10-03
# 大きな言語モデルは優れたプライバシー保護学習者になれる

Large Language Models Can Be Good Privacy Protection Learners ( http://arxiv.org/abs/2310.02469v1 )

ライセンス: Link先を確認
Yijia Xiao, Yiqiao Jin, Yushi Bai, Yue Wu, Xianjun Yang, Xiao Luo, Wenchao Yu, Xujiang Zhao, Yanchi Liu, Haifeng Chen, Wei Wang, Wei Cheng(参考訳) 大規模言語モデル(llm)の普及により、専門言語モデルを作成するために、ドメイン固有のデータでそれらを微調整することへの関心が高まっている。 それでも、ドメイン固有の微調整データは、しばしば機密性のある個人識別情報(PII)を含む。 プライバシー保護なしにこのデータに直接微調整を施すと、漏洩のリスクが生じる。 この課題に対処するために、プライバシ保護言語モデル(PPLM)を導入します。これは、データプライバシを保護しながらドメイン固有の知識を効果的に注入する、微調整LDMのための新しいパラダイムです。 本研究は,モデル設計に関する理論的分析を行い,コーパスキュレーション,ペナルティに基づくトレーニング損失の不一致,インストラクションに基づくチューニングなど,様々な手法を考案する。 さまざまなデータセットやシナリオにわたる広範な実験が、私たちのアプローチの有効性を示しています。 特に、ポジティブな例とネガティブな例の両方の命令チューニングは有望な方法であり、モデルの知識を高めながらプライベートデータを効果的に保護する。 我々の研究は、プライバシー保護学習者としての大規模言語モデルの可能性を強調している。

The proliferation of Large Language Models (LLMs) has driven considerable interest in fine-tuning them with domain-specific data to create specialized language models. Nevertheless, such domain-specific fine-tuning data often contains sensitive personally identifiable information (PII). Direct fine-tuning LLMs on this data without privacy protection poses a risk of leakage. To address this challenge, we introduce Privacy Protection Language Models (PPLM), a novel paradigm for fine-tuning LLMs that effectively injects domain-specific knowledge while safeguarding data privacy. Our work offers a theoretical analysis for model design and delves into various techniques such as corpus curation, penalty-based unlikelihood in training loss, and instruction-based tuning, etc. Extensive experiments across diverse datasets and scenarios demonstrate the effectiveness of our approaches. In particular, instruction tuning with both positive and negative examples, stands out as a promising method, effectively protecting private data while enhancing the model's knowledge. Our work underscores the potential for Large Language Models as robust privacy protection learners.
翻訳日:2023-10-05 17:24:36 公開日:2023-10-03
# 計画認識と言語フィードバックの組み合わせによる人文の推論の改善

Improved Inference of Human Intent by Combining Plan Recognition and Language Feedback ( http://arxiv.org/abs/2310.02462v1 )

ライセンス: Link先を確認
Ifrah Idrees, Tian Yun, Naveen Sharma, Yunxin Deng, Nakul Gopalan, George Konidaris, Stefanie Tellex(参考訳) 会話支援ロボットは、食事の調理、エクササイズ、操作機械などの様々なタスクを遂行するために、特に認知障害を持つ人々を助けることができる。 しかし,人間と効果的に対話するには,ロボットは人間の行動のノイズの多い観察から人間の計画や目標を認識する必要がある。 計画におけるPGR(Plan and Goal Recognition)に関するこれまでの研究は、階層的タスクネットワーク(HTN)を用いてアクター/人間をモデル化してきた。 しかし,これらの手法は,言語などの自然なインタラクションによってユーザエンゲージメントが得られないため,不十分である。 さらに、ユーザー、特に認知障害のある人は、当初の計画から逸脱したことや、目標に向かって行われる準最適行動について知らせるメカニズムがない。 本稿では,ロボットが,騒音センサデータとサブオプティカルヒューマンアクションに関する明確化質問を行うことにより,目標認識のための対話 (d4gr) を実現する,部分可観測領域における計画と目標認識のための新しい枠組みを提案する。 キッチンとブロックの2つの模擬ドメイン上でのD4GRの性能を評価する。 言語フィードバックと世界状態情報の階層的タスクモデルを用いて,両領域の目標精度において,高感度雑音に対するD4GRフレームワークがHTNよりも1%高い性能を示すことを示す。 計画精度では、D4GRはキッチンドメインで4%、ブロックドメインで2%、HTNと比較してパフォーマンスが向上する。 ALWAYS-ASKのオラクルは、目標認識の3%、計画認識の7%で私たちの政策を上回ります。 D4GRは、オラクルのベースラインよりも68%少ない質問をする。 また,キッチン領域における実世界のロボットシナリオを実演し,実環境におけるd4grの計画と目標認識の改善を検証する。

Conversational assistive robots can aid people, especially those with cognitive impairments, to accomplish various tasks such as cooking meals, performing exercises, or operating machines. However, to interact with people effectively, robots must recognize human plans and goals from noisy observations of human actions, even when the user acts sub-optimally. Previous works on Plan and Goal Recognition (PGR) as planning have used hierarchical task networks (HTN) to model the actor/human. However, these techniques are insufficient as they do not have user engagement via natural modes of interaction such as language. Moreover, they have no mechanisms to let users, especially those with cognitive impairments, know of a deviation from their original plan or about any sub-optimal actions taken towards their goal. We propose a novel framework for plan and goal recognition in partially observable domains -- Dialogue for Goal Recognition (D4GR) enabling a robot to rectify its belief in human progress by asking clarification questions about noisy sensor data and sub-optimal human actions. We evaluate the performance of D4GR over two simulated domains -- kitchen and blocks domain. With language feedback and the world state information in a hierarchical task model, we show that D4GR framework for the highest sensor noise performs 1% better than HTN in goal accuracy in both domains. For plan accuracy, D4GR outperforms by 4% in the kitchen domain and 2% in the blocks domain in comparison to HTN. The ALWAYS-ASK oracle outperforms our policy by 3% in goal recognition and 7%in plan recognition. D4GR does so by asking 68% fewer questions than an oracle baseline. We also demonstrate a real-world robot scenario in the kitchen domain, validating the improved plan and goal recognition of D4GR in a realistic setting.
翻訳日:2023-10-05 17:24:19 公開日:2023-10-03
# モデル不確かさ下での分散型安全な強化学習:微分凸プログラミングによる単一レベルアプローチ

Distributionally Safe Reinforcement Learning under Model Uncertainty: A Single-Level Approach by Differentiable Convex Programming ( http://arxiv.org/abs/2310.02459v1 )

ライセンス: Link先を確認
Alaa Eddine Chriat and Chuangchuang Sun(参考訳) 安全保証は、急激なモデルの不確実性(例えば、分布シフト)、特にループ内の人間の存在によって、安全クリティカルな環境には相容れない。 しかし、安全学習に不確実性を取り込むことは、不確実性曖昧性集合の中で(最悪の場合)安全性制約が評価される二段階問題に自然に結びつく。 本稿では,ワッサースタイン計量で測定した分布変化下での安全性を強制する,扱いやすい分布的安全な強化学習枠組みを提案する。 移動性を改善するために,まず双対性理論を用いて分布シフトを計測する無限次元確率空間から有限次元パラメトリック空間へ低レベル最適化を変換する。 さらに、可微分凸計画により、2段階のセーフラーニング問題は、安全性を保証する凸二次プログラムと、予測された勾配の上昇と、最悪の場合の不確実性を同時に発見する2つの逐次計算効率のモジュールを持つ1段階の学習問題へとさらに縮小される。 このエンドツーエンドで安全な制約を備えた差別化可能なフレームワークは、私たちの知る限りでは、ディストリビューションの安全性に対処するための、最初の扱いやすい単一レベルソリューションです。 我々は, 複雑度が異なる一階・二階システムにおいて, 本手法を検証し, 安全性保証の大幅な改善を示す不確実性に依存しない政策と比較した。

Safety assurance is uncompromisable for safety-critical environments with the presence of drastic model uncertainties (e.g., distributional shift), especially with humans in the loop. However, incorporating uncertainty in safe learning will naturally lead to a bi-level problem, where at the lower level the (worst-case) safety constraint is evaluated within the uncertainty ambiguity set. In this paper, we present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift measured by a Wasserstein metric. To improve the tractability, we first use duality theory to transform the lower-level optimization from infinite-dimensional probability space where distributional shift is measured, to a finite-dimensional parametric space. Moreover, by differentiable convex programming, the bi-level safe learning problem is further reduced to a single-level one with two sequential computationally efficient modules: a convex quadratic program to guarantee safety followed by a projected gradient ascent to simultaneously find the worst-case uncertainty. This end-to-end differentiable framework with safety constraints, to the best of our knowledge, is the first tractable single-level solution to address distributional safety. We test our approach on first and second-order systems with varying complexities and compare our results with the uncertainty-agnostic policies, where our approach demonstrates a significant improvement on safety guarantees.
翻訳日:2023-10-05 17:23:49 公開日:2023-10-03
# 空の記号化問題--大規模言語モデルにおける「弁別」操作の明確化に向けて

The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising "Alignment" in Large Language Models ( http://arxiv.org/abs/2310.02457v1 )

ライセンス: Link先を確認
Hannah Rose Kirk, Bertie Vidgen, Paul R\"ottger, Scott A. Hale(参考訳) 本稿では,大言語モデル(llm)における「無視」の概念を,ポスト構造主義的社会政治理論のレンズを通して解決し,その並列性について考察する。 経験的データセットでアライメントの抽象概念をどのように運用するかに関する共通語彙を確立するために、我々は、分離するフレームワークを提案する。 1)モデル行動のどの次元が重要か 2) 意味や定義がこれらの次元にどのように記述されるか。 既存の経験的文献を配置し、どのパラダイムに従うべきかを決めるためのガイダンスを提供する。 この枠組みを通じて,LLMと人間集団の整合性の複雑さをコミュニティがナビゲートする上で,透明性と批判的評価の文化を育むことを目指す。

In this paper, we address the concept of "alignment" in large language models (LLMs) through the lens of post-structuralist socio-political theory, specifically examining its parallels to empty signifiers. To establish a shared vocabulary around how abstract concepts of alignment are operationalised in empirical datasets, we propose a framework that demarcates: 1) which dimensions of model behaviour are considered important, then 2) how meanings and definitions are ascribed to these dimensions, and by whom. We situate existing empirical literature and provide guidance on deciding which paradigm to follow. Through this framework, we aim to foster a culture of transparency and critical evaluation, aiding the community in navigating the complexities of aligning LLMs with human populations.
翻訳日:2023-10-05 17:23:21 公開日:2023-10-03
# 選好から最適なアドバンテージを学習し、それを逆戻りに間違える

Learning Optimal Advantage from Preferences and Mistaking it for Reward ( http://arxiv.org/abs/2310.02456v1 )

ライセンス: Link先を確認
W. Bradley Knox, Stephane Hatgis-Kessell, Sigurdur Orn Adalgeirsson, Serena Booth, Anca Dragan, Peter Stone, Scott Niekum(参考訳) 我々は,人間フィードバック(rlhf)からの強化学習において,軌道セグメントのペア上での人間の好みから報酬関数を学習するアルゴリズムを検討する。 最近の研究では、人間の好みは、それらのセグメント内の報酬またはそれらの部分的リターンのみに基づいて生成されると仮定している。 最近の研究は、この仮定の有効性に疑問を投げかけ、後悔に基づく代替の選好モデルを提案した。 本研究は,後悔から生じる部分的回帰に基づく選好の仮定結果について検討する。 学習関数は最適優位関数の近似であり、報酬関数ではなく、$\hat{A^*_r}$であると主張する。 特定の落とし穴に対処すると、この誤った仮定は特に有害ではなく、非常に形が整った報酬関数となる。 それでも、この$\hat{A^*_r}$の誤用は、$\hat{A^*_r}$のグリーディ最大化の適切かつ単純なアプローチよりも望ましい。 後悔の選好モデルの観点からは、RLHFを用いた現代大言語モデルの微調整のより明確な解釈も提供する。 本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。

We consider algorithms for learning reward functions from human preferences over pairs of trajectory segments, as used in reinforcement learning from human feedback (RLHF). Most recent work assumes that human preferences are generated based only upon the reward accrued within those segments, or their partial return. Recent work casts doubt on the validity of this assumption, proposing an alternative preference model based upon regret. We investigate the consequences of assuming preferences are based upon partial return when they actually arise from regret. We argue that the learned function is an approximation of the optimal advantage function, $\hat{A^*_r}$, not a reward function. We find that if a specific pitfall is addressed, this incorrect assumption is not particularly harmful, resulting in a highly shaped reward function. Nonetheless, this incorrect usage of $\hat{A^*_r}$ is less desirable than the appropriate and simpler approach of greedy maximization of $\hat{A^*_r}$. From the perspective of the regret preference model, we also provide a clearer interpretation of fine tuning contemporary large language models with RLHF. This paper overall provides insight regarding why learning under the partial return preference model tends to work so well in practice, despite it conforming poorly to how humans give preferences.
翻訳日:2023-10-05 17:23:01 公開日:2023-10-03
# トレーサブル都市計画のための二段階フローに基づく生成モデル

Dual-stage Flows-based Generative Modeling for Traceable Urban Planning ( http://arxiv.org/abs/2310.02453v1 )

ライセンス: Link先を確認
Xuanming Hu, Wei Fan, Dongjie Wang, Pengyang Wang, Yong Li, Yanjie Fu(参考訳) 近代の高速都市化により、対象地域の土地利用形態をデザインすることを目指す都市計画がますます重要になってきた。 しかし、人間のデザイナーが行う伝統的な都市計画は複雑で面倒な作業である。 ディープラーニングアルゴリズムの進歩により、研究者たちは自動計画技術の開発を始めた。 これらのモデルには有望な結果が出たが、未解決の制限がいくつか残っている。 1)都市機能ゾーンと構成の関係を無視し,異なる機能ゾーン間の関係を把握できないこと。 2) 解釈可能で安定な生成プロセス。 このような制約を克服するため,我々はDual-stage Urban Flows(DSUF)フレームワークという,フローの正規化に基づく新たな生成フレームワークを提案する。 具体的には、ゾーンレベルの都市計画フローを利用して、周囲の状況や人的ガイダンスに基づいて都市機能ゾーンを生成する。 次に,情報融合モジュールを用いて機能的ゾーン間の関係を捉え,異なる側面の情報を融合する。 第2段階は、融合情報に基づく土地利用構成を得るために、構成レベルの都市計画フローを使用することである。 我々は,提案手法が都市計画タスクの他の生成モデルよりも優れていることを示す実験をいくつか設計した。

Urban planning, which aims to design feasible land-use configurations for target areas, has become increasingly essential due to the high-speed urbanization process in the modern era. However, the traditional urban planning conducted by human designers can be a complex and onerous task. Thanks to the advancement of deep learning algorithms, researchers have started to develop automated planning techniques. While these models have exhibited promising results, they still grapple with a couple of unresolved limitations: 1) Ignoring the relationship between urban functional zones and configurations and failing to capture the relationship among different functional zones. 2) Less interpretable and stable generation process. To overcome these limitations, we propose a novel generative framework based on normalizing flows, namely Dual-stage Urban Flows (DSUF) framework. Specifically, the first stage is to utilize zone-level urban planning flows to generate urban functional zones based on given surrounding contexts and human guidance. Then we employ an Information Fusion Module to capture the relationship among functional zones and fuse the information of different aspects. The second stage is to use configuration-level urban planning flows to obtain land-use configurations derived from fused information. We design several experiments to indicate that our framework can outperform compared to other generative models for the urban planning task.
翻訳日:2023-10-05 17:22:25 公開日:2023-10-03
# 多施設臨床ノートのロバストテキスト分類における評価によるコンファウンディングのバックドア調整

Backdoor Adjustment of Confounding by Provenance for Robust Text Classification of Multi-institutional Clinical Notes ( http://arxiv.org/abs/2310.02451v1 )

ライセンス: Link先を確認
Xiruo Ding, Zhecheng Sheng, Meliha Yeti\c{s}gen, Serguei Pakhomov, Trevor Cohen(参考訳) 自然言語処理(nlp)法は臨床に広く適用されてきた。 機械学習と深層学習のアプローチは臨床NLPの性能向上に利用されてきた。 しかし、これらのアプローチではトレーニングに十分な大規模なデータセットが必要であり、トレーニングされたモデルではサイト間での転送が不十分であることが示されている。 これらの問題は、正確でポータブルなモデルのためのさまざまな機関間でのデータ収集と統合の促進につながった。 しかし、これはconfounding by provenanceと呼ばれるバイアスの一形態を導入することができる。 デプロイ時にソース固有のデータ分布が異なる場合、モデルのパフォーマンスに悪影響を及ぼす可能性がある。 本研究では, 薬物乱用に関する注釈付き臨床ノートの多箇所データセットにおいて, テキスト分類におけるバックドア調整の有用性を評価する。 分布シフトに対するロバスト性を測定するために考案された評価フレームワークを用いて,バックドア調整の有用性を評価する。 以上の結果から,バックドアの調整はコンバウンディングシフトを効果的に軽減できることが示された。

Natural Language Processing (NLP) methods have been broadly applied to clinical tasks. Machine learning and deep learning approaches have been used to improve the performance of clinical NLP. However, these approaches require sufficiently large datasets for training, and trained models have been shown to transfer poorly across sites. These issues have led to the promotion of data collection and integration across different institutions for accurate and portable models. However, this can introduce a form of bias called confounding by provenance. When source-specific data distributions differ at deployment, this may harm model performance. To address this issue, we evaluate the utility of backdoor adjustment for text classification in a multi-site dataset of clinical notes annotated for mentions of substance abuse. Using an evaluation framework devised to measure robustness to distributional shifts, we assess the utility of backdoor adjustment. Our results indicate that backdoor adjustment can effectively mitigate for confounding shift.
翻訳日:2023-10-05 17:21:26 公開日:2023-10-03
# Feather: 効果的なDNNスカラー化のためのエレガントなソリューション

Feather: An Elegant Solution to Effective DNN Sparsification ( http://arxiv.org/abs/2310.02448v1 )

ライセンス: Link先を確認
Athanasios Glentis Georgoulakis, George Retsinas, Petros Maragos(参考訳) ニューラルネットワークのプルーニングは、リソース制限環境に適したコンパクトで効率的なモデルを生成する上で、ハイパフォーマンスを保ちながら、ますます普及している方法である。 マルチサイクルトレーニングと微調整のプロセスを用いて刈り取りを行うことができるが、最近の傾向はトレーニングの標準過程におけるスパーシフィケーションプロセスを含んでいる。 そこで本研究では,強力なストレートスルー推定器をコアとする効率的なスパーストレーニングモジュールであるfeatherと,新たなしきい値演算子と勾配スケーリング手法を組み合わせることで,堅牢でアウト・オブ・ボックスのスパース化性能を実現する。 フェザーの有効性と適応性は、CIFARデータセット上の様々なアーキテクチャを用いて実証され、ImageNetでは、ResNet-50アーキテクチャを使って最先端のTop-1検証の精度を達成し、より複雑で計算的に重いものを含む既存の手法をかなり上回っている。 コードはhttps://github.com/athglentis/featherで公開されている。

Neural Network pruning is an increasingly popular way for producing compact and efficient models, suitable for resource-limited environments, while preserving high performance. While the pruning can be performed using a multi-cycle training and fine-tuning process, the recent trend is to encompass the sparsification process during the standard course of training. To this end, we introduce Feather, an efficient sparse training module utilizing the powerful Straight-Through Estimator as its core, coupled with a new thresholding operator and a gradient scaling technique, enabling robust, out-of-the-box sparsification performance. Feather's effectiveness and adaptability is demonstrated using various architectures on the CIFAR dataset, while on ImageNet it achieves state-of-the-art Top-1 validation accuracy using the ResNet-50 architecture, surpassing existing methods, including more complex and computationally heavy ones, by a considerable margin. Code is publicly available at https://github.com/athglentis/feather .
翻訳日:2023-10-05 17:21:09 公開日:2023-10-03
# 機械学習がNYC地下鉄のナビゲーションを安全かつ速くする

Machine learning assist nyc subway navigation safer and faster ( http://arxiv.org/abs/2310.02447v1 )

ライセンス: Link先を確認
Wencheng Bao and Shi Feng(参考訳) GoogleやApple Mapsのようなメインストリームナビゲーションソフトウェアは、安全を優先するルートを提供していないことが多い。 しかし、多くの人にとって安全が最重要課題である。 私たちの目標は安全と効率のバランスをとることです。 これを実現するために、最も短いパスと最も安全なルートの両方を考慮した整数プログラミングモデルを開発しています。 我々は,汎用線形モデル,線形回帰,再帰ニューラルネットワークなどの手法を用いて,安全係数の導出に機械学習を利用する。 我々の評価は、様々な地下鉄駅のルート平均角誤差(RMSE)に基づいており、安全係数推定の最も正確なモデルを特定するのに役立つ。 さらに,異なる短経路アルゴリズムの包括的レビューを行い,時間複雑性と実世界のデータに基づいて評価し,安全性と時間効率の両立における適合性について検討する。

Mainstream navigation software, like Google and Apple Maps, often lacks the ability to provide routes prioritizing safety. However, safety remains a paramount concern for many. Our aim is to strike a balance between safety and efficiency. To achieve this, we're devising an Integer Programming model that takes into account both the shortest path and the safest route. We will harness machine learning to derive safety coefficients, employing methodologies such as generalized linear models, linear regression, and recurrent neural networks. Our evaluation will be based on the Root Mean Square Error (RMSE) across various subway stations, helping us identify the most accurate model for safety coefficient estimation. Furthermore, we'll conduct a comprehensive review of different shortest-path algorithms, assessing them based on time complexity and real-world data to determine their appropriateness in merging both safety and time efficiency.
翻訳日:2023-10-05 17:20:36 公開日:2023-10-03
# 低リソース言語 Jailbreak GPT-4

Low-Resource Languages Jailbreak GPT-4 ( http://arxiv.org/abs/2310.02446v1 )

ライセンス: Link先を確認
Zheng-Xin Yong, Cristina Menghini and Stephen H. Bach(参考訳) 大規模言語モデル(LLM)のAI安全性トレーニングと再チーム化は、安全でないコンテンツの生成を緩和する手段である。 本研究は,安全訓練データの言語的不平等から生じる,これらの安全メカニズムの固有の言語横断的脆弱性を,安全でない英語入力を低リソース言語に翻訳することでgpt-4の安全ガードを回避できることを明らかにした。 AdvBenchmarkでは、GPT-4は、安全でない翻訳された入力と関わり、ユーザーの有害な目標に向けて、アクション可能なアイテムを提供する。 他のハイ/ミッドリソース言語は攻撃成功率が著しく低いため、言語間の脆弱性は主に低リソース言語に適用される。 以前は、低リソース言語での限られたトレーニングは、主にこれらの言語の話者に影響し、技術的格差を引き起こしていた。 しかし、我々の研究は重大なシフトを浮き彫りにしている。この不足は、現在すべてのllmsユーザーにリスクをもたらしている。 公開の翻訳APIにより、誰でもLLMの安全性の脆弱性を悪用できる。 それゆえ,我々の研究は,幅広い言語範囲の堅牢な多言語セーフガードを開発するための,より包括的な赤チーム活動を求めている。

AI safety training and red-teaming of large language models (LLMs) are measures to mitigate the generation of unsafe content. Our work exposes the inherent cross-lingual vulnerability of these safety mechanisms, resulting from the linguistic inequality of safety training data, by successfully circumventing GPT-4's safeguard through translating unsafe English inputs into low-resource languages. On the AdvBenchmark, GPT-4 engages with the unsafe translated inputs and provides actionable items that can get the users towards their harmful goals 79% of the time, which is on par with or even surpassing state-of-the-art jailbreaking attacks. Other high-/mid-resource languages have significantly lower attack success rate, which suggests that the cross-lingual vulnerability mainly applies to low-resource languages. Previously, limited training on low-resource languages primarily affects speakers of those languages, causing technological disparities. However, our work highlights a crucial shift: this deficiency now poses a risk to all LLMs users. Publicly available translation APIs enable anyone to exploit LLMs' safety vulnerabilities. Therefore, our work calls for a more holistic red-teaming efforts to develop robust multilingual safeguards with wide language coverage.
翻訳日:2023-10-05 17:20:20 公開日:2023-10-03
# 原子アンサンブルにおける同時スピンスクイーズと光スクイーズ

Concurrent spin squeezing and light squeezing in an atomic ensemble ( http://arxiv.org/abs/2310.02493v1 )

ライセンス: Link先を確認
Shenchao Jin, Junlei Duan, Youwei Zhang, Xichang Zhang, Han Bao, Heng Shen, Liantuan Xiao, Suotang Jia, Mingfeng Wang, and Yanhong Xiao(参考訳) シュイーズドスピン状態とシュイーズド光はどちらも量子論と量子情報科学の重要な資源であるが、これまでは実験的に研究されてきた。 1つの実験でこれら2種類の量子状態を同時に生成することは興味深い目標であり、新しい視点から原子と光の類似性と区別の研究を可能にする可能性がある。 本稿では,対称原子-光相互作用ハミルトニアンを巧みに設計し,熱原子アンサンブル中でのスピンスクイージングと光スクイージングを同時に行う実験を行った。 スクイーズ過程は決定論的であり、光場と集合原子スピンに対する固定されたスクイーズ方向を与える。 さらに、圧縮光モードは1つの空間モードの多重周波数側バンドに配置される。 この新しいタイプの二重圧縮状態は、量子情報科学と技術にとって有望な資源である可能性がある。 我々の手法は、オプティメカル原子系やコールド原子系などの他の量子プラットフォームにも拡張できる。

Squeezed spin states and squeezed light are both key resources for quantum metrology and quantum information science, but have largely been separately investigated experimentally so far. Simultaneous generation of these two types of quantum states in one experiment setup is an intriguing goal, and could also enable the study of the analogies and distinctions between atoms and light from a new perspective. Here we report an experimental demonstration of concurrent spin squeezing and light squeezing in a hot atomic ensemble, by judiciously engineering a symmetric atom-light interaction Hamiltonian. The squeezing process is deterministic, yielding fixed squeezing directions for the light field and the collective atomic spin. Furthermore, the squeezed light modes lie in the multiple frequency sidebands of a single spatial mode. This novel type of dual squeezed state may be a promising resource for quantum information science and technologies. Our method can be extended to other quantum platforms such as optomechanical and cold atom systems.
翻訳日:2023-10-05 17:12:20 公開日:2023-10-03
# eye fairness: 公平な眼疾患スクリーニングと公平性スケーリングのための大規模3dイメージングデータセット

Eye Fairness: A Large-Scale 3D Imaging Dataset for Equitable Eye Diseases Screening and Fair Identity Scaling ( http://arxiv.org/abs/2310.02492v1 )

ライセンス: Link先を確認
Yan Luo, Yu Tian, Min Shi, Tobias Elze, Mengyu Wang(参考訳) 機械学習の公平性や公平性は社会的な幸福にとって非常に重要であるが、公共データセットの制限は、特に医学の分野でその進歩を妨げる。 医学におけるフェアネスが、フェアネス学習の応用にとって最も重要な分野であることは間違いない。 現在、フェアネス学習のための3Dイメージングデータを備えた大規模な医療データセットは存在せず、現代の診療所における3Dイメージングデータは、疾患診断の標準的なテストである。 さらに、既存の医療フェアネスデータセットは実際に再利用されたデータセットであるため、通常は年齢、性別、人種の3つのアイデンティティ属性を持つ人口統計学的アイデンティティ属性を持つ。 このギャップに対処するため,高齢者関連黄斑変性,糖尿病網膜症,緑内障など3大眼疾患を対象とする3万名(Harvard-EF)の眼フェアネスデータセットを導入した。 ハーバードefデータセットには、2d fundus写真と3d光コヒーレンス断層撮影の両方が含まれており、年齢、性別、人種、民族、好みの言語、配偶者ステータスの6つの属性がある。 また、モデルフェア性を改善するために、グループと個別のスケーリングを組み合わせるフェアアイデンティティスケーリング(fis)アプローチを提案する。 当社のfisアプローチは,2次元および3次元画像データを用いて,人種,性別,民族の公平性タスクにおいて優れたパフォーマンスを示す,最先端のフェアネス学習手法と比較し,ハーバード大学-efデータセットのフェアネス学習への応用を実証する。 そこで本研究では,各モデル間の公平性比較を容易にするために,性能尺度による不均等性尺度を提案する。 データセットとコードは \url{https://ophai.hms.harvard.edu/datasets/harvard-ef30k} で公開されている。

Fairness or equity in machine learning is profoundly important for societal well-being, but limited public datasets hinder its progress, especially in the area of medicine. It is undeniable that fairness in medicine is one of the most important areas for fairness learning's applications. Currently, no large-scale public medical datasets with 3D imaging data for fairness learning are available, while 3D imaging data in modern clinics are standard tests for disease diagnosis. In addition, existing medical fairness datasets are actually repurposed datasets, and therefore they typically have limited demographic identity attributes with at most three identity attributes of age, gender, and race for fairness modeling. To address this gap, we introduce our Eye Fairness dataset with 30,000 subjects (Harvard-EF) covering three major eye diseases including age-related macular degeneration, diabetic retinopathy, and glaucoma affecting 380 million patients globally. Our Harvard-EF dataset includes both 2D fundus photos and 3D optical coherence tomography scans with six demographic identity attributes including age, gender, race, ethnicity, preferred language, and marital status. We also propose a fair identity scaling (FIS) approach combining group and individual scaling together to improve model fairness. Our FIS approach is compared with various state-of-the-art fairness learning methods with superior performance in the racial, gender, and ethnicity fairness tasks with 2D and 3D imaging data, which demonstrate the utilities of our Harvard-EF dataset for fairness learning. To facilitate fairness comparisons between different models, we propose performance-scaled disparity measures, which can be used to compare model fairness accounting for overall performance levels. The dataset and code are publicly accessible via \url{https://ophai.hms.harvard.edu/datasets/harvard-ef30k}.
翻訳日:2023-10-05 17:12:04 公開日:2023-10-03
# DON-LSTM:DeepONetsと長期記憶ニューラルネットワークを用いた多解学習

DON-LSTM: Multi-Resolution Learning with DeepONets and Long Short-Term Memory Neural Networks ( http://arxiv.org/abs/2310.02491v1 )

ライセンス: Link先を確認
Katarzyna Micha{\l}owska and Somdatta Goswami and George Em Karniadakis and Signe Riemer-S{\o}rensen(参考訳) ディープオペレータネットワーク(deeponets、dons)は、マルチレゾリューションデータでトレーニングされる能力において、従来のニューラルネットワークと異なるアドバンテージを提供する。 この性質は、高分解能の測定が困難である実世界のシナリオでは特に重要であり、低分解能データはより容易に利用できる。 それにもかかわらず、deeponetsだけでは、他の最先端アルゴリズムと比較して、長いシーケンスに対する依存関係の捕捉と維持に苦労することが多い。 本稿では,長い短期記憶ネットワーク(LSTM)でDeepONetを拡張した新しいアーキテクチャDON-LSTMを提案する。 これら2つのアーキテクチャを組み合わせることで、マルチレゾリューションデータを活用するための明示的なメカニズムと、長いシーケンスにおける時間的依存関係をキャプチャする。 提案手法は,複数非線形システムの長期進化モデリングにおいて,提案手法が一般化誤差を著しく低減し,バニラ法に比べて高分解能サンプルを少なくすることを示した。

Deep operator networks (DeepONets, DONs) offer a distinct advantage over traditional neural networks in their ability to be trained on multi-resolution data. This property becomes especially relevant in real-world scenarios where high-resolution measurements are difficult to obtain, while low-resolution data is more readily available. Nevertheless, DeepONets alone often struggle to capture and maintain dependencies over long sequences compared to other state-of-the-art algorithms. We propose a novel architecture, named DON-LSTM, which extends the DeepONet with a long short-term memory network (LSTM). Combining these two architectures, we equip the network with explicit mechanisms to leverage multi-resolution data, as well as capture temporal dependencies in long sequences. We test our method on long-time-evolution modeling of multiple non-linear systems and show that the proposed multi-resolution DON-LSTM achieves significantly lower generalization error and requires fewer high-resolution samples compared to its vanilla counterparts.
翻訳日:2023-10-05 17:11:24 公開日:2023-10-03
# Residual Transformer: トランスフォーマー層のためのウェイトシェアリングによる残差低ランク学習

ResidualTransformer: Residual Low-rank Learning with Weight-sharing for Transformer Layers ( http://arxiv.org/abs/2310.02489v1 )

ライセンス: Link先を確認
Yiming Wang, Jinyu Li(参考訳) 常時オンのデバイスのメモリ制約は、これらのデバイスに音声処理モデルをデプロイする際の大きな懸念の1つである。 十分な量のデータをトレーニングした大規模モデルの方が一般的にはパフォーマンスがよいが、デバイスメモリに適合させるのは難しい課題だ。 本稿では,トランスフォーマーエンコーダ層にまたがるモデルの重みをパラメータ化し,特別な重み構成と構造を仮定することにより,モデルサイズを低減することを目的とする。 より具体的には、ResNetと最近のLoRAの研究にインスパイアされたResidual Transformerというアプローチを提案し、Transformer層の各重み行列が構成される。 1)隣接層との共有フルランクコンポーネント、及び 2) 独自の低ランクなコンポーネント自体。 低ランクの行列は、少量のモデルサイズの増加しか説明できない。 さらに,低ランク行列のモデリング能力を向上させるために対角重量行列を追加する。 10k時間音声認識と音声翻訳タスクの実験により、トランスコーダのサイズを約3倍小さくし、性能を低下させることができた。

Memory constraint of always-on devices is one of the major concerns when deploying speech processing models on these devices. While larger models trained with sufficiently large amount of data generally perform better, making them fit in the device memory is a demanding challenge. In this paper, we aim to reduce model size by reparameterizing model weights across Transformer encoder layers and assuming a special weight composition and structure. More specifically, inspired by ResNet and the more recent LoRA work, we propose an approach named ResidualTransformer, where each weight matrix in a Transformer layer comprises 1) a shared full-rank component with its adjacent layers, and 2) a unique low-rank component to itself. The low-rank matrices only account for a small amount of model size increase. In addition, we add diagonal weight matrices to improve modeling capacity of the low-rank matrices. Experiments of our 10k-hour speech recognition and speech translation tasks show that the Transformer encoder size can be reduced by ~3X with very slight performance degradation.
翻訳日:2023-10-05 17:11:05 公開日:2023-10-03
# OCU-Net: 口腔癌セグメンテーション強化のための新しいU-Netアーキテクチャ

OCU-Net: A Novel U-Net Architecture for Enhanced Oral Cancer Segmentation ( http://arxiv.org/abs/2310.02486v1 )

ライセンス: Link先を確認
Ahmed Albishri, Syed Jawad Hussain Shah, Yugyung Lee, Rong Wang(参考訳) 口腔癌の正確な検出は患者の予後を改善する上で重要である。 しかし、この分野は、2つの大きな課題に直面している。深層学習に基づく画像分割研究の不足、特に口腔癌を対象とする研究、および注釈付きデータの欠如である。 本研究は, ヘマトキシリンおよびエオシン(H&E)染色画像データセットの口腔癌検出専用のU-Net画像セグメンテーションアーキテクチャであるOCU-Netを提案する。 OCU-NetはChannel and Space Attention Fusion (CSAF)モジュールのような高度なディープラーニングモジュールを組み込んでいる。 さらにocu-netはswish-and-excite (se) attention module, atrous spatial pyramid pooling (aspp) module, residual blocks, multi-scale fusionといった他の革新的なコンポーネントを統合している。 本研究で用いた2つのデータセットの口腔癌セグメンテーションにおいて,これらのモジュールの組み込みは優れた性能を示した。 さらに,画像ネットワークを事前学習したMobileNet-V2モデルをOCU-Netのバックボーンとして有効に活用し,最先端の成果を得られる拡張バージョンであるOCU-Netmを開発した。 包括的評価は、OCU-NetとOCU-Netmが既存のセグメンテーション法より優れており、OCDCとORCAデータセットからのH&E画像中の癌細胞を同定する精度を強調していることを示している。

Accurate detection of oral cancer is crucial for improving patient outcomes. However, the field faces two key challenges: the scarcity of deep learning-based image segmentation research specifically targeting oral cancer and the lack of annotated data. Our study proposes OCU-Net, a pioneering U-Net image segmentation architecture exclusively designed to detect oral cancer in hematoxylin and eosin (H&E) stained image datasets. OCU-Net incorporates advanced deep learning modules, such as the Channel and Spatial Attention Fusion (CSAF) module, a novel and innovative feature that emphasizes important channel and spatial areas in H&E images while exploring contextual information. In addition, OCU-Net integrates other innovative components such as Squeeze-and-Excite (SE) attention module, Atrous Spatial Pyramid Pooling (ASPP) module, residual blocks, and multi-scale fusion. The incorporation of these modules showed superior performance for oral cancer segmentation for two datasets used in this research. Furthermore, we effectively utilized the efficient ImageNet pre-trained MobileNet-V2 model as a backbone of our OCU-Net to create OCU-Netm, an enhanced version achieving state-of-the-art results. Comprehensive evaluation demonstrates that OCU-Net and OCU-Netm outperformed existing segmentation methods, highlighting their precision in identifying cancer cells in H&E images from OCDC and ORCA datasets.
翻訳日:2023-10-05 17:10:45 公開日:2023-10-03
# 対人訓練における違いの分別

Splitting the Difference on Adversarial Training ( http://arxiv.org/abs/2310.02480v1 )

ライセンス: Link先を確認
Matan Levi, Aryeh Kontorovich(参考訳) 逆例の存在は、ディープニューラルネットワークの基本的な弱点を示している。 このような例に対する最も効果的な防御の1つ、敵の訓練は、ある程度の堅牢性を持つ訓練モデルを必要とする。 ほとんどの敵の訓練方法は、クリーンな例と混乱した例の両方を包含する共通の決定境界を見つけるモデルを学ぶことを目的としている。 本研究では、各クラスの摂動例を個別のクラスとして扱い、各クラスを「クリーン」と「逆」の2つのクラスに事実上分割することで、根本的に異なるアプローチをとる。 この分割は学習するクラスの数を2倍にするが、同時に決定境界を大幅に単純化する。 我々は,我々のアプローチが有益と期待できる条件に光を当てる理論的可能性論を提示した。 同様に、CIFAR-10では、複数のタスクにまたがる有意な頑健さとともに、最適または準最適自然精度(例えば、近最適自然精度9.01 %$)を得る。 このような最適に近い自然な精度を実現する能力は、かなりのレベルの堅牢性を維持しつつも、自然の精度がプレミアムな実世界のアプリケーションに適用できる。 全体として、我々の主な貢献は、その自然な精度を小さく、あるいは無視できる程度にしか低下しない分類器に、かなりのロバスト性を与える一般的な方法である。

The existence of adversarial examples points to a basic weakness of deep neural networks. One of the most effective defenses against such examples, adversarial training, entails training models with some degree of robustness, usually at the expense of a degraded natural accuracy. Most adversarial training methods aim to learn a model that finds, for each class, a common decision boundary encompassing both the clean and perturbed examples. In this work, we take a fundamentally different approach by treating the perturbed examples of each class as a separate class to be learned, effectively splitting each class into two classes: "clean" and "adversarial." This split doubles the number of classes to be learned, but at the same time considerably simplifies the decision boundaries. We provide a theoretical plausibility argument that sheds some light on the conditions under which our approach can be expected to be beneficial. Likewise, we empirically demonstrate that our method learns robust models while attaining optimal or near-optimal natural accuracy, e.g., on CIFAR-10 we obtain near-optimal natural accuracy of $95.01\%$ alongside significant robustness across multiple tasks. The ability to achieve such near-optimal natural accuracy, while maintaining a significant level of robustness, makes our method applicable to real-world applications where natural accuracy is at a premium. As a whole, our main contribution is a general method that confers a significant level of robustness upon classifiers with only minor or negligible degradation of their natural accuracy.
翻訳日:2023-10-05 17:10:16 公開日:2023-10-03
# 量子の「フィンプリント」への取り組み--量子アルゴリズムと地質フラクチャーネットワークのための状態準備と情報抽出

Addressing Quantum's "Fine Print": State Preparation and Information Extraction for Quantum Algorithms and Geologic Fracture Networks ( http://arxiv.org/abs/2310.02479v1 )

ライセンス: Link先を確認
Jessie M. Henderson, John Kath, John K. Golden, Allon G. Percus, Daniel O'Malley(参考訳) 量子アルゴリズムは、地質破壊流をモデル化するものを含む、線形システムの特定のクラスを解決するための指数関数的なスピードアップを提供する。 しかし、この革命的な効率向上は困難を伴わない。 量子アルゴリズムは、問題はアルゴリズム固有の制約だけでなく、アプリケーション固有の制約も満たす必要がある。 さもなくば、アルゴリズムの創発によって注意深く達成された量子優位性は完全に否定できる。 地質破壊流の量子アルゴリズムを扱う以前の研究は、仮定を漸進的に取り除きながら、コアアルゴリズム的アプローチを示している。 本研究は, 効率的なシステム状態作成と効率的な情報抽出という, 量子アルゴリズムによる地質破壊流システムに対する2つの更なる要求に対処する。 それぞれに対処する私たちのアプローチは、全体的な指数関数的なスピードアップと一致しています。

Quantum algorithms provide an exponential speedup for solving certain classes of linear systems, including those that model geologic fracture flow. However, this revolutionary gain in efficiency does not come without difficulty. Quantum algorithms require that problems satisfy not only algorithm-specific constraints, but also application-specific ones. Otherwise, the quantum advantage carefully attained through algorithmic ingenuity can be entirely negated. Previous work addressing quantum algorithms for geologic fracture flow has illustrated core algorithmic approaches while incrementally removing assumptions. This work addresses two further requirements for solving geologic fracture flow systems with quantum algorithms: efficient system state preparation and efficient information extraction. Our approach to addressing each is consistent with an overall exponential speed-up.
翻訳日:2023-10-05 17:09:47 公開日:2023-10-03
# ML4EJ:解釈型機械学習を用いた環境不正形成における都市の特徴の役割のデコード

ML4EJ: Decoding the Role of Urban Features in Shaping Environmental Injustice Using Interpretable Machine Learning ( http://arxiv.org/abs/2310.02476v1 )

ライセンス: Link先を確認
Yu-Hsuan Ho, Zhewei Liu, Cheng-Chun Lee, Ali Mostafavi(参考訳) 環境ハザードの曝露とその関連環境不正問題を形成する重要な要因を理解することは、公平な政策措置の策定に不可欠である。 環境不公平に関する伝統的な視点は、主に社会経済的な側面に焦点を合わせており、しばしば異質な都市特性の影響を見下ろしている。 この限定的な見解は、環境正義の複雑な性質と都市デザインの特徴との関係の包括的理解を妨げる可能性がある。 このギャップに対処するために, 大気汚染, 都市熱, 洪水の3つの主要な危険因子の暴露格差に対する様々な都市特性とその非線形相互作用の影響を解釈可能な機械学習モデルを構築した。 この分析は、ランダムフォレストとXGBoostを使って、アメリカ合衆国の6つの大都市圏のデータでモデルを訓練し、テストする。 この性能は、都市の特徴のばらつきが環境ハザードレベルのばらつきを形作る程度を測定するために使用される。 さらに, 特徴重要度の分析により, 危険範囲を形作る最も顕著な都市の特徴として, 社会的デデノグラフィの特徴が明らかになった。 インフラ分布と土地被覆に関する特徴は, 都市熱と大気汚染の暴露において比較的重要である。 さらに,各領域におけるモデル転送可能性の評価を行った。 その結果, 移動性は限定的であり, 危険と地域間の複雑な差異や, 都市の特徴が危険にさらされる方法が強調された。 本研究から得られた知見は,都市の特徴と環境ハザード曝露格差との相互作用との関係に関する新たな視点を示し,社会的公平性と環境不公平性の問題を改善するため,より統合的な都市デザイン政策の展開を告げるものである。

Understanding the key factors shaping environmental hazard exposures and their associated environmental injustice issues is vital for formulating equitable policy measures. Traditional perspectives on environmental injustice have primarily focused on the socioeconomic dimensions, often overlooking the influence of heterogeneous urban characteristics. This limited view may obstruct a comprehensive understanding of the complex nature of environmental justice and its relationship with urban design features. To address this gap, this study creates an interpretable machine learning model to examine the effects of various urban features and their non-linear interactions to the exposure disparities of three primary hazards: air pollution, urban heat, and flooding. The analysis trains and tests models with data from six metropolitan counties in the United States using Random Forest and XGBoost. The performance is used to measure the extent to which variations of urban features shape disparities in environmental hazard levels. In addition, the analysis of feature importance reveals features related to social-demographic characteristics as the most prominent urban features that shape hazard extent. Features related to infrastructure distribution and land cover are relatively important for urban heat and air pollution exposure respectively. Moreover, we evaluate the models' transferability across different regions and hazards. The results highlight limited transferability, underscoring the intricate differences among hazards and regions and the way in which urban features shape hazard exposures. The insights gleaned from this study offer fresh perspectives on the relationship among urban features and their interplay with environmental hazard exposure disparities, informing the development of more integrated urban design policies to enhance social equity and environmental injustice issues.
翻訳日:2023-10-05 17:09:37 公開日:2023-10-03
# プロンプトに基づく効率的な時間領域一般化

Prompting-based Efficient Temporal Domain Generalization ( http://arxiv.org/abs/2310.02473v1 )

ライセンス: Link先を確認
Sepidehsadat Hosseini, Mengyao Zhai, Hossein Hajimirsadegh, Frederick Tung(参考訳) 機械学習は伝統的に、トレーニングとテストデータは独立して同一に分散されていると仮定する。 しかし、多くの実世界の環境では、データ分布は時間とともに変化し、将来の時間における訓練されたモデルの一般化が不十分になる。 本稿では,パラメータ効率が良く,時間効率が良く,トレーニング中に対象領域データ(すなわち将来的な時間)へのアクセスを必要としない,時間領域一般化のための新しいプロンプトベースアプローチを提案する。 本手法は, 対象の事前学習モデルに時間的ドリフトを適応させ, 全球的プロンプト, ドメイン固有プロンプト, および時間的ダイナミクスを捉えたドリフト認識プロンプトを学習する。 分類、回帰、時系列予測といった様々なタスクに互換性があり、時間領域の一般化において新しい最先端のベンチマークを設定する。 コードリポジトリはパブリックに共有される。

Machine learning traditionally assumes that training and testing data are distributed independently and identically. However, in many real-world settings, the data distribution can shift over time, leading to poor generalization of trained models in future time periods. Our paper presents a novel prompting-based approach to temporal domain generalization that is parameter-efficient, time-efficient, and does not require access to the target domain data (i.e., unseen future time periods) during training. Our method adapts a target pre-trained model to temporal drift by learning global prompts, domain-specific prompts, and drift-aware prompts that capture underlying temporal dynamics. It is compatible across diverse tasks, such as classification, regression, and time series forecasting, and sets a new state-of-the-art benchmark in temporal domain generalization. The code repository will be publicly shared.
翻訳日:2023-10-05 17:09:07 公開日:2023-10-03
# エンタングルメント証人による公的な検証可能な測定のみのブラインド量子計算

Public verifiable measurement-only blind quantum computation based on entanglement witnesses ( http://arxiv.org/abs/2310.02922v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Zi-Xian Li, Wen-Bo Li, Qi Yang(参考訳) 最近、satoらは、サードパーティのarbiterを挿入することで、公開検証可能なブラインド量子計算(bqc)プロトコルを提案した。 しかし、事前にアービターが決定され、プロセス全体に参加するため、ある意味では公に検証できるものではない。 本稿では,測定専用BQCのための公開検証プロトコルを提案する。 任意の状態と2色グラフのグラフ状態の間の忠実度を、グラフ状態の絡み合いの証人を測定することによって推定し、準備されたグラフ状態の正しさを検証する。 従来のプロトコルと比較して、我々のプロトコルは、他のランダムクライアントがパブリックな検証を実行できるようにすることで、真に検証可能である。 局所的な測定回数は O(n^3*log {n}) であり、グラフ状態のコピーは O(n^2*log{n}) である。

Recently, Sato et al. proposed an public verifiable blind quantum computation (BQC) protocol by inserting a third-party arbiter. However, it is not true public verifiable in a sense, because the arbiter is determined in advance and participates in the whole process. In this paper, a public verifiable protocol for measurement-only BQC is proposed. The fidelity between arbitrary states and the graph states of 2-colorable graphs is estimated by measuring the entanglement witnesses of the graph states,so as to verify the correctness of the prepared graph states. Compared with the previous protocol, our protocol is public verifiable in the true sense by allowing other random clients to execute the public verification. It also has greater advantages in the efficiency, where the number of local measurements is O(n^3*log {n}) and graph states' copies is O(n^2*log{n}).
翻訳日:2023-10-05 14:06:48 公開日:2023-10-03
# e$、a$、dirac方程式およびプロパゲータ

The $E$, the $A$, the Dirac equation and the propagator ( http://arxiv.org/abs/1801.08393v9 )

ライセンス: Link先を確認
Navin Khaneja(参考訳) M\o{}ller 散乱を考える。 光子の交換による運動量$p$と$-p$散乱を持つ電子は、$z$方向に$p+q$と$-(p+q)$に等しい。 散乱振幅はよく知られており、Feynmann propogator $ M = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac {\bar{u}(p+q) \gamma^{\mu} u(p) \ \bar{u}(-(p+q)) \gamma_{\mu} u(-p)}{q^2}$である。 しかし、これは完全には正しくない。 z$方向に光子モーメントを交換するため、2つの光子分極$x,y$を持つので、真の散乱振幅は$$M_1 = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac{ \bar{u}(p+q) \gamma^{x} u(p) \bar{u}(-(p+q)) \gamma_{x} u(-p)\ \ + \bar{u}(p+q) \gamma^{y} u(p) \bar{u}(-(p+q)) \gamma_{y} u(p) \gamma_{y} u(-p) \}{q^2} となる。 しかし、電子が非相対論的であれば、$M_1 \sim 0$である。 ここでは$M \sim \frac{(e \hbar c)^2}{\epsilon_0 V q^2}$である。 どこが問題なの? 問題はディラック方程式であり、電磁場の存在下では必ずしも正しいわけではない。 電磁場の存在下でのディラック方程式はディラックスピノル、$\psi$の方程式であり、$i\hbar \frac {\partial \psi}{\partial t} = H \psi$, where, $$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + mc^2 \beta, $$$\alpha_j, \beta$はディラック行列、$A$ベクトルポテンシャルを満たす。 しかし、他にもある。 真の$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + e E \cdot x + mc^2 \beta, $$E$は電場である。 そのローレンツ不変形式は$ H = -i\hbar c \partial_j \alpha_j - \frac{e}{2} \int_0^{x^{\mu}}F_{\mu \nu} d x^{\mu} \alpha^{\nu} + mc^2 \beta, $$$である。 ノンバニッシュプロパゲーター(non-vanishing propagator)を提供するのはこの$e$の用語です。

Consider M\o{}ller scattering. Electrons with momentum $p$ and $-p$ scatter by exchange of photon say in $z$ direction to $p+q$ and $-(p+q)$. The scattering amplitude is well known, given as Feynmann propogator $ M = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac{\bar{u}(p+q) \gamma^{\mu} u(p) \ \bar{u}(-(p+q)) \gamma_{\mu} u(-p)}{q^2}$, where $V$ is the volume of the scattering electrons, $e$ elementary charge and $\epsilon_0$ permitivity of vacuum. But this is not completely correct. Since we exchange photon momentum in $z$ direction, we have two photon polarization $x,y$ and hence the true scattering amplitude should be $$ M_1 = \frac{(e \hbar c)^2}{\epsilon_0 V} \frac{ \bar{u}(p+q) \gamma^{x} u(p) \ \bar{u}(-(p+q)) \gamma_{x} u(-p)\ \ + \bar{u}(p+q) \gamma^{y} u(p) \ \bar{u}(-(p+q)) \gamma_{y} u(-p) \ }{q^2}. $$ But when electrons are nonrelativistic, $M_1 \sim 0$. This is disturbing, how will we ever get the coulomb potential, where $M \sim \frac{(e \hbar c)^2}{\epsilon_0 V q^2}$. Where is the problem ? The problem is with the Dirac equation, it is not all correct in presence of electromagnetic field. We say that Dirac equation in the presence of electromagnetic field is equation of Dirac spinor, $\psi$, satisfying $i\hbar \frac{\partial \psi}{\partial t} = H \psi$, where, $$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + mc^2 \beta, $$ where $\alpha_j , \beta$ are Dirac matrices and $A$ vector potential. But there is more to it. The true $$H = (-i\hbar c \partial_j - e A_j)\alpha_j + e A_0 + e E \cdot x + mc^2 \beta, $$ where $E$ is electric field. Its Lorentz invariant form is $$ H = -i\hbar c \partial_j \alpha_j - \frac{e}{2} \int_0^{x^{\mu}}F_{\mu \nu} d x^{\mu} \alpha^{\nu} + mc^2 \beta, $$ where $\alpha^0 = \mathbf{1}$. It is this $E$ term that gives non-vanishing propagator.
翻訳日:2023-10-05 11:36:20 公開日:2023-10-03
# 線形量子光学ネットワークにおける多重光子ハミルトン

Multiple photon Hamiltonian in linear quantum optical networks ( http://arxiv.org/abs/1605.02653v3 )

ライセンス: Link先を確認
Juan Carlos Garcia-Escartin, Vicent Gimeno, Julio Jos\'e Moyano-Fern\'andez(参考訳) 我々は、線形光学多ポートに入る任意の数の光子の量子状態の進化を記述する効果的なハミルトニアンの明示的な公式の代替導出を与える。 この記述は、単一の光子に対する光学系の効果的なハミルトニアンに基づいており、光子のヒルベルト空間におけるユニタリ進化行列を記述するリー群の進化と、1つと複数の光子に対するハミルトニアンのリー代数の進化を関連付けている。 グループ理論のアプローチが2つの入力ポートを持つデバイスのいくつかの特性に光を当てる方法について、いくつかの例を挙げる。

We give an alternative derivation for the explicit formula of the effective Hamiltonian describing the evolution of the quantum state of any number of photons entering a linear optics multiport. The description is based on the effective Hamiltonian of the optical system for a single photon and comes from relating the evolution in the Lie group that describes the unitary evolution matrices in the Hilbert space of the photon states to the evolution in the Lie algebra of the Hamiltonians for one and multiple photons. We give a few examples of how a group theory approach can shed light on some properties of devices with two input ports.
翻訳日:2023-10-05 11:34:33 公開日:2023-10-03
# カメラ画像信号処理のための深部コントラストパッチに基づく部分空間学習

Deep Contrastive Patch-Based Subspace Learning for Camera Image Signal Processing ( http://arxiv.org/abs/2104.00253v4 )

ライセンス: Link先を確認
Yunhao Yang, Yi Wang, Chandrajit Bajaj(参考訳) カメラ画像信号処理(isp)パイプラインは、異なる画像信号処理タスクで魅力的な結果を得ることができる。 それでも、タスクにエンコーダ-デコーダ深層アーキテクチャを使用するものを含むこれらのメソッドの大部分は、通常、画像全体に一貫して適用される一様フィルタを使用する。 しかし、色強度と人工雑音が1枚の画像の2次元領域にわたっても大きく異なるため、カメライメージを異種と見なすことは自然である。 様々なモアレリング、動きのぼやけ、カラーブレッシング、レンズベースの投影歪みは、すべて異種画像アーティファクトフィルタリング問題を引き起こす可能性がある。 本稿では,カメラISPが不均一なアーティファクト(特に画像デノイング)に対して堅牢であるように改良された,特定のパッチベースの局所部分空間ディープニューラルネットワークを提案する。 私たちは3次元深層学習モデルであるpatch subspace learning autoencoder (psl-ae) と呼んでいる。 PSL-AEモデルは画像歪みの均一なレベルについて仮定しない。 代わりに、コントラスト学習によって、異なるアーティファクトタイプや歪みレベルを持つ、ノイズの多い第2クリーンイメージペアから抽出されたパッチをコード化する。 次に、各画像のパッチを対応する潜在サブ空間内のソフトクラスタに符号化し、先行混合モデルを利用する。 さらに、デコーダは教師なしの方法でトレーニングを受け、特に各クラスタに存在するイメージパッチのためにトレーニングされる。 実験では、合成された人工物と現実的なSIDDイメージペアの両方から、改良された異種フィルタリングによる適応性と有効性を強調した。

Camera Image Signal Processing (ISP) pipelines can get appealing results in different image signal processing tasks. Nonetheless, the majority of these methods, including those employing an encoder-decoder deep architecture for the task, typically utilize a uniform filter applied consistently across the entire image. However, it is natural to view a camera image as heterogeneous, as the color intensity and the artificial noise are distributed vastly differently, even across the two-dimensional domain of a single image. Varied Moire ringing, motion blur, color-bleaching, or lens-based projection distortions can all potentially lead to a heterogeneous image artifact filtering problem. In this paper, we present a specific patch-based, local subspace deep neural network that improves Camera ISP to be robust to heterogeneous artifacts (especially image denoising). We call our three-fold deep-trained model the Patch Subspace Learning Autoencoder (PSL-AE). The PSL-AE model does not make assumptions regarding uniform levels of image distortion. Instead, it first encodes patches extracted from noisy a nd clean image pairs, with different artifact types or distortion levels, by contrastive learning. Then, the patches of each image are encoded into corresponding soft clusters within their suitable latent sub-space, utilizing a prior mixture model. Furthermore, the decoders undergo training in an unsupervised manner, specifically trained for the image patches present in each cluster. The experiments highlight the adaptability and efficacy through enhanced heterogeneous filtering, both from synthesized artifacts but also realistic SIDD image pairs.
翻訳日:2023-10-05 11:33:22 公開日:2023-10-03
# 単体サンプリングはアウトレーヤ付きセンターベースのクラスタリングに有効か:いつ,なぜか?

Is Simple Uniform Sampling Effective for Center-Based Clustering with Outliers: When and Why? ( http://arxiv.org/abs/2103.00558v5 )

ライセンス: Link先を確認
Jiawei Huang, Wenjie Liu and Hu Ding(参考訳) 現実世界のデータセットには、しばしば外れ値が含まれており、外れ値が存在することで、クラスタリングの問題はより困難になる可能性がある。 本稿では,異常値を持つ3つの代表的センターベースクラスタリングを解決するための,簡易な一様サンプリングフレームワークを提案する。 我々の分析は、以前の(一様で非一様)サンプリングに基づく考え方と根本的に異なる。 統一サンプリングの有効性を理論的に説明するために,「意味度」の尺度を導入し,提案手法の性能が与えられたインスタンスの重要度に依存することを証明した。 特に、サンプルサイズは入力データサイズ $n$ と次元 $d$ とは独立であり、与えられたインスタンスが "重要" であると仮定すれば、実際にはかなり合理的な仮定である。 その単純さから、一様サンプリングアプローチは非一様サンプリングアプローチよりもいくつかの大きな利点を享受している。 我々の知る限りでは、これは理論と実験の両方の観点から一様サンプリングの有効性を体系的に研究する最初の作品である。

Real-world datasets often contain outliers, and the presence of outliers can make the clustering problems to be much more challenging. In this paper, we propose a simple uniform sampling framework for solving three representative center-based clustering with outliers problems: $k$-center/median/means clustering with outliers. Our analysis is fundamentally different from the previous (uniform and non-uniform) sampling based ideas. To explain the effectiveness of uniform sampling in theory, we introduce a measure of "significance" and prove that the performance of our framework depends on the significance degree of the given instance. In particular, the sample size can be independent of the input data size $n$ and the dimensionality $d$, if we assume the given instance is "significant", which is in fact a fairly reasonable assumption in practice. Due to its simplicity, the uniform sampling approach also enjoys several significant advantages over the non-uniform sampling approaches in practice. To the best of our knowledge, this is the first work that systematically studies the effectiveness of uniform sampling from both theoretical and experimental aspects.
翻訳日:2023-10-05 11:32:55 公開日:2023-10-03
# 等尺-対凸設定における表面距離のミニマックス推定とミニマックス多様体学習

Minimax Estimation of Distances on a Surface and Minimax Manifold Learning in the Isometric-to-Convex Setting ( http://arxiv.org/abs/2011.12478v2 )

ライセンス: Link先を確認
Ery Arias-Castro and Phong Alain Chau(参考訳) まず,滑らかな部分多様体上の固有距離を推定する問題を考える。 表面の再構成により最小限の最適性が得られることを示し、その目的のために特定のメッシュ構造、すなわち有界デラウネー錯体の使用について議論する。 次に、多様体学習に目を向け、代わりに再構成された曲面上で距離が計算されるイソマップの変種が問題の等尺変種に対して極小最適であると主張する。

We start by considering the problem of estimating intrinsic distances on a smooth submanifold. We show that minimax optimality can be obtained via a reconstruction of the surface, and discuss the use of a particular mesh construction -- the tangential Delaunay complex -- for that purpose. We then turn to manifold learning and argue that a variant of Isomap where the distances are instead computed on a reconstructed surface is minimax optimal for the isometric variant of the problem.
翻訳日:2023-10-05 11:32:40 公開日:2023-10-03
# 組合せ最適化のための強化学習に関する調査

A Survey on Reinforcement Learning for Combinatorial Optimization ( http://arxiv.org/abs/2008.12248v3 )

ライセンス: Link先を確認
Yunhao Yang, Andrew Whinston(参考訳) 本稿では、組合せ最適化における強化学習(RL)の詳細なレビューを行い、1950年代からの組合せ最適化の歴史を紹介し、近年のRLアルゴリズムと比較する。 本稿では,TSP (Computer-traveling Salesperson problem) を概説する。 TSPの現代的なRLアルゴリズムのアプローチと1970年代に発表されたアプローチを比較する。 これらの手法の類似点と分散点を比較することにより,機械学習技術と計算能力の進化によりRLアルゴリズムが最適化されることを示す。 そこで本論文では,従来の数学的枠組みを拡張した深層学習手法である深部RLについて,短時間で紹介する。 深部RLでは、ほぼ最適解を生成するために注意と特徴符号化機構が導入された。 調査の結果,注意力などの深層学習機構をRLと組み合わせることで,TSPを効果的に近似できることがわかった。 また、ディープラーニングは従来のRLアルゴリズムと統合可能な汎用的なアプローチであり、TSPの結果を高めることができると主張している。

This paper gives a detailed review of reinforcement learning (RL) in combinatorial optimization, introduces the history of combinatorial optimization starting in the 1950s, and compares it with the RL algorithms of recent years. This paper explicitly looks at a famous combinatorial problem-traveling salesperson problem (TSP). It compares the approach of modern RL algorithms for the TSP with an approach published in the 1970s. By comparing the similarities and variances between these methodologies, the paper demonstrates how RL algorithms are optimized due to the evolution of machine learning techniques and computing power. The paper then briefly introduces the deep learning approach to the TSP named deep RL, which is an extension of the traditional mathematical framework. In deep RL, attention and feature encoding mechanisms are introduced to generate near-optimal solutions. The survey shows that integrating the deep learning mechanism, such as attention with RL, can effectively approximate the TSP. The paper also argues that deep learning could be a generic approach that can be integrated with any traditional RL algorithm to enhance the outcomes of the TSP.
翻訳日:2023-10-05 11:32:30 公開日:2023-10-03
# 教師付き学習とVAEの統一 -- 天体-粒子再構成のための正規化フローベースニューラルネットワークモデルにおけるカバレッジ、体系、適合性

Unifying supervised learning and VAEs -- coverage, systematics and goodness-of-fit in normalizing-flow based neural network models for astro-particle reconstructions ( http://arxiv.org/abs/2008.05825v4 )

ライセンス: Link先を確認
Thorsten Gl\"usenkamp(参考訳) ニューラルネットワークに基づく天体物理学における事象特性の予測はますます一般的になっている。 しかし、多くの場合、結果は単に点予測として利用される。 統計的不確実性及び範囲(1)、系統的不確実性(2)又は適合度(3)は、しばしば計算されない。 ここでは、これらすべてのプロパティを単一のネットワークモデルに組み込むことができるトレーニングとネットワークアーキテクチャの特定の選択について説明する。 データとラベルの連成分布のKL偏差は、確率的変分推論の1つの傘の下で教師付き学習と変分オートエンコーダ(VAE)を統一することができることを示す。 この統一は、ニューラルネットワークモデルに適合するp値を計算することを可能にする拡張教師付き学習スキームを動機付ける。 この構成では、ニューラルネットワークで償却された条件付き正規化フローが不可欠である。 製品空間上で共同で定義された後続のカバレッジを厳密に定義する方法について論じる。例えば、$\mathbb{r}^n \times \mathcal{s}^m$ は、後続の方向を包含する。 最後に、系統的不確実性は自然に変分的視点に含まれる。 提案手法は,(1)カバレッジ計算,(2)系統計算,(3)適合度尺度を1つの機械学習モデルに組み込んだ拡張教師付き学習である。 これらの性質が持つような分布(例えばガウス性)の形状に制約はないが、実際には $\mathbb{R}^n \times \mathcal{S}^m$ のような積空間上で定義される複素マルチモーダル分布を扱う。 イベント選択や、不確実性の保証を必要とする高速な天文警報において、イベントごとの情報を活用する大きな可能性を見出した。

Neural-network based predictions of event properties in astro-particle physics are getting more and more common. However, in many cases the result is just utilized as a point prediction. Statistical uncertainties and coverage (1), systematic uncertainties (2) or a goodness-of-fit measure (3) are often not calculated. Here we describe a certain choice of training and network architecture that allows to incorporate all these properties into a single network model. We show that a KL-divergence objective of the joint distribution of data and labels allows to unify supervised learning and variational autoencoders (VAEs) under one umbrella of stochastic variational inference. The unification motivates an extended supervised learning scheme which allows to calculate a goodness-of-fit p-value for the neural network model. Conditional normalizing flows amortized with a neural network are crucial in this construction. We discuss how they allow to rigorously define coverage for posteriors defined jointly on a product space, e.g. $\mathbb{R}^n \times \mathcal{S}^m$, which encompasses posteriors over directions. Finally, systematic uncertainties are naturally included in the variational viewpoint. The proposed extended supervised training with amortized normalizing flows incorporates (1) coverage calculation, (2) systematics and (3) a goodness-of-fit measure in a single machine-learning model. There are no constraints on the shape of the involved distributions (e.g. Gaussianity) for these properties to hold, in fact it works with complex multi-modal distributions defined on product spaces like $\mathbb{R}^n \times \mathcal{S}^m$. We see great potential for exploiting this per-event information in event selections or for fast astronomical alerts which require uncertainty guarantees.
翻訳日:2023-10-05 11:32:13 公開日:2023-10-03
# 厳密な波動関数に対するジェミナル基底への変換と定常条件

Transformation to a geminal basis and stationary conditions for the exact wave function therein ( http://arxiv.org/abs/1910.06633v5 )

ライセンス: Link先を確認
Lasse Kragh S{\o}rensen(参考訳) 一粒子基底からゲミナル基底への変換を示し、異なるゲミナル基底間の変換を示し、ゲミナル基底のリー代数を示す。 基底変換から、波動関数とハミルトン関数の両方をgeminal basisで表現する。 geminalベースで拡張された正確な波動関数の必要十分条件は、geminals の Brillouin の定理であることが示されている。 AGP(Antisymmetrized Geminal Power)、APG(Antisymmetrized Product of Geminals)、FGP(Full Geminal Product)の波動関数Ans{\"a}tzeにおけるgeminalの変動最適化について論じる。 geminal replacement operatorを用いてgeminal rotationsを記述することで、プライマリローテーションとセカンダリローテーションの両方を導入することを示す。 二次回転は、ジェミナルの複合ボゾンの性質により、2つのジェミナルを同時に回転させる。 FGP の完全性により、すべての可能な宝石の組み合わせが存在するため、FGP は完全である。 FGPにおけるパラメータの数は、FCI(Full Configuration Interaction)のような粒子の数と指数関数的にスケールする。 FGPの参照関数が APG 波動関数であるため、FGP 拡張のトランケーションは将来的に波動関数のコンパクト表現につながる可能性がある。

We show the transformation from a one-particle basis to a geminal basis, transformations between different geminal bases and demonstrate the Lie algebra of a geminal basis. From the basis transformations we express both the wave function and Hamiltonian in the geminal basis. The necessary and sufficient conditions of the exact wave function expanded in a geminal basis is shown to be a Brillouin theorem of geminals. The variational optimization of the geminals in the Antisymmetrized Geminal Power (AGP), Antisymmetrized Product of Geminals (APG) and the Full Geminal Product (FGP) wave function ans{\"a}tze are discussed. We show that using a geminal replacement operator to describe geminal rotations introduce both primary and secondary rotations. The secondary rotations rotate two geminals in the reference at the same time due to the composite boson nature of geminals. Due to the completeness of the FGP, where all possible geminal combinations are present, the FGP is exact. The number of parameters in the FGP scale exponentially with the number of particles, like the Full Configuration Interaction (FCI). Truncation in the FGP expansion could lead to compact representations of the wave function in the future since the reference function in the FGP is the APG wave function.
翻訳日:2023-10-05 11:29:51 公開日:2023-10-03
# 外乱除去による連続学習における記憶人口

Memory Population in Continual Learning via Outlier Elimination ( http://arxiv.org/abs/2207.01145v3 )

ライセンス: Link先を確認
Julio Hurtado, Alain Raymond-Saez, Vladimir Araujo, Vincenzo Lomonaco, Alvaro Soto, Davide Bacciu(参考訳) 破滅的な忘れは、新しいタスクを学ぶ際に学習したタスクを忘れる現象であり、継続的な学習アルゴリズムを開発する上で大きなハードルとなる。 忘れを緩和する一般的な方法は、新しいタスクのトレーニングで使用する前に学習したタスク例のサブセットを格納するメモリバッファを使用することである。 メモリを埋めるデファクト方法は、前例をランダムに選択することである。 しかし、このプロセスはモデルの一般化を損なうような異常値やノイズのサンプルを導入する可能性がある。 本稿では,ラベル同種サブポピュレーションからサンプルを選択することにより,メモリバッファの外れ値の識別と除去を行うメモリアウトレイラ除去法(MOE)を提案する。 高い等質性を持つ空間は、クラス分布のより代表的な特徴空間と関連していることを示す。 実際には、moeは異なるラベルのサンプルに囲まれている場合、サンプルを削除する。 CIFAR-10, CIFAR-100, CORe50におけるMOEの有効性を示す。

Catastrophic forgetting, the phenomenon of forgetting previously learned tasks when learning a new one, is a major hurdle in developing continual learning algorithms. A popular method to alleviate forgetting is to use a memory buffer, which stores a subset of previously learned task examples for use during training on new tasks. The de facto method of filling memory is by randomly selecting previous examples. However, this process could introduce outliers or noisy samples that could hurt the generalization of the model. This paper introduces Memory Outlier Elimination (MOE), a method for identifying and eliminating outliers in the memory buffer by choosing samples from label-homogeneous subpopulations. We show that a space with a high homogeneity is related to a feature space that is more representative of the class distribution. In practice, MOE removes a sample if it is surrounded by samples from different labels. We demonstrate the effectiveness of MOE on CIFAR-10, CIFAR-100, and CORe50, outperforming previous well-known memory population methods.
翻訳日:2023-10-05 11:22:26 公開日:2023-10-03
# 非巡回時空における循環因果構造の埋め込み:不定因果関係のノーゴー結果

Embedding cyclic causal structures in acyclic space-times: no-go results for indefinite causality ( http://arxiv.org/abs/2203.11245v2 )

ライセンス: Link先を確認
V. Vilasini and Renato Renner(参考訳) 因果関係は時空や情報理論構造に基づいて定義することができるが、これは因果関係の全く異なる概念に対応する。 しかし、物理実験では、これらの概念は相容れない方法で一緒に機能する。 プロセス行列フレームワークは、情報理論的な意味で不定因果構造(ics)をモデル化するのに有用であるが、そのようなプロセスの物理的性質に関する重要な疑問が残っている。 特に、ミンコフスキー時空に ics プロセスを実装すると主張するいくつかの実験があるが、これは明らかな理論的パラドックスを示している。 そこで我々は,2つの因果関係の概念を混同し,それらの関係を定式化する一般的な枠組みを開発する。 このフレームワークは、フィードバックループによる量子演算の合成と、結果として得られる(おそらく巡回的な)情報理論の因果構造を非循環時空構造に埋め込む。 相対論的因果関係は、2つの構造間の操作的互換性条件として定式化される。 ここではプロセス行列の枠組みを再構築し、時空局所化量子システムを用いた固定時空でのICSの物理的実現は不可能であることを示す。 さらに、時空非局所化システムを含む任意のICSプロセスの物理的実現は、究極的には、よりきめ細かいレベルで、明確な因果順序プロセスの観点で説明されるであろうことを証明している。 これらの結果は明らかなパラドックスを完全に解決すると同時に、そのような実験がなぜ興味をそそられるのかを強調する。 我々の研究は、固定された時空の文脈内外において、無期限因果関係の操作的意味に関する具体的な洞察を提供する。

Causality can be defined in terms of space-time or based on information-theoretic structures, which correspond to very different notions of causation. Yet, in physical experiments, these notions play together in a compatible manner. The process matrix framework is useful for modelling indefinite causal structures (ICS) in an information-theoretic sense, but there remain important open questions regarding the physicality of such processes. In particular, there are several experiments that claim to implement ICS processes in Minkowski space-time, which presents an apparent theoretical paradox: how can an indefinite information-theoretic causal structure be compatible with a definite space-time structure? To address this, we develop a general framework that disentangles the two causality notions and formalises their relations. The framework describes a composition of quantum operations through feedback loops, and the embedding of the resulting (possibly cyclic) information-theoretic causal structure in an acyclic space-time structure. Relativistic causality is formalised as an operational compatibility condition between the two structures. Reformulating the process matrix framework here, we establish no-go results which imply that it is impossible to physically realise ICS in a fixed space-time with space-time localised quantum systems. Further, we prove that physical realisations of any ICS process, even those involving space-time non-localised systems, will ultimately admit an explanation in terms of a definite causal order process, at a more fine-grained level. These results fully resolve the apparent paradox while also highlighting why such experiments are intriguing, even if they admit a definite and acyclic fine-grained causal structure. Our work offers concrete insights on the operational meaning of indefinite causality, both within and beyond the context of a fixed space-time.
翻訳日:2023-10-05 11:22:12 公開日:2023-10-03
# 局所不変説明:局所不変学習による安定・一方向説明に向けて

Locally Invariant Explanations: Towards Stable and Unidirectional Explanations through Local Invariant Learning ( http://arxiv.org/abs/2201.12143v2 )

ライセンス: Link先を確認
Amit Dhurandhar, Karthikeyan Ramamurthy, Kartik Ahuja and Vijay Arya(参考訳) ローカル解釈可能なモデル非依存説明(lime)メソッドは、例ごとにブラックボックスモデルを説明するために使われる最も一般的な方法の1つである。 多くの変種が提案されているが、安定で直感的な高忠実度説明を生成する簡単な方法を提供するものはほとんどない。 本研究では,不変リスク最小化(IRM)原理に着想を得たモデル非依存的局所的説明法を提案する。 本手法は,理論上,ブラックボックス関数の勾配が説明したい例の局所性において突然符号が変化するような特徴を解消する傾向が強いことを理論的に示すゲーム理論定式化に基づいているが,他の場合ではより慎重であり,より保守的な(特徴)属性を選択する。 実験では, ランダムな摂動を用いて生成した近傍における説明の質が, LIMEよりも優れており, また, データ多様体からサンプリングしたリアルな隣人を用いた他の手法に匹敵する場合もある。 これは、写実的な隣人を作るか、説明を投影するために多様体を学ぶことは通常高価であるか、あるいは不可能であるかもしれないことを考慮すれば望ましい。 さらに,本アルゴリズムは訓練が簡単かつ効率的であり,最近の研究で見られるような(部分的な)因果グラフなどのサイド情報にアクセスせずに,ブラックボックスの局所的な決定に対する安定した入力特徴を確認できる。

Locally interpretable model agnostic explanations (LIME) method is one of the most popular methods used to explain black-box models at a per example level. Although many variants have been proposed, few provide a simple way to produce high fidelity explanations that are also stable and intuitive. In this work, we provide a novel perspective by proposing a model agnostic local explanation method inspired by the invariant risk minimization (IRM) principle -- originally proposed for (global) out-of-distribution generalization -- to provide such high fidelity explanations that are also stable and unidirectional across nearby examples. Our method is based on a game theoretic formulation where we theoretically show that our approach has a strong tendency to eliminate features where the gradient of the black-box function abruptly changes sign in the locality of the example we want to explain, while in other cases it is more careful and will choose a more conservative (feature) attribution, a behavior which can be highly desirable for recourse. Empirically, we show on tabular, image and text data that the quality of our explanations with neighborhoods formed using random perturbations are much better than LIME and in some cases even comparable to other methods that use realistic neighbors sampled from the data manifold. This is desirable given that learning a manifold to either create realistic neighbors or to project explanations is typically expensive or may even be impossible. Moreover, our algorithm is simple and efficient to train, and can ascertain stable input features for local decisions of a black-box without access to side information such as a (partial) causal graph as has been seen in some recent works.
翻訳日:2023-10-05 11:21:18 公開日:2023-10-03
# トップNレコメンダシステムにおけるランク付け蒸留の二重補正戦略

Dual Correction Strategy for Ranking Distillation in Top-N Recommender System ( http://arxiv.org/abs/2109.03459v3 )

ライセンス: Link先を確認
Youngjune Lee and Kee-Eung Kim(参考訳) 十分に訓練された大規模モデル(教師)の知識を小モデル(学生)に移す知識蒸留(kd)は、レコメンダシステムの実践的展開のための重要な研究分野となっている。 近年,リコメンデーションリストのランキング情報を蒸留することで,性能が著しく向上することが示された。 しかし その方法には まだ限界があります 1)学生モデルの予測誤差を十分に活用していないため、学習の効率が良くない。 2) ユーザ側のランキング情報のみを抽出し, まばらな暗黙的なフィードバックの下では不十分なビューを提供する。 本稿では,教師モデルから生徒モデルへのランキング情報をより効率的に伝達するDCD(Dual Correction Strategy for Distillation)を提案する。 最も重要なことは、DCDは教師モデルと生徒モデル予測の相違を利用して、どの知識を蒸留するかを決定することである。 そうすることによって、DCDは、学生モデルが正確に予測できなかったことを「修正」するために調整された学習指導を提供する。 このプロセスは、ユーザ側およびアイテム側からランキング情報を転送して、まばらな暗黙的なユーザフィードバックに対処するために適用される。 実験の結果,提案手法は最先端のベースラインよりも優れており,アブレーション実験により各コンポーネントの有効性が検証された。

Knowledge Distillation (KD), which transfers the knowledge of a well-trained large model (teacher) to a small model (student), has become an important area of research for practical deployment of recommender systems. Recently, Relaxed Ranking Distillation (RRD) has shown that distilling the ranking information in the recommendation list significantly improves the performance. However, the method still has limitations in that 1) it does not fully utilize the prediction errors of the student model, which makes the training not fully efficient, and 2) it only distills the user-side ranking information, which provides an insufficient view under the sparse implicit feedback. This paper presents Dual Correction strategy for Distillation (DCD), which transfers the ranking information from the teacher model to the student model in a more efficient manner. Most importantly, DCD uses the discrepancy between the teacher model and the student model predictions to decide which knowledge to be distilled. By doing so, DCD essentially provides the learning guidance tailored to "correcting" what the student model has failed to accurately predict. This process is applied for transferring the ranking information from the user-side as well as the item-side to address sparse implicit user feedback. Our experiments show that the proposed method outperforms the state-of-the-art baselines, and ablation studies validate the effectiveness of each component.
翻訳日:2023-10-05 11:19:47 公開日:2023-10-03
# ニューラルネットワークのアベイラビリティアタックに対する脆弱性を認定する

Certifiers Make Neural Networks Vulnerable to Availability Attacks ( http://arxiv.org/abs/2108.11299v5 )

ライセンス: Link先を確認
Tobias Lorenz, Marta Kwiatkowska, Mario Fritz(参考訳) 信頼性があり堅牢で安全なAIシステムを実現するためには、AI予測が信頼できない場合にフォールバック戦略を実装することが不可欠である。 ニューラルネットワークの証明器は、これらの予測の堅牢性をチェックする信頼できる方法である。 彼らは特定の種類の操作や攻撃が結果を変えられないという予測を保証した。 保証のない残りの予測では、この方法は予測を妨げ、通常追加のコストを発生させるフォールバック戦略を呼び出す必要がある。 これは安全でセキュアなAIに対する重要な概念ですが、このアプローチが独自のセキュリティリスクを伴っていることを初めて示します。 いくつかの入力や摂動に対して自然に発生する障害に加えて、敵は訓練時攻撃を使用して、高い確率でフォールバックを意図的に引き起こすことができる。 これにより、メインシステムの負荷をフォールバックに転送し、システム全体の整合性と可用性を低下させる。 我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。 例えば、トレーニング中に1%の有毒データを追加することは、フォールバックを引き起こすのに十分であり、モデルがトリガーを挿入することで、入力の最大100%を利用できなくなる。 複数のデータセット、モデルアーキテクチャ、証明器をまたいだ広範な実験は、これらの攻撃の幅広い適用性を示しています。 潜在的な防衛に関する最初の調査は、現在のアプローチが問題を緩和するには不十分であることを示し、新しい特定のソリューションの必要性を強調している。

To achieve reliable, robust, and safe AI systems, it is vital to implement fallback strategies when AI predictions cannot be trusted. Certifiers for neural networks are a reliable way to check the robustness of these predictions. They guarantee for some predictions that a certain class of manipulations or attacks could not have changed the outcome. For the remaining predictions without guarantees, the method abstains from making a prediction, and a fallback strategy needs to be invoked, which typically incurs additional costs, can require a human operator, or even fail to provide any prediction. While this is a key concept towards safe and secure AI, we show for the first time that this approach comes with its own security risks, as such fallback strategies can be deliberately triggered by an adversary. In addition to naturally occurring abstains for some inputs and perturbations, the adversary can use training-time attacks to deliberately trigger the fallback with high probability. This transfers the main system load onto the fallback, reducing the overall system's integrity and/or availability. We design two novel availability attacks, which show the practical relevance of these threats. For example, adding 1% poisoned data during training is sufficient to trigger the fallback and hence make the model unavailable for up to 100% of all inputs by inserting the trigger. Our extensive experiments across multiple datasets, model architectures, and certifiers demonstrate the broad applicability of these attacks. An initial investigation into potential defenses shows that current approaches are insufficient to mitigate the issue, highlighting the need for new, specific solutions.
翻訳日:2023-10-05 11:19:10 公開日:2023-10-03
# 連続時間マルコフ決定過程に対する平方根後悔境界

Square-root regret bounds for continuous-time episodic Markov decision processes ( http://arxiv.org/abs/2210.00832v2 )

ライセンス: Link先を確認
Xuefeng Gao and Xun Yu Zhou(参考訳) 有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。 離散時間 MDP とは対照的に、連続時間 MDP の遷移時間間の遷移時間は、各遷移における状態-作用対に依存するレートパラメータで指数関数的に分散される。 本稿では,価値反復法と高信頼度境界に基づく学習アルゴリズムを提案する。 我々は,提案アルゴリズムの最悪の遺言を上界に導き,最悪の下界を確立し,両境界はエピソード数で平方根の順である。 最後に,シミュレーション実験を行い,アルゴリズムの性能について述べる。

We study reinforcement learning for continuous-time Markov decision processes (MDPs) in the finite-horizon episodic setting. In contrast to discrete-time MDPs, the inter-transition times of a continuous-time MDP are exponentially distributed with rate parameters depending on the state--action pair at each transition. We present a learning algorithm based on the methods of value iteration and upper confidence bound. We derive an upper bound on the worst-case expected regret for the proposed algorithm, and establish a worst-case lower bound, both bounds are of the order of square-root on the number of episodes. Finally, we conduct simulation experiments to illustrate the performance of our algorithm.
翻訳日:2023-10-05 11:11:40 公開日:2023-10-03
# FRMT:Few-Shot Region-Aware Machine Translationのベンチマーク

FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation ( http://arxiv.org/abs/2210.00193v3 )

ライセンス: Link先を確認
Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant(参考訳) 本稿ではFew-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。 このデータセットは、英語からポルトガル語と中国語の2つの地域訳から成り立っている。 ソース文書は、語彙的に異なる用語や散逸した用語を含む興味のある現象の詳細な分析を可能にするために選択される。 本研究では,frmtの自動評価指標を探索し,地域マッチングとミスマッチ評価の両シナリオにおいて,専門家の人間評価との相関性を検証する。 最後に、このタスクのためのベースラインモデルをいくつか提示し、研究者が自身のモデルをトレーニング、評価、比較する方法のガイドラインを提供する。 私たちのデータセットと評価コードは公開されています。

We present FRMT, a new dataset and evaluation benchmark for Few-shot Region-aware Machine Translation, a type of style-targeted translation. The dataset consists of professional translations from English into two regional variants each of Portuguese and Mandarin Chinese. Source documents are selected to enable detailed analysis of phenomena of interest, including lexically distinct terms and distractor terms. We explore automatic evaluation metrics for FRMT and validate their correlation with expert human evaluation across both region-matched and mismatched rating scenarios. Finally, we present a number of baseline models for this task, and offer guidelines for how researchers can train, evaluate, and compare their own models. Our dataset and evaluation code are publicly available: https://bit.ly/frmt-task
翻訳日:2023-10-05 11:11:29 公開日:2023-10-03
# 大規模プログラムと確率プログラムを解く機械学習アプローチ:サイクリングネットワーク設計への応用

A Machine Learning Approach to Solving Large Bilevel and Stochastic Programs: Application to Cycling Network Design ( http://arxiv.org/abs/2209.09404v2 )

ライセンス: Link先を確認
Timothy C. Y. Chan, Bo Lin, Shoshanna Saxe(参考訳) 本稿では,2段階確率計画を含む,多数の独立系フォロワーを含むバイレベルプログラムを解決するための,機械学習に基づく新しい手法を提案する。 本研究では,フォロワーのサンプリングされたサブセットを明示的に考慮し,機械学習モデルを用いて非サンプリングフォロワーの客観的値を推定する最適化モデルを提案する。 既存のアプローチとは異なり、機械学習モデルのトレーニングを最適化問題に組み込むことで、リーダー決定で表現できない一般的なフォロワー機能を利用することができます。 我々は、全従者集合を考える元の目的関数によって測定される生成したリーダー決定の最適性ギャップの境界を証明する。 次に,境界を厳格化するためのフォロワサンプリングアルゴリズムと,組込み機械学習モデルへの入力として使用できるフォロワ特徴を学習するための表現学習手法を開発した。 サイクリングネットワーク設計問題の合成例を用いて,本手法の計算性能とベースライン法との比較を行った。 我々のアプローチは、フォロー対象の値に対するより正確な予測を提供し、さらに重要なことに、より高い品質のリーダー決定を生成する。 最後に、サイクリングインフラ計画の現実的なケーススタディを行い、100万人以上のフォロワーを持つネットワーク設計問題を解決するために我々のアプローチを適用します。 提案手法は,現在のサイクリングネットワーク拡張方式と比較して,良好な性能を示す。

We present a novel machine learning-based approach to solving bilevel programs that involve a large number of independent followers, which as a special case include two-stage stochastic programming. We propose an optimization model that explicitly considers a sampled subset of followers and exploits a machine learning model to estimate the objective values of unsampled followers. Unlike existing approaches, we embed machine learning model training into the optimization problem, which allows us to employ general follower features that can not be represented using leader decisions. We prove bounds on the optimality gap of the generated leader decision as measured by the original objective function that considers the full follower set. We then develop follower sampling algorithms to tighten the bounds and a representation learning approach to learn follower features, which can be used as inputs to the embedded machine learning model. Using synthetic instances of a cycling network design problem, we compare the computational performance of our approach versus baseline methods. Our approach provides more accurate predictions for follower objective values, and more importantly, generates leader decisions of higher quality. Finally, we perform a real-world case study on cycling infrastructure planning, where we apply our approach to solve a network design problem with over one million followers. Our approach presents favorable performance compared to the current cycling network expansion practices.
翻訳日:2023-10-05 11:11:17 公開日:2023-10-03
# 隠れマルコフモデルを用いた強化学習のためのタスク自動学習

Learning Task Automata for Reinforcement Learning using Hidden Markov Models ( http://arxiv.org/abs/2208.11838v4 )

ライセンス: Link先を確認
Alessandro Abate (1), Yousif Almulla (2), James Fox (1), David Hyland (1), Michael Wooldridge (1) ((1) University of Oxford, (2) Microsoft Azure Quantum)(参考訳) スカラー報酬信号を用いた訓練強化学習(RL)エージェントは、環境がまばらで非マルコフ報酬を持つ場合、しばしば実現不可能である。 さらに、トレーニング前にこれらの報酬関数を手作りすることは、特に環境のダイナミクスが部分的にしか知られていない場合、不特定に陥る傾向がある。 本稿では,未知環境におけるエージェント体験のエピソードから,非マルコフタスク仕様を簡潔な有限状態「タスクオートマトン」として学習するための新しいパイプラインを提案する。 2つの重要なアルゴリズムの洞察を活用します。 まず、製品MDPを部分的に観測可能なMDPとして扱い、よく知られたBaum-Welchアルゴリズムを用いて隠れマルコフモデルを学習することで、仕様のオートマトンと環境のMDP(どちらも当初不明)からなるモデルである製品MDPを学習する。 第2に、学習した製品MDPからタスクオートマトン(決定論的有限オートマトンと仮定される)を蒸留する方法を提案する。 我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。 また、高レベルの環境やタスクの特徴を解釈可能なエンコーディングを提供しており、エージェントが不特定性のないコヒーレントなタスクを学習したことを容易に確認することができる。 さらに,学習オートマトンが環境非依存であることを保証するための一歩を踏み出し,転校学習に適するようにした。 最後に,2つのベースラインと比較した実験結果を提供し,異なる環境とタスクにおけるアルゴリズムの性能を示す。

Training reinforcement learning (RL) agents using scalar reward signals is often infeasible when an environment has sparse and non-Markovian rewards. Moreover, handcrafting these reward functions before training is prone to misspecification, especially when the environment's dynamics are only partially known. This paper proposes a novel pipeline for learning non-Markovian task specifications as succinct finite-state `task automata' from episodes of agent experience within unknown environments. We leverage two key algorithmic insights. First, we learn a product MDP, a model composed of the specification's automaton and the environment's MDP (both initially unknown), by treating the product MDP as a partially observable MDP and using the well-known Baum-Welch algorithm for learning hidden Markov models. Second, we propose a novel method for distilling the task automaton (assumed to be a deterministic finite automaton) from the learnt product MDP. Our learnt task automaton enables the decomposition of a task into its constituent sub-tasks, which improves the rate at which an RL agent can later synthesise an optimal policy. It also provides an interpretable encoding of high-level environmental and task features, so a human can readily verify that the agent has learnt coherent tasks with no misspecifications. In addition, we take steps towards ensuring that the learnt automaton is environment-agnostic, making it well-suited for use in transfer learning. Finally, we provide experimental results compared with two baselines to illustrate our algorithm's performance in different environments and tasks.
翻訳日:2023-10-05 11:10:57 公開日:2023-10-03
# ソーシャルレコメンデーションのための異形コントラスト学習

Disentangled Contrastive Learning for Social Recommendation ( http://arxiv.org/abs/2208.08723v2 )

ライセンス: Link先を確認
Jiahao Wu, Wenqi Fan, Jingfan Chen, Shengcai Liu, Qing Li, Ke Tang(参考訳) 社会的レコメンデーションは、社会的関係を利用してレコメンデーションの表現学習を強化する。 ほとんどのソーシャルレコメンデーションモデルは、ユーザとイテムの相互作用(協調ドメイン)と社会的関係(社会ドメイン)を統一する。 しかし、このようなアプローチでは2つのドメインで不均一な動作パターンをモデル化できず、ユーザ表現の表現性が損なわれる可能性がある。 本研究では,このような制限に対処する上で,ソーシャルレコメンデーションDcRecのための新しいコントラスト学習フレームワークを提案する。 より具体的には、アイテムとソーシャルドメインから絡み合ったユーザー表現を学ぶことを提案する。 また,ソーシャルレコメンデーションのために,異種ユーザ間の知識伝達を行うために,異種コントラスト学習が設計されている。 各種実世界のデータセットに関する総合実験により,提案モデルの有効性が示された。

Social recommendations utilize social relations to enhance the representation learning for recommendations. Most social recommendation models unify user representations for the user-item interactions (collaborative domain) and social relations (social domain). However, such an approach may fail to model the users heterogeneous behavior patterns in two domains, impairing the expressiveness of user representations. In this work, to address such limitation, we propose a novel Disentangled contrastive learning framework for social Recommendations DcRec. More specifically, we propose to learn disentangled users representations from the item and social domains. Moreover, disentangled contrastive learning is designed to perform knowledge transfer between disentangled users representations for social recommendations. Comprehensive experiments on various real-world datasets demonstrate the superiority of our proposed model.
翻訳日:2023-10-05 11:10:27 公開日:2023-10-03
# 数自由度をもつ量子系の正確なマルコフ進化 : 位相空間表現

Exact Markovian evolution of quantum systems with several degrees of freedom : Phase space representations ( http://arxiv.org/abs/2208.02282v3 )

ライセンス: Link先を確認
Aldo R. Fernandes Neto, Alfredo M. Ozorio de Almeida and Olivier Brodier(参考訳) 二次ハミルトニアンおよび線型結合作用素を持つリンドブラッド方程式の正確な解は、弦表現の中で導かれ、すなわち、標数函数としても知られるウィグナー函数のフーリエ変換に対して導かれた。 ここでは、任意の部分系の還元密度作用素に対する明示的な表現と、この進化するコード関数の微分として表されるモーメントを、いくつかの自由度で一般化する。 ウィグナー関数は、より広い多次元ガウス窓を持つ単純古典的進化の畳み込みであり、最終的にその肯定性を保証する。 さらに、肯定性は、成分の分離性を保証するグラウバー・スンダルシャン p 関数にも成り立つ。 数自由度の文脈では、完全な散逸行列が定義され、そのトレースは以前に導かれた散逸係数の2倍に等しい。 これにより、ウィグナー函数の引数の位相空間体積が収縮する速度が支配され、一方で弦関数の位相空間は拡大する。 三原子分子と調和振動子の配列のマルコフ進化の例について述べる。

The exact solution of the Lindblad equation with a quadratic Hamiltonian and linear coupling operators was derived within the chord representation, that is, for the Fourier transform of the Wigner function, also known as the characteristic function. It is here generalized for several degrees of freedom, so as to provide an explicit expression for the reduced density operator of any subsystem, as well as moments expressed as derivatives of this evolving chord function. The Wigner function is then the convolution of its straightforward classical evolution with a widening multidimensional Gaussian window, eventually ensuring its positivity. Futher on, positivity also holds for the Glauber-Sundarshan P function, which guarantees separability of the components. In the context of several degrees of freedom, a full dissipation matrix is defined, whose trace is equal to twice the previously derived dissipation coefficient. This governs the rate at which the phase space volume of the argument of the Wigner function contracts, while that of the chord function expands. Examples of Markovian evolution of a triatomic molecule and of an array of harmonic oscillators are discussed.
翻訳日:2023-10-05 11:09:43 公開日:2023-10-03
# 相対論的原理からの微分位相シフトQKDの安全性

Security of differential phase shift QKD from relativistic principles ( http://arxiv.org/abs/2301.11340v2 )

ライセンス: Link先を確認
Martin Sandfuchs, Marcus Haberland, V. Vilasini, Ramona Wolf(参考訳) セキュアな鍵生成のための量子プロトコルの設計は多くの課題を生んでいる。 一方で、それらの理論的記述は、すべての攻撃の可能性に対するセキュリティ証明を可能にするほど単純でなければならない。 多くの場合、これらの2つの要件は相反しており、差分位相シフト (dps) qkdプロトコルは、これらの困難を例示している: このプロトコルのために、多くの標準セキュリティ証明技術が適用されないコストで、現在の光通信技術で実装できるように設計されている。 発明から約20年後、この研究は、有限サイズ効果を含む一般的な攻撃に対するDPS QKDの完全なセキュリティ証明を初めて提示した。 この証明は、量子情報理論、量子光学、相対性理論の技法を組み合わせている。 まず,相対論的制約に起因するQKDプロトコルのセキュリティ証明を行う。 次に、DPS QKDのセキュリティを相対論的プロトコルのセキュリティに還元できることを示す。 さらに、DPSプロトコルに対するコヒーレントな攻撃は、実際には集団攻撃よりも強いことを示す。 今回の結果は,最先端のセキュリティ証明技術の適用範囲に光を当て,セキュアで信頼性の高い量子通信技術の開発に広く影響している。

The design of quantum protocols for secure key generation poses many challenges: On the one hand, they need to be practical concerning experimental realisations. On the other hand, their theoretical description must be simple enough to allow for a security proof against all possible attacks. Often, these two requirements are in conflict with each other, and the differential phase shift (DPS) QKD protocol exemplifies these difficulties: It is designed to be implementable with current optical telecommunication technology, which, for this protocol, comes at the cost that many standard security proof techniques do not apply to it. After about 20 years since its invention, this work presents the first full security proof of DPS QKD against general attacks, including finite-size effects. The proof combines techniques from quantum information theory, quantum optics, and relativity. We first give a security proof of a QKD protocol whose security stems from relativistic constraints. We then show that security of DPS QKD can be reduced to security of the relativistic protocol. In addition, we show that coherent attacks on the DPS protocol are, in fact, stronger than collective attacks. Our results have broad implications for the development of secure and reliable quantum communication technologies, as they shed light on the range of applicability of state-of-the-art security proof techniques.
翻訳日:2023-10-05 11:01:15 公開日:2023-10-03
# 新しい一般化重み付き群スパースエンベロープ正規化を用いたkレベルスパースニューラルネットワークの学習

Learning k-Level Sparse Neural Networks Using a New Generalized Weighted Group Sparse Envelope Regularization ( http://arxiv.org/abs/2212.12921v3 )

ライセンス: Link先を確認
Yehonathan Refael and Iftach Arbel and Wasim Huleihel(参考訳) 本稿では、正規化器として使われるスパースエンベロープ関数(SEF)の新たな一般化を利用して、トレーニング中に非構造的および構造的スパースニューラルネットワークの両方を学習する効率的な方法を提案する。 WGSEFは神経細胞群セレクターとして機能し、構造的疎結合を誘導する。 この手法により、ディープニューラルネットワーク(DNN)のハードウェアフレンドリーな構造化された空間が確保され、DNNの評価を効率的に加速する。 特に、この方法は適応可能であり、任意のハードウェアがフィルタ、チャネル、フィルタ形状、層深さ、単一のパラメータ(非構造化)などのグループ定義を指定できる。 WGSEFの特性により、提案手法は、冗長パラメータの場合の無視可能なネットワーク精度の劣化や改善を維持しつつ、トレーニング収束時に達成されるような空間レベルを事前に定義することができる。 我々は、WGSEFの正確な値を計算するための効率的な手法を導入し、その近似演算子とともに、最悪の場合、$O(n)$で、$n$は群変数の総数である。 さらに,モデル,すなわち,ニューラルネットワーク損失とwgsefの和の非凸最小化を学習するための近次勾配に基づく最適化手法を提案する。 最後に,提案手法の完成率,精度,推論遅延の観点から実験を行い,提案手法の有効性を実証する。

We propose an efficient method to learn both unstructured and structured sparse neural networks during training, utilizing a novel generalization of the sparse envelope function (SEF) used as a regularizer, termed {\itshape{weighted group sparse envelope function}} (WGSEF). The WGSEF acts as a neuron group selector, which is leveraged to induce structured sparsity. The method ensures a hardware-friendly structured sparsity of a deep neural network (DNN) to efficiently accelerate the DNN's evaluation. Notably, the method is adaptable, letting any hardware specify group definitions, such as filters, channels, filter shapes, layer depths, a single parameter (unstructured), etc. Owing to the WGSEF's properties, the proposed method allows to a pre-define sparsity level that would be achieved at the training convergence, while maintaining negligible network accuracy degradation or even improvement in the case of redundant parameters. We introduce an efficient technique to calculate the exact value of the WGSEF along with its proximal operator in a worst-case complexity of $O(n)$, where $n$ is the total number of group variables. In addition, we propose a proximal-gradient-based optimization method to train the model, that is, the non-convex minimization of the sum of the neural network loss and the WGSEF. Finally, we conduct an experiment and illustrate the efficiency of our proposed technique in terms of the completion ratio, accuracy, and inference latency.
翻訳日:2023-10-05 10:59:57 公開日:2023-10-03
# 高分解能流動回復のための物理潜在空間の探索

Exploring Physical Latent Spaces for High-Resolution Flow Restoration ( http://arxiv.org/abs/2211.11298v2 )

ライセンス: Link先を確認
Chloe Paliard, Nils Thuerey, Kiwon Um(参考訳) 我々は、ニューラルネットワークの潜在空間として、シミュレーションされた自由度を用いて、偏微分方程式(PDE)による物理シミュレーションと協調して深層ニューラルネットワークモデルを訓練する。 従来の研究とは対照的に,本論文ではシミュレーション空間の自由度を,ニューラルネットワークが使用するツールとして純粋に扱う。 従来の縮小表現を用いた長い時間にわたって正しい解を忠実に保存することは極めて困難であり、特に多数の小型特徴を持つ解について、この概念を実証する。 本研究は, 学習目標を最大限に満たすために, 減った物理状態の内容を可能な限り修正できるモデルを訓練することにより, 微シミュレーションの復元に, 物理的に縮小された潜在空間を使うことに焦点をあてる。 この自律性により、ニューラルネットワークは与えられたタスクのパフォーマンスを大幅に改善する代替のダイナミクスを発見できる。 この概念は, 様々な乱流のシナリオから上昇する煙柱まで, 様々な流体流について実証する。

We explore training deep neural network models in conjunction with physics simulations via partial differential equations (PDEs), using the simulated degrees of freedom as latent space for a neural network. In contrast to previous work, this paper treats the degrees of freedom of the simulated space purely as tools to be used by the neural network. We demonstrate this concept for learning reduced representations, as it is extremely challenging to faithfully preserve correct solutions over long time-spans with traditional reduced representations, particularly for solutions with large amounts of small scale features. This work focuses on the use of such physical, reduced latent space for the restoration of fine simulations, by training models that can modify the content of the reduced physical states as much as needed to best satisfy the learning objective. This autonomy allows the neural networks to discover alternate dynamics that significantly improve the performance in the given tasks. We demonstrate this concept for various fluid flows ranging from different turbulence scenarios to rising smoke plumes.
翻訳日:2023-10-05 10:58:46 公開日:2023-10-03
# DialoGen:対話システムのための一般化ロングランジコンテキスト表現

DialoGen: Generalized Long-Range Context Representation for Dialogue Systems ( http://arxiv.org/abs/2210.06282v4 )

ライセンス: Link先を確認
Suvodip Dey, Maunendra Sankar Desarkar, Asif Ekbal, P.K. Srijith(参考訳) 長距離コンテキストモデリングは対話理解と生成の両方に不可欠である。 対話コンテキスト表現の最も一般的な方法は、最後の$k$発話を時系列順に結合することである。 しかし、この方法は長い範囲の依存関係を含む会話には理想的ではないかもしれない。つまり、意味のある応答を生成するために最後の$k$の発話を超える必要がある場合である。 本稿では,対話生成のための新しいエンコーダ・デコーダベースのフレームワークであるdialogenを提案する。 提案手法の主な考え方は,より少ないトークンで対話履歴のコンパクトな表現を可能にするために,最後のk$ではなく,最も関連性の高い歴史的発話を識別・活用することである。 提案手法が対話生成(オープンドメイン)と理解(DST)の両方に与える影響について検討した。 コンパクトなコンテキスト表現であっても、DialoGenはオープンドメインのDailyDialogデータセットの最先端モデルと互換性がある。 提案手法が既存のDSTモデルに適用された場合,MultiWOZデータセットのDSTタスク上でも同様の挙動を示す。 また,対話の一般化可能性と解釈可能性について議論し,先行発話の関連性スコアが人間の認識とよく一致することを示す。

Long-range context modeling is crucial to both dialogue understanding and generation. The most popular method for dialogue context representation is to concatenate the last-$k$ utterances in chronological order. However, this method may not be ideal for conversations containing long-range dependencies, i.e., when there is a need to look beyond last-$k$ utterances to generate a meaningful response. In this work, we propose DialoGen, a novel encoder-decoder based framework for dialogue generation with a generalized context representation that can look beyond the last-$k$ utterances. The main idea of our approach is to identify and utilize the most relevant historical utterances instead of last-$k$, which also enables the compact representation of dialogue history with fewer tokens. We study the effectiveness of our proposed method on both dialogue generation (open-domain) and understanding (DST). Even with a compact context representation, DialoGen performs comparably to the state-of-the-art models on the open-domain DailyDialog dataset. We observe a similar behavior on the DST task of the MultiWOZ dataset when the proposed context representation is applied to existing DST models. We also discuss the generalizability and interpretability of DialoGen and show that the relevance score of previous utterances agrees well with human cognition.
翻訳日:2023-10-05 10:57:54 公開日:2023-10-03
# 回復型生涯学習のためのトランスフォーマー

Transforming Transformers for Resilient Lifelong Learning ( http://arxiv.org/abs/2303.08250v3 )

ライセンス: Link先を確認
Chinmay Savadikar, Michelle Dai, Tianfu Wu(参考訳) 破滅的な記憶のない生涯学習(レジリエンス)は、ディープニューラルネットワークにとってオープンな問題である。 先行技術は主に畳み込みニューラルネットワークに焦点を当てている。 深層学習におけるトランスフォーマーの優位性の高まりに伴い,トランスフォーマーを用いた生涯学習研究の必要性が高まっている。 トランスフォーマーは、タスクを意識した方法で成長することを学べる。これは、軽量の学習可能なプラスチックコンポーネントをアーキテクチャに導入し、パラメータが重いが安定したコンポーネントをストリーミングタスクで維持することによって、動的に変換できる。 その目的のために,人間の脳における海馬の機能によって維持される生涯学習能力に動機づけられ,トランスフォーマーにおける人工海馬(artihippo)の実装について検討する。 視覚変換器(ViTs)におけるArtiHippoを,4つの側面のレジリエンスな生涯学習のために同定し,成長させる方法を提案する。 i) ストリーミングタスクにおいて、ViTのコア機能を保ちながら可塑性を実現するためにArtiHippoをどこに配置するか。 (ii)生涯学習における異なる性質の課題に取り組むための表現性と適応性を確保するためのアルティヒッポの表現と実現方法 (三)タスクシナジー(すなわち学習知識)を活用して破滅的な忘れを克服するためにArtiHippoをどう成長させるか。 (4)提案したArtiHippoとプロンプトベースのアプローチを最大限に活用する方法。 実験では,課題領域decathlon(vdd)ベンチマークと5データセットベンチマークを用いて,タスクインクリメンタルな生涯学習環境下で提案手法をテストした。 相変わらず学び続ける有能なアーティヒッポよりも一貫して優れたパフォーマンスを得る。 我々の知る限り、これは挑戦的なVDDベンチマークでVTで生涯学習する最初の試みである。

Lifelong learning without catastrophic forgetting (i.e., resiliency) remains an open problem for deep neural networks. The prior art mostly focuses on convolutional neural networks. With the increasing dominance of Transformers in deep learning, it is a pressing need to study lifelong learning with Transformers. Due to the complexity of training Transformers in practice, for lifelong learning, a question naturally arises: Can Transformers be learned to grow in a task aware way, that is to be dynamically transformed by introducing lightweight learnable plastic components to the architecture, while retaining the parameter-heavy, but stable components at streaming tasks? To that end, motivated by the lifelong learning capability maintained by the functionality of Hippocampi in human brain, we explore what would be, and how to implement, Artificial Hippocampi (ArtiHippo) in Transformers. We present a method to identify, and learn to grow, ArtiHippo in Vision Transformers (ViTs) for resilient lifelong learning in four aspects: (i) Where to place ArtiHippo to enable plasticity while preserving the core function of ViTs at streaming tasks? (ii) How to represent and realize ArtiHippo to ensure expressivity and adaptivity for tackling tasks of different nature in lifelong learning? (iii) How to learn to grow ArtiHippo to exploit task synergies (i.e., the learned knowledge) and overcome catastrophic forgetting? (iv) How to harness the best of our proposed ArtiHippo and prompting-based approaches? In experiments, we test the proposed method on the challenging Visual Domain Decathlon (VDD) benchmark and the 5-Dataset benchmark under the task-incremental lifelong learning setting. It obtains consistently better performance than the prior art with sensible ArtiHippo learned continually. To our knowledge, it is the first attempt of lifelong learning with ViTs on the challenging VDD benchmark.
翻訳日:2023-10-05 10:52:15 公開日:2023-10-03
# D-分離の相違について

On the Unlikelihood of D-Separation ( http://arxiv.org/abs/2303.05628v2 )

ライセンス: Link先を確認
Itai Feigenbaum, Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Weiran Yao, Caiming Xiong, Devansh Arpit(参考訳) 制約ベースのメソッドは、oracleを介してグラフ内のノードのd分離条件付きコンディショニングセットを検索することによって、それを行う。 本稿では,大きなグラフ上では,グラフが極めてスパースでない限り,d-セパレーションの存在が保証されたとしても,d-セパレーションは稀な現象であることを示す。 次に、因果発見のためのPCアルゴリズムの分析平均ケース分析と、UniformSGSと呼ぶSGSアルゴリズムの変種について述べる。 ノードのセット $v=\{v_1,\ldots,v_n\}$ を考え、ランダムな dag $g=(v,e)$ where $(v_a, v_b) \in e$ with i.i.d. probability $p_1$ if $a<b$ and $0$ if $a > b$。 我々は、$v-\{x,y\}$ d-の部分集合が$x$と$y$を分離し、$x$と$y$がd-分離可能である確率の上限を与える。 PCアルゴリズムでは、その最悪ケース保証が非スパースグラフで失敗することが知られているが、平均ケースでも同じことが正しいことを示し、スパーシティ要件がかなり要求されている: 優れた性能では、密度は平均ケースでも$0$ as $|V| \rightarrow \infty$にされなければならない。 UniformSGSでは、既存のエッジに対してランニング時間が指数的であることが知られているが、平均的な場合、それは既存のほとんどのエッジにおいても期待されるランニング時間であることを示す。

Causal discovery aims to recover a causal graph from data generated by it; constraint based methods do so by searching for a d-separating conditioning set of nodes in the graph via an oracle. In this paper, we provide analytic evidence that on large graphs, d-separation is a rare phenomenon, even when guaranteed to exist, unless the graph is extremely sparse. We then provide an analytic average case analysis of the PC Algorithm for causal discovery, as well as a variant of the SGS Algorithm we call UniformSGS. We consider a set $V=\{v_1,\ldots,v_n\}$ of nodes, and generate a random DAG $G=(V,E)$ where $(v_a, v_b) \in E$ with i.i.d. probability $p_1$ if $a<b$ and $0$ if $a > b$. We provide upper bounds on the probability that a subset of $V-\{x,y\}$ d-separates $x$ and $y$, conditional on $x$ and $y$ being d-separable; our upper bounds decay exponentially fast to $0$ as $|V| \rightarrow \infty$. For the PC Algorithm, while it is known that its worst-case guarantees fail on non-sparse graphs, we show that the same is true for the average case, and that the sparsity requirement is quite demanding: for good performance, the density must go to $0$ as $|V| \rightarrow \infty$ even in the average case. For UniformSGS, while it is known that the running time is exponential for existing edges, we show that in the average case, that is the expected running time for most non-existing edges as well.
翻訳日:2023-10-05 10:51:43 公開日:2023-10-03
# Lumos: 分散デバイス上でのフェデレーショングラフ学習

Lumos: Heterogeneity-aware Federated Graph Learning over Decentralized Devices ( http://arxiv.org/abs/2303.00492v2 )

ライセンス: Link先を確認
Qiying Pan, Yifei Zhu, Lingyang Chu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う能力のため、現実世界のネットワークアプリケーションやシステムに広くデプロイされている。 しかし、データプライバシに対する認識の高まりは、サーバがすべてのグラフ情報を保持している従来の集中型モデルトレーニングパラダイムに大きく挑戦する。 フェデレートラーニング(Federated Learning)は、データ集中化のないモデルトレーニングを可能にする、新たなコラボレーティブコンピューティングパラダイムである。 既存のGNN研究は主にクライアントが固有のグラフやサブグラフを保持するシステムに焦点を当てている。 各クライアントが直接の隣人だけを意識している実際のノードレベルの連合状況についてはまだ研究されていない。 本稿では,ノードレベルのフェデレーショングラフにおける特徴と次数保護を備えた教師あり教師なし学習を支援するLumosという,最初のフェデレーションGNNフレームワークを提案する。 まず,限られた構造情報から表現能力を向上させるために木コンストラクタを設計する。 さらに,モンテカルロ・マルコフ・チェインに基づくアルゴリズムを用いて,理論的に保証された性能の次不均一性に起因する負荷の不均衡を緩和する。 クライアント毎に構築したツリーに基づいて,多用途トレーニングをサポートする分散型木ベースgnnトレーナーを提案する。 広範な実験により、lumosがベースラインをはるかに高い精度で上回り、通信コストとトレーニング時間を大幅に削減できることが示されている。

Graph neural networks (GNN) have been widely deployed in real-world networked applications and systems due to their capability to handle graph-structured data. However, the growing awareness of data privacy severely challenges the traditional centralized model training paradigm, where a server holds all the graph information. Federated learning is an emerging collaborative computing paradigm that allows model training without data centralization. Existing federated GNN studies mainly focus on systems where clients hold distinctive graphs or sub-graphs. The practical node-level federated situation, where each client is only aware of its direct neighbors, has yet to be studied. In this paper, we propose the first federated GNN framework called Lumos that supports supervised and unsupervised learning with feature and degree protection on node-level federated graphs. We first design a tree constructor to improve the representation capability given the limited structural information. We further present a Monte Carlo Markov Chain-based algorithm to mitigate the workload imbalance caused by degree heterogeneity with theoretically-guaranteed performance. Based on the constructed tree for each client, a decentralized tree-based GNN trainer is proposed to support versatile training. Extensive experiments demonstrate that Lumos outperforms the baseline with significantly higher accuracy and greatly reduced communication cost and training time.
翻訳日:2023-10-05 10:51:08 公開日:2023-10-03
# 4-\epsilon$ dimensional hermitian field theory と a 軸に結合したフェルミオンに対する $\mathcal{pt}$-symmetric theory を結ぶ再正規化群フロー

Renormalisation group flows connecting a $4-\epsilon$ dimensional Hermitian field theory to a $\mathcal{PT}$-symmetric theory for a fermion coupled to an axion ( http://arxiv.org/abs/2302.14780v4 )

ライセンス: Link先を確認
Lewis Croney, Sarben Sarkar(参考訳) エルミート場理論の再正規化群フローは、時空次元のフェルミオンに結合された公理に対する非エルミート的パリティ時間(英語版)(\mathcal{pt}$)対称場理論(英語版)を導く軌道を持つことが示され、ここでは$\epsilon >0$である。 この正規化可能体論において、ディラックフェルミオン場は擬スカラー (xion) 場へのユーカワカップリング$g$を持ち、擬スカラー自己カップリング$u$が存在する。 この発見のロバスト性は、$\epsilon$ dpependent wilson-fisher の不動点間の流れを考慮し、また湯川カップリングの \emph{three loops} と四次スカラーカップリングの \emph{two loops} に作用させることによって確立される。 非自明な固定点近傍のフローは、$\epsilon$展開とともに摂動解析を用いて計算される。 グローバルフローパターンは、正の$u$から負の$u$へのフローを示している。 和法を用いて、非摂動的$\mathcal{pt}$-symmetric saddle point を $d=3$ で示す。

The renormalisation group flow of a Hermitian field theory is shown to have trajectories which lead to a non-Hermitian Parity-Time ($\mathcal{PT}$) symmetric field theory for an axion coupled to a fermion in spacetime dimensions $D=4-\epsilon$, where $\epsilon >0 $. In this renormalisable field theory, the Dirac fermion field has a Yukawa coupling $g$ to a pseudoscalar (axion) field and there is quartic pseudoscalar self-coupling $u$. The robustness of this finding is established by considering flows between $\epsilon$ dpependent Wilson-Fisher fixed points and also by working to \emph{three loops} in the Yukawa coupling and to \emph{two loops} in the quartic scalar coupling. The flows in the neighbourhood of the non-trivial fixed points are calculated using perturbative analysis, together with the $\epsilon$ expansion. The global flow pattern indicates flows from positive $u$ to negative $u$; there are no flows between real and imaginary $g$. Using summation techniques we demonstrate a possible non-perturbative $\mathcal{PT}$-symmetric saddle point for $D=3$.
翻訳日:2023-10-05 10:50:47 公開日:2023-10-03
# 無限次元拡散モデル

Infinite-Dimensional Diffusion Models ( http://arxiv.org/abs/2302.10130v2 )

ライセンス: Link先を確認
Jakiw Pidstrigach, Youssef Marzouk, Sebastian Reich, Sven Wang(参考訳) 拡散モデルは、画像や時系列などの本質的に無限次元のデータを含む多くのアプリケーション領域に大きな影響を与えている。 標準アプローチは、まず離散化し、次に離散化データに拡散モデルを適用することである。 このようなアプローチは事実上魅力的であるが、離散化パラメータが洗練されるにつれて、結果のアルゴリズムの性能は低下する。 本稿では,その代わりに拡散に基づく生成モデルを無限次元で直接定式化し,関数の生成モデルに適用する。 我々は、この定式化が無限次元の設定において十分に成り立つことを証明し、サンプルから目標測度への次元非依存距離境界を与える。 また,この理論を用いて無限次元拡散モデルの設計ガイドラインも作成する。 画像分布の場合、これらのガイドラインは拡散モデルで現在行われている標準選択と一致している。 しかし、他の分布に対しては、このアルゴリズムを多様体上のデータ分布に適用し、ベイズ逆問題やシミュレーションに基づく推論にインスパイアすることで、理論的にも経験的にもこれらの正準選択を改善することができる。

Diffusion models have had a profound impact on many application areas, including those where data are intrinsically infinite-dimensional, such as images or time series. The standard approach is first to discretize and then to apply diffusion models to the discretized data. While such approaches are practically appealing, the performance of the resulting algorithms typically deteriorates as discretization parameters are refined. In this paper, we instead directly formulate diffusion-based generative models in infinite dimensions and apply them to the generative modeling of functions. We prove that our formulations are well posed in the infinite-dimensional setting and provide dimension-independent distance bounds from the sample to the target measure. Using our theory, we also develop guidelines for the design of infinite-dimensional diffusion models. For image distributions, these guidelines are in line with the canonical choices currently made for diffusion models. For other distributions, however, we can improve upon these canonical choices, which we show both theoretically and empirically, by applying the algorithms to data distributions on manifolds and inspired by Bayesian inverse problems or simulation-based inference.
翻訳日:2023-10-05 10:50:14 公開日:2023-10-03
# koopmanベースの一般化境界:フルランクウェイトの新しい側面

Koopman-based generalization bound: New aspect for full-rank weights ( http://arxiv.org/abs/2302.05825v2 )

ライセンス: Link先を確認
Yuka Hashimoto, Sho Sonoda, Isao Ishikawa, Atsushi Nitanda, Taiji Suzuki(参考訳) クープマン演算子を用いたニューラルネットワークの一般化のための新しい境界を提案する。 既存の作品の多くは低ランクの重量行列に焦点を当てているが、フルランクの重量行列に焦点を当てている。 重み行列の条件数が小さいとき、我々の境界は既存のノルムに基づく境界よりも強くなる。 特に、重み行列が直交するならば、ネットワークの幅とは完全に独立である。 我々の境界は既存の境界とは矛盾しないが、既存の境界を補完するものである。 いくつかの既存の経験的結果によって支持されるように、低ランク性は一般化の唯一の理由ではない。 さらに、この境界は既存の境界と結合してより厳密な境界を得ることができる。 その結果,ニューラルネットワークの高階重み行列による一般化の理解に新たな光を当て,演算子理論解析とニューラルネットワークの一般化の関連性を提供する。

We propose a new bound for generalization of neural networks using Koopman operators. Whereas most of existing works focus on low-rank weight matrices, we focus on full-rank weight matrices. Our bound is tighter than existing norm-based bounds when the condition numbers of weight matrices are small. Especially, it is completely independent of the width of the network if the weight matrices are orthogonal. Our bound does not contradict to the existing bounds but is a complement to the existing bounds. As supported by several existing empirical results, low-rankness is not the only reason for generalization. Furthermore, our bound can be combined with the existing bounds to obtain a tighter bound. Our result sheds new light on understanding generalization of neural networks with full-rank weight matrices, and it provides a connection between operator-theoretic analysis and generalization of neural networks.
翻訳日:2023-10-05 10:49:58 公開日:2023-10-03
# フィードバックを伴う隠れたアライメント言語モデルの連鎖

Chain of Hindsight Aligns Language Models with Feedback ( http://arxiv.org/abs/2302.02676v7 )

ライセンス: Link先を確認
Hao Liu, Carmelo Sferrazza, Pieter Abbeel(参考訳) 人間の嗜好から学ぶことは、言語モデルが人間の要求にマッチし、人間や社会的価値に合わせるために重要である。 以前の作品は、人間のフィードバックから学び、指示を理解し、従うことで、目覚ましい成功を収めた。 それにもかかわらず、これらの手法は人間のアノテータに好まれる手書きモデル世代に基づいて構築され、データ利用の面で効率が悪く、一般に適用が難しいか、あるいは不完全な報酬機能に悩まされ、極めて困難な最適化に依存している強化学習に依存している。 本研究では,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。 私たちのアイデアは、人間が言語形式で提示された広範なフィードバックから学ぶ方法にインスピレーションを受けています。 我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用し、言語モデルの言語理解能力を活用できるようにします。 フィードバックとペアリングしたモデル生成のシーケンス上でモデルを条件付けする。 そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。 提案手法を大規模言語モデルに適用することにより,Hendsight の Chain が従来の手法をはるかに上回り,言語モデルと人間の嗜好の整合を図った。 要約と対話のベンチマークにおいて有意な改善を報告し,このアプローチは人的評価において顕著に好まれる。

Learning from human preferences is important for language models to match human needs and to align with human and social values. Prior works have achieved remarkable successes by learning from human feedback to understand and follow instructions. Nonetheless, these methods are either founded on hand-picked model generations that are favored by human annotators, rendering them inefficient in terms of data utilization and challenging to apply in general, or they depend on reinforcement learning, which often suffers from imperfect reward functions and relies on extremely challenging optimizations. In this work, we propose a novel technique, Chain of Hindsight, that is easy to optimize and can learn from any form of feedback, regardless of its polarity. Our idea is inspired by how humans learn from extensive feedback presented in the form of languages. We convert all types of feedback into sequences of sentences, which are then used to fine-tune the model, allowing us to take advantage of the language comprehension capabilities of language models. We condition the model on a sequence of model generations paired with feedback. By doing so, the model is trained to generate outputs based on feedback, while learning to identify and correct negative attributes or errors. Applying our method to large language models, we observed that Chain of Hindsight significantly surpasses previous methods in aligning language models with human preferences. We report significant improvements on summarization and dialogue benchmarks, with our approach markedly preferred in human evaluations.
翻訳日:2023-10-05 10:49:44 公開日:2023-10-03
# 補助データの探索と活用による少数ショット一般化の改善

Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data ( http://arxiv.org/abs/2302.00674v4 )

ライセンス: Link先を確認
Alon Albalak, Colin Raffel, William Yang Wang(参考訳) しかし、ラベル付きデータポイントに過度に適合することなく、一般化可能なモデルを学習することは困難である。 本研究では,補足データ(flad: few-shot learning with auxiliary data)に着目し,補足データへのアクセスを想定した学習パラダイムを提案する。 従来の研究では、補助データと目標データを混合する自動化手法が提案されていたが、これらの手法は通常、補助データセットの数と線形に(あるいはそれ以上)スケールし、実用性を制限する。 本研究では、FLADとマルチアームバンディット設定の中心となる探索探索ジレンマを関連付け、計算複雑性が補助データセットの数に依存しないアルゴリズムを導出し、従来の手法よりも100倍の補助データセットにスケールできるようにする。 提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つで,従来の FLAD メソッドと比較し,探索と利用の組み合わせが不可欠であることを確認した。 実験により,提案手法は既存のFLAD法を4%上回る結果となり,最初の30億のパラメータ言語モデルが1億7500億のパラメータ GPT-3 を上回った。 全体として、FLADのより優れた、より効率的な混合戦略の発見は、数発の学習における一般化を著しく改善するための有効な道筋となることを示唆している。

Few-shot learning is valuable in many real-world applications, but learning a generalizable model without overfitting to the few labeled datapoints is challenging. In this work, we focus on Few-shot Learning with Auxiliary Data (FLAD), a training paradigm that assumes access to auxiliary data during few-shot learning in hopes of improving generalization. Previous works have proposed automated methods for mixing auxiliary and target data, but these methods typically scale linearly (or worse) with the number of auxiliary datasets, limiting their practicality. In this work we relate FLAD to the explore-exploit dilemma that is central to the multi-armed bandit setting and derive algorithms whose computational complexity is independent of the number of auxiliary datasets, allowing us to scale to 100x more auxiliary datasets than prior methods. We propose two algorithms -- EXP3-FLAD and UCB1-FLAD -- and compare them with prior FLAD methods that either explore or exploit, finding that the combination of exploration and exploitation is crucial. Through extensive experimentation we find that our methods outperform all pre-existing FLAD methods by 4% and lead to the first 3 billion parameter language models that outperform the 175 billion parameter GPT-3. Overall, our work suggests that the discovery of better, more efficient mixing strategies for FLAD may provide a viable path towards substantially improving generalization in few-shot learning.
翻訳日:2023-10-05 10:49:18 公開日:2023-10-03
# 深層演算子学習によるPDEの次元曲線の学習

Deep Operator Learning Lessens the Curse of Dimensionality for PDEs ( http://arxiv.org/abs/2301.12227v3 )

ライセンス: Link先を確認
Ke Chen, Chunmei Wang and Haizhao Yang(参考訳) ディープニューラルネットワーク(DNN)は多くの領域で顕著な成功を収めており、PDE関連の問題への応用は急速に進んでいる。 本稿では, DNN を用いたバナッハ空間上のリプシッツ演算子学習の一般化誤差と様々な PDE 解演算子への応用を推定する。 目標は、特定のテストエラーを保証するために必要なDNN幅、深さ、トレーニングサンプルの数を指定することだ。 データ分布や演算子構造を軽度に仮定すると、深層演算子の学習はPDEの離散化分解に緩やかに依存し、楕円型方程式、放物型方程式、バーガース方程式を含む多くのPDE関連問題における次元性の呪いを減らすことができる。 また,演算子学習における離散化不変性に関する洞察を与えるためにも適用した。

Deep neural networks (DNNs) have achieved remarkable success in numerous domains, and their application to PDE-related problems has been rapidly advancing. This paper provides an estimate for the generalization error of learning Lipschitz operators over Banach spaces using DNNs with applications to various PDE solution operators. The goal is to specify DNN width, depth, and the number of training samples needed to guarantee a certain testing error. Under mild assumptions on data distributions or operator structures, our analysis shows that deep operator learning can have a relaxed dependence on the discretization resolution of PDEs and, hence, lessen the curse of dimensionality in many PDE-related problems including elliptic equations, parabolic equations, and Burgers equations. Our results are also applied to give insights about discretization-invariance in operator learning.
翻訳日:2023-10-05 10:48:52 公開日:2023-10-03
# 絡み合いエンベズメントの完全特徴

Complete Characterization of Entanglement Embezzlement ( http://arxiv.org/abs/2303.17749v2 )

ライセンス: Link先を確認
Elia Zanoni, Thomas Theurer, Gilad Gour(参考訳) ローカル操作と古典通信(LOCC)を使用して、絡み合いは操作できるが、生成されない。 しかし、絡み合うことはできる。 本研究では,ユニバーサル・エンベジング・ファミリーを完全に特徴付け,ヴァン・ダムとヘイデンが導入したオリジナル・ファミリーをいかに独身化しているかを実証する。 これを実現するために、まず純粋から混合状態のLOCC変換の完全な特徴を与える。 次に,新しい変換距離を導入し,それに対する閉形式表現を導出する。 これらの結果は独立した関心事かもしれない。

Using local operations and classical communication (LOCC), entanglement can be manipulated but not created. However, entanglement can be embezzled. In this work, we completely characterize universal embezzling families and demonstrate how this singles out the original family introduced by van Dam and Hayden. To achieve this, we first give a full characterization of pure to mixed state LOCC-conversions. Then, we introduce a new conversion distance and derive a closed-form expression for it. These results might be of independent interest.
翻訳日:2023-10-05 10:38:16 公開日:2023-10-03
# DRSM:認証ロバスト性を示すマルウェア分類器の非ランダム化平滑化

DRSM: De-Randomized Smoothing on Malware Classifier Providing Certified Robustness ( http://arxiv.org/abs/2303.13372v3 )

ライセンス: Link先を確認
Shoumik Saha, Wenxiao Wang, Yigitcan Kaya, Soheil Feizi, Tudor Dumitras(参考訳) 機械学習(ML)モデルは、20年以上にわたってマルウェア検出に利用されてきた。 その結果、マルウェアの著者とアンチウイルスシステムの間の戦争が進行中となり、研究者は脱走攻撃に対するマルウェア検出モデルの防御を提案するよう促した。 しかし、ほとんどの場合、回避攻撃に対する既存の防御は大規模なパフォーマンス劣化に悩まされ、/または特定の攻撃に対してしか防御できないため、現実の環境では実用的ではない。 本研究では,マルウェア検出領域の非ランダム化スムース化技術を再設計し,DRSM(De-Randomized Smoothed MalConv)という認証防御技術を開発した。 具体的には,実行可能ファイルの局所構造を最大に保ちながら,逆数バイトの影響を確実に抑制するウィンドウアブレーション方式を提案する。 DRSMが連続した逆数バイトの攻撃に対して理論的に堅牢であることを示し、その性能と信頼性を実験的に検証し、ロバストネスのコストとして限界精度低下のみを観測した。 私たちの知る限り、マルウェアを静的に検出する領域において、認証された堅牢性を提供するのは当社が初めてです。 より驚くべきことに、DRSMを異なるタイプの9つの経験的攻撃に対して評価することで、提案された防御は様々な攻撃に対してある程度堅牢であり、その一部は元の脅威モデルの範囲から外れている。 さらに, 各種ソースから最近15.5万個の良性生実行可能ファイルを収集し, PACE(Publicly Accessible Collection(s) of Executables)と呼ばれるデータセットとして公開し, マルウェア検出研究のための公用良性データセットの不足を軽減し, より代表的なデータを提供する。

Machine Learning (ML) models have been utilized for malware detection for over two decades. Consequently, this ignited an ongoing arms race between malware authors and antivirus systems, compelling researchers to propose defenses for malware-detection models against evasion attacks. However, most if not all existing defenses against evasion attacks suffer from sizable performance degradation and/or can defend against only specific attacks, which makes them less practical in real-world settings. In this work, we develop a certified defense, DRSM (De-Randomized Smoothed MalConv), by redesigning the de-randomized smoothing technique for the domain of malware detection. Specifically, we propose a window ablation scheme to provably limit the impact of adversarial bytes while maximally preserving local structures of the executables. After showing how DRSM is theoretically robust against attacks with contiguous adversarial bytes, we verify its performance and certified robustness experimentally, where we observe only marginal accuracy drops as the cost of robustness. To our knowledge, we are the first to offer certified robustness in the realm of static detection of malware executables. More surprisingly, through evaluating DRSM against 9 empirical attacks of different types, we observe that the proposed defense is empirically robust to some extent against a diverse set of attacks, some of which even fall out of the scope of its original threat model. In addition, we collected 15.5K recent benign raw executables from diverse sources, which will be made public as a dataset called PACE (Publicly Accessible Collection(s) of Executables) to alleviate the scarcity of publicly available benign datasets for studying malware detection and provide future research with more representative data of the time.
翻訳日:2023-10-05 10:38:07 公開日:2023-10-03
# 確率的勾配降下の確率的安定性

The Probabilistic Stability of Stochastic Gradient Descent ( http://arxiv.org/abs/2303.13093v2 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda(参考訳) SGD(Stochastic Gradient Descent)の安定性を特徴づけ、理解することは、ディープラーニングにおいて未解決の問題である。 一般的な方法は、統計モーメント、例えばパラメータの分散の収束を利用して安定性を定量化することである。 SGD の安定性の定義を再検討し、SGD の $\textit{probabilistic stability}$ を定義するために $\textit{convergence in probability}$条件を使うことを提案する。 確率的安定性は、sgdがニューラルネットワークにとって有意義なソリューションをどのように選択するかという、深層学習理論の基本的な問題に光を当てている。 確率的安定性のレンズを通してのみsgdは、安定性の完全な損失のフェーズ、モデルが不正確なデータ相関をキャプチャする不正確な学習、低ランクのサドルへの収束、モデルが正しい相関をキャプチャする正しい学習といった学習の豊かで実際に関連するフェーズを示す。 これらの位相境界は力学のリャプノフ指数によって正確に定量される。 得られた位相図は、基礎となる勾配がノイズの多いニューラルネットワークにおいて、SGDが低ランクサドルを好むことを示唆し、学習性能に影響を与える。

Characterizing and understanding the stability of Stochastic Gradient Descent (SGD) remains an open problem in deep learning. A common method is to utilize the convergence of statistical moments, esp. the variance, of the parameters to quantify the stability. We revisit the definition of stability for SGD and propose using the $\textit{convergence in probability}$ condition to define the $\textit{probabilistic stability}$ of SGD. The probabilistic stability sheds light on a fundamental question in deep learning theory: how SGD selects a meaningful solution for a neural network from an enormous number of possible solutions that may severely overfit. We show that only through the lens of probabilistic stability does SGD exhibit rich and practically relevant phases of learning, such as the phases of the complete loss of stability, incorrect learning where the model captures incorrect data correlation, convergence to low-rank saddles, and correct learning where the model captures the correct correlation. These phase boundaries are precisely quantified by the Lyapunov exponents of the dynamics. The obtained phase diagrams imply that SGD prefers low-rank saddles in a neural network when the underlying gradient is noisy, thereby influencing the learning performance.
翻訳日:2023-10-05 10:37:32 公開日:2023-10-03
# 疑似知識蒸留によるクリーバーハンス予測器の修正に向けて

Towards Fixing Clever-Hans Predictors with Counterfactual Knowledge Distillation ( http://arxiv.org/abs/2310.01011v2 )

ライセンス: Link先を確認
Sidney Bender, Christopher J. Anders, Pattarawatt Chormai, Heike Marxfeld, Jan Herrmann, Gr\'egoire Montavon(参考訳) 本稿では,人的専門家のフィードバックを生かして,深層学習モデルの創始者への依存を検知し,除去する,CFKDと呼ばれる新しい手法を提案する。 共同ファウンダーは、モデルが依存する傾向が強い機能であり、規制や安全クリティカルなドメインに予期せぬエラーをもたらす可能性がある。 本稿は,このような領域におけるCFKDの利点を強調し,他のタイプの説明に対する反実的説明の利点を示す。 本研究では,モデルにフィードバックを与えるCFKDと異なる教師の成功を定量的に評価する実験手法を提案する。 また,検証精度よりも真のテスト性能によく相関する新しい指標を提案する。 本稿では,CFKDの人工的拡張データセットおよび実世界の病理組織学的データセットに対する効果を示す。

This paper introduces a novel technique called counterfactual knowledge distillation (CFKD) to detect and remove reliance on confounders in deep learning models with the help of human expert feedback. Confounders are spurious features that models tend to rely on, which can result in unexpected errors in regulated or safety-critical domains. The paper highlights the benefit of CFKD in such domains and shows some advantages of counterfactual explanations over other types of explanations. We propose an experiment scheme to quantitatively evaluate the success of CFKD and different teachers that can give feedback to the model. We also introduce a new metric that is better correlated with true test performance than validation accuracy. The paper demonstrates the effectiveness of CFKD on synthetically augmented datasets and on real-world histopathological datasets.
翻訳日:2023-10-05 10:30:04 公開日:2023-10-03
# CPU上の効率的なニューラルネットワーク推論のためのSIMDデータフロー協調最適化

SIMD Dataflow Co-optimization for Efficient Neural Networks Inferences on CPUs ( http://arxiv.org/abs/2310.00574v2 )

ライセンス: Link先を確認
Cyrus Zhou, Zack Hassman, Ruize Xu, Dhirpal Shah, Vaugnn Richard, Yanjing Li(参考訳) 我々は、CPU上にニューラルネットワークをデプロイする際の課題に対処し、精度を維持しながら推論時間を最小化することに重点を置いている。 本稿では、ニューラルネットワークのデータフロー(すなわち計算順序)を用いて、ヒューリスティック誘導分析とコード生成フレームワークを用いてデータ再利用の機会を探索し、様々な単一命令や複数のデータ(simd)の実装を探索し、最適化されたニューラルネットワークの実行を実現する。 その結果、入力と重みの再利用の両方を最大化しつつ、simdレジスタに出力を保持するデータフローは、8ビットニューラルネットワークの最大3倍のスピードアップ、バイナリニューラルネットワークの最大4.8倍のスピードアップを実現し、様々な推論ワークロードにおいて一貫して最高のパフォーマンスをもたらすことがわかった。

We address the challenges associated with deploying neural networks on CPUs, with a particular focus on minimizing inference time while maintaining accuracy. Our novel approach is to use the dataflow (i.e., computation order) of a neural network to explore data reuse opportunities using heuristic-guided analysis and a code generation framework, which enables exploration of various Single Instruction, Multiple Data (SIMD) implementations to achieve optimized neural network execution. Our results demonstrate that the dataflow that keeps outputs in SIMD registers while also maximizing both input and weight reuse consistently yields the best performance for a wide variety of inference workloads, achieving up to 3x speedup for 8-bit neural networks, and up to 4.8x speedup for binary neural networks, respectively, over the optimized implementations of neural networks today.
翻訳日:2023-10-05 10:28:41 公開日:2023-10-03
# グラフニューラルネットワークは最適な近似アルゴリズムか?

Are Graph Neural Networks Optimal Approximation Algorithms? ( http://arxiv.org/abs/2310.00526v2 )

ライセンス: Link先を確認
Morris Yau, Eric Lu, Nikolaos Karalias, Jessica Xu, Stefanie Jegelka(参考訳) 本研究では,半定義型プログラミング(sdp)の強力なアルゴリズムツールを用いて,組合せ最適化問題に対する最適近似アルゴリズムを得るためのグラフニューラルネットワークアーキテクチャを設計する。 具体的には, 多項式サイズのメッセージパッシングアルゴリズムは, ユニクゲーム・コンジェクチャを仮定した最大制約満足度問題に対して, 最も強力な多項式時間アルゴリズムを表現できることを示す。 この結果を利用して効率的なグラフニューラルネットワークアーキテクチャOpsGNNを構築し、マックスカットや最大独立集合のようなランドマーク組合せ最適化問題に対する高品質な近似解を得る。 我々のアプローチは、ニューラルネットワークと古典アルゴリズムの両方に対して、広範囲の現実世界および合成データセットに対して強力な経験的結果を得る。 最後に, コンベックス緩和を捉えた OptGNN の機能を利用して, 学習した OptGNN の埋め込みから最適性(最適解のバウンド)の二重証明を生成するアルゴリズムを設計する。

In this work we design graph neural network architectures that can be used to obtain optimal approximation algorithms for a large class of combinatorial optimization problems using powerful algorithmic tools from semidefinite programming (SDP). Concretely, we prove that polynomial-sized message passing algorithms can represent the most powerful polynomial time algorithms for Max Constraint Satisfaction Problems assuming the Unique Games Conjecture. We leverage this result to construct efficient graph neural network architectures, OptGNN, that obtain high-quality approximate solutions on landmark combinatorial optimization problems such as Max Cut and maximum independent set. Our approach achieves strong empirical results across a wide range of real-world and synthetic datasets against both neural baselines and classical algorithms. Finally, we take advantage of OptGNN's ability to capture convex relaxations to design an algorithm for producing dual certificates of optimality (bounds on the optimal solution) from the learned embeddings of OptGNN.
翻訳日:2023-10-05 10:28:09 公開日:2023-10-03
# 多体相互作用を持つスピンモデルにおける量子多体傷

Quantum many-body scars in spin models with multibody interactions ( http://arxiv.org/abs/2304.13624v3 )

ライセンス: Link先を確認
Kazuyuki Sanada, Yuan Miao, Hosho Katsura(参考訳) 我々は、量子多体傷を示す多体相互作用を持つ量子スピンモデルのいくつかのクラスを紹介し、研究する。 モデルは2つの異なる方法によって構成される: 1つは可積分スピン鎖における境界状態を利用し、もう1つは制限スペクトル生成代数のような既存の方法の変種に基づく。 最初の方法は、フラストレーションのないシステムのプロトタイプであるMageumdar-GhoshとAffleck-Kennedy-Lieb-Tasakiモデルの変形を構築することができる。 2つ目の方法により、1次元と2次元の両方でスカラースピンキラリティを含む1$のスピンモデルの大規模なクラスを構築する。 興味深いことに、いくつかのケースでは、構築されたモデルには、異なる特徴の傷跡状態の塔がある。 それぞれの例において、そのスペクトル特性と力学特性を他の状態と比較することにより、傷跡状態と熱状態とが異なる挙動を示す。 また,第2法により構築された傷痕状態の重ね合わせは,動的に完全に周期的に回復することを示す。

We introduce and study several classes of quantum spin models with multi-body interactions that exhibit quantum many-body scars. The models are constructed by two different methods: one exploiting boundary states in integrable spin chains and the other based on a variant of existing methods such as restricted spectrum generating algebras. The first method allows us to construct deformations of the Majumdar-Ghosh and Affleck-Kennedy-Lieb-Tasaki models -- prototypes of frustration-free systems. With the second method, we construct a large class of spin-$1$ models involving scalar spin chirality in both one and two dimensions. Interestingly, in some cases, the models so constructed have towers of scar states of different character. For each example, we show that the scar states behave differently from thermal states by comparing their spectral and dynamical properties with those of other states. We also show that a superposition of the scar states constructed by the second method exhibits perfectly periodic revivals in the dynamics.
翻訳日:2023-10-05 10:21:38 公開日:2023-10-03
# 物理インフォームドインバータブルニューラルネットワークを用いた逆問題に対する効率的なベイズ推論

Efficient Bayesian inference using physics-informed invertible neural networks for inverse problems ( http://arxiv.org/abs/2304.12541v3 )

ライセンス: Link先を確認
Xiaofei Guan, Xintong Wang, Hao Wu, Zihao Yang and Peng Yu(参考訳) 本稿では,物理インフォームド・インバータブルニューラルネットワーク(PI-INN)を利用したベイズ逆問題に対する革新的なアプローチを提案する。 PI-INNフレームワークは、可逆ニューラルネットワーク(INN)とニューラルネットワーク(NB-Net)の2つのサブネットワークを含んでいる。 nb-net の主な役割は、基礎となる偏微分方程式によって引き起こされる前方問題に対する解を特徴づける空間基底関数のモデル化である。 同時に、INNは入力物理場にリンクされたパラメータベクトルを前方問題解を表す拡張係数とガウス潜在雑音の2つの異なる成分に分割するように設計されている。 フォワードマッピングが正確に推定され、拡張係数と遅延雑音の間の統計的独立性がよく維持されている場合、PI-INNはベイズ逆問題に対して正確かつ効率的な生成モデルを提供し、トラクタブルな後続密度推定をもたらす。 特定の物理インフォームド深層学習モデルとして、PI-INNの第一の訓練課題は、推定密度に基づいて新たな独立損失を導入することによる独立制約の強化である。 提案するpi-innの有効性と精度は,逆運動学,1次元および2次元拡散方程式,地震時トモグラフィなど,一連の数値実験によって支持する。 具体的には,カーネルベースの最大誤差損失を計算的に求める場合と比較して,提案した独立性損失の優れた性能を示す。

In this paper, we introduce an innovative approach for addressing Bayesian inverse problems through the utilization of physics-informed invertible neural networks (PI-INN). The PI-INN framework encompasses two sub-networks: an invertible neural network (INN) and a neural basis network (NB-Net). The primary role of the NB-Net lies in modeling the spatial basis functions characterizing the solution to the forward problem dictated by the underlying partial differential equation. Simultaneously, the INN is designed to partition the parameter vector linked to the input physical field into two distinct components: the expansion coefficients representing the forward problem solution and the Gaussian latent noise. If the forward mapping is precisely estimated, and the statistical independence between expansion coefficients and latent noise is well-maintained, the PI-INN offers a precise and efficient generative model for Bayesian inverse problems, yielding tractable posterior density estimates. As a particular physics-informed deep learning model, the primary training challenge for PI-INN centers on enforcing the independence constraint, which we tackle by introducing a novel independence loss based on estimated density. We support the efficacy and precision of the proposed PI-INN through a series of numerical experiments, including inverse kinematics, 1-dimensional and 2-dimensional diffusion equations, and seismic traveltime tomography. Specifically, our experimental results showcase the superior performance of the proposed independence loss in comparison to the commonly used but computationally demanding kernel-based maximum mean discrepancy loss.
翻訳日:2023-10-05 10:21:21 公開日:2023-10-03
# Bridging Discreteとバックプロパゲーション: ストレートスロットと向こう側

Bridging Discrete and Backpropagation: Straight-Through and Beyond ( http://arxiv.org/abs/2304.08612v2 )

ライセンス: Link先を確認
Liyuan Liu, Chengyu Dong, Xiaodong Liu, Bin Yu, Jianfeng Gao(参考訳) ディープラーニングの基礎となるバックプロパゲーションは、連続変数の計算勾配に限られている。 この制限は離散潜在変数を含む問題に対して問題を引き起こす。 この問題に対処するために,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。 まず,広く用いられているストレートスルー(st)ヒューリスティックを調べ,勾配の一階近似として機能することを示す。 そこで本研究では,2次数値解法である heun's method を統合することで2次精度を実現する reinmax を提案する。 ReinMaxはHessianや他の二階微分を必要としないため、計算オーバーヘッドは無視できる。 様々なタスクに関する大規模な実験結果は、ReinMaxが最先端技術よりも優れていることを示している。 実装はhttps://github.com/microsoft/reinmaxでリリースされる。

Backpropagation, the cornerstone of deep learning, is limited to computing gradients for continuous variables. This limitation poses challenges for problems involving discrete latent variables. To address this issue, we propose a novel approach to approximate the gradient of parameters involved in generating discrete latent variables. First, we examine the widely used Straight-Through (ST) heuristic and demonstrate that it works as a first-order approximation of the gradient. Guided by our findings, we propose ReinMax, which achieves second-order accuracy by integrating Heun's method, a second-order numerical method for solving ODEs. ReinMax does not require Hessian or other second-order derivatives, thus having negligible computation overheads. Extensive experimental results on various tasks demonstrate the superiority of ReinMax over the state of the art. Implementations are released at https://github.com/microsoft/ReinMax.
翻訳日:2023-10-05 10:20:56 公開日:2023-10-03
# Chain-of-Knowledge:異種源に適応した動的知識による大規模言語モデルの構築

Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous Sources ( http://arxiv.org/abs/2305.13269v2 )

ライセンス: Link先を確認
Xingxuan Li, Ruochen Zhao, Yew Ken Chia, Bosheng Ding, Shafiq Joty, Soujanya Poria, Lidong Bing(参考訳) 本稿では,異種情報源からの接地情報を動的に取り込み,大規模言語モデル(llm)を強化する新しいフレームワークであるchain-of-knowledge(cok)を提案する。 結果として、より事実的合理性と、世代における幻覚を減少させる。 特に、CoKは推論準備、動的知識適応、解答統合の3段階からなる。 知識集約的な質問が与えられた後、CoKはまず、関連する知識ドメインを特定しながら、いくつかの予備的な論理と答えを準備します。 サンプルからの回答に多数意見の一致がなければ、cokは特定されたドメインからの知識を段階的に修正する。 これらの補正された合理性は、最終的な回答統合のより良い基盤となることができる。 主に非構造化データを使用する先行研究とは異なり、cokはウィキデータやテーブルのような構造化された知識ソースを活用して、より信頼性の高い事実情報を提供する。 動的知識適応段階において,構造化されていない知識ソースと構造化された知識ソースの両方にアクセスするために,sparqlやsql,自然文など,さまざまなクエリ言語に対するクエリ生成を可能にする適応型クエリ生成器を提案する。 さらに、合理的な間の誤りの伝播を最小限に抑えるため、cokは前回の補正された合理法を用いて徐々に合理性を補正し、後続の合理性を生成し補正する。 大規模な実験により、CoKは異なる領域にわたる知識集約タスクにおけるLLMの性能を一貫して改善することが示された。

We present chain-of-knowledge (CoK), a novel framework that augments large language models (LLMs) by dynamically incorporating grounding information from heterogeneous sources. It results in more factual rationales and reduced hallucination in generation. Specifically, CoK consists of three stages: reasoning preparation, dynamic knowledge adapting, and answer consolidation. Given a knowledge-intensive question, CoK first prepares several preliminary rationales and answers while identifying the relevant knowledge domains. If there is no majority consensus among the answers from samples, CoK corrects the rationales step by step by adapting knowledge from the identified domains. These corrected rationales can plausibly serve as a better foundation for the final answer consolidation. Unlike prior studies that primarily use unstructured data, CoK also leverages structured knowledge sources such as Wikidata and tables that provide more reliable factual information. To access both unstructured and structured knowledge sources in the dynamic knowledge adapting stage, we propose an adaptive query generator that allows the generation of queries for various types of query languages, including SPARQL, SQL, and natural sentences. Moreover, to minimize error propagation between rationales, CoK corrects the rationales progressively using preceding corrected rationales to generate and correct subsequent rationales. Extensive experiments show that CoK consistently improves the performance of LLMs on knowledge-intensive tasks across different domains.
翻訳日:2023-10-05 08:27:08 公開日:2023-10-03
# 因果性に基づく機械学習フェアネスのトレードオフ分析

Causality-Aided Trade-off Analysis for Machine Learning Fairness ( http://arxiv.org/abs/2305.13057v3 )

ライセンス: Link先を確認
Zhenlan Ji, Pingchuan Ma, Shuai Wang, Yanhui Li(参考訳) 機械学習(ML)の公正性向上への関心が高まっている。 公平性改善手法が増えているにもかかわらず、公平性改善手法を適用する際にmlパイプラインで考慮される要因間のトレードオフの体系的な理解が欠如している。 この理解は、開発者が公正なMLサービスの提供に関して情報的な決定をする上で不可欠である。 それでも、複数のフェアネスパラメータやその他の重要なメトリクスが絡み合っていて、互いに衝突している場合、トレードオフを分析することは極めて困難です。 本稿では,MLパイプラインにおける公平度パラメータと他の重要な指標とのトレードオフを分析するための原理的手法として因果解析を用いる。 因果関係分析を実際的かつ効果的に行うために, 正確な因果関係の発見を容易にする一連のドメイン固有最適化と, 確立された因果関係推論法に基づくトレードオフ解析のための統一的インターフェースを提案する。 本研究では,3つの実世界のデータセットを用いて,フェアネス改善手法を用いた総合的な実証研究を行う。 本研究は,fair mlのユーザおよび開発者に対して有効な提案を行う。 さらに,より倫理的かつ社会的に責任を負うai技術への道を開くために,最適公平性向上手法を選択するためのアプローチの多岐にわたる利用方法を示す。

There has been an increasing interest in enhancing the fairness of machine learning (ML). Despite the growing number of fairness-improving methods, we lack a systematic understanding of the trade-offs among factors considered in the ML pipeline when fairness-improving methods are applied. This understanding is essential for developers to make informed decisions regarding the provision of fair ML services. Nonetheless, it is extremely difficult to analyze the trade-offs when there are multiple fairness parameters and other crucial metrics involved, coupled, and even in conflict with one another. This paper uses causality analysis as a principled method for analyzing trade-offs between fairness parameters and other crucial metrics in ML pipelines. To ractically and effectively conduct causality analysis, we propose a set of domain-specific optimizations to facilitate accurate causal discovery and a unified, novel interface for trade-off analysis based on well-established causal inference methods. We conduct a comprehensive empirical study using three real-world datasets on a collection of widelyused fairness-improving techniques. Our study obtains actionable suggestions for users and developers of fair ML. We further demonstrate the versatile usage of our approach in selecting the optimal fairness-improving method, paving the way for more ethical and socially responsible AI technologies.
翻訳日:2023-10-05 08:26:43 公開日:2023-10-03
# 準一次元幾何学における立方体-四次相互作用下の明るいソリトンのダイナミクス

Dynamics of Bright Soliton Under Cubic-Quartic Interactions in Quasi One-Dimensional Geometry ( http://arxiv.org/abs/2305.12697v2 )

ライセンス: Link先を確認
Argha Debnath, Ayan Khan, Prasanta K Panigrahi(参考訳) 有効平均場と平均場(BMF)相互作用の微妙なバランスによる安定化機構による超低温気体中の液体状状態の最近の検査は、BMF寄与を含む修正/拡張Gross-Pitaevskii(eGP)方程式の研究を動機付けている。 本稿では, ソリトンが障害物を受ける中, eGP方程式によるソリトン状態の変動解析に着目する。 これは、BMF相互作用に明示的に依存したソリトンの異なる散乱シナリオを明らかにする。 その結果,異なるパラメータ領域におけるトンネル,部分トラップ,完全トラップの存在が確認された。 これらの観測は高速フーリエ変換法によりさらに裏付けられる。 後段では、解析を閉じ込められたシステムにも拡張します。 欠陥ポテンシャルの制御されたトラップとそのリリースは、量子情報ストレージに潜在的に有用である。

Recent inspection of liquid-like state in ultracold atomic gases due to the stabilization mechanism through the delicate balance between effective mean-field and beyond mean-field (BMF) interactions, has motivated us to study the modified/extended Gross-Pitaevskii (eGP) equation which includes the BMF contribution. In this article, we focus on variational analysis of solitonic regime with eGP equation while the soliton is subjected to an obstacle. This reveals different scattering scenarios of the soliton with explicit dependence of the BMF interaction. The results show the existence of tunneling, partial and complete trappings, in different parameter domains. These observations are further corroborated by the fast-Fourier transform method. In the later part we also extend our analysis to trapped systems. The controlled trapping in defect potential and its release can be potentially useful for quantum information storage.
翻訳日:2023-10-05 08:26:23 公開日:2023-10-03
# 「他人はどう思いますか?」:主観的知識を用いたタスク指向会話モデリング

"What do others think?": Task-Oriented Conversational Modeling with Subjective Knowledge ( http://arxiv.org/abs/2305.12091v2 )

ライセンス: Link先を確認
Chao Zhao, Spandana Gella, Seokhwan Kim, Di Jin, Devamanyu Hazarika, Alexandros Papangelis, Behnam Hedayatnia, Mahdi Namazifar, Yang Liu, Dilek Hakkani-Tur(参考訳) タスク指向対話システム(TOD)は,ホテルやレストランなどの特定の目標達成を支援する対話システムの構築を目的としている。 従来のTODはドメイン固有のAPI/DBや外部の事実知識に頼って応答を生成するが、それは主観的なユーザーからの要求には対応できない(例えば、WIFIは信頼できるのか? そこで本研究では,主観的知識に基づくTOD(SK-TOD)の新たな課題を提案する。 また、主観的知識探索対話コンテキストと、主観的知識ソースに基づく手動注釈付き応答を含む、最初の対応するデータセットを提案する。 既存のTOD手法で評価すると,複数の知識スニペットから多様な意見を集めるなど,新たな課題が生じることがわかった。 このタスクとデータセットは、TODおよび主観的コンテンツ理解に関するさらなる研究を促進することを願っている。 コードとデータセットはhttps://github.com/alexa/dstc11-track5で入手できる。

Task-oriented Dialogue (TOD) Systems aim to build dialogue systems that assist users in accomplishing specific goals, such as booking a hotel or a restaurant. Traditional TODs rely on domain-specific APIs/DBs or external factual knowledge to generate responses, which cannot accommodate subjective user requests (e.g., "Is the WIFI reliable?" or "Does the restaurant have a good atmosphere?"). To address this issue, we propose a novel task of subjective-knowledge-based TOD (SK-TOD). We also propose the first corresponding dataset, which contains subjective knowledge-seeking dialogue contexts and manually annotated responses grounded in subjective knowledge sources. When evaluated with existing TOD approaches, we find that this task poses new challenges such as aggregating diverse opinions from multiple knowledge snippets. We hope this task and dataset can promote further research on TOD and subjective content understanding. The code and the dataset are available at https://github.com/alexa/dstc11-track5.
翻訳日:2023-10-05 08:26:09 公開日:2023-10-03
# 説明不能な例がセキュリティの誤った感覚を与える: 学習可能な例で説明不能なデータをピアスする

Unlearnable Examples Give a False Sense of Security: Piercing through Unexploitable Data with Learnable Examples ( http://arxiv.org/abs/2305.09241v5 )

ライセンス: Link先を確認
Wan Jiang, Yunfeng Diao, He Wang, Jianxin Sun, Meng Wang, Richang Hong(参考訳) 不正な搾取からデータを保護することは、プライバシーとセキュリティにとって不可欠である。 この目的のために、データに知覚不可能な摂動を加え、それらに基づいてトレーニングされたモデルが、元のクリーンな分布でそれらを正確に分類できないようにすることで、近年、説得力のある保護として \textit{unlearnable examples} (UEs) が提案されている。 残念なことに、UEが誤ったセキュリティの感覚を提供するのは、未許可のユーザが他の保護されていないデータを使って保護を取り除くのを止められないからである。 この観察により、我々は、保護を取り除いたUEであるtextit{learnable unauthorized example} (LE)を導入して、新たな脅威を正式に定義する。 このアプローチの核は UE を LE の多様体に射影する新しい精製過程である。 これは、UEとLEの画素上条件付きおよび知覚的類似性を識別する新しいジョイント条件拡散モデルによって実現される。 広範囲にわたる実験により、LEは様々なシナリオにおいて教師なしのUEと教師なしのUEの両方に対して最先端の対応性能を提供することを示した。 我々のコードは \url{https://github.com/jiangw-0/LE_JCDP} で入手できる。

Safeguarding data from unauthorized exploitation is vital for privacy and security, especially in recent rampant research in security breach such as adversarial/membership attacks. To this end, \textit{unlearnable examples} (UEs) have been recently proposed as a compelling protection, by adding imperceptible perturbation to data so that models trained on them cannot classify them accurately on original clean distribution. Unfortunately, we find UEs provide a false sense of security, because they cannot stop unauthorized users from utilizing other unprotected data to remove the protection, by turning unlearnable data into learnable again. Motivated by this observation, we formally define a new threat by introducing \textit{learnable unauthorized examples} (LEs) which are UEs with their protection removed. The core of this approach is a novel purification process that projects UEs onto the manifold of LEs. This is realized by a new joint-conditional diffusion model which denoises UEs conditioned on the pixel and perceptual similarity between UEs and LEs. Extensive experiments demonstrate that LE delivers state-of-the-art countering performance against both supervised UEs and unsupervised UEs in various scenarios, which is the first generalizable countermeasure to UEs across supervised learning and unsupervised learning. Our code is available at \url{https://github.com/jiangw-0/LE_JCDP}.
翻訳日:2023-10-05 08:25:27 公開日:2023-10-03
# 量子場理論における固有状態熱化仮説の高次対称性による振動

Violation of Eigenstate Thermalization Hypothesis in Quantum Field Theories with Higher-Form Symmetry ( http://arxiv.org/abs/2305.04984v2 )

ライセンス: Link先を確認
Osamu Fukushima, Ryusuke Hamazaki(参考訳) 我々は、高次対称性の存在が孤立量子系における熱化のダイナミクスにどのように影響するかを解明する。 合理的な仮定の下では、多くの非自明な $(d-p)$-次元可観測系に対して、$(d+1)$-次元量子場理論における$p$-形式対称性が固有状態熱化仮説の崩壊につながることを解析的に示す。 高次形式(すなわち$p\geq 1$)対称性の場合、これは非局所であるがシステムサイズ全体よりもはるかに小さい可観測物に対する熱化がないことを意味する。 この議論を (2+1) 次元 $\mathbb{Z}_2$ 格子ゲージ理論に対して数値的に示す。 プラケット作用素のような局所観測可能量は熱化するが、非局所観測可能磁気双極子は代わりに$\mathbb{Z}_2$ 1-形式対称性を考慮に入れた一般化されたギブスアンサンブルに緩和する。

We elucidate how the presence of higher-form symmetries affects the dynamics of thermalization in isolated quantum systems. Under reasonable assumptions, we analytically show that a $p$-form symmetry in a $(d+1)$-dimensional quantum field theory leads to the breakdown of the eigenstate thermalization hypothesis for many nontrivial $(d-p)$-dimensional observables. For higher-form (i.e., $p\geq 1$) symmetry, this indicates the absence of thermalization for observables that are non-local but much smaller than the whole system size. We numerically demonstrate this argument for the (2+1)-dimensional $\mathbb{Z}_2$ lattice gauge theory. While local observables such as the plaquette operator thermalize, the non-local observable exciting a magnetic dipole instead relaxes to the generalized Gibbs ensemble that takes account of the $\mathbb{Z}_2$ 1-form symmetry.
翻訳日:2023-10-05 08:24:19 公開日:2023-10-03
# Poisson Multi-Bernoulli SLAM を用いた集合型信念伝播

Set-Type Belief Propagation with Applications to Poisson Multi-Bernoulli SLAM ( http://arxiv.org/abs/2305.04797v2 )

ライセンス: Link先を確認
Hyowon Kim, Angel F. Garc\'ia-Fern\'andez, Yu Ge, Yuxuan Xia, Lennart Svensson, Henk Wymeersch(参考訳) 信念伝播 (bp) は確率変数の近似限界確率密度を効率的に計算する有用な確率的推論アルゴリズムである。 しかし、その標準形式では、BP はベクトル要素の固定かつ既知の数のベクトル要素を持つベクトル型確率変数にのみ適用できるが、特定のアプリケーションは未知のベクトル要素を持つ RFS に依存する。 本稿では,各 RFS が未知の要素数を持つ RFS の列上に定義された因子グラフに対するBP ルールを開発し,新しい RFS の推論手法の導出を目的とする。 さらに、ベクトル型BPは、各 RFS がベルヌーイ過程に従うような集合型BPの特別な場合であることを示す。 開発したセットタイプbpの有効性を実証するため,slam用pmbフィルタに適用し,新たなセットタイプbpマッピング,slam,マルチターゲットトラッキング,同時ローカライズ・トラッキングフィルタを自然に実現する。 最後に,ベクトル型BPと提案したセット型BP PMB-SLAM実装の関係について検討し,提案したセット型BP PMB-SLAMフィルタとベクトル型BP-SLAMフィルタを比較した。

Belief propagation (BP) is a useful probabilistic inference algorithm for efficiently computing approximate marginal probability densities of random variables. However, in its standard form, BP is only applicable to the vector-type random variables with a fixed and known number of vector elements, while certain applications rely on RFSs with an unknown number of vector elements. In this paper, we develop BP rules for factor graphs defined on sequences of RFSs where each RFS has an unknown number of elements, with the intention of deriving novel inference methods for RFSs. Furthermore, we show that vector-type BP is a special case of set-type BP, where each RFS follows the Bernoulli process. To demonstrate the validity of developed set-type BP, we apply it to the PMB filter for SLAM, which naturally leads to new set-type BP-mapping, SLAM, multi-target tracking, and simultaneous localization and tracking filters. Finally, we explore the relationships between the vector-type BP and the proposed set-type BP PMB-SLAM implementations and show a performance gain of the proposed set-type BP PMB-SLAM filter in comparison with the vector-type BP-SLAM filter.
翻訳日:2023-10-05 08:24:02 公開日:2023-10-03
# 量子信号処理によるロバストブラックボックス量子状態生成

Robust black-box quantum-state preparation via quantum signal processing ( http://arxiv.org/abs/2305.04705v3 )

ライセンス: Link先を確認
Lorenzo Laneve(参考訳) ブラックボックスの量子状態準備は、量子状態の準備の変種であり、(量子)オラクルとして与えられる振幅$c(x)$で$n$-qubit状態 $|\psi_c\rangle \propto \sum_x c(x) |x\rangle$を構築したい。 この変種は、量子状態が短く単純な古典的記述を持つ場合に特に有用である。 我々は、量子信号処理(QSP)と量子特異値変換(QSVT)という最近の手法を用いて、コヒーレント演算を行うことなく、|\psi_c\rangle$を準備する新しいアルゴリズムを構築する。 次に、現在の最先端アルゴリズムと比較し、QSVTベースのアプローチが同等の結果を得ることを示す。

Black-box quantum-state preparation is a variant of quantum-state preparation where we want to construct an $n$-qubit state $|\psi_c\rangle \propto \sum_x c(x) |x\rangle$ with the amplitudes $c(x)$ given as a (quantum) oracle. This variant is particularly useful when the quantum state has a short and simple classical description. We use recent techniques, namely quantum signal processing (QSP) and quantum singular value transform (QSVT), to construct a new algorithm that prepares $|\psi_c\rangle$ without the need to carry out coherent arithmetic. We then compare our result with current state-of-the-art algorithms, showing that a QSVT-based approach achieves comparable results.
翻訳日:2023-10-05 08:23:40 公開日:2023-10-03
# DopTriple Lossによる運動とテキストのクロスモーダル検索

Cross-Modal Retrieval for Motion and Text via DopTriple Loss ( http://arxiv.org/abs/2305.04195v3 )

ライセンス: Link先を確認
Sheng Yan, Yang Liu, Haoqiang Wang, Xin Du, Mengyuan Liu, Hong Liu(参考訳) 画像テキストとビデオテキストのクロスモーダル検索は、コンピュータビジョンと自然言語処理における顕著な研究領域である。 しかし、広範に適用可能であるにもかかわらず、人間の動きとテキスト間の相互モーダル検索には注意が向けられていない。 このギャップに対処するために、この課題に取り組むために、簡潔で効果的なデュアルユニモーダルトランスフォーマエンコーダを利用する。 異なるヒトの動き列における原子作用の重なりがサンプル間の意味的衝突を引き起こすことを認識し、ドロップトリプル損失と呼ばれる新しい三重項損失関数を探索する。 この損失関数は、負のサンプルセットから偽の負のサンプルを破棄し、トリプルトトレーニングのために真にハードな負のサンプルをマイニングすることに焦点を当てる。 我々はHumanML3DとKIT Motion-Languageデータセットのモデルとアプローチを評価する。 最新のHumanML3Dデータセットでは、動作検索の62.9%、テキスト検索の71.5%をリコールする(どちらもR@10に基づいている)。 このアプローチのソースコードはhttps://github.com/eanson023/rehamot.comで公開されています。

Cross-modal retrieval of image-text and video-text is a prominent research area in computer vision and natural language processing. However, there has been insufficient attention given to cross-modal retrieval between human motion and text, despite its wide-ranging applicability. To address this gap, we utilize a concise yet effective dual-unimodal transformer encoder for tackling this task. Recognizing that overlapping atomic actions in different human motion sequences can lead to semantic conflicts between samples, we explore a novel triplet loss function called DropTriple Loss. This loss function discards false negative samples from the negative sample set and focuses on mining remaining genuinely hard negative samples for triplet training, thereby reducing violations they cause. We evaluate our model and approach on the HumanML3D and KIT Motion-Language datasets. On the latest HumanML3D dataset, we achieve a recall of 62.9% for motion retrieval and 71.5% for text retrieval (both based on R@10). The source code for our approach is publicly available at https://github.com/eanson023/rehamot.
翻訳日:2023-10-05 08:23:22 公開日:2023-10-03
# LoRAPrune:低ランクパラメータ効率のファインチューニングを実現するPruning

LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2305.18403v3 )

ライセンス: Link先を確認
Mingyang Zhang and Hao Chen and Chunhua Shen and Zhen Yang and Linlin Ou and Xinyi Yu and Bohan Zhuang(参考訳) LLaMAやGLMのような大型の事前学習モデル(LPM)は、微調整によって様々なタスクにおいて例外的な性能を示している。 低ランク適応(LoRA)は、下流のタスクでこれらのLPMを安価に微調整するために登場したが、それでもその展開は膨大なモデルスケールと計算コストによって妨げられている。 ニューラルネットワークプルーニングは、LPMを圧縮する方法を提供する。 しかし、LPM用に設計された現在のプルーニング方式はLoRAと互換性がない。 これは、LPM上での非構造的プルーニングの利用、LoRA重みの合併を妨げること、またはプレトレーニングされた重みの勾配に依存してプルーニングを誘導することによる。 そこで本稿では,メモリ効率の高い推論のために,高精度でコンパクトなモデルを提供する新しいフレームワークであるlorapruneを提案する。 具体的には,重要度評価のための事前学習重量の勾配ではなく,loraの重みと勾配を用いるlora誘導プルーニング基準を最初に設計した。 次に,冗長なチャネルやヘッドを除去するための構造的反復的プルーニング手法を提案する。 LLaMA シリーズモデルにおける既存のアプローチよりも,LoRAPrune の方が優れた性能を示した。 例えば、圧縮率50\%のLoRAPruneは、WikiText2では8.0、TBデータセットでは16.05、メモリ使用率52.6\%でLLM-Prunerを上回っている。 コードはレビュー後にリリースされる

Large pre-trained models (LPMs), such as LLaMA and GLM, have shown exceptional performance across various tasks through fine-tuning. Although low-rank adaption (LoRA) has emerged to cheaply fine-tune these LPMs on downstream tasks, their deployment is still hindered by the vast model scale and computational costs. Neural network pruning offers a way to compress LPMs. However, the current pruning methods designed for LPMs are not compatible with LoRA. This is due to their utilization of unstructured pruning on LPMs, impeding the merging of LoRA weights, or their dependence on the gradients of pre-trained weights to guide pruning, which can impose significant memory overhead. To this end, we propose LoRAPrune, a new framework that delivers an accurate, compact model for efficient inference in a highly memory-effective manner. Specifically, we first design a LoRA-guided pruning criterion, which uses the weights and gradients of LoRA, rather than the gradients of pre-trained weights for importance estimation. We then propose a structured iterative pruning procedure, to remove redundant channels and heads. Extensive experimental results demonstrate the superior performance of our LoRAPrune over existing approaches on the LLaMA series models. For instance, at a 50\% compression rate, LoRAPrune outperforms LLM-Pruner by a perplexity reduction of 8.0 on WikiText2 and 16.05 on PTB datasets, while concurrently reducing memory usage by 52.6\%. The code will be released after review
翻訳日:2023-10-05 08:16:45 公開日:2023-10-03
# 自動探索空間生成ニューラルアーキテクチャ探索

Automated Search-Space Generation Neural Architecture Search ( http://arxiv.org/abs/2305.18030v2 )

ライセンス: Link先を確認
Tianyi Chen, Luming Liang, Tianyu Ding, Ilya Zharkov(参考訳) 汎用ディープニューラルネットワーク(DNN)内で最適なサブネットワークを探索するために、既存のニューラルネットワーク探索(NAS)手法は、通常、事前に検索空間を手作りすることに依存する。 このような要件は、人間の専門知識や手作業による介入なしに、一般的なシナリオにそれらを拡張することが難しくなります。 この制限を克服するために、我々は、おそらく、すべての候補接続と操作をカバーする一般的なdnnを訓練し、1ショットで高性能なサブネットワークを生成する最初の自動化システムである、サーチスペース生成ニューラルアーキテクチャサーチ(asgnas)を提案する。 技術的には、ASGNASは人間の努力を最小限にするために3つの顕著な貢献をしている。 (i)一般DNNのための検索空間の自動生成 (II)H2SPG(Hierarchical Half-Space Projected Gradient)は、生成した検索空間内の階層構造と依存性を利用して、最適化中のネットワークの妥当性を保証し、高性能かつ階層的なグループ間隔を持つ解を確実に生成する。 三) H2SPGソリューションによる自動サブネットワーク構築。 CIFAR10, Fashion-MNIST, ImageNet, STL-10 , SVNH などのベンチマークデータセットに対する RegNet, StackedUnets, SuperResNet, DARTS などの DNN に対する ASGNAS の有効性を数値的に示す。 ASGNASが計算したサブネットワークは、DNNや他の最先端技術と比較して、より優れたパフォーマンスを実現している。 ライブラリはhttps://github.com/tianyic/only_train_onceでリリースされる。

To search an optimal sub-network within a general deep neural network (DNN), existing neural architecture search (NAS) methods typically rely on handcrafting a search space beforehand. Such requirements make it challenging to extend them onto general scenarios without significant human expertise and manual intervention. To overcome the limitations, we propose Automated Search-Space Generation Neural Architecture Search (ASGNAS), perhaps the first automated system to train general DNNs that cover all candidate connections and operations and produce high-performing sub-networks in the one shot manner. Technologically, ASGNAS delivers three noticeable contributions to minimize human efforts: (i) automated search space generation for general DNNs; (ii) a Hierarchical Half-Space Projected Gradient (H2SPG) that leverages the hierarchy and dependency within generated search space to ensure the network validity during optimization, and reliably produces a solution with both high performance and hierarchical group sparsity; and (iii) automated sub-network construction upon the H2SPG solution. Numerically, we demonstrate the effectiveness of ASGNAS on a variety of general DNNs, including RegNet, StackedUnets, SuperResNet, and DARTS, over benchmark datasets such as CIFAR10, Fashion-MNIST, ImageNet, STL-10 , and SVNH. The sub-networks computed by ASGNAS achieve competitive even superior performance compared to the starting full DNNs and other state-of-the-arts. The library will be released at https://github.com/tianyic/only_train_once.
翻訳日:2023-10-05 08:16:16 公開日:2023-10-03
# 信頼できない絡み合い支援による絡み合い防止チャネルの通信

Communication Over Entanglement-Breaking Channels With Unreliable Entanglement Assistance ( http://arxiv.org/abs/2305.17692v3 )

ライセンス: Link先を確認
Uzi Pereg(参考訳) 絡み合い支援は通信速度を大幅に向上させることができる。 しかし、その世代は失敗の影響を受けやすい。 信頼できない援助モデルはこれらの課題に対処する。 以前の研究は、アンアシストとアンタグルメント支援による過剰率のトレードオフを概説する漸近的な公式を提供した。 エンタングルメント破壊チャネルの完全特徴を導出し,エンタングルメント支援と非アシスト符号化の組み合わせが最適であることを示す。 ネットワークの観点からすると、この発見は非自明であり、重ね合わせから生じる量子的挙動を強調する。

Entanglement assistance can improve communication rates significantly. Yet, its generation is susceptible to failure. The unreliable assistance model accounts for those challenges. Previous work provided an asymptotic formula that outlines the tradeoff between the unassisted and excess rates from entanglement assistance. We derive a full characterization for entanglement-breaking channels, and show that combining entanglement-assisted and unassisted coding is suboptimal. From a networking perspective, this finding is nontrivial and highlights a quantum behavior arising from superposition.
翻訳日:2023-10-05 08:15:45 公開日:2023-10-03
# 個人差分潜流拡散モデル

Differentially Private Latent Diffusion Models ( http://arxiv.org/abs/2305.15759v2 )

ライセンス: Link先を確認
Saiyue Lyu, Margarita Vinaroz, Michael F. Liu, Mijung Park(参考訳) 拡散モデル(DM)は、非微分プライベートな方法で高品質な高次元画像を生成するために広く用いられている。 この課題に対処するため、最近の論文では、DMを公開データで事前訓練し、DP-SGDを用いて比較的短期間にプライベートデータで微調整することを提案している。 本稿では,LDM(Latent Diffusion Models)を採用することにより,DPを用いたDMの現状をさらに改善する。 LDMは、高次元の画素を低次元の潜在表現にマッピングする強力な事前学習オートエンコーダを備えており、DMをより効率的に高速に訓練することができる。 提案アルゴリズムでは,DM全体を微調整するのではなく,各層におけるLDMの注意モジュールのみをプライバシーに敏感なデータで微調整し,トレーニング可能なパラメータの数を約90%削減し,DM全体を微調整するよりも精度が向上する。 DP-SGDで微調整するパラメータ空間が小さくなれば、いくつかの公開プライベートなベンチマークデータペアで新たな最先端結果が得られます。我々のアプローチでは、より現実的で高次元の画像(256x256)を生成できます。 提案手法は,高品質な高次元DP画像を生成するため,より強力で訓練効率のよい差分DMをトレーニングするための有望な方向を提供する。

Diffusion models (DMs) are widely used for generating high-quality high-dimensional images in a non-differentially private manner. To address this challenge, recent papers suggest pre-training DMs with public data, then fine-tuning them with private data using DP-SGD for a relatively short period. In this paper, we further improve the current state of DMs with DP by adopting the Latent Diffusion Models (LDMs). LDMs are equipped with powerful pre-trained autoencoders that map the high-dimensional pixels into lower-dimensional latent representations, in which DMs are trained, yielding a more efficient and fast training of DMs. In our algorithm, DP-LDMs, rather than fine-tuning the entire DMs, we fine-tune only the attention modules of LDMs at varying layers with privacy-sensitive data, reducing the number of trainable parameters by roughly 90% and achieving a better accuracy, compared to fine-tuning the entire DMs. The smaller parameter space to fine-tune with DP-SGD helps our algorithm to achieve new state-of-the-art results in several public-private benchmark data pairs.Our approach also allows us to generate more realistic, high-dimensional images (256x256) and those conditioned on text prompts with differential privacy, which have not been attempted before us, to the best of our knowledge. Our approach provides a promising direction for training more powerful, yet training-efficient differentially private DMs, producing high-quality high-dimensional DP images.
翻訳日:2023-10-05 08:15:14 公開日:2023-10-03
# ニューラルネットワークの学習軌跡の伝達

Transferring Learning Trajectories of Neural Networks ( http://arxiv.org/abs/2305.14122v2 )

ライセンス: Link先を確認
Daiki Chijiwa(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは計算コストが高く、特にモデルアンサンブルや微調整事前トレーニングモデルで重複や類似のトレーニングを実行する場合には問題となる。 あるデータセットで1つのdnnをトレーニングすると、その学習軌跡(トレーニング中の中間パラメータのシーケンス)があり、データセットの学習に有用な情報を含む可能性がある。 しかし、ある学習軌跡のそのような情報を他の訓練に活用する試みは行われていない。 本稿では,与えられた学習軌跡を1つの初期パラメータから別のパラメータへ"転送"する問題(学習伝達問題)を定式化し,順列対称性を通じて経路に沿った勾配を逐次マッチングすることにより,最初のアルゴリズムを導出する。 直接トレーニングを行う前に,伝達パラメータが非自明な精度を達成すること,スクラッチからトレーニングするよりもはるかに高速にトレーニングできることを実証的に示す。

Training deep neural networks (DNNs) is computationally expensive, which is problematic especially when performing duplicated or similar training runs in model ensemble or fine-tuning pre-trained models, for example. Once we have trained one DNN on some dataset, we have its learning trajectory (i.e., a sequence of intermediate parameters during training) which may potentially contain useful information for learning the dataset. However, there has been no attempt to utilize such information of a given learning trajectory for another training. In this paper, we formulate the problem of "transferring" a given learning trajectory from one initial parameter to another one (learning transfer problem) and derive the first algorithm to approximately solve it by matching gradients successively along the trajectory via permutation symmetry. We empirically show that the transferred parameters achieve non-trivial accuracy before any direct training, and can be trained significantly faster than training from scratch.
翻訳日:2023-10-05 08:14:44 公開日:2023-10-03
# adaptive chameleon or stubborn sloth: 知識衝突における大規模言語モデルの振る舞いを明らかにする

Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts ( http://arxiv.org/abs/2305.13300v3 )

ライセンス: Link先を確認
Jian Xie, Kai Zhang, Jiangjie Chen, Renze Lou, Yu Su(参考訳) 大規模言語モデル(LLM)に外部情報を提供することにより、LLMの静的パラメトリックメモリの限界に対処するための有望なソリューションとしてツール拡張(検索拡張を含む)が登場した。 しかし、その証拠がパラメトリックメモリと矛盾する場合、LCMはこのような外部証拠に対してどの程度受容的か? 知識衝突に遭遇したLLMの行動に関する包括的かつ制御された最初の調査について述べる。 本研究では,LLMから高品質なパラメトリックメモリを抽出し,対応する対向メモリを構築するための体系的枠組みを提案する。 本研究は, LLMの動作に矛盾すると思われることが判明した。 一方, 従来の知恵とは違って, LLM は, パラメトリックメモリと矛盾する場合であっても, 外部の証拠が一貫性があり, 説得力があることを考えると, 外部の証拠に対して高い受容性を持つことがわかった。 一方、LCMは、矛盾する証拠を同時に提示されているにもかかわらず、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。 これらの結果は,ツールおよび検索拡張LDMのさらなる開発と展開に注意すべき重要な意味を持つ。

By providing external information to large language models (LLMs), tool augmentation (including retrieval augmentation) has emerged as a promising solution for addressing the limitations of LLMs' static parametric memory. However, how receptive are LLMs to such external evidence, especially when the evidence conflicts with their parametric memory? We present the first comprehensive and controlled investigation into the behavior of LLMs when encountering knowledge conflicts. We propose a systematic framework to elicit high-quality parametric memory from LLMs and construct the corresponding counter-memory, which enables us to conduct a series of controlled experiments. Our investigation reveals seemingly contradicting behaviors of LLMs. On the one hand, different from prior wisdom, we find that LLMs can be highly receptive to external evidence even when that conflicts with their parametric memory, given that the external evidence is coherent and convincing. On the other hand, LLMs also demonstrate a strong confirmation bias when the external evidence contains some information that is consistent with their parametric memory, despite being presented with conflicting evidence at the same time. These results pose important implications that are worth careful consideration for the further development and deployment of tool- and retrieval-augmented LLMs.
翻訳日:2023-10-05 08:14:26 公開日:2023-10-03
# LXL:4次元イメージングレーダとカメラフュージョンを用いたLiDARによるリーン3次元物体検出

LXL: LiDAR Excluded Lean 3D Object Detection with 4D Imaging Radar and Camera Fusion ( http://arxiv.org/abs/2307.00724v4 )

ライセンス: Link先を確認
Weiyi Xiong, Jianan Liu, Tao Huang, Qing-Long Han, Yuxuan Xia, Bing Zhu(参考訳) 新興技術であり比較的手頃な価格の装置であるこの4Dイメージングレーダーは、自動運転における3Dオブジェクト検出にすでに有効であることが確認されている。 しかし、4Dレーダーポイント雲の空間とノイズはさらなる性能向上を妨げ、他のモードとの融合に関する詳細な研究は欠如している。 一方で,新たなイメージビュー変換戦略として,いくつかのイメージベース検出器に"サンプリング"が適用され,画像深度予測がなくても,リフト・スプレート・シューティング(lss)で提案されている広く適用されている"深度ベーススプレーティング"を上回っていることが示されている。 しかし、「サンプリング」の可能性は完全には開かれていない。 本稿では,カメラ上の「サンプリング」ビュー変換戦略と4次元イメージングレーダ融合による3次元物体検出について検討する。 LiDAR Excluded Lean(LXL)モデル、予測画像深度分布マップ、レーダー3D占有格子は、それぞれ画像視点(PV)特徴とレーダー鳥の視線(BEV)特徴から生成される。 これらは、画像ビュー変換を支援するため、"radar occupancy-assisted depth-based sampling"と呼ばれるlxlのコアに送られる。 我々は,画像深度とレーダ情報を導入して,より正確な視点変換を行うことで,「サンプリング」戦略を強化することを実証した。 VoD と TJ4DRadSet データセットの実験により,提案手法はベルやホイッスルを使わずに,最先端の3Dオブジェクト検出手法よりも優れた性能を示した。 アブレーション研究により,本手法は異なる強調設定において最良であることが証明された。

As an emerging technology and a relatively affordable device, the 4D imaging radar has already been confirmed effective in performing 3D object detection in autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point clouds hinder further performance improvement, and in-depth studies about its fusion with other modalities are lacking. On the other hand, as a new image view transformation strategy, "sampling" has been applied in a few image-based detectors and shown to outperform the widely applied "depth-based splatting" proposed in Lift-Splat-Shoot (LSS), even without image depth prediction. However, the potential of "sampling" is not fully unleashed. This paper investigates the "sampling" view transformation strategy on the camera and 4D imaging radar fusion-based 3D object detection. LiDAR Excluded Lean (LXL) model, predicted image depth distribution maps and radar 3D occupancy grids are generated from image perspective view (PV) features and radar bird's eye view (BEV) features, respectively. They are sent to the core of LXL, called "radar occupancy-assisted depth-based sampling", to aid image view transformation. We demonstrated that more accurate view transformation can be performed by introducing image depths and radar information to enhance the "sampling" strategy. Experiments on VoD and TJ4DRadSet datasets show that the proposed method outperforms the state-of-the-art 3D object detection methods by a significant margin without bells and whistles. Ablation studies demonstrate that our method performs the best among different enhancement settings.
翻訳日:2023-10-05 08:06:08 公開日:2023-10-03
# 見ることは信じない: 人間の視覚のプライバシー保護のためのアイデンティティ・ハイダー

Seeing is not Believing: An Identity Hider for Human Vision Privacy Protection ( http://arxiv.org/abs/2307.00481v4 )

ライセンス: Link先を確認
Tao Wang, Yushu Zhang, Zixuan Yang, Hua Zhang, and Zhongyun Hua(参考訳) 大量の撮像された顔画像は、個人を特定するためにデータベースに格納される。 しかし、これらの画像は、個人の意志ではなく、プライバシー侵害を引き起こす可能性があるデータマネージャによって、意図的に、または意図せず観察される。 既存の保護スキームは識別性を維持できるが、顔の外観はわずかに変化し、データマネージャによる元のアイデンティティの視覚的な認識に影響を受けやすい。 本稿では,顔認識者に対する識別を可能とし,視覚的な識別の外観を著しく変えることが可能な,人間の視覚保護のための効果的なアイデンティティハイダを提案する。 具体的には、ID隠蔽機は2つの特別に設計されたモジュールから恩恵を受ける。 1) 仮想顔生成モジュールは、StyleGAN2の潜伏空間を操作することにより、新しい外観の仮想顔を生成する。 特に、仮想顔は、元の顔と同様のパースマップを持ち、頭の位置検出などの他の視覚タスクをサポートする。 2)外観伝達モジュールは、属性置換を介して仮想顔の外観を元の顔に転送する。 一方、識別情報は、非絡み合いネットワークの助けを借りてよく保存できる。 また,多様な要件を満たすため,多様性と背景保全が支援されている。 大規模な実験により,提案したアイデンティティ隠蔽装置は,プライバシ保護と識別可能性保護に優れた性能を発揮することが示された。

Massive captured face images are stored in the database for the identification of individuals. However, these images can be observed intentionally or unintentionally by data managers, which is not at the will of individuals and may cause privacy violations. Existing protection schemes can maintain identifiability but slightly change the facial appearance, rendering it still susceptible to the visual perception of the original identity by data managers. In this paper, we propose an effective identity hider for human vision protection, which can significantly change appearance to visually hide identity while allowing identification for face recognizers. Concretely, the identity hider benefits from two specially designed modules: 1) The virtual face generation module generates a virtual face with a new appearance by manipulating the latent space of StyleGAN2. In particular, the virtual face has a similar parsing map to the original face, supporting other vision tasks such as head pose detection. 2) The appearance transfer module transfers the appearance of the virtual face into the original face via attribute replacement. Meanwhile, identity information can be preserved well with the help of the disentanglement networks. In addition, diversity and background preservation are supported to meet the various requirements. Extensive experiments demonstrate that the proposed identity hider achieves excellent performance on privacy protection and identifiability preservation.
翻訳日:2023-10-05 08:05:38 公開日:2023-10-03
# 熱処理と断熱にショートカットを施した量子オットーエンジン

A Quantum Otto Engine with Shortcuts to Thermalization and Adiabaticity ( http://arxiv.org/abs/2306.14847v4 )

ライセンス: Link先を確認
Ali Pedram, Serhat C. Kad{\i}o\u{g}lu, Alkan Kabak\c{c}{\i}o\u{g}lu, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 我々は, 量子調和振動子オットーエンジンを, 短絡(パワーストローク, 圧縮ストローク)と平衡(ホットアイソコール)に, 反断熱駆動(CD)により加速させるエネルギー的優位性について検討した。 各種プロトコルとCD駆動との比較により, 運転コストを考慮した場合においても, 双方のショートカットを適用すれば, パワーと効率が向上することがわかった。 ハイブリッドプロトコルはリミットサイクルにおいてその優位性を保持するだけでなく、未制御の有限時間オットーサイクルが失敗するパラメータレジームにおけるエンジン機能(すなわち正の出力)を回復する。 サイクルの3ストロークの制御は,2つのアディバティックストロークの制御に比べ,パフォーマンス指標の全体的な改善につながることを示す。 さらに, エンジンのリミットサイクル挙動を数値的に計算し, この動作モードでは, イソコリックおよび断熱ストロークを加速したエンジンが優れた出力を示すことを示す。

We investigate the energetic advantage of accelerating a quantum harmonic oscillator Otto engine by use of shortcuts to adiabaticity (for the power and compression strokes) and to equilibrium (for the hot isochore), by means of counter-diabatic (CD) driving. By comparing various protocols with and without CD driving, we find that, applying both type of shortcuts leads to enhanced power and efficiency even after the driving costs are taken into account. The hybrid protocol not only retains its advantage in the limit cycle, but also recovers engine functionality (i.e., a positive power output) in parameter regimes where an uncontrolled, finite-time Otto cycle fails. We show that controlling three strokes of the cycle leads to an overall improvement of the performance metrics compared with controlling only the two adiabatic strokes. Moreover, we numerically calculate the limit cycle behavior of the engine and show that the engines with accelerated isochoric and adiabatic strokes display a superior power output in this mode of operation.
翻訳日:2023-10-05 08:05:20 公開日:2023-10-03
# 自己回帰型言語モデルのための一般化知識蒸留

Generalized Knowledge Distillation for Auto-regressive Language Models ( http://arxiv.org/abs/2306.13649v2 )

ライセンス: Link先を確認
Rishabh Agarwal, Nino Vieillard, Yongchao Zhou, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem(参考訳) 知識蒸留(KD)は、より小さな学生モデルを訓練することにより、推論コストとメモリフットプリントを減らすために教師モデルを圧縮するために広く用いられている。 しかし, 自己回帰系列モデルに対する現在のkd法は, 学習中の出力列と推論中の生徒の出力列の分布ミスマッチに苦しむ。 この問題に対処するため,一般知識蒸留(GKD)を導入する。 GKDは、固定された出力シーケンスにのみ依存するのではなく、教師からのフィードバックを利用して、学生を自己生成出力シーケンスで訓練する。 教師付きKDアプローチとは異なり、GKDは生徒と教師の間で代替の損失関数を利用する柔軟性を提供する。 さらに、GKDは蒸留とRL微細調整(RLHF)のシームレスな統合を促進する。 本稿では,自動回帰型t5言語モデルの要約,翻訳,算術推論タスクおよびタスクに依存しない命令チューニングにおけるgkdの有効性を示す。

Knowledge distillation (KD) is widely used for compressing a teacher model to reduce its inference cost and memory footprint, by training a smaller student model. However, current KD methods for auto-regressive sequence models suffer from distribution mismatch between output sequences seen during training and those generated by the student during inference. To address this issue, we introduce Generalized Knowledge Distillation (GKD). Instead of solely relying on a fixed set of output sequences, GKD trains the student on its self-generated output sequences by leveraging feedback from the teacher on such sequences. Unlike supervised KD approaches, GKD also offers the flexibility to employ alternative loss functions between the student and teacher, which can be useful when the student lacks the expressivity to mimic the teacher's distribution. Furthermore, GKD facilitates the seamless integration of distillation with RL fine-tuning (RLHF). We demonstrate the efficacy of GKD for distilling auto-regressive T5 language models on summarization, translation, and arithmetic reasoning tasks as well as task-agnostic instruction tuning.
翻訳日:2023-10-05 08:04:57 公開日:2023-10-03
# CAMP-Net: 高速MRI再構成のための一貫性を考慮したマルチピアネットワーク

CAMP-Net: Consistency-Aware Multi-Prior Network for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2306.11238v2 )

ライセンス: Link先を確認
Liping Zhang, Xiaobo Li, and Weitian Chen(参考訳) 深層学習に基づくMRI再構成法が期待できる進歩にもかかわらず、高周波画像の詳細とテクスチャの復元は、加速MRIにとって難しい問題である。 この課題に対処するために,MRI再構成のための新しい整合性対応マルチプライアネットワーク(CAMP-Net)を提案する。 CAMP-Netは、複数の先行知識の相補的な性質を活用し、画像品質を改善するために、ハイブリッド領域内の隣接スライス間のデータ冗長性を探る。 画像強調、k空間復元、キャリブレーション整合性の3つのインターリーブモジュールをそれぞれ組み込んで、エンドツーエンドで一貫性を意識した複数先行を共同学習する。 画像強調モジュールはノイズのようなアーティファクトを抑制する前にコイル結合画像を学習し、k空間復元モジュールはマルチコイルk空間相関を探索して高周波詳細を復元する。 キャリブレーション整合モジュールは、MRI取得の既知の物理的特性を埋め込んで、測定から抽出したk空間相関とアーチファクトフリー画像中間体の整合性を確保する。 その結果、低周波数および高周波の再構成は階層的に周波数融合モジュールに集約され、反復的に洗練され、最終的な画像を漸進的に再構成する。 種々の加速度とサンプリングパターンを持つ3つの大規模公開データセットに対して,本手法の一般化性とロバスト性を評価した。 総合的な実験により、CAMP-Netは再構築品質と定量的なT_2$マッピングの点で最先端の手法より優れていることが示された。

Despite promising advances in deep learning-based MRI reconstruction methods, restoring high-frequency image details and textures remains a challenging problem for accelerated MRI. To tackle this challenge, we propose a novel consistency-aware multi-prior network (CAMP-Net) for MRI reconstruction. CAMP-Net leverages the complementary nature of multiple prior knowledge and explores data redundancy between adjacent slices in the hybrid domain to improve image quality. It incorporates three interleaved modules respectively for image enhancement, k-space restoration, and calibration consistency to jointly learn consistency-aware multiple priors in an end-to-end fashion. The image enhancement module learns a coil-combined image prior to suppress noise-like artifacts, while the k-space restoration module explores multi-coil k-space correlations to recover high-frequency details. The calibration consistency module embeds the known physical properties of MRI acquisition to ensure consistency of k-space correlations extracted from measurements and the artifact-free image intermediate. The resulting low- and high-frequency reconstructions are hierarchically aggregated in a frequency fusion module and iteratively refined to progressively reconstruct the final image. We evaluated the generalizability and robustness of our method on three large public datasets with various accelerations and sampling patterns. Comprehensive experiments demonstrate that CAMP-Net outperforms state-of-the-art methods in terms of reconstruction quality and quantitative $T_2$ mapping.
翻訳日:2023-10-05 08:04:40 公開日:2023-10-03
# 事前学習モデルにおけるレート低減原理による画像クラスタリング

Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models ( http://arxiv.org/abs/2306.05272v3 )

ライセンス: Link先を確認
Tianzhe Chu, Shengbang Tong, Tianjiao Ding, Xili Dai, Benjamin David Haeffele, Ren\'e Vidal, Yi Ma(参考訳) 大規模な事前学習モデルの出現は、視覚表現学習と自然言語処理の両方にパラダイムシフトをもたらした。 しかしながら、ラベルのないイメージのクラスタリングは、基本で古典的な機械学習の問題として、特に大規模データセットでは、効果的なソリューションを欠いている。 本稿では,クリップ画像やクラスタ画像などの大規模事前学習モデルの強力な特徴表現を効果的かつ効率的に活用する,新しい画像クラスタリングパイプラインを提案する。 まず,与えられたデータセットのクラスタ数を推定する新しいアルゴリズムを開発した。 次に, 事前学習した特徴は, レート削減目標をさらに最適化することで, 著しく構造化されていることを示す。 その結果、ImageNet-1kでは57\%から66\%のクラスタリング精度が大幅に向上する可能性がある。 さらに,クリップのイメージとテキスト間のマルチモダリティブリッジを利用して,クラスタに対して有意義なテキストラベルを生成する,単純かつ効果的な自己ラベルアルゴリズムを開発した。 CIFAR-10, CIFAR-100, ImageNet-1kなどの標準データセットでパイプラインが動作することを示す。 また、LAION-AestheticsやWikiArtsなど、事前に定義されたラベルのないデータセットにも拡張されている。 コードをhttps://github.com/LeslieTrue/CPPでリリースしました。

The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks an effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We first developed a novel algorithm to estimate the number of clusters in a given dataset. We then show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57\% to 66\% on ImageNet-1k. Furthermore, by leveraging CLIP's multimodality bridge between image and text, we develop a simple yet effective self-labeling algorithm that produces meaningful text labels for the clusters. Through extensive experiments, we show that our pipeline works well on standard datasets such as CIFAR-10, CIFAR-100, and ImageNet-1k. It also extends to datasets without predefined labels, such as LAION-Aesthetics and WikiArts. We released the code in https://github.com/LeslieTrue/CPP.
翻訳日:2023-10-05 08:03:58 公開日:2023-10-03
# LLMatic: 大規模言語モデルによるニューラルネットワーク探索と品質多様性の最適化

LLMatic: Neural Architecture Search via Large Language Models and Quality Diversity Optimization ( http://arxiv.org/abs/2306.01102v5 )

ライセンス: Link先を確認
Muhammad U. Nasir, Sam Earle, Julian Togelius, Steven James and Christopher Cleghorn(参考訳) 大きな言語モデル(LLM)は、幅広いタスクをこなせる強力なツールとして登場した。 それらの能力はさまざまな領域にまたがっており、コード生成の領域において大きな影響を与えている分野のひとつです。 この文脈では、LSMを突然変異とクロスオーバーツールとみなす。 一方、QD(Quality-Diversity)アルゴリズムは、多様で堅牢なソリューションを発見することが知られている。 本稿では,LLMのコード生成能力とQDソリューションの多様性と堅牢性を組み合わせることで,ニューラルネットワーク探索(NAS)アルゴリズムであるLLMaticを導入する。 LLMaticはプロンプトを介してNASを直接実行するのに苦労するが、プロンプトやネットワークアーキテクチャにQDを活用し、多種多様な高性能ネットワークを作成する。 私たちは、cifar-10イメージ分類ベンチマークでllmaticをテストし、ベンチマークドメインの事前知識や以前のトップパフォーマンスモデルへの露出がなくても、わずか2,000ドルの検索で競合ネットワークを作成できることを示した。

Large Language Models (LLMs) have emerged as powerful tools capable of accomplishing a broad spectrum of tasks. Their abilities span numerous areas, and one area where they have made a significant impact is in the domain of code generation. In this context, we view LLMs as mutation and crossover tools. Meanwhile, Quality-Diversity (QD) algorithms are known to discover diverse and robust solutions. By merging the code-generating abilities of LLMs with the diversity and robustness of QD solutions, we introduce LLMatic, a Neural Architecture Search (NAS) algorithm. While LLMs struggle to conduct NAS directly through prompts, LLMatic uses a procedural approach, leveraging QD for prompts and network architecture to create diverse and highly performant networks. We test LLMatic on the CIFAR-10 image classification benchmark, demonstrating that it can produce competitive networks with just $2,000$ searches, even without prior knowledge of the benchmark domain or exposure to any previous top-performing models for the benchmark.
翻訳日:2023-10-05 08:03:39 公開日:2023-10-03
# Vocos: 高品質音声合成のための時間領域とフーリエベースニューラルボコーダのギャップを埋める

Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis ( http://arxiv.org/abs/2306.00814v2 )

ライセンス: Link先を確認
Hubert Siuzdak(参考訳) ニューラルヴォコーディングの最近の進歩は、主に時間領域で動作するジェネレーティブ・アドバイサル・ネットワーク(GAN)によって駆動される。 このアプローチは有効であるが、時間周波数表現による帰納バイアスを無視し、再帰的かつ計算集約的なアップサンプリング操作をもたらす。 フーリエに基づく時間周波数表現は、より正確に人間の聴覚知覚と一致し、その計算に確立された高速アルゴリズムの恩恵を受ける魅力的な代替手段である。 それにもかかわらず、複雑な値を持つ分光器の直接再構成は歴史的に問題視されてきた。 本研究は、フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提示することで、このギャップを埋めようとしている。 我々の評価で示されているように、Vocosは音質の最先端に適合するだけでなく、計算効率も大幅に向上し、時間-ドメインのニューラル・ヴォコーディング・アプローチに比べて処理速度が大幅に向上する。 ソースコードとモデルウェイトはhttps://github.com/charactr-platform/vocosでオープンソース化された。

Recent advancements in neural vocoding are predominantly driven by Generative Adversarial Networks (GANs) operating in the time-domain. While effective, this approach neglects the inductive bias offered by time-frequency representations, resulting in reduntant and computionally-intensive upsampling operations. Fourier-based time-frequency representation is an appealing alternative, aligning more accurately with human auditory perception, and benefitting from well-established fast algorithms for its computation. Nevertheless, direct reconstruction of complex-valued spectrograms has been historically problematic, primarily due to phase recovery issues. This study seeks to close this gap by presenting Vocos, a new model that directly generates Fourier spectral coefficients. Vocos not only matches the state-of-the-art in audio quality, as demonstrated in our evaluations, but it also substantially improves computational efficiency, achieving an order of magnitude increase in speed compared to prevailing time-domain neural vocoding approaches. The source code and model weights have been open-sourced at https://github.com/charactr-platform/vocos.
翻訳日:2023-10-05 08:03:21 公開日:2023-10-03
# ポストセレクションなしの計測後絡みの調査

Probing post-measurement entanglement without post-selection ( http://arxiv.org/abs/2305.20092v2 )

ライセンス: Link先を確認
Samuel J. Garratt and Ehud Altman(参考訳) 多数の測定値から生じる量子集合現象を観測する問題について検討する。 これらの現象を従来の実験で観察することは困難であり, 測定結果の劣化を区別するためには, 出生確率が指数関数的に小さい測定結果の集合に対して, 後から選択する必要がある。 この指数的な「ポストセレクション問題」を避ける非従来的アプローチは、実験データとシミュレーションの結果の相互相関を構築することである。 しかし、これらの相互相関は一般に物理量と明確な関係を持たない。 まず、このフレームワークにシャドウトモグラフィーを組み込む方法を示し、量子情報理論の相互相関の構築を可能にする。 次に,測定平均値がフォン・ノイマンのエンタングルメントエントロピーと,測定平均値の純度とエンタングルメントネガティビティを低く設定した交叉関係を同定した。 これらの境界は, ポストセレクションを必要とせずに, 測定後の絡み合いを抑える実験を行うことが可能であることを示している。 本手法を説明するために,Haar-random量子回路における測定誘起エンタングルメント遷移の観測方法を検討する。 量子シミュレーションのプロキシとして厳密な数値計算を用い,古典記憶の基本限界を強調するために,有限結合次元におけるテンソルネットワーク計算との相互相関を構築した。 その結果, 多項式時間と多項式古典記憶において量子シミュレータを用いて観測できる測定誘起臨界性のシグネチャが明らかになった。

We study the problem of observing quantum collective phenomena emerging from large numbers of measurements. These phenomena are difficult to observe in conventional experiments because, in order to distinguish the effects of measurement from dephasing, it is necessary to post-select on sets of measurement outcomes whose Born probabilities are exponentially small in the number of measurements performed. An unconventional approach, which avoids this exponential `post-selection problem', is to construct cross-correlations between experimental data and the results of simulations on classical computers. However, these cross-correlations generally have no definite relation to physical quantities. We first show how to incorporate shadow tomography into this framework, thereby allowing for the construction of quantum information-theoretic cross-correlations. We then identify cross-correlations which both upper and lower bound the measurement-averaged von Neumann entanglement entropy, and additional cross-correlations which lower bound the measurement-averaged purity and entanglement negativity. These bounds show that experiments can be performed to constrain post-measurement entanglement without the need for post-selection. To illustrate our technique we consider how it could be used to observe the measurement-induced entanglement transition in Haar-random quantum circuits. We use exact numerical calculations as proxies for quantum simulations and, to highlight the fundamental limitations of classical memory, we construct cross-correlations with tensor-network calculations at finite bond dimension. Our results reveal a signature of measurement-induced criticality that can be observed using a quantum simulator in polynomial time and with polynomial classical memory.
翻訳日:2023-10-05 08:03:02 公開日:2023-10-03
# マルチモードLDMにおける間接インストラクション注入のための画像と音の除去

Abusing Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs ( http://arxiv.org/abs/2307.10490v4 )

ライセンス: Link先を確認
Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov(参考訳) マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。 攻撃者は、プロンプトに対応する敵対的摂動を生成し、画像または音声記録にブレンドする。 ユーザが摂動画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。 この攻撃をLLaVaとPandaGPTをターゲットにした概念実証例で説明する。

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign) model about the perturbed image or audio, the perturbation steers the model to output the attacker-chosen text and/or make the subsequent dialog follow the attacker's instruction. We illustrate this attack with several proof-of-concept examples targeting LLaVa and PandaGPT.
翻訳日:2023-10-05 07:56:11 公開日:2023-10-03
# 単位円グラフ上の最大独立集合問題の硬さと量子スピードアップの展望

Hardness of the Maximum Independent Set Problem on Unit-Disk Graphs and Prospects for Quantum Speedups ( http://arxiv.org/abs/2307.09442v2 )

ライセンス: Link先を確認
Ruben S. Andrist, Martin J. A. Schuetz, Pierre Minssen, Romina Yalovetzky, Shouvanik Chakrabarti, Dylan Herman, Niraj Kumar, Grant Salton, Ruslan Shaydulin, Yue Sun, Marco Pistoia, Helmut G. Katzgraber(参考訳) rydbergの原子配列は、量子スピードアップのデモンストレーションの有力候補の1つだ。 最大289 qubits (Ebadi et al., Science 376, 1209 (2022)) を用いた最近の実験により、原論文の範囲を超えて幅広い古典的解法を持つ単位ディスクグラフ上の最大独立集合問題について研究した。 我々は,厳密かつヒューリスティックなアルゴリズムを用いて,広範囲な数値研究を行い,問題の難易度を評価する。 共用ジャックのような接続性を持つ準平面インスタンスは、インスタンス固有の微調整をすることなく、コモディティハードウェア上でカスタムとジェネリックの両方の商用解法を用いて、数分で最大数千のノードで最適に解くことができる。 また,ebadiらによって検討された古典的なシミュレーションアニーリングアルゴリズムの制約を緩和することで,量子アルゴリズムとの競合性を示した。 逆に、より大きな接続性または少ない構造を持つインスタンスは、潜在的に桁違いに大きい時間から解法を示す。 これらの結果に基づき,従来より数桁難易度(確立された古典的解法)のインスタンス上で,rydberg原子配列を用いた実験をモチベーションとして,問題硬度を体系的に調整するプロトコルを提案する。

Rydberg atom arrays are among the leading contenders for the demonstration of quantum speedups. Motivated by recent experiments with up to 289 qubits [Ebadi et al., Science 376, 1209 (2022)] we study the maximum independent set problem on unit-disk graphs with a broader range of classical solvers beyond the scope of the original paper. We carry out extensive numerical studies and assess problem hardness, using both exact and heuristic algorithms. We find that quasi-planar instances with Union-Jack-like connectivity can be solved to optimality for up to thousands of nodes within minutes, with both custom and generic commercial solvers on commodity hardware, without any instance-specific fine-tuning. We also perform a scaling analysis, showing that by relaxing the constraints on the classical simulated annealing algorithms considered in Ebadi et al., our implementation is competitive with the quantum algorithms. Conversely, instances with larger connectivity or less structure are shown to display a time-to-solution potentially orders of magnitudes larger. Based on these results we propose protocols to systematically tune problem hardness, motivating experiments with Rydberg atom arrays on instances orders of magnitude harder (for established classical solvers) than previously studied.
翻訳日:2023-10-05 07:55:45 公開日:2023-10-03
# レート分割型マルチアクセスのためのメタラーニング型プリコーダ最適化フレームワーク

A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting Multiple Access ( http://arxiv.org/abs/2307.08822v2 )

ライセンス: Link先を確認
Rafael Cerna Loli, Bruno Clerckx(参考訳) 本稿では,トランスミッタ(csit)における部分チャネル状態情報を含むレート・スプリッティング・マルチアクセス(rsma)プリコーダを直接最適化するためのメタラーニング型プリコーダ最適化フレームワークを提案する。 コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。 数値計算の結果,メタラーニングに基づくソリューションは,中規模シナリオにおける従来のプリコーダ最適化と同等のasr性能を達成し,大規模システムにおけるサブ最適低複雑性プリコーダアルゴリズムを著しく上回っていることがわかった。

In this letter, we propose the use of a meta-learning based precoder optimization framework to directly optimize the Rate-Splitting Multiple Access (RSMA) precoders with partial Channel State Information at the Transmitter (CSIT). By exploiting the overfitting of the compact neural network to maximize the explicit Average Sum-Rate (ASR) expression, we effectively bypass the need for any other training data while minimizing the total running time. Numerical results reveal that the meta-learning based solution achieves similar ASR performance to conventional precoder optimization in medium-scale scenarios, and significantly outperforms sub-optimal low complexity precoder algorithms in the large-scale regime.
翻訳日:2023-10-05 07:55:18 公開日:2023-10-03
# 光ツイーザーアレイにおける単一ジスプロシウム原子の追跡とイメージング

Trapping and imaging single dysprosium atoms in optical tweezer arrays ( http://arxiv.org/abs/2307.04689v3 )

ライセンス: Link先を確認
Damien Bloch, Britton Hofer, Sam R. Cohen, Antoine Browaeys, Igor Ferrier-Barbut(参考訳) 626nmの結合線上に532nmの波長の光学トワイザーを配置し,ダイスプロシウムの単一原子の合成と観察を行った。 我々は、ランタニド特有の異方性光シフト、特に、地表面と励起状態のテンソルとベクトル偏光率の大きな差を用いて、微分光シフトを調整し、ニアマグニックまたはマジック偏光におけるツイーザを生成する。 これにより、単一の原子が生成され、画像化できる体制を見つけることができる。 tweezer配列ツールボックスを使ってランタンを操作すれば、その豊富なスペクトル、大きなスピン、磁気双極子モーメントを利用して量子物理学研究の新しい研究方向を開くことができる。

We report the preparation and observation of single atoms of dysprosium in arrays of optical tweezers with a wavelength of 532 nm imaged on the intercombination line at 626 nm. We use the anisotropic light shift specific to lanthanides and in particular a large difference in tensor and vector polarizabilities between the ground and excited states to tune the differential light shift and produce tweezers in near-magic or magic polarization. This allows us to find a regime where single atoms can be produced and imaged. Using the tweezer array toolbox to manipulate lanthanides will open new research directions for quantum physics studies by taking advantage of their rich spectrum, large spin and magnetic dipole moment.
翻訳日:2023-10-05 07:54:20 公開日:2023-10-03
# RecallM: 大規模言語モデルに対する時間的理解を伴う適応型記憶機構

RecallM: An Adaptable Memory Mechanism with Temporal Understanding for Large Language Models ( http://arxiv.org/abs/2307.02738v3 )

ライセンス: Link先を確認
Brandon Kynoch, Hugo Latapie, Dwane van der Sluis(参考訳) 大規模言語モデル(LLM)は人工知能の分野で驚くべき進歩を遂げており、様々なタスクや領域にまたがる優れた能力を示している。 しかし、人工知能(agi)システムの開発に近付くにつれて、コンテキストウインドウの制限を克服するためにllmを長期記憶で補う必要性が認識され、さらに重要なこととして、継続的な推論、累積学習、長期ユーザインタラクションの基礎を作る必要がある。 本稿では,LLMに適応可能な長期記憶機構を備えた新しいアーキテクチャであるRecallMを提案する。 従来の手法とは異なり、RecallMアーキテクチャは特に、それに提供する知識の時間的理解の更新と維持に有効である。 このアーキテクチャの有効性を様々な実験で実証する。 さらに、我々の時間的理解と信念更新実験により、RecallMは長期記憶に格納された知識を更新するためのベクトルデータベースよりも4倍有効であることを示す。 また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて競合性能を示すことを示した。

Large Language Models (LLMs) have made extraordinary progress in the field of Artificial Intelligence and have demonstrated remarkable capabilities across a large variety of tasks and domains. However, as we venture closer to creating Artificial General Intelligence (AGI) systems, we recognize the need to supplement LLMs with long-term memory to overcome the context window limitation and more importantly, to create a foundation for sustained reasoning, cumulative learning and long-term user interaction. In this paper we propose RecallM, a novel architecture for providing LLMs with an adaptable and updatable long-term memory mechanism. Unlike previous methods, the RecallM architecture is particularly effective at belief updating and maintaining a temporal understanding of the knowledge provided to it. We demonstrate through various experiments the effectiveness of this architecture. Furthermore, through our own temporal understanding and belief updating experiments, we show that RecallM is four times more effective than using a vector database for updating knowledge previously stored in long-term memory. We also demonstrate that RecallM shows competitive performance on general question-answering and in-context learning tasks.
翻訳日:2023-10-05 07:53:41 公開日:2023-10-03
# 大規模言語モデルを用いたデータ競合検出

Data Race Detection Using Large Language Models ( http://arxiv.org/abs/2308.07505v2 )

ライセンス: Link先を確認
Le Chen, Xianzhong Ding, Murali Emani, Tristan Vanderbruggen, Pei-hung Lin, Chuanhua Liao(参考訳) 大規模言語モデル(llm)は、リソース集約的な手動ツール作成の必要性を回避し、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略として、大きな期待を示している。 本稿では,技術と微調整を融合したllmに基づく新しいデータ競合検出手法について検討する。 我々はDataRaceBenchから派生したDRB-MLという専用のデータセットを作成し、データレースペアとその関連する変数、行番号、読み書き情報を示す微粒なラベルを付ける。 DRB-MLは、代表的なLCMとファインチューンオープンソースの評価に使用される。 実験の結果,LLMはデータ競合検出に有効な手法であることがわかった。 しかし、変数ペアに関する詳細な情報が必要な場合、従来のデータ競合検出ツールと競合することはできません。

Large language models (LLMs) are demonstrating significant promise as an alternate strategy to facilitate analyses and optimizations of high-performance computing programs, circumventing the need for resource-intensive manual tool creation. In this paper, we explore a novel LLM-based data race detection approach combining prompting engineering and fine-tuning techniques. We create a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with fine-grain labels showing the presence of data race pairs and their associated variables, line numbers, and read/write information. DRB-ML is then used to evaluate representative LLMs and fine-tune open-source ones. Our experiment shows that LLMs can be a viable approach to data race detection. However, they still cannot compete with traditional data race detection tools when we need detailed information about variable pairs causing data races.
翻訳日:2023-10-05 07:45:06 公開日:2023-10-03
# ポテンシャルエネルギー関数の時間発展演算子設計のための量子ハミルトン符号化フレームワークの提案

A Proposed Quantum Hamiltonian Encoding Framework for Time Evolution Operator Design of Potential Energy Function ( http://arxiv.org/abs/2308.06491v2 )

ライセンス: Link先を確認
Mostafizur Rahaman Laskar, Kalyan Dasgupta, Atanu Bhattacharya(参考訳) 量子系におけるポテンシャルエネルギー作用素の探索は、原子の振る舞いに関する深い洞察を提供し、相互作用を定義し、分子動力学の正確な予測を可能にする。 ボルン-オッペンハイマー像を取り入れることで、ポテンシャルエネルギーによる複雑な量子進化を探究し、量子忠実性が向上した原子現象の正確なモデリングとシミュレーションを容易にする。 この研究は、量子化学と凝縮物質物理学にまたがる応用のためのポテンシャルエネルギー関数による時間進化の操作について検討する。 次元性の恐ろしい呪いと複雑な絡み合った相互作用を包含した実践的実践の課題を慎重に検討する。 本研究は,2つのアルゴリズムによるエネルギー景観の包括的調査のための強固な基盤を構築した。 1つの方法論では、ポテンシャルエネルギーに対応するユニタリ時間発展演算子を構築することができるパウリZ、アイデンティティ、RZゲートの合成構成により、ポテンシャルエネルギー関数をアダマール基底に体系的に分解することを示した。 もう1つの方法は複雑性と忠実性の間のトレードオフであり、そこではゲートの複雑さを {\theta}(2n) から {\theta}(ncr ) (ある r < n) まで低減できる新しい量子フレームワークを提案する。 提案する量子アルゴリズムは、ポテンシャルエネルギー演算子を効率的にシミュレートすることができる。 アルゴリズムはシミュレータとIBM量子ハードウェアで実装され、その有効性を証明する。

The exploration of potential energy operators in quantum systems holds paramount significance, offering profound insights into atomic behaviour, defining interactions, and enabling precise prediction of molecular dynamics. By embracing the Born-Oppenheimer picture, we delve into the intricate quantum evolution due to potential energy, facilitating accurate modelling and simulation of atomic phenomena with improved quantum fidelity. This research delves into time evolution operation due to potential energy functions for applications spanning quantum chemistry and condensed matter physics. Challenges in practical implementation, encompassing the formidable curse of dimensionality and intricate entangled interactions, are thoughtfully examined. Drawing upon seminal works, we lay a robust foundation for comprehensive investigations into potential energy landscapes with two proposed algorithms. In one methodology, we have shown a systematic decomposition of the potential energy function into Hadamard bases with composite construction of Pauli-Z, identity and RZ gates which can construct the unitary time evolution operator corresponding to the potential energy with a very high fidelity. The other method is a trade-off between complexity and fidelity, where we propose a novel quantum framework that can reduce the gate complexity from {\Theta}(2n) to {\Theta}(nCr ) (for some r < n). The proposed quantum algorithms are capable of efficiently simulating potential energy operators. The algorithms were implemented in simulators and IBM quantum hardware to prove their efficacy
翻訳日:2023-10-05 07:44:53 公開日:2023-10-03
# 非エルミート系における近視原理の欠如

Lack of near-sightedness principle in non-Hermitian systems ( http://arxiv.org/abs/2308.00776v2 )

ライセンス: Link先を確認
Helene Spring, Viktor K\"onye, Anton R. Akhmerov, Ion Cosma Fulga(参考訳) 非エルミート皮膚効果(non-hermitian skin effect)は、系の境界に多くの状態が蓄積する現象である。 非自明なトポロジーと関連しており、非零バルク不変量はその出現と実空間における位置を予測する。 ここでは、非エルミート皮膚効果は一般にトポロジカル現象ではなく、翻訳対称性が単一の非エルミート不純物によって破られるとき、境界で皮膚モードが枯渇し、バルク不変量を変えることなく不純物部位に蓄積される。 これは完全なエルミートバルクでも起こりうる。

The non-Hermitian skin effect is a phenomenon in which an extensive number of states accumulates at the boundaries of a system. It has been associated to nontrivial topology, with nonzero bulk invariants predicting its appearance and its position in real space. Here we demonstrate that the non-Hermitian skin effect is not a topological phenomenon in general: when translation symmetry is broken by a single non-Hermitian impurity, skin modes are depleted at the boundary and accumulate at the impurity site, without changing any bulk invariant. This may occur even for a fully Hermitian bulk.
翻訳日:2023-10-05 07:44:04 公開日:2023-10-03
# ToolLLM: 大きな言語モデルを16000以上の実世界のAPIにファシリテートする

ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs ( http://arxiv.org/abs/2307.16789v2 )

ライセンス: Link先を確認
Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun(参考訳) オープンソースの大規模言語モデル(LLM)、例えばLLaMAの進歩にもかかわらず、それらはツールの使用能力、すなわち人間の指示を満たすために外部ツール(API)に大きく制限されている。 理由は、現在のインストラクションチューニングが基本的な言語タスクに重点を置いているが、ツールユースドメインを無視しているからだ。 これは、最先端(SOTA)クローズドソースLLM(例えばChatGPT)の優れたツール使用能力とは対照的である。 このギャップを埋めるために、データ構築、モデルトレーニング、評価を含む一般的なツール使用フレームワークであるToolLLMを紹介します。 まず,chatgpt を用いて自動構築されたツール用命令チューニングデータセットである toolbench を提案する。 具体的には、建設は3つの段階に分けられる。 APIコレクション:RapidAPI Hubから49のカテゴリにまたがる16,464の現実世界のRESTful APIを収集します。 (ii)命令生成:ChatGPTにこれらのAPIを含む多様な命令を生成し、単一ツールとマルチツールの両方のシナリオをカバーする。 (iii)ソリューションパスアノテーション:各命令に対して有効なソリューションパス(api呼び出しのチェーン)を検索するためにchatgptを使用します。 LLMの推論能力を高めるために,新しい深度優先探索に基づく決定木アルゴリズムを開発した。 LLMは複数の推論トレースを評価し、検索スペースを拡張することができる。 さらに,llmsのツール利用能力を評価するため,自動評価器toolevalを開発した。 ToolBenchに基づいて、LLaMAを微調整してLLM ToolLLaMAを取得し、ニューラルAPIレトリバーを装備し、各命令に適切なAPIを推奨します。 ToolLLaMAは複雑な命令を実行し、見えないAPIに一般化する素晴らしい能力を示し、ChatGPTに匹敵するパフォーマンスを示す。 当社のツールラマは、アウトオブディストリビューションのツール利用データセットであるapibenchで、強力なゼロショット一般化能力も示しています。

Despite the advancements of open-source large language models (LLMs), e.g., LLaMA, they remain significantly limited in tool-use capabilities, i.e., using external tools (APIs) to fulfill human instructions. The reason is that current instruction tuning largely focuses on basic language tasks but ignores the tool-use domain. This is in contrast to the excellent tool-use capabilities of state-of-the-art (SOTA) closed-source LLMs, e.g., ChatGPT. To bridge this gap, we introduce ToolLLM, a general tool-use framework encompassing data construction, model training, and evaluation. We first present ToolBench, an instruction-tuning dataset for tool use, which is constructed automatically using ChatGPT. Specifically, the construction can be divided into three stages: (i) API collection: we collect 16,464 real-world RESTful APIs spanning 49 categories from RapidAPI Hub; (ii) instruction generation: we prompt ChatGPT to generate diverse instructions involving these APIs, covering both single-tool and multi-tool scenarios; (iii) solution path annotation: we use ChatGPT to search for a valid solution path (chain of API calls) for each instruction. To enhance the reasoning capabilities of LLMs, we develop a novel depth-first search-based decision tree algorithm. It enables LLMs to evaluate multiple reasoning traces and expand the search space. Moreover, to evaluate the tool-use capabilities of LLMs, we develop an automatic evaluator: ToolEval. Based on ToolBench, we fine-tune LLaMA to obtain an LLM ToolLLaMA, and equip it with a neural API retriever to recommend appropriate APIs for each instruction. Experiments show that ToolLLaMA demonstrates a remarkable ability to execute complex instructions and generalize to unseen APIs, and exhibits comparable performance to ChatGPT. Our ToolLLaMA also demonstrates strong zero-shot generalization ability in an out-of-distribution tool-use dataset: APIBench.
翻訳日:2023-10-05 07:43:52 公開日:2023-10-03
# RCS-YOLO:脳腫瘍検出用高速高精度物体検出装置

RCS-YOLO: A Fast and High-Accuracy Object Detector for Brain Tumor Detection ( http://arxiv.org/abs/2307.16412v2 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el C.-W. Phan(参考訳) 速度と精度のバランスが良く、最先端のYOLOフレームワークはオブジェクト検出の最も効率的なアルゴリズムの1つになっている。 しかし,脳腫瘍検出では,yoloネットワークの利用性能があまり研究されていない。 本稿では,チャネルシャッフル(RCS-YOLO)に基づく並列化畳み込みを用いたYOLOアーキテクチャを提案する。 本稿では,特徴カスケードと計算効率をリンクするrcs(rcs-osa)のrcsとワンショットアグリゲーションを行い,よりリッチな情報抽出と時間消費の削減について述べる。 脳腫瘍データセット Br35H の実験的結果は,提案モデルが YOLOv6, YOLOv7, YOLOv8 を超える速度と精度を示した。 特にYOLOv7と比較して、RCS-YOLOの精度は1%向上し、毎秒114.8枚の画像(FPS)で推論速度は60%向上した。 提案したRCS-YOLOは,脳腫瘍検出タスクにおける最先端の性能を実現する。 コードはhttps://github.com/mkang315/RCS-YOLOで公開されている。

With an excellent balance between speed and accuracy, cutting-edge YOLO frameworks have become one of the most efficient algorithms for object detection. However, the performance of using YOLO networks is scarcely investigated in brain tumor detection. We propose a novel YOLO architecture with Reparameterized Convolution based on channel Shuffle (RCS-YOLO). We present RCS and a One-Shot Aggregation of RCS (RCS-OSA), which link feature cascade and computation efficiency to extract richer information and reduce time consumption. Experimental results on the brain tumor dataset Br35H show that the proposed model surpasses YOLOv6, YOLOv7, and YOLOv8 in speed and accuracy. Notably, compared with YOLOv7, the precision of RCS-YOLO improves by 1%, and the inference speed by 60% at 114.8 images detected per second (FPS). Our proposed RCS-YOLO achieves state-of-the-art performance on the brain tumor detection task. The code is available at https://github.com/mkang315/RCS-YOLO.
翻訳日:2023-10-05 07:43:21 公開日:2023-10-03
# 対象6次元ポーズ推定のための完全畳み込み幾何学的特徴の再検討

Revisiting Fully Convolutional Geometric Features for Object 6D Pose Estimation ( http://arxiv.org/abs/2307.15514v2 )

ライセンス: Link先を確認
Jaime Corsetti, Davide Boscaini, Fabio Poiesi(参考訳) 近年の6次元オブジェクトポーズ推定では,画像とオブジェクトモデル間のキーポイント対応の学習に焦点が当てられ,RANSACに基づくアルゴリズムでオブジェクトポーズを決定するか,エンドツーエンドの最適化で直接ポーズを回帰させることでオブジェクトポーズを決定する。 ポイントレベルの差別的特徴の学習は文献で見過ごされていると論じる。 この目的のために、我々はFCGF (Fully Convolutional Geometric Features) を再検討し、オブジェクト6Dポーズ推定のための調整を行い、最先端の性能を達成する。 FCGFはスパース畳み込みを採用し、コントラスト損失を最適化することで完全畳み込みネットワークを用いてポイントレベルの特徴を学習する。 学習戦略を慎重に調整し,基礎となる問題に適したデータ拡張を行うことにより,損失や入力データ表現に対する重要な修正を適用することにより,人気のあるベンチマークにおいて,最近の競争相手を上回ることができる。 我々は各修正の貢献を研究するために徹底的にアブレーションを行う。 コードはhttps://github.com/jcorsetti/FCGF6Dで入手できる。

Recent works on 6D object pose estimation focus on learning keypoint correspondences between images and object models, and then determine the object pose through RANSAC-based algorithms or by directly regressing the pose with end-to-end optimisations. We argue that learning point-level discriminative features is overlooked in the literature. To this end, we revisit Fully Convolutional Geometric Features (FCGF) and tailor it for object 6D pose estimation to achieve state-of-the-art performance. FCGF employs sparse convolutions and learns point-level features using a fully-convolutional network by optimising a hardest contrastive loss. We can outperform recent competitors on popular benchmarks by adopting key modifications to the loss and to the input data representations, by carefully tuning the training strategies, and by employing data augmentations suitable for the underlying problem. We carry out a thorough ablation to study the contribution of each modification. The code is available at https://github.com/jcorsetti/FCGF6D.
翻訳日:2023-10-05 07:43:02 公開日:2023-10-03
# 破壊破壊リプシッツの文脈探索

Corruption-Robust Lipschitz Contextual Search ( http://arxiv.org/abs/2307.13903v2 )

ライセンス: Link先を確認
Shiliang Zuo(参考訳) リプシッツ関数を劣化したバイナリ信号で学習する問題について研究する。 学習者は、相手が選択した$L$-Lipschitz関数 $f: [0,1]^d \rightarrow [0,L]$を学習しようとする。 合計で$T$のラウンドがある。 各ラウンド$t$において、相手は入力空間内のコンテキストベクトル$x_t$を選択し、学習者は真関数値$f(x_t)$に推測を行い、推測値が高いか低いかを示すバイナリ信号を受け取る。 合計$C$ラウンドでは、信号は破損する可能性があるが、学習者には$C$の値は \emph{unknown} である。 学習者の目標は、小さな累積損失を負うことである。 本研究は,新しいアルゴリズム手法であるemph{agnostic check}と新しい解析手法を紹介する。 対称損失に対して、学習者は、$d = 1$ で、$l\cdot o_d(c\log t + t^{(d-1)/d})$ で、$d > 1$ で、 学習者は、$l\cdot \widetilde{o} (t^{d/(d+1)} + c\cdot t^{1/(d+1)})$ で後悔する。

I study the problem of learning a Lipschitz function with corrupted binary signals. The learner tries to learn a $L$-Lipschitz function $f: [0,1]^d \rightarrow [0, L]$ that the adversary chooses. There is a total of $T$ rounds. In each round $t$, the adversary selects a context vector $x_t$ in the input space, and the learner makes a guess to the true function value $f(x_t)$ and receives a binary signal indicating whether the guess is high or low. In a total of $C$ rounds, the signal may be corrupted, though the value of $C$ is \emph{unknown} to the learner. The learner's goal is to incur a small cumulative loss. This work introduces the new algorithmic technique \emph{agnostic checking} as well as new analysis techniques. I design algorithms which: for the symmetric loss, the learner achieves regret $L\cdot O(C\log T)$ with $d = 1$ and $L\cdot O_d(C\log T + T^{(d-1)/d})$ with $d > 1$; for the pricing loss, the learner achieves regret $L\cdot \widetilde{O} (T^{d/(d+1)} + C\cdot T^{1/(d+1)})$.
翻訳日:2023-10-05 07:42:44 公開日:2023-10-03
# In-Context Learningはラベル関係を学習するが、従来の学習ではない

In-Context Learning Learns Label Relationships but Is Not Conventional Learning ( http://arxiv.org/abs/2307.12375v3 )

ライセンス: Link先を確認
Jannik Kossen, Yarin Gal, Tom Rainforth(参考訳) 下流タスクにおけるLarge Language Models(LLM)の予測は、文脈における入力-ラベル関係の例を含むと、しばしば大幅に改善される。 しかし、現在llmsのicl(in-context learning)機能がどのように機能するかについてのコンセンサスはない。 例えば、Xie et al. (2021) は ICL を汎用学習アルゴリズムに例えたが、Min et al. (2022) は ICL はテキスト内例からラベル関係を学ばないと主張している。 本稿では,ICLがラベル情報をどのように活用するかという新たな知見を提供し,その能力と限界を明らかにする。 ICLの挙動を網羅的に把握するために、ICL予測の確率論的側面を調査し、より多くの事例が提供されるにつれてICCのダイナミクスを徹底的に検証する。 実験の結果, iclの予測は, ほぼ常にインコンテキストラベルに依存しており, iclは真に新しいタスクをインコンテキストで学習できることがわかった。 しかし,iclは事前学習データから得られた予測嗜好を完全に克服するのに苦労しており,また,iclが文脈内情報を等しく考慮していないことも判明した。

The predictions of Large Language Models (LLMs) on downstream tasks often improve significantly when including examples of the input--label relationship in the context. However, there is currently no consensus about how this in-context learning (ICL) ability of LLMs works. For example, while Xie et al. (2021) liken ICL to a general-purpose learning algorithm, Min et al. (2022) argue ICL does not even learn label relationships from in-context examples. In this paper, we provide novel insights into how ICL leverages label information, revealing both capabilities and limitations. To ensure we obtain a comprehensive picture of ICL behavior, we study probabilistic aspects of ICL predictions and thoroughly examine the dynamics of ICL as more examples are provided. Our experiments show that ICL predictions almost always depend on in-context labels, and that ICL can learn truly novel tasks in-context. However, we also find that ICL struggles to fully overcome prediction preferences acquired from pre-training data, and, further, that ICL does not consider all in-context information equally.
翻訳日:2023-10-05 07:42:11 公開日:2023-10-03
# 反射エントロピーと計算可能なクロスノルムネガティビティ:自由理論と対称性の解決

Reflected entropy and computable cross-norm negativity: Free theories and symmetry resolution ( http://arxiv.org/abs/2307.11009v2 )

ライセンス: Link先を確認
Cl\'ement Berthiere and Gilles Parez(参考訳) 計算可能なクロスノーム(CCNR)と,CCNR負性度(CCNR Negativity)と呼ばれる関連量に基づく分離性基準を検討する。 CCNR負性率の反射バージョンを導入し、その関係を他の確立された絡み合い関連量、すなわち反射エントロピーと作用素エントロピーとを議論する。 自由フェルミオン理論とボゾン理論では、2点相関関数の項で正確な公式を導出し、体系的な数値的な研究と原理的には解析的処理を可能にする。 大域的な$U(1)$対称性を持つ系に対しては、対称性を解いた反射エントロピーとCCNR負性度を研究する。 我々は隣接する区間の荷電モーメントに対する共形場理論(cft)の結果を提供し、数値との完全な一致を求める。 我々は,自由フェルミオンモデルと自由ボソンモデルの両方に対して,反射エントロピーとCCNR負の平衡を観察する。 最初の電荷依存補正はフェルミオンで予想され、ボソンのCFT計算から外された。

We investigate a separability criterion based on the computable cross-norm (CCNR), and a related quantity called the CCNR negativity. We introduce a reflected version of the CCNR negativity, and discuss its connection with other well-established entanglement-related quantities, namely the reflected entropy and the operator entanglement entropy. For free fermionic and bosonic theories, we derive exact formulas in terms of two-point correlation functions, which allow for systematic numerical investigations and, in principle, analytical treatments. For systems with a global $U(1)$ symmetry, we study the symmetry-resolved reflected entropy and CCNR negativity. We provide conformal field theory (CFT) results for the charged moments in the case of adjacent intervals, finding perfect agreement with the numerics. We observe an equipartition of reflected entropies and CCNR negativities, both for free-fermions and free-boson models. The first charge-dependent corrections are conjectured for fermions, and worked out from the CFT calculations for bosons.
翻訳日:2023-10-05 07:41:48 公開日:2023-10-03
# SADIR:3次元画像再構成のための形状認識拡散モデル

SADIR: Shape-Aware Diffusion Models for 3D Image Reconstruction ( http://arxiv.org/abs/2309.03335v2 )

ライセンス: Link先を確認
Nivetha Jayakumar, Tonmoy Hossain, Miaomiao Zhang(参考訳) 限られた2次元画像からの3次元画像再構成は、コンピュータビジョンと画像解析における長年にわたる課題である。 ディープラーニングベースのアプローチはこの分野で優れたパフォーマンスを達成しているが、既存のディープネットワークは画像に表示されるオブジェクトの形状構造を効果的に活用できないことが多い。 その結果、復元された物体のトポロジーはよく保存されず、不連続、穴、異なる部分間の不一致接続などのアーティファクトが存在する。 本稿では,これらの問題に対処する3次元画像再構成のための拡散モデルに基づく形状認識ネットワーク,SADIRを提案する。 3次元復元のための画像強度の空間相関を主とする従来の手法とは対照的に,本モデルでは,トレーニングデータから学習した形状事前情報を用いて復元過程を導出する。 そこで我々は,変形モデルに基づく平均形状を同時に学習する共同学習ネットワークを開発した。 各復元された画像は、平均形状の変形型と見なされる。 我々は,脳と心臓の磁気共鳴画像(MRI)におけるSADIRモデルの有効性を検証した。 実験結果から,本手法は画像中の物体の形状構造をよりよく保存し,再現誤差を低くしてベースラインよりも優れていた。

3D image reconstruction from a limited number of 2D images has been a long-standing challenge in computer vision and image analysis. While deep learning-based approaches have achieved impressive performance in this area, existing deep networks often fail to effectively utilize the shape structures of objects presented in images. As a result, the topology of reconstructed objects may not be well preserved, leading to the presence of artifacts such as discontinuities, holes, or mismatched connections between different parts. In this paper, we propose a shape-aware network based on diffusion models for 3D image reconstruction, named SADIR, to address these issues. In contrast to previous methods that primarily rely on spatial correlations of image intensities for 3D reconstruction, our model leverages shape priors learned from the training data to guide the reconstruction process. To achieve this, we develop a joint learning network that simultaneously learns a mean shape under deformation models. Each reconstructed image is then considered as a deformed variant of the mean shape. We validate our model, SADIR, on both brain and cardiac magnetic resonance images (MRIs). Experimental results show that our method outperforms the baselines with lower reconstruction error and better preservation of the shape structure of objects within the images.
翻訳日:2023-10-05 07:35:47 公開日:2023-10-03
# 非対称運動量:勾配降下の再考

Asymmetric Momentum: A Rethinking of Gradient Descent ( http://arxiv.org/abs/2309.02130v2 )

ライセンス: Link先を確認
Gongyue Zhang, Dinghuang Zhang, Shuwen Zhao, Donghan Liu, Carrie M. Toptan and Honghai Liu(参考訳) 理論的および実験的検証を通じて、頻繁に変化するパラメータをペナライズし、スパース勾配にのみ適用できるAdamのような既存の適応手法とは異なり、最も単純なSGD拡張手法であるロス制御非対称モメンタム(LCAM)を提案する。 損失を平均することで、トレーニングプロセスを異なる損失フェーズに分割し、異なるモーメントを使用する。 適応オプティマイザと同様、スパース勾配の遅い変化パラメータを加速できるだけでなく、スパース勾配の頻繁な変化パラメータを加速できるため、あらゆる種類のデータセットに適応できる。 重み結合と重みトラクションの概念を用いて機械学習学習プロセスを再解釈し、重みがデータセットの特異性と相関する方向特異性を持つことを実験的に検証する。 興味深いことに,非疎勾配では,頻繁に変化するパラメータが実際に加速されるべきであり,これは従来の適応的観点とは全く逆である。 従来の運動量を持つsgdと比較して、このアルゴリズムは計算コストを増すことなく重みを分離する。 この手法は複雑な特徴を抽出するネットワークの能力に依存している。 従来のデータセットであるcifar10とcifar100を使用して、特徴分離の能力をテストすると同時に、単に正確性よりもはるかに重要な現象を結論付けています。 最後に、従来のSGDチューニング手法と比較して、これらの2つのデータセットでWRNを使用し、ほぼ半分のトレーニングエポックで、同等またはより良いテスト精度を達成する。

Through theoretical and experimental validation, unlike all existing adaptive methods like Adam which penalize frequently-changing parameters and are only applicable to sparse gradients, we propose the simplest SGD enhanced method, Loss-Controlled Asymmetric Momentum(LCAM). By averaging the loss, we divide training process into different loss phases and using different momentum. It not only can accelerates slow-changing parameters for sparse gradients, similar to adaptive optimizers, but also can choose to accelerates frequently-changing parameters for non-sparse gradients, thus being adaptable to all types of datasets. We reinterpret the machine learning training process through the concepts of weight coupling and weight traction, and experimentally validate that weights have directional specificity, which are correlated with the specificity of the dataset. Thus interestingly, we observe that in non-sparse gradients, frequently-changing parameters should actually be accelerated, which is completely opposite to traditional adaptive perspectives. Compared to traditional SGD with momentum, this algorithm separates the weights without additional computational costs. It is noteworthy that this method relies on the network's ability to extract complex features. We primarily use Wide Residual Networks for our research, employing the classic datasets Cifar10 and Cifar100 to test the ability for feature separation and conclude phenomena that are much more important than just accuracy rates. Finally, compared to classic SGD tuning methods, while using WRN on these two datasets and with nearly half the training epochs, we achieve equal or better test accuracy.
翻訳日:2023-10-05 07:35:28 公開日:2023-10-03
# 単位節の伝搬に無関係なCNF式について

On CNF formulas irredundant with respect to unit clause propagation ( http://arxiv.org/abs/2309.01750v2 )

ライセンス: Link先を確認
Petr Savick\'y(参考訳) 2つのCNF式はucp-等価(ucp-equivalent)と呼ばれ、単位節の伝搬(UCP)に関して同じように振る舞う。 式は ucp-irredundant と呼ばれ、任意の節を削除すると、元の式と同値でない式が導かれる。 既知の結果の結果、ucp-不等式のサイズと最小のucp-等価式のサイズの比率は、少なくとも$n^2$であり、$n$は変数の数である。 対称定値ホーン関数に対するucp-不等式の例を、$\Omega(n/\ln n)$ で最小のucp-等価式より大きくし、したがって上記の比の一般上界は、これより小さくならない。

Two CNF formulas are called ucp-equivalent, if they behave in the same way with respect to the unit clause propagation (UCP). A formula is called ucp-irredundant, if removing any clause leads to a formula which is not ucp-equivalent to the original one. As a consequence of known results, the ratio of the size of a ucp-irredundant formula and the size of a smallest ucp-equivalent formula is at most $n^2$, where $n$ is the number of the variables. We demonstrate an example of a ucp-irredundant formula for a symmetric definite Horn function which is larger than a smallest ucp-equivalent formula by a factor $\Omega(n/\ln n)$ and, hence, a general upper bound on the above ratio cannot be smaller than this.
翻訳日:2023-10-05 07:34:58 公開日:2023-10-03
# 最大エントロピーを持つ半古典的時空領域

A Semi-classical Spacetime Region with Maximum Entropy ( http://arxiv.org/abs/2309.00602v2 )

ライセンス: Link先を確認
Yuki Yokokura(参考訳) 4次元球面対称な静的時空領域を半古典的アインシュタイン方程式の量子の集まりと考え、自己重力を含むエントロピーを研究する。 十分に励起された状態に対して、エントロピーの非局所性と熱力学との局所的整合性を考慮して、WKBのような方法でエントロピーを推定し、その上限を求める。 飽和条件はエントロピー最大化時空をシュワルツシルト半径のすぐ外側の高密度な構成として一意に決定し、計量は種の境界となる$\hbar$の非摂動解である。 最大エントロピーはブッソ境界を飽和させ、ベケンシュタイン・ホーキング公式と一致する。 したがって、地平線を持たない飽和構成を構築し、情報を内部に格納することで、このクラスにおけるブーッソ境界が検証される。

We consider a 4D spherically-symmetric static spacetime region as a collection of quanta in the semi-classical Einstein equation and study the entropy including the self-gravity. For sufficiently excited states, we estimate the entropy in a WKB-like method considering the non-locality of entropy and local consistency with thermodynamics and find its upper bound. The saturation condition uniquely determines the entropy-maximized spacetime as a dense configuration with near-Planckian curvatures and a surface just outside the Schwarzschild radius, and the metric is a non-perturbative solution for $\hbar$ leading to the species bound. The maximum entropy then saturates the Bousso bound and coincides with the Bekenstein-Hawking formula. Thus, the Bousso bound in this class of spacetime is verified by constructing the saturating configuration that has no horizon and stores information inside.
翻訳日:2023-10-05 07:34:39 公開日:2023-10-03
# 選択的シーンテキスト除去

Selective Scene Text Removal ( http://arxiv.org/abs/2309.00410v2 )

ライセンス: Link先を確認
Hayato Mitani, Akisato Kimura, Seiichi Uchida(参考訳) シーンテキスト削除(STR)は、シーン画像中のテキスト領域を削除する画像変換タスクである。 従来のSTRメソッドは、すべてのシーンテキストを削除する。 つまり、既存のメソッドは削除すべきテキストを選択できない。 本稿では,ユーザが指定したターゲット語のみを除去する,選択シーンテキスト削除(SSTR)という新しいタスク設定を提案する。 SSTRはSTRよりも複雑なタスクであるが、提案したマルチモジュール構造はSSTRの効率的なトレーニングを可能にする。 実験の結果,提案手法は期待通りに対象単語を除去できることがわかった。

Scene text removal (STR) is the image transformation task to remove text regions in scene images. The conventional STR methods remove all scene text. This means that the existing methods cannot select text to be removed. In this paper, we propose a novel task setting named selective scene text removal (SSTR) that removes only target words specified by the user. Although SSTR is a more complex task than STR, the proposed multi-module structure enables efficient training for SSTR. Experimental results show that the proposed method can remove target words as expected.
翻訳日:2023-10-05 07:34:22 公開日:2023-10-03
# LM-Infinite:大規模言語モデルのための簡易オンザフライ長一般化

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v4 )

ライセンス: Link先を確認
Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang(参考訳) 近年,トランスフォーマーを用いた大規模言語モデル (LLM) の性能は,様々な領域で顕著に向上している。 これらのLSMはますます複雑なドメインにデプロイされるため、長いユーザープロンプトをフォローしたり、長いテキストを生成する必要がしばしばある。 これらの状況では、長い列上の LLM の $\textit{length generalization failure}$ がより顕著になる。 ほとんどの事前訓練は、トレーニングシーケンスを一定長さに切り詰める。 LLMは、この問題に対処するために特別に設計された相対的な位置エンコーディングであっても、長いコンテキストの後、流動的で一貫性のあるテキストを生成するのに苦労することが多い。 長いコーパスの微調整のような一般的な解決策は、しばしばハードウェアと時間のコストを悩ませ、注意深くトレーニングプロセス設計を必要とする。 既存のllmsの生成品質をより効率的に長文に推定するために、この問題に寄与する主要な分散(ood)要因を理論的に経験的に検討する。 この診断にインスパイアされた本研究では,オンザフライ長一般化のための単純かつ効果的な解であるLM-Infiniteを提案する。 これは、パラメータのアップデートや学習を必要とせず、$\mathbf{\lambda}$-shaped attention mask(過剰な出席トークンを避けるため)と距離制限(見えない距離を避けるため)のみを含む。 相対配置符号化法を用いて,様々なLLMに適用できることを示す。 LM-Infiniteは、$O(n)$の時間と空間で計算的に効率的であり、ArXivとOpenWebText2データセットで128kのトークンに一貫性のあるテキスト生成率と品質を示し、2.72倍のデコード速度を持つ。 公開後、コードを公開します。

In recent years, there have been remarkable advancements in the performance of Transformer-based Large Language Models (LLMs) across various domains. As these LLMs are deployed for increasingly complex domains, they often face the need to follow longer user prompts or generate longer texts. In these situations, the $\textit{length generalization failure}$ of LLMs on long sequences becomes more prominent. Most pre-training schemes truncate training sequences to a fixed length. LLMs often struggle to generate fluent and coherent texts after longer contexts, even with relative positional encoding specifically designed to cope with this problem. Common solutions such as finetuning on longer corpora often involve daunting hardware and time costs and require careful training process design. To more efficiently extrapolate existing LLMs' generation quality to longer texts, we theoretically and empirically investigate the main out-of-distribution (OOD) factors contributing to this problem. Inspired by this diagnosis, we propose a simple yet effective solution for on-the-fly length generalization, LM-Infinite. It involves only a $\mathbf{\Lambda}$-shaped attention mask (to avoid excessive attended tokens) and a distance limit (to avoid unseen distances) while requiring no parameter updates or learning. We find it applicable to a variety of LLMs using relative-position encoding methods. LM-Infinite is computationally efficient with $O(n)$ time and space, and demonstrates consistent text generation fluency and quality to as long as 128k tokens on ArXiv and OpenWebText2 datasets, with 2.72x decoding speedup. We will make the codes publicly available following publication.
翻訳日:2023-10-05 07:34:15 公開日:2023-10-03
# NSF:単眼深部からの人体モデリングのための神経表面場

NSF: Neural Surface Fields for Human Modeling from Monocular Depth ( http://arxiv.org/abs/2308.14847v3 )

ライセンス: Link先を確認
Yuxuan Xue, Bharat Lal Bhatnagar, Riccardo Marin, Nikolaos Sarafianos, Yuanlu Xu, Gerard Pons-Moll, Tony Tung(参考訳) 単眼カメラからパーソナライズされた3dアニメーション可能なアバターを得るには、ゲーム、バーチャルトライオン、アニメーション、vr/xrなど、現実世界の応用がいくつかある。 しかし,そのようなスパースデータから動的・細粒度の衣料変形をモデル化することは非常に困難である。 深度データから3次元人間をモデル化するための既存の手法は、計算効率、メッシュコヒーレンシー、解像度とトポロジーの柔軟性に制限がある。 例えば、暗黙の関数を使って形状を再構築し、フレーム毎に明示的なメッシュを抽出することは計算コストが高く、フレーム間のコヒーレントメッシュを保証することはできない。 さらに、離散的な表面を持つ事前設計された人間のテンプレート上で頂点ごとの変形を予測することは、解像度とトポロジーの柔軟性に欠ける。 これらの制約を克服するために,単眼深度から3次元布地をモデル化するニューラル表面場を提案する。 NSFは、連続かつ柔軟な変位場をモデル化するベース表面のみに神経磁場を定義する。 nsfは、推論時に再トレーニングすることなく、解像度とトポロジーが異なるベースサーフェスに適応することができる。 既存のアプローチと比較して,メッシュコヒーレンシを維持しながらフレーム単位の表面抽出コストを削減し,再トレーニングすることなく任意の解像度でメッシュを再構築できる。 この方向の研究を促進するために、私たちはプロジェクトページでコードを公開しています。

Obtaining personalized 3D animatable avatars from a monocular camera has several real world applications in gaming, virtual try-on, animation, and VR/XR, etc. However, it is very challenging to model dynamic and fine-grained clothing deformations from such sparse data. Existing methods for modeling 3D humans from depth data have limitations in terms of computational efficiency, mesh coherency, and flexibility in resolution and topology. For instance, reconstructing shapes using implicit functions and extracting explicit meshes per frame is computationally expensive and cannot ensure coherent meshes across frames. Moreover, predicting per-vertex deformations on a pre-designed human template with a discrete surface lacks flexibility in resolution and topology. To overcome these limitations, we propose a novel method Neural Surface Fields for modeling 3D clothed humans from monocular depth. NSF defines a neural field solely on the base surface which models a continuous and flexible displacement field. NSF can be adapted to the base surface with different resolution and topology without retraining at inference time. Compared to existing approaches, our method eliminates the expensive per-frame surface extraction while maintaining mesh coherency, and is capable of reconstructing meshes with arbitrary resolution without retraining. To foster research in this direction, we release our code in project page at: https://yuxuan-xue.com/nsf.
翻訳日:2023-10-05 07:33:44 公開日:2023-10-03
# 都市空間時間予測のための統一データ管理と総合的性能評価 [実験, 分析, ベンチマーク]

Unified Data Management and Comprehensive Performance Evaluation for Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] ( http://arxiv.org/abs/2308.12899v2 )

ライセンス: Link先を確認
Jiawei Jiang, Chengkai Han, Wayne Xin Zhao, Jingyuan Wang(参考訳) 深層学習技術の発展と大規模データセットの利用により,都市空間時間予測の分野は急速に進展している。 しかし、様々な情報源から多様な都市空間時空間データセットにアクセスして利用し、異なるフォーマットに保存し、深層学習モデルの普及に伴う効果的なモデル構造やコンポーネントを決定することの課題は続く。 この仕事はこれらの課題に対処し、3つの重要な貢献を提供します。 まず,都市空間時空間ビッグデータ用に設計された統一ストレージフォーマットである"atomic files"を導入し,40の多様なデータセット上での有効性を検証し,データ管理を簡素化する。 次に,都市空間-時空間予測モデルにおける技術進歩の概要を概観し,ロバストモデルの開発を導く。 第3に,多様なモデルとデータセットを用いて広範な実験を行い,パフォーマンスリーダボードを確立し,有望な研究方向を特定する。 本研究は, 都市空間時空間データを効果的に管理し, 今後の取り組みを導くとともに, 正確な都市空間時空間予測モデルの開発を促進する。 都市空間データ管理と予測に長期的な貢献を可能とし、最終的には都市生活水準の改善に繋がる可能性がある。

The field of urban spatial-temporal prediction is advancing rapidly with the development of deep learning techniques and the availability of large-scale datasets. However, challenges persist in accessing and utilizing diverse urban spatial-temporal datasets from different sources and stored in different formats, as well as determining effective model structures and components with the proliferation of deep learning models. This work addresses these challenges and provides three significant contributions. Firstly, we introduce "atomic files", a unified storage format designed for urban spatial-temporal big data, and validate its effectiveness on 40 diverse datasets, simplifying data management. Secondly, we present a comprehensive overview of technological advances in urban spatial-temporal prediction models, guiding the development of robust models. Thirdly, we conduct extensive experiments using diverse models and datasets, establishing a performance leaderboard and identifying promising research directions. Overall, this work effectively manages urban spatial-temporal data, guides future efforts, and facilitates the development of accurate and efficient urban spatial-temporal prediction models. It can potentially make long-term contributions to urban spatial-temporal data management and prediction, ultimately leading to improved urban living standards.
翻訳日:2023-10-05 07:33:20 公開日:2023-10-03
# 再生規則化による連続学習における塑性維持

Maintaining Plasticity in Continual Learning via Regenerative Regularization ( http://arxiv.org/abs/2308.11958v2 )

ライセンス: Link先を確認
Saurabh Kumar, Henrik Marklund, Benjamin Van Roy(参考訳) 連続学習において、可塑性とは、エージェントが新しい情報に迅速に適応できる能力を指す。 ニューラルネットワークは、非定常データストリームを処理する際の可塑性を失うことが知られている。 本稿では,初期パラメータに対する損失関数L2正則化を取り入れ,可塑性維持のための簡単なアプローチであるL2 Initを提案する。 これは標準 L2 正規化 (L2) と非常によく似ているが、唯一の違いは L2 が原点に向かって正規化することである。 L2 Initは実装が簡単で、単一のハイパーパラメータのみを選択する必要がある。 この方法の動機は、ニューロンやパラメータの値をリセットする手法と同じである。 直感的には、最近の損失が特定のパラメータに無関心である場合、これらのパラメータは初期値に向かってドリフトすべきである。 これによりパラメータが新しいタスクに素早く適応する準備ができます。 連続的教師付き学習における非定常性に代表される問題について,従来の手法に比べてl2 initが最も可塑性損失を軽減できることを実証する。

In continual learning, plasticity refers to the ability of an agent to quickly adapt to new information. Neural networks are known to lose plasticity when processing non-stationary data streams. In this paper, we propose L2 Init, a simple approach for maintaining plasticity by incorporating in the loss function L2 regularization toward initial parameters. This is very similar to standard L2 regularization (L2), the only difference being that L2 regularizes toward the origin. L2 Init is simple to implement and requires selecting only a single hyper-parameter. The motivation for this method is the same as that of methods that reset neurons or parameter values. Intuitively, when recent losses are insensitive to particular parameters, these parameters should drift toward their initial values. This prepares parameters to adapt quickly to new tasks. On problems representative of different types of nonstationarity in continual supervised learning, we demonstrate that L2 Init most consistently mitigates plasticity loss compared to previously proposed approaches.
翻訳日:2023-10-05 07:32:57 公開日:2023-10-03
# 協調車体知覚におけるデータ生成について:攻撃と対策

On Data Fabrication in Collaborative Vehicular Perception: Attacks and Countermeasures ( http://arxiv.org/abs/2309.12955v2 )

ライセンス: Link先を確認
Qingzhao Zhang, Shuowei Jin, Ruiyang Zhu, Jiachen Sun, Xumiao Zhang, Qi Alfred Chen, Z. Morley Mao(参考訳) 外部リソースからのデータを取り入れることで、コネクテッドおよび自律走行車(CAV)の知覚能力を大幅に向上させる協調認識は、潜在的なセキュリティリスクをもたらす。 CAVの運転決定は、遠隔の信頼できないデータに依存しており、共同認識システムにおける悪意ある参加者による攻撃の影響を受けやすい。 しかし、こうした脅威に対するセキュリティ分析や対策は欠落している。 この脆弱性の影響を理解するために,攻撃者が悪質なデータを被害者に届ける様々なリアルタイムデータ作成攻撃を提案して,その認識結果を妨害し,ハードブレーキや衝突リスクを増大させる。 我々の攻撃は、高忠実度シミュレーションシナリオで86%以上の成功率を示し、実世界実験で実現可能である。 この脆弱性を緩和するために、良性車両が悪質な製造を共同で明らかにできる系統的異常検出手法を提案する。 シミュレーションシナリオでは偽陽性率3%の攻撃の91.5%を検出し、実際のシナリオでは攻撃の影響を著しく軽減する。

Collaborative perception, which greatly enhances the sensing capability of connected and autonomous vehicles (CAVs) by incorporating data from external resources, also brings forth potential security risks. CAVs' driving decisions rely on remote untrusted data, making them susceptible to attacks carried out by malicious participants in the collaborative perception system. However, security analysis and countermeasures for such threats are absent. To understand the impact of the vulnerability, we break the ground by proposing various real-time data fabrication attacks in which the attacker delivers crafted malicious data to victims in order to perturb their perception results, leading to hard brakes or increased collision risks. Our attacks demonstrate a high success rate of over 86% on high-fidelity simulated scenarios and are realizable in real-world experiments. To mitigate the vulnerability, we present a systematic anomaly detection approach that enables benign vehicles to jointly reveal malicious fabrication. It detects 91.5% of attacks with a false positive rate of 3% in simulated scenarios and significantly mitigates attack impacts in real-world scenarios.
翻訳日:2023-10-05 07:23:41 公開日:2023-10-03
# 標準電子部品を用いたディジタルMemComputingの実装

Implementation of digital MemComputing using standard electronic components ( http://arxiv.org/abs/2309.12437v2 )

ライセンス: Link先を確認
Yuan-Hang Zhang and Massimiliano Di Ventra(参考訳) DMM(Digital MemComputing Machine)は、メモリを持つ非線形動的システム(時限非局所性)を用いており、様々な組合せ最適化問題を解決するための堅牢でスケーラブルな非伝統的な計算手法であることが証明されている。 しかし、これまでの研究の大部分は、DMMの運動方程式の数値シミュレーションに焦点を当てている。 これは必然的に離散化の時間であり、連続的に動作する実際の物理システムに欠落する独自の(数値的な)問題をもたらす。 DMMのハードウェア実現は以前から提案されていたが、その実装には従来の電子機器と簡単に統合できない材料や装置が必要である。 本研究では,従来の電子部品のみを活用するDMMのためのハードウェア設計を提案する。 以上の結果から, この設計は, 特殊材料や新しいデバイス概念を必要とせず, 既存の機械の実現と比較して, 性能が著しく向上することが示唆された。 また,これらのDMMは付加雑音に対して頑健であることを示す。 さらに、数値ノイズの欠如により、機械の動作期間を延ばす安定性が向上し、さらに複雑な問題に対処する道が開かれた。

Digital MemComputing machines (DMMs), which employ nonlinear dynamical systems with memory (time non-locality), have proven to be a robust and scalable unconventional computing approach for solving a wide variety of combinatorial optimization problems. However, most of the research so far has focused on the numerical simulations of the equations of motion of DMMs. This inevitably subjects time to discretization, which brings its own (numerical) issues that would be absent in actual physical systems operating in continuous time. Although hardware realizations of DMMs have been previously suggested, their implementation would require materials and devices that are not so easy to integrate with traditional electronics. In this study, we propose a novel hardware design for DMMs that leverages only conventional electronic components. Our findings suggest that this design offers a marked improvement in speed compared to existing realizations of these machines, without requiring special materials or novel device concepts. We also show that these DMMs are robust against additive noise. Moreover, the absence of numerical noise promises enhanced stability over extended periods of the machines' operation, paving the way for addressing even more complex problems.
翻訳日:2023-10-05 07:23:21 公開日:2023-10-03
# 法律によるAI安全の事例

A Case for AI Safety via Law ( http://arxiv.org/abs/2309.12321v2 )

ライセンス: Link先を確認
Jeffrey W. Johnston(参考訳) 人工知能(AI)システムを安全かつ人間の価値に適合させるには、オープンな研究課題である。 提案されたソリューションは、不確定な状況での人間の介入、トレーニングや観察を通じて人間の価値や意図を学習し、オフスイッチを提供し、孤立やシミュレーション環境を実装したり、もっと知識と時間があれば何をしたいのかを推測する傾向にあります。 アイザック・アシモフに触発されたような法律に基づくアプローチは、あまり好まれていない。 本稿では、効果的な法的システムがaiの安全性に対処する最善の方法であることを示す。 法律は、特定のドメイン/コンテキストの特定のエージェントに適用される禁制や処方を定め、そのような規則を制定、管理、執行、訴訟するプロセスを含む規則として定義される。

How to make artificial intelligence (AI) systems safe and aligned with human values is an open research question. Proposed solutions tend toward relying on human intervention in uncertain situations, learning human values and intentions through training or observation, providing off-switches, implementing isolation or simulation environments, or extrapolating what people would want if they had more knowledge and more time to think. Law-based approaches--such as inspired by Isaac Asimov--have not been well regarded. This paper makes a case that effective legal systems are the best way to address AI safety. Law is defined as any rules that codify prohibitions and prescriptions applicable to particular agents in specified domains/contexts and includes processes for enacting, managing, enforcing, and litigating such rules.
翻訳日:2023-10-05 07:23:01 公開日:2023-10-03
# 列長上の非線形シーケンシャルモデルの並列化

Parallelizing non-linear sequential models over the sequence length ( http://arxiv.org/abs/2309.12252v2 )

ライセンス: Link先を確認
Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim(参考訳) リカレントニューラルネットワークや神経常微分方程式といったシーケンシャルモデルでは、本質的にシーケンシャルな性質のため、トレーニングが遅かった。 多くの考慮されたシーケンシャルモデルが並列化できないため、長年にわたってこのボトルネックは続いている。 我々は、出力精度を損なうことなく、逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムによるこの長年の信念に挑戦する。 このアルゴリズムはシーケンシャルモデルのアーキテクチャに特別な構造は必要とせず、幅広いアーキテクチャに適用できる。 本手法では,学習結果に有意な差を生じさせることなく,一般的な逐次法よりも10倍以上高速に学習できる。 この高速化トレーニングを利用して、17k時間サンプルを用いた長期連続分類問題においてGated Recurrent Unitの有効性を発見した。 学習のボトルネックを克服することで、我々の研究は、長い系列問題に対する非線形シーケンシャルモデルのポテンシャルを解き放つための第一歩となる。

Sequential models, such as Recurrent Neural Networks and Neural Ordinary Differential Equations, have long suffered from slow training due to their inherent sequential nature. For many years this bottleneck has persisted, as many thought sequential models could not be parallelized. We challenge this long-held belief with our parallel algorithm that accelerates GPU evaluation of sequential models by up to 3 orders of magnitude faster without compromising output accuracy. The algorithm does not need any special structure in the sequential models' architecture, making it applicable to a wide range of architectures. Using our method, training sequential models can be more than 10 times faster than the common sequential method without any meaningful difference in the training results. Leveraging this accelerated training, we discovered the efficacy of the Gated Recurrent Unit in a long time series classification problem with 17k time samples. By overcoming the training bottleneck, our work serves as the first step to unlock the potential of non-linear sequential models for long sequence problems.
翻訳日:2023-10-05 07:22:45 公開日:2023-10-03
# 音声言語表現学習のための大規模データセット

A Large-scale Dataset for Audio-Language Representation Learning ( http://arxiv.org/abs/2309.11500v3 )

ライセンス: Link先を確認
Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie(参考訳) AIコミュニティは、大規模なマルチモーダルデータセットによって駆動される強力な基盤モデルの開発に大きく貢献している。 しかし, 音声表現学習コミュニティでは, 現在の音声データセットは, 音量不足, 簡素な内容, 難解な収集手順などの制約に悩まされている。 これらの課題に対処するため,我々は,一連の公開ツールやapiに基づく革新的で自動的な音声キャプション生成パイプラインを提案し,19万以上の音声テキストペアからなる,auto-acdと呼ばれる大規模で高品質な音声言語データセットを構築する。 提案するデータセットの有効性を示すために,我々のデータセット上で人気のあるモデルをトレーニングし,音声言語検索,音声キャプション,環境分類といった下流タスクの性能向上を示す。 さらに,新しいテストセットを確立し,音声テキストタスクのベンチマークを提供する。 提案されたデータセットはhttps://auto-acd.github.io/でリリースされる。

The AI community has made significant strides in developing powerful foundation models, driven by large-scale multimodal datasets. However, in the audio representation learning community, the present audio-language datasets suffer from limitations such as insufficient volume, simplistic content, and arduous collection procedures. To tackle these challenges, we present an innovative and automatic audio caption generation pipeline based on a series of public tools or APIs, and construct a large-scale, high-quality, audio-language dataset, named as Auto-ACD, comprising over 1.9M audio-text pairs. To demonstrate the effectiveness of the proposed dataset, we train popular models on our dataset and show performance improvement on various downstream tasks, namely, audio-language retrieval, audio captioning, environment classification. In addition, we establish a novel test set and provide a benchmark for audio-text tasks. The proposed dataset will be released at https://auto-acd.github.io/.
翻訳日:2023-10-05 07:22:25 公開日:2023-10-03
# ディファレンシャルニューラルコンピューティングによる非構造化環境で動作するインテリジェントマシン

Intelligent machines work in unstructured environments by differential neural computing ( http://arxiv.org/abs/2309.08835v2 )

ライセンス: Link先を確認
Shengbo Wang, Shuo Gao, Chenyu Tang, Cong Li, Shurui Wang, Jiaqi Wang, Hubin Zhao, Guohua Hu, Arokia Nathan, Ravinder Dahiya, Luigi Occhipinti(参考訳) インテリジェントマシンが現実世界で効率的に動作することを期待するには、未知の環境における非構造化情報を理解する新しい方法が必要である。 本研究では,環境情報の主な特徴を抽出し,関連する符号化刺激をmemristorに適用することにより,機械刺激の増幅(>720%)や適応(>50%)といった非構造化環境情報を処理するためのヒューマンライクな能力を得ることに成功した。 この方法は優れたスケーラビリティと一般化を示し、インテリジェントマシンの典型的な応用であるオブジェクト把握と自律運転の2つで検証されている。 前者では、未知の物体の特徴(シャープコーナーや滑らかな表面など)を1ミリ秒で学習し、安全で安定した把持を実現する。後者では、自律運転における10の非構造化環境(例えば、車や歩行者)の意思決定情報を、40x25のmemristorアレイで正確に(94%)抽出する。 電子記憶型ニューラルネットワークにおける人間の低レベル知覚機構の本質的な性質を模倣することにより、提案手法は多様なセンシング技術に適応し、インテリジェントマシンが現実世界でスマートな高レベルな決定を下すのに役立つ。

Expecting intelligent machines to efficiently work in real world requires a new method to understand unstructured information in unknown environments with good accuracy, scalability and generalization, like human. Here, a memristive neural computing based perceptual signal differential processing and learning method for intelligent machines is presented, via extracting main features of environmental information and applying associated encoded stimuli to memristors, we successfully obtain human-like ability in processing unstructured environmental information, such as amplification (>720%) and adaptation (<50%) of mechanical stimuli. The method also exhibits good scalability and generalization, validated in two typical applications of intelligent machines: object grasping and autonomous driving. In the former, a robot hand experimentally realizes safe and stable grasping, through learning unknown object features (e.g., sharp corner and smooth surface) with a single memristor in 1 ms. In the latter, the decision-making information of 10 unstructured environments in autonomous driving (e.g., overtaking cars, pedestrians) are accurately (94%) extracted with a 40x25 memristor array. By mimicking the intrinsic nature of human low-level perception mechanisms in electronic memristive neural circuits, the proposed method is adaptable to diverse sensing technologies, helping intelligent machines to generate smart high-level decisions in real world.
翻訳日:2023-10-05 07:22:09 公開日:2023-10-03
# 分割型経験的ベイズECMアルゴリズムによるヘテロセダスティックスパース高次元線形回帰

Heteroscedastic sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2309.08783v2 )

ライセンス: Link先を確認
Anja Zgodic, Ray Bai, Jiajia Zhang, Yuan Wang, Chris Rorden, Alexander McLain(参考訳) 高次元データに対するスパース線形回帰法は、残差が一定の分散を持つと仮定することが多い。 この仮定に違反すると、推定係数のバイアス、不適切な長さの予測間隔(PI)、I型エラーの増加につながる可能性がある。 本研究では,H-PROBEアルゴリズムを用いた非定常高次元線形回帰モデルを提案する。 h-probeはパラメータ拡張期待条件最大化アルゴリズムに基づく計算効率のよい最大後方推定手法である。 ハイパーパラメータのプラグイン経験ベイズ推定を通じて、回帰パラメータの最小の事前仮定を必要とする。 分散モデルは係数に先立って多変量対数ガンマを使い、不均一性に影響を与えるように仮定された共変量を取り込むことができる。 脳卒中患者の脳損傷の高分解能T2ニューロン像に対するAQ(Aphasia Quotient)との関連について検討した。 AQは言語障害の重要な尺度であり、治療決定を通知するが、測定し、異義性エラーを被るのは難しい。 したがって、高次元の神経画像を用いて、残差分散の多様性を正確に反映するaqのpiを予測し提供することが臨床的に重要である。 解析の結果,H-PROBEは,ヘテロジニティのマーカーを用いて,カバー範囲を犠牲にすることなくPI幅を狭めることができることがわかった。 本研究では,H-PROBEが競合手法よりも優れた予測,変数選択,予測推論をもたらすことを示す。

Sparse linear regression methods for high-dimensional data often assume that residuals have constant variance. When this assumption is violated, it can lead to bias in estimated coefficients, prediction intervals (PI) with improper length, and increased type I errors. We propose a heteroscedastic high-dimensional linear regression model through a partitioned empirical Bayes Expectation Conditional Maximization (H-PROBE) algorithm. H-PROBE is a computationally efficient maximum a posteriori estimation approach based on a Parameter-Expanded Expectation-Conditional-Maximization algorithm. It requires minimal prior assumptions on the regression parameters through plug-in empirical Bayes estimates of hyperparameters. The variance model uses a multivariate log-Gamma prior on coefficients that can incorporate covariates hypothesized to impact heterogeneity. The motivation of our approach is a study relating Aphasia Quotient (AQ) to high-resolution T2 neuroimages of brain damage in stroke patients. AQ is a vital measure of language impairment and informs treatment decisions, but it is challenging to measure and subject to heteroscedastic errors. It is, therefore, of clinical importance -- and the goal of this paper -- to use high-dimensional neuroimages to predict and provide PIs for AQ that accurately reflect the heterogeneity in residual variance. Our analysis demonstrates that H-PROBE can use markers of heterogeneity to provide narrower PI widths than standard methods without sacrificing coverage. Through extensive simulation studies, we exhibit that H-PROBE results in superior prediction, variable selection, and predictive inference than competing methods.
翻訳日:2023-10-05 07:21:38 公開日:2023-10-03
# 堅牢なオフライン強化学習 -- 信頼区間の証明

Robust Offline Reinforcement Learning -- Certify the Confidence Interval ( http://arxiv.org/abs/2309.16631v2 )

ライセンス: Link先を確認
Jiarui Yao and Simon Shaolei Du(参考訳) 現在、強化学習(RL)、特に深層学習(RL)は、研究領域でますます注目を集めている。 しかし、RLのセキュリティは攻撃方法が成熟するにつれて明らかな問題となっている。 このような敵攻撃に対して防御するために、敵の訓練やデータフィルタリングなど、いくつかの実践的なアプローチが開発されている。 しかし、これらの手法は主に経験的アルゴリズムと実験に基づいており、アルゴリズムの堅牢性に関する厳密な理論的分析は行わない。 本論文では, ランダムな平滑化を伴わずに, ランダムな平滑化を伴わずに, 効率よく実施できるような, ある方針の堅牢性を証明できるアルゴリズムを開発する。 異なる環境における実験により,アルゴリズムの正確性が確認できた。

Currently, reinforcement learning (RL), especially deep RL, has received more and more attention in the research area. However, the security of RL has been an obvious problem due to the attack manners becoming mature. In order to defend against such adversarial attacks, several practical approaches are developed, such as adversarial training, data filtering, etc. However, these methods are mostly based on empirical algorithms and experiments, without rigorous theoretical analysis of the robustness of the algorithms. In this paper, we develop an algorithm to certify the robustness of a given policy offline with random smoothing, which could be proven and conducted as efficiently as ones without random smoothing. Experiments on different environments confirm the correctness of our algorithm.
翻訳日:2023-10-05 07:15:11 公開日:2023-10-03
# クロスシティ問題:高分解能ドメイン適応ネットワークを用いたクロスシティセマンティクスセグメンテーションのためのマルチモーダルリモートセンシングベンチマークデータセット

Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks ( http://arxiv.org/abs/2309.16499v2 )

ライセンス: Link先を確認
Danfeng Hong, Bing Zhang, Hao Li, Yuxuan Li, Jing Yao, Chenyu Li, Martin Werner, Jocelyn Chanussot, Alexander Zipf, Xiao Xiang Zhu(参考訳) 近年、人工知能(AI)のアプローチは、特に個々の都市環境(例えば、単一都市や地域)に重点を置いて、単一モダリティに支配されたリモートセンシング(RS)アプリケーションで顕著な成功を収めている。 しかし、これらのAIモデルは、多種多様なRS情報や高度な一般化能力を備えた最先端ソリューションが欠如しているため、都市や地域にわたるケーススタディにおけるパフォーマンスボトルネックを満たす傾向にある。 この目的のために我々は,ベルリン・アウクスブルク(ドイツ)と北京・武漢(中国)の2つの都市横断シーンからなる都市間セマンティックセグメンテーションタスク(C2Segデータセット)の研究を目的とした,マルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を新たに構築した。 一つの都市に留まらず,多都市環境からAIモデルの一般化能力を促進するために,高解像度なドメイン適応ネットワークであるHighDANを提案する。 高DANは、並列高分解能融合方式で研究都市景観の空間的トポロジカル構造を良好に維持できると同時に、異なる都市間でのRS画像表現の相違から生じるギャップを、対角学習により閉鎖することができる。 さらに、高DANでは、都市間の要因による階級不均衡の問題を軽減するため、Dice損失が考慮されている。 C2Segデータセットで実施された大規模な実験は、最先端の競合他社と比較して、セグメント化性能と一般化能力において、私たちのHighDANの優位性を示している。 C2Segデータセットとセマンティックセグメンテーションツールボックス(提案されているHighDANを含む)はhttps://github.com/danfenghong.comで公開される。

Artificial intelligence (AI) approaches nowadays have gained remarkable success in single-modality-dominated remote sensing (RS) applications, especially with an emphasis on individual urban environments (e.g., single cities or regions). Yet these AI models tend to meet the performance bottleneck in the case studies across cities or regions, due to the lack of diverse RS information and cutting-edge solutions with high generalization ability. To this end, we build a new set of multimodal remote sensing benchmark datasets (including hyperspectral, multispectral, SAR) for the study purpose of the cross-city semantic segmentation task (called C2Seg dataset), which consists of two cross-city scenes, i.e., Berlin-Augsburg (in Germany) and Beijing-Wuhan (in China). Beyond the single city, we propose a high-resolution domain adaptation network, HighDAN for short, to promote the AI model's generalization ability from the multi-city environments. HighDAN is capable of retaining the spatially topological structure of the studied urban scene well in a parallel high-to-low resolution fusion fashion but also closing the gap derived from enormous differences of RS image representations between different cities by means of adversarial learning. In addition, the Dice loss is considered in HighDAN to alleviate the class imbalance issue caused by factors across cities. Extensive experiments conducted on the C2Seg dataset show the superiority of our HighDAN in terms of segmentation performance and generalization ability, compared to state-of-the-art competitors. The C2Seg dataset and the semantic segmentation toolbox (involving the proposed HighDAN) will be available publicly at https://github.com/danfenghong.
翻訳日:2023-10-05 07:14:57 公開日:2023-10-03
# 残留スケジューリング: ジョブショップスケジューリング問題を解決するための新しい強化学習アプローチ

Residual Scheduling: A New Reinforcement Learning Approach to Solving Job Shop Scheduling Problem ( http://arxiv.org/abs/2309.15517v2 )

ライセンス: Link先を確認
Kuo-Hao Ho, Ruei-Yu Jheng, Ji-Han Wu, Fan Chiang, Yen-Chi Chen, Yuan-Yu Wu, I-Chen Wu(参考訳) ジョブショップスケジューリング問題(JSP)は製造業などで広く用いられている数学最適化問題であり、フレキシブルJSP(FJSP)も一般的な変種である。 NPハードであるため、すべてのケースに対して妥当な時間内に最適解を見つけることは困難である。 したがって、JSP/FJSPを解くための効率的なヒューリスティックを開発することが重要である。 スケジューリング問題の解法の一種は、ヒューリスティックスによってスケジューリングソリューションを構築する構成ヒューリスティックスである。 近年,グラフニューラルネットワーク (gnn) を用いた深層強化学習 (drl) の活用方法が数多く提案されている。 本稿では,JSP/FJSPを解くための残差スケジューリング手法を提案する。 この新しいアプローチでは、状態が残りの(または関連する)マシンとジョブのみを含むように、完了したマシンのような無関係なマシンとジョブを削除する。 我々の実験は、最もよく知られたオープンJSPおよびFJSPベンチマークにおけるすべての建設ヒューリスティックの中で、我々のアプローチが最先端(SOTA)に達することを示している。 また,本手法は小型のスケジューリング問題に対して訓練されているものの,大規模のスケジューリング問題においても有効であることも確認した。 興味深いことに、私たちの実験では、20台のマシンで150以上のジョブ番号を持つ50のjspインスタンスのうち49のギャップに到達しました。

Job-shop scheduling problem (JSP) is a mathematical optimization problem widely used in industries like manufacturing, and flexible JSP (FJSP) is also a common variant. Since they are NP-hard, it is intractable to find the optimal solution for all cases within reasonable times. Thus, it becomes important to develop efficient heuristics to solve JSP/FJSP. A kind of method of solving scheduling problems is construction heuristics, which constructs scheduling solutions via heuristics. Recently, many methods for construction heuristics leverage deep reinforcement learning (DRL) with graph neural networks (GNN). In this paper, we propose a new approach, named residual scheduling, to solving JSP/FJSP. In this new approach, we remove irrelevant machines and jobs such as those finished, such that the states include the remaining (or relevant) machines and jobs only. Our experiments show that our approach reaches state-of-the-art (SOTA) among all known construction heuristics on most well-known open JSP and FJSP benchmarks. In addition, we also observe that even though our model is trained for scheduling problems of smaller sizes, our method still performs well for scheduling problems of large sizes. Interestingly in our experiments, our approach even reaches zero gap for 49 among 50 JSP instances whose job numbers are more than 150 on 20 machines.
翻訳日:2023-10-05 07:14:20 公開日:2023-10-03
# 共有・パーソナライズされた不確かさ表現を用いたベイズ的個人化フェデレーション学習

Bayesian Personalized Federated Learning with Shared and Personalized Uncertainty Representations ( http://arxiv.org/abs/2309.15499v2 )

ライセンス: Link先を確認
Hui Chen, Hengyu Liu, Longbing Cao, Tiancheng Zhang(参考訳) ベイジアン・パーソナライズド・フェデレーション・ラーニング(BPFL)は、既存のパーソナライズド・FL(PFL)における課題に対処する。 BPFLは、クライアントデータの統計的不均一性に対処することにより、クライアント内の不確実性と不均一性を不確実性表現に向けて定量化する。 PFLでは、隠れた神経表現を共有コンポーネントとローカルコンポーネントに分解し、興味深い結果を示すという最近の予備研究が提案されている。 しかし、その多くはFLシステムにおけるクライアントの不確実性や不均一性に対処するものではなく、適切に神経表現を分離することは困難であり、しばしばアドホックである。 本稿では,統計的に不均一なクライアントデータに対する共有およびパーソナライズされた不確実性表現を時間とともに分解し,共同で学習する汎用BPFLフレームワークを提案する。 ベイズ連合ニューラルネットワークBPFedは、統計的に不均一でランダムに参加するクライアントに対して、クロスクライアント共有不確実性とクライアント固有のパーソナライズされた不確実性を共同学習することによりBPFLをインスタンス化する。 さらに,BPFedにおける事前分布の連続的な更新を伴い,収束を高速化し,破滅的忘れを避ける。 BPFedの分散基線に対する実験的評価に加えて、理論的解析と保証が提供される。

Bayesian personalized federated learning (BPFL) addresses challenges in existing personalized FL (PFL). BPFL aims to quantify the uncertainty and heterogeneity within and across clients towards uncertainty representations by addressing the statistical heterogeneity of client data. In PFL, some recent preliminary work proposes to decompose hidden neural representations into shared and local components and demonstrates interesting results. However, most of them do not address client uncertainty and heterogeneity in FL systems, while appropriately decoupling neural representations is challenging and often ad hoc. In this paper, we make the first attempt to introduce a general BPFL framework to decompose and jointly learn shared and personalized uncertainty representations on statistically heterogeneous client data over time. A Bayesian federated neural network BPFed instantiates BPFL by jointly learning cross-client shared uncertainty and client-specific personalized uncertainty over statistically heterogeneous and randomly participating clients. We further involve continual updating of prior distribution in BPFed to speed up the convergence and avoid catastrophic forgetting. Theoretical analysis and guarantees are provided in addition to the experimental evaluation of BPFed against the diversified baselines.
翻訳日:2023-10-05 07:13:55 公開日:2023-10-03
# SEPT:動き予測のための効率的なシーン表現学習を目指して

SEPT: Towards Efficient Scene Representation Learning for Motion Prediction ( http://arxiv.org/abs/2309.15289v2 )

ライセンス: Link先を確認
Zhiqian Lan, Yuxuan Jiang, Yao Mu, Chen Chen, Shengbo Eben Li, Hang Zhao, Keqiang Li(参考訳) 運動予測は、自動運転車が複雑な交通環境下で安全に動作するために不可欠である。 交通要素間の効果的な時空間関係の抽出は正確な予測の鍵となる。 本稿では,事前学習された大規模言語モデルの実践に触発されて,自己教師付き学習を活用して複雑な交通シーンの時空間的強力な理解を実現するためのモデリングフレームワークSEPTを提案する。 具体的には,3つのマスキング・リコンストラクション・モデリングタスクを,エージェントのトラジェクタや道路網を含むシーン入力,軌道内の運動量をキャプチャするシーンエンコーダの事前学習,道路網の空間構造,道路とエージェント間のインタラクションなどに適用した。 プリトレーニングされたエンコーダは、下流予測タスクで微調整される。 大規模な実験により、SEPTは複雑なアーキテクチャ設計や手動の特徴工学を伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成し、すべての主要な指標に対する従来の手法よりも大きなマージンで優れていることが示された。

Motion prediction is crucial for autonomous vehicles to operate safely in complex traffic environments. Extracting effective spatiotemporal relationships among traffic elements is key to accurate forecasting. Inspired by the successful practice of pretrained large language models, this paper presents SEPT, a modeling framework that leverages self-supervised learning to develop powerful spatiotemporal understanding for complex traffic scenes. Specifically, our approach involves three masking-reconstruction modeling tasks on scene inputs including agents' trajectories and road network, pretraining the scene encoder to capture kinematics within trajectory, spatial structure of road network, and interactions among roads and agents. The pretrained encoder is then finetuned on the downstream forecasting task. Extensive experiments demonstrate that SEPT, without elaborate architectural design or manual feature engineering, achieves state-of-the-art performance on the Argoverse 1 and Argoverse 2 motion forecasting benchmarks, outperforming previous methods on all main metrics by a large margin.
翻訳日:2023-10-05 07:13:19 公開日:2023-10-03
# ビデオ異常検出におけるディバイドとコンカー : 包括的レビューと新しいアプローチ

Divide and Conquer in Video Anomaly Detection: A Comprehensive Review and New Approach ( http://arxiv.org/abs/2309.14622v2 )

ライセンス: Link先を確認
Jian Xiao, Tianyuan Liu, Genlin Ji(参考訳) ビデオ異常検出は複雑な作業であり、「分割と征服」の原理は複雑な問題に取り組む効果的なアプローチとみなされることが多い。 ビデオ異常検出の最近の手法は、哲学の分割と征服の応用を(伝統的な使用法と異なる視点で)明らかにし、印象的な結果をもたらしている。 本稿では,これらの文献を6次元から体系的にレビューし,映像異常検出における分割・征服戦略の活用を促進することを目的とする。 さらに、このレビューから得られた知見に基づき、人間の骨格フレームワークとビデオデータ分析技術を統合する新しいアプローチが提示されている。 この手法は上海Techデータセットの最先端性能を達成し、既存のすべての先進的手法を上回ります。

Video anomaly detection is a complex task, and the principle of "divide and conquer" is often regarded as an effective approach to tackling intricate issues. It's noteworthy that recent methods in video anomaly detection have revealed the application of the divide and conquer philosophy (albeit with distinct perspectives from traditional usage), yielding impressive outcomes. This paper systematically reviews these literatures from six dimensions, aiming to enhance the use of the divide and conquer strategy in video anomaly detection. Furthermore, based on the insights gained from this review, a novel approach is presented, which integrates human skeletal frameworks with video data analysis techniques. This method achieves state-of-the-art performance on the ShanghaiTech dataset, surpassing all existing advanced methods.
翻訳日:2023-10-05 07:12:10 公開日:2023-10-03
# 量子環オリゴマーにおける非ラジカル多光子状態

Non-radiant multiphoton states in quantum ring oligomers ( http://arxiv.org/abs/2309.14461v2 )

ライセンス: Link先を確認
Nikita Ustimenko, Danil Kornovan, Ilya Volkov, Alexandra Sheremet, Roman Savelev, and Mihail Petrov(参考訳) 結合双極子エミッターの配列は、量子励起を保存できる集合的単光子および多光子状態をサポートする。 これらの状態の重要な特徴の1つは、自然放出によって基本的に制限される寿命である。 ここでは, 2つの状態が放射連続体を介して外部結合する機構を示し, 単励起と二重励起の両方の寿命を増加させる。 例えば、量子エミッタの環のようなアンサンブルを考えると、構造幾何学のわずかな最適化により、ゼロでない軌道運動量を持つ単独および二重励起状態の寿命を数桁増加させることができる。

Arrays of coupled dipole emitters support collective single- and multiphoton states that can preserve quantum excitations. One of the crucial characteristics of these states is the lifetime, which is fundamentally limited due to spontaneous emission. Here, we present a mechanism of external coupling of two states via the radiation continuum, which allows for an increase in the lifetime of both single and double excitations. As an illustrative example, we consider a ring-like ensemble of quantum emitters, demonstrating that upon slight optimization of the structure geometry, one can increase the lifetime of singly and doubly excited states with non-zero orbital momentum by several orders of magnitude.
翻訳日:2023-10-05 07:11:12 公開日:2023-10-03
# 自律走行における画像分割のためのフォトニック加速器と欠陥検出

Photonic Accelerators for Image Segmentation in Autonomous Driving and Defect Detection ( http://arxiv.org/abs/2309.16783v2 )

ライセンス: Link先を確認
Lakshmi Nair, David Widemann, Brad Turcott, Nick Moore, Alexandra Wleklinski, Darius Bunandar, Ioannis Papavasileiou, Shihu Wang, Eric Logan(参考訳) フォトニックコンピューティングは、従来のデジタルハードウェアよりも高速でエネルギー効率の高いディープニューラルネットワーク(DNN)推論を実現する。 フォトニックコンピューティングの進歩は、高速で正確でエネルギー効率の良い画像セグメンテーションモデルの実行に依存する自律運転や欠陥検出といった応用に大きな影響を与える可能性がある。 本稿では,フォトニック加速器のイメージセグメンテーションについて検討する。 a)フォトニック加速器に最も適した画像分割DNNアーキテクチャの種類 ロ フォトニック加速器上で異なる画像分割モデルを実行する際のスループット及びエネルギー効率並びにそれに伴うトレードオフ 具体的には,特定のセグメンテーションモデルがフォトニック加速器上で実行された場合の精度(デジタルfloat32モデルと比較して)が無視できることを示す。 また,モデルの性能が良くない場合の精度回復手法についても論じる。 さらに,光加速器における画像分割作業のスループット(1秒あたりの推論)とエネルギー消費の推定値を比較する。 このようなコンピュータビジョンタスクへのフォトニック加速器の適用を改善するための課題と潜在的な最適化について論じる。

Photonic computing promises faster and more energy-efficient deep neural network (DNN) inference than traditional digital hardware. Advances in photonic computing can have profound impacts on applications such as autonomous driving and defect detection that depend on fast, accurate and energy efficient execution of image segmentation models. In this paper, we investigate image segmentation on photonic accelerators to explore: a) the types of image segmentation DNN architectures that are best suited for photonic accelerators, and b) the throughput and energy efficiency of executing the different image segmentation models on photonic accelerators, along with the trade-offs involved therein. Specifically, we demonstrate that certain segmentation models exhibit negligible loss in accuracy (compared to digital float32 models) when executed on photonic accelerators, and explore the empirical reasoning for their robustness. We also discuss techniques for recovering accuracy in the case of models that do not perform well. Further, we compare throughput (inferences-per-second) and energy consumption estimates for different image segmentation workloads on photonic accelerators. We discuss the challenges and potential optimizations that can help improve the application of photonic accelerators to such computer vision tasks.
翻訳日:2023-10-05 07:00:33 公開日:2023-10-03
# Causal Images:地球観測、バイオメディカル、社会科学画像による因果推論のためのRパッケージ

CausalImages: An R Package for Causal Inference with Earth Observation, Bio-medical, and Social Science Images ( http://arxiv.org/abs/2310.00233v2 )

ライセンス: Link先を確認
Connor T. Jerzak, Adel Daoud(参考訳) 因果画像rパッケージは、画像と画像シーケンスデータによる因果推論を可能にし、衛星やバイオメディカル画像などの新しいデータソースを原因と効果の研究に統合する新しいツールを提供する。 ひとつの関数セットは、イメージベースの因果推論分析を可能にする。 例えば、1つのキー関数は、解釈可能なベイズフレームワークを使用して画像による処理効果の多様性を分解する。 これにより、介入に最も反応する画像タイプや画像シーケンスを決定することができる。 第2のモデリング機能により、研究者は画像を使ってコンバウンディングを制御できる。 このパッケージはまた、調査員が画像またはビデオコンテンツのベクトル要約として機能する埋め込みを作成できる。 最後に、より高速な画像解析のために、大規模な画像と画像シーケンスデータをシーケンシャルなバイト文字列として記述するツールなど、インフラ機能も提供される。 そのため、因果画像はRにおける因果推論の新たな能力を開放し、研究者は迅速かつアクセス可能な方法で実体解析に情報的画像を使用することができる。

The causalimages R package enables causal inference with image and image sequence data, providing new tools for integrating novel data sources like satellite and bio-medical imagery into the study of cause and effect. One set of functions enables image-based causal inference analyses. For example, one key function decomposes treatment effect heterogeneity by images using an interpretable Bayesian framework. This allows for determining which types of images or image sequences are most responsive to interventions. A second modeling function allows researchers to control for confounding using images. The package also allows investigators to produce embeddings that serve as vector summaries of the image or video content. Finally, infrastructural functions are also provided, such as tools for writing large-scale image and image sequence data as sequentialized byte strings for more rapid image analysis. causalimages therefore opens new capabilities for causal inference in R, letting researchers use informative imagery in substantive analyses in a fast and accessible manner.
翻訳日:2023-10-05 05:39:41 公開日:2023-10-03
# FedLPA:レイヤーワイズ後層集合を用いた個人化ワンショットフェデレーション学習

FedLPA: Personalized One-shot Federated Learning with Layer-Wise Posterior Aggregation ( http://arxiv.org/abs/2310.00339v2 )

ライセンス: Link先を確認
Xiang Liu, Liangxi Liu, Feiyang Ye, Yunheng Shen, Xia Li, Linshan Jiang, Jialin Li(参考訳) ローカルクライアントからサーバ上のグローバルモデルにトレーニングされたニューラルネットワークを効率的に集約することは、フェデレーション学習において広く研究されているトピックである。 近年,プライバシの懸念の軽減,潜在的な攻撃の緩和,通信のオーバーヘッドの低減などにより,ワンショットフェデレーション学習(すなわち,クライアントとサーバ間の通信を1ラウンドに制限する)が研究者の間で人気を集めている。 しかし, 実世界のシナリオでは, 高い統計的不均一性を示す非同一性トレーニングデータ分布の影響を受けやすい。 この問題に対処するため,FedLPAと呼ばれるレイヤワイズ後アグリゲーションを用いたワンショットアグリゲーション手法を提案する。 fedlpaは、追加の補助データセットや機密のローカル情報(例えばラベル分布)を公開することなく、より正確なグローバルモデルを得るためにローカルモデルを集約する。 実際の非IIDシナリオにおいてバイアス付き局所データセットに保持される統計データを効果的に把握するために,レイヤワイドラプラス近似を用いて各局所モデルの各層の後部を効率的に推定し,それらを集約してグローバルパラメータを訓練する。 大規模な実験結果から,FedLPAはいくつかの指標で最先端手法よりも学習性能を著しく向上することが示された。

Efficiently aggregating trained neural networks from local clients into a global model on a server is a widely researched topic in federated learning. Recently, motivated by diminishing privacy concerns, mitigating potential attacks, and reducing the overhead of communication, one-shot federated learning (i.e., limiting client-server communication into a single round) has gained popularity among researchers. However, the one-shot aggregation performances are sensitively affected by the non-identical training data distribution, which exhibits high statistical heterogeneity in some real-world scenarios. To address this issue, we propose a novel one-shot aggregation method with Layer-wise Posterior Aggregation, named FedLPA. FedLPA aggregates local models to obtain a more accurate global model without requiring extra auxiliary datasets or exposing any confidential local information, e.g., label distributions. To effectively capture the statistics maintained in the biased local datasets in the practical non-IID scenario, we efficiently infer the posteriors of each layer in each local model using layer-wise Laplace approximation and aggregate them to train the global parameters. Extensive experimental results demonstrate that FedLPA significantly improves learning performance over state-of-the-art methods across several metrics.
翻訳日:2023-10-05 04:59:47 公開日:2023-10-03
# 自己データを用いた生成モデルの反復再訓練の安定性について

On the Stability of Iterative Retraining of Generative Models on their own Data ( http://arxiv.org/abs/2310.00429v2 )

ライセンス: Link先を確認
Quentin Bertrand, Avishek Joey Bose, Alexandre Duplessis, Marco Jiralerspong, and Gauthier Gidel(参考訳) 深層生成モデルは複雑なデータのモデリングにおいて大きな進歩を遂げ、しばしばサンプルの真正性を識別する典型的な人間の能力を超える生成品質を示す。 間違いなく、この成功の重要な要因は、これらのモデルが消費する大量のWebスケールデータによって実現される。 これらのモデルの性能と可用性の容易さにより、Webは必然的に、合成コンテンツで人口が増えます。 このような事実は、生成モデルの将来のイテレーションは、彼らのトレーニングがクリーンなデータと過去のモデルから人工的に生成されたデータの両方からキュレートされているという事実と競合する必要があることを意味する。 本稿では,混合データセット(実データと合成データ)に対する生成モデルの学習が安定性に与える影響を厳格に研究する枠組みを開発した。 まず, 初期生成モデルがデータ分布を十分に近似し, クリーントレーニングデータ(w.r.t.合成データ)の比率が十分に大きいことを条件として, 反復学習の安定性を証明する。 我々は,CIFAR10およびFFHQ上の正規化流れと最先端拡散モデルを用いて,合成画像と自然画像の両方に関する理論を実験的に検証した。

Deep generative models have made tremendous progress in modeling complex data, often exhibiting generation quality that surpasses a typical human's ability to discern the authenticity of samples. Undeniably, a key driver of this success is enabled by the massive amounts of web-scale data consumed by these models. Due to these models' striking performance and ease of availability, the web will inevitably be increasingly populated with synthetic content. Such a fact directly implies that future iterations of generative models must contend with the reality that their training is curated from both clean data and artificially generated data from past models. In this paper, we develop a framework to rigorously study the impact of training generative models on mixed datasets (of real and synthetic data) on their stability. We first prove the stability of iterative training under the condition that the initial generative models approximate the data distribution well enough and the proportion of clean training data (w.r.t. synthetic data) is large enough. We empirically validate our theory on both synthetic and natural images by iteratively training normalizing flows and state-of-the-art diffusion models on CIFAR10 and FFHQ.
翻訳日:2023-10-05 04:17:47 公開日:2023-10-03
# コンテキスト化された局所視覚埋め込みの自己教師あり学習

Self-supervised Learning of Contextualized Local Visual Embeddings ( http://arxiv.org/abs/2310.00527v2 )

ライセンス: Link先を確認
Thalles Santos Silva, Helio Pedrini and Ad\'in Ram\'irez Rivera(参考訳) 密集予測タスクに適した表現を学習する自己教師型畳み込み方式であるContextualized Local Visual Embeddings (CLoVE)を提案する。 CLoVEは現在の方法から逸脱し、畳み込みニューラルネットワーク(CNN)エンコーダの出力特徴マップから学習したコンテキスト化ローカル埋め込みのレベルで動作する単一損失関数を最適化する。 CLoVEは、コンテクスト化された埋め込みを学習するために、画像の異なる部分からの局所的な特徴を類似性に基づいて組み合わせた正規化されたマルチヘッド自己アテンション層を提案する。 複数のデータセット上でCLoVEの事前訓練された表現を広範囲にベンチマークする。 cloveは、オブジェクト検出、インスタンスセグメンテーション、キーポイント検出、高密度ポーズ推定を含む4つの密集した下流タスクにおいて、cnnベースのアーキテクチャの最先端のパフォーマンスを達成する。 コード: $\href{https://github.com/sthalles/CLoVE}{\text{https://github.com/sthalles/CLoVE}}$

We present Contextualized Local Visual Embeddings (CLoVE), a self-supervised convolutional-based method that learns representations suited for dense prediction tasks. CLoVE deviates from current methods and optimizes a single loss function that operates at the level of contextualized local embeddings learned from output feature maps of convolution neural network (CNN) encoders. To learn contextualized embeddings, CLoVE proposes a normalized mult-head self-attention layer that combines local features from different parts of an image based on similarity. We extensively benchmark CLoVE's pre-trained representations on multiple datasets. CLoVE reaches state-of-the-art performance for CNN-based architectures in 4 dense prediction downstream tasks, including object detection, instance segmentation, keypoint detection, and dense pose estimation. Code: $\href{https://github.com/sthalles/CLoVE}{\text{https://github.com/sthalles/CLoVE}}$.
翻訳日:2023-10-05 03:51:19 公開日:2023-10-03
# JoMA: MLPとアテンションのジョイントダイナミクスによる多層トランスのデミスティファイション

JoMA: Demystifying Multilayer Transformers via JOint Dynamics of MLP and Attention ( http://arxiv.org/abs/2310.00535v2 )

ライセンス: Link先を確認
Yuandong Tian, Yiping Wang, Zhenyu Zhang, Beidi Chen, Simon Du(参考訳) 多層トランスフォーマーアーキテクチャのトレーニング手順を理解するための新しい数学的枠組みであるジョイントMLP/アテンション(JoMA)ダイナミクスを提案する。 これはトランスフォーマーに自己アテンション層を統合することで実現され、mlp層のみを改良したダイナミクスを生成する。 ジョマは以前の分析(例えば残差接続の欠如)で非現実的な仮定を取り除き、最初に注意が薄くなる(サルエントトークンを学ぶ)と予測し、非線形アクティベーションの存在下で(サルエントトークンを学ぶために)密集するが、線形の場合、時間とともに注意が薄くなる既存の作品と一致する。 入力トークンが潜在階層生成モデルによって生成されるとき、JoMAを利用してトークンを定性的に組み合わせて多層トランスフォーマーの階層を形成する方法について説明する。 実世界のデータセット(Wikitext2/Wikitext103)と様々な事前学習モデル(OPT, Pythia)から学習したモデルによる実験は、我々の理論的知見を検証する。

We propose Joint MLP/Attention (JoMA) dynamics, a novel mathematical framework to understand the training procedure of multilayer Transformer architectures. This is achieved by integrating out the self-attention layer in Transformers, producing a modified dynamics of MLP layers only. JoMA removes unrealistic assumptions in previous analysis (e.g., lack of residual connection) and predicts that the attention first becomes sparse (to learn salient tokens), then dense (to learn less salient tokens) in the presence of nonlinear activations, while in the linear case, it is consistent with existing works that show attention becomes sparse over time. We leverage JoMA to qualitatively explains how tokens are combined to form hierarchies in multilayer Transformers, when the input tokens are generated by a latent hierarchical generative model. Experiments on models trained from real-world dataset (Wikitext2/Wikitext103) and various pre-trained models (OPT, Pythia) verify our theoretical findings.
翻訳日:2023-10-05 03:38:34 公開日:2023-10-03
# 制御ソフトウェアによるハードウェア資源利用確率的学習のためのパス構造型多元系schr\"odinger bridge

Path Structured Multimarginal Schr\"odinger Bridge for Probabilistic Learning of Hardware Resource Usage by Control Software ( http://arxiv.org/abs/2310.00604v2 )

ライセンス: Link先を確認
Georgiy A. Bondar, Robert Gifford, Linh Thi Xuan Phan, Abhishek Halder(参考訳) path structured multimarginal schr\"{o}dinger bridge problem (msbp) の解は、観測された確率測度や分布スナップショットの列と一致する最もよく似た測度値の軌跡である。 制御ソフトウェアによる確率的ハードウェアリソース利用の学習において,このような構造化MSBPの解法における最近のアルゴリズムの進歩を活用する。 このソリューションは、線形収束を保証することにより、ハードウェアリソース可用性の時間変化分布を所望の時間で予測することができる。 モデル予測制御ソフトウェア実行ケーススタディにおいて,確率的学習手法の有効性を実証する。 この方法は、コントローラのハードウェアリソース利用の正確な予測に迅速に収束する。 この手法は任意のタイミングでサイバー物理的文脈依存のパフォーマンスを予測するソフトウェアに広く適用することができる。

The solution of the path structured multimarginal Schr\"{o}dinger bridge problem (MSBP) is the most-likely measure-valued trajectory consistent with a sequence of observed probability measures or distributional snapshots. We leverage recent algorithmic advances in solving such structured MSBPs for learning stochastic hardware resource usage by control software. The solution enables predicting the time-varying distribution of hardware resource availability at a desired time with guaranteed linear convergence. We demonstrate the efficacy of our probabilistic learning approach in a model predictive control software execution case study. The method exhibits rapid convergence to an accurate prediction of hardware resource utilization of the controller. The method can be broadly applied to any software to predict cyber-physical context-dependent performance at arbitrary time.
翻訳日:2023-10-05 03:09:23 公開日:2023-10-03
# ウェーブレット散乱変換による低語源話者識別の一般化

Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification ( http://arxiv.org/abs/2310.00602v2 )

ライセンス: Link先を確認
Spandan Dey, Premjeet Singh, Goutam Saha(参考訳) メル・スペクトログラム (mel-spectrogram) やMFCC (MFCC) などの音声言語識別 (LID) でよく使われる機能は、ウィンドウリングによって高周波情報を失う。 長い時間的文脈では損失はさらに増加する。 低リソースのLIDシステムの一般化を改善するため、欠点を補う代替特徴表現であるウェーブレット散乱変換(WST)について検討する。 我々の知る限り、WST は LID タスクでは以前から検討されていない。 我々はまず,複数の東南アジアのLIDコーパスに対してWST機能を最適化する。 LIDは低オクターブ分解能であり,周波数散乱は有用ではない。 さらに, クロスコーパス評価の結果, 最適WSTハイパーパラメータは列車と試験コーパスの両方に依存することがわかった。 そこで我々は,未知データに対する一般化を改善するために,異なる WST パラメータの集合を持つ融合 ECAPA-TDNN ベースの LID システムを開発した。 MFCCと比較すると、EERは14.05%まで減少し、同じコーパスと盲目のVoxLingua107では6.40%となった。

Commonly used features in spoken language identification (LID), such as mel-spectrogram or MFCC, lose high-frequency information due to windowing. The loss further increases for longer temporal contexts. To improve generalization of the low-resourced LID systems, we investigate an alternate feature representation, wavelet scattering transform (WST), that compensates for the shortcomings. To our knowledge, WST is not explored earlier in LID tasks. We first optimize WST features for multiple South Asian LID corpora. We show that LID requires low octave resolution and frequency-scattering is not useful. Further, cross-corpora evaluations show that the optimal WST hyper-parameters depend on both train and test corpora. Hence, we develop fused ECAPA-TDNN based LID systems with different sets of WST hyper-parameters to improve generalization for unknown data. Compared to MFCC, EER is reduced upto 14.05% and 6.40% for same-corpora and blind VoxLingua107 evaluations, respectively.
翻訳日:2023-10-05 03:08:48 公開日:2023-10-03
# 可積分ハイゼンベルク鎖における完全絡み合い伝播ダイナミクス

Exact Entanglement Propagation Dynamics in Integrable Heisenberg Chains ( http://arxiv.org/abs/2310.00717v2 )

ライセンス: Link先を確認
Peyman Azodi, Herschel A Rabitz(参考訳) ハイゼンベルク鎖の正確な単一磁気エンタングルメント進化は量子相関伝達関数(QCTF)の定式化を用いて得られる。 個々のスピンの絡み合いは超幾何関数によって与えられ、その過渡的挙動は第一種のベッセル関数によって記述される。 提示されたQCTFのレンズによるキャラクタリゼーションにより,これまで達成されていないハイゼンベルク鎖の球状単磁歪角速度を計算することができた。 この結果はマルチマグノン・レジームに拡張できるため、ハイゼンベルク鎖の平衡ダイナミクスと熱力学を説明する手段を開くことができる。

The exact single-magnon entanglement evolution in Heisenberg chains is obtained using the Quantum Correlation Transfer Function (QCTF) formulation. The individual spins' entanglement is given by a hypergeometric function, and its transient behavior is described via a Bessel function of the first kind. The presented characterization through the lens of QCTF allowed for calculating the ballistic single-magnon entanglement edge velocity in Heisenberg chains, which has not been achieved before. Our results can be extended to the multi-magnon regime, therefore opening up the means to explain equilibration dynamics and thermodynamics in Heisenberg chains.
翻訳日:2023-10-05 02:30:34 公開日:2023-10-03
# TRAM:大規模言語モデルのための時間推論ベンチマーク

TRAM: Benchmarking Temporal Reasoning for Large Language Models ( http://arxiv.org/abs/2310.00835v2 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao(参考訳) 時間に関する推論は自然言語で記述された出来事のニュアンスを理解するのに不可欠である。 このトピックに関する以前の研究は範囲が限られており、様々な研究で一貫した評価を可能にする標準ベンチマークが欠如していることが特徴である。 本稿では,大規模言語モデル(llm)の時間的推論能力の包括的評価を容易にするために,順序,算術,頻度,持続時間といったイベントのさまざまな時間的側面を包含する10のデータセットからなる時間的推論ベンチマークであるtrampを提案する。 GPT-4 や Llama2 のような一般的な LLM を用いて、ゼロショットおよび少数ショットの学習シナリオにおいて広範囲に評価を行う。 さらに,ベースライン評価の確立にはbertベースのモデルを用いる。 以上より,これらのモデルが時間的推論タスクにおいてヒトのパフォーマンスを追従していることが示唆された。 LLMの時間的推論能力を高めるために、TRAMがさらに進歩することを期待しています。

Reasoning about time is essential for understanding the nuances of events described in natural language. Previous research on this topic has been limited in scope, characterized by a lack of standardized benchmarks that would allow for consistent evaluations across different studies. In this paper, we introduce TRAM, a temporal reasoning benchmark composed of ten datasets, encompassing various temporal aspects of events such as order, arithmetic, frequency, and duration, designed to facilitate a comprehensive evaluation of the temporal reasoning capabilities of large language models (LLMs). We conduct an extensive evaluation using popular LLMs, such as GPT-4 and Llama2, in both zero-shot and few-shot learning scenarios. Additionally, we employ BERT-based models to establish the baseline evaluations. Our findings indicate that these models still trail human performance in temporal reasoning tasks. It is our aspiration that TRAM will spur further progress in enhancing the temporal reasoning abilities of LLMs.
翻訳日:2023-10-05 01:40:04 公開日:2023-10-03
# 有限列カーネルリッジ回帰の試験誤差に関する理論的解析

A Theoretical Analysis of the Test Error of Finite-Rank Kernel Ridge Regression ( http://arxiv.org/abs/2310.00987v2 )

ライセンス: Link先を確認
Tin Sum Cheng, Aurelien Lucchi, Ivan Dokmani\'c, Anastasis Kratsios and David Belius(参考訳) 一般的なカーネル回帰器の既存の統計的学習保証は、有限ランクカーネルで使用する場合、しばしばゆるい境界をもたらす。 しかし、有限ランクカーネルは、例えば、事前訓練されたディープニューラルネットワークの最後の層を微調整して、転送学習を実行する際に新しいタスクに適応するときに、いくつかの機械学習問題に自然に現れる。 有限ランク核リッジ回帰(krr)におけるこのギャップを,任意の有限ランクkrrのkrrテスト誤差に対する鋭い非漸近的上界と下界から導出することにより解決する。 我々の境界は、有限ランク krr 上の以前導かれた境界よりも厳密であり、同等の結果とは異なり、任意の正規化パラメータでも有効である。

Existing statistical learning guarantees for general kernel regressors often yield loose bounds when used with finite-rank kernels. Yet, finite-rank kernels naturally appear in several machine learning problems, e.g.\ when fine-tuning a pre-trained deep neural network's last layer to adapt it to a novel task when performing transfer learning. We address this gap for finite-rank kernel ridge regression (KRR) by deriving sharp non-asymptotic upper and lower bounds for the KRR test error of any finite-rank KRR. Our bounds are tighter than previously derived bounds on finite-rank KRR, and unlike comparable results, they also remain valid for any regularization parameters.
翻訳日:2023-10-04 22:53:53 公開日:2023-10-03
# 最適化の進歩:多様化戦略による適応微分進化

Advancements in Optimization: Adaptive Differential Evolution with Diversification Strategy ( http://arxiv.org/abs/2310.01057v2 )

ライセンス: Link先を確認
Sarit Maitra(参考訳) 本研究では,個体群に基づく進化的最適化アルゴリズム(適応微分進化と多様化戦略,ADEDS)を提案する。 このアルゴリズムは当初は正弦波目的関数を用いて開発され、その後Rosenbrock、Rastrigin、Ackley、DeVilliersGlasser02などを含む22のベンチマーク関数の広い範囲で評価された。 この作業では,2次元空間における単目的最適化を採用し,各ベンチマーク関数上でADEDSを複数回実行している。 サプライチェーン分析で使用される最適化アルゴリズムは、サプライチェーンの効率性とコスト効率に直接影響を与える。 その結果、ADEDSがより良いソリューションを見つける上で有効であることが明らかとなり、サプライチェーンの効率の向上、コスト削減、全体的な性能向上が重要であることが示唆された。

This study presents a population-based evolutionary optimization algorithm (Adaptive Differential Evolution with Diversification Strategies or ADEDS). The algorithm was initially developed using the sinusoidal objective function and subsequently evaluated with a wide-ranging set of 22 benchmark functions, including Rosenbrock, Rastrigin, Ackley, and DeVilliersGlasser02, among others. This work employs single-objective optimization in a two-dimensional space and runs ADEDS on each of these benchmark functions with multiple iterations. The optimization algorithms used in supply chain analytics have a direct impact on the efficiency and cost-effectiveness of supply chain operations. The findings reveal the effectiveness of ADEDS in finding better solutions, which implies its importance for improving supply chain efficiency, reducing costs, and enhancing overall performance.
翻訳日:2023-10-04 22:34:18 公開日:2023-10-03
# 中電圧グリッドの信頼性評価のためのグラフ同型ネットワーク

Graph Isomorphic Networks for Assessing Reliability of the Medium-Voltage Grid ( http://arxiv.org/abs/2310.01181v2 )

ライセンス: Link先を確認
Charlotte Cambier van Nooten, Tom van de Poll, Sonja F\"ullhase, Jacco Heres, Tom Heskes, Yuliya Shapovalova(参考訳) 電力網の信頼性の確保は、再生可能エネルギーへのシフトと従来の容量の減少によってますます困難になっている。 配電系統オペレータ (DSO) は, n-1 の原理を検証し, 部品故障時の連続動作を保証することにより, グリッド信頼性の実現を目指している。 電気ネットワークの複雑なグラフベースデータはn-1評価に重要な情報を持っている。 従来の機械学習手法とは異なり、グラフニューラルネットワーク(gnn)はグラフ構造データを直接扱う。 本稿では,中電圧グリッドにおけるn-1評価のためのグラフ同型ネットワーク(gins)を提案する。 GINフレームワークは、目に見えないグリッドに一般化し、グラフ構造とステーション/ケーブルのデータを利用するように設計されている。 提案手法は,従来の数学的最適化手法よりも高速で信頼性の高いグリッド評価を示し,予測時間を約1000倍に短縮する。 この結果は、計算課題に対処し、エネルギーグリッドアセスメントの信頼性と効率を高めるための有望なアプローチを提供する。

Ensuring electricity grid reliability becomes increasingly challenging with the shift towards renewable energy and declining conventional capacities. Distribution System Operators (DSOs) aim to achieve grid reliability by verifying the n-1 principle, ensuring continuous operation in case of component failure. Electricity networks' complex graph-based data holds crucial information for n-1 assessment: graph structure and data about stations/cables. Unlike traditional machine learning methods, Graph Neural Networks (GNNs) directly handle graph-structured data. This paper proposes using Graph Isomorphic Networks (GINs) for n-1 assessments in medium voltage grids. The GIN framework is designed to generalise to unseen grids and utilise graph structure and data about stations/cables. The proposed GIN approach demonstrates faster and more reliable grid assessments than a traditional mathematical optimisation approach, reducing prediction times by approximately a factor of 1000. The findings offer a promising approach to address computational challenges and enhance the reliability and efficiency of energy grid assessments.
翻訳日:2023-10-04 21:53:23 公開日:2023-10-03
# appjsonify:pdfからjsonへの変換ツールキット

appjsonify: An Academic Paper PDF-to-JSON Conversion Toolkit ( http://arxiv.org/abs/2310.01206v2 )

ライセンス: Link先を確認
Atsuki Yamaguchi, Terufumi Morishita(参考訳) 学術論文のためのPythonベースのPDF-to-JSON変換ツールキットであるappjsonifyを提案する。 複数のビジュアルベースの文書レイアウト分析モデルとルールベースのテキスト処理アプローチを使用してPDFファイルを解析する。 appjsonifyは柔軟なツールで、ユーザーは処理パイプラインを簡単に設定して、処理したい紙の特定のフォーマットを処理することができる。 PyPIとGitHub経由で簡単にインストールできるツールキットとして、appjsonifyを公開しています。

We present appjsonify, a Python-based PDF-to-JSON conversion toolkit for academic papers. It parses a PDF file using several visual-based document layout analysis models and rule-based text processing approaches. appjsonify is a flexible tool that allows users to easily configure the processing pipeline to handle a specific format of a paper they wish to process. We are publicly releasing appjsonify as an easy-to-install toolkit available via PyPI and GitHub.
翻訳日:2023-10-04 21:40:43 公開日:2023-10-03
# 意味推論を用いた高速で正確なニューラルネットワーク

Faster and Accurate Neural Networks with Semantic Inference ( http://arxiv.org/abs/2310.01259v2 )

ライセンス: Link先を確認
Sazzad Sayyed, Jonathan Ashdown, Francesco Restuccia(参考訳) ディープニューラルネットワーク(DNN)は通常、かなりの計算負荷を伴う。 構造化プルーニングや移動特化DNNなどの手法が提案されているが,その精度は著しく低下している。 本稿では,潜在表現における固有冗長性を利用して,性能の低下を抑えながら計算負荷を削減する。 意味的に類似した入力が、特に以前の層で多くのフィルタを共有することを示す。 したがって、セマンティックに類似したクラスをクラスタ化し、クラスタ固有のサブグラフを作成することができる。 そこで我々はSemantic Inference (SINF)と呼ばれる新しいフレームワークを提案する。 要するに、SINF i) オブジェクトが属するセマンティッククラスタを、小さな追加の分類器を使用して識別し、 (ii)そのセマンティッククラスタに関連するベースDNNから抽出されたサブグラフを実行して推論する。 各クラスタ固有のサブグラフを抽出するために,特定の意味クラスタの構成員を識別する能力を持つサブグラフを識別能力スコア(dcs)という新しい手法を提案する。 DCSはSINFとは独立であり、任意のDNNに適用できる。 我々は、CIFAR100データセットでトレーニングされたVGG16、VGG19、ResNet50 DNN上でのDCSの性能を、最先端の6つのプルーニングアプローチと比較した。 私たちの結果は (i)SINFは、VGG19、VGG16、ResNet50の推測時間を、0.17%、3.75%、および6.75%の精度でそれぞれ35%、29%、15%まで減少させる (ii)DCSはVGG16、VGG19、ResNet50でそれぞれ3.65%、4.25%、および2.36%の精度を達成する。 (iii)刈り取り基準として使用すると、iclr2023で公表された美術品の現在の状態よりも5.82%少ない8.13%の精度向上が得られる。 (iv)クラスタごとの精度を考慮すると、SINFはVGG16、VGG19、ResNet50よりも平均5.73%、8.38%、および6.36%良く動作する。

Deep neural networks (DNN) usually come with a significant computational burden. While approaches such as structured pruning and mobile-specific DNNs have been proposed, they incur drastic accuracy loss. In this paper we leverage the intrinsic redundancy in latent representations to reduce the computational load with limited loss in performance. We show that semantically similar inputs share many filters, especially in the earlier layers. Thus, semantically similar classes can be clustered to create cluster-specific subgraphs. To this end, we propose a new framework called Semantic Inference (SINF). In short, SINF (i) identifies the semantic cluster the object belongs to using a small additional classifier and (ii) executes the subgraph extracted from the base DNN related to that semantic cluster for inference. To extract each cluster-specific subgraph, we propose a new approach named Discriminative Capability Score (DCS) that finds the subgraph with the capability to discriminate among the members of a specific semantic cluster. DCS is independent from SINF and can be applied to any DNN. We benchmark the performance of DCS on the VGG16, VGG19, and ResNet50 DNNs trained on the CIFAR100 dataset against 6 state-of-the-art pruning approaches. Our results show that (i) SINF reduces the inference time of VGG19, VGG16, and ResNet50 respectively by up to 35%, 29% and 15% with only 0.17%, 3.75%, and 6.75% accuracy loss (ii) DCS achieves respectively up to 3.65%, 4.25%, and 2.36% better accuracy with VGG16, VGG19, and ResNet50 with respect to existing discriminative scores (iii) when used as a pruning criterion, DCS achieves up to 8.13% accuracy gain with 5.82% less parameters than the existing state of the art work published at ICLR 2023 (iv) when considering per-cluster accuracy, SINF performs on average 5.73%, 8.38% and 6.36% better than the base VGG16, VGG19, and ResNet50.
翻訳日:2023-10-04 21:21:33 公開日:2023-10-03
# ソーシャルネットワークにおけるオピニオンダイナミクスを用いたニューラルメッセージパッシングの一考察

A Unified View on Neural Message Passing with Opinion Dynamics for Social Networks ( http://arxiv.org/abs/2310.01272v2 )

ライセンス: Link先を確認
Outongyi Lv, Bingxin Zhou, Jing Wang, Xiang Xiao, Weishu Zhao, Lirong Zheng(参考訳) ソーシャルネットワークは、深層学習に基づく推論の領域内でしばしばグラフとして表現される相互接続データの共通の形態を表す。 これらのコミュニティは本質的に動的システムを形成し、社会的関係に沿って社会的主体間の継続的な内的コミュニケーションと意見交換を通じて安定を達成する。 対照的に、ディープラーニングにおけるニューラルメッセージパッシングは、グラフ内の連結ノード間の情報の伝播と集約を理解するための明確で直感的な数学的枠組みを提供する。 ノード表現は、隣接ノードの接続性と状態の両方を考慮して動的に更新される。 本研究は、動的システムの振る舞いを解析・推測するために、社会計測と神経メッセージパッシングの概念を調和させる。 社会学における意見力学からインスピレーションを得たODNetは,メッセージ伝達における局所ノードの影響量を改善するために,有界信頼を取り入れた新しいメッセージパッシング方式である。 我々は、ODNetの有界信頼度と影響重みの類似性のカットオフを調整し、ソーシャルネットワークグラフの特徴に沿った意見交換ルールを定義する。 odnetは様々なグラフタイプにおける予測性能を高め,過度な問題を軽減する。 さらに,従来のグラフ表現学習のベースラインを上回っており,代謝遺伝子の実世界共起ネットワーク解析における実用的意義を実証する。 本手法は,システム内のエンティティ間の相互作用周波数の知識を活用することで,複雑なソーシャルネットワークグラフを単純化する。 それは、意見のリーダー、ブリッジコミュニケーター、アイソレータを含む、異なる代謝経路における内部のコミュニティと遺伝子の役割を正確に識別する。

Social networks represent a common form of interconnected data frequently depicted as graphs within the domain of deep learning-based inference. These communities inherently form dynamic systems, achieving stability through continuous internal communications and opinion exchanges among social actors along their social ties. In contrast, neural message passing in deep learning provides a clear and intuitive mathematical framework for understanding information propagation and aggregation among connected nodes in graphs. Node representations are dynamically updated by considering both the connectivity and status of neighboring nodes. This research harmonizes concepts from sociometry and neural message passing to analyze and infer the behavior of dynamic systems. Drawing inspiration from opinion dynamics in sociology, we propose ODNet, a novel message passing scheme incorporating bounded confidence, to refine the influence weight of local nodes for message propagation. We adjust the similarity cutoffs of bounded confidence and influence weights of ODNet and define opinion exchange rules that align with the characteristics of social network graphs. We show that ODNet enhances prediction performance across various graph types and alleviates oversmoothing issues. Furthermore, our approach surpasses conventional baselines in graph representation learning and proves its practical significance in analyzing real-world co-occurrence networks of metabolic genes. Remarkably, our method simplifies complex social network graphs solely by leveraging knowledge of interaction frequencies among entities within the system. It accurately identifies internal communities and the roles of genes in different metabolic pathways, including opinion leaders, bridge communicators, and isolators.
翻訳日:2023-10-04 21:10:24 公開日:2023-10-03
# トレーニングベースChatGPT検出法の一般化について

On the Generalization of Training-based ChatGPT Detection Methods ( http://arxiv.org/abs/2310.01307v2 )

ライセンス: Link先を確認
Han Xu, Jie Ren, Pengfei He, Shenglai Zeng, Yingqian Cui, Amy Liu, Hui Liu, Jiliang Tang(参考訳) ChatGPTは、様々な自然言語タスクにおいて素晴らしいパフォーマンスを達成する最もポピュラーな言語モデルの1つである。 したがって、人書きから生成されたChatGPTのテキストを検出する必要がある。 広く研究されている方法の1つは、両者を区別する分類モデルを訓練するものである。 しかし、既存の研究では、訓練されたモデルが分散シフト(テスト中)に苦しむこと、すなわち、見当たらない言語タスクやトピックから生成されたテキストを予測するのに効果がないことも示されている。 本研究は,プロンプト,テキスト長,トピック,言語タスクなど幅広い要因によって引き起こされる分布変化下での,これらの手法の一般化行動に関する包括的調査を行うことを目的とする。 この目的を達成するために、まず人間とChatGPTのテキストで新しいデータセットを収集し、次に収集したデータセットについて広範な研究を行う。 本研究は,ChatGPT検出のための今後の方法論やデータ収集戦略の指針となる洞察力のある知見を提示する。

ChatGPT is one of the most popular language models which achieve amazing performance on various natural language tasks. Consequently, there is also an urgent need to detect the texts generated ChatGPT from human written. One of the extensively studied methods trains classification models to distinguish both. However, existing studies also demonstrate that the trained models may suffer from distribution shifts (during test), i.e., they are ineffective to predict the generated texts from unseen language tasks or topics. In this work, we aim to have a comprehensive investigation on these methods' generalization behaviors under distribution shift caused by a wide range of factors, including prompts, text lengths, topics, and language tasks. To achieve this goal, we first collect a new dataset with human and ChatGPT texts, and then we conduct extensive studies on the collected dataset. Our studies unveil insightful findings which provide guidance for developing future methodologies or data collection strategies for ChatGPT detection.
翻訳日:2023-10-04 21:00:08 公開日:2023-10-03
# Representation Engineering: AIの透明性に対するトップダウンアプローチ

Representation Engineering: A Top-Down Approach to AI Transparency ( http://arxiv.org/abs/2310.01405v2 )

ライセンス: Link先を確認
Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks(参考訳) 本稿では,認知神経科学の知見に基づいて,AIシステムの透明性を高める手法である表現工学の新たな領域(RepE)を同定し,特徴付ける。 repeは、ニューロンや回路ではなく、人口レベルの表現を分析の中心に置き、深層ニューラルネットワーク(dnn)における高レベル認知現象の監視と操作のための新しい手法を我々に与えます。 我々はRepEテクニックのベースラインと初期分析を提供し、大規模な言語モデルの理解と制御を改善するための単純かつ効果的なソリューションを提供することを示した。 我々は、これらの手法が、誠実さ、無害さ、パワーシーキングなど、幅広い安全関連問題に対する牽引力を提供する方法を示し、トップダウンの透明性研究の可能性を実証する。 この取り組みがRepEのさらなる探索を触媒し、AIシステムの透明性と安全性の向上を促進することを願っている。

In this paper, we identify and characterize the emerging area of representation engineering (RepE), an approach to enhancing the transparency of AI systems that draws on insights from cognitive neuroscience. RepE places population-level representations, rather than neurons or circuits, at the center of analysis, equipping us with novel methods for monitoring and manipulating high-level cognitive phenomena in deep neural networks (DNNs). We provide baselines and an initial analysis of RepE techniques, showing that they offer simple yet effective solutions for improving our understanding and control of large language models. We showcase how these methods can provide traction on a wide range of safety-relevant problems, including honesty, harmlessness, power-seeking, and more, demonstrating the promise of top-down transparency research. We hope that this work catalyzes further exploration of RepE and fosters advancements in the transparency and safety of AI systems.
翻訳日:2023-10-04 20:21:20 公開日:2023-10-03
# 解読診断: 大きな言語モデル説明が臨床意思決定に与える影響

Deciphering Diagnoses: How Large Language Models Explanations Influence Clinical Decision Making ( http://arxiv.org/abs/2310.01708v1 )

ライセンス: Link先を確認
D.Umerenkov, G.Zubkova, A.Nesterov(参考訳) 臨床決定支援システム(CDSS)は、エビデンスベースの知識と患者データを利用してリアルタイムレコメンデーションを提供する。 本研究は,患者の苦情に基づいた診断のための説明作成におけるllmの有効性と信頼性について検討する。 経験豊富な3人の医師は、複数の段階にわたる患者の苦情と医師とモデル指定診断の関連についてのLCMによる説明を評価した。 実験の結果, LLMの診断による医師の同意率は有意に向上し, LLM出力の潜在的な誤差は5%から30%であった。 この研究は、医療におけるLCMの可能性と課題を強調し、患者の安全性と最適な臨床効果を確保するために、注意深い統合と評価の必要性を強調している。

Clinical Decision Support Systems (CDSS) utilize evidence-based knowledge and patient data to offer real-time recommendations, with Large Language Models (LLMs) emerging as a promising tool to generate plain-text explanations for medical decisions. This study explores the effectiveness and reliability of LLMs in generating explanations for diagnoses based on patient complaints. Three experienced doctors evaluated LLM-generated explanations of the connection between patient complaints and doctor and model-assigned diagnoses across several stages. Experimental results demonstrated that LLM explanations significantly increased doctors' agreement rates with given diagnoses and highlighted potential errors in LLM outputs, ranging from 5% to 30%. The study underscores the potential and challenges of LLMs in healthcare and emphasizes the need for careful integration and evaluation to ensure patient safety and optimal clinical utility.
翻訳日:2023-10-04 18:17:53 公開日:2023-10-03
# モデルベースおよびモデルフリー強化学習の表現複雑性について

On Representation Complexity of Model-based and Model-free Reinforcement Learning ( http://arxiv.org/abs/2310.01706v1 )

ライセンス: Link先を確認
Hanlin Zhu, Baihe Huang, Stuart Russell(参考訳) 回路複雑性の文脈におけるモデルベースおよびモデルフリー強化学習(RL)の表現複雑性について検討した。 理論的には、その基礎となる遷移関数と報酬関数が多項式サイズの定数深さ回路で表現できるようなmdpの幅広いクラスが存在することが証明され、一方最適な$q$-関数は定数深さ回路において指数関数回路複雑性を被る。 近似誤差に注意を向け、複雑性理論への接続を構築することによって、モデルベースのアルゴリズムが、新しい表現複雑性の観点から、モデルフリーなアルゴリズムよりも、通常より良いサンプル複雑性を享受する理由に関するユニークな洞察を与えます。 我々は, 遷移カーネルの近似誤差, 報酬関数, 最適$Q$-関数を様々なムジョコ環境において比較することにより, 理論を実証的に相関させ, 遷移カーネルと報酬関数の近似誤差が最適$Q$-関数よりも一貫して低いことを示す。 我々の知る限りでは、この研究はRLの回路複雑性を初めて研究し、将来の研究のための厳密な枠組みも提供する。

We study the representation complexity of model-based and model-free reinforcement learning (RL) in the context of circuit complexity. We prove theoretically that there exists a broad class of MDPs such that their underlying transition and reward functions can be represented by constant depth circuits with polynomial size, while the optimal $Q$-function suffers an exponential circuit complexity in constant-depth circuits. By drawing attention to the approximation errors and building connections to complexity theory, our theory provides unique insights into why model-based algorithms usually enjoy better sample complexity than model-free algorithms from a novel representation complexity perspective: in some cases, the ground-truth rule (model) of the environment is simple to represent, while other quantities, such as $Q$-function, appear complex. We empirically corroborate our theory by comparing the approximation error of the transition kernel, reward function, and optimal $Q$-function in various Mujoco environments, which demonstrates that the approximation errors of the transition kernel and reward function are consistently lower than those of the optimal $Q$-function. To the best of our knowledge, this work is the first to study the circuit complexity of RL, which also provides a rigorous framework for future research.
翻訳日:2023-10-04 18:17:40 公開日:2023-10-03
# 神経外科手術における術中登録の出現予測

Learning Expected Appearances for Intraoperative Registration during Neurosurgery ( http://arxiv.org/abs/2310.01735v1 )

ライセンス: Link先を確認
Nazim Haouchine, Reuben Dorent, Parikshit Juvekar, Erickson Torio, William M. Wells III, Tina Kapur, Alexandra J. Golby and Sarah Frisken(参考訳) そこで本研究では,患者対画像登録の新たな方法を提案する。 本手法は,術前画像を用いて患者の期待するビューを手術顕微鏡で合成し,予測される範囲の変換を行う。 本手法は,光学顕微鏡による術中2次元ビューと合成可能なテクスチャとの相違を最小化することにより,カメラのポーズを推定する。 従来手法とは対照的に,本手法では処理タスクを前処理段階に移行し,低解像度,歪み,ノイズの多い術中画像の影響を低減し,登録精度を低下させる。 本手法を脳外科手術における神経走行の文脈に応用した。 臨床6症例の総合的データと振り返りデータについて検討した。 本手法は最先端法を上回り,現在の臨床基準を満たした精度を達成している。

We present a novel method for intraoperative patient-to-image registration by learning Expected Appearances. Our method uses preoperative imaging to synthesize patient-specific expected views through a surgical microscope for a predicted range of transformations. Our method estimates the camera pose by minimizing the dissimilarity between the intraoperative 2D view through the optical microscope and the synthesized expected texture. In contrast to conventional methods, our approach transfers the processing tasks to the preoperative stage, reducing thereby the impact of low-resolution, distorted, and noisy intraoperative images, that often degrade the registration accuracy. We applied our method in the context of neuronavigation during brain surgery. We evaluated our approach on synthetic data and on retrospective data from 6 clinical cases. Our method outperformed state-of-the-art methods and achieved accuracies that met current clinical standards.
翻訳日:2023-10-04 18:08:38 公開日:2023-10-03
# Nugget: テキストの神経集合的埋め込み

Nugget: Neural Agglomerative Embeddings of Text ( http://arxiv.org/abs/2310.01732v1 )

ライセンス: Link先を確認
Guanghui Qin, Benjamin Van Durme(参考訳) テキストシーケンスの埋め込みは、現代の言語理解において幅広い要件である。 既存のアプローチは主に定数サイズの表現に焦点を当てている。 これは問題であり、テキストに含まれる情報量は入力の長さによって異なることが多い。 入力トークンの動的に選択されたサブセットに基づいて、言語を表現にエンコードするnuggetというソリューションを提案する。 これらのナゲットは、自動エンコーディングや機械翻訳といったタスクを通じて学習され、直感的に言語を意味のある単位に分割する。 セマンティック比較を含むタスクにおいて、Nuggetが関連するアプローチより優れていることを示す。 最後に、これらのコンパクトなユニットは、言語モデル(LM)のコンテキストウィンドウの拡張を可能にし、より大量のコンテンツに条件付けできる新しい将来のLMを提案する。

Embedding text sequences is a widespread requirement in modern language understanding. Existing approaches focus largely on constant-size representations. This is problematic, as the amount of information contained in text often varies with the length of the input. We propose a solution called Nugget, which encodes language into a representation based on a dynamically selected subset of input tokens. These nuggets are learned through tasks like autoencoding and machine translation, and intuitively segment language into meaningful units. We demonstrate Nugget outperforms related approaches in tasks involving semantic comparison. Finally, we illustrate these compact units allow for expanding the contextual window of a language model (LM), suggesting new future LMs that can condition on significantly larger amounts of content.
翻訳日:2023-10-04 18:08:25 公開日:2023-10-03
# 大規模言語モデルの再プログラムによる時系列予測

Time-LLM: Time Series Forecasting by Reprogramming Large Language Models ( http://arxiv.org/abs/2310.01728v1 )

ライセンス: Link先を確認
Ming Jin, Shiyu Wang, Lintao Ma, Zhixuan Chu, James Y. Zhang, Xiaoming Shi, Pin-Yu Chen, Yuxuan Liang, Yuan-Fang Li, Shirui Pan, Qingsong Wen(参考訳) 時系列予測は多くの実世界の力学系において重要であり、広く研究されている。 単一の大きなモデルが複数のタスクを処理できる自然言語プロセス(nlp)やコンピュータビジョン(cv)とは異なり、時系列予測のモデルはしばしば専門化され、異なるタスクやアプリケーションのために異なる設計が必要となる。 事前訓練された基礎モデルは、NLPとCVにおいて顕著な進歩を遂げてきたが、時系列領域におけるそれらの開発は、データの分散によって制約されている。 近年の研究では、大規模言語モデル(llm)が複雑なトークン列よりもロバストなパターン認識と推論能力を持っていることが示されている。 しかし、これらの能力を活用するために時系列データと自然言語のモダリティを効果的に整合させることが課題である。 本研究では,バックボーン言語モデルを用いて時系列予測を行うため,LLMを再利用するプログラミングフレームワークであるTime-LLMを提案する。 まず、入力時系列をテキストプロトタイプでプログラムし、凍結したLCMに入力して2つのモードを整列させる。 LLMの時系列データによる推論能力を高めるために,入力コンテキストを充実させ,再プログラムされた入力パッチの変換を指示するPrompt-as-Prefix (PaP)を提案する。 LLMから変換された時系列パッチは最終的に予測を得るために投影される。 我々の総合的な評価は、Time-LLMは最先端の特殊予測モデルを上回る強力な時系列学習者であることを示している。 さらに、Time-LLMは、数ショットとゼロショットの両方の学習シナリオで優れている。

Time series forecasting holds significant importance in many real-world dynamic systems and has been extensively studied. Unlike natural language process (NLP) and computer vision (CV), where a single large model can tackle multiple tasks, models for time series forecasting are often specialized, necessitating distinct designs for different tasks and applications. While pre-trained foundation models have made impressive strides in NLP and CV, their development in time series domains has been constrained by data sparsity. Recent studies have revealed that large language models (LLMs) possess robust pattern recognition and reasoning abilities over complex sequences of tokens. However, the challenge remains in effectively aligning the modalities of time series data and natural language to leverage these capabilities. In this work, we present Time-LLM, a reprogramming framework to repurpose LLMs for general time series forecasting with the backbone language models kept intact. We begin by reprogramming the input time series with text prototypes before feeding it into the frozen LLM to align the two modalities. To augment the LLM's ability to reason with time series data, we propose Prompt-as-Prefix (PaP), which enriches the input context and directs the transformation of reprogrammed input patches. The transformed time series patches from the LLM are finally projected to obtain the forecasts. Our comprehensive evaluations demonstrate that Time-LLM is a powerful time series learner that outperforms state-of-the-art, specialized forecasting models. Moreover, Time-LLM excels in both few-shot and zero-shot learning scenarios.
翻訳日:2023-10-04 18:08:12 公開日:2023-10-03
# GPT-4は経験的ソフトウェア工学研究を再現できるか?

Can GPT-4 Replicate Empirical Software Engineering Research? ( http://arxiv.org/abs/2310.01727v1 )

ライセンス: Link先を確認
Jenny T. Liang, Carmen Badea, Christian Bird, Robert DeLine, Denae Ford, Nicole Forsgren, Thomas Zimmermann(参考訳) 実運用システムに関する実証的ソフトウェアエンジニアリング研究は、実践者や研究者にとってもソフトウェアエンジニアリングプロセスの理解を深めた。 しかし、生産システムのごく一部しか研究されておらず、この研究の影響を限定している。 ソフトウェアエンジニアリングの実践者は、自身のデータに関する研究を複製することの恩恵を受けるが、複製を行うには、ソフトウェアエンジニアリングデータに研究方法論と微妙なニュアンスを深く理解する必要があるため、独自の課題が生じる。 GPT-4のような大きな言語モデル(LLM)は、ソフトウェア工学と科学関連のタスクの両方に取り組むことを約束しているので、これらのモデルは経験的ソフトウェア工学の研究を民主化するのに役立ちます。 本稿では,新しいデータに対する実証的ソフトウェア工学研究の複製を行うllmsの能力について検討する。 具体的には,実証的ソフトウェア工学研究方法論の仮定を提示する能力と,7つの実証的ソフトウェア工学論文で解析パイプラインのコード計画と生成能力について検討した。 我々は,ソフトウェア工学研究の専門知識を持つ14人の参加者を対象に,GPT-4生成の仮定と分析計画(モジュール仕様のリスト)を論文から評価する。 GPT-4は正しい仮定を提示できるが、ソフトウェア工学データに関する一般的な知識を反映した仮説を生成するのに苦労している。 生成したコードを手動で解析した結果,GPT-4生成コードは方法論のサブセットを前提として,正しい高レベル論理を含むことがわかった。 しかし、このコードには、ソフトウェア工学の知識の欠如を反映した、実装レベルの小さなエラーが多数含まれている。 我々の発見は、ソフトウェアエンジニアリング研究やソフトウェアチームの実践的データサイエンティストにLLMを活用することに意味がある。

Empirical software engineering research on production systems has brought forth a better understanding of the software engineering process for practitioners and researchers alike. However, only a small subset of production systems is studied, limiting the impact of this research. While software engineering practitioners benefit from replicating research on their own data, this poses its own set of challenges, since performing replications requires a deep understanding of research methodologies and subtle nuances in software engineering data. Given that large language models (LLMs), such as GPT-4, show promise in tackling both software engineering- and science-related tasks, these models could help democratize empirical software engineering research. In this paper, we examine LLMs' abilities to perform replications of empirical software engineering research on new data. We specifically study their ability to surface assumptions made in empirical software engineering research methodologies, as well as their ability to plan and generate code for analysis pipelines on seven empirical software engineering papers. We perform a user study with 14 participants with software engineering research expertise, who evaluate GPT-4-generated assumptions and analysis plans (i.e., a list of module specifications) from the papers. We find that GPT-4 is able to surface correct assumptions, but struggle to generate ones that reflect common knowledge about software engineering data. In a manual analysis of the generated code, we find that the GPT-4-generated code contains the correct high-level logic, given a subset of the methodology. However, the code contains many small implementation-level errors, reflecting a lack of software engineering knowledge. Our findings have implications for leveraging LLMs for software engineering research as well as practitioner data scientists in software teams.
翻訳日:2023-10-04 18:07:45 公開日:2023-10-03
# テストフリー障害定位のための大規模言語モデル

Large Language Models for Test-Free Fault Localization ( http://arxiv.org/abs/2310.01726v1 )

ライセンス: Link先を確認
Aidan Z.H. Yang, Ruben Martins, Claire Le Goues, Vincent J. Hellendoorn(参考訳) fault localization (fl) はバグの多いコードの行を自動的にローカライズすることを目的としている。 以前のFL技術は入力テストのプロビジョニングを前提としており、プログラム分析、プログラムインスツルメンテーション、データ前処理を必要とすることが多い。 aprのディープラーニングに関する以前の作業は、小さなデータセットから学ぶのに苦労し、現実世界のプログラムで限られた結果を生み出す。 ごく少数の例に基づいて新しいタスクに適応するコードの大規模言語モデル(LLM)の能力に着想を得て,LLMのラインレベルの欠陥ローカライゼーションへの適用性を検討した。 具体的には、LLMが学習した表現の上に小さな双方向アダプタ層を微調整し、LLMAOを生成することで、LLMの左から右への性質を克服することを提案する。 llmを3億5000万、60億、160億のパラメータで微調整し、欠陥4jコーパスなどのバグを手作業でキュレートしました。 また,本手法は,大規模モデルを用いた場合のフォールトローカライゼーションの信頼性が著しく向上し,バグローカライゼーション性能がLLMサイズと一貫して向上することが確認された。 実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。 LLMAOは、セキュリティ上の脆弱性をコードラインレベルまで検出できる言語モデルアーキテクチャを使ってトレーニングされた最初のFLテクニックである。

Fault Localization (FL) aims to automatically localize buggy lines of code, a key first step in many manual and automatic debugging tasks. Previous FL techniques assume the provision of input tests, and often require extensive program analysis, program instrumentation, or data preprocessing. Prior work on deep learning for APR struggles to learn from small datasets and produces limited results on real-world programs. Inspired by the ability of large language models (LLMs) of code to adapt to new tasks based on very few examples, we investigate the applicability of LLMs to line level fault localization. Specifically, we propose to overcome the left-to-right nature of LLMs by fine-tuning a small set of bidirectional adapter layers on top of the representations learned by LLMs to produce LLMAO, the first language model based fault localization approach that locates buggy lines of code without any test coverage information. We fine-tune LLMs with 350 million, 6 billion, and 16 billion parameters on small, manually curated corpora of buggy programs such as the Defects4J corpus. We observe that our technique achieves substantially more confidence in fault localization when built on the larger models, with bug localization performance scaling consistently with the LLM size. Our empirical evaluation shows that LLMAO improves the Top-1 results over the state-of-the-art machine learning fault localization (MLFL) baselines by 2.3%-54.4%, and Top-5 results by 14.4%-35.6%. LLMAO is also the first FL technique trained using a language model architecture that can detect security vulnerabilities down to the code line level.
翻訳日:2023-10-04 18:07:17 公開日:2023-10-03
# PrACTiS: 時系列の知覚的意図的コプラ

PrACTiS: Perceiver-Attentional Copulas for Time Series ( http://arxiv.org/abs/2310.01720v1 )

ライセンス: Link先を確認
Cat P. Le, Chris Cannella, Ali Hasan, Yuting Ng, Vahid Tarokh(参考訳) コプラ構造を組み込んだ変圧器は時系列予測において顕著な性能を示した。 しかし、自己着脱機構への強い依存は、かなりの計算資源を必要とするため、幅広いタスクで実用性が制限される。 本研究では,時系列予測を改善するために,知覚アーキテクチャとコプラ構造を組み合わせたモデルを提案する。 エンコーダとして知覚器を利用することにより、複雑な高次元のマルチモーダルデータをコンパクトな潜在空間に効率よく変換し、計算要求を大幅に低減する。 さらに複雑性を低減すべく,中間点推論と局所的注意機構を導入して,インデュートサンプル内の依存関係を効果的にキャプチャする。 次に,コプラに基づく注意および出力分散テスト機構を展開し,損失データの同時分布を把握し,同時に予測中の誤差伝播を緩和する。 実験結果では, 使用可能なメモリ資源の半数以下を有効利用しながら, 最先端の手法に比べて一貫した20倍の改善が見られた。

Transformers incorporating copula structures have demonstrated remarkable performance in time series prediction. However, their heavy reliance on self-attention mechanisms demands substantial computational resources, thus limiting their practical utility across a wide range of tasks. In this work, we present a model that combines the perceiver architecture with a copula structure to enhance time-series forecasting. By leveraging the perceiver as the encoder, we efficiently transform complex, high-dimensional, multimodal data into a compact latent space, thereby significantly reducing computational demands. To further reduce complexity, we introduce midpoint inference and local attention mechanisms, enabling the model to capture dependencies within imputed samples effectively. Subsequently, we deploy the copula-based attention and output variance testing mechanism to capture the joint distribution of missing data, while simultaneously mitigating error propagation during prediction. Our experimental results on the unimodal and multimodal benchmarks showcase a consistent 20\% improvement over the state-of-the-art methods, while utilizing less than half of available memory resources.
翻訳日:2023-10-04 18:06:45 公開日:2023-10-03
# 教師なし構成解析のためのアンサンブル蒸留

Ensemble Distillation for Unsupervised Constituency Parsing ( http://arxiv.org/abs/2310.01717v1 )

ライセンス: Link先を確認
Behzad Shayegh, Yanshuai Cao, Xiaodan Zhu, Jackie C.K. Cheung, Lili Mou(参考訳) 文の語句を言語的に注釈付けされたデータを用いることなく階層構造に整理する教師なし選挙区構文解析タスクについて検討する。 既存の教師なし構文解析器は、教師なし解析性能を向上させるために利用することができる解析構造の異なる側面を捉えている。 そこで本研究では,教師なし構文解析のための新しいアンサンブル手法を提案する。 推論効率を向上させるために,学生モデルにさらにアンサンブル知識を蒸留する。このようなアンサンブル・テン蒸留プロセスは,一般的なマルチティーチンガー蒸留法に存在する過度に平滑な問題を緩和するための効果的なアプローチである。 実験により,本手法は従来手法を超越し,様々な動作,異なるアンサンブル成分,ドメインシフト条件下での有効性とロバスト性を示した。

We investigate the unsupervised constituency parsing task, which organizes words and phrases of a sentence into a hierarchical structure without using linguistically annotated data. We observe that existing unsupervised parsers capture differing aspects of parsing structures, which can be leveraged to enhance unsupervised parsing performance. To this end, we propose a notion of "tree averaging," based on which we further propose a novel ensemble method for unsupervised parsing. To improve inference efficiency, we further distill the ensemble knowledge into a student model; such an ensemble-then-distill process is an effective approach to mitigate the over-smoothing problem existing in common multi-teacher distilling methods. Experiments show that our method surpasses all previous approaches, consistently demonstrating its effectiveness and robustness across various runs, with different ensemble components, and under domain-shift conditions.
翻訳日:2023-10-04 18:06:26 公開日:2023-10-03
# 類推的推論としての大規模言語モデル

Large Language Models as Analogical Reasoners ( http://arxiv.org/abs/2310.01714v1 )

ライセンス: Link先を確認
Michihiro Yasunaga, Xinyun Chen, Yujia Li, Panupong Pasupat, Jure Leskovec, Percy Liang, Ed H. Chi, Denny Zhou(参考訳) 言語モデルのためのchain-of-thought(cot)プロンプトは推論タスク全体で印象的なパフォーマンスを示すが、通常は推論プロセスのラベル付き例証が必要である。 本研究では,大規模言語モデルの推論プロセスを自動的にガイドする新しいプロンプト手法であるAnalogical Promptingを導入する。 類推的推論は、人間が関連する過去の経験から新たな問題に取り組むための認知過程であり、我々のアプローチは言語モデルに与えられた問題を解決する前に、文脈における関連する経験や知識を自己生成するよう促す。 この方法はいくつかの利点があり、例えば、前例のラベル付けや検索の必要性を排除し、汎用性と利便性を提供し、生成した前例と知識を各問題にカスタマイズし、適応性を提供する。 実験の結果,GSM8KとMATHの数学問題解決,コードフォースのコード生成,BIG-Benchの他の推論タスクなど,さまざまな推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
翻訳日:2023-10-04 18:06:11 公開日:2023-10-03
# ドロップアウトパターンの生成自動符号化

Generative Autoencoding of Dropout Patterns ( http://arxiv.org/abs/2310.01712v1 )

ライセンス: Link先を確認
Shunta Maeda(参考訳) 本稿では,デ暗号オートエンコーダと呼ばれる生成モデルを提案する。 このモデルでは、トレーニングデータセットの各データポイントにユニークなランダムドロップアウトパターンを割り当て、オートエンコーダをトレーニングして、このパターンを符号化する情報として、対応するデータポイントを再構築する。 Deciphering Autoencoderのトレーニングは再構築エラーのみに依存しているため、他の生成モデルよりも安定したトレーニングを提供する。 その単純さにもかかわらず、Deciphering AutoencodersはCIFAR-10データセット上でDCGANに匹敵するサンプリング品質を示している。

We propose a generative model termed Deciphering Autoencoders. In this model, we assign a unique random dropout pattern to each data point in the training dataset and then train an autoencoder to reconstruct the corresponding data point using this pattern as information to be encoded. Since the training of Deciphering Autoencoders relies solely on reconstruction error, it offers more stable training than other generative models. Despite its simplicity, Deciphering Autoencoders show comparable sampling quality to DCGAN on the CIFAR-10 dataset.
翻訳日:2023-10-04 18:05:50 公開日:2023-10-03
# マルチスペクトル衛星画像からの深層学習に基づくシーンレベル火災煙検出のためのクラススペクトルパターンの学習

Learning Class-Specific Spectral Patterns to Improve Deep Learning Based Scene-Level Fire Smoke Detection from Multi-Spectral Satellite Imagery ( http://arxiv.org/abs/2310.01711v1 )

ライセンス: Link先を確認
Liang Zhao, Jixue Liu, Stefan Peters, Jiuyong Li, Norman Mueller, Simon Oliver(参考訳) 衛星画像を用いた早期の山火事の早期同定には,火煙の検出が重要である。 しかし、煙の空間的およびスペクトル的な類似性は、雲やヘイズのような他の大気エアロゾルと異なり、最も先進的な深層学習(DL)モデルでさえ混乱することが多い。 しかしながら、これらのエアロゾルは特定の帯域で異なるスペクトル特性を示しており、これらのスペクトルパターンはより正確にエアロゾルを識別するのに有用である。 初期の研究は、煙と雲のピクセルを区別するために、特定のスペクトル帯の反射率と輝度温度から様々な閾値を導出しようとした。 しかし、そのようなしきい値はドメインの知識に基づいて決定され、一般化が困難である。 さらに、これらの閾値はスペクトルパターンを推測するためにバンドの特定の組み合わせから手動で導かれるため、ディープラーニングモデルでは採用が困難である。 本稿では,多スペクトル衛星画像からDLモデルでクラス固有のスペクトルパターンを自動学習し,火災煙検出精度を向上させることを目的とした,インプット増幅(Inmpmp)と呼ばれるDLモジュールを提案する。 InAmpは様々なDLアーキテクチャと便利に統合できる。 InAmpモジュールの異なる畳み込みニューラルネットワーク(CNN)アーキテクチャにおける2つの衛星画像データセット(USTC_SmokeRS、モード分解能イメージング分光放射計(MODIS)と、ランドサット5/8から6つのスペクトル帯域を持つランドサット_Smk)の有効性を評価した。 実験の結果,InAmpモジュールはCNNモデルの煙煙検出精度を向上させることがわかった。 さらに、テスト画像を用いてInAmpモジュールが抽出したスペクトルパターンを可視化し、InAmpモジュールがクラス固有のスペクトルパターンを効果的に抽出できることを実証する。

Detecting fire smoke is crucial for the timely identification of early wildfires using satellite imagery. However, the spatial and spectral similarity of fire smoke to other confounding aerosols, such as clouds and haze, often confuse even the most advanced deep-learning (DL) models. Nonetheless, these aerosols also present distinct spectral characteristics in some specific bands, and such spectral patterns are useful for distinguishing the aerosols more accurately. Early research tried to derive various threshold values from the reflectance and brightness temperature in specific spectral bands to differentiate smoke and cloud pixels. However, such threshold values were determined based on domain knowledge and are hard to generalise. In addition, such threshold values were manually derived from specific combinations of bands to infer spectral patterns, making them difficult to employ in deep-learning models. In this paper, we introduce a DL module called input amplification (InAmp) which is designed to enable DL models to learn class-specific spectral patterns automatically from multi-spectral satellite imagery and improve the fire smoke detection accuracy. InAmp can be conveniently integrated with different DL architectures. We evaluate the effectiveness of the InAmp module on different Convolutional neural network (CNN) architectures using two satellite imagery datasets: USTC_SmokeRS, derived from Moderate Resolution Imaging Spectroradiometer (MODIS) with three spectral bands; and Landsat_Smk, derived from Landsat 5/8 with six spectral bands. Our experimental results demonstrate that the InAmp module improves the fire smoke detection accuracy of the CNN models. Additionally, we visualise the spectral patterns extracted by the InAmp module using test imagery and demonstrate that the InAmp module can effectively extract class-specific spectral patterns.
翻訳日:2023-10-04 18:05:41 公開日:2023-10-03
# データクリーニングと機械学習: 体系的な文献レビュー

Data Cleaning and Machine Learning: A Systematic Literature Review ( http://arxiv.org/abs/2310.01765v1 )

ライセンス: Link先を確認
Pierre-Olivier C\^ot\'e, Amin Nikanjam, Nafisa Ahmed, Dmytro Humeniuk, Foutse Khomh(参考訳) コンテキスト: 機械学習(ML)は、さまざまなアプリケーション向けの多くのシステムに統合されます。 MLモデルの性能はトレーニングされたデータの品質に大きく依存しているため、データエラー(すなわちデータのクリーニング)を検出し、修復するアプローチへの関心が高まっている。 研究者はまた、MLをデータクリーニングに使用する方法についても検討している。 私たちの知る限りでは、この関係を包括的にレビューする研究はない。 目的:本論文の目的は2つある。 まず、データクリーニングのためのMLとMLの最新のアプローチを要約することを目的としている。 第2に、将来の作業推奨を提供する。 方法:2016年から2022年にかけての論文を包括的に体系的な文献レビューを行う。 MLでは,特徴クリーニング,ラベルクリーニング,エンティティマッチング,アウトリーチ検出,インプット,包括的データクリーニングなど,さまざまな種類のデータクリーニング活動を識別する。 結果: 各種データクリーニング活動に関する101論文の内容を要約し, 今後の作業推奨事項を24件提示した。 我々のレビューは、さらに拡張可能な多くの有望なデータクリーニング技術を強調している。 結論: 文献のレビューは,データのクリーン化のためのより良いアプローチをコミュニティが開発するのに役立つと信じています。

Context: Machine Learning (ML) is integrated into a growing number of systems for various applications. Because the performance of an ML model is highly dependent on the quality of the data it has been trained on, there is a growing interest in approaches to detect and repair data errors (i.e., data cleaning). Researchers are also exploring how ML can be used for data cleaning; hence creating a dual relationship between ML and data cleaning. To the best of our knowledge, there is no study that comprehensively reviews this relationship. Objective: This paper's objectives are twofold. First, it aims to summarize the latest approaches for data cleaning for ML and ML for data cleaning. Second, it provides future work recommendations. Method: We conduct a systematic literature review of the papers published between 2016 and 2022 inclusively. We identify different types of data cleaning activities with and for ML: feature cleaning, label cleaning, entity matching, outlier detection, imputation, and holistic data cleaning. Results: We summarize the content of 101 papers covering various data cleaning activities and provide 24 future work recommendations. Our review highlights many promising data cleaning techniques that can be further extended. Conclusion: We believe that our review of the literature will help the community develop better approaches to clean data.
翻訳日:2023-10-04 17:57:01 公開日:2023-10-03
# バニラスコアを用いたマルチモーダル分布のサンプリング:データベース初期化のメリット

Sampling Multimodal Distributions with the Vanilla Score: Benefits of Data-Based Initialization ( http://arxiv.org/abs/2310.01762v1 )

ライセンス: Link先を確認
Frederic Koehler, Thuy-Duong Vuong(参考訳) スコア関数に基づく統計的および生成的モデリングアプローチにおいて、分布の対数様相の導出物において、近年の関心の爆発と同様に長い歴史がある。 基礎となる基底真理のスコア関数の推定を計算してデータから分布を学習する方法としてHyv\"arinen が提案したバニラスコアマッチングは、この方法との接続を確立し、コントラッシブ・ディバージェンス(Contrastive Divergence)や擬似的推定(Pseudolikelihood)といった手法を確立した。 バニラスコアマッチングがマルチモーダル分布の学習に重大な困難をもたらすことは、現在ではよく知られている。 この難しさを克服する方法はいろいろありますが、以下の質問は未解決のままです。 関連する実験の長い行に触発されて、実験的な分布で初期化され、データから推定されるスコア関数上でランゲヴィン拡散が自然マルチモーダル分布(対数凹分布の混合)をうまく生成できることが証明された。

There is a long history, as well as a recent explosion of interest, in statistical and generative modeling approaches based on score functions -- derivatives of the log-likelihood of a distribution. In seminal works, Hyv\"arinen proposed vanilla score matching as a way to learn distributions from data by computing an estimate of the score function of the underlying ground truth, and established connections between this method and established techniques like Contrastive Divergence and Pseudolikelihood estimation. It is by now well-known that vanilla score matching has significant difficulties learning multimodal distributions. Although there are various ways to overcome this difficulty, the following question has remained unanswered -- is there a natural way to sample multimodal distributions using just the vanilla score? Inspired by a long line of related experimental works, we prove that the Langevin diffusion with early stopping, initialized at the empirical distribution, and run on a score function estimated from data successfully generates natural multimodal distributions (mixtures of log-concave distributions).
翻訳日:2023-10-04 17:56:42 公開日:2023-10-03
# ニューラルネットワーク組み込み最適化のためのReLU活性化関数の線形化:最適日頭エネルギースケジューリング

Linearization of ReLU Activation Function for Neural Network-Embedded Optimization:Optimal Day-Ahead Energy Scheduling ( http://arxiv.org/abs/2310.01758v1 )

ライセンス: Link先を確認
Cunzhi Zhao and Xingpeng Li(参考訳) ニューラルネットワークは電力系統領域に広く適用されている。 入力情報やモデリングシステムの性能をより正確に予測するために使用できる。 電池劣化ニューラルネットワークに基づくマイクログリッドデイアヘッドエネルギースケジューリングのようないくつかのアプリケーションでは、トレーニングされた学習モデルの入力特徴は、同じ学習モデルの出力に制限を課す最適化モデルで解決される変数である。 ニューラルネットワークにおける非線形アクティベーション関数の使用は、解決不可能な場合には、そのような問題を極端に解決し難いものにする。 この課題に対処するため, 非線形活性化関数を線形化するための様々な手法を, 広く用いられている整流線形単位(ReLU)関数に着目して検討した。 本稿では,ReLU活性化関数に適した4つの線形化法を開発し,解析し,比較した。 各手法は線形制約を用いてReLU関数を置換し、最適化問題を効果的に線形化し、ニューラルネットワークモデルの非線形性に関連する計算課題を克服する。 これらの線形化手法は、ニューラルネットワークモデルとReLUアクティベーション関数を統合する最適化問題を効果的に解くための貴重なツールを提供する。

Neural networks have been widely applied in the power system area. They can be used for better predicting input information and modeling system performance with increased accuracy. In some applications such as battery degradation neural network-based microgrid day-ahead energy scheduling, the input features of the trained learning model are variables to be solved in optimization models that enforce limits on the output of the same learning model. This will create a neural network-embedded optimization problem; the use of nonlinear activation functions in the neural network will make such problems extremely hard to solve if not unsolvable. To address this emerging challenge, this paper investigated different methods for linearizing the nonlinear activation functions with a particular focus on the widely used rectified linear unit (ReLU) function. Four linearization methods tailored for the ReLU activation function are developed, analyzed and compared in this paper. Each method employs a set of linear constraints to replace the ReLU function, effectively linearizing the optimization problem, which can overcome the computational challenges associated with the nonlinearity of the neural network model. These proposed linearization methods provide valuable tools for effectively solving optimization problems that integrate neural network models with ReLU activation functions.
翻訳日:2023-10-04 17:56:16 公開日:2023-10-03
# 非有界損失を伴う逆バンディットのアルゴリズム改善

Improved Algorithms for Adversarial Bandits with Unbounded Losses ( http://arxiv.org/abs/2310.01756v1 )

ライセンス: Link先を確認
Mingyu Chen, Xuezhou Zhang(参考訳) 本稿では,非有界な損失を伴うMAB(Adversarial Multi-Armed Bandits)問題を考える。 UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。 非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。 その上に構築されたUMAB-Gは任意の非有界損失から学習できる。 分析の結果,MAB問題における正損失と負損失の非対称性が明らかとなり,さらなる知見が得られた。 また,本手法は無拘束損失を処理する既存のアルゴリズムを一貫して上回っていることを示すとともに,広範な実験的評価を行った。

We consider the Adversarial Multi-Armed Bandits (MAB) problem with unbounded losses, where the algorithms have no prior knowledge on the sizes of the losses. We present UMAB-NN and UMAB-G, two algorithms for non-negative and general unbounded loss respectively. For non-negative unbounded loss, UMAB-NN achieves the first adaptive and scale free regret bound without uniform exploration. Built up on that, we further develop UMAB-G that can learn from arbitrary unbounded loss. Our analysis reveals the asymmetry between positive and negative losses in the MAB problem and provide additional insights. We also accompany our theoretical findings with extensive empirical evaluations, showing that our algorithms consistently out-performs all existing algorithms that handles unbounded losses.
翻訳日:2023-10-04 17:55:56 公開日:2023-10-03
# ImageNet-OOD:現代のアウトオブディストリビューション検出アルゴリズムの解読

ImageNet-OOD: Deciphering Modern Out-of-Distribution Detection Algorithms ( http://arxiv.org/abs/2310.01755v1 )

ライセンス: Link先を確認
William Yang, Byron Zhang, Olga Russakovsky(参考訳) out-of-distribution (ood) 検出のタスクは悪名高い。 初期の研究は、ラベル変更によるデータ分散シフト(semantic shift)の特定を目的とした、新しいクラス検出に焦点を当てていた。 しかし、最近の研究は、障害検出に焦点を当て、OOD評価フレームワークを拡張して、ラベル保存データ分散シフト("covariate shift"とも呼ばれる)を考慮に入れている。 興味深いことに、この新しい枠組みでは、以前最先端と見なされていた複雑なood検出器が、単純な最大ソフトマックス確率ベースラインと同様に、あるいはさらに悪いことに機能する。 最新のOOD検出器は何が実際に検出されているのか? OOD検出アルゴリズムの振る舞いを解読するには、セマンティックシフトと共変量シフトを分離する評価データセットが必要である。 本研究では,共変量シフトの干渉を最小限に抑えるクリーンなセマンティックシフトデータセットであるImageNet-OODを提案する。 総合的な実験を通して、OOD検出器は意味シフトよりも共変量シフトに敏感であることを示し、最近のOOD検出アルゴリズムのセマンティックシフト検出に対する利点は最小限である。 我々のデータセットと分析は、将来のOOD検出器の設計を導く上で重要な洞察を提供する。

The task of out-of-distribution (OOD) detection is notoriously ill-defined. Earlier works focused on new-class detection, aiming to identify label-altering data distribution shifts, also known as "semantic shift." However, recent works argue for a focus on failure detection, expanding the OOD evaluation framework to account for label-preserving data distribution shifts, also known as "covariate shift." Intriguingly, under this new framework, complex OOD detectors that were previously considered state-of-the-art now perform similarly to, or even worse than the simple maximum softmax probability baseline. This raises the question: what are the latest OOD detectors actually detecting? Deciphering the behavior of OOD detection algorithms requires evaluation datasets that decouples semantic shift and covariate shift. To aid our investigations, we present ImageNet-OOD, a clean semantic shift dataset that minimizes the interference of covariate shift. Through comprehensive experiments, we show that OOD detectors are more sensitive to covariate shift than to semantic shift, and the benefits of recent OOD detection algorithms on semantic shift detection is minimal. Our dataset and analyses provide important insights for guiding the design of future OOD detectors.
翻訳日:2023-10-04 17:55:45 公開日:2023-10-03
# 因果時間:因果発見のベンチマークのための現実的な時系列生成

CausalTime: Realistically Generated Time-series for Benchmarking of Causal Discovery ( http://arxiv.org/abs/2310.01753v1 )

ライセンス: Link先を確認
Yuxiao Cheng, Ziqian Wang, Tingxiong Xiao, Qin Zhong, Jinli Suo, Kunlun He(参考訳) 時系列因果発見(TSCD)は機械学習の基本的な問題である。 しかし、既存の合成データセットは、実際のデータ上でアルゴリズムのパフォーマンスを適切に評価または予測することはできない。 本研究では,実データによく似た時系列を生成する因果時間パイプラインと,定量的性能評価のための基底真理因果グラフを提案する。 パイプラインは、特定のシナリオにおける実際の観察から始まり、一致するベンチマークデータセットを生成する。 まず、深層ニューラルネットワークと正規化フローを利用して、現実的なダイナミクスを正確に捉える。 次に,ニューラルネットワークの重要度分析や事前知識の活用により,仮説付き因果グラフを抽出する。 第3に、因果モデルから因果項、残余項、雑音項に分解することにより、基底真理因果グラフを導出する。 最後に,適応ネットワークと導出因果グラフを用いて,アルゴリズム評価に適した多目的時系列を生成する。 実験では,質的かつ定量的な実験と,これらのデータを用いた既存のtscdアルゴリズムのベンチマークにより,生成データの忠実性を検証する。 CausalTimeは、実アプリケーションでTSCDアルゴリズムを評価するための実現可能なソリューションを提供し、幅広い分野に一般化することができる。 提案手法を簡単に利用するために,www.causaltime.ccにホストされたユーザフレンドリーなWebサイトも提供する。

Time-series causal discovery (TSCD) is a fundamental problem of machine learning. However, existing synthetic datasets cannot properly evaluate or predict the algorithms' performance on real data. This study introduces the CausalTime pipeline to generate time-series that highly resemble the real data and with ground truth causal graphs for quantitative performance evaluation. The pipeline starts from real observations in a specific scenario and produces a matching benchmark dataset. Firstly, we harness deep neural networks along with normalizing flow to accurately capture realistic dynamics. Secondly, we extract hypothesized causal graphs by performing importance analysis on the neural network or leveraging prior knowledge. Thirdly, we derive the ground truth causal graphs by splitting the causal model into causal term, residual term, and noise term. Lastly, using the fitted network and the derived causal graph, we generate corresponding versatile time-series proper for algorithm assessment. In the experiments, we validate the fidelity of the generated data through qualitative and quantitative experiments, followed by a benchmarking of existing TSCD algorithms using these generated datasets. CausalTime offers a feasible solution to evaluating TSCD algorithms in real applications and can be generalized to a wide range of fields. For easy use of the proposed approach, we also provide a user-friendly website, hosted on www.causaltime.cc.
翻訳日:2023-10-04 17:55:20 公開日:2023-10-03
# スタック注意: 階層パターンをモデル化するトランスフォーマーの能力向上

Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns ( http://arxiv.org/abs/2310.01749v1 )

ライセンス: Link先を確認
Brian DuSell and David Chiang(参考訳) 注意、特に拡大されたドット製品注意は自然言語に有効であることが証明されているが、任意の入れ子深さの階層パターンを扱うメカニズムを持っておらず、特定の構文構造を認識する能力に制限がある。 この欠点に対処するために、我々はスタックアテンションを提案する。 スタックを組み込んだアテンションオペレータであり、その理論的に文脈自由言語(cfls)とのつながりに触発されている。 スタックの注意力は標準の注意力に似ているが、構文の監督を必要としない潜在的な構文モデルで示される。 決定論的プッシュダウンオートマトン(pdas)と非決定論的pda(transformerが任意のcflを認識することを可能にする)の2つの変種を提案する。 スタックアテンションを持つ変圧器は標準変圧器が苦戦するCFLの学習に非常に効果的であり,理論上は最大解析が難しいCFLに対して高い結果が得られることを示す。 また,制約パラメータ予算下での自然言語モデリングにおいてスタックアテンションがより効果的であることを示し,機械翻訳の結果を含む。

Attention, specifically scaled dot-product attention, has proven effective for natural language, but it does not have a mechanism for handling hierarchical patterns of arbitrary nesting depth, which limits its ability to recognize certain syntactic structures. To address this shortcoming, we propose stack attention: an attention operator that incorporates stacks, inspired by their theoretical connections to context-free languages (CFLs). We show that stack attention is analogous to standard attention, but with a latent model of syntax that requires no syntactic supervision. We propose two variants: one related to deterministic pushdown automata (PDAs) and one based on nondeterministic PDAs, which allows transformers to recognize arbitrary CFLs. We show that transformers with stack attention are very effective at learning CFLs that standard transformers struggle on, achieving strong results on a CFL with theoretically maximal parsing difficulty. We also show that stack attention is more effective at natural language modeling under a constrained parameter budget, and we include results on machine translation.
翻訳日:2023-10-04 17:54:58 公開日:2023-10-03
# 5Gネットワークスライシング:複数機械学習分類器の解析

5G Network Slicing: Analysis of Multiple Machine Learning Classifiers ( http://arxiv.org/abs/2310.01747v1 )

ライセンス: Link先を確認
Mirsad Malkoc, Hisham A. Kholidy(参考訳) 1つの物理的5g通信インフラストラクチャを、帯域幅、レイテンシ、信頼性、セキュリティ、サービス品質といった異なる特徴を持つ複数の仮想ネットワークスライスに分割することは、5gネットワークスライスと呼ばれる。 各スライスは、仮想現実、ゲーム、自動運転車、産業自動化など、特定のサービスやユースケースの要件を満たす独立した論理ネットワークである。 ネットワークスライスはサービスの要求の変化に合わせて動的に調整することができ、共有インフラストラクチャ上で多様なサービスやアプリケーションを提供するためのコスト効率が高く効率的なアプローチが実現される。 本稿では,ロジスティック回帰モデル,線形判別モデル,k-ネアレスト近傍モデル,決定木モデル,ランダム森林モデル,SVC BernoulliNBモデル,ガウスアンNBモデルなど,さまざまな機械学習手法を評価し,ネットワークスライス検出における各モデルの精度と精度について検討する。 レポートでは5Gネットワークスライシングの概要も紹介されている。

The division of one physical 5G communications infrastructure into several virtual network slices with distinct characteristics such as bandwidth, latency, reliability, security, and service quality is known as 5G network slicing. Each slice is a separate logical network that meets the requirements of specific services or use cases, such as virtual reality, gaming, autonomous vehicles, or industrial automation. The network slice can be adjusted dynamically to meet the changing demands of the service, resulting in a more cost-effective and efficient approach to delivering diverse services and applications over a shared infrastructure. This paper assesses various machine learning techniques, including the logistic regression model, linear discriminant model, k-nearest neighbor's model, decision tree model, random forest model, SVC BernoulliNB model, and GaussianNB model, to investigate the accuracy and precision of each model on detecting network slices. The report also gives an overview of 5G network slicing.
翻訳日:2023-10-04 17:54:38 公開日:2023-10-03
# 統計的保証によるランダム化次元削減

Randomized Dimension Reduction with Statistical Guarantees ( http://arxiv.org/abs/2310.01739v1 )

ライセンス: Link先を確認
Yijun Dong(参考訳) 大規模なモデルと巨大なデータは、現代のアルゴリズム、特に科学計算と機械学習によって達成された前例のない成功の原動力である。 それにもかかわらず、次元とモデルの複雑さの増大と、データ前処理の不要なワークロードは、計算とデータ集約の両方の成功に恐ろしいコストをもたらします。 ムーアの法則の減速により計算コストがハードウェアレベルから低下するにつれて、高価な古典ルーチンの高速ヒューリスティックスや限られたデータを利用する効率的なアルゴリズムは、アルゴリズムの能力の限界を押し上げるためにますます必要となる。 この論文は、高速な実行と効率的なデータ利用のためのアルゴリズムをいくつか探求している。 計算効率の観点から、我々は「行列スケッチ」に基づく大規模行列に対する高速ランダム化低ランク分解アルゴリズムを設計・解析し、データ空間における次元削減戦略とみなすことができる。 これらには、第2章で議論されたランダム化ピボットベースの補間およびCUR分解と、第3章で論じられたランダム化部分空間近似が含まれる。 サンプル効率の観点からは、一般化と分散ロバスト性を向上する様々なデータ拡張を組み込んだ学習アルゴリズムに焦点を当てる。 具体的には、第4章では、関数空間の次元縮小のレンズからサンプル効率を見るデータ拡張一貫性規則化のためのサンプル複雑性分析を示す。 そして,第5章では,分散的ロバスト最適化のための適応重み付きデータ拡張一貫性正規化アルゴリズムと,医用画像分割への応用について紹介する。

Large models and enormous data are essential driving forces of the unprecedented successes achieved by modern algorithms, especially in scientific computing and machine learning. Nevertheless, the growing dimensionality and model complexity, as well as the non-negligible workload of data pre-processing, also bring formidable costs to such successes in both computation and data aggregation. As the deceleration of Moore's Law slackens the cost reduction of computation from the hardware level, fast heuristics for expensive classical routines and efficient algorithms for exploiting limited data are increasingly indispensable for pushing the limit of algorithm potency. This thesis explores some of such algorithms for fast execution and efficient data utilization. From the computational efficiency perspective, we design and analyze fast randomized low-rank decomposition algorithms for large matrices based on "matrix sketching", which can be regarded as a dimension reduction strategy in the data space. These include the randomized pivoting-based interpolative and CUR decomposition discussed in Chapter 2 and the randomized subspace approximations discussed in Chapter 3. From the sample efficiency perspective, we focus on learning algorithms with various incorporations of data augmentation that improve generalization and distributional robustness provably. Specifically, Chapter 4 presents a sample complexity analysis for data augmentation consistency regularization where we view sample efficiency from the lens of dimension reduction in the function space. Then in Chapter 5, we introduce an adaptively weighted data augmentation consistency regularization algorithm for distributionally robust optimization with applications in medical image segmentation.
翻訳日:2023-10-04 17:54:19 公開日:2023-10-03
# ロバスト政策改善のためのブレンディング模倣と強化学習

Blending Imitation and Reinforcement Learning for Robust Policy Improvement ( http://arxiv.org/abs/2310.01737v1 )

ライセンス: Link先を確認
Xuefeng Liu, Takuma Yoneda, Rick L. Stevens, Matthew R. Walter, Yuxin Chen(参考訳) 強化学習(RL)は有望な性能を示しているが、サンプルの複雑さは依然として大きなハードルであり、さまざまな領域にわたる幅広い応用を制限する。 模倣学習(il)は、サンプル効率を改善するためにoracleを利用するが、デプロイされたoracleの品質によって制限されることが多い。 ILとRLを積極的にインターリーブし、そのパフォーマンスをオンラインで見積もっています。 RPIは、特に学習の初期段階において、スパース・リワード RL において顕著に困難な側面である探索を容易にするためにオラクルクエリを使用して、ILの強みを生かしている。 学習が広がるにつれて、RPIは徐々にRLに移行し、学習方針を改良されたオラクルとして効果的に扱う。 このアルゴリズムは、多様なブラックボックスのオラクルから学習し、改善することができる。 RPIと統合されるのは、Robust Active Policy Selection (RAPS) とRobust Policy Gradient (RPG) である。 実験的な評価と理論的解析により、RPIは既存の最先端手法と比較して優れており、様々なベンチマーク領域で優れた性能を示す。

While reinforcement learning (RL) has shown promising performance, its sample complexity continues to be a substantial hurdle, restricting its broader application across a variety of domains. Imitation learning (IL) utilizes oracles to improve sample efficiency, yet it is often constrained by the quality of the oracles deployed. which actively interleaves between IL and RL based on an online estimate of their performance. RPI draws on the strengths of IL, using oracle queries to facilitate exploration, an aspect that is notably challenging in sparse-reward RL, particularly during the early stages of learning. As learning unfolds, RPI gradually transitions to RL, effectively treating the learned policy as an improved oracle. This algorithm is capable of learning from and improving upon a diverse set of black-box oracles. Integral to RPI are Robust Active Policy Selection (RAPS) and Robust Policy Gradient (RPG), both of which reason over whether to perform state-wise imitation from the oracles or learn from its own value function when the learner's performance surpasses that of the oracles in a specific state. Empirical evaluations and theoretical analysis validate that RPI excels in comparison to existing state-of-the-art methodologies, demonstrating superior performance across various benchmark domains.
翻訳日:2023-10-04 17:53:52 公開日:2023-10-03
# 常時決定論的保証によるオンラインpomdp計画

Online POMDP Planning with Anytime Deterministic Guarantees ( http://arxiv.org/abs/2310.01791v1 )

ライセンス: Link先を確認
Moran Barenboim and Vadim Indelman(参考訳) 現実のシナリオで動作する自律エージェントはしばしば不確実性に遭遇し、不完全な情報に基づいて意思決定を行う。 不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化することができる。 しかし、POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。 近年、木探索やサンプルベース手法などの近似アルゴリズムが、より大規模な問題に対する最先端のPOMDP解法として登場している。 有効性にもかかわらず、これらのアルゴリズムはサンプリングに依存するため最適解に対する確率的かつ漸近的な保証のみを提供する。 これらの制限に対処するため、簡単な解と理論的に最適な解との決定論的関係を導出する。 まず、各後ノードで完全な信念を計算しながら、観測のサブセットを選択して分岐する境界を導出する。 そして、完全な信念更新が計算的に要求されるため、状態と観測空間の両方の縮小をサポートするために境界を拡張する。 我々は、我々の保証が既存の状態と観測のサブセットをサンプリングする最先端のソルバとどのように統合できるかを実証する。 その結果、返却された解は最適方針に対する決定論的境界を持つ。 最後に,実験結果の裏付けとして,本研究の成果を裏付ける。

Autonomous agents operating in real-world scenarios frequently encounter uncertainty and make decisions based on incomplete information. Planning under uncertainty can be mathematically formalized using partially observable Markov decision processes (POMDPs). However, finding an optimal plan for POMDPs can be computationally expensive and is feasible only for small tasks. In recent years, approximate algorithms, such as tree search and sample-based methodologies, have emerged as state-of-the-art POMDP solvers for larger problems. Despite their effectiveness, these algorithms offer only probabilistic and often asymptotic guarantees toward the optimal solution due to their dependence on sampling. To address these limitations, we derive a deterministic relationship between a simplified solution that is easier to obtain and the theoretically optimal one. First, we derive bounds for selecting a subset of the observations to branch from while computing a complete belief at each posterior node. Then, since a complete belief update may be computationally demanding, we extend the bounds to support reduction of both the state and the observation spaces. We demonstrate how our guarantees can be integrated with existing state-of-the-art solvers that sample a subset of states and observations. As a result, the returned solution holds deterministic bounds relative to the optimal policy. Lastly, we substantiate our findings with supporting experimental results.
翻訳日:2023-10-04 17:49:48 公開日:2023-10-03
# 大規模言語モデルは研究論文に有用なフィードバックを提供できるか? 大規模実証分析

Can large language models provide useful feedback on research papers? A large-scale empirical analysis ( http://arxiv.org/abs/2310.01783v1 )

ライセンス: Link先を確認
Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou(参考訳) 専門家のフィードバックは厳格な研究の基礎となる。 しかし、学術的生産の急速な成長と複雑な知識専門化は、従来の科学的フィードバック機構に挑戦する。 高品質なピアレビューは入手がますます困難になっている。 より若く、あるいはリソース不足の環境では、特にタイムリーなフィードバックを得ることが難しい。 GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、研究用原稿の科学的フィードバックを得るためにLLMを使うことへの関心が高まっている。 しかし、LLM生成フィードバックの有用性は体系的に研究されていない。 このギャップに対処するため、GPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。 GPT-4のフィードバックの質を2つの大規模研究を通して評価した。 まず,GPT-4が生成したフィードバックと人間のピアレビュアーのフィードバックを,Nature family journals(計3,096論文)とICLR Machine Learning Conference(1,709論文)で比較した。 GPT-4と人間レビュアーによる点の重複(Nature誌では平均30.85%、ICLRでは39.23%)は、2人の人間レビュアーの重複に匹敵する(Nature誌では平均28.58%、ICLRでは35.25%)。 GPT-4とヒトレビュアーの重複は、より弱い論文では大きい。 次に,米国110機関から308名の研究者を対象に,aiと計算生物学の分野の研究者を対象に,gpt-4システムによって生成されたフィードバックを研究者自身がどのように認識するかに関する有望なユーザ調査を行った。 全体の半数以上(57.4%)が GPT-4 のフィードバックは有益であり、82.4%は少なくとも一部の人間レビュアーからのフィードバックよりも有益であると回答した。 LLMによるフィードバックは研究者の助けになるが、いくつかの限界も見出す。

Expert feedback lays the foundation of rigorous research. However, the rapid growth of scholarly production and intricate knowledge specialization challenge the conventional scientific feedback mechanisms. High-quality peer reviews are increasingly difficult to obtain. Researchers who are more junior or from under-resourced settings have especially hard times getting timely feedback. With the breakthrough of large language models (LLM) such as GPT-4, there is growing interest in using LLMs to generate scientific feedback on research manuscripts. However, the utility of LLM-generated feedback has not been systematically studied. To address this gap, we created an automated pipeline using GPT-4 to provide comments on the full PDFs of scientific papers. We evaluated the quality of GPT-4's feedback through two large-scale studies. We first quantitatively compared GPT-4's generated feedback with human peer reviewer feedback in 15 Nature family journals (3,096 papers in total) and the ICLR machine learning conference (1,709 papers). The overlap in the points raised by GPT-4 and by human reviewers (average overlap 30.85% for Nature journals, 39.23% for ICLR) is comparable to the overlap between two human reviewers (average overlap 28.58% for Nature journals, 35.25% for ICLR). The overlap between GPT-4 and human reviewers is larger for the weaker papers. We then conducted a prospective user study with 308 researchers from 110 US institutions in the field of AI and computational biology to understand how researchers perceive feedback generated by our GPT-4 system on their own papers. Overall, more than half (57.4%) of the users found GPT-4 generated feedback helpful/very helpful and 82.4% found it more beneficial than feedback from at least some human reviewers. While our findings show that LLM-generated feedback can help researchers, we also identify several limitations.
翻訳日:2023-10-04 17:49:30 公開日:2023-10-03
# HallE-Switch: 詳細なカプセル化のための大規模視覚言語モデルにおけるオブジェクト存在幻覚の再考と制御

HallE-Switch: Rethinking and Controlling Object Existence Hallucinations in Large Vision Language Models for Detailed Caption ( http://arxiv.org/abs/2310.01779v1 )

ライセンス: Link先を確認
Bohan Zhai, Shijia Yang, Xiangchen Zhao, Chenfeng Xu, Sheng Shen, Dongdi Zhao, Kurt Keutzer, Manling Li, Tan Yan, Xiangjun Fan(参考訳) 現在の大型視覚言語モデル(lvlms)は著しい進歩を遂げているが、視覚の詳細を正確に把握する能力、すなわち詳細なキャプションの実行については、大きな不確実性が残っている。 そこで我々は,詳細な字幕作成に適した GPT-4 支援評価手法である \textit{CCEval} を紹介する。 興味深いことに、既存のVQAベンチマークでは、LVLMは最小限のオブジェクト存在幻覚を示すが、提案した評価は、そのような幻覚に対する継続的な感受性を示す。 本稿では,画像の解像度,言語デコーダサイズ,命令データ量,品質,粒度など,このような幻覚を調査・属性化するための最初の試みを行う。 言語記述が視覚モジュールの接地や検証よりも細かな物体の粒度の詳細を含む場合, 幻覚を誘発する際の不規則な推論の根拠となる。 このような幻覚を制御するために、キャプションの信頼性は文脈的知識(文脈的接地対象のみを含む)とパラメトリック知識(モデルによる推論対象を含む)に比例する。 したがって、オブジェクト $\textbf{Hall}$xistence における $\textbf{Hall}$ucination という用語で制御可能な LVLM である $\textit{HallE-Switch}$ を導入する。 HallE-Switchはキャプションの切り替えを条件にできる (i)接地対象の文脈知識を専ら描くこと、及び (ii)推測対象を想像するためにパラメトリック知識とブレンドすること。 LLaVA$_{7B}$に比べて幻覚は44%減少し,同じ対象範囲を維持している。

Current large vision-language models (LVLMs) achieve remarkable progress, yet there remains significant uncertainty regarding their ability to accurately apprehend visual details, that is, in performing detailed captioning. To address this, we introduce \textit{CCEval}, a GPT-4 assisted evaluation method tailored for detailed captioning. Interestingly, while LVLMs demonstrate minimal object existence hallucination in existing VQA benchmarks, our proposed evaluation reveals continued susceptibility to such hallucinations. In this paper, we make the first attempt to investigate and attribute such hallucinations, including image resolution, the language decoder size, and instruction data amount, quality, granularity. Our findings underscore the unwarranted inference when the language description includes details at a finer object granularity than what the vision module can ground or verify, thus inducing hallucination. To control such hallucinations, we further attribute the reliability of captioning to contextual knowledge (involving only contextually grounded objects) and parametric knowledge (containing inferred objects by the model). Thus, we introduce $\textit{HallE-Switch}$, a controllable LVLM in terms of $\textbf{Hall}$ucination in object $\textbf{E}$xistence. HallE-Switch can condition the captioning to shift between (i) exclusively depicting contextual knowledge for grounded objects and (ii) blending it with parametric knowledge to imagine inferred objects. Our method reduces hallucination by 44% compared to LLaVA$_{7B}$ and maintains the same object coverage.
翻訳日:2023-10-04 17:48:56 公開日:2023-10-03
# SEA: 意識マスクを推定したスパースリニア注意

SEA: Sparse Linear Attention with Estimated Attention Mask ( http://arxiv.org/abs/2310.01777v1 )

ライセンス: Link先を確認
Heejun Lee, Jina Kim, Jeffrey Willette, Sung Ju Hwang(参考訳) トランスフォーマーアーキテクチャは近年、自然言語理解のように、シーケンシャル要素間のペアリレーションをモデル化する必要があるタスクにおいて画期的になっている。 しかし、注意操作の二次的な複雑さのため、変換器は長いシーケンスに悩まされ、以前の研究では、注意行列をスペーシングまたは線形に近似することで複雑さを減らそうとしている。 しかし、これらの手法は教師の注意マトリックスから直接知識を抽出することはできず、しばしばゼロから完全に再訓練する必要がある。 さらに、従来のスパースおよび線形アプローチは、完全な二次注意行列を生成しない場合、解釈可能性を失うこともある。 これらの課題に対処するため,提案するSEA: 推定注意マスクを用いた疎線形注意法を提案する。 SEAは、カーネルベースの線形注意による線形複雑度でアテンション行列を推定し、スパースアテンション行列をトップk選択でスパースアテンション行列に近似し、スパースアテンション演算を行う。 言語モデリングタスク(Wikitext2)では、以前の線形およびスパースなアテンション手法は、OPT-125Mベースラインよりも約2倍悪いパープレキシティスコアを示し、SEAはOPT-125Mの約半分のメモリを使用して、OPT-125Mよりもさらに優れたパープレキシティを達成する。 さらに、seaは解釈可能な注意行列を維持し、既存の訓練済みトランスフォーマーの複雑さを減らすために知識蒸留を利用することができる。 メモリの少ないリソース制限のデバイスで大きなトランスフォーマーを動作させることで、我々の作業に大きな実践的影響を与えるだろうと考えています。

The transformer architecture has made breakthroughs in recent years on tasks which require modeling pairwise relationships between sequential elements, as is the case in natural language understanding. However, transformers struggle with long sequences due to the quadratic complexity of the attention operation, and previous research has aimed to lower the complexity by sparsifying or linearly approximating the attention matrix. Yet, these approaches cannot straightforwardly distill knowledge from a teacher's attention matrix, and often require complete retraining from scratch. Furthermore, previous sparse and linear approaches may also lose interpretability if they do not produce full quadratic attention matrices. To address these challenges, we propose SEA: Sparse linear attention with an Estimated Attention mask. SEA estimates the attention matrix with linear complexity via kernel-based linear attention, then creates a sparse approximation to the full attention matrix with a top-k selection to perform a sparse attention operation. For language modeling tasks (Wikitext2), previous linear and sparse attention methods show a roughly two-fold worse perplexity scores over the quadratic OPT-125M baseline, while SEA achieves an even better perplexity than OPT-125M, using roughly half as much memory as OPT-125M. Moreover, SEA maintains an interpretable attention matrix and can utilize knowledge distillation to lower the complexity of existing pretrained transformers. We believe that our work will have a large practical impact, as it opens the possibility of running large transformers on resource-limited devices with less memory.
翻訳日:2023-10-04 17:48:25 公開日:2023-10-03
# stamp:stein変分勾配降下による微分可能タスクと動作計画

STAMP: Differentiable Task and Motion Planning via Stein Variational Gradient Descent ( http://arxiv.org/abs/2310.01775v1 )

ライセンス: Link先を確認
Yewon Lee (1), Philip Huang (2), Krishna Murthy Jatavallabhula (3), Andrew Z. Li (1), Fabian Damken (1 and 4), Eric Heiden (5), Kevin Smith (3), Derek Nowrouzezahrai (6), Fabio Ramos (5 and 7), Florian Shkurti (1) ((1) University of Toronto, (2) Carnegie Mellon University, (3) Massachusetts Institute of Technology, (4) Technische Universitat Darmstadt, (5) NVIDIA, (6) McGill University, (7) University of Sydney)(参考訳) ツールの使用や部品の組み立てなど、多くの操作タスクの計画には、しばしば象徴的および幾何学的推論が必要である。 タスク・アンド・モーション・プランニング (tamp) アルゴリズムは通常、高レベルなタスクシーケンス上で木探索を行い、キネマティックかつダイナミックな実行可能性をチェックすることでこれらの問題を解決する。 パフォーマンスは高いが、既存のアルゴリズムの多くは、時間複雑性が可能なアクションやオブジェクトの数で指数関数的に増加するため、非常に非効率である。 さらに、実現可能な多くの計画が存在するかもしれない問題に対する単一の解決策しか見つからない。 これらの制約に対処するために,並列化と微分可能シミュレーションを利用したstein task and motion planning (stamp) と呼ばれる新しいアルゴリズムを提案する。 STAMPは離散的かつ連続的なTAMP問題を、変分推論を用いて解決できる連続最適化問題に緩和する。 このアルゴリズムは、勾配に基づく変分推論アルゴリズムであるStein Variational Gradient Descentと、GPU上の並列化微分可能な物理シミュレータに基づいて、推論の勾配を効率的に取得する。 さらに, 模倣学習を用いて, 推論問題を少ない次元に還元する動作抽象化を導入する。 2つのTAMP問題に対して本手法を実証し,STAMPが可能であることを示す。 1) 複数の多様な計画が並行して作成され 2)既存のTAMPベースラインよりも効率的に計画の探索を行う。

Planning for many manipulation tasks, such as using tools or assembling parts, often requires both symbolic and geometric reasoning. Task and Motion Planning (TAMP) algorithms typically solve these problems by conducting a tree search over high-level task sequences while checking for kinematic and dynamic feasibility. While performant, most existing algorithms are highly inefficient as their time complexity grows exponentially with the number of possible actions and objects. Additionally, they only find a single solution to problems in which many feasible plans may exist. To address these limitations, we propose a novel algorithm called Stein Task and Motion Planning (STAMP) that leverages parallelization and differentiable simulation to efficiently search for multiple diverse plans. STAMP relaxes discrete-and-continuous TAMP problems into continuous optimization problems that can be solved using variational inference. Our algorithm builds upon Stein Variational Gradient Descent, a gradient-based variational inference algorithm, and parallelized differentiable physics simulators on the GPU to efficiently obtain gradients for inference. Further, we employ imitation learning to introduce action abstractions that reduce the inference problem to lower dimensions. We demonstrate our method on two TAMP problems and empirically show that STAMP is able to: 1) produce multiple diverse plans in parallel; and 2) search for plans more efficiently compared to existing TAMP baselines.
翻訳日:2023-10-04 17:47:54 公開日:2023-10-03
# ニューラルネットワークにおける損失平坦性から圧縮表現への単純な接続

A simple connection from loss flatness to compressed representations in neural networks ( http://arxiv.org/abs/2310.01770v1 )

ライセンス: Link先を確認
Shirui Chen, Stefano Recanatesi, Eric Shea-Brown(参考訳) ディープニューラルネットワークの一般化能力は、パラメータ空間における損失ランドスケープの形状に基づくものと、特徴空間における表現多様体の構造に基づくもの(つまり、ユニットアクティビティの空間における)という、少なくとも2つの異なるアプローチのカテゴリを含む様々な方法で研究されてきた。 これら2つのアプローチは関連しているが、共に研究されることは稀であり、明確に結びついている。 ここでは、そのような接続を行う簡単な解析について述べる。 深層ニューラルネットワークの学習の最終段階では、ニューラルネットワーク表現の多様体の体積の圧縮は、継続するパラメータ最適化により探究されるミニマ周辺の損失の平坦性と相関することを示した。 これは比較的単純な数学的関係によって予測される: 損失平坦性は神経表現の圧縮を意味する。 この結果は,学習の後期段階において平坦性(損失ヘッセンの小さな固有値)がどのように発達し,ネットワーク入力の摂動に頑健性をもたらすかを示す,citet{ma_linear_2021} の先行研究に密接に基づいている。 さらに,局所的な次元とシャープネスの間にも同様な直接的な関係が存在しないことを示し,この性質は体積と異なるメカニズムによって制御され,それゆえ神経表現において相補的な役割を果たすことを示唆する。 全体として、パラメータと特徴空間の両方におけるニューラルネットワークの一般化に関する双対視点を推し進める。

Deep neural networks' generalization capacity has been studied in a variety of ways, including at least two distinct categories of approach: one based on the shape of the loss landscape in parameter space, and the other based on the structure of the representation manifold in feature space (that is, in the space of unit activities). These two approaches are related, but they are rarely studied together and explicitly connected. Here, we present a simple analysis that makes such a connection. We show that, in the last phase of learning of deep neural networks, compression of the volume of the manifold of neural representations correlates with the flatness of the loss around the minima explored by ongoing parameter optimization. We show that this is predicted by a relatively simple mathematical relationship: loss flatness implies compression of neural representations. Our results build closely on prior work of \citet{ma_linear_2021}, which shows how flatness (i.e., small eigenvalues of the loss Hessian) develops in late phases of learning and lead to robustness to perturbations in network inputs. Moreover, we show there is no similarly direct connection between local dimensionality and sharpness, suggesting that this property may be controlled by different mechanisms than volume and hence may play a complementary role in neural representations. Overall, we advance a dual perspective on generalization in neural networks in both parameter and feature space.
翻訳日:2023-10-04 17:47:15 公開日:2023-10-03
# マトリックスセンシングにおける過度パラメータ化の緩やかさ:対称性と初期化の曲線

How Over-Parameterization Slows Down Gradient Descent in Matrix Sensing: The Curses of Symmetry and Initialization ( http://arxiv.org/abs/2310.01769v1 )

ライセンス: Link先を確認
Nuoya Xiong, Lijun Ding, Simon S. Du(参考訳) 本稿では,非等方性線形測定から未知の低位接地面行列を回収することを目的とした行列センシング問題において,過パラメータ化が勾配降下(gd)の収束挙動をどのように変化させるかを示す。 まず、対称パラメータ化を持つ対称集合を考える: $m^* \in \mathbb{r}^{n \times n}$ はランク $r \ll n$ の正の半定値未知行列であり、対称パラメータ化 $xx^\top$ を用いて $m^*$ を学ぶ。 ここで、$X \in \mathbb{R}^{n \times k}$ with $k > r$ は因子行列である。 オーバーパラメータ化されたケース(k >r$)に対して、新しい$\Omega (1/T^2)$ ランダムに初期化された GD の下限を与える。 これは、収束率が$\exp (-\Omega (T))$である正確なパラメータ化シナリオ(k=r$)とは対照的である。 次に、$m^* \in \mathbb{r}^{n_1 \times n_2}$ をランク $r \ll \min\{n_1,n_2\}$ の未知行列とし、非対称パラメータ化 $fg^\top$ を用いて $m^*$ を学習し、$f \in \mathbb{r}^{n_1 \times k}$ と $g \in \mathbb{r}^{n_2 \times k}$ を学習する非対称な設定について検討する。 先行研究に基づいて、$\exp (-\Omega(T))$ rateの正確なパラメータ化の場合(k=r$)に対してランダムに初期化されたGDのグローバルな正確な収束結果を与える。 さらに、オーバーパラメータ化の場合(k>r$)に対して、$\exp(-\Omega(\alpha^2T))$レートで最初の大域的正確な収束結果を与える。 この線形収束は、非対称なパラメータ化を対称性の設定に適用し、$\Omega (1/T^2)$から線形収束に高速化することができるため、特に重要である。 一方,gdの一段階のみを修正し,$\alpha$に依存しない収束率を求め,正確なパラメータ化の場合の収束率を回復する新しい手法を提案する。

This paper rigorously shows how over-parameterization changes the convergence behaviors of gradient descent (GD) for the matrix sensing problem, where the goal is to recover an unknown low-rank ground-truth matrix from near-isotropic linear measurements. First, we consider the symmetric setting with the symmetric parameterization where $M^* \in \mathbb{R}^{n \times n}$ is a positive semi-definite unknown matrix of rank $r \ll n$, and one uses a symmetric parameterization $XX^\top$ to learn $M^*$. Here $X \in \mathbb{R}^{n \times k}$ with $k > r$ is the factor matrix. We give a novel $\Omega (1/T^2)$ lower bound of randomly initialized GD for the over-parameterized case ($k >r$) where $T$ is the number of iterations. This is in stark contrast to the exact-parameterization scenario ($k=r$) where the convergence rate is $\exp (-\Omega (T))$. Next, we study asymmetric setting where $M^* \in \mathbb{R}^{n_1 \times n_2}$ is the unknown matrix of rank $r \ll \min\{n_1,n_2\}$, and one uses an asymmetric parameterization $FG^\top$ to learn $M^*$ where $F \in \mathbb{R}^{n_1 \times k}$ and $G \in \mathbb{R}^{n_2 \times k}$. Building on prior work, we give a global exact convergence result of randomly initialized GD for the exact-parameterization case ($k=r$) with an $\exp (-\Omega(T))$ rate. Furthermore, we give the first global exact convergence result for the over-parameterization case ($k>r$) with an $\exp(-\Omega(\alpha^2 T))$ rate where $\alpha$ is the initialization scale. This linear convergence result in the over-parameterization case is especially significant because one can apply the asymmetric parameterization to the symmetric setting to speed up from $\Omega (1/T^2)$ to linear convergence. On the other hand, we propose a novel method that only modifies one step of GD and obtains a convergence rate independent of $\alpha$, recovering the rate in the exact-parameterization case.
翻訳日:2023-10-04 17:46:33 公開日:2023-10-03
# backdiff: 一般化された転写性タンパク質バックマップのための拡散モデル

Backdiff: a diffusion model for generalized transferable protein backmapping ( http://arxiv.org/abs/2310.01768v1 )

ライセンス: Link先を確認
Yikai Liu, Ming Chen, Guang Lin(参考訳) 粗粒モデル(CG)は、タンパク質構造、タンパク質の熱力学特性、タンパク質配座ダイナミクスの研究において重要な役割を果たす。 粗粒化過程における情報損失のため、詳細な原子表現が必要な場合、CGから全原子構成へのバックマッピングは多くのタンパク質設計や創薬への応用において不可欠である。 データ駆動型バックマッピング手法の最近の進歩にもかかわらず、様々なCGモデルやタンパク質に普遍的に適用可能なバックマッピング法の開発は未解決のままである。 本研究では,タンパク質のバックマッピング問題における一般化と信頼性を実現するための新しい生成モデルであるBackDiffを提案する。 バックディフは幾何表現を持つ条件付きスコアベースの拡散モデルを利用する。 異なるCGモデルは、選択された原子(CG原子)と単純なCG補助関数(CG補助変数)を含む粗粒の異なる部位を含むことができるので、異なるCG原子に適応するための自己教師付きトレーニングフレームワークを設計し、任意のCG補助変数で拡散サンプリング経路を制約する。 本手法は,エンド・ツー・エンドのトレーニングを容易にするとともに,リトレーニングを必要とせず,異なるタンパク質および多様なCGモデルを効率的にサンプリングすることができる。 複数の一般的なCGモデルに対する総合的な実験は、バックディフが既存の最先端アプローチよりも優れた性能を示し、これらのアプローチが達成できない一般化と柔軟性を示している。 事前訓練されたBackDiffモデルは、タンパク質研究者にとって便利な、信頼性の高いプラグイン・アンド・プレイソリューションを提供する。

Coarse-grained (CG) models play a crucial role in the study of protein structures, protein thermodynamic properties, and protein conformation dynamics. Due to the information loss in the coarse-graining process, backmapping from CG to all-atom configurations is essential in many protein design and drug discovery applications when detailed atomic representations are needed for in-depth studies. Despite recent progress in data-driven backmapping approaches, devising a backmapping method that can be universally applied across various CG models and proteins remains unresolved. In this work, we propose BackDiff, a new generative model designed to achieve generalization and reliability in the protein backmapping problem. BackDiff leverages the conditional score-based diffusion model with geometric representations. Since different CG models can contain different coarse-grained sites which include selected atoms (CG atoms) and simple CG auxiliary functions of atomistic coordinates (CG auxiliary variables), we design a self-supervised training framework to adapt to different CG atoms, and constrain the diffusion sampling paths with arbitrary CG auxiliary variables as conditions. Our method facilitates end-to-end training and allows efficient sampling across different proteins and diverse CG models without the need for retraining. Comprehensive experiments over multiple popular CG models demonstrate BackDiff's superior performance to existing state-of-the-art approaches, and generalization and flexibility that these approaches cannot achieve. A pretrained BackDiff model can offer a convenient yet reliable plug-and-play solution for protein researchers, enabling them to investigate further from their own CG models.
翻訳日:2023-10-04 17:45:17 公開日:2023-10-03
# 知覚強化学習のための微分符号化観測空間

Differentially Encoded Observation Spaces for Perceptive Reinforcement Learning ( http://arxiv.org/abs/2310.01767v1 )

ライセンス: Link先を確認
Lev Grossman and Brian Plancher(参考訳) 知覚的深層学習(DRL)は、画像ベースの入力データを活用する複雑なAIシステムにおいて、近年多くのブレークスルーをもたらしている。 これらの結果の応用は、超人間レベルのビデオゲームエージェントから、巧妙で物理的に知的なロボットまで様々である。 しかしながら、これらの知覚的なDRL対応システムのトレーニングは、信じられないほど計算とメモリ集約であり、多くの場合、巨大なトレーニングデータセットと大きなエクスペリエンスの再生バッファを必要とする。 これは、環境に適応するためにエッジで学習する必要がある次世代フィールドロボットにとって、課題となる。 本稿では,差分符号化された観測空間を通してこの問題に対処し始める。 記憶された画像に基づく観察をビデオとして再解釈することにより、損失のない差分符号化方式を利用して、トレーニング性能に影響を与えることなくリプレイバッファを圧縮する。 我々は3つの最先端drlアルゴリズムを用いてこのアプローチを評価し、差分画像エンコーディングにより、atari 2600ベンチマークとdmc(deepmind control suite)のタスク間で、メモリフットプリントを最大14.2倍と16.7倍削減できることを見出した。 これらの節約により、フラッシュとRAM間のページングをRAMで完全に実行する必要のある大規模な知覚型DRLも実現され、DMCタスクのレイテンシを最大32%向上する。

Perceptive deep reinforcement learning (DRL) has lead to many recent breakthroughs for complex AI systems leveraging image-based input data. Applications of these results range from super-human level video game agents to dexterous, physically intelligent robots. However, training these perceptive DRL-enabled systems remains incredibly compute and memory intensive, often requiring huge training datasets and large experience replay buffers. This poses a challenge for the next generation of field robots that will need to be able to learn on the edge in order to adapt to their environments. In this paper, we begin to address this issue through differentially encoded observation spaces. By reinterpreting stored image-based observations as a video, we leverage lossless differential video encoding schemes to compress the replay buffer without impacting training performance. We evaluate our approach with three state-of-the-art DRL algorithms and find that differential image encoding reduces the memory footprint by as much as 14.2x and 16.7x across tasks from the Atari 2600 benchmark and the DeepMind Control Suite (DMC) respectively. These savings also enable large-scale perceptive DRL that previously required paging between flash and RAM to be run entirely in RAM, improving the latency of DMC tasks by as much as 32%.
翻訳日:2023-10-04 17:44:49 公開日:2023-10-03
# 人間中心型AIに向けた対物アライメント損失の探索

Exploring Counterfactual Alignment Loss towards Human-centered AI ( http://arxiv.org/abs/2310.01766v1 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Ching-Wen Lee, Yu Qiao, Yizhou Wang(参考訳) 深層ニューラルネットワークは教師付き学習タスクにおいて驚くべき精度を示している。 しかしながら、透明性の欠如は、特に医療のような安全な犯罪領域において、人間が結果を信頼することを難しくする。 この問題に対処するために、近年の説明誘導学習手法は、人間の専門家が注釈付けした画像領域に勾配に基づく注意マップを合わせることによって、本質的な人間中心モデルを得る。 しかし、これらの手法に基づく注意マップは、モデル予測を因果的属性付けに失敗し、アライメントの妥当性を損なう可能性がある。 この問題に対処するために,対策生成に基づく新しい人間中心型フレームワークを提案する。 特に, 因果属性に対する反事実生成の能力を利用して, CF-Align(CounterFactual Alignment)損失という新たな損失を導入する。 この損失は、分類器の反ファクト生成による特徴が人間のアノテーションと一致していることを保証する。 暗黙的関数形式を持つ反事実生成を伴う提案損失を最適化するために,暗黙的関数定理をバックプロパゲーションに活用する。 本手法はアーキテクチャに依存せず,任意のニューラルネットワークに適用可能である。 肺癌診断データセットにおける本手法の有効性を実証し,ヒトに対する忠実な対応を示す。

Deep neural networks have demonstrated impressive accuracy in supervised learning tasks. However, their lack of transparency makes it hard for humans to trust their results, especially in safe-critic domains such as healthcare. To address this issue, recent explanation-guided learning approaches proposed to align the gradient-based attention map to image regions annotated by human experts, thereby obtaining an intrinsically human-centered model. However, the attention map these methods are based on may fail to causally attribute the model predictions, thus compromising their validity for alignment. To address this issue, we propose a novel human-centered framework based on counterfactual generation. In particular, we utilize the counterfactual generation's ability for causal attribution to introduce a novel loss called the CounterFactual Alignment (CF-Align) loss. This loss guarantees that the features attributed by the counterfactual generation for the classifier align with the human annotations. To optimize the proposed loss that entails a counterfactual generation with an implicit function form, we leverage the implicit function theorem for backpropagation. Our method is architecture-agnostic and, therefore can be applied to any neural network. We demonstrate the effectiveness of our method on a lung cancer diagnosis dataset, showcasing faithful alignment to humans.
翻訳日:2023-10-04 17:44:26 公開日:2023-10-03
# vhf帯リドバーグ原子センシングにおける高角運動量結合

High angular momentum coupling for enhanced Rydberg-atom sensing in the VHF band ( http://arxiv.org/abs/2310.01810v1 )

ライセンス: Link先を確認
Nikunjkumar Prajapati, Jakob W. Kunzler, Alexandra B. Artusio-Glimpse, Andrew Rotunno, Samuel Berweger, Matthew T. Simons, Christopher L. Holloway, Chad M. Gardner, Michael S. Mcbeth, and Robert A. Younts(参考訳) Rydberg atom Electrometryの最近の進歩は、無線周波数(RF)通信への応用を約束している。 現在、ほとんどのアプリケーションは1~ghz以上のキャリア周波数を使用し、共振オートラータウン分割が最も感度が高い。 この手紙は、非常に高周波(vhf)帯の海上航行で使用される自動識別システム(ais)から波形を収集および処理するための、rydberg原子センサーによる一連の実験を文書化する。 従来のAutler-TownesによるRydberg検出では検出が困難であり,新しいアプローチが必要である。 本稿では,HMMER(High Angular Momentum Matching Excited Raman)と呼ばれる新しい手法を用いて,低周波検出を向上し,従来のAC Stark効果よりも優れた感度を示す。 ルビジウムおよびセシウム気相セルにおける電磁誘導透過(EIT)の測定から、入射電界強度と観測信号-雑音比の関係を示し、ルビジウムにおけるHAMMER方式の感度が$\mathrm{100~\mu V/m/\sqrt{Hz}}$と等価な単一VHFトーン感度を達成したことを発見した。 これらの結果から、現在の技術および検出技術により、AIS波形に対する原子蒸気セルアンテナの使用範囲を推定する。

Recent advances in Rydberg atom electrometry detail promising applications in radio frequency (RF) communications. Presently, most applications use carrier frequencies greater than 1~GHz where resonant Autler-Townes splitting provides the highest sensitivity. This letter documents a series of experiments with Rydberg atomic sensors to collect and process waveforms from the automated identification system (AIS) used in maritime navigation in the Very High Frequency (VHF) band. Detection in this band is difficult with conventional resonant Autler-Townes based Rydberg sensing and requires a new approach. We show the results from a new method called High Angular Momentum Matching Excited Raman (HAMMER), which enhances low frequency detection and exhibits superior sensitivity compared to the traditional AC Stark effect. From measurements of electromagnetically induced transparency (EIT) in rubidium and cesium vapor cells, we show the relationship between incident electric field strength and observed signal-to-noise ratio and find that the sensitivity of the HAMMER scheme in rubidium achieved an equivalent single VHF tone sensitivity of $\mathrm{100~\mu V/m/\sqrt{Hz}}$. With these results, we estimate the usable range of the atomic vapor cell antenna for AIS waveforms given current technology and detection techniques.
翻訳日:2023-10-04 17:35:33 公開日:2023-10-03
# 一般化kullback-leiblerダイバージェンスを用いたシミュレーションベース推論

Simulation-based Inference with the Generalized Kullback-Leibler Divergence ( http://arxiv.org/abs/2310.01808v1 )

ライセンス: Link先を確認
Benjamin Kurt Miller, Marco Federici, Christoph Weniger, Patrick Forr\'e(参考訳) シミュレーションベースの推論では、確率が暗黙的にのみ知られている場合の逆問題を解決することが目的である。 神経後部推定は、一般的に後部の代理モデルとして正規化密度推定器に適合する。 この定式化は、Kulback-Leiblerの発散を最適化するため、非正規化サロゲートに容易に適合できない。 非正規化分布の正規化定数を考慮した一般化kullback-leiblerダイバージェンスを最適化する。 この目的は、モデルクラスが正規化されると神経後部推定を回復し、ニューラル比推定と統合し、両者を一つの目的に組み合わせる。 本研究では,正規化ベース分布と学習比率を学習することにより,両世界のベストを提供するハイブリッドモデルについて検討する。 ベンチマーク結果も提示する。

In Simulation-based Inference, the goal is to solve the inverse problem when the likelihood is only known implicitly. Neural Posterior Estimation commonly fits a normalized density estimator as a surrogate model for the posterior. This formulation cannot easily fit unnormalized surrogates because it optimizes the Kullback-Leibler divergence. We propose to optimize a generalized Kullback-Leibler divergence that accounts for the normalization constant in unnormalized distributions. The objective recovers Neural Posterior Estimation when the model class is normalized and unifies it with Neural Ratio Estimation, combining both into a single objective. We investigate a hybrid model that offers the best of both worlds by learning a normalized base distribution and a learned ratio. We also present benchmark results.
翻訳日:2023-10-04 17:35:04 公開日:2023-10-03
# アトラクタダイナミクスによる離散的、構成的、象徴的表現

Discrete, compositional, and symbolic representations through attractor dynamics ( http://arxiv.org/abs/2310.01807v1 )

ライセンス: Link先を確認
Andrew Nam, Eric Elmoznino, Nikolay Malkin, Chen Sun, Yoshua Bengio, Guillaume Lajoie(参考訳) 構成性は言語やプログラムのような離散的な記号体系の重要な特徴であり、有限の記号集合にもかかわらず無限の容量を持つことができる。 認知科学とaiの両方において推論の有用な抽象化として機能するが、連続処理とシンボリック処理のインターフェイスは、量子化やソフトマックスサンプリングステップといったアルゴリズムレベルでフィアットによってしばしば課される。 本研究では,連続表現空間を記号列に対応する盆地に分割するアトラクタダイナミクスのモデル化を通じて,離散化をより神経的に妥当な方法で実装する方法について検討する。 本研究は,アトラクタネットワークにおける確立した作業と,新たなトレーニング手法の導入を基礎として,記号空間における構造構成が,リッチな感覚入力のアトラクタ支援表現空間において構成性を生み出すことができることを示す。 最後に,感覚入力のリッチな情報をシンボル情報を符号化する安定なコンポーネントに分解することで,意識的な経験において重要な役割を果たしていると考えられる情報ボトルネックの過程を考察する。

Compositionality is an important feature of discrete symbolic systems, such as language and programs, as it enables them to have infinite capacity despite a finite symbol set. It serves as a useful abstraction for reasoning in both cognitive science and in AI, yet the interface between continuous and symbolic processing is often imposed by fiat at the algorithmic level, such as by means of quantization or a softmax sampling step. In this work, we explore how discretization could be implemented in a more neurally plausible manner through the modeling of attractor dynamics that partition the continuous representation space into basins that correspond to sequences of symbols. Building on established work in attractor networks and introducing novel training methods, we show that imposing structure in the symbolic space can produce compositionality in the attractor-supported representation space of rich sensory inputs. Lastly, we argue that our model exhibits the process of an information bottleneck that is thought to play a role in conscious experience, decomposing the rich information of a sensory input into stable components encoding symbolic information.
翻訳日:2023-10-04 17:34:52 公開日:2023-10-03
# マルチモジュール最適化に基づくYOLOv5小型目標認識の改良と向上

Improvement and Enhancement of YOLOv5 Small Target Recognition Based on Multi-module Optimization ( http://arxiv.org/abs/2310.01806v1 )

ライセンス: Link先を確認
Qingyang Li and Yuchen Li and Hongyi Duan and JiaLiang Kang and Jianan Zhang and Xueqian Gan and Ruotong Xu(参考訳) 本稿では,小型目標検出タスクにおけるYOLOv5sモデルの限界を深く研究・改善する。 モデルの性能は、GhostNetベースの畳み込みモジュール、RepGFPNベースのネックモジュール最適化、CAとTransformerのアテンション機構、NWDによる損失関数の改善によって向上した。 実験により, これらの改善策がモデル精度, リコール, mAPに与える影響を検証した。 特に、改善されたモデルは、現実世界のアプリケーションテストにおいて、複雑なバックグラウンドと小さなターゲットを扱う上で、大きな優位性を示している。 本研究は,小型目標検出におけるYOLOv5sモデルの効果的な最適化戦略を提供し,今後の研究・応用の基盤となる。

In this paper, the limitations of YOLOv5s model on small target detection task are deeply studied and improved. The performance of the model is successfully enhanced by introducing GhostNet-based convolutional module, RepGFPN-based Neck module optimization, CA and Transformer's attention mechanism, and loss function improvement using NWD. The experimental results validate the positive impact of these improvement strategies on model precision, recall and mAP. In particular, the improved model shows significant superiority in dealing with complex backgrounds and tiny targets in real-world application tests. This study provides an effective optimization strategy for the YOLOv5s model on small target detection, and lays a solid foundation for future related research and applications.
翻訳日:2023-10-04 17:34:33 公開日:2023-10-03
# マルチ最適化アルゴリズム融合におけるマイクログリッド最適スケジューリングの比較研究

Comparative study of microgrid optimal scheduling under multi-optimization algorithm fusion ( http://arxiv.org/abs/2310.01805v1 )

ライセンス: Link先を確認
Hongyi Duan and Qingyang Li and Yuchen Li and Jianan Zhang and Yuming Xie(参考訳) 再生可能エネルギーとクリーンエネルギーの国際的関心が高まるにつれて、マイクログリッドの研究と実装が最重要である。 本稿では,マルチ目的最適化モデルによるマイクログリッドの運用コストと環境コストの関係について考察する。 遺伝的アルゴリズム, シミュレーションアニーリング, アントコロニー最適化, 粒子群最適化などの最適化アルゴリズムを統合することにより, マイクログリッド最適化のための統合アプローチを提案する。 シミュレーションの結果, これらのアルゴリズムは, ディーゼル発電機とマイクロガスタービンのマイクログリッドにおける役割を明らかにし, 経済的・環境的に異なるディスパッチ結果を提供することがわかった。 本研究は,マイクログリッドの設計と運用に関する詳細な知見と実践的ガイダンスを提供する。

As global attention on renewable and clean energy grows, the research and implementation of microgrids become paramount. This paper delves into the methodology of exploring the relationship between the operational and environmental costs of microgrids through multi-objective optimization models. By integrating various optimization algorithms like Genetic Algorithm, Simulated Annealing, Ant Colony Optimization, and Particle Swarm Optimization, we propose an integrated approach for microgrid optimization. Simulation results depict that these algorithms provide different dispatch results under economic and environmental dispatch, revealing distinct roles of diesel generators and micro gas turbines in microgrids. Overall, this study offers in-depth insights and practical guidance for microgrid design and operation.
翻訳日:2023-10-04 17:34:20 公開日:2023-10-03
# 量子ネットワークのためのタイムビン量子ビットに基づく高速多重絡み合い源

High-rate multiplexed entanglement source based on time-bin qubits for advanced quantum networks ( http://arxiv.org/abs/2310.01804v1 )

ライセンス: Link先を確認
Andrew Mueller, Samantha Davis, Boris Korzh, Raju Valivarthi, Andrew D. Beyer, Rahaf Youssef, Neil Sinclair, Matthew D. Shaw, and Maria Spiropulu(参考訳) 時間ビン量子ビットに基づくエンタングルメント分布は、新興量子ネットワークにとって魅力的な選択肢である。 我々は、80psで分離した初期および後期のビンに絡み合った光子対の4.09ghz繰り返し速度源を示す。 自発的パラメトリックダウン変換出力を8つのタイムビンエンタングルペアに多重化することにより、同時に高いレートと高いビジビリティを実現する。 エンタングルメントのビジビリティは99.4%、エンタングルメントレートは3.55e6一致/sまでであり、視認性を損なうことなく最大1桁の速度改善を達成するための直接的な道筋を予測している。 最後に、各多重チャンネルの絡み合い状態の密度行列を解き、ebit/sで蒸留可能な絡み合い率を表現し、有用な絡み合い分布に寄与する可視性と一致率のトレードオフを定量化する。 このソースは、高速エンタングルメントベースの量子鍵分布システムや高度な量子ネットワークのための基本的なビルディングブロックである。

Entanglement distribution based on time-bin qubits is an attractive option for emerging quantum networks. We demonstrate a 4.09 GHz repetition rate source of photon pairs entangled across early and late time bins separated by 80 ps. Simultaneous high rates and high visibilities are achieved through frequency multiplexing the spontaneous parametric down conversion output into 8 time-bin entangled pairs. We demonstrate entanglement visibilities as high as 99.4%, total entanglement rates up to 3.55e6 coincidences/s, and predict a straightforward path towards achieving up to an order of magnitude improvement in rates without compromising visibility. Finally, we resolve the density matrices of the entangled states for each multiplexed channel and express distillable entanglement rates in ebit/s, thereby quantifying the tradeoff between visibility and coincidence rates that contributes to useful entanglement distribution. This source is a fundamental building block for high-rate entanglement-based quantum key distribution systems or advanced quantum networks.
翻訳日:2023-10-04 17:34:08 公開日:2023-10-03
# モデルが捨てるべきものを教えてくれる: llmsの適応kvキャッシュ圧縮

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs ( http://arxiv.org/abs/2310.01801v1 )

ライセンス: Link先を確認
Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao(参考訳) 本研究では,大規模言語モデル(llm)における生成推論のメモリフットプリントを削減するプラグアンドプレイ方式であるadaptive kv cache compressionを提案する。 全てのコンテキストトークンに対してキーベクトルと値ベクトルを保持する従来のKVキャッシュとは異なり、注意モジュールの固有の構造を識別するためにターゲットプロファイリングを行う。 認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュを使用する。 さらに、適応的なKVキャッシュの構築を導くために軽量なアテンションプロファイリングを使用すると、FastGenはリソース集約的な微調整や再トレーニングなしでデプロイできる。 様々な質問に対して行った実験では、FastGenは生成品質の低下を無視してGPUメモリ消費を大幅に削減することを示した。 再現性のために、コードと互換性のあるCUDAカーネルをリリースします。

In this study, we introduce adaptive KV cache compression, a plug-and-play method that reduces the memory footprint of generative inference for Large Language Models (LLMs). Different from the conventional KV cache that retains key and value vectors for all context tokens, we conduct targeted profiling to discern the intrinsic structure of attention modules. Based on the recognized structure, we then construct the KV cache in an adaptive manner: evicting long-range contexts on attention heads emphasizing local contexts, discarding non-special tokens on attention heads centered on special tokens, and only employing the standard KV cache for attention heads that broadly attend to all tokens. Moreover, with the lightweight attention profiling used to guide the construction of the adaptive KV cache, FastGen can be deployed without resource-intensive fine-tuning or re-training. In our experiments across various asks, FastGen demonstrates substantial reduction on GPU memory consumption with negligible generation quality loss. We will release our code and the compatible CUDA kernel for reproducibility.
翻訳日:2023-10-04 17:33:50 公開日:2023-10-03
# 拡散モデルを用いたSUREに基づくロバストMRI再構成

SMRD: SURE-based Robust MRI Reconstruction with Diffusion Models ( http://arxiv.org/abs/2310.01799v1 )

ライセンス: Link先を確認
Batu Ozturkler, Chao Liu, Benjamin Eckart, Morteza Mardani, Jiaming Song, Jan Kautz(参考訳) 拡散モデルは最近, 高い試料品質のため, MRI再構成の高速化で人気を博している。 これらは、推論時に柔軟にフォワードモデルを組み込む一方で、リッチなデータプリエントとして効果的に機能することができ、分散シフト下では未ロールのメソッドよりも堅牢であることが示されている。 しかし、拡散モデルは検証セット上の推論ハイパーパラメータの注意深いチューニングを必要とし、テスト中も分布シフトに敏感である。 これらの課題に対処するために,テスト時ハイパーパラメータチューニングを行い,テスト時の堅牢性を高める手法であるDiffusion Model (SMRD) を用いたSUREベースのMRI再構成を提案する。 SMRDは、Stein's Unbiased Risk Estimator (SURE) を用いて、テスト中の再構築の平均2乗誤差を推定する。 次に、SUREを使用して推論ハイパーパラメータを自動的にチューニングし、検証チューニングを必要とせずに早期停止基準を設定する。 我々の知る限り、SMRDはSUREを自動ハイパーパラメータ選択のための拡散モデルのサンプリング段階に組み込んだ最初のものである。 SMRDは、様々な測定ノイズレベル、加速度因子、解剖に基づく拡散モデルベースラインを上回り、測定ノイズ下で最大6dBのPSNR改善を達成する。 コードはhttps://github.com/batuozt/SMRDで公開されている。

Diffusion models have recently gained popularity for accelerated MRI reconstruction due to their high sample quality. They can effectively serve as rich data priors while incorporating the forward model flexibly at inference time, and they have been shown to be more robust than unrolled methods under distribution shifts. However, diffusion models require careful tuning of inference hyperparameters on a validation set and are still sensitive to distribution shifts during testing. To address these challenges, we introduce SURE-based MRI Reconstruction with Diffusion models (SMRD), a method that performs test-time hyperparameter tuning to enhance robustness during testing. SMRD uses Stein's Unbiased Risk Estimator (SURE) to estimate the mean squared error of the reconstruction during testing. SURE is then used to automatically tune the inference hyperparameters and to set an early stopping criterion without the need for validation tuning. To the best of our knowledge, SMRD is the first to incorporate SURE into the sampling stage of diffusion models for automatic hyperparameter selection. SMRD outperforms diffusion model baselines on various measurement noise levels, acceleration factors, and anatomies, achieving a PSNR improvement of up to 6 dB under measurement noise. The code is publicly available at https://github.com/batuozt/SMRD .
翻訳日:2023-10-04 17:33:30 公開日:2023-10-03
# 大規模言語モデルでは自己修正はできない

Large Language Models Cannot Self-Correct Reasoning Yet ( http://arxiv.org/abs/2310.01798v1 )

ライセンス: Link先を確認
Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, Denny Zhou(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにまたがる非並列テキスト生成機能を備えた画期的な技術として登場した。 それでも、生成されたコンテンツの正確性と適切性に関する懸念は続いている。 現代の方法論である自己補正がこれらの問題に対する対策として提案されている。 この前提に基づいて,本論文はLLMにおける自己補正の役割と効果を批判的に検討し,その真の可能性と限界について光を当てる。 我々の研究の中心は、内在的自己補正の概念であり、LLMは、外部からのフィードバックの欠如なしに、その固有の能力のみに基づいて初期応答を補正しようとする。 推論の文脈では、LLMは外部からのフィードバックなしに自己修正に苦慮し、時には自己修正後のパフォーマンスが低下する可能性も示唆している。 これらの知見から,本分野での今後の研究と実践的応用について提案する。

Large Language Models (LLMs) have emerged as a groundbreaking technology with their unparalleled text generation capabilities across various applications. Nevertheless, concerns persist regarding the accuracy and appropriateness of their generated content. A contemporary methodology, self-correction, has been proposed as a remedy to these issues. Building upon this premise, this paper critically examines the role and efficacy of self-correction within LLMs, shedding light on its true potential and limitations. Central to our investigation is the notion of intrinsic self-correction, whereby an LLM attempts to correct its initial responses based solely on its inherent capabilities, without the crutch of external feedback. In the context of reasoning, our research indicates that LLMs struggle to self-correct their responses without external feedback, and at times, their performance might even degrade post self-correction. Drawing from these insights, we offer suggestions for future research and practical applications in this field.
翻訳日:2023-10-04 17:33:08 公開日:2023-10-03
# GNNX-BENCH: 詳細なベンチマークを通じて、摂動に基づくGNN Explainerの有用性を強調

GNNX-BENCH: Unravelling the Utility of Perturbation-based GNN Explainers through In-depth Benchmarking ( http://arxiv.org/abs/2310.01794v1 )

ライセンス: Link先を確認
Mert Kosan, Samidha Verma, Burouj Armgaan, Khushbu Pahwa, Ambuj Singh, Sourav Medya, Sayan Ranu(参考訳) GNNの内部動作に光を放つための多くの説明可能性法が提案されている。 提案アルゴリズムに経験的評価を含むにもかかわらず、これらの評価の疑似側面は多様性を欠いている。 その結果, 反事実推論者の比較分析, 異なるgnnアーキテクチャ, ノイズ, 非凸損失面の確率性, 領域制約下での実現可能性など, 変動要因に対する安定性など, gnnに関する説明可能性に関する様々な側面が, 公式には検討されていない。 そこで我々は, GNNの摂動に基づく説明可能性手法のベンチマーク研究を行い, 幅広い説明可能性手法を体系的に評価し, 比較することを目的とした。 本研究の要点として,ノイズの存在下での優れた有効性と安定性を示すパレート最適手法を同定した。 しかしながら,本研究では,すべてのアルゴリズムがノイズの多いデータに直面すると,安定性の問題によって影響を受けることを明らかにした。 さらに, ドメイン特有な考察によって符号化された位相的制約の違反により, 現行の反事実的説明器では実現不可能な場合がしばしばあることを示した。 総合的に、このベンチマーク研究は、GNNの分野におけるステークホルダーに、最先端の説明可能性方法、さらなる拡張のための潜在的研究問題、そして実世界のシナリオにおける彼らの応用の意味を包括的に理解させる。

Numerous explainability methods have been proposed to shed light on the inner workings of GNNs. Despite the inclusion of empirical evaluations in all the proposed algorithms, the interrogative aspects of these evaluations lack diversity. As a result, various facets of explainability pertaining to GNNs, such as a comparative analysis of counterfactual reasoners, their stability to variational factors such as different GNN architectures, noise, stochasticity in non-convex loss surfaces, feasibility amidst domain constraints, and so forth, have yet to be formally investigated. Motivated by this need, we present a benchmarking study on perturbation-based explainability methods for GNNs, aiming to systematically evaluate and compare a wide range of explainability techniques. Among the key findings of our study, we identify the Pareto-optimal methods that exhibit superior efficacy and stability in the presence of noise. Nonetheless, our study reveals that all algorithms are affected by stability issues when faced with noisy data. Furthermore, we have established that the current generation of counterfactual explainers often fails to provide feasible recourses due to violations of topological constraints encoded by domain-specific considerations. Overall, this benchmarking study empowers stakeholders in the field of GNNs with a comprehensive understanding of the state-of-the-art explainability methods, potential research problems for further enhancement, and the implications of their application in real-world scenarios.
翻訳日:2023-10-04 17:32:53 公開日:2023-10-03
# xai評価手法としてのトレーサブルノイズモデル:リモートセンシング画像セグメンテーションにおけるsobolの適用

Trainable Noise Model as an XAI evaluation method: application on Sobol for remote sensing image segmentation ( http://arxiv.org/abs/2310.01828v1 )

ライセンス: Link先を確認
Hossein Shreim, Abdul Karim Gizzini and Ali J. Ghandour(参考訳) eXplainable Artificial Intelligence(XAI)は、ミッションクリティカルなアプリケーションを扱う上で必須の要件として現れ、採用されているブラックボックスAIモデルの透明性と解釈性を保証する。 XAIの重要性は、医療から金融まで様々な分野に及び、ディープラーニングアルゴリズムの意思決定プロセスを理解することが不可欠である。 ほとんどのAIベースのコンピュータビジョンモデルはブラックボックスであることが多いため、画像処理におけるディープニューラルネットワークの説明可能性を提供することは、医療画像分析、自律運転、リモートセンシングアプリケーションにおいて広く採用および展開するために重要である。 近年,画像分類タスクのためのXAI手法がいくつか紹介されている。 対照的に、画像分割は説明可能性の文脈では比較的注目されていないが、コンピュータビジョンアプリケーション、特にリモートセンシングでは基本的なタスクである。 画像セグメンテーションのための勾配に基づくXAIアルゴリズムを提案する研究はほとんどない。 本稿では,最近のソボルXAI法をセマンティックセグメンテーションに適用する。 セグメンテーションのためのSobol法の性能を測定するために,学習可能な雑音モデルに基づく定量的XAI評価法を提案する。 このモデルの主な目的は、高次誘導雑音が低精度かつその逆を意味する説明地図上でノイズを誘導することである。 提案手法を用いて,Seg-Grad-CAM,Seg-Grad-CAM++,Seg-Sobolの3つのXAI手法の性能評価と評価を行う。 これは、高解像度衛星画像を用いてXAI法を実行・評価する最初の試みである。

eXplainable Artificial Intelligence (XAI) has emerged as an essential requirement when dealing with mission-critical applications, ensuring transparency and interpretability of the employed black box AI models. The significance of XAI spans various domains, from healthcare to finance, where understanding the decision-making process of deep learning algorithms is essential. Most AI-based computer vision models are often black boxes; hence, providing explainability of deep neural networks in image processing is crucial for their wide adoption and deployment in medical image analysis, autonomous driving, and remote sensing applications. Recently, several XAI methods for image classification tasks have been introduced. On the contrary, image segmentation has received comparatively less attention in the context of explainability, although it is a fundamental task in computer vision applications, especially in remote sensing. Only some research proposes gradient-based XAI algorithms for image segmentation. This paper adapts the recent gradient-free Sobol XAI method for semantic segmentation. To measure the performance of the Sobol method for segmentation, we propose a quantitative XAI evaluation method based on a learnable noise model. The main objective of this model is to induce noise on the explanation maps, where higher induced noise signifies low accuracy and vice versa. A benchmark analysis is conducted to evaluate and compare performance of three XAI methods, including Seg-Grad-CAM, Seg-Grad-CAM++ and Seg-Sobol using the proposed noise-based evaluation technique. This constitutes the first attempt to run and evaluate XAI methods using high-resolution satellite images.
翻訳日:2023-10-04 17:27:29 公開日:2023-10-03
# 初歩的行動の学習と再利用による隠れ体験の再現

Learning and reusing primitive behaviours to improve Hindsight Experience Replay sample efficiency ( http://arxiv.org/abs/2310.01827v1 )

ライセンス: Link先を確認
Francisco Roldan Sanchez, Qiang Wang, David Cordova Bulens, Kevin McGuinness, Stephen Redmond, Noel O'Connor(参考訳) hindsight experience replay (her) は強化学習 (rl) で用いられるテクニックであり、スパース報酬を用いて目標ベースのロボット操作タスクを解決するために、オフポリシーrlベースのエージェントをトレーニングするのに非常に効率的であることが証明されている。 HERは、過去の経験の誤りから学習することで、RLベースのエージェントのサンプル効率を改善するが、環境を探索する際のガイダンスは提供しない。 これは、このリプレイ戦略を使ってエージェントを訓練するのに必要な経験量のために、非常に大きなトレーニング時間をもたらす。 本稿では,より複雑なタスクを学習しながら,エージェントを探索中により報奨的行動に導くために,単純なタスクの解法として学習された原始的な振る舞いを用いた手法を提案する。 しかし、この指導は手動で設計したカリキュラムによっては実行されず、批判者ネットワークを使用して、前述したプリミティブポリシーによって提案されたアクションを使用するかどうかを各時間ステップで決定する。 本手法は,複数のブロック操作タスクにおいて,その性能とアルゴリズムのより効率的なバリエーションを比較して評価する。 提案手法では, サンプル効率と計算時間の両方から, エージェントがより早く方針を学習できることを実証する。 コードはhttps://github.com/franroldans/qmp-herで入手できる。

Hindsight Experience Replay (HER) is a technique used in reinforcement learning (RL) that has proven to be very efficient for training off-policy RL-based agents to solve goal-based robotic manipulation tasks using sparse rewards. Even though HER improves the sample efficiency of RL-based agents by learning from mistakes made in past experiences, it does not provide any guidance while exploring the environment. This leads to very large training times due to the volume of experience required to train an agent using this replay strategy. In this paper, we propose a method that uses primitive behaviours that have been previously learned to solve simple tasks in order to guide the agent toward more rewarding actions during exploration while learning other more complex tasks. This guidance, however, is not executed by a manually designed curriculum, but rather using a critic network to decide at each timestep whether or not to use the actions proposed by the previously-learned primitive policies. We evaluate our method by comparing its performance against HER and other more efficient variations of this algorithm in several block manipulation tasks. We demonstrate the agents can learn a successful policy faster when using our proposed method, both in terms of sample efficiency and computation time. Code is available at https://github.com/franroldans/qmp-her.
翻訳日:2023-10-04 17:27:04 公開日:2023-10-03
# 冬期小麦セグメンテーションのためのPEFT技術に関する実証的研究

Empirical Study of PEFT techniques for Winter Wheat Segmentation ( http://arxiv.org/abs/2310.01825v1 )

ライセンス: Link先を確認
Mohamad Hasan Zahweh, Hasan Nasrallah, Mustafa Shukor, Ghaleb Faour and Ali J. Ghandour(参考訳) パラメータ効率のよいファインチューニング(peft)技術は、最近大きく成長し、様々な領域に大きなビジョンと言語モデルを適用するために広範囲に使われており、最小の計算ニーズで十分なモデル性能を実現している。 これらの進歩にもかかわらず、実際のシナリオ、特にリモートセンシングと作物モニタリングの重要な領域におけるPEFT応用の可能性についてはまだ研究されていない。 異なる地域にまたがる気候の多様性と総合的な大規模データセットの必要性は、地理的な場所をまたいで作物の種類を正確に識別し、成長の季節を変える上で大きな障害となった。 本研究は,最先端のコムギ作物モニタリングモデルを用いて,地域横断的および地域横断的流通汎化の実現可能性について総合的に検討することにより,このギャップを埋めることを目的とする。 本研究の目的は,農作物モニタリングのためのPEFTアプローチを検討することである。 具体的には,農作物のモニタリングと食料安全保障において重要な課題である冬期小麦畑の分断に対応するために,soma tsvitモデルを適用することに焦点を当てた。 この適応プロセスは、BigFit、LoRA、Adaptformer、およびプロンプトチューニングを含む異なるPEFT技術を統合することを含む。 PEFT技術を用いて,TSViTアーキテクチャ全体の0.7%のパラメータのみをトレーニングしながら,完全な微調整手法を用いて達成した手法に匹敵する顕著な結果を得た。 Beqaa-Lebanonデータセットと呼ばれる社内ラベル付きデータセットは、小麦および非小麦類のための高品質なアノテートポリゴンであり、総表面は170 kmsqで、5年連続している。 Sentinel-2画像を用いて84%のF1スコアを得た。 レバノンの冬小麦データセット、コードリポジトリ、モデルウェイトを公式にリリースする予定です。

Parameter Efficient Fine Tuning (PEFT) techniques have recently experienced significant growth and have been extensively employed to adapt large vision and language models to various domains, enabling satisfactory model performance with minimal computational needs. Despite these advances, more research has yet to delve into potential PEFT applications in real-life scenarios, particularly in the critical domains of remote sensing and crop monitoring. The diversity of climates across different regions and the need for comprehensive large-scale datasets have posed significant obstacles to accurately identify crop types across varying geographic locations and changing growing seasons. This study seeks to bridge this gap by comprehensively exploring the feasibility of cross-area and cross-year out-of-distribution generalization using the State-of-the-Art (SOTA) wheat crop monitoring model. The aim of this work is to explore PEFT approaches for crop monitoring. Specifically, we focus on adapting the SOTA TSViT model to address winter wheat field segmentation, a critical task for crop monitoring and food security. This adaptation process involves integrating different PEFT techniques, including BigFit, LoRA, Adaptformer, and prompt tuning. Using PEFT techniques, we achieved notable results comparable to those achieved using full fine-tuning methods while training only a mere 0.7% parameters of the whole TSViT architecture. The in-house labeled data-set, referred to as the Beqaa-Lebanon dataset, comprises high-quality annotated polygons for wheat and non-wheat classes with a total surface of 170 kmsq, over five consecutive years. Using Sentinel-2 images, our model achieved a 84% F1-score. We intend to publicly release the Lebanese winter wheat data set, code repository, and model weights.
翻訳日:2023-10-04 17:26:41 公開日:2023-10-03
# Mini-Behavior: 身体的AIにおける長距離意思決定のための手続き的に生成されたベンチマーク

Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI ( http://arxiv.org/abs/2310.01824v1 )

ライセンス: Link先を確認
Emily Jin, Jiaheng Hu, Zhuoyi Huang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Roberto Mart\'in-Mart\'in(参考訳) エージェントが推論や意思決定のスキルを駆使して、日常の人間の課題に類似した複雑なタスクを解決するための新しいベンチマークであるmini-behaviorを提案する。 Mini-BEHAVIOR環境は高速で現実的なGridworld環境であり、複雑なAIベンチマークで見られる物理リアリズムと複雑性の象徴的なレベルを維持しながら、迅速なプロトタイピングと使いやすさのメリットを提供する。 手続き生成などの重要な機能を導入し、無数のタスクのバリエーションの作成を可能にし、オープンエンド学習をサポートする。 Mini-BEHAVIORは、データ収集および強化学習エージェントトレーニングのスタータコードとともに、オリジナルのBEHAVIORベンチマークから様々な家庭用タスクの実装を提供する。 本質的には、Mini-BEHAVIORは、組み込みAIにおける意思決定と計画ソリューションを評価するための、高速でオープンなベンチマークを提供する。 研究のためのユーザフレンドリーなエントリポイントとして機能し、ソリューションの評価と開発を促進し、インボディードAIの分野を前進させながら、その評価と開発を簡素化する。 コードはhttps://github.com/stanfordvl/mini_behaviorで公開されている。

We present Mini-BEHAVIOR, a novel benchmark for embodied AI that challenges agents to use reasoning and decision-making skills to solve complex activities that resemble everyday human challenges. The Mini-BEHAVIOR environment is a fast, realistic Gridworld environment that offers the benefits of rapid prototyping and ease of use while preserving a symbolic level of physical realism and complexity found in complex embodied AI benchmarks. We introduce key features such as procedural generation, to enable the creation of countless task variations and support open-ended learning. Mini-BEHAVIOR provides implementations of various household tasks from the original BEHAVIOR benchmark, along with starter code for data collection and reinforcement learning agent training. In essence, Mini-BEHAVIOR offers a fast, open-ended benchmark for evaluating decision-making and planning solutions in embodied AI. It serves as a user-friendly entry point for research and facilitates the evaluation and development of solutions, simplifying their assessment and development while advancing the field of embodied AI. Code is publicly available at https://github.com/StanfordVL/mini_behavior.
翻訳日:2023-10-04 17:26:11 公開日:2023-10-03
# MIMO-NeRF:多出力ニューラルレーダフィールドを用いた高速ニューラルレンダリング

MIMO-NeRF: Fast Neural Rendering with Multi-input Multi-output Neural Radiance Fields ( http://arxiv.org/abs/2310.01821v1 )

ライセンス: Link先を確認
Takuhiro Kaneko(参考訳) ニューラルレイディアンス場(NeRF)は、新しいビュー合成において印象的な結果を示した。 しかし、それらは3d座標とビュー方向をサンプル的な方法で色とボリューム密度にマッピングする単入力多層パーセプトロン(siso mlp)を反復的に使用することでレンダリングを遅くする。 SISO MLPをMIMO MLPに置き換え、グループワイズでマッピングを行うことにより、MLPの動作数を削減できるマルチインプットマルチアウトプットNeRF(MIMO-NeRF)を提案する。 このアプローチの注目すべき課題の1つは、各点の色と体積密度がグループ内の入力座標の選択に応じて異なる可能性があることである。 また,MIMO MLPを複数の高速なMLPで正規化して,事前学習モデルを用いることなく,この曖昧さを軽減する自己教師付き学習手法を提案する。 比較およびアブレーション研究を含む総合的な実験評価の結果,MIMO-NeRFは適度なトレーニング時間で,速度と品質の良好なトレードオフが得られることを示した。 次に、MIMO-NeRFは2つの高速NeRF、すなわちサンプル低減(DONeRF)と代替表現(TensoRF)のNeRFに適用することにより、従来のNeRFと互換性があり相補的であることを示す。

Neural radiance fields (NeRFs) have shown impressive results for novel view synthesis. However, they depend on the repetitive use of a single-input single-output multilayer perceptron (SISO MLP) that maps 3D coordinates and view direction to the color and volume density in a sample-wise manner, which slows the rendering. We propose a multi-input multi-output NeRF (MIMO-NeRF) that reduces the number of MLPs running by replacing the SISO MLP with a MIMO MLP and conducting mappings in a group-wise manner. One notable challenge with this approach is that the color and volume density of each point can differ according to a choice of input coordinates in a group, which can lead to some notable ambiguity. We also propose a self-supervised learning method that regularizes the MIMO MLP with multiple fast reformulated MLPs to alleviate this ambiguity without using pretrained models. The results of a comprehensive experimental evaluation including comparative and ablation studies are presented to show that MIMO-NeRF obtains a good trade-off between speed and quality with a reasonable training time. We then demonstrate that MIMO-NeRF is compatible with and complementary to previous advancements in NeRFs by applying it to two representative fast NeRFs, i.e., a NeRF with sample reduction (DONeRF) and a NeRF with alternative representations (TensoRF).
翻訳日:2023-10-04 17:25:48 公開日:2023-10-03
# グラフニューラルネットワークの説明可能性評価のためのロバスト忠実性の検討

Towards Robust Fidelity for Evaluating Explainability of Graph Neural Networks ( http://arxiv.org/abs/2310.01820v1 )

ライセンス: Link先を確認
Xu Zheng, Farhad Shirani, Tianchun Wang, Wei Cheng, Zhuomin Chen, Haifeng Chen, Hua Wei, Dongsheng Luo(参考訳) グラフニューラルネットワーク(GNN)は、グラフノード間のメッセージパッシングを介してグラフィカルデータの依存性構造を利用するニューラルネットワークである。 GNNはグラフ構造化データの解析において重要なアーキテクチャとして登場し、機密性のあるドメインにおけるその広範な適用には、意思決定プロセスの包括的な理解が必要です。 GNNの説明関数は、事前訓練されたGNNとグラフを入力として取り、グラフラベルに関する 'sufficient statistic' 部分グラフを生成する。 GNN説明可能性の研究における主な課題は、これらの説明機能の性能を評価するための忠実度尺度を提供することである。 本稿では,Fid_+$,$Fid_-$,$Fid_\Delta$,$Fid_\Delta$など,広く普及しているフィデリティ指標の固有の制限に注目した。 具体的には、説明可能性の形式的で情報理論的な定義を導入し、既存のメトリクスが様々な統計的シナリオでこの定義と一致しないことが示されている。 理由は、これらの忠実度尺度を計算する際にサブグラフを取り除いた場合、潜在的分布シフトが原因である。 続いて、忠実度尺度の頑健なクラスを導入し、分布シフト問題に弾力性があり、幅広いシナリオに適用可能であることを分析的に示す。 合成データと実データの両方に関する大規模な実験分析を行い、提案した指標がゴールド標準メトリクスとより密接であることを示す。

Graph Neural Networks (GNNs) are neural models that leverage the dependency structure in graphical data via message passing among the graph nodes. GNNs have emerged as pivotal architectures in analyzing graph-structured data, and their expansive application in sensitive domains requires a comprehensive understanding of their decision-making processes -- necessitating a framework for GNN explainability. An explanation function for GNNs takes a pre-trained GNN along with a graph as input, to produce a `sufficient statistic' subgraph with respect to the graph label. A main challenge in studying GNN explainability is to provide fidelity measures that evaluate the performance of these explanation functions. This paper studies this foundational challenge, spotlighting the inherent limitations of prevailing fidelity metrics, including $Fid_+$, $Fid_-$, and $Fid_\Delta$. Specifically, a formal, information-theoretic definition of explainability is introduced and it is shown that existing metrics often fail to align with this definition across various statistical scenarios. The reason is due to potential distribution shifts when subgraphs are removed in computing these fidelity measures. Subsequently, a robust class of fidelity measures are introduced, and it is shown analytically that they are resilient to distribution shift issues and are applicable in a wide range of scenarios. Extensive empirical analysis on both synthetic and real datasets are provided to illustrate that the proposed metrics are more coherent with gold standard metrics.
翻訳日:2023-10-04 17:25:21 公開日:2023-10-03
# テキストから画像を生成するためのスワップサンプリング

Amazing Combinatorial Creation: Acceptable Swap-Sampling for Text-to-Image Generation ( http://arxiv.org/abs/2310.01819v1 )

ライセンス: Link先を確認
Jun Li, Zedong Zhang, Jian Yang(参考訳) 人間の創造性をエミュレートする、複数のテキスト記述から意味のある組合せオブジェクト画像を生成する機械学習システムを探索することは、人間が驚くべき組合せオブジェクトを構築することができるため、重要な課題である。 本稿では,異なるオブジェクトのテキスト概念を利用して,新奇さと驚きを示す複合オブジェクト画像を生成する,許容スワップサンプリングという,単純かつ高効率な手法を開発する。 まず, 2 つのテキスト埋め込みのコラムベクトルを交換し, 最先端拡散モデルを用いて新たな組合せ画像を生成する, 新たな埋め込み機構を提案する。 さらに、新しい画像とオリジナルコンセプト世代間の適切なCLIP距離を管理し、高品質な組み合わせで新しい画像を受け入れる可能性を高めることにより、許容可能な領域を設計する。 この領域は、カラムベクトルをランダムに交換することで生成された新しいイメージプールから、小さなサブセットを効率的にサンプリングできる。 最後に、セグメント化手法を用いて、セグメント化コンポーネント間のCLIP距離を比較し、最終的にサンプリングされたサブセットから最も有望なオブジェクト画像を選択する。 実験では,imagenetのテキストペアに着目し,stable-diffusion2,dalle2,ernie-vilg2,bingといった最近の手法よりも,lionfish-abacusのような関連概念が目立たないような場合であっても,新規で驚くべきオブジェクト画像を生成する方法が優れていることを示す。 さらに, サンプリング過程において, トレーニングや人選好のないアプローチは, 人間の選好データセットを用いて訓練したPickScoreやHPSv2と同等である。

Exploring a machine learning system to generate meaningful combinatorial object images from multiple textual descriptions, emulating human creativity, is a significant challenge as humans are able to construct amazing combinatorial objects, but machines strive to emulate data distribution. In this paper, we develop a straightforward yet highly effective technique called acceptable swap-sampling to generate a combinatorial object image that exhibits novelty and surprise, utilizing text concepts of different objects. Initially, we propose a swapping mechanism that constructs a novel embedding by exchanging column vectors of two text embeddings for generating a new combinatorial image through a cutting-edge diffusion model. Furthermore, we design an acceptable region by managing suitable CLIP distances between the new image and the original concept generations, increasing the likelihood of accepting the new image with a high-quality combination. This region allows us to efficiently sample a small subset from a new image pool generated by using randomly exchanging column vectors. Lastly, we employ a segmentation method to compare CLIP distances among the segmented components, ultimately selecting the most promising object image from the sampled subset. Our experiments focus on text pairs of objects from ImageNet, and our results demonstrate that our approach outperforms recent methods such as Stable-Diffusion2, DALLE2, ERNIE-ViLG2 and Bing in generating novel and surprising object images, even when the associated concepts appear to be implausible, such as lionfish-abacus. Furthermore, during the sampling process, our approach without training and human preference is also comparable to PickScore and HPSv2 trained using human preference datasets.
翻訳日:2023-10-04 17:24:55 公開日:2023-10-03
# autolora:パラメータフリーな自動ロバスト微調整フレームワーク

AutoLoRa: A Parameter-Free Automated Robust Fine-Tuning Framework ( http://arxiv.org/abs/2310.01818v1 )

ライセンス: Link先を確認
Xilie Xu, Jingfeng Zhang, Mohan Kankanhalli(参考訳) robust fine-tuning (rft) は、大量の計算リソースを必要とせず、大量のデータを集めることなく、下流アプリケーションで敵対的な堅牢性を得るための低コストな戦略である。 本稿では,特徴抽出器 (FE) による対向的目的と自然的目的の両方を最適化することで,異なる勾配方向を導出する既存の RFT の問題を明らかにする。 この分散は最適化過程における不安定性を導入し、対向的堅牢性の達成を妨げ、RFTをハイパーパラメータに非常に敏感にする。 この問題を緩和するために、ローランク(LoRa)ブランチを提案し、RFTを2つの異なるコンポーネント、すなわちLoRaブランチによる自然目的とFEによる敵目標に最適化する。 また,学習率と損失項のスカラーのスケジューリングを自動化するためのヒューリスティック戦略を提案する。 大規模な実証実験により,LoRaブランチ(AutoLoRa)を経由した自動RTTがダウンストリームタスクにまたがる新たな結果が得られることが示された。 AutoLoRaは、トレーニング済みのFEをハイパーパラメーターを検索することなく、ダウンストリームタスクの逆向きに堅牢なモデルに自動的に変換するので、かなりの実用性を持っている。

Robust Fine-Tuning (RFT) is a low-cost strategy to obtain adversarial robustness in downstream applications, without requiring a lot of computational resources and collecting significant amounts of data. This paper uncovers an issue with the existing RFT, where optimizing both adversarial and natural objectives through the feature extractor (FE) yields significantly divergent gradient directions. This divergence introduces instability in the optimization process, thereby hindering the attainment of adversarial robustness and rendering RFT highly sensitive to hyperparameters. To mitigate this issue, we propose a low-rank (LoRa) branch that disentangles RFT into two distinct components: optimizing natural objectives via the LoRa branch and adversarial objectives via the FE. Besides, we introduce heuristic strategies for automating the scheduling of the learning rate and the scalars of loss terms. Extensive empirical evaluations demonstrate that our proposed automated RFT disentangled via the LoRa branch (AutoLoRa) achieves new state-of-the-art results across a range of downstream tasks. AutoLoRa holds significant practical utility, as it automatically converts a pre-trained FE into an adversarially robust model for downstream tasks without the need for searching hyperparameters.
翻訳日:2023-10-04 17:24:27 公開日:2023-10-03
# NFTの価格決定とは?

What Determines the Price of NFTs? ( http://arxiv.org/abs/2310.01815v1 )

ライセンス: Link先を確認
Vivian Ziemke, Benjamin Estermann, Roger Wattenhofer, Ye Wang(参考訳) デジタルアートの進化する風景の中で、Non-Fungible Tokens(NFT)は画期的なプラットフォームとして登場し、芸術と技術の領域を埋めている。 nftsはデジタルアートの市場を変革し、アーティストが前例のない方法で作品を展示し収益化できる基礎的な枠組みとして機能している。 NFTはブロックチェーンに格納されたメタデータとイメージなどのオフチェーンデータを組み合わせることで、新たな形式のデジタルオーナシップを生成する。 これらの要因がどのようにしてNFT価格を決定するのかは、完全には理解されていない。 本研究では,OpenSea上のNFTコレクションのオンチェーンデータとオフチェーンデータの両方を分析し,NFT価格にどのような影響があるのかを明らかにする。 以上の結果から,NFTのテキストデータや画像データはコレクション内の価格変動を説明するのに有用であるが,抽出された特徴は新たな未知のコレクションに一般化されないことがわかった。 さらに、NFTコレクションのトレーディング量は、ソーシャルメディアのフォロワーやウェブサイトのトラフィックなど、そのオンラインプレゼンスに関係していることが多い。

In the evolving landscape of digital art, Non-Fungible Tokens (NFTs) have emerged as a groundbreaking platform, bridging the realms of art and technology. NFTs serve as the foundational framework that has revolutionized the market for digital art, enabling artists to showcase and monetize their creations in unprecedented ways. NFTs combine metadata stored on the blockchain with off-chain data, such as images, to create a novel form of digital ownership. It is not fully understood how these factors come together to determine NFT prices. In this study, we analyze both on-chain and off-chain data of NFT collections trading on OpenSea to understand what influences NFT pricing. Our results show that while text and image data of the NFTs can be used to explain price variations within collections, the extracted features do not generalize to new, unseen collections. Furthermore, we find that an NFT collection's trading volume often relates to its online presence, like social media followers and website traffic.
翻訳日:2023-10-04 17:24:07 公開日:2023-10-03
# ppt:効率的な視覚トランスフォーマーのためのトークンプルーニングとプール

PPT: Token Pruning and Pooling for Efficient Vision Transformers ( http://arxiv.org/abs/2310.01812v1 )

ライセンス: Link先を確認
Xinjian Wu, Fanhu Zeng, Xiudong Wang, Yunhe Wang, Xinghao Chen(参考訳) ビジョントランスフォーマー (vits) はコンピュータビジョンの分野で強力なモデルとして登場し、様々なビジョンタスクで優れたパフォーマンスを提供する。 しかし、高い計算複雑性は現実のシナリオで実用的応用に重大な障壁をもたらす。 全てのトークンが最終予測に等しく寄与するわけではなく、より少ないトークンは計算コストを低減し、冗長トークンの削減はビジョントランスフォーマーを加速する主要なパラダイムとなっている。 しかし,トークンプルーニングによる不注意冗長性を低減するか,トークンマージによる重複冗長性を低減するかは最適ではない。 そこで本稿では,これら2種類の冗長性を異なる層で適応的に扱うための新しい加速フレームワーク,トークンプルーニングとプーリングトランスフォーマ(ppt)を提案する。 トレーニング可能なパラメータを追加せずに、トークンプルーニングとトークンプーリングの両方をViTsに統合することにより、PTは予測精度を維持しながら、モデルの複雑さを効果的に軽減する。 例えば、PPTは37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善している。

Vision Transformers (ViTs) have emerged as powerful models in the field of computer vision, delivering superior performance across various vision tasks. However, the high computational complexity poses a significant barrier to their practical applications in real-world scenarios. Motivated by the fact that not all tokens contribute equally to the final predictions and fewer tokens bring less computational cost, reducing redundant tokens has become a prevailing paradigm for accelerating vision transformers. However, we argue that it is not optimal to either only reduce inattentive redundancy by token pruning, or only reduce duplicative redundancy by token merging. To this end, in this paper we propose a novel acceleration framework, namely token Pruning & Pooling Transformers (PPT), to adaptively tackle these two types of redundancy in different layers. By heuristically integrating both token pruning and token pooling techniques in ViTs without additional trainable parameters, PPT effectively reduces the model complexity while maintaining its predictive accuracy. For example, PPT reduces over 37% FLOPs and improves the throughput by over 45% for DeiT-S without any accuracy drop on the ImageNet dataset.
翻訳日:2023-10-04 17:23:48 公開日:2023-10-03
# ディエンス・ビジョン・トランスのための選択的特徴適応器

Selective Feature Adapter for Dense Vision Transformers ( http://arxiv.org/abs/2310.01843v1 )

ライセンス: Link先を確認
Xueqing Deng, Qi Fan, Xiaojie Jin, Linjie Yang and Peng Wang(参考訳) 微調整事前訓練されたトランスモデル、例えばSwin Transformerは、高密度な予測ビジョンタスクのために多くの下流で成功している。 しかし、大きな課題の1つは、膨大な量のパラメータのコスト/保存であり、増大するビジョンタスクに対処することがますます困難になっている。 本稿では,この問題を軽減するための効果的なアプローチ,すなわちsfa(selective feature adapter)を提案する。 トレーニング可能なパラメータの任意の予算下で最先端(sota)のパフォーマンスを達成し、さまざまな密集したタスクをまたいだ完全な微調整モデルと同等あるいは優れたパフォーマンスを示す。 具体的には、SFAは外部アダプタと内部アダプタで構成され、トランスモデルを順次操作する。 外部アダプタについては、追加多層知覚(mlp)の位置と量を適切に選択する。 内部アダプタの場合、変換器内のタスク重要パラメータを変換し、単純だが効果的な抽選チケットアルゴリズムによって自動的に検出する。 本実験では,デュアルアダプタモジュールである a.k.a sfa が,セグメンテーションや検出,奥行き推定などの密集した視覚タスクにおける最善のトレードオフを達成する上で不可欠であることを示す。

Fine-tuning pre-trained transformer models, e.g., Swin Transformer, are successful in numerous downstream for dense prediction vision tasks. However, one major issue is the cost/storage of their huge amount of parameters, which becomes increasingly challenging to handle with the growing amount of vision tasks. In this paper, we propose an effective approach to alleviate the issue, namely selective feature adapter (SFA). It achieves state-of-the-art (SoTA) performance under any given budget of trainable parameters, and demonstrates comparable or better performance than fully fine-tuned models across various dense tasks. Specifically, SFA consists of external adapters and internal adapters which are sequentially operated over a transformer model. For external adapters, we properly select the places and amount of additional multilayer perception (MLP). For internal adapters, we transform a few task-important parameters inside the transformer, which are automatically discovered through a simple yet effective lottery ticket algorithm. Our experiments show that the dual adapter module, a.k.a SFA, is essential to achieve the best trade-off on dense vision tasks, such as segmentation, detection and depth-estimation, outperforming other adapters with a single module.
翻訳日:2023-10-04 17:17:02 公開日:2023-10-03
# SelfGraphVQA:Scene-based Question Answeringのための自己監督型グラフニューラルネットワーク

SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based Question Answering ( http://arxiv.org/abs/2310.01842v1 )

ライセンス: Link先を確認
Bruno Souza and Marius Aasan and Helio Pedrini and Ad\'in Ram\'irez Rivera(参考訳) 認識と推論のシームレスな統合に重点が置かれているため、視覚と言語の交点が大きな関心事となっている。 シーングラフ(SG)はマルチモーダル画像解析の有用なツールとして登場し、視覚質問応答(VQA)などのタスクで顕著なパフォーマンスを示している。 本稿では,vqaタスクにおけるシーングラフの有効性にもかかわらず,画像から抽出した予測シーングラフを用いた場合,理想化アノテートされたシーングラフを用いる方法が一般化に苦慮していることを示す。 この問題に対処するために、SelfGraphVQAフレームワークを紹介します。 本手法では,事前学習したシーングラフ生成器を用いて入力画像からシーングラフを抽出する。 本手法は,VQAタスクにおけるグラフ表現の利用を,コストと潜在的なバイアスのある注釈付きデータの必要性を回避することで改善する。 画像拡張によって抽出されたグラフの代替ビューを作成することにより、非正規化コントラストアプローチを用いて表現中の情報内容の最適化により、共同埋め込みを学習することができる。 sgsを用いて,ノード毎,グラフ毎,置換同変正規化という3つの異なる最大化戦略を実験した。 本稿では,VQAにおける抽出したシーングラフの有効性を実証的に示すとともに,これらの手法が視覚情報の重要性を強調し,全体的な性能を向上させることを実証する。 これは複雑な推論問題に対してSGに依存するVQAタスクに対して、より実用的なソリューションを提供する。

The intersection of vision and language is of major interest due to the increased focus on seamless integration between recognition and reasoning. Scene graphs (SGs) have emerged as a useful tool for multimodal image analysis, showing impressive performance in tasks such as Visual Question Answering (VQA). In this work, we demonstrate that despite the effectiveness of scene graphs in VQA tasks, current methods that utilize idealized annotated scene graphs struggle to generalize when using predicted scene graphs extracted from images. To address this issue, we introduce the SelfGraphVQA framework. Our approach extracts a scene graph from an input image using a pre-trained scene graph generator and employs semantically-preserving augmentation with self-supervised techniques. This method improves the utilization of graph representations in VQA tasks by circumventing the need for costly and potentially biased annotated data. By creating alternative views of the extracted graphs through image augmentations, we can learn joint embeddings by optimizing the informational content in their representations using an un-normalized contrastive approach. As we work with SGs, we experiment with three distinct maximization strategies: node-wise, graph-wise, and permutation-equivariant regularization. We empirically showcase the effectiveness of the extracted scene graph for VQA and demonstrate that these approaches enhance overall performance by highlighting the significance of visual information. This offers a more practical solution for VQA tasks that rely on SGs for complex reasoning questions.
翻訳日:2023-10-04 17:16:39 公開日:2023-10-03
# ダイナミックシーンにおけるマルチ露光画像を用いた自己監督型高ダイナミックレンジイメージング

Self-Supervised High Dynamic Range Imaging with Multi-Exposure Images in Dynamic Scenes ( http://arxiv.org/abs/2310.01840v1 )

ライセンス: Link先を確認
Zhilu Zhang, Haoyu Wang, Shuai Liu, Xiaotao Wang, Lei Lei, Wangmeng Zuo(参考訳) 多重露光画像の融合はハイダイナミックレンジ(hdr)画像を得るための一般的なアプローチであり、主な課題は動的シーンにおけるゴーストアーティファクトの回避である。 近年,Deghostingにディープニューラルネットワークを用いた手法が提案されている。 しかし、これらの手法は通常、収集が困難でコストがかかるhdrグラウンドルースで十分なデータに依存する。 本研究では,ラベル付きデータを不要にするために,訓練中に動的マルチ露光画像のみを必要とする自己教師型HDR再構成法であるSelfHDRを提案する。 特に、selfhdrは、複数の露出画像から構築できる2つの補完的コンポーネントの監督の下で再構成ネットワークを学習し、それぞれhdr色と構造に焦点を当てる。 色成分は複数の露光画像から推定され、色成分と入力基準画像(中露光画像)によって監視される構造中心ネットワークを介して構造成分が生成される。 テスト中、学習した再構成ネットワークは直接デプロイされ、HDR画像を予測する。 実世界画像を用いた実験により,我々のselfhdrは,最先端の自己教師付手法に対して優れた結果を示し,教師付画像と同等の性能を示す。 コードはhttps://github.com/cszhilu1998/SelfHDRで公開されている。

Merging multi-exposure images is a common approach for obtaining high dynamic range (HDR) images, with the primary challenge being the avoidance of ghosting artifacts in dynamic scenes. Recent methods have proposed using deep neural networks for deghosting. However, the methods typically rely on sufficient data with HDR ground-truths, which are difficult and costly to collect. In this work, to eliminate the need for labeled data, we propose SelfHDR, a self-supervised HDR reconstruction method that only requires dynamic multi-exposure images during training. Specifically, SelfHDR learns a reconstruction network under the supervision of two complementary components, which can be constructed from multi-exposure images and focus on HDR color as well as structure, respectively. The color component is estimated from aligned multi-exposure images, while the structure one is generated through a structure-focused network that is supervised by the color component and an input reference (\eg, medium-exposure) image. During testing, the learned reconstruction network is directly deployed to predict an HDR image. Experiments on real-world images demonstrate our SelfHDR achieves superior results against the state-of-the-art self-supervised methods, and comparable performance to supervised ones. Codes are available at https://github.com/cszhilu1998/SelfHDR
翻訳日:2023-10-04 17:16:14 公開日:2023-10-03
# 正規回帰のための音韻識別:自動発音評価のための新しい損失関数

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment ( http://arxiv.org/abs/2310.01839v1 )

ライセンス: Link先を確認
Bi-Cheng Yan, Hsin-Wei Wang, Yi-Cheng Wang, Jiun-Ting Li, Chi-Han Lin, Berlin Chen(参考訳) 自動発音評価(APA)は、第2言語(L2)学習者の発音習熟度を言語内で定量化する。 APAに対する一般的なアプローチは、平均二乗誤差(MSE)損失などの回帰損失関数で訓練されたニューラルネットワークを、習熟度予測に活用する。 ほとんどの回帰モデルは、機能空間における熟練度レベルの順序性を効果的に捉えることができるが、同じ熟練度レベルの異なる音素カテゴリが必然的に互いに近付くことを強制され、音素識別情報が少なくなるという主要な障害に直面している。 そこで,本研究では,音素カテゴリ間の音韻区別を良好に保ちつつ,回帰目標出力の順序関係を考慮し,回帰に基づくapaモデルの学習のための音韻コントラストオーディナル(pco)ロスを考案する。 具体的には,重み付き距離を用いて同一音素カテゴリに属する表現を近づけると同時に,異なる音素カテゴリの特徴表現を遠方から分離することを奨励するmse損失に音素分割正規化器を導入する。 speechocean762ベンチマークデータセットで行った広範囲な実験は、既存の最先端モデルに関連して、モデルの有効性と有効性を示している。

Automatic pronunciation assessment (APA) manages to quantify the pronunciation proficiency of a second language (L2) learner in a language. Prevailing approaches to APA normally leverage neural models trained with a regression loss function, such as the mean-squared error (MSE) loss, for proficiency level prediction. Despite most regression models can effectively capture the ordinality of proficiency levels in the feature space, they are confronted with a primary obstacle that different phoneme categories with the same proficiency level are inevitably forced to be close to each other, retaining less phoneme-discriminative information. On account of this, we devise a phonemic contrast ordinal (PCO) loss for training regression-based APA models, which aims to preserve better phonemic distinctions between phoneme categories meanwhile considering ordinal relationships of the regression target output. Specifically, we introduce a phoneme-distinct regularizer into the MSE loss, which encourages feature representations of different phoneme categories to be far apart while simultaneously pulling closer the representations belonging to the same phoneme category by means of weighted distances. An extensive set of experiments carried out on the speechocean762 benchmark dataset suggest the feasibility and effectiveness of our model in relation to some existing state-of-the-art models.
翻訳日:2023-10-04 17:15:52 公開日:2023-10-03
# リモートセンシング画像セグメンテーションのためのCAMに基づくXAI手法の拡張

Extending CAM-based XAI methods for Remote Sensing Imagery Segmentation ( http://arxiv.org/abs/2310.01837v1 )

ライセンス: Link先を確認
Abdul Karim Gizzini, Mustafa Shukor and Ali J. Ghandour(参考訳) 現在のAIベースの手法では、使用済みデータ、抽出された特徴、予測/推論操作の理解可能な物理的解釈を提供していない。 その結果、高解像度衛星画像を用いて訓練されたディープラーニングモデルは透明性と説明性に欠けており、単にブラックボックスと見なすだけで広範に採用が制限される。 専門家はAIモデルの複雑な振る舞いと根底にある意思決定プロセスを理解するのに役立つ必要がある。 説明可能な人工知能(XAI)分野は、堅牢で実用的で信頼性の高いAIモデルのデプロイのための手段を提供する新興分野である。 画像分類タスクにはいくつかのXAI技術が提案されているが、画像分割の解釈はほとんど未検討である。 本稿では,最近のxai分類アルゴリズムを応用し,高分解能衛星画像からの建物のセグメンテーションに着目したミューティ級画像セグメンテーションに適用することで,このギャップを埋めることを提案する。 提案手法の性能をベンチマークし比較するために,モデルの不確実性を測定するために,「エントロピー」に基づく新しいXAI評価手法とメトリクスを導入する。 従来のXAI評価手法は、主に画像から事前学習された(実用)モデルへの関心領域の供給に依存し、対象クラスの確率の平均変化を計算する。 これらの評価指標には頑健性が欠如しており、対象クラス内のピクセルをセグメンテーションする際のモデルの不確実性を監視するエントロピーの使用がより適していることを示す。 この研究が、リモートセンシング分野における画像セグメンテーションと応用のための追加のXAI研究の道を開くことを願っている。

Current AI-based methods do not provide comprehensible physical interpretations of the utilized data, extracted features, and predictions/inference operations. As a result, deep learning models trained using high-resolution satellite imagery lack transparency and explainability and can be merely seen as a black box, which limits their wide-level adoption. Experts need help understanding the complex behavior of AI models and the underlying decision-making process. The explainable artificial intelligence (XAI) field is an emerging field providing means for robust, practical, and trustworthy deployment of AI models. Several XAI techniques have been proposed for image classification tasks, whereas the interpretation of image segmentation remains largely unexplored. This paper offers to bridge this gap by adapting the recent XAI classification algorithms and making them usable for muti-class image segmentation, where we mainly focus on buildings' segmentation from high-resolution satellite images. To benchmark and compare the performance of the proposed approaches, we introduce a new XAI evaluation methodology and metric based on "Entropy" to measure the model uncertainty. Conventional XAI evaluation methods rely mainly on feeding area-of-interest regions from the image back to the pre-trained (utility) model and then calculating the average change in the probability of the target class. Those evaluation metrics lack the needed robustness, and we show that using Entropy to monitor the model uncertainty in segmenting the pixels within the target class is more suitable. We hope this work will pave the way for additional XAI research for image segmentation and applications in the remote sensing discipline.
翻訳日:2023-10-04 17:15:29 公開日:2023-10-03
# EMBERSim: マルウェア解析における類似性検索を促進する大規模データバンク

EMBERSim: A Large-Scale Databank for Boosting Similarity Search in Malware Analysis ( http://arxiv.org/abs/2310.01835v1 )

ライセンス: Link先を確認
Dragos Georgian Corlatescu, Alexandru Dinu, Mihaela Gaman, Paul Sumedrea(参考訳) 近年、ヒューリスティックスベースのマルウェア検出から機械学習へのシフトがあり、これは現在の非常に敵対的な脅威の状況において、より堅牢であることが証明されている。 機械学習は、ますます多くの類似したファイルのパターンをマイニングするのに適していることを認めていますが、類似度をターゲットとした研究で利用できるデータの顕著な不足も指摘しています。 また,本研究の焦点は,マルウェアの類似性を定量化することであり,しばしばクリーンデータを見下ろすことである。 この一方的な定量化は、検出バイパスの文脈では特に危険である。 本稿では,最大規模のマルウェア分類データセットであるEMBERを皮切りに,バイナリファイルの類似性研究の領域における欠陥に対処することを提案する。 我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。 コントリビューションは3つある: 1) 類似情報を含むEMBERの強化版であるEMBERSimを公開し、(2) VirusTotalデータ上のオープンソースのツールであるAVClassを使って、自動決定されたマルウェアクラスタグでEMBERSimを豊かにし、(3) クラススコア技術とリーフ類似性メソッドの実装を記述し、共有する。

In recent years there has been a shift from heuristics-based malware detection towards machine learning, which proves to be more robust in the current heavily adversarial threat landscape. While we acknowledge machine learning to be better equipped to mine for patterns in the increasingly high amounts of similar-looking files, we also note a remarkable scarcity of the data available for similarity-targeted research. Moreover, we observe that the focus in the few related works falls on quantifying similarity in malware, often overlooking the clean data. This one-sided quantification is especially dangerous in the context of detection bypass. We propose to address the deficiencies in the space of similarity research on binary files, starting from EMBER - one of the largest malware classification data sets. We enhance EMBER with similarity information as well as malware class tags, to enable further research in the similarity space. Our contribution is threefold: (1) we publish EMBERSim, an augmented version of EMBER, that includes similarity-informed tags; (2) we enrich EMBERSim with automatically determined malware class tags using the open-source tool AVClass on VirusTotal data and (3) we describe and share the implementation for our class scoring technique and leaf similarity method.
翻訳日:2023-10-04 17:15:02 公開日:2023-10-03
# 羊の皮膚は一度だけでなく、様々な深度データセットを使って光の流れを学習する

Skin the sheep not only once: Reusing Various Depth Datasets to Drive the Learning of Optical Flow ( http://arxiv.org/abs/2310.01833v1 )

ライセンス: Link先を確認
Sheng-Chi Huang, Wei-Chen Chiu(参考訳) 光フロー推定は視覚とロボット工学の様々な応用に不可欠である。 実世界のシナリオでは、基礎的真理の光学フローの収集が難しいため、既存の光学フローの学習法のほとんどは、教師あり訓練のために合成データセットを採用しており、また、時間的に隣接するビデオフレーム間の測光一貫性を利用して教師なし学習を駆動している。 このような課題に取り組むために,光フロー推定とステレオマッチング(画像間の画素対応の類似性に基づく)の幾何学的関係を活用し,様々な実世界深度推定データセットを統合し,光フロー上で教師付きトレーニングデータを生成することを提案する。 具体的には,仮想的差を合成し,水平方向の流れに繋がる単眼深度データセットをステレオデータに変換するとともに,ステレオデータに仮想カメラ動作を導入することで,垂直方向に沿って新たな流れを生成する。 さらに、光学フロー対の1つの画像に幾何学的拡張を適用し、より困難なケースから学習する光フロー推定器を提案する。 最後に、異なる幾何学的拡張の下での光フローマップが実際には異なる特性を示すため、フローマップの出現から拡張のタイプを識別するために訓練する補助分類器を用いて、光フロー推定器の学習をさらに強化する。 提案手法は汎用的で, 各種データセットおよび光フロー推定モデルに基づく広範囲な実験により, その有効性と優位性を検証した, 特定のフロー推定器に縛られない。

Optical flow estimation is crucial for various applications in vision and robotics. As the difficulty of collecting ground truth optical flow in real-world scenarios, most of the existing methods of learning optical flow still adopt synthetic dataset for supervised training or utilize photometric consistency across temporally adjacent video frames to drive the unsupervised learning, where the former typically has issues of generalizability while the latter usually performs worse than the supervised ones. To tackle such challenges, we propose to leverage the geometric connection between optical flow estimation and stereo matching (based on the similarity upon finding pixel correspondences across images) to unify various real-world depth estimation datasets for generating supervised training data upon optical flow. Specifically, we turn the monocular depth datasets into stereo ones via synthesizing virtual disparity, thus leading to the flows along the horizontal direction; moreover, we introduce virtual camera motion into stereo data to produce additional flows along the vertical direction. Furthermore, we propose applying geometric augmentations on one image of an optical flow pair, encouraging the optical flow estimator to learn from more challenging cases. Lastly, as the optical flow maps under different geometric augmentations actually exhibit distinct characteristics, an auxiliary classifier which trains to identify the type of augmentation from the appearance of the flow map is utilized to further enhance the learning of the optical flow estimator. Our proposed method is general and is not tied to any particular flow estimator, where extensive experiments based on various datasets and optical flow estimation models verify its efficacy and superiority.
翻訳日:2023-10-04 17:14:36 公開日:2023-10-03
# 質量ニュートリノを用いた大規模構造形成のvlasovシミュレーションのための量子アルゴリズム

Quantum algorithm for the Vlasov simulation of the large-scale structure formation with massive neutrinos ( http://arxiv.org/abs/2310.01832v1 )

ライセンス: Link先を確認
Koichi Miyamoto, Soichiro Yamazaki, Fumio Uchida, Kotaro Fujisawa, Naoki Yoshida(参考訳) ニュートリノは有限質量を持つことが実験的に確立されており、その宇宙論的含意は基礎物理学においても重要な意味を持つ。 特に物質成分として、質量ニュートリノは宇宙の大規模構造(LSS)の形成に影響を与え、逆にLSSの観測はニュートリノ質量に制約を与える。 従来の暗黒物質とともに大型ニュートリノを含むLSS生成の大規模数値シミュレーションを行うことが重要な課題である。 これに対し、フラソフ方程式を解くことで位相空間のニュートリノ分布を計算することは、従来の$N$-bodyシミュレーションよりも適切なアプローチであるが、PDEを$(6+1)$-dimensional空間で解く必要があり、計算的に要求される: 各座標における$n_\mathrm{gr}$グリッドポイントの設定と$n_t$タイムグリッドポイントは$O(n_tn_\mathrm{gr}^6)$複雑性をもたらす。 我々はこの問題に対して効率的な量子アルゴリズムを提案する。 ニュートリノの相対的弱自己重力を無視してブラゾフ方程式を線形化することにより、ニュートリノの位相空間分布をエンコードする量子状態を生成するハミルトンシミュレーションを行う。 また,量子振幅推定の精度$\epsilon$と$\widetilde{o}((n_\mathrm{gr} + n_t)/\epsilon)$のクエリ複雑性を用いて,量子状態からニュートリノ密度摂動のパワースペクトルを抽出する手法を提案する。 われわれが知る限り、これはLSSシミュレーションのための最初の量子アルゴリズムであり、精度を保証して実用的関心の量を出力する。

It is now experimentally established that neutrino has finite mass, and investigating its cosmological implication is of significant importance also for fundamental physics. In particular, as a matter component, massive neutrino affects the formation of the large-scale structure (LSS) of the universe, and conversely, observations of the LSS can give constraints on the neutrino mass. Performing large numerical simulations of the LSS formation including massive neutrino along with conventional cold dark matter is thus an important task. For this, calculating the neutrino distribution in the phase space by solving the Vlasov equation is a more suitable approach than conventional $N$-body simulations, but it requires solving the PDE in the $(6+1)$-dimensional space and is thus computationally demanding: configuring $n_\mathrm{gr}$ grid points in each coordinate and $n_t$ time grid points leads to $O(n_tn_\mathrm{gr}^6)$ complexity. We propose an efficient quantum algorithm for this task. Linearizing the Vlasov equation by neglecting the relatively weak self-gravity of the neutrino, we perform the Hamiltonian simulation to produce quantum states that encode the phase space distribution of neutrino. We also propose a way to extract the power spectrum of the neutrino density perturbations as classical data from the quantum state by quantum amplitude estimation with accuracy $\epsilon$ and query complexity of order $\widetilde{O}((n_\mathrm{gr} + n_t)/\epsilon)$. As far as we know, this is the first quantum algorithm for the LSS simulation that outputs the quantity of practical interest with guaranteed accuracy.
翻訳日:2023-10-04 17:14:08 公開日:2023-10-03
# 大規模言語モデルによるプログラム仕様への自然言語インテントの形式化

Formalizing Natural Language Intent into Program Specifications via Large Language Models ( http://arxiv.org/abs/2310.01831v1 )

ライセンス: Link先を確認
Madeline Endres, Sarah Fakhoury, Saikat Chakraborty, Shuvendu K. Lahiri(参考訳) コードコメントや関数ドキュメントなどのコード機能を記述する非公式な自然言語は、プログラムの意図に関する実質的な情報を含むことがある。 しかし、一般的にプログラムの実装と自然言語ドキュメントが一致している保証はない。 衝突の場合、コードに隣接した自然言語で情報を活用することは、フォールトローカライゼーション、デバッグ、コードの信頼性を高める可能性がある。 しかし、実際には、この情報は、自然言語の固有のあいまいさのため、プログラム的にチェックすることが難しい自然言語の意図のために、あまり使われないことが多い。 大規模言語モデル(LLM)の「創発的能力」は、プログラムでチェック可能なアサーションに対する自然言語意図の翻訳を容易にする可能性がある。 しかし、LLMが非公式な自然言語仕様をプログラマの意図に合う形式仕様に正しく翻訳できるかどうかは不明である。 また、そのような翻訳が実際に有用かは定かではない。 本稿では,非公式自然言語をプログラムアサーションとして表現した形式的メソッドポストコンディションに変換するためのllmを活用したllm4nl2postについて述べる。 生成した後条件の正しさと識別力を用いて, LLM4nl2post の異なるアプローチを計測・比較するための指標を導入・検証する。 次に, llm4nl2ポスト条件の品質評価のための質的, 定量的な手法を行い, 不正確なコードを判別できることを確認した。 最後に, LLM4nl2post は, LLMs による LLM4nl2post が実用上有用であることが判明した。

Informal natural language that describes code functionality, such as code comments or function documentation, may contain substantial information about a programs intent. However, there is typically no guarantee that a programs implementation and natural language documentation are aligned. In the case of a conflict, leveraging information in code-adjacent natural language has the potential to enhance fault localization, debugging, and code trustworthiness. In practice, however, this information is often underutilized due to the inherent ambiguity of natural language which makes natural language intent challenging to check programmatically. The "emergent abilities" of Large Language Models (LLMs) have the potential to facilitate the translation of natural language intent to programmatically checkable assertions. However, it is unclear if LLMs can correctly translate informal natural language specifications into formal specifications that match programmer intent. Additionally, it is unclear if such translation could be useful in practice. In this paper, we describe LLM4nl2post, the problem leveraging LLMs for transforming informal natural language to formal method postconditions, expressed as program assertions. We introduce and validate metrics to measure and compare different LLM4nl2post approaches, using the correctness and discriminative power of generated postconditions. We then perform qualitative and quantitative methods to assess the quality of LLM4nl2post postconditions, finding that they are generally correct and able to discriminate incorrect code. Finally, we find that LLM4nl2post via LLMs has the potential to be helpful in practice; specifications generated from natural language were able to catch 70 real-world historical bugs from Defects4J.
翻訳日:2023-10-04 17:13:29 公開日:2023-10-03
# データソースとしてのAI生成画像:合成時代の幕開け

AI-Generated Images as Data Source: The Dawn of Synthetic Era ( http://arxiv.org/abs/2310.01830v1 )

ライセンス: Link先を確認
Zuhao Yang, Fangneng Zhan, Kunhao Liu, Muyu Xu, Shijian Lu(参考訳) ビジュアルインテリジェンスの進歩は、本質的にデータの可用性に繋がる。 並行して、生成的人工知能(AI)は、現実世界の写真によく似た合成画像を作成する可能性を解き放った。 本稿では、これらのai生成画像を新たなデータソースとして活用する革新的な概念を探求し、従来のモデルパラダイムをビジュアルインテリジェンスに再構成する。 実際のデータとは対照的に、AIが生成するデータソースには、未整合のアビデンスとスケーラビリティ、膨大なデータセットの高速生成、エッジケースの無力なシミュレーションなど、大きなメリットがある。 生成型aiモデルの成功に基づいて、機械学習モデルのトレーニングから、計算モデリング、テスト、検証のためのシナリオのシミュレーションまで、さまざまなアプリケーションで生成されたデータの可能性を調べます。 我々は、この変革的なパラダイムシフトに伴う倫理的、法律的、実践的な考察を深く議論する中で、生成AIの利用を支える技術基盤を探求する。 本稿では,現在の技術と応用の徹底的な調査を通じて,視覚知能における合成時代の包括的展望を示す。 この論文のプロジェクトはhttps://github.com/mwxely/AIGS で見ることができる。

The advancement of visual intelligence is intrinsically tethered to the availability of data. In parallel, generative Artificial Intelligence (AI) has unlocked the potential to create synthetic images that closely resemble real-world photographs, which prompts a compelling inquiry: how visual intelligence benefit from the advance of generative AI? This paper explores the innovative concept of harnessing these AI-generated images as a new data source, reshaping traditional model paradigms in visual intelligence. In contrast to real data, AI-generated data sources exhibit remarkable advantages, including unmatched abundance and scalability, the rapid generation of vast datasets, and the effortless simulation of edge cases. Built on the success of generative AI models, we examines the potential of their generated data in a range of applications, from training machine learning models to simulating scenarios for computational modelling, testing, and validation. We probe the technological foundations that support this groundbreaking use of generative AI, engaging in an in-depth discussion on the ethical, legal, and practical considerations that accompany this transformative paradigm shift. Through an exhaustive survey of current technologies and applications, this paper presents a comprehensive view of the synthetic era in visual intelligence. A project with this paper can be found at https://github.com/mwxely/AIGS .
翻訳日:2023-10-04 17:13:01 公開日:2023-10-03
# 超音波映像における乳房病変の分節化への注意の移動

Shifting More Attention to Breast Lesion Segmentation in Ultrasound Videos ( http://arxiv.org/abs/2310.01861v1 )

ライセンス: Link先を確認
Junhao Lin, Qian Dai, Lei Zhu, Huazhu Fu, Qiong Wang, Weibin Li, Wenhao Rao, Xiaoyang Huang, Liansheng Wang(参考訳) 超音波(US)ビデオにおける乳腺病変のセグメンテーションは軸索リンパ節転移の診断と治療に不可欠である。 しかし、高品質なアノテーションを備えた、確立された大規模な超音波ビデオデータセットの欠如は、研究コミュニティにとって永続的な課題となった。 この問題を克服するために, 572のビデオと34,300の注釈付きフレームからなるus video breast lesion segmentation datasetを精査し, 幅広い現実的な臨床シナリオを網羅した。 さらに、周波数領域から時間的特徴を学習し、乳房病変の分節を補助する追加の病変位置を予測できる新しい周波数・局所化特徴集約ネットワーク(FLA-Net)を提案する。 また,同一映像内の隣接映像フレーム間の病変位置距離を低減し,異なる超音波映像からのフレーム間の位置距離を拡大するために,局所性に基づくコントラスト損失を考案する。 アノテーション付きデータセットと2つの公開ビデオポリプセグメンテーションデータセットを用いた実験により、米国ビデオにおける乳房病変セグメンテーションにおけるFLA-Netの最先端性能と、ビデオポリプセグメンテーションを実現し、時間と空間の複雑さを著しく低減した。 私たちのモデルとデータセットはhttps://github.com/jhl-det/fla-netで利用可能です。

Breast lesion segmentation in ultrasound (US) videos is essential for diagnosing and treating axillary lymph node metastasis. However, the lack of a well-established and large-scale ultrasound video dataset with high-quality annotations has posed a persistent challenge for the research community. To overcome this issue, we meticulously curated a US video breast lesion segmentation dataset comprising 572 videos and 34,300 annotated frames, covering a wide range of realistic clinical scenarios. Furthermore, we propose a novel frequency and localization feature aggregation network (FLA-Net) that learns temporal features from the frequency domain and predicts additional lesion location positions to assist with breast lesion segmentation. We also devise a localization-based contrastive loss to reduce the lesion location distance between neighboring video frames within the same video and enlarge the location distances between frames from different ultrasound videos. Our experiments on our annotated dataset and two public video polyp segmentation datasets demonstrate that our proposed FLA-Net achieves state-of-the-art performance in breast lesion segmentation in US videos and video polyp segmentation while significantly reducing time and space complexity. Our model and dataset are available at https://github.com/jhl-Det/FLA-Net.
翻訳日:2023-10-04 17:07:32 公開日:2023-10-03
# 複合・分散確率最小化のための高確率収束と重音による変分不等式

High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise ( http://arxiv.org/abs/2310.01860v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Abdurakhmon Sadiev, Marina Danilova, Samuel Horv\'ath, Gauthier Gidel, Pavel Dvurechensky, Alexander Gasnikov, Peter Richt\'arik(参考訳) 近年,雑音に対する軽度の仮定の下での確率的一階最適化手法の高確率解析が注目されている。 通常、勾配クリッピングは、ノイズが重い場合に高い確率を保証するための重要なアルゴリズム要素の1つである。 しかし、na\ 的に実装すれば、ノイズがなくても、合成および分散最適化(Prox-SGD/Parallel SGD)の一般的な手法の収束を損なう可能性がある。 このため、高確率解析に関する多くの研究は、制約のない非分散問題のみを考慮し、既存の複合/分散問題の結果には、いくつかの重要な特別なケース(強凸問題など)が含まれておらず、最適ではない。 この問題に対処するために, 確率勾配差のクリッピングに基づく合成および分散最適化のための新しい確率的手法を提案し, 提案手法の厳密な高確率収束結果(ほぼ最適解を含む)を証明した。 類似のアイデアを用いて、合成および分散変分不等式の新しい手法を開発し、これらの手法の高確率収束解析を行う。

High-probability analysis of stochastic first-order optimization methods under mild assumptions on the noise has been gaining a lot of attention in recent years. Typically, gradient clipping is one of the key algorithmic ingredients to derive good high-probability guarantees when the noise is heavy-tailed. However, if implemented na\"ively, clipping can spoil the convergence of the popular methods for composite and distributed optimization (Prox-SGD/Parallel SGD) even in the absence of any noise. Due to this reason, many works on high-probability analysis consider only unconstrained non-distributed problems, and the existing results for composite/distributed problems do not include some important special cases (like strongly convex problems) and are not optimal. To address this issue, we propose new stochastic methods for composite and distributed optimization based on the clipping of stochastic gradient differences and prove tight high-probability convergence results (including nearly optimal ones) for the new methods. Using similar ideas, we also develop new methods for composite and distributed variational inequalities and analyze the high-probability convergence of these methods.
翻訳日:2023-10-04 17:07:11 公開日:2023-10-03
# クシュナー最適フィルタの変分ガウス近似

Variational Gaussian approximation of the Kushner optimal filter ( http://arxiv.org/abs/2310.01859v1 )

ライセンス: Link先を確認
Marc Lambert (DGA, SIERRA), Silv\`ere Bonnabel, Francis Bach (SIERRA)(参考訳) 推定理論において、クシュナー方程式は連続時間観測を与えられた力学系の状態の確率密度の進化を与える。 最近の研究に基づいて,確率密度のベイズ的更新と伝播に伴う2つの近位損失のトラクタブル変分ガウス近似を用いて,クシュナー方程式の解を近似する方法を提案する。 1つはワッサーシュタイン計量に基づく近位損失、2つ目はフィッシャー計量に基づく近位損失である。 この最後の近位損失の解決策は、我々が以前に提案した平均と共分散に関する暗黙の更新によって与えられる。 これら2つの変分更新は融合され、ガウス平均と共分散行列上の確率微分方程式の集合を満たすことが示される。 このガウス流は線型の場合のカルマン・ビューシーとリカティの流れと一致し、非線形の場合で一般化する。

In estimation theory, the Kushner equation provides the evolution of the probability density of the state of a dynamical system given continuous-time observations. Building upon our recent work, we propose a new way to approximate the solution of the Kushner equation through tractable variational Gaussian approximations of two proximal losses associated with the propagation and Bayesian update of the probability density. The first is a proximal loss based on the Wasserstein metric and the second is a proximal loss based on the Fisher metric. The solution to this last proximal loss is given by implicit updates on the mean and covariance that we proposed earlier. These two variational updates can be fused and shown to satisfy a set of stochastic differential equations on the Gaussian's mean and covariance matrix. This Gaussian flow is consistent with the Kalman-Bucy and Riccati flows in the linear case and generalize them in the nonlinear one.
翻訳日:2023-10-04 17:06:51 公開日:2023-10-03
# Twitter利用者のタイピング作業を大幅に削減するベスポーク最適化キーボードレイアウト生成手法

A method of generating bespoke optimised keyboard layouts that significantly reduce typing effort for Twitter users ( http://arxiv.org/abs/2310.01858v1 )

ライセンス: Link先を確認
E. Elson(参考訳) 本研究は,スマートフォン上でのシングルフィンガータイピングのための最適化キーボードレイアウト作成の問題に対処する。 twitterユーザーには、時間と労力の少ないツイートタイピング体験を提供する。 人気のTwitterユーザー85人のツイートテキストが使用されている。 既存の研究は、概して様々なユーザーに利益をもたらす最適化を生み出してきたが、この研究は、twitterユーザーごとに自分のツイートに基づいて、独自に最適化されたキーボードレイアウトが生成されるという意味でユニークなものである。 最適化プロセスは、QWERTYキーボード上の位置から6文字キーだけを移動させることに基づいており、最適化されたキーボードレイアウトによって提供されるタイピング効率の改善と、それを学ぶのに必要な労力とを効果的にバランスさせる。 Twitterユーザーは少なくとも13.4%のタイピングの労力を減らすことが示されている。 一般的なユーザーは15.8%の削減の恩恵を受けるが、最も高いタイピング労力の削減は25%近くである。 この研究で示された方法は、任意のTwitterユーザーに独自のツイート体験を提供するために、実用的な方法で利用することができる。

This study addresses the problem of generating an optimised keyboard layout for single-finger typing on a smartphone. It offers Twitter users a tweet-typing experience that requires less effort and time. Bodies of tweet text for 85 popular Twitter users are used. While existing studies have produced optimisations that may generally benefit a variety of users, this study is unique in the sense that a bespoke optimised keyboard layout is generated for each Twitter user based on their own tweets, thereby uniquely benefiting them more than other users. The optimisation process is based on moving only six letter keys from their positions on the QWERTY keyboard, and therefore strikes an effective balance between the typing efficiency improvements offered by an optimised keyboard layout and the effort required to learn to use it. It is shown that a Twitter user will enjoy a reduction in typing effort of at least 13.4%. The typical user will benefit from a 15.8% reduction, while the highest typing effort reduction is nearly 25%. The method presented in this study could therefore be used in practical ways to offer any Twitter user a uniquely-improved tweeting experience.
翻訳日:2023-10-04 17:06:35 公開日:2023-10-03
# マイクロ共振器による光周波数コムの多部絡み合い

Multipartite Entanglement in Bright Frequency Combs from Microresonators ( http://arxiv.org/abs/2310.01855v1 )

ライセンス: Link先を確認
Adrien Bensemhoun (INPHYNI), C Gonzalez-Arciniegas, Olivier Pfister, Laurent Labont (INPHYNI), Jean Etesse (INPHYNI), Anthony Martin (INPHYNI), Sbastien Tanzilli (INPHYNI), Giuseppe Patera (DYSCO), Virginia d'Auria (INPHYNI)(参考訳) 本稿では,マイクロ共振器による連続波環境下で発生する明るい周波数コムにおけるマルチモード量子相関の理論モデルを提案する。 これらの相関は, 入力ポンプが供給する4波混合プロセスと, 生成した明るいビームから生じるものである。 対数ネガティビティ基準を用いてモード分割間の絡み合いを定量化し、入力ポンプパワーの高い入力ポンプパワーで振動閾値のすぐ上の二成分系から多成分系への遷移を示す。 一般性のため、このモデルは、他の種類の非線形な$\chi$ (3) キャビティを記述するために安全に使用できる。

We present a theoretical model of multimode quantum correlations in bright frequency combs generated in continuous-wave regime by microresonators above threshold. Our analysis shows how these correlations emerge from cascading four-wave mixing processes fed by the input pump as well as the generated bright beams. Logarithmic negativity criterion is employed to quantify entanglement between partitions of modes, demonstrating the transition from a bipartite regime just above the oscillation threshold to the multipartite one at higher input pump powers. Due to its generality, our model can be safely used to describe other kinds of non-linear $\chi$ (3) cavities.
翻訳日:2023-10-04 17:06:15 公開日:2023-10-03
# 微調整 vs. Prompt-tuned Supervised Representations:どの脳言語表現が優れているか?

Fine-tuned vs. Prompt-tuned Supervised Representations: Which Better Account for Brain Language Representations? ( http://arxiv.org/abs/2310.01854v1 )

ライセンス: Link先を確認
Jingyuan Sun and Marie-Francine Moens(参考訳) 人間の脳の言語表現の根底にあるアルゴリズムを解読するために、以前の研究は、NLUタスクに基づいて微調整された人工知能ニューラルネットワーク(ANN)モデルを用いて言語入力に対する脳反応を探索した。 しかし、完全な微調整は一般にパラメトリック空間全体を更新し、事前訓練された特徴を歪め、脳の堅牢なマルチタスク学習能力と認知的に矛盾する。 対照的に、プロンプトチューニングはトレーニング済みの重みを保護し、タスクに合うようにタスク固有の埋め込みを学ぶ。 プロンプトチューニングは、微調整よりも脳の言語表現をよりよく説明できる表現を生成するか? もしそうなら、人間の脳で表現された情報をより良くデコードするために、事前訓練されたモデルにどんなnluタスクを導くのか? そこで本研究では,神経デコードにおいて,刺激によって誘発される脳活動から言語的刺激を予測する即応的および微調整された表現を比較検討する。 10個のNLUタスクのうち、完全な微調整は、ニューラルデコードにおける迅速なチューニングよりもはるかに優れており、より脳に一貫性のあるチューニング手法が脳データと相関する表現を生み出すことが示唆されている。 さらに,細粒度の概念を扱うタスクは,他のタスク,特に構文的なチャンキングタスクよりも,脳の活性化パターンをよりよくデコードする表現を産出する。 これは、言語を表現する際の浅い構文情報よりも、脳がよりきめ細かい概念情報をエンコードしていることを示している。

To decipher the algorithm underlying the human brain's language representation, previous work probed brain responses to language input with pre-trained artificial neural network (ANN) models fine-tuned on NLU tasks. However, full fine-tuning generally updates the entire parametric space and distorts pre-trained features, cognitively inconsistent with the brain's robust multi-task learning ability. Prompt-tuning, in contrast, protects pre-trained weights and learns task-specific embeddings to fit a task. Could prompt-tuning generate representations that better account for the brain's language representations than fine-tuning? If so, what kind of NLU task leads a pre-trained model to better decode the information represented in the human brain? We investigate these questions by comparing prompt-tuned and fine-tuned representations in neural decoding, that is predicting the linguistic stimulus from the brain activities evoked by the stimulus. We find that on none of the 10 NLU tasks, full fine-tuning significantly outperforms prompt-tuning in neural decoding, implicating that a more brain-consistent tuning method yields representations that better correlate with brain data. Moreover, we identify that tasks dealing with fine-grained concept meaning yield representations that better decode brain activation patterns than other tasks, especially the syntactic chunking task. This indicates that our brain encodes more fine-grained concept information than shallow syntactic information when representing languages.
翻訳日:2023-10-04 17:06:04 公開日:2023-10-03
# 2層準地すべりモデルにおけるスコアに基づくデータ同化

Score-based Data Assimilation for a Two-Layer Quasi-Geostrophic Model ( http://arxiv.org/abs/2310.01853v1 )

ライセンス: Link先を確認
Fran\c{c}ois Rozet and Gilles Louppe(参考訳) データ同化(Data assimilation)は、ノイズや不完全な観測を与えられた力学系の可塑性状態軌跡を特定する問題に対処する。 地学では、地球物理力学系の高次元性により、しばしば数百万の次元を超える課題を示す。 本研究は,新たなデータ同化手法であるスコアベースデータ同化(SDA)のスケーラビリティを,そのようなシステムで評価する。 メモリ消費と実行時間を大幅に削減することを目的としたスコアネットワークアーキテクチャの変更を提案する。 2層準地動モデルにおいて有望な結果を示す。

Data assimilation addresses the problem of identifying plausible state trajectories of dynamical systems given noisy or incomplete observations. In geosciences, it presents challenges due to the high-dimensionality of geophysical dynamical systems, often exceeding millions of dimensions. This work assesses the scalability of score-based data assimilation (SDA), a novel data assimilation method, in the context of such systems. We propose modifications to the score network architecture aimed at significantly reducing memory consumption and execution time. We demonstrate promising results for a two-layer quasi-geostrophic model.
翻訳日:2023-10-04 17:05:40 公開日:2023-10-03
# LanguageBind: 言語に基づくセマンティックアライメントによるN-モダリティへのビデオ言語事前学習

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment ( http://arxiv.org/abs/2310.01852v1 )

ライセンス: Link先を確認
Bin Zhu, Bin Lin, Munan Ning, Yang Yan, Jiaxi Cui, Wang HongFa, Yatian Pang, Wenhao Jiang, Junwu Zhang, Zongwei Li, Cai Wan Zhang, Zhifeng Li, Wei Liu, and Li Yuan(参考訳) ビデオ言語(VL)プレトレーニングは、複数の下流タスクにおいて著しく改善されている。 しかしながら、現在のVL事前学習フレームワークは、視覚や言語を超えた複数のモーダル(Nモダリティ、N>=3)にまで拡張するのは難しい。 そこで我々は言語bindを提案し,言語モダリティは十分に探索され,豊富な意味論を含んでいるため,言語を異なるモダリティのバインドとして捉える。 具体的には、VL事前学習によって得られた言語エンコーダを凍結し、コントラスト学習を伴う他のモダリティのためのエンコーダを訓練する。 その結果、すべてのモダリティは共有機能空間にマッピングされ、マルチモーダルなセマンティックアライメントを実装する。 LanguageBindは、VLモダリティをNモダリティに拡張できることを保証する一方で、言語を中心としたデータペアをアライメントする高品質なデータセットも必要です。 そこで我々は,VIDAL-10Mをビデオ,赤外線,深度,オーディオおよびそれに対応する言語として提案し,VIDAL-10Mと命名した。 我々のVIDAL-10Mでは、すべてのビデオは長いビデオから切り離されたセグメントではなく、完全な意味を持った短いビデオプラットフォームから作成されています。 vidal-10mを事前トレーニングした後、私たちはmsr-vttデータセットでimagebindを1.2%r@1に上回り、ゼロショットビデオテキスト検索のパラメータのわずか15%で、データセットの高品質を検証する。 これ以外にも、LanguageBindはゼロショットビデオ、オーディオ、深度、赤外線の理解タスクにおいて大きな改善を遂げています。 例えば、LLVIPとNYU-Dデータセットでは、LanguageBindがImageBind-hugeを23.8%、11.1%で上回っている。

The video-language (VL) pretraining has achieved remarkable improvement in multiple downstream tasks. However, the current VL pretraining framework is hard to extend to multiple modalities (N modalities, N>=3) beyond vision and language. We thus propose LanguageBind, taking the language as the bind across different modalities because the language modality is well-explored and contains rich semantics. Specifically, we freeze the language encoder acquired by VL pretraining, then train encoders for other modalities with contrastive learning. As a result, all modalities are mapped to a shared feature space, implementing multi-modal semantic alignment. While LanguageBind ensures that we can extend VL modalities to N modalities, we also need a high-quality dataset with alignment data pairs centered on language. We thus propose VIDAL-10M with Video, Infrared, Depth, Audio and their corresponding Language, naming as VIDAL-10M. In our VIDAL-10M, all videos are from short video platforms with complete semantics rather than truncated segments from long videos, and all the video, depth, infrared, and audio modalities are aligned to their textual descriptions. After pretraining on VIDAL-10M, we outperform ImageBind by 1.2% R@1 on the MSR-VTT dataset with only 15% of the parameters in the zero-shot video-text retrieval, validating the high quality of our dataset. Beyond this, our LanguageBind has achieved great improvement in the zero-shot video, audio, depth, and infrared understanding tasks. For instance, on the LLVIP and NYU-D datasets, LanguageBind outperforms ImageBind-huge with 23.8% and 11.1% top-1 accuracy.
翻訳日:2023-10-04 17:05:31 公開日:2023-10-03
# 言語モデルのジェネレータ一貫性のベンチマークと改善

Benchmarking and Improving Generator-Validator Consistency of Language Models ( http://arxiv.org/abs/2310.01846v1 )

ライセンス: Link先を確認
Xiang Lisa Li, Vaishnavi Shrivastava, Siyan Li, Tatsunori Hashimoto, Percy Liang(参考訳) 2023年9月時点で、ChatGPTは「7+8」と15と正確に答えるが、「7+8=15、True or False」と尋ねると「偽」と答える。 この解答の生成と検証の矛盾は、言語モデル(LM)や信頼を損なうことが一般的である。 本稿では,生成と検証の整合性(ジェネレータとバリケータの整合性,GVの整合性)を測定するためのフレームワークを提案する。 LMの整合性を改善するため,GV整合性のあるフィルタ生成器とバリデータ応答を微調整し,この手法を微調整と呼ぶ。 このアプローチはalpaca-30bのgv-一貫性を60%から93%に向上させ、非認識のタスクやドメインに外挿する(例えば、ポジティブなスタイル転送に対するgv-consistencyはユーモアのような未認識のスタイルに外挿する)。 一貫性の改善に加えて、一貫性の微調整により、ラベル付きデータを使用することなく、ジェネレータの品質とバリデータ精度が向上する。 算数問題,知識集約型qa,インストラクションフォローを含む6つのタスクで評価し,各タスクのジェネレータ品質を16%,バリデータ精度を6.3%改善した。

As of September 2023, ChatGPT correctly answers "what is 7+8" with 15, but when asked "7+8=15, True or False" it responds with "False". This inconsistency between generating and validating an answer is prevalent in language models (LMs) and erodes trust. In this paper, we propose a framework for measuring the consistency between generation and validation (which we call generator-validator consistency, or GV-consistency), finding that even GPT-4, a state-of-the-art LM, is GV-consistent only 76% of the time. To improve the consistency of LMs, we propose to finetune on the filtered generator and validator responses that are GV-consistent, and call this approach consistency fine-tuning. We find that this approach improves GV-consistency of Alpaca-30B from 60% to 93%, and the improvement extrapolates to unseen tasks and domains (e.g., GV-consistency for positive style transfers extrapolates to unseen styles like humor). In addition to improving consistency, consistency fine-tuning improves both generator quality and validator accuracy without using any labeled data. Evaluated across 6 tasks, including math questions, knowledge-intensive QA, and instruction following, our method improves the generator quality by 16% and the validator accuracy by 6.3% across all tasks.
翻訳日:2023-10-04 17:04:54 公開日:2023-10-03
# SAMによる建物のセグメンテーションモデルのゼロショット化

Zero-Shot Refinement of Buildings' Segmentation Models using SAM ( http://arxiv.org/abs/2310.01845v1 )

ライセンス: Link先を確認
Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor and Ali J. Ghandour(参考訳) 基礎モデルは様々なタスクで優れているが、一般的なベンチマークでしばしば評価される。 リモートセンシング画像などの特定の領域へのこれらのモデルの適応は、まだ未探索領域である。 リモートセンシングでは、都市計画のようなアプリケーションには正確なビルディングインスタンスセグメンテーションが不可欠である。 畳み込みニューラルネットワーク(CNN)はよく機能するが、その一般化は限られる。 そこで本研究では,既存モデルの一般化損失に対応するために基礎モデルを適用する新しいアプローチを提案する。 いくつかのモデルの中で、私たちは、クラスに依存しないイメージセグメンテーション能力で有名な強力な基盤モデルであるSegment Anything Model(SAM)に焦点を当てています。 まずSAMの限界を識別し、リモートセンシング画像に適用した場合の最適性能を明らかにする。 さらにSAMは認識機能を提供しておらず、ローカライズされたオブジェクトの分類とタグ付けに失敗する。 これらの制約に対処するため、事前訓練されたCNNをプロンプトジェネレータとして統合するなど、異なるプロンプト戦略を導入する。 この新しいアプローチはSAMを認識能力で強化する。 本研究では,whuビルディングデータセット,マサチューセッツ州ビルディングデータセット,aicrowdマッピング課題を含む3つのリモートセンシングデータセットについて評価を行った。 WHUデータセットのアウト・オブ・ディストリビューション性能のために、IoUは5.47%増加し、F1スコアは4.81%改善した。 WHUデータセット上での分配性能について、True-Positive-IoUとTrue-Positive-F1のスコアはそれぞれ2.72%と1.58%増加した。 私たちは、リモートセンシングコミュニティ内のドメイン固有タスクの基礎モデルをさらに探究するために、コードリポジトリをリリースするつもりです。

Foundation models have excelled in various tasks but are often evaluated on general benchmarks. The adaptation of these models for specific domains, such as remote sensing imagery, remains an underexplored area. In remote sensing, precise building instance segmentation is vital for applications like urban planning. While Convolutional Neural Networks (CNNs) perform well, their generalization can be limited. For this aim, we present a novel approach to adapt foundation models to address existing models' generalization dropback. Among several models, our focus centers on the Segment Anything Model (SAM), a potent foundation model renowned for its prowess in class-agnostic image segmentation capabilities. We start by identifying the limitations of SAM, revealing its suboptimal performance when applied to remote sensing imagery. Moreover, SAM does not offer recognition abilities and thus fails to classify and tag localized objects. To address these limitations, we introduce different prompting strategies, including integrating a pre-trained CNN as a prompt generator. This novel approach augments SAM with recognition abilities, a first of its kind. We evaluated our method on three remote sensing datasets, including the WHU Buildings dataset, the Massachusetts Buildings dataset, and the AICrowd Mapping Challenge. For out-of-distribution performance on the WHU dataset, we achieve a 5.47% increase in IoU and a 4.81% improvement in F1-score. For in-distribution performance on the WHU dataset, we observe a 2.72% and 1.58% increase in True-Positive-IoU and True-Positive-F1 score, respectively. We intend to release our code repository, hoping to inspire further exploration of foundation models for domain-specific tasks within the remote sensing community.
翻訳日:2023-10-04 17:04:24 公開日:2023-10-03
# FiGURe:フィルタ拡張によるシンプルで効率的な教師なしノード表現

FiGURe: Simple and Efficient Unsupervised Node Representations with Filter Augmentations ( http://arxiv.org/abs/2310.01892v1 )

ライセンス: Link先を確認
Chanakya Ekbote, Ajinkya Pankaj Deshpande, Arun Iyer, Ramakrishna Bairi, Sundararajan Sellamanickam(参考訳) 比較学習に基づく手法を用いて学習した教師なしノード表現は、下流タスクで優れた性能を示した。 しかし、これらの手法は低域フィルタを模倣する拡張に依存し、固有スペクトルの異なる部分を必要とするタスクでの性能を制限する。 本稿では,固有スペクトルの異なる部分を取り込む単純なフィルタベース拡張法を提案する。 これらの拡張による大幅な改善を示す。 さらに,これら異なるフィルタにまたがる重みの共有が可能であり,計算負荷を低減できることを示す。 さらに、従来の研究では、下流タスクの性能は高次元表現を必要とすることが示されている。 高次元での作業は、特に複数の拡張が関与する場合、計算量を増加させる。 この問題を緩和し、単純なランダムフーリエ特徴射影を用いて低次元埋め込みにより良好な性能を回復する。 提案手法は,同好性および異好性の両方を考慮した全データセットにおいて,最先端の教師なしモデルと比較して平均4.4 %まで向上する。 私たちのコードは以下の通りです。

Unsupervised node representations learnt using contrastive learning-based methods have shown good performance on downstream tasks. However, these methods rely on augmentations that mimic low-pass filters, limiting their performance on tasks requiring different eigen-spectrum parts. This paper presents a simple filter-based augmentation method to capture different parts of the eigen-spectrum. We show significant improvements using these augmentations. Further, we show that sharing the same weights across these different filter augmentations is possible, reducing the computational load. In addition, previous works have shown that good performance on downstream tasks requires high dimensional representations. Working with high dimensions increases the computations, especially when multiple augmentations are involved. We mitigate this problem and recover good performance through lower dimensional embeddings using simple random Fourier feature projections. Our method, FiGURe achieves an average gain of up to 4.4\%, compared to the state-of-the-art unsupervised models, across all datasets in consideration, both homophilic and heterophilic. Our code can be found at: https://github.com/microsoft/figure.
翻訳日:2023-10-04 16:57:12 公開日:2023-10-03
# ブロックワイズ変換器を用いた近無限文脈におけるリング注意

Ring Attention with Blockwise Transformers for Near-Infinite Context ( http://arxiv.org/abs/2310.01889v1 )

ライセンス: Link先を確認
Hao Liu, Matei Zaharia, Pieter Abbeel(参考訳) トランスフォーマーは多くの最先端AIモデルのアーキテクチャとして登場し、幅広いAIアプリケーションで例外的なパフォーマンスを示している。 しかし、Transformerが要求するメモリ要求は、長いシーケンスを扱う能力を制限するため、拡張シーケンスや長期依存関係を含むタスクの課題が生じる。 本稿では,複数のデバイスにまたがる長いシーケンスの分散に自己注意のブロックワイド計算を活用するとともに,ブロックワイドアテンションの計算とキーバリューブロックの通信を同時に重畳するRing Attentionを提案する。 メモリ効率を維持しながら、より長い入力シーケンスを処理することにより、Ring Attentionは、以前のメモリ効率のトランスフォーマーの倍長いデバイスカウントであるシーケンスのトレーニングと推論を可能にし、個々のデバイスに課されるメモリ制約を効果的に排除する。 言語モデリングタスクに関する広範な実験は、大きなシーケンス入力サイズとパフォーマンスの向上を可能にするリングアテンションの有効性を示している。

Transformers have emerged as the architecture of choice for many state-of-the-art AI models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands imposed by Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving extended sequences or long-term dependencies. We present a distinct approach, Ring Attention, which leverages blockwise computation of self-attention to distribute long sequences across multiple devices while concurrently overlapping the communication of key-value blocks with the computation of blockwise attention. By processing longer input sequences while maintaining memory efficiency, Ring Attention enables training and inference of sequences that are device count times longer than those of prior memory-efficient Transformers, effectively eliminating the memory constraints imposed by individual devices. Extensive experiments on language modeling tasks demonstrate the effectiveness of Ring Attention in allowing large sequence input size and improving performance.
翻訳日:2023-10-04 16:56:55 公開日:2023-10-03
# ファインチューニングモデルの有効性とパラメータ効率

Effective and Parameter-Efficient Reusing Fine-Tuned Models ( http://arxiv.org/abs/2310.01886v1 )

ライセンス: Link先を確認
Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and and Zhenguo Li and James T. Kwok(参考訳) オンラインで提供される多くの事前訓練された大規模モデルは、下流タスクへの転送に非常に効果的である。 同時に、これらの事前訓練されたモデルに微調整された様々なタスク特化モデルがオンラインで公開されている。 実際、タスク固有のデータの収集は労働集約的であり、大きな事前学習されたモデルには計算コストがかかるため、ダウンストリームタスクを扱うためにタスク固有の微調整モデルを再利用することができる。 しかし、1つのタスクにモデルを使用することで、ストレージとサービスに重荷がかかる。 近年,複数の微調整タスク固有モデルを単一マルチタスクモデルに再利用するために,学習自由かつパラメータ効率のよい多くの手法が提案されている。 しかし,これらの手法はタスク毎の微調整モデルに比べて精度の差が大きい。 本稿では,パラメータ効率のよい再使用(PERU)モデルを提案する。 完全細調整(FFT)モデルを再利用するために,スパースタスクベクトルを大まかにプラニングすることでPERU-FFTを提案する。 LoRA微調整モデルを再利用するために,低ランク行列を用いて特異値分解によりLoRA行列を近似するPERU-LoRAを提案する。 PERUFFTとPERU-LoRAはどちらも無トレーニングである。 コンピュータビジョンと自然言語処理タスクに関する広範な実験により,提案手法の有効性とパラメータ効率が実証された。 提案したPERU-FFTとPERU-LoRAは、既存の再利用モデル手法を大きなマージンで上回り、タスク毎の微調整モデルと同等の性能を達成する。

Many pre-trained large-scale models provided online have become highly effective in transferring to downstream tasks. At the same time, various task-specific models fine-tuned on these pre-trained models are available online for public use. In practice, as collecting task-specific data is labor-intensive and fine-tuning the large pre-trained models is computationally expensive, one can reuse task-specific finetuned models to deal with downstream tasks. However, using a model per task causes a heavy burden on storage and serving. Recently, many training-free and parameter-efficient methods have been proposed for reusing multiple fine-tuned task-specific models into a single multi-task model. However, these methods exhibit a large accuracy gap compared with using a fine-tuned model per task. In this paper, we propose Parameter-Efficient methods for ReUsing (PERU) fine-tuned models. For reusing Fully Fine-Tuned (FFT) models, we propose PERU-FFT by injecting a sparse task vector into a merged model by magnitude pruning. For reusing LoRA fine-tuned models, we propose PERU-LoRA use a lower-rank matrix to approximate the LoRA matrix by singular value decomposition. Both PERUFFT and PERU-LoRA are training-free. Extensive experiments conducted on computer vision and natural language process tasks demonstrate the effectiveness and parameter-efficiency of the proposed methods. The proposed PERU-FFT and PERU-LoRA outperform existing reusing model methods by a large margin and achieve comparable performance to using a fine-tuned model per task.
翻訳日:2023-10-04 16:56:38 公開日:2023-10-03
# 全デジタル脳PET減衰補正のための可変可逆ネットワークによる合成CT生成

Synthetic CT Generation via Variant Invertible Network for All-digital Brain PET Attenuation Correction ( http://arxiv.org/abs/2310.01885v1 )

ライセンス: Link先を確認
Yu Guan, Bohui Shen, Xinchong Shi, Xiangsong Zhang, Bingxuan Li, Qiegen Liu(参考訳) 減衰補正(AC)はアーティファクトフリーで定量精度の高いポジトロン放射断層撮影(PET)画像の生成に不可欠である。 しかし、PETのACは、スキャン間運動や構造ボキセル強度のPET減衰補正因子への誤変換などの課題に直面している。 近年,PETとCT(Computerd tomography)を組み合わせたデバイスが市販されて以降,定量PETにおけるACの問題は大幅に解決されている。 一方,解剖学的画像のないPET ACの深層学習手法の実現可能性を考慮して,脳PET画像における非減衰補正PET画像から深部学習を用いて連続的に評価されたCT画像を生成するPET AC法を開発した。 具体的には、合成CT生成(IVNAC)において、双方向推論プロセスを実現する可変拡張戦略と組み合わさった可逆ネットワークを提案する。 提案アルゴリズムの性能を評価するため, 比較アルゴリズム(Cycle-GAN, Pix2pixなど)を用いて, 37名の臨床患者1440名のデータを総合的に検討した。 知覚分析と定量的評価により,PET ACの可逆ネットワークは他の既存のACモデルよりも優れており,提案手法の可能性を実証し,CTのない脳PET ACの実現の可能性を示した。

Attenuation correction (AC) is essential for the generation of artifact-free and quantitatively accurate positron emission tomography (PET) images. However, AC of PET faces challenges including inter-scan motion and erroneous transformation of structural voxel-intensities to PET attenuation-correction factors. Nowadays, the problem of AC for quantitative PET have been solved to a large extent after the commercial availability of devices combining PET with computed tomography (CT). Meanwhile, considering the feasibility of a deep learning approach for PET AC without anatomical imaging, this paper develops a PET AC method, which uses deep learning to generate continuously valued CT images from non-attenuation corrected PET images for AC on brain PET imaging. Specifically, an invertible network combined with the variable augmentation strategy that can achieve the bidirectional inference processes is proposed for synthetic CT generation (IVNAC). To evaluate the performance of the proposed algorithm, we conducted a comprehensive study on a total of 1440 data from 37 clinical patients using comparative algorithms (such as Cycle-GAN and Pix2pix). Perceptual analysis and quantitative evaluations illustrate that the invertible network for PET AC outperforms other existing AC models, which demonstrates the potential of the proposed method and the feasibility of achieving brain PET AC without CT.
翻訳日:2023-10-04 16:55:39 公開日:2023-10-03
# 改良VMDとスタックインフォーマを用いた株価予測のための適応ハイブリッドモデル

Adaptive Hybrid Model for Enhanced Stock Market Predictions Using Improved VMD and Stacked Informer ( http://arxiv.org/abs/2310.01884v1 )

ライセンス: Link先を確認
Jianan Zhang and Hongyi Duan(参考訳) 本稿では,適応損失関数と統合された拡張変分モード分解(VMD),特徴工学(FE),および積み重ねインフォーマの機能を活用した,市場予測のための革新的適応型ハイブリッドモデルを提案する。 厳密な実験を通じて、提案したモデルはAdam+GC+enhanced informer(我々はVMGCformerと名づける)と呼ばれ、株式市場データの複雑なダイナミクスと揮発性の性質に対処する能力を示す。 複数のベンチマークデータセットから得られた実験結果は、従来のハイブリッドモデルよりも予測精度、応答性、一般化能力の点でモデルの優位性を強調している。 この研究は最適化の潜在的な道筋をさらに強調し、特に中小企業や機能工学にとって予測モデリングを強化するための今後の方向性を紹介している。

This paper introduces an innovative adaptive hybrid model for stock market predictions, leveraging the capabilities of an enhanced Variational Mode Decomposition (VMD), Feature Engineering (FE), and stacked Informer integrated with an adaptive loss function. Through rigorous experimentation, the proposed model, termed Adam+GC+enhanced informer (We name it VMGCformer), demonstrates significant proficiency in addressing the intricate dynamics and volatile nature of stock market data. Experimental results, derived from multiple benchmark datasets, underscore the model's superiority in terms of prediction accuracy, responsiveness, and generalization capabilities over traditional and other hybrid models. The research further highlights potential avenues for optimization and introduces future directions to enhance predictive modeling, especially for small enterprises and feature engineering.
翻訳日:2023-10-04 16:54:58 公開日:2023-10-03
# adaptive multi-nerf:adaptive multi scale neural radiance field renderingにおける効率的な並列処理の活用

Adaptive Multi-NeRF: Exploit Efficient Parallelism in Adaptive Multiple Scale Neural Radiance Field Rendering ( http://arxiv.org/abs/2310.01881v1 )

ライセンス: Link先を確認
Tong Wang and Shuichi Kurabayashi(参考訳) 近年のNeural Radiance Fields (NeRF) の進歩は、3次元シーンの出現を暗黙のニューラルネットワークとして表現し、高忠実なニューラルビューの合成を可能にしている。 しかし、長いトレーニングとレンダリングプロセスは、リアルタイムレンダリングアプリケーションでこの有望な技術が広く採用されることを妨げる。 この問題に対処するために,様々なシーンの複雑さにより負荷が不均衡な大シーンに対して,ニューラルネットワーク処理を高速化する効果的な適応型マルチNeRF手法を提案する。 本手法は,各シーン部分の複雑さに基づいて,小さなNeRFを異なる大きさのサブスペースに割り当てる木階層アプローチを用いて,シーンを軸方向のバウンディングボックスに適応的に分割する。 これにより、背景となる神経表現がシーンの特定の部分に特化されることが保証される。 各多層パーセプトロン(mlp)の表現能力のバランスをとる誘導密度グリッドを用いてシーンサブディビジョンを最適化する。 その結果、各光線によって生成されたサンプルを並列推論のためにソートして収集することができ、正規およびGPUに優しい計算に一貫した次元を持つ小さなMLPに適したバランスの取れたワークロードを実現することができる。 我々は、並列性の向上、利用、カーネル呼び出しの削減に本質的に適応する効率的なNeRFサンプリング戦略を実証し、GPU利用率の向上とレンダリングプロセスの高速化を実現した。

Recent advances in Neural Radiance Fields (NeRF) have demonstrated significant potential for representing 3D scene appearances as implicit neural networks, enabling the synthesis of high-fidelity novel views. However, the lengthy training and rendering process hinders the widespread adoption of this promising technique for real-time rendering applications. To address this issue, we present an effective adaptive multi-NeRF method designed to accelerate the neural rendering process for large scenes with unbalanced workloads due to varying scene complexities. Our method adaptively subdivides scenes into axis-aligned bounding boxes using a tree hierarchy approach, assigning smaller NeRFs to different-sized subspaces based on the complexity of each scene portion. This ensures the underlying neural representation is specific to a particular part of the scene. We optimize scene subdivision by employing a guidance density grid, which balances representation capability for each Multilayer Perceptron (MLP). Consequently, samples generated by each ray can be sorted and collected for parallel inference, achieving a balanced workload suitable for small MLPs with consistent dimensions for regular and GPU-friendly computations. We aosl demonstrated an efficient NeRF sampling strategy that intrinsically adapts to increase parallelism, utilization, and reduce kernel calls, thereby achieving much higher GPU utilization and accelerating the rendering process.
翻訳日:2023-10-04 16:54:43 公開日:2023-10-03
# AutoCast++: ゼロショットランキングベースのコンテキスト検索によるワールドイベント予測の強化

AutoCast++: Enhancing World Event Prediction with Zero-shot Ranking-based Context Retrieval ( http://arxiv.org/abs/2310.01880v1 )

ライセンス: Link先を確認
Qi Yan, Raihan Seraj, Jiawei He, Lili Meng, Tristan Sylvain(参考訳) 機械による現実世界の出来事の予測は、情報的な意思決定の可能性から注目を集めている。 従来の予測は時系列のような構造化データに主に依存するが、最近の言語モデルのブレークスルーは、非構造化テキストを使った予測を可能にする。 特に(Zou et al., 2022)は、予測クエリに回答するためにニュース記事を利用する新しいベンチマークであるAutoCastを発表した。 それでも、既存の手法は人間のパフォーマンスに遅れを取っている。 正確な予測の基盤は、巨大なコーパスから、簡潔だがリッチなニューススニペットを識別することにある、と私たちは主張する。 このモチベーションにより、イベント予測のための拡張的なニュースドキュメントコレクションを通じて、シャフトに適したゼロショットランキングベースのコンテキスト検索システムであるAutoCast++を導入する。 提案手法は、まずゼロショットの質問パス関連性に基づいて記事を再ランクし、意味的に関連するニュースに注目する。 その後、選択された記事はゼロショット要約され、簡潔な文脈となる。 事前学習言語モデルを活用することで、ドメイン固有のトレーニングを必要とせず、関連性評価と記事要約を行う。 特に、最近の記事は、新しい事実や予期しない出来事のために、前の記事と矛盾することがあるため、時間的ダイナミクスが変動する。 これに対処するため、我々の再ランキング機構は、より最近の記事に好みを与え、異なる日付の人間の予測者応答に合わせるために、さらにマルチパス表現学習を規則化する。 経験的結果は、複数のメトリクス間で改善点を示し、マルチチョイス質問(MCQ)のパフォーマンスを48%改善し、真偽質問(TF)を8%改善した。

Machine-based prediction of real-world events is garnering attention due to its potential for informed decision-making. Whereas traditional forecasting predominantly hinges on structured data like time-series, recent breakthroughs in language models enable predictions using unstructured text. In particular, (Zou et al., 2022) unveils AutoCast, a new benchmark that employs news articles for answering forecasting queries. Nevertheless, existing methods still trail behind human performance. The cornerstone of accurate forecasting, we argue, lies in identifying a concise, yet rich subset of news snippets from a vast corpus. With this motivation, we introduce AutoCast++, a zero-shot ranking-based context retrieval system, tailored to sift through expansive news document collections for event forecasting. Our approach first re-ranks articles based on zero-shot question-passage relevance, honing in on semantically pertinent news. Following this, the chosen articles are subjected to zero-shot summarization to attain succinct context. Leveraging a pre-trained language model, we conduct both the relevance evaluation and article summarization without needing domain-specific training. Notably, recent articles can sometimes be at odds with preceding ones due to new facts or unanticipated incidents, leading to fluctuating temporal dynamics. To tackle this, our re-ranking mechanism gives preference to more recent articles, and we further regularize the multi-passage representation learning to align with human forecaster responses made on different dates. Empirical results underscore marked improvements across multiple metrics, improving the performance for multiple-choice questions (MCQ) by 48% and true/false (TF) questions by up to 8%.
翻訳日:2023-10-04 16:54:17 公開日:2023-10-03
# リモートセンシング画像変化検出のための二重注意生成支援ネットワーク

A Dual Attentive Generative Adversarial Network for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2310.01876v1 )

ライセンス: Link先を確認
Luyi Qiu and Xiaofeng Zhang and ChaoChen Gu and and ShanYing Zhu(参考訳) 両時間画像間のリモートセンシング変化検出は、研究者から濃度の上昇を受信する。 しかし、異なる外観を示すため、2つの両時間画像を比較して変化を検出することは困難である。 本稿では,検出モデルを生成元とみなし,検出モデルのパラメータを増加させることなく検出モデルの最適重みを達成し,予測の空間的連続性を向上する,高分解能なリモートセンシング画像変化検出タスクを実現する,二重注意生成逆数ネットワークを提案する。 さらに,事前学習モデルを採用し,バイタイム画像から多レベル特徴を抽出し,それらを融合するために集約接続を導入するマルチレベル特徴抽出器の設計を行った。 マルチスケールオブジェクトの識別を強化するために,様々な受容場を通じてマルチスケール機能を適応的に融合し,文脈依存を探索するコンテキストリファインメントモジュールを設計するマルチスケール適応融合モジュールを提案する。 さらに、daganフレームワークは4層畳み込みネットワークを判別器として使用し、合成画像が偽か本物かを識別する。 DAGANフレームワークは85.01%がIoUであり、91.48%がLEVIRデータセットの高度な手法よりもF1スコアである。

Remote sensing change detection between bi-temporal images receives growing concentration from researchers. However, comparing two bi-temporal images for detecting changes is challenging, as they demonstrate different appearances. In this paper, we propose a dual attentive generative adversarial network for achieving very high-resolution remote sensing image change detection tasks, which regards the detection model as a generator and attains the optimal weights of the detection model without increasing the parameters of the detection model through generative-adversarial strategy, boosting the spatial contiguity of predictions. Moreover, We design a multi-level feature extractor for effectively fusing multi-level features, which adopts the pre-trained model to extract multi-level features from bi-temporal images and introduces aggregate connections to fuse them. To strengthen the identification of multi-scale objects, we propose a multi-scale adaptive fusion module to adaptively fuse multi-scale features through various receptive fields and design a context refinement module to explore contextual dependencies. Moreover, the DAGAN framework utilizes the 4-layer convolution network as a discriminator to identify whether the synthetic image is fake or real. Extensive experiments represent that the DAGAN framework has better performance with 85.01% mean IoU and 91.48% mean F1 score than advanced methods on the LEVIR dataset.
翻訳日:2023-10-04 16:53:48 公開日:2023-10-03
# 機能シフト調整による安定なバックドア浄化に向けて

Towards Stable Backdoor Purification through Feature Shift Tuning ( http://arxiv.org/abs/2310.01875v1 )

ライセンス: Link先を確認
Rui Min, Zeyu Qin, Li Shen, Minhao Cheng(参考訳) ディープニューラルネットワーク(dnn)は、少数のトレーニングサンプルを改ざんすることで、攻撃者がモデル動作を悪意を持って操作できるバックドア攻撃に対して脆弱であることが広く観察されている。 この脅威を軽減するために一連の防御手法が提案されているが、それらはトレーニングプロセスに複雑な修正を必要とするか、特定のモデルアーキテクチャに強く依存しているため、現実世界のアプリケーションへのデプロイが困難である。 そこで本稿では,多様な攻撃シナリオに対する包括的評価を通じて,最も一般的かつデプロイが容易なバックドア防御の1つである微調整から始める。 初期の実験を通して行われた観測によると、高毒性率の予測された防御効果とは対照的に、バニラチューニング手法は低毒性率のシナリオで完全に失敗する。 分析の結果,低中毒率ではバックドアとクリーンな特徴の絡み合いが,チューニングによる防御効果を損なうことが示された。 そのため、バックドアの浄化を改善するために、バックドアとクリーンな特徴を解体する必要がある。 これを解決するために,チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を導入する。 具体的には、FSTは、もともと妥協された重みから分類器の重みを積極的に逸脱することで特徴シフトを奨励する。 大規模な実験により、FSTは異なる攻撃条件下で一貫した安定した性能を提供することが示された。 さらに、計算コストを大幅に削減した実世界のシナリオでのデプロイも便利である。 我々のコードは \url{https://github.com/AISafety-HKUST/stable_backdoor_purification} で利用可能です。

It has been widely observed that deep neural networks (DNN) are vulnerable to backdoor attacks where attackers could manipulate the model behavior maliciously by tampering with a small set of training samples. Although a line of defense methods is proposed to mitigate this threat, they either require complicated modifications to the training process or heavily rely on the specific model architecture, which makes them hard to deploy into real-world applications. Therefore, in this paper, we instead start with fine-tuning, one of the most common and easy-to-deploy backdoor defenses, through comprehensive evaluations against diverse attack scenarios. Observations made through initial experiments show that in contrast to the promising defensive results on high poisoning rates, vanilla tuning methods completely fail at low poisoning rate scenarios. Our analysis shows that with the low poisoning rate, the entanglement between backdoor and clean features undermines the effect of tuning-based defenses. Therefore, it is necessary to disentangle the backdoor and clean features in order to improve backdoor purification. To address this, we introduce Feature Shift Tuning (FST), a method for tuning-based backdoor purification. Specifically, FST encourages feature shifts by actively deviating the classifier weights from the originally compromised weights. Extensive experiments demonstrate that our FST provides consistently stable performance under different attack settings. Additionally, it is also convenient to deploy in real-world scenarios with significantly reduced computation costs. Our codes are available at \url{https://github.com/AISafety-HKUST/stable_backdoor_purification}.
翻訳日:2023-10-04 16:53:24 公開日:2023-10-03
# 強結合キャビティ分子系におけるアブ・イニチオビブロ・ポリトニックスペクトル

Ab-Initio Vibro-Polaritonic Spectra in Strongly Coupled Cavity-Molecule Systems ( http://arxiv.org/abs/2310.01871v1 )

ライセンス: Link先を確認
Thomas Schnappinger and Markus Kowalewski(参考訳) 最近の実験により、光学キャビティにおける強い光・物質相互作用が分子系の電子基底状態に与える影響が明らかになった。 振動強い結合(VSC)として知られるこの現象は、反応速度を変更し、分子の光子モードと振動モードの両方を含むハイブリッド状態である分子振動偏光子の形成を引き起こす。 本稿では,分子のアンサンブルに特に強力であるボルン・オッペンハイマー・ハートリー・フォック・アンサッツのキャビティに基づくab-initio法を用いて,ビブロ偏光性赤外線スペクトルの計算を行う。 この方法はこれらのハイブリッド状態の包括的解析を可能にする。 我々の半古典的アプローチは、完全な量子シミュレーションに対して検証され、ビブロ偏光スペクトルの重要な特徴を再現する。 基礎となる解析勾配は、キャビティ結合分子システムの最適化と半古典力学シミュレーションの方法でもある。

Recent experiments have revealed the profound effect of strong light-matter interactions in optical cavities on the electronic ground state of molecular systems. This phenomenon, known as vibrational strong coupling (VSC), can modify reaction rates and induce the formation of molecular vibrational polaritons, hybrid states involving both photon modes and vibrational modes of molecules. We present an ab-initio methodology, based on the cavity Born-Oppenheimer Hartree-Fock ansatz, which is specifically powerful for ensembles of molecules, to calculate vibro-polaritonic IR spectra. This method allows a comprehensive analysis of these hybrid states. Our semi-classical approach, validated against full quantum simulations, reproduces key features of the vibro-polaritonic spectra. The underlying analytic gradients also pave the way for optimizing cavity-coupled molecular systems and performing semi-classical dynamics simulations
翻訳日:2023-10-04 16:52:58 公開日:2023-10-03
# deepdecipher: 大言語モデルにおけるニューロン活性化のアクセスと研究

DeepDecipher: Accessing and Investigating Neuron Activation in Large Language Models ( http://arxiv.org/abs/2310.01870v1 )

ライセンス: Link先を確認
Albert Garde, Esben Kran, Fazl Barez(参考訳) 大きな言語モデル(LLM)がより能力を持つようになると、解釈可能で透明なツールが緊急に必要になる。 現在の手法の実装は困難であり、モデル内部を解析するためのアクセス可能なツールが不足している。 このギャップを埋めるために、私たちはDeepDecipher – トランスフォーマーモデルのMLPレイヤでニューロンを探索するためのAPIとインターフェースを提供する。 deepdecipherはllmの高度な解釈技術の出力を簡単に利用できるようにする。 使いやすいインターフェースは、これらの複雑なモデルの検査をより直感的にする。 本稿ではDeepDecipherの設計と機能について概説する。 我々は、ニューロンを分析し、モデルを比較し、モデル行動に関する洞察を得る方法を実証する。 例えば、deepdecipherの機能とneuroscopeやopenaiのneuron explanationerのような類似のツールを比較します。 DeepDecipherは、LLMの効率的でスケーラブルな分析を可能にする。 最先端の解釈方法へのアクセスを許可することで、deepdecipherはllmをより透明で、信頼性があり、安全である。 研究者、エンジニア、開発者は、問題を迅速に診断し、システムを監査し、この分野を前進させることができる。

As large language models (LLMs) become more capable, there is an urgent need for interpretable and transparent tools. Current methods are difficult to implement, and accessible tools to analyze model internals are lacking. To bridge this gap, we present DeepDecipher - an API and interface for probing neurons in transformer models' MLP layers. DeepDecipher makes the outputs of advanced interpretability techniques for LLMs readily available. The easy-to-use interface also makes inspecting these complex models more intuitive. This paper outlines DeepDecipher's design and capabilities. We demonstrate how to analyze neurons, compare models, and gain insights into model behavior. For example, we contrast DeepDecipher's functionality with similar tools like Neuroscope and OpenAI's Neuron Explainer. DeepDecipher enables efficient, scalable analysis of LLMs. By granting access to state-of-the-art interpretability methods, DeepDecipher makes LLMs more transparent, trustworthy, and safe. Researchers, engineers, and developers can quickly diagnose issues, audit systems, and advance the field.
翻訳日:2023-10-04 16:52:40 公開日:2023-10-03
# 因果推論のための表現学習を用いた条件付き変数回帰

Conditional Instrumental Variable Regression with Representation Learning for Causal Inference ( http://arxiv.org/abs/2310.01865v1 )

ライセンス: Link先を確認
Debo Cheng, Ziqi Xu, Jiuyong Li, Lin Liu, Jixue Liu and Thuc Duy Le (UniSA STEM, University of South Australia, Australia)(参考訳) 本稿では,観測データから因果効果を推定する上での課題について考察する。 2段階最小二乗法(tsls)とその標準インストゥルメンタル変数(iv)の変種は、観察されていない共同設立者によって引き起こされるバイアスを含む共起バイアスを取り除くために一般的に用いられるが、それらは線形性仮定に依存している。 さらに、標準IVに課せられる未定の楽器の厳密な条件は、実用的すぎるほど強くない。 本稿では, 標準IV法(線形性仮定と厳密性条件)のこれらの課題に対処するために, 条件IV(CIV)を用いて, 標準IVの非整合楽器条件を緩和し, 線形性仮定を使わずに, 観測された共同設立者から共起バイアスを除去する, 共起バランス表現学習(CBRL.CIV)による非線形CIV回帰を提案する。 理論的にはCBRL.CIVの音質を実証する。 CBRL.CIVの最先端IVベース推定器に対する競争性能と非線形状況への対処における優位性を示す。

This paper studies the challenging problem of estimating causal effects from observational data, in the presence of unobserved confounders. The two-stage least square (TSLS) method and its variants with a standard instrumental variable (IV) are commonly used to eliminate confounding bias, including the bias caused by unobserved confounders, but they rely on the linearity assumption. Besides, the strict condition of unconfounded instruments posed on a standard IV is too strong to be practical. To address these challenging and practical problems of the standard IV method (linearity assumption and the strict condition), in this paper, we use a conditional IV (CIV) to relax the unconfounded instrument condition of standard IV and propose a non-linear CIV regression with Confounding Balancing Representation Learning, CBRL.CIV, for jointly eliminating the confounding bias from unobserved confounders and balancing the observed confounders, without the linearity assumption. We theoretically demonstrate the soundness of CBRL.CIV. Extensive experiments on synthetic and two real-world datasets show the competitive performance of CBRL.CIV against state-of-the-art IV-based estimators and superiority in dealing with the non-linear situation.
翻訳日:2023-10-04 16:52:24 公開日:2023-10-03
# MarineDet: オープンマリンオブジェクト検出を目指す

MarineDet: Towards Open-Marine Object Detection ( http://arxiv.org/abs/2310.01931v1 )

ライセンス: Link先を確認
Liang Haixin, Zheng Ziqiang, Ma Zeyu, Sai-Kit Yeung(参考訳) 海洋の物体検出は、海洋の謎を解き明かし、貴重な海洋生態系の理解を深める必要性によって、海洋研究で注目されている。 水中画像中の多様な海洋生物を効率よく、正確に同定し、局在させることが求められている。 オープンマリン物体検出(OMOD:open-marine object detection)は、多様な海洋物体を検知し、分類と局所化を同時に行うために必要である。 OMOD を達成するために、textbf{MarineDet} を示す。 我々は、事前訓練を通じて共同視覚テキスト意味空間を定式化し、海洋固有の訓練を行い、航空から海への知識伝達を実現する。 OMOD用に設計された特定のデータセットが存在しないことを考慮し、OMODのパフォーマンスを促進・測定するために、821の海洋相対オブジェクトカテゴリからなる \textbf{MarineDet データセットを構築した。 実験の結果,marinedetは,既存のジェネラリストおよびスペシャリスト検出アルゴリズムよりも優れた性能を示した。 このOMODは,海洋生態系のモニタリングと管理を行う上で,より価値が高く実践的な環境である。 我々の研究は海洋理解の境界を推し進めるだけでなく、OMODの標準パイプラインも提供しています。

Marine object detection has gained prominence in marine research, driven by the pressing need to unravel oceanic mysteries and enhance our understanding of invaluable marine ecosystems. There is a profound requirement to efficiently and accurately identify and localize diverse and unseen marine entities within underwater imagery. The open-marine object detection (OMOD for short) is required to detect diverse and unseen marine objects, performing categorization and localization simultaneously. To achieve OMOD, we present \textbf{MarineDet}. We formulate a joint visual-text semantic space through pre-training and then perform marine-specific training to achieve in-air-to-marine knowledge transfer. Considering there is no specific dataset designed for OMOD, we construct a \textbf{MarineDet dataset} consisting of 821 marine-relative object categories to promote and measure OMOD performance. The experimental results demonstrate the superior performance of MarineDet over existing generalist and specialist object detection algorithms. To the best of our knowledge, we are the first to present OMOD, which holds a more valuable and practical setting for marine ecosystem monitoring and management. Our research not only pushes the boundaries of marine understanding but also offers a standard pipeline for OMOD.
翻訳日:2023-10-04 15:00:22 公開日:2023-10-03
# 文化キャズムのナビゲート:テキストから画像へのモデルの文化ポブの探索と解錠

Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models ( http://arxiv.org/abs/2310.01929v1 )

ライセンス: Link先を確認
Mor Ventura and Eyal Ben-David and Anna Korhonen and Roi Reichart(参考訳) DALL-EとStableDiffusionによって実証されたテキスト・ツー・イメージ(TTI)モデルは、最近、テキスト・プロンプトでガイドされた画像を生成する際、顕著なゼロショット能力で有名になった。 言語は、文化の導管として、これらのモデルの多言語能力において重要な役割を担い、それによって文化機関を形成する。 本研究では,文化次元,文化領域,文化概念の3階層にまたがる文化を特徴付けることで,ttiモデルに埋め込まれた文化知覚について検討する。 本稿では,映像空間を用いた内在的評価,視覚問答(vqa)モデルを用いた超臨場感評価,格子文化知覚の識別のための人間評価など,総合的な評価手法を提案する。 そこで本研究では,4つのTTIモデルから派生したCulText2Iデータセットについて紹介する。 我々の実験は、これらのモデルの文化的認識、文化的区別、文化的特徴の解き放つことへの洞察を明らかにし、文化横断的な応用の可能性を公開する。

Text-To-Image (TTI) models, exemplified by DALL-E and StableDiffusion, have recently gained prominence for their remarkable zero-shot capabilities in generating images guided by textual prompts. Language, as a conduit of culture, plays a pivotal role in these models' multilingual capabilities, which in turn shape their cultural agency. In this study, we explore the cultural perception embedded in TTI models by characterizing culture across three hierarchical tiers: cultural dimensions, cultural domains, and cultural concepts. We propose a comprehensive suite of evaluation techniques, including intrinsic evaluations using the CLIP space, extrinsic evaluations with a Visual-Question-Answer (VQA) model, and human assessments, to discern TTI cultural perceptions. To facilitate our research, we introduce the CulText2I dataset, derived from four diverse TTI models and spanning ten languages. Our experiments reveal insights into these models' cultural awareness, cultural distinctions, and the unlocking of cultural features, releasing the potential for cross-cultural applications.
翻訳日:2023-10-04 15:00:00 公開日:2023-10-03
# DARTH:複数物体追跡のためのホロスティックなテスト時間適応

DARTH: Holistic Test-time Adaptation for Multiple Object Tracking ( http://arxiv.org/abs/2310.01926v1 )

ライセンス: Link先を確認
Mattia Segu, Bernt Schiele, Fisher Yu(参考訳) 複数物体追跡(MOT)は自律運転における認識システムの基本的構成要素であり、その不確認条件に対する堅牢性は、生命の危機を回避するための要件である。 運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題の解決策は提案されていない。 しかし、MOTシステムの性質は多様体(オブジェクト検出とインスタンス関連)であり、すべてのコンポーネントを適応させることは自明ではない。 本稿では、ドメインシフトが外見に基づくトラッカーに与える影響を分析し、MOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。 そこで本研究では, 自己教師ありの方法で物体検出を適応させ, 新たなパッチコントラスト損失によるインスタンス出現表現を適応させる検出一貫性の定式化を提案する。 sim-to-real, out-to-indoor, indoor-to-outdoorなど,様々なドメインシフトについて評価を行い,すべてのメトリクスのソースモデル性能を実質的に改善した。 コード: https://github.com/mattiasegu/darth。

Multiple object tracking (MOT) is a fundamental component of perception systems for autonomous driving, and its robustness to unseen conditions is a requirement to avoid life-critical failures. Despite the urge of safety in driving systems, no solution to the MOT adaptation problem to domain shift in test-time conditions has ever been proposed. However, the nature of a MOT system is manifold - requiring object detection and instance association - and adapting all its components is non-trivial. In this paper, we analyze the effect of domain shift on appearance-based trackers, and introduce DARTH, a holistic test-time adaptation framework for MOT. We propose a detection consistency formulation to adapt object detection in a self-supervised fashion, while adapting the instance appearance representations via our novel patch contrastive loss. We evaluate our method on a variety of domain shifts - including sim-to-real, outdoor-to-indoor, indoor-to-outdoor - and substantially improve the source model performance on all metrics. Code: https://github.com/mattiasegu/darth.
翻訳日:2023-10-04 14:59:38 公開日:2023-10-03
# 全スライド画像分類における複数インスタンス学習位置認識のためのロフォーマ

RoFormer for Position Aware Multiple Instance Learning in Whole Slide Image Classification ( http://arxiv.org/abs/2310.01924v1 )

ライセンス: Link先を確認
Etienne Pochet, Rami Maroun, Roger Trullo(参考訳) 全スライド画像(WSI)分類は、計算病理学において重要な課題である。 しかし、こうした画像のギガピクセルサイズは、現在のディープラーニングにおける大きな課題である。 現在の手法は、凍結した特徴抽出器を備えたMILモデルに依存している。 画像のインスタンス数が多ければ多いほど、mil法は長い間パッチの独立性と置換非分散を仮定しており、組織構造やパッチ間の相関を無視している。 最近の研究はインスタンス間の相関を研究し始めたが、そのような大量のトークンの計算負荷は制限要因として残った。 特にパッチの相対的な位置は変わっていない。 本稿では,メモリ効率の高い自己アテンションと相対的な位置エンコーディングに頼って,直接符号化モジュール,すなわちRoFormer層を適用することを提案する。 このモジュールは、大または任意の形状のWSIのパッチに相対的な位置エンコーディングを施した完全な自己アテンションを実行でき、インスタンス間の相関と組織の空間的モデリングの必要性を解決することができる。 本手法は,3つのパブリックデータセット(TCGA-NSCLC, BRACS, Camelyon16)上で,教師付き分類タスクにおいて,最先端のMILモデルよりも優れていることを示す。 コードはhttps://github.com/Sanofi-Public/DDS-RoFormerMILで入手できる。

Whole slide image (WSI) classification is a critical task in computational pathology. However, the gigapixel-size of such images remains a major challenge for the current state of deep-learning. Current methods rely on multiple-instance learning (MIL) models with frozen feature extractors. Given the the high number of instances in each image, MIL methods have long assumed independence and permutation-invariance of patches, disregarding the tissue structure and correlation between patches. Recent works started studying this correlation between instances but the computational workload of such a high number of tokens remained a limiting factor. In particular, relative position of patches remains unaddressed. We propose to apply a straightforward encoding module, namely a RoFormer layer , relying on memory-efficient exact self-attention and relative positional encoding. This module can perform full self-attention with relative position encoding on patches of large and arbitrary shaped WSIs, solving the need for correlation between instances and spatial modeling of tissues. We demonstrate that our method outperforms state-of-the-art MIL models on three commonly used public datasets (TCGA-NSCLC, BRACS and Camelyon16)) on weakly supervised classification tasks. Code is available at https://github.com/Sanofi-Public/DDS-RoFormerMIL
翻訳日:2023-10-04 14:59:20 公開日:2023-10-03
# 大規模量子モジュールアーキテクチャにおけるコア間トラフィックの特性

Characterizing the Inter-Core Qubit Traffic in Large-Scale Quantum Modular Architectures ( http://arxiv.org/abs/2310.01921v1 )

ライセンス: Link先を確認
Sahar Ben Rached, Isaac Lopez Agudo, Santiago Rodrigo, Medina Bandic, Sebastian Feld, Hans van Someren, Eduard Alarc\'on, Carmen G. Almud\'ever, Sergi Abadal(参考訳) モジュラ量子プロセッサアーキテクチャは、ノイズ中間スケール量子(NISQ)デバイス時代を超えた量子コンピューティングシステムのスケーラビリティのための有望なソリューションとして構想されている。 量子イントラネットを介して数十から数百の量子コアを相互接続することにより、主に量子ビット制御の要求を緩和し、量子コンピュータ上で大規模アルゴリズムの実行を可能にすることによって、密度の高い量子ビットパッケージ型モノリシックプロセッサの圧力制限を緩和する。 このようなアーキテクチャを最適化するためには、コア間通信ネットワークを介して発生する量子状態移動を解析することが重要である。 これはまた、マルチコア量子コンピュータのソフトウェアとハードウェアスタックを改善するための洞察を提供する。 そこで本研究では,大規模回路における時空間的コア間量子ビットトラフィックの先駆的特徴付けを行う。 プログラムは、最大1000キュービットをサポートするすべての接続されたマルチコアアーキテクチャ上で実行される。 本研究では,複数の性能指標に基づいてキュービットトラフィックを特徴付け,計算プロセスと通信オーバーヘッドを評価する。 提示された結果に基づき,提案アルゴリズムのスケーラビリティ,マルチコアプロセッサへの量子回路マッピングを改善するためのガイドライン,大規模マルチコアアーキテクチャのベンチマークの基礎を提供する。

Modular quantum processor architectures are envisioned as a promising solution for the scalability of quantum computing systems beyond the Noisy Intermediate Scale Quantum (NISQ) devices era. Based upon interconnecting tens to hundreds of quantum cores via a quantum intranet, this approach unravels the pressing limitations of densely qubit-packed monolithic processors, mainly by mitigating the requirements of qubit control and enhancing qubit isolation, and therefore enables executing large-scale algorithms on quantum computers. In order to optimize such architectures, it is crucial to analyze the quantum state transfers occurring via inter-core communication networks, referred to as inter-core qubit traffic. This would also provide insights to improve the software and hardware stack for multi-core quantum computers. To this aim, we present a pioneering characterization of the spatio-temporal inter-core qubit traffic in large-scale circuits. The programs are executed on an all-to-all connected multi-core architecture that supports up to around 1000 qubits. We characterize the qubit traffic based on multiple performance metrics to assess the computational process and the communication overhead. Based on the showcased results, we conclude on the scalability of the presented algorithms, provide a set of guidelines to improve mapping quantum circuits to multi-core processors, and lay the foundations of benchmarking large-scale multi-core architectures.
翻訳日:2023-10-04 14:59:00 公開日:2023-10-03
# 階層的評価フレームワーク:人間評価のためのベストプラクティス

Hierarchical Evaluation Framework: Best Practices for Human Evaluation ( http://arxiv.org/abs/2310.01917v1 )

ライセンス: Link先を確認
Iva Bojic, Jessica Chen, Si Yuan Chang, Qi Chwen Ong, Shafiq Joty, Josip Car(参考訳) 自然言語処理(NLP)において,人間の評価は,開発システムの品質と妥当性を評価する上で重要な役割を担っている。 しかし,NLPハマーにおいて広く受け入れられている評価基準が存在しないことは,異なるシステム間での公正な比較と普遍的評価基準の確立である。 既存の評価指標に関する文献を広範囲に分析し,nlp評価手法のギャップを明らかにした。 これらのギャップは、独自の階層的評価フレームワークを開発する動機となったのです。 提案したフレームワークは、特にNLPシステムの性能をより包括的に表現する上で、顕著な利点がある。 我々は,人間-AI共生モデルを用いて構築された機械読解システムの評価に,この枠組みを適用した。 その結果、入力と出力の質の関係が強調され、出力のみに注目するのではなく、両方のコンポーネントを評価する必要性が強調された。 今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。

Human evaluation plays a crucial role in Natural Language Processing (NLP) as it assesses the quality and relevance of developed systems, thereby facilitating their enhancement. However, the absence of widely accepted human evaluation metrics in NLP hampers fair comparisons among different systems and the establishment of universal assessment standards. Through an extensive analysis of existing literature on human evaluation metrics, we identified several gaps in NLP evaluation methodologies. These gaps served as motivation for developing our own hierarchical evaluation framework. The proposed framework offers notable advantages, particularly in providing a more comprehensive representation of the NLP system's performance. We applied this framework to evaluate the developed Machine Reading Comprehension system, which was utilized within a human-AI symbiosis model. The results highlighted the associations between the quality of inputs and outputs, underscoring the necessity to evaluate both components rather than solely focusing on outputs. In future work, we will investigate the potential time-saving benefits of our proposed framework for evaluators assessing NLP systems.
翻訳日:2023-10-04 14:58:39 公開日:2023-10-03
# UWF-CFPとOCTA画像の深層多モード融合による糖尿病網膜症重症度自動分類の改善

Improved Automatic Diabetic Retinopathy Severity Classification Using Deep Multimodal Fusion of UWF-CFP and OCTA Images ( http://arxiv.org/abs/2310.01912v1 )

ライセンス: Link先を確認
Mostafa El Habib Daho, Yihao Li, Rachid Zeghlache, Yapo Cedric Atse, Hugo Le Boit\'e, Sophie Bonnin, Deborah Cosette, Pierre Deman, Laurent Borderie, Capucine Lepicard, Ramin Tadayoni, B\'eatrice Cochener, Pierre-Henri Conze, Mathieu Lamard, and Gwenol\'e Quellec(参考訳) 糖尿病の重篤な合併症である糖尿病網膜症(dr)は、世界中の何百万人もの個人に影響を与え、正確かつタイムリーな診断の必要性を強調する。 UWF-CFP(Ultra-WideField Color Fundus Photography)やOCTA(Optra Coherence Tomography Angiography)のような最近の画像技術の発展は、DRの早期検出の機会を提供するが、それらが生成するデータの異なる性質を考えると、大きな課題も生んでいる。 本研究は,これらの画像モダリティを利用してDR分類を顕著に向上する新しいマルチモーダル手法を提案する。 提案手法では,ResNet50モデルと3D-ResNet50モデルの融合による2次元UWF-CFP画像と3次元高分解能6x6 mm$^3$ OCTA画像をSqueeze-and-Excitation (SE)ブロックで統合し,関連する特徴を増幅する。 さらに、モデルの一般化能力を高めるために、統合されたマルチモーダル特徴に適用されるManifold Mixupのマルチモーダル拡張を実装した。 実験結果から,単一のモードのみに依存する手法と比較して,DR分類性能の顕著な向上が示された。 この研究で示された方法論は、より正確で早期のdr検出を促進し、患者の臨床結果を改善する可能性を秘めている。

Diabetic Retinopathy (DR), a prevalent and severe complication of diabetes, affects millions of individuals globally, underscoring the need for accurate and timely diagnosis. Recent advancements in imaging technologies, such as Ultra-WideField Color Fundus Photography (UWF-CFP) imaging and Optical Coherence Tomography Angiography (OCTA), provide opportunities for the early detection of DR but also pose significant challenges given the disparate nature of the data they produce. This study introduces a novel multimodal approach that leverages these imaging modalities to notably enhance DR classification. Our approach integrates 2D UWF-CFP images and 3D high-resolution 6x6 mm$^3$ OCTA (both structure and flow) images using a fusion of ResNet50 and 3D-ResNet50 models, with Squeeze-and-Excitation (SE) blocks to amplify relevant features. Additionally, to increase the model's generalization capabilities, a multimodal extension of Manifold Mixup, applied to concatenated multimodal features, is implemented. Experimental results demonstrate a remarkable enhancement in DR classification performance with the proposed multimodal approach compared to methods relying on a single modality only. The methodology laid out in this work holds substantial promise for facilitating more accurate, early detection of DR, potentially improving clinical outcomes for patients.
翻訳日:2023-10-04 14:58:23 公開日:2023-10-03
# 時空間アプローチによるダイナミックコントラスト強調MRIにおけるスタイル伝達の改善

Improving style transfer in dynamic contrast enhanced MRI using a spatio-temporal approach ( http://arxiv.org/abs/2310.01908v1 )

ライセンス: Link先を確認
Adam G. Tattersall, Keith A. Goatman, Lucy E. Kershaw, Scott I. K. Semple and Sonia Dahdouh(参考訳) DCE-MRIのスタイル伝達は、異なる組織と時間にまたがるコントラスト増強の大きな変化のために難しい課題である。 現在の教師なし手法は、シリーズ内の画像間の様々なコントラストの強化と動きのために失敗する。 コントラストエンハンスメントの局所的な性質に対処するために,自動エンコーダによるコンテンツとスタイルを畳み込みLSTMと組み合わせ,予測潜在空間を時間に沿ってモデル化する手法を提案する。 本手法を評価するために,コントラストエンハンスメントを考慮した新しい指標を提案する。 定性的および定量的分析により,提案手法は2つの異なるデータセット上で技術の状態より優れていることが示された。

Style transfer in DCE-MRI is a challenging task due to large variations in contrast enhancements across different tissues and time. Current unsupervised methods fail due to the wide variety of contrast enhancement and motion between the images in the series. We propose a new method that combines autoencoders to disentangle content and style with convolutional LSTMs to model predicted latent spaces along time and adaptive convolutions to tackle the localised nature of contrast enhancement. To evaluate our method, we propose a new metric that takes into account the contrast enhancement. Qualitative and quantitative analyses show that the proposed method outperforms the state of the art on two different datasets.
翻訳日:2023-10-04 14:57:52 公開日:2023-10-03
# ベンチマークを超えて:ビデオのさまざまな異常を検出する

Beyond the Benchmark: Detecting Diverse Anomalies in Videos ( http://arxiv.org/abs/2310.01904v1 )

ライセンス: Link先を確認
Yoav Arad, Michael Werman(参考訳) ビデオ異常検出(vad: video anomaly detection)は、現代の監視システムにおいて重要な役割を果たす。 しかし、現在のベンチマークデータセットは主に、新しいオブジェクト検出のような単純な単一フレーム異常を強調している。 この狭い焦点はvadモデルの進歩を制限する。 本研究では,従来のベンチマーク境界を超える複雑な異常を包含するvad調査の拡大を提唱する。 これを容易にするために,HMDB-ADとHMDB-Violenceという2つのデータセットを導入する。 これらのデータセットは、HMDB51アクション認識データセットに由来する。 さらに,AI-VADフレームワーク上に構築された新しい手法であるMulti-Frame Anomaly Detection (MFAD)を提案する。 AI-VADは、ポーズ推定やディープイメージエンコーディングのような単一フレーム機能と、オブジェクト速度のような2フレーム機能を利用する。 そして、異常スコアを計算するために密度推定アルゴリズムを適用する。 複雑なマルチフレーム異常に対処するために,長距離時間依存性をキャプチャするディープビデオエンコーディング機能と,最終スコア計算のロジスティックレグレッションを追加した。 実験の結果,既存モデルの制約を新しい異常型で強調し,仮定を確認した。 MFADは単純かつ複雑な異常検出シナリオに優れる。

Video Anomaly Detection (VAD) plays a crucial role in modern surveillance systems, aiming to identify various anomalies in real-world situations. However, current benchmark datasets predominantly emphasize simple, single-frame anomalies such as novel object detection. This narrow focus restricts the advancement of VAD models. In this research, we advocate for an expansion of VAD investigations to encompass intricate anomalies that extend beyond conventional benchmark boundaries. To facilitate this, we introduce two datasets, HMDB-AD and HMDB-Violence, to challenge models with diverse action-based anomalies. These datasets are derived from the HMDB51 action recognition dataset. We further present Multi-Frame Anomaly Detection (MFAD), a novel method built upon the AI-VAD framework. AI-VAD utilizes single-frame features such as pose estimation and deep image encoding, and two-frame features such as object velocity. They then apply a density estimation algorithm to compute anomaly scores. To address complex multi-frame anomalies, we add a deep video encoding features capturing long-range temporal dependencies, and logistic regression to enhance final score calculation. Experimental results confirm our assumptions, highlighting existing models limitations with new anomaly types. MFAD excels in both simple and complex anomaly detection scenarios.
翻訳日:2023-10-04 14:57:39 公開日:2023-10-03
# mfos: モデルフリーかつワンショットのオブジェクトポーズ推定

MFOS: Model-Free & One-Shot Object Pose Estimation ( http://arxiv.org/abs/2310.01897v1 )

ライセンス: Link先を確認
JongMin Lee, Yohann Cabon, Romain Br\'egier, Sungjoo Yoo, Jerome Revaud(参考訳) RGB画像における既存の学習に基づくオブジェクトポーズ推定手法は、主にモデル固有またはカテゴリベースである。 テスト時に新しいオブジェクトカテゴリに一般化する能力が欠けているため、実用性とスケーラビリティが著しく阻害される。 注目すべきは、この問題を解決するために最近行われた試みだが、それでも列車とテスト時間の両方でオブジェクト表面の正確な3dデータを必要とする。 本稿では,最小限の入力を前提として,トレーニング中に見たことのないオブジェクトのポーズを1つのフォワードで推定できる新しいアプローチを提案する。 タスク固有のモジュールに依存している既存の最先端のアプローチとは対照的に,提案モデルはトランスフォーマーアーキテクチャをベースとしており,最近提案された3次元幾何学の一般事前学習の恩恵を受けることができる。 我々は、LINEMODベンチマークで広範な実験を行い、最先端のワンショット性能を報告する。 最後に、この比較的新しいタイプのアーキテクチャの分野において、広範囲にわたる改善により、優れたプラクティスを決定できるようになります。

Existing learning-based methods for object pose estimation in RGB images are mostly model-specific or category based. They lack the capability to generalize to new object categories at test time, hence severely hindering their practicability and scalability. Notably, recent attempts have been made to solve this issue, but they still require accurate 3D data of the object surface at both train and test time. In this paper, we introduce a novel approach that can estimate in a single forward pass the pose of objects never seen during training, given minimum input. In contrast to existing state-of-the-art approaches, which rely on task-specific modules, our proposed model is entirely based on a transformer architecture, which can benefit from recently proposed 3D-geometry general pretraining. We conduct extensive experiments and report state-of-the-art one-shot performance on the challenging LINEMOD benchmark. Finally, extensive ablations allow us to determine good practices with this relatively new type of architecture in the field.
翻訳日:2023-10-04 14:57:19 公開日:2023-10-03
# LLMによる運転: 説明可能な自律運転のためのオブジェクトレベルベクトルモダリティの融合

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving ( http://arxiv.org/abs/2310.01957v1 )

ライセンス: Link先を確認
Long Chen, Oleg Sinavski, Jan H\"unermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton(参考訳) 大規模言語モデル(llm)は自動運転分野、特に一般化と解釈性において有望である。 本稿では,ベクトル化数値モダリティと事前学習されたllmを融合した,ユニークなオブジェクトレベルのマルチモーダルllmアーキテクチャを提案する。 また,教師LLM(GPT-3.5)が生成する質問応答ペアとRLエージェントで収集した高品質な制御コマンドとを組み合わせ,10k運転シナリオから導出した160kQAペアのデータセットを提案する。 ベクターキャプタリング言語データを用いた静的LLM表現と数値ベクトルモダリティを一致させるための事前学習戦略が考案された。 また、運転QAの評価基準を導入し、運転シナリオの解釈、質問への回答、意思決定におけるLCMドライバの熟練度を示す。 本研究は, 従来の行動クローンと比較して, LLMによる運転行動生成の可能性を強調した。 ベンチマークやデータセット、モデルを使って、さらなる調査を行っています。

Large Language Models (LLMs) have shown promise in the autonomous driving sector, particularly in generalization and interpretability. We introduce a unique object-level multimodal LLM architecture that merges vectorized numeric modalities with a pre-trained LLM to improve context understanding in driving situations. We also present a new dataset of 160k QA pairs derived from 10k driving scenarios, paired with high quality control commands collected with RL agent and question answer pairs generated by teacher LLM (GPT-3.5). A distinct pretraining strategy is devised to align numeric vector modalities with static LLM representations using vector captioning language data. We also introduce an evaluation metric for Driving QA and demonstrate our LLM-driver's proficiency in interpreting driving scenarios, answering questions, and decision-making. Our findings highlight the potential of LLM-based driving action generation in comparison to traditional behavioral cloning. We make our benchmark, datasets, and model available for further exploration.
翻訳日:2023-10-04 14:51:30 公開日:2023-10-03
# 量子力学における負回帰実験について

On the negative-result experiments in quantum mechanics ( http://arxiv.org/abs/2310.01955v1 )

ライセンス: Link先を確認
Kenichi Konishi(参考訳) 量子力学(qm)におけるいわゆる負回帰実験(ヌル測定、相互作用フリー測定等とも呼ばれる)について、最近提案されている量子測定プロセスの新たな一般的な理解に照らしてコメントする。 この種の全ての実験(ヌル測度)は、意図的に偏った検出器を設置し、特定の事象を排除または選択する不適切な測定として理解することができる。 ヌル測定に基づく研究中の微視的系の状態の予測は、「マイクロシステムと検出器の相互作用なしに波動関数が崩壊する」と劇的に説明されることがある。 確かに正しいが、そのような予測は標準的なQM法の結果に過ぎず、いわゆる国家準備手続きの状況と異なるものではない。 もう一つの密接に関連する概念は(第一級または)反復可能な測定である。 ヌル測定による予測の検証は、最終的に、信号増幅の不可逆的かつ不可逆的な過程であるマイクロシステム・マクロ検出器相互作用を含む標準偏りのない測定を必要とする。

We comment on the so-called negative-result experiments (also known as null measurements, interaction-free measurements, and so on) in quantum mechanics (QM), in the light of the new general understanding of the quantum-measurement processes, proposed recently. All experiments of this kind (null-measurements) can be understood as improper measurements with an intentionally biased detector set up, which introduces exclusion or selection of certain events. The prediction on the state of a microscopic system under study based on a null measurement, is sometimes dramatically described as ``wave-function collapse without any microsystem-detector interactions". Though certainly correct, such a prediction is just a consequence of the standard QM laws, not different from the situation in the so-called state-preparation procedure. Another closely related concept is the (first-class or) repeatable measurements. The verification of the prediction made by a null-measurement requires eventually a standard unbiased measurement involving the microsystem-macroscopic detector interactions, which are nonadiabatic, irreversible processes of signal amplification.
翻訳日:2023-10-04 14:51:12 公開日:2023-10-03
# ベイズニューラルネットワークの確率論的リーチ回避

Probabilistic Reach-Avoid for Bayesian Neural Networks ( http://arxiv.org/abs/2310.01951v1 )

ライセンス: Link先を確認
Matthew Wicker, Luca Laurenti, Andrea Patane, Nicola Paoletti, Alessandro Abate, Marta Kwiatkowska(参考訳) モデルに基づく強化学習は、未知の確率環境のダイナミクスを同時に学習し、その動作に最適なポリシーを合成することを目指している。 このような環境における政策を通じた逐次決定の安全性と堅牢性を確保することは、安全クリティカルなシナリオを意図した政策にとって重要な課題である。 本稿では,2つの相補的な問題について検討する。第一に,bnn(bayesian neural network)が記述した,動的モデルを用いた反復予測のための到達回避確率の計算,第二に,与えられた到達回避仕様("安全でない"状態のセットを避けながら目標"状態に到達する)に対して最適な制御ポリシの合成,および学習されたbnnモデルである。 提案手法では,区間伝播と後方帰納法を利用して,ポリシーの動作列が到達回避仕様を満足させる確率の下限を計算する。 そのような計算された下限は、所定のポリシーとbnnモデルの安全性証明を提供する。 次に、安全確率の下限を最大化するポリシーを導出するために制御合成アルゴリズムを導入する。 学習bnnダイナミクスモデルを用いた一連の制御ベンチマークにおいて,本手法の有効性を示す。 最も難しいベンチマークでは、純粋にデータ駆動のポリシーと比較して、最適な合成アルゴリズムは、証明可能な状態の数を4倍以上増加させ、平均到達回避確率を3倍以上増加させることができる。

Model-based reinforcement learning seeks to simultaneously learn the dynamics of an unknown stochastic environment and synthesise an optimal policy for acting in it. Ensuring the safety and robustness of sequential decisions made through a policy in such an environment is a key challenge for policies intended for safety-critical scenarios. In this work, we investigate two complementary problems: first, computing reach-avoid probabilities for iterative predictions made with dynamical models, with dynamics described by Bayesian neural network (BNN); second, synthesising control policies that are optimal with respect to a given reach-avoid specification (reaching a "target" state, while avoiding a set of "unsafe" states) and a learned BNN model. Our solution leverages interval propagation and backward recursion techniques to compute lower bounds for the probability that a policy's sequence of actions leads to satisfying the reach-avoid specification. Such computed lower bounds provide safety certification for the given policy and BNN model. We then introduce control synthesis algorithms to derive policies maximizing said lower bounds on the safety probability. We demonstrate the effectiveness of our method on a series of control benchmarks characterized by learned BNN dynamics models. On our most challenging benchmark, compared to purely data-driven policies the optimal synthesis algorithm is able to provide more than a four-fold increase in the number of certifiable states and more than a three-fold increase in the average guaranteed reach-avoid probability.
翻訳日:2023-10-04 14:50:52 公開日:2023-10-03
# CoralVOS: コーラルビデオセグメンテーションのためのデータセットとベンチマーク

CoralVOS: Dataset and Benchmark for Coral Video Segmentation ( http://arxiv.org/abs/2310.01946v1 )

ライセンス: Link先を確認
Zheng Ziqiang, Xie Yaofeng, Liang Haixin, Yu Zhibin, Sai-Kit Yeung(参考訳) サンゴ礁は最も価値があり生産的な海洋生態系を定式化し、多くの海洋生物の生息地を提供している。 サンゴ礁の測量と分析は現在、収集された調査データから、包括的で信頼できるレポート(例えば、サンゴのカバレッジ、人口、空間分布、 \textit{etc})の作成に多大な投資を行うサンゴの専門家に限られている。 しかし,手作業による密接なサンゴ解析を行うのは非常に時間がかかるため,既存のサンゴ解析アルゴリズムが妥協し,ダウンサンプリングを行うことを選択し,選択されたフレーム内でのみスパースポイントに基づくサンゴ解析を行う。 しかし、そのようなダウンサンプリングは、推定バイアスを導入するか、あるいは間違った結果をもたらす。 この問題に対処するために,ダウンサンプリングを伴わない,‘textbf{dense coral video segmentation}’を提案する。 ビデオオブジェクトのセグメンテーションを通じて、既存のサンゴ礁分析アルゴリズムよりも、より多く \textit{reliable} と \textit{in-depth} のサンゴ解析を生成することができる。 そのような密集したサンゴの分析を促進するために、図1に示すような大規模サンゴビデオセグメンテーションデータセットである \textbf{CoralVOS} を提案する。 私たちの知る限りでは、CoralVOSはサンゴの動画セグメンテーションをサポートする最初のデータセットとベンチマークです。 我々はCoralVOSデータセットで、最新の6つの最先端ビデオオブジェクトセグメンテーション(VOS)アルゴリズムを含む実験を行った。 CoralVOSデータセット上でこれらのVOSアルゴリズムを微調整し、観測可能なパフォーマンス改善を実現しました。 その結果,セグメンテーション精度がさらに向上する可能性がまだ高いことがわかった。 データセットとトレーニングされたモデルがリリースされ、サンゴ礁研究コミュニティを育成する作業が受理される。

Coral reefs formulate the most valuable and productive marine ecosystems, providing habitat for many marine species. Coral reef surveying and analysis are currently confined to coral experts who invest substantial effort in generating comprehensive and dependable reports (\emph{e.g.}, coral coverage, population, spatial distribution, \textit{etc}), from the collected survey data. However, performing dense coral analysis based on manual efforts is significantly time-consuming, the existing coral analysis algorithms compromise and opt for performing down-sampling and only conducting sparse point-based coral analysis within selected frames. However, such down-sampling will \textbf{inevitable} introduce the estimation bias or even lead to wrong results. To address this issue, we propose to perform \textbf{dense coral video segmentation}, with no down-sampling involved. Through video object segmentation, we could generate more \textit{reliable} and \textit{in-depth} coral analysis than the existing coral reef analysis algorithms. To boost such dense coral analysis, we propose a large-scale coral video segmentation dataset: \textbf{CoralVOS} as demonstrated in Fig. 1. To the best of our knowledge, our CoralVOS is the first dataset and benchmark supporting dense coral video segmentation. We perform experiments on our CoralVOS dataset, including 6 recent state-of-the-art video object segmentation (VOS) algorithms. We fine-tuned these VOS algorithms on our CoralVOS dataset and achieved observable performance improvement. The results show that there is still great potential for further promoting the segmentation accuracy. The dataset and trained models will be released with the acceptance of this work to foster the coral reef research community.
翻訳日:2023-10-04 14:50:26 公開日:2023-10-03
# ravestate:因果特異性に基づくインタラクションポリシの分散構成

Ravestate: Distributed Composition of a Causal-Specificity-Guided Interaction Policy ( http://arxiv.org/abs/2310.01943v1 )

ライセンス: Link先を確認
Joseph Birkner, Andreas Dolp, Negin Karimi, Nikita Basargin, Alona Kharchenko and Rafael Hostettler(参考訳) 人間-ロボットインタラクションポリシー設計では、ルールベースの手法は効率的、説明可能、表現可能、直感的である。 本稿では,ルールに基づくシンボルシステム設計の先行研究を洗練し,Causal Pathway Self-informationと呼ばれるインタラクションルールユーティリティのベイズ的概念を導入するSignal-Rule-Slotフレームワークを提案する。 我々は、厳密な理論的基礎と豊富なオープンソースリファレンス実装であるravestateを提供し、テキスト、音声、視覚ベースのシナリオでユーザー研究を行う。 実験では、確率的に情報を得たルールベースのシステムの強い文脈的振る舞いを示し、より効果的な人間と機械の相互作用の道を開いた。

In human-robot interaction policy design, a rule-based method is efficient, explainable, expressive and intuitive. In this paper, we present the Signal-Rule-Slot framework, which refines prior work on rule-based symbol system design and introduces a new, Bayesian notion of interaction rule utility called Causal Pathway Self-information. We offer a rigorous theoretical foundation as well as a rich open-source reference implementation Ravestate, with which we conduct user studies in text-, speech-, and vision-based scenarios. The experiments show robust contextual behaviour of our probabilistically informed rule-based system, paving the way for more effective human-machine interaction.
翻訳日:2023-10-04 14:49:54 公開日:2023-10-03
# コントラスト学習を監督するOOD

OOD Aware Supervised Contrastive Learning ( http://arxiv.org/abs/2310.01942v1 )

ライセンス: Link先を確認
Soroush Seifi, Daniel Olmeda Reino, Nikolay Chumerin, Rahaf Aljundi(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、トレーニング分布から外れたサンプルを識別する機械学習モデルの安全なデプロイにおいて重要な問題である。 ほとんどのOOD作業は、クロスエントロピー(CE)で訓練された分類モデルに焦点を当て、固有の問題を修正しようとする。 本研究では,Supervised Contrastive (SupCon) トレーニングで学習した強力な表現を活用し,OODデータに頑健な分類器を学習するための総合的なアプローチを提案する。 SupConの損失を2つの追加のコントラスト条件で拡大します。 第1項は補助データ間の類似性に制約を加えることなく、補助OOD表現をID表現から切り離す。 第二の項は、OODの機能を既存のクラスのプロトタイプとはかけ離れたものにし、ID表現を対応するクラスのプロトタイプに近づける。 補助OODデータが利用できない場合,擬似OOD特徴を効率的に生成するための特徴混合手法を提案する。 我々の解は単純で効率的であり、閉集合教師付きコントラスト表現学習の自然な拡張として機能する。 我々は,一般的なベンチマークで異なるOOD検出手法を比較し,最先端の結果を示す。

Out-of-Distribution (OOD) detection is a crucial problem for the safe deployment of machine learning models identifying samples that fall outside of the training distribution, i.e. in-distribution data (ID). Most OOD works focus on the classification models trained with Cross Entropy (CE) and attempt to fix its inherent issues. In this work we leverage powerful representation learned with Supervised Contrastive (SupCon) training and propose a holistic approach to learn a classifier robust to OOD data. We extend SupCon loss with two additional contrast terms. The first term pushes auxiliary OOD representations away from ID representations without imposing any constraints on similarities among auxiliary data. The second term pushes OOD features far from the existing class prototypes, while pushing ID representations closer to their corresponding class prototype. When auxiliary OOD data is not available, we propose feature mixing techniques to efficiently generate pseudo-OOD features. Our solution is simple and efficient and acts as a natural extension of the closed-set supervised contrastive representation learning. We compare against different OOD detection methods on the common benchmarks and show state-of-the-art results.
翻訳日:2023-10-04 14:49:41 公開日:2023-10-03
# 量子熱機械における散逸誘起協調利点

Dissipation-induced cooperative advantage in a quantum thermal machine ( http://arxiv.org/abs/2310.01938v1 )

ライセンス: Link先を確認
Matteo Carrega, Luca Razzoli, Paolo Andrea Erdman, Fabio Cavaliere, Giuliano Benenti, Maura Sassetti(参考訳) 動作媒体が2つの非相互作用量子調和振動子によって構成され、周期的に変調されたカップリングによって共振器に接続されている量子熱エンジンは、2つの独立した単振動子エンジンが並列に動作する場合に対して協調的に有利であることを示す。 この利点は弱いものから強い減衰にまで及んでおり、特に後者の場合、独立したエンジンは有用な電力を供給できないのに対し、共通の浴槽への結合は効率とパワーが同等であり、弱い散逸の限界で得られるものよりもさらに高いパラメータ領域においても同様である。 強い散逸が熱機械の有用な資源である驚くべき事実は、2つの発振器が共通のハイブリッド周波数でロックされ、素周波数間で中間となる集合モードの出現によって説明される。 結果は, 単色駆動の最も単純な例で最初に示され, 一般化周期駆動プロトコルの最適化後に裏付けられた。 機械学習ツールを使用して任意の駆動プロトコルに対して最適化を行い、エンジンが提供できる電力と効率の間の最適なトレードオフを表すParetoフロントを見つけます。 最後に, 動作媒質に確立された絡み合いを測定するためのプロトコルを, 特定の駆動プロトコル下での熱力学的量の小さなセット, すなわち出力作業の測定によって見つける。

We show that a quantum heat engine where the working medium is composed by two non-interacting quantum harmonic oscillators, connected to common baths via periodically modulated couplings, exhibits a cooperative advantage with respect to the case of two independent single-oscillator engines working in parallel. The advantage extends from weak to strong damping, being particularly evident in the latter case, where the independent engines cannot deliver any useful power, while the coupling to common baths allows for efficiency and power comparable and in some parameter regions even higher than those obtained in the limit of weak dissipation. The surprising fact that strong dissipation is a useful resource for a thermal machine is explained in terms of the appearance of a collective mode, with the two oscillators locked at a common, hybrid frequency, intermediate between their bare frequencies. Our results are first illustrated in the simplest case of monochromatic drivings and then corroborated after optimization over generic periodic driving protocols. Using machine learning tools, we perform an optimization over arbitrary driving protocols to find the Pareto front representing optimal tradeoffs between the power and the efficiency that the engine can deliver. Finally, we find a protocol to measure the entanglement established in the working medium via measurement of a small set of thermodynamic quantities, that is, the output work under specific driving protocols.
翻訳日:2023-10-04 14:49:23 公開日:2023-10-03
# 条件付きフロントドア調整と変分オートエンコーダによる因果推論

Causal Inference with Conditional Front-Door Adjustment and Identifiable Variational Autoencoder ( http://arxiv.org/abs/2310.01937v1 )

ライセンス: Link先を確認
Ziqi Xu, Debo Cheng, Jiuyong Li, Jixue Liu, Lin Liu, Kui Yu(参考訳) 因果推論における必須かつ困難な問題は、観測データからの因果効果推定である。 この問題は、観測されていない共役変数の存在によってさらに困難になる。 フロントドア調整は、観測されていない共役変数を扱うための実践的なアプローチである。 しかし、実際には標準のフロントドア調整の制限を満たすことは困難である。 本稿では,条件付きフロントドア調整(cfd)の概念を提案し,cfd調整の因果効果の同定可能性を保証する定理を開発することで,いくつかの制約を緩和する。 さらに、実際にCFD変数が与えられることは不可能であることが多いため、データから学ぶことが望ましい。 深層生成モデルの能力を生かしてCFDiVAEを提案し, 同定可能な変分オートエンコーダを用いたデータからCFD調整変数の表現を直接学習し, モデル識別性を正式に証明する。 合成データセットに関する大規模な実験は、CFDiVAEの有効性と既存の方法よりも優れていることを検証した。 また,CFDiVAEの性能は,観測されていない共役変数の因果強度に敏感でないことを示す。 さらに,CFDiVAEを実世界のデータセットに適用し,その可能性を示す。

An essential and challenging problem in causal inference is causal effect estimation from observational data. The problem becomes more difficult with the presence of unobserved confounding variables. The front-door adjustment is a practical approach for dealing with unobserved confounding variables. However, the restriction for the standard front-door adjustment is difficult to satisfy in practice. In this paper, we relax some of the restrictions by proposing the concept of conditional front-door (CFD) adjustment and develop the theorem that guarantees the causal effect identifiability of CFD adjustment. Furthermore, as it is often impossible for a CFD variable to be given in practice, it is desirable to learn it from data. By leveraging the ability of deep generative models, we propose CFDiVAE to learn the representation of the CFD adjustment variable directly from data with the identifiable Variational AutoEncoder and formally prove the model identifiability. Extensive experiments on synthetic datasets validate the effectiveness of CFDiVAE and its superiority over existing methods. The experiments also show that the performance of CFDiVAE is less sensitive to the causal strength of unobserved confounding variables. We further apply CFDiVAE to a real-world dataset to demonstrate its potential application.
翻訳日:2023-10-04 14:48:58 公開日:2023-10-03
# 書籍からの画像テキストペアデータセットの構築

Constructing Image-Text Pair Dataset from Books ( http://arxiv.org/abs/2310.01936v1 )

ライセンス: Link先を確認
Yamato Okamoto, Haruto Toyonaga, Yoshihisa Ijiri, Hirokatsu Kataoka(参考訳) デジタルアーカイブは、貴重な書籍を保護し、多くの人に電子的に知識を提供する効果によって普及している。 本稿では,デジタルアーカイブを機械学習に活用するための新しい手法を提案する。 このようなデジタル化されたデータを十分に活用できれば、機械学習は未知の洞察を発見し、最終的に人間が本を読むように、自律的に知識を得る可能性がある。 第1のステップとして,光文字リーダ(ocr)と物体検出器,および画像テキストペアの自律抽出のためのレイアウトアナライザからなるデータセット構築パイプラインを設計する。 実験では,古いフォトブックにパイプラインを適用し,画像-テキストペアデータセットを構築し,画像-テキスト検索と洞察抽出にその効果を示す。

Digital archiving is becoming widespread owing to its effectiveness in protecting valuable books and providing knowledge to many people electronically. In this paper, we propose a novel approach to leverage digital archives for machine learning. If we can fully utilize such digitized data, machine learning has the potential to uncover unknown insights and ultimately acquire knowledge autonomously, just like humans read books. As a first step, we design a dataset construction pipeline comprising an optical character reader (OCR), an object detector, and a layout analyzer for the autonomous extraction of image-text pairs. In our experiments, we apply our pipeline on old photo books to construct an image-text pair dataset, showing its effectiveness in image-text retrieval and insight extraction.
翻訳日:2023-10-04 14:48:40 公開日:2023-10-03
# 周期整合型暗黙表現を用いたロバスト変形可能な画像登録

Robust deformable image registration using cycle-consistent implicit representations ( http://arxiv.org/abs/2310.01934v1 )

ライセンス: Link先を確認
Louis D. van Harten, Jaap Stoker, Ivana I\v{s}gum(参考訳) 医療画像登録における最近の研究は、最先端の学習手法に匹敵する性能を示すインプリシットニューラルネットワーク表現の使用を提案している。 しかし、これらの暗黙的な表現は新しい画像ペアごとに最適化されなければならない。 頑健性を向上させるために,各暗黙表現は反対の変換を推定する第2の暗黙表現とリンクされ,各ネットワークが対の逆の正則化器として機能する。 推論中に、ペアの後方変換を数値的に反転させ、最適化されたペアのコンセンサスを評価することにより、複数の変形推定を生成する。 このコンセンサスにより、単一の表現を使用するよりも登録精度が向上し、自動品質管理に使用できる堅牢な不確実性指標が得られる。 本手法を4次元肺ctデータを用いて評価した。 提案手法は,現在の最先端技術と比較して,最適化失敗率を2.4%から0.0%に削減する。 提案手法はランドマーク精度を4.5%向上させ,提案手法が正しい解に収束しないすべての事例を検出する。 腹壁4次元mriにおける中心線伝搬タスクを用いて,本手法は,単層登録に比べて46%の伝搬一貫性が向上し,提案する不確かさ指標と登録精度との間に強い相関が示された。

Recent works in medical image registration have proposed the use of Implicit Neural Representations, demonstrating performance that rivals state-of-the-art learning-based methods. However, these implicit representations need to be optimized for each new image pair, which is a stochastic process that may fail to converge to a global minimum. To improve robustness, we propose a deformable registration method using pairs of cycle-consistent Implicit Neural Representations: each implicit representation is linked to a second implicit representation that estimates the opposite transformation, causing each network to act as a regularizer for its paired opposite. During inference, we generate multiple deformation estimates by numerically inverting the paired backward transformation and evaluating the consensus of the optimized pair. This consensus improves registration accuracy over using a single representation and results in a robust uncertainty metric that can be used for automatic quality control. We evaluate our method with a 4D lung CT dataset. The proposed cycle-consistent optimization method reduces the optimization failure rate from 2.4% to 0.0% compared to the current state-of-the-art. The proposed inference method improves landmark accuracy by 4.5% and the proposed uncertainty metric detects all instances where the registration method fails to converge to a correct solution. We verify the generalizability of these results to other data using a centerline propagation task in abdominal 4D MRI, where our method achieves a 46% improvement in propagation consistency compared with single-INR registration and demonstrates a strong correlation between the proposed uncertainty metric and registration accuracy.
翻訳日:2023-10-04 14:48:28 公開日:2023-10-03
# 時間領域コルーディングeavesdropperを用いたuav swarmによる協調型セキュアリレー通信

UAV Swarm-enabled Collaborative Secure Relay Communications with Time-domain Colluding Eavesdropper ( http://arxiv.org/abs/2310.01980v1 )

ライセンス: Link先を確認
Chuang Zhang, Geng Sun, Qingqing Wu, Jiahui Li, Shuang Liang, Dusit Niyato and Victor C.M. Leung(参考訳) 航空中継機としての無人航空機(UAV)は、モノのインターネット(IoT)ネットワークの補助として事実上魅力的である。 本研究では,平面アレイアンテナ (PAA) を搭載したマイクロ基地局 (MBS) とIoT端末装置との通信を協調ビームフォーミング (CB) により支援し, 時間領域における盗聴攻撃の防止を目的とした。 具体的には、UAVSとUAVSwarmの励磁電流重量、UAV受信機の選択、UAVの位置、IoT端末装置のユーザ関連順序を共同で最適化することにより、関連するIoT端末装置の達成可能な総和率を同時に最大化し、盗聴器の達成可能な総和率を最小化し、UAVSwarmのエネルギー消費を最小化するUAV Swarm対応セキュアなマルチオブジェクト最適化問題(US2RMOP)を定式化する。 さらに,us2rmopは非凸,npハード,大規模最適化問題であることが証明された。 そこで本研究では,改良型多目的草刈りアルゴリズム (IMOGOA) を提案する。 シミュレーション結果は,提案するuav swarm対応協調型セキュアリレー戦略の有効性を示し,imogoaの優位性を示す。

Unmanned aerial vehicles (UAVs) as aerial relays are practically appealing for assisting Internet of Things (IoT) network. In this work, we aim to utilize the UAV swarm to assist the secure communication between the micro base station (MBS) equipped with the planar array antenna (PAA) and the IoT terminal devices by collaborative beamforming (CB), so as to counteract the effects of collusive eavesdropping attacks in time-domain. Specifically, we formulate a UAV swarm-enabled secure relay multi-objective optimization problem (US2RMOP) for simultaneously maximizing the achievable sum rate of associated IoT terminal devices, minimizing the achievable sum rate of the eavesdropper and minimizing the energy consumption of UAV swarm, by jointly optimizing the excitation current weights of both MBS and UAV swarm, the selection of the UAV receiver, the position of UAVs and user association order of IoT terminal devices. Furthermore, the formulated US2RMOP is proved to be a non-convex, NP-hard and large-scale optimization problem. Therefore, we propose an improved multi-objective grasshopper algorithm (IMOGOA) with some specific designs to address the problem. Simulation results exhibit the effectiveness of the proposed UAV swarm-enabled collaborative secure relay strategy and demonstrate the superiority of IMOGOA.
翻訳日:2023-10-04 14:40:52 公開日:2023-10-03
# 計算ツールとOSINTを用いたオンラインマルチメディア検証:ロシアとウクライナの紛争事例

Online Multimedia Verification with Computational Tools and OSINT: Russia-Ukraine Conflict Case Studies ( http://arxiv.org/abs/2310.01978v1 )

ライセンス: Link先を確認
Sohail Ahmed Khan, Jan Gunnar Furuly, Henrik Brattli Vold, Rano Tahseen, Duc-Tien Dang-Nguyen(参考訳) 本稿は,ロシアとウクライナの紛争における実世界の事例に着目し,オンラインマルチメディアコンテンツを検証するための計算ツールとオープンソースインテリジェンス(OSINT)技術について検討する。 2022年4月から12月までの9ヶ月間にわたって, \faktiskbar が発行した検証ワークフロー,ツール,ケーススタディを調査した。 本研究は,ジャーナリストやファクトチェッカーがエビデンスを効率的に処理し,コラボレートし,正確な情報の拡散を確実にすることを可能にするための,aiツール,位置情報ツール,インターネットアーカイブ,ソーシャルメディア監視プラットフォームなど,多様なリソースの有効性を示す。 本研究は,証拠に基づく報告の促進と誤報対策において,計算ツールとOSINT技術が果たす重要な役割を明らかにするものである。 また,現在利用可能なツールの限界やマルチメディア検証の今後の展開についても触れる。

This paper investigates the use of computational tools and Open-Source Intelligence (OSINT) techniques for verifying online multimedia content, with a specific focus on real-world cases from the Russia-Ukraine conflict. Over a nine-month period from April to December 2022, we examine verification workflows, tools, and case studies published by \faktiskbar. Our study showcases the effectiveness of diverse resources, including AI tools, geolocation tools, internet archives, and social media monitoring platforms, in enabling journalists and fact-checkers to efficiently process and corroborate evidence, ensuring the dissemination of accurate information. This research underscores the vital role of computational tools and OSINT techniques in promoting evidence-based reporting and combatting misinformation. We also touch on the current limitations of available tools and prospects for future developments in multimedia verification.
翻訳日:2023-10-04 14:40:23 公開日:2023-10-03
# 大学院計算論科における研究プロセスの経験

Experiences with Research Processes in an Undergraduate Theory of Computing Course ( http://arxiv.org/abs/2310.01977v1 )

ライセンス: Link先を確認
Ryan E. Dougherty(参考訳) コンピュータ理論(ToC)コースは、学生にとってCSが重要である理由の基礎を成す多くの学部のCSカリキュラムにおいて、必須である。 明記された目標ではないが、必然的な成果は、正式な推論と証明書を含むことが多いため、生徒の技術的読み書き能力を高めることである。 同時に、多くの大学生が研究に興味を持っているが、これらの能力は欠落している。 本研究は、学生(グループ)が割り当てられた問題を解決する技術論文を作成したり、他のグループの論文を匿名で参照したりすることで、ToCコース内の共通研究環境をエミュレートした。 本稿では,この課題の詳細と経験を考察し,類似コースに関する考察と今後の課題をまとめる。

Theory of computing (ToC) courses are a staple in many undergraduate CS curricula as they lay the foundation of why CS is important to students. Although not a stated goal, an inevitable outcome of the course is enhancing the students' technical reading and writing abilities as it often contains formal reasoning and proof writing. Separately, many undergraduate students are interested in performing research, but often lack these abilities. Based on this observation, we emulated a common research environment within our ToC course by creating a mock conference assignment, where students (in groups) both wrote a technical paper solving an assigned problem and (individually) anonymously refereed other groups' papers. In this paper we discuss the details of this assignment and our experiences, and conclude with reflections and future work about similar courses.
翻訳日:2023-10-04 14:40:08 公開日:2023-10-03
# XORデータのための2層ReLU畳み込みニューラルネットワークの良性オーバーフィッティング

Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for XOR Data ( http://arxiv.org/abs/2310.01975v1 )

ライセンス: Link先を確認
Xuran Meng, Difan Zou, Yuan Cao(参考訳) 現代のディープラーニングモデルは通常、過度にパラメータ化され、トレーニングデータに過度に適合する。 驚くべきことに、このような過剰なニューラルネットワークは、通常、高い予測精度を達成できる。 この「良性過剰適合」現象を研究するために、最近の一連の研究は線形モデルと二層ニューラルネットワークの学習を理論的に研究した。 しかし、これらの分析のほとんどは、ベイズ最適分類器が線形である非常に単純な学習問題に限定されている。 本研究では,ラベルフリッピングノイズを伴うxor型分類タスクのクラスについて検討する。 サンプルの複雑さと信号対雑音比の一定の条件下では,勾配降下により訓練された過度パラメータ化されたReLU CNNがベイズ最適精度付近で達成可能であることを示す。 さらに、前回の条件が満たされていない場合、得られたCNNの予測精度がベイズ最適速度から絶対定数であることを示す、一致した下界結果も確立する。 以上の結果から,CNNは高い相関性のある特徴が存在する場合でも,効率よくXOR問題を学習する能力を有することが明らかとなった。

Modern deep learning models are usually highly over-parameterized so that they can overfit the training data. Surprisingly, such overfitting neural networks can usually still achieve high prediction accuracy. To study this "benign overfitting" phenomenon, a line of recent works has theoretically studied the learning of linear models and two-layer neural networks. However, most of these analyses are still limited to the very simple learning problems where the Bayes-optimal classifier is linear. In this work, we investigate a class of XOR-type classification tasks with label-flipping noises. We show that, under a certain condition on the sample complexity and signal-to-noise ratio, an over-parameterized ReLU CNN trained by gradient descent can achieve near Bayes-optimal accuracy. Moreover, we also establish a matching lower bound result showing that when the previous condition is not satisfied, the prediction accuracy of the obtained CNN is an absolute constant away from the Bayes-optimal rate. Our result demonstrates that CNNs have a remarkable capacity to efficiently learn XOR problems, even in the presence of highly correlated features.
翻訳日:2023-10-04 14:39:56 公開日:2023-10-03
# Federated Wasserstein Distance

Federated Wasserstein Distance ( http://arxiv.org/abs/2310.01973v1 )

ライセンス: Link先を確認
Alain Rakotomamonjy, Kimia Nadjahi, Liva Ralaivola(参考訳) 本稿では、2つの分布間のワッサーシュタイン距離を連合的に計算する原理的方法を紹介する。 すなわち、中央のエンティティ/サーバが(サンプルにアクセスせずに)計算をオーケストレーションしている間、異なるデバイス/クライアントに格納された2つのサンプル間のワッサースタイン距離を推定する方法を示す。 この結果を達成するために、ワッサースタイン距離(特に三角不等式)と関連する測地線(英語版)(em geodesics)の幾何学的性質(federated wasserstein distance)を利用する:我々のアルゴリズム、federated wasserstein distance)は、入力サンプルの代わりに測地線空間から分布を操作・交換することでワッサースタイン距離を反復的に近似する。 我々は,FedWadの収束特性の確立に加えて,フェデレートコアセットとフェデレート最適輸送データセット距離に関する実験結果を提供し,新しいフェデレーションモデルの構築と,一般的なフェデレーション学習アルゴリズムの性能向上に活用する。

We introduce a principled way of computing the Wasserstein distance between two distributions in a federated manner. Namely, we show how to estimate the Wasserstein distance between two samples stored and kept on different devices/clients whilst a central entity/server orchestrates the computations (again, without having access to the samples). To achieve this feat, we take advantage of the geometric properties of the Wasserstein distance -- in particular, the triangle inequality -- and that of the associated {\em geodesics}: our algorithm, FedWad (for Federated Wasserstein Distance), iteratively approximates the Wasserstein distance by manipulating and exchanging distributions from the space of geodesics in lieu of the input samples. In addition to establishing the convergence properties of FedWad, we provide empirical results on federated coresets and federate optimal transport dataset distance, that we respectively exploit for building a novel federated model and for boosting performance of popular federated learning algorithms.
翻訳日:2023-10-04 14:39:38 公開日:2023-10-03
# 流行学習:ランダムなコミュニケーションによる分散学習の促進

Epidemic Learning: Boosting Decentralized Learning with Randomized Communication ( http://arxiv.org/abs/2310.01972v1 )

ライセンス: Link先を確認
Martijn de Vos, Sadegh Farhadkhani, Rachid Guerraoui, Anne-Marie Kermarrec, Rafael Pires, Rishi Sharma(参考訳) 本稿では,従来のDL手法に比べて高速なモデル収束を実現するために,通信トポロジの変化を利用した簡易かつ強力な分散学習(DL)アルゴリズムであるエピデミックラーニング(EL)を提案する。 ELの各ラウンドで、各ノードはモデル更新を$s$他のノード($n$ノードのシステム)のランダムなサンプルに送信する。 el の広範な理論解析を行い,その変化トポロジーが最先端(静的および動的)トポロジーよりも優れた収束特性をもたらすことを示した。 滑らかな非凸損失関数を考えると、el、すなわち漸近的な線形のスピードアップを達成するのに必要なラウンドの数は$\mathcal{o}(\frac{n^3}{s^2})$であり、dlのランダム化通信の利点である$ s^2 $ によって最もよく知られたバウンド$\mathcal{o}({n^3})$よりも大きい。 96ノードネットワークにおけるELを実証的に評価し,その性能を最先端のDL手法と比較した。 その結果,EL はベースライン DL アルゴリズムよりも 1.6 倍高速に収束し,同じ通信量に対して 1.8% 高い精度が得られることがわかった。

We present Epidemic Learning (EL), a simple yet powerful decentralized learning (DL) algorithm that leverages changing communication topologies to achieve faster model convergence compared to conventional DL approaches. At each round of EL, each node sends its model updates to a random sample of $s$ other nodes (in a system of $n$ nodes). We provide an extensive theoretical analysis of EL, demonstrating that its changing topology culminates in superior convergence properties compared to the state-of-the-art (static and dynamic) topologies. Considering smooth non-convex loss functions, the number of transient iterations for EL, i.e., the rounds required to achieve asymptotic linear speedup, is in $\mathcal{O}(\frac{n^3}{s^2})$ which outperforms the best-known bound $\mathcal{O}({n^3})$ by a factor of $ s^2 $, indicating the benefit of randomized communication for DL. We empirically evaluate EL in a 96-node network and compare its performance with state-of-the-art DL approaches. Our results illustrate that EL converges up to $ 1.6\times $ quicker than baseline DL algorithms and attains 1.8% higher accuracy for the same communication volume.
翻訳日:2023-10-04 14:39:16 公開日:2023-10-03
# 行列積状態の絡み合い非対称性の普遍公式

A universal formula for the entanglement asymmetry of matrix product states ( http://arxiv.org/abs/2310.01962v1 )

ライセンス: Link先を確認
Luca Capizzi, Vittorio Vitale(参考訳) 対称性の破れは物質の量子位相を理解する基本的な概念であり、ほとんどが局所次数パラメータのレンズを通して研究されている。 近年, 動的対称性の回復機構の解明に用いられてきた, 対称破れの絡み合いに基づく新しいプローブが, \textit{entanglement asymmetry} の名称で紹介されている。 ここでは、有限結合次元を持つ行列積状態のエンタングルメント非対称性について、大容量極限で有効である普遍式を提供する。 離散群や連続群の絡み合い非対称性は対称性の破れパターンにのみ依存し、他の微視的特徴とは関係がないことを示す。

Symmetry breaking is a fundamental concept in understanding quantum phases of matter, studied so far mostly through the lens of local order parameters. Recently, a new entanglement-based probe of symmetry breaking has been introduced under the name of \textit{entanglement asymmetry}, which has been employed to investigate the mechanism of dynamical symmetry restoration. Here, we provide a universal formula for the entanglement asymmetry of matrix product states with finite bond dimension, valid in the large volume limit. We show that the entanglement asymmetry of any compact -- discrete or continuous -- group depends only on the symmetry breaking pattern, and is not related to any other microscopic features.
翻訳日:2023-10-04 14:38:49 公開日:2023-10-03
# soda: 人間中心の問題を特定するオブジェクト指向関数型言語

Soda: An Object-Oriented Functional Language for Specifying Human-Centered Problems ( http://arxiv.org/abs/2310.01961v1 )

ライセンス: Link先を確認
Julian Alfredo Mendez(参考訳) 本稿では,品質と量の自然な扱いを支援する言語であるソーダ(シンボリック客観的記述分析)について述べる。 我々は,コンピュータシステムにおける複雑な要件をエンコードするための記述言語の設計に動機づけられた言語の重要な特性を述べるとともに,これらの要件を単純な定義でモデル化するために,これらの重要な性質をどのように扱うべきかを説明する。 我々は、問題をより透明でよりエラーしやすい方法で簡単に記述できるツールの概要を示す。

We present Soda (Symbolic Objective Descriptive Analysis), a language that helps to treat qualities and quantities in a natural way and greatly simplifies the task of checking their correctness. We present key properties for the language motivated by the design of a descriptive language to encode complex requirements on computer systems, and we explain how these key properties must be addressed to model these requirements with simple definitions. We give an overview of a tool that helps to describe problems in an easy way that we consider more transparent and less error-prone.
翻訳日:2023-10-04 14:38:35 公開日:2023-10-03
# 視覚単語の曖昧さ解消のための知識ベースとしての言語モデル

Language Models as Knowledge Bases for Visual Word Sense Disambiguation ( http://arxiv.org/abs/2310.01960v1 )

ライセンス: Link先を確認
Anastasia Kritharoula, Maria Lymperaiou, Giorgos Stamou(参考訳) Visual Word Sense Disambiguation (VWSD)は、言語感覚の曖昧さと細粒度マルチモーダル検索の中間の課題である。 近年,VL変換器の開発が進展していることから,自明な実装が提案されているが,さらなる改善が期待できる。 そこで本稿では,Large Language Models (LLM) を知識ベースとして使用することにより,VL変換器の検索性能を向上させるための知識向上手法を提案する。 より具体的には、llmsに格納された知識は、適切なプロンプトの助けを借りてゼロショットで取得され、パフォーマンス向上を達成する。 さらに,VWSDを純テキスト質問回答(QA)問題に変換し,生成した画像キャプションを複数選択候補として検討する。 ゼロショットおよび少数ショットのプロンプト戦略を利用して、そのような変換の可能性を探る一方、ゼロショット設定におけるChain-of-Thought(CoT)プロンプトは、LCMが従う内部推論ステップを明らかにし、適切な候補を選択する。 提案手法は,LLMに格納された知識をWVSDの解法として活用する上でのメリットを総合的に分析する最初の方法である。

Visual Word Sense Disambiguation (VWSD) is a novel challenging task that lies between linguistic sense disambiguation and fine-grained multimodal retrieval. The recent advancements in the development of visiolinguistic (VL) transformers suggest some off-the-self implementations with encouraging results, which however we argue that can be further improved. To this end, we propose some knowledge-enhancement techniques towards improving the retrieval performance of VL transformers via the usage of Large Language Models (LLMs) as Knowledge Bases. More specifically, knowledge stored in LLMs is retrieved with the help of appropriate prompts in a zero-shot manner, achieving performance advancements. Moreover, we convert VWSD to a purely textual question-answering (QA) problem by considering generated image captions as multiple-choice candidate answers. Zero-shot and few-shot prompting strategies are leveraged to explore the potential of such a transformation, while Chain-of-Thought (CoT) prompting in the zero-shot setting is able to reveal the internal reasoning steps an LLM follows to select the appropriate candidate. In total, our presented approach is the first one to analyze the merits of exploiting knowledge stored in LLMs in different ways to solve WVSD.
翻訳日:2023-10-04 14:38:26 公開日:2023-10-03
# Oracleのラベル付けを超えて: MLモデルを盗む意味は何でしょうか?

Beyond Labeling Oracles: What does it mean to steal ML models? ( http://arxiv.org/abs/2310.01959v1 )

ライセンス: Link先を確認
Avital Shafran, Ilia Shumailov, Murat A. Erdogdu, Nicolas Papernot(参考訳) モデル抽出攻撃は、ML-as-a-Serviceプロバイダが提供するAPIを通じてしばしば提供されるように、クエリアクセスのみでトレーニングされたモデルを盗むように設計されている。 mlモデルは、データ取得が難しいため、トレーニングにコストがかかり、モデル抽出の第一の動機は、スクラッチからトレーニングするよりも少ないコストでモデルを取得することである。 モデル抽出に関する文献では、攻撃者がデータ取得とラベル付けのコストの両方を節約できるという主張や仮定が一般的である。 我々は、攻撃者がしばしばそうではないことを示します。 これは、現在の攻撃が暗黙的に、被害者モデルのデータ分散からサンプルできる敵に依存しているためである。 モデル抽出の成功に影響を及ぼす要因を徹底的に評価する。 攻撃者の事前知識、すなわち配信データへのアクセスが、被害者モデルapiに対するクエリを選択するために敵が従う攻撃ポリシーのような他の要素を支配することを発見した。 したがって、固定予算で同等に有能なモデルを開発する敵は、攻撃が働くためには、配信データを集め、ラベル付けのコストだけを節約する必要があるため、モデル抽出を行うための実践的なインセンティブがほとんどない。 現在の市場でのラベル付けコストが低いため、そのような攻撃の有用性は疑わしい。 最終的には,事前知識の効果を攻撃方針から明確に分離する必要があることを実証する。 そこで本研究では,攻撃方針を直接評価するベンチマークを提案する。

Model extraction attacks are designed to steal trained models with only query access, as is often provided through APIs that ML-as-a-Service providers offer. ML models are expensive to train, in part because data is hard to obtain, and a primary incentive for model extraction is to acquire a model while incurring less cost than training from scratch. Literature on model extraction commonly claims or presumes that the attacker is able to save on both data acquisition and labeling costs. We show that the attacker often does not. This is because current attacks implicitly rely on the adversary being able to sample from the victim model's data distribution. We thoroughly evaluate factors influencing the success of model extraction. We discover that prior knowledge of the attacker, i.e. access to in-distribution data, dominates other factors like the attack policy the adversary follows to choose which queries to make to the victim model API. Thus, an adversary looking to develop an equally capable model with a fixed budget has little practical incentive to perform model extraction, since for the attack to work they need to collect in-distribution data, saving only on the cost of labeling. With low labeling costs in the current market, the usefulness of such attacks is questionable. Ultimately, we demonstrate that the effect of prior knowledge needs to be explicitly decoupled from the attack policy. To this end, we propose a benchmark to evaluate attack policy directly.
翻訳日:2023-10-04 14:38:02 公開日:2023-10-03
# 人間の活動のデコード:活動認識のためのウェアラブル加速度計とジャイロスコープデータの解析

Decoding Human Activities: Analyzing Wearable Accelerometer and Gyroscope Data for Activity Recognition ( http://arxiv.org/abs/2310.02011v1 )

ライセンス: Link先を確認
Utsab Saha, Sawradip Saha, Tahmid Kabir, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 人の動きや相対的な位置決めは、コンピュータによって読み取れる生の電気信号を効果的に生成し、異なる人間の活動の分類に様々なマニピュレータ技術を適用する。 本稿では,Residual MobileNetを組み込んだResidualネットワークに基づく階層型マルチ構造アプローチについて,FusionActNetと呼ぶ。 提案手法では,静的なアクティビティと動的アクティビティを個別に分類するために,慎重に設計されたResidualブロックを使用する。 これらのネットワークは独立して訓練され、2つの専門的かつ高精度なモデルが得られる。 これらのモデルは、アーキテクチャ調整のユニークなアルゴリズム的利点を生かして、特定のスーパークラス内での活動を認識するのに優れている。 その後、これら2つのResNetは、重み付けされたアンサンブルベースのResidual MobileNetを介して転送される。 その後、このアンサンブルは、前段階の異なる特徴特性に基づいて以前同定された特定の静的活動と特定の動的活動とを適切に識別する。 提案モデルは、UCI HARとMotion-Senseの2つの公開データセットを用いて評価される。 これにより、データ重複の非常に紛らわしいケースをうまく処理した。 そこで,提案手法では,uci harデータセットとモーションセンスデータセットで96.71%,95.35%の精度を実現している。

A person's movement or relative positioning effectively generates raw electrical signals that can be read by computing machines to apply various manipulative techniques for the classification of different human activities. In this paper, a stratified multi-structural approach based on a Residual network ensembled with Residual MobileNet is proposed, termed as FusionActNet. The proposed method involves using carefully designed Residual blocks for classifying the static and dynamic activities separately because they have clear and distinct characteristics that set them apart. These networks are trained independently, resulting in two specialized and highly accurate models. These models excel at recognizing activities within a specific superclass by taking advantage of the unique algorithmic benefits of architectural adjustments. Afterward, these two ResNets are passed through a weighted ensemble-based Residual MobileNet. Subsequently, this ensemble proficiently discriminates between a specific static and a specific dynamic activity, which were previously identified based on their distinct feature characteristics in the earlier stage. The proposed model is evaluated using two publicly accessible datasets; namely, UCI HAR and Motion-Sense. Therein, it successfully handled the highly confusing cases of data overlap. Therefore, the proposed approach achieves a state-of-the-art accuracy of 96.71% and 95.35% in the UCI HAR and Motion-Sense datasets respectively.
翻訳日:2023-10-04 14:32:21 公開日:2023-10-03
# fmeffects: 前縁効果のためのRパッケージ

fmeffects: An R Package for Forward Marginal Effects ( http://arxiv.org/abs/2310.02008v1 )

ライセンス: Link先を確認
Holger L\"owe, Christian A. Scholbeck, Christian Heumann, Bernd Bischl, Giuseppe Casalicchio(参考訳) FME(Forward marginal effect)は近年,汎用的で効果的なモデルに依存しない解釈法として導入されている。 もし$h$で$x$を変更したら、予測結果$\widehat{y}$で何が変わるのか? 本稿では、FMEの最初のソフトウェア実装であるRパッケージfmeffectsを紹介する。 本稿では,関連する理論的背景,パッケージ機能,ハンドリング,ソフトウェア設計および今後の拡張の選択肢について述べる。

Forward marginal effects (FMEs) have recently been introduced as a versatile and effective model-agnostic interpretation method. They provide comprehensible and actionable model explanations in the form of: If we change $x$ by an amount $h$, what is the change in predicted outcome $\widehat{y}$? We present the R package fmeffects, the first software implementation of FMEs. The relevant theoretical background, package functionality and handling, as well as the software design and options for future extensions are discussed in this paper.
翻訳日:2023-10-04 14:31:59 公開日:2023-10-03
# 量子古典ハイブリッド系のマルコフマスター方程式

Markovian master equations for quantum-classical hybrid systems ( http://arxiv.org/abs/2310.02006v1 )

ライセンス: Link先を確認
Alberto Barchielli(参考訳) 一貫した量子古典的ハイブリッドダイナミクスを構築する問題は、分離可能なヒルベルト空間内の量子成分と連続的な有限次元の古典成分の場合に与えられる。 マルコフの場合、問題はハイブリッド力学半群の概念によって形式化される。 古典成分は系を摂動することなく観測でき、量子古典相互作用により量子成分に関する情報を抽出することができる。 この点は、ハイブリッド力学半群と適合する正の作用素値測度と演算を導入する方法を示すことによって定式化され、この方法ではハイブリッド力学の概念は連続時間における量子測定と結び付いている。 そして、最も一般的な準自由発生器の事例を提示し、様々な量子-古典的相互作用項を議論する。 ハイゼンベルクの記述では、ハイゼンベルクはハイブリッドワイル作用素をワイル作用素の多重に送信し、準自由半群の構造に関する結果がarxiv:2307.02611で証明された。 純粋量子の場合でさえ、準自由半群はガウス構造のみを持つことに制限されず、ジャンプ型項も許される。 重要な結果として、量子成分から古典成分への情報のフローを生成する相互作用を持つためには、生成器に適切な散逸項が存在する必要がある。 最後に、準自由ケースを超える可能性について議論する。

The problem of constructing a consistent quantum-classical hybrid dynamics is afforded in the case of a quantum component in a separable Hilbert space and a continuous, finite-dimensional classical component. In the Markovian case, the problem is formalized by the notion of hybrid dynamical semigroup. A classical component can be observed without perturbing the system and information on the quantum component can be extracted, thanks to the quantum-classical interaction. This point is formalized by showing how to introduce positive operator valued measures and operations compatible with the hybrid dynamical semigroup; in this way the notion of hybrid dynamics is connected to quantum measurements in continuous time. Then, the case of the most general quasi-free generator is presented and the various quantum-classical interaction terms are discussed. To bee quasi-free means to send, in the Heisenberg description, hybrid Weyl operators into multiples of Weyl operators; the results on the structure of quasi-free semigroups were proved in the article arXiv:2307.02611. Even in the pure quantum case, a quasi-free semigroup is not restricted to have only a Gaussian structure, but also jump-type terms are allowed. An important result is that, to have interactions producing a flow of information from the quantum component to the classical one, suitable dissipative terms must be present in the generator. Finally, some possibilities are discussed to go beyond the quasi-free case.
翻訳日:2023-10-04 14:31:51 公開日:2023-10-03
# Tsetlinマシンの一般化収束解析:概念学習への確率論的アプローチ

Generalized Convergence Analysis of Tsetlin Machines: A Probabilistic Approach to Concept Learning ( http://arxiv.org/abs/2310.02005v1 )

ライセンス: Link先を確認
Mohamed-Bachir Belaid, Jivitesh Sharma, Lei Jiao, Ole-Christoffer Granmo, Per-Arne Andersen, Anis Yazidi(参考訳) Tsetlin Machines (TMs) は、命題公式を通じて概念を学習し、様々なアプリケーション領域にわたってその実証された効率性に対する関心が高まっている。 それにもかかわらず、TM の収束証明、特にリテラルの AND 作用素 (\emph{conjunction}) は、一般化された場合(2ビット以上の入力)では未解決の問題である。 本稿では,Tsetlinオートマトンに基づく機械学習アルゴリズムの総合収束解析により,このギャップを埋めることを目的とする。 本稿では,リテラルのための専用フィードバック機構と専用インクルージョン/排他確率を取り入れながら,tm構造を単純化するprobabilistic concept learning(pcl)と呼ばれる新しいフレームワークを提案する。 n$の機能を考えると、pcl は、個別の包含確率 $p_i$ と関連づけられた結合句 $c_i$ のセットを学ぶことを目指している。 最も重要なことは、$C_k$ に対して PCL が$0.5<p_k<1$ のときにリテラルの結合に収束することを確認する理論的証明を確立することである。 この結果は、tsetlin automatonベースの学習アルゴリズムの収束特性に関する将来の研究の足場となる。 本研究は,tsetlinマシンの理論的理解に寄与するだけでなく,その実用的応用にも寄与し,より堅牢で解釈可能な機械学習モデルに繋がる可能性が示唆された。

Tsetlin Machines (TMs) have garnered increasing interest for their ability to learn concepts via propositional formulas and their proven efficiency across various application domains. Despite this, the convergence proof for the TMs, particularly for the AND operator (\emph{conjunction} of literals), in the generalized case (inputs greater than two bits) remains an open problem. This paper aims to fill this gap by presenting a comprehensive convergence analysis of Tsetlin automaton-based Machine Learning algorithms. We introduce a novel framework, referred to as Probabilistic Concept Learning (PCL), which simplifies the TM structure while incorporating dedicated feedback mechanisms and dedicated inclusion/exclusion probabilities for literals. Given $n$ features, PCL aims to learn a set of conjunction clauses $C_i$ each associated with a distinct inclusion probability $p_i$. Most importantly, we establish a theoretical proof confirming that, for any clause $C_k$, PCL converges to a conjunction of literals when $0.5<p_k<1$. This result serves as a stepping stone for future research on the convergence properties of Tsetlin automaton-based learning algorithms. Our findings not only contribute to the theoretical understanding of Tsetlin Machines but also have implications for their practical application, potentially leading to more robust and interpretable machine learning models.
翻訳日:2023-10-04 14:31:27 公開日:2023-10-03
# MUSCLE:複数部位のX線画像の事前学習のためのマルチタスク型自己教師型連続学習

MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep Models for X-ray Images of Multiple Body Parts ( http://arxiv.org/abs/2310.02000v1 )

ライセンス: Link先を確認
Weibin Liao and Haoyi Xiong and Qingzhong Wang and Yan Mo and Xuhong Li and Yi Liu and Zeyu Chen and Siyu Huang and Dejing Dou(参考訳) 自己教師付き学習(SSL)アルゴリズムは深層モデルの事前訓練に広く用いられているが, SSL事前訓練モデルを用いたX線画像解析の表現学習を改善する試みは少ない。 本研究では, 頭部, 肺, 骨を含む複数の身体部位から収集したX線画像を用いて, 分類やセグメンテーションなどの複数の医療画像処理を行うための, マルチタスク・セルフスーパービジョン型連続学習(MUSCLE)という, 自己指導型事前学習パイプラインを提案する。 具体的には、複数の身体部位から収集したx線をモコベース表現学習に集約し、よく設計された連続学習(cl)手順を採用し、バックボーン対象の様々なx線分析タスクを共同で事前学習する。 MUSCLEにおけるマルチタスク/データセット学習におけるデータ不均一性,過度な適合性,破滅的な忘れを解消するための,画像前処理,学習スケジュール,正規化のための戦略が,肺炎分類,骨格異常分類,肺分節,結核(TB)検出など,9つの実世界のX線データセットを用いて,MUSCLEを評価する。 他の事前学習モデルとの比較 [7] は、自己教師付きマルチタスク/データセットの継続的な事前訓練がx線画像解析の性能を高めるという概念実証を確認した。

While self-supervised learning (SSL) algorithms have been widely used to pre-train deep models, few efforts [11] have been done to improve representation learning of X-ray image analysis with SSL pre-trained models. In this work, we study a novel self-supervised pre-training pipeline, namely Multi-task Self-super-vised Continual Learning (MUSCLE), for multiple medical imaging tasks, such as classification and segmentation, using X-ray images collected from multiple body parts, including heads, lungs, and bones. Specifically, MUSCLE aggregates X-rays collected from multiple body parts for MoCo-based representation learning, and adopts a well-designed continual learning (CL) procedure to further pre-train the backbone subject various X-ray analysis tasks jointly. Certain strategies for image pre-processing, learning schedules, and regularization have been used to solve data heterogeneity, overfitting, and catastrophic forgetting problems for multi-task/dataset learning in MUSCLE.We evaluate MUSCLE using 9 real-world X-ray datasets with various tasks, including pneumonia classification, skeletal abnormality classification, lung segmentation, and tuberculosis (TB) detection. Comparisons against other pre-trained models [7] confirm the proof-of-concept that self-supervised multi-task/dataset continual pre-training could boost the performance of X-ray image analysis.
翻訳日:2023-10-04 14:30:35 公開日:2023-10-03
# 監視量子ビットにおける局在、フラクタル性、エルゴード性

Localization, fractality, and ergodicity in a monitored qubit ( http://arxiv.org/abs/2310.01997v1 )

ライセンス: Link先を確認
Paul P\"opperl, Igor V. Gornyi, David B. Saakian, Oleg M. Yevtushenko(参考訳) そこで本研究では,二段階システム (qubit) の統計的特性を反復的に測定した。 このセットアップは、システムのユニタリダイナミクスと量子測定によって導入された非ユニタリ確率の間の複雑な相互作用を探索するための基本的な最小限のモデルであり、これは測定誘起相転移の現象の中心である。 この「トイモデル」は、量子ビットの量子状態の分布関数を長時間の極限で表す、驚くほどリッチなダイナミクスを持つことを示した。 我々はアンダーソン局在の現象と魅力的な類似点を発見したが、それは異なる基礎的なメカニズムによって支配されている。 具体的には、監視された量子ビットの状態分布関数は、ブロッホ球面上の1つの角度でパラメータ化され、アンダーソン遷移の理論に精通した様々な種類の振る舞いを示し、完全な局在からほぼ一様非局在まで、この2つの極限の間にフラクタリティが生じる。 各種特殊ケースの解析解と2つの相補的な数値的アプローチを組み合わせることにより、モデルの「位相図」を記述した構造を包括的に理解する。 我々は、初期状態の分類と定量化を行い、監視された量子ビットの2つの異なる位相:エルゴードと非エルゴードを同定する。 これら2つのフェーズ間の遷移が主な発見です。

We study the statistical properties of a single two-level system (qubit) subject to repetitive ancilla-based measurements. This setup is a fundamental minimal model for exploring the intricate interplay between the unitary dynamics of the system and the nonunitary stochasticity introduced by quantum measurements, which is central to the phenomenon of measurement-induced phase transitions. We demonstrate that this "toy model" harbors remarkably rich dynamics, manifesting in the distribution function of the qubit's quantum states in the long-time limit. We uncover a compelling analogy with the phenomenon of Anderson localization, albeit governed by distinct underlying mechanisms. Specifically, the state distribution function of the monitored qubit, parameterized by a single angle on the Bloch sphere, exhibits diverse types of behavior familiar from the theory of Anderson transitions, spanning from complete localization to almost uniform delocalization, with fractality occurring between the two limits. By combining analytical solutions for various special cases with two complementary numerical approaches, we achieve a comprehensive understanding of the structure delineating the "phase diagram" of the model. We categorize and quantify the emergent regimes and identify two distinct phases of the monitored qubit: ergodic and nonergodic. The transition between these two phases is our main finding.
翻訳日:2023-10-04 14:30:07 公開日:2023-10-03
# その寸法とピッチに基づく機械部品識別のための機械視法の開発

Development of Machine Vision Approach for Mechanical Component Identification based on its Dimension and Pitch ( http://arxiv.org/abs/2310.01995v1 )

ライセンス: Link先を確認
Toshit Jain, Faisel Mushtaq, K Ramesh, Sandip Deshmukh, Tathagata Ray, Chandu Parimi, Praveen Tandon, Pramod Kumar Jha(参考訳) 本稿では,機械組立ラインの自動化のための高度にカスタマイズ可能なスケーラブルなビジョンベースシステムについて述べる。 提案システムは,組立ラインで使用されるボルトの種類を分類し,識別するために必要な特徴を算出した。 本システムでは,ボルトの寸法の同定に加えて,ボルトのピッチを計算し,ボルトの寸法を計算する新しい手法について述べる。 この識別および分類システムは極めて軽量であり、最小限のハードウェア上で実行できる。 システムはミリ秒単位で非常に高速であるため、コンポーネントがコンベア上で着実に移動している場合でも、システムはうまく使用できる。 その結果,本システムは計算された特徴を用いて98%の精度でデータセットの部品を正しく識別できることがわかった。

In this work, a highly customizable and scalable vision based system for automation of mechanical assembly lines is described. The proposed system calculates the features that are required to classify and identify the different kinds of bolts that are used in the assembly line. The system describes a novel method of calculating the pitch of the bolt in addition to bolt identification and calculating the dimensions of the bolts. This identification and classification system is extremely lightweight and can be run on bare minimum hardware. The system is very fast in the order of milliseconds, hence the system can be used successfully even if the components are steadily moving on a conveyor. The results show that our system can correctly identify the parts in our dataset with 98% accuracy using the calculated features.
翻訳日:2023-10-04 14:29:44 公開日:2023-10-03
# 局所的コントラストからみたマスクオートエンコーダの理解

Understanding Masked Autoencoders From a Local Contrastive Perspective ( http://arxiv.org/abs/2310.01994v1 )

ライセンス: Link先を確認
Xiaoyu Yue, Lei Bai, Meng Wei, Jiangmiao Pang, Xihui Liu, Luping Zhou, Wanli Ouyang(参考訳) masked autoencoder(mae)は、単純で効果的なマスクと再構築戦略によって、自己監督学習の分野に革命をもたらした。 しかし、様々なダウンストリーム視覚タスクにおける最先端性能を達成しているにもかかわらず、MAEの有効性を駆動する基盤メカニズムは、標準的なコントラッシブ学習パラダイムに比べてあまりよく研究されていない。 本稿では,「MAE内部の豊かな隠蔽表現」に真に寄与するものを説明するために,新たな視点を探求する。 まず,攻撃的マスキングから画像を再構成する独自のエンコーダ・デコーダアーキテクチャにより,MAEの生成前訓練経路について,デコーダの動作を詳細に解析する。 maeのデコーダは、よく知られた局所性原理に固執して、限定的な受容領域で主に局所的な特徴を学習する。 この局所性仮定に基づいて、再構築に基づくMAEを地域レベルのコントラスト学習形式に再構成し、理解を向上させる理論的枠組みを提案する。 さらに,MAEの局所的なコントラスト特性を実証するために,マスクや明示的なデコーダを使わずに,MAEの本質とコントラスト学習を組み合わせ,統一的で柔軟な自己教師型学習フレームワークに光を当てる,シームズアーキテクチャを導入する。

Masked AutoEncoder(MAE) has revolutionized the field of self-supervised learning with its simple yet effective masking and reconstruction strategies. However, despite achieving state-of-the-art performance across various downstream vision tasks, the underlying mechanisms that drive MAE's efficacy are less well-explored compared to the canonical contrastive learning paradigm. In this paper, we explore a new perspective to explain what truly contributes to the "rich hidden representations inside the MAE". Firstly, concerning MAE's generative pretraining pathway, with a unique encoder-decoder architecture to reconstruct images from aggressive masking, we conduct an in-depth analysis of the decoder's behaviors. We empirically find that MAE's decoder mainly learns local features with a limited receptive field, adhering to the well-known Locality Principle. Building upon this locality assumption, we propose a theoretical framework that reformulates the reconstruction-based MAE into a local region-level contrastive learning form for improved understanding. Furthermore, to substantiate the local contrastive nature of MAE, we introduce a Siamese architecture that combines the essence of MAE and contrastive learning without masking and explicit decoder, which sheds light on a unified and more flexible self-supervised learning framework.
翻訳日:2023-10-04 14:29:32 公開日:2023-10-03
# fill in the blank: 数学用語問題における後方推論のためのllm能力の探索と拡張

Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems ( http://arxiv.org/abs/2310.01991v1 )

ライセンス: Link先を確認
Aniruddha Deb, Neeva Oza, Sarthak Singla, Dinesh Khandelwal, Dinesh Garg, Parag Singla(参考訳) 先進的推論(すなわち質問に対する答えを見つける)は近年の文献で広く研究されているが、後進的推論は比較的未解明である。 数学的な質問とその答えが与えられた場合、その質問からいくつかの詳細を省略して、LLMが欠落した情報を効果的に取り出すことができるか? 本稿では,数学語問題における後方推論タスクを正式に定義し,GSM8k,SVAMP,MultiArithの3つのデータセットを修正した。 以上の結果から, 後進推論におけるモデル精度は, 4つのSOTA LLM (GPT4, GPT3.5, PaLM-2, LLaMa-2) に比較して有意に低下した。 PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の利用可能性を活用し, 解法と検証手順を相互補完する。 最後に,各基本手法が異なる問題の集合を正しく解き、検証器によって支援されたこれらの基本手法に対してアンサンブルを生成するための新しいベイズ式を提案し,精度を著しく向上させる。 大規模な実験により,本手法は後向き推論タスクにおけるLLMの性能を連続的に向上させ,最終的なアンサンブル法は,チェーンオブシントなどの標準的プロンプト技術を用いた生LLMと比較して,かなりの性能向上をもたらすことが示された。

While forward reasoning (i.e. find the answer given the question) has been explored extensively in the recent literature, backward reasoning is relatively unexplored. We examine the backward reasoning capabilities of LLMs on Math Word Problems (MWPs): given a mathematical question and its answer, with some details omitted from the question, can LLMs effectively retrieve the missing information? In this paper, we formally define the backward reasoning task on math word problems and modify three datasets to evaluate this task: GSM8k, SVAMP and MultiArith. Our findings show a significant drop in the accuracy of models on backward reasoning compared to forward reasoning across four SOTA LLMs (GPT4, GPT3.5, PaLM-2, and LLaMa-2). Utilizing the specific format of this task, we propose three novel techniques that improve performance: Rephrase reformulates the given problem into a forward reasoning problem, PAL-Tools combines the idea of Program-Aided LLMs to produce a set of equations that can be solved by an external solver, and Check your Work exploits the availability of natural verifier of high accuracy in the forward direction, interleaving solving and verification steps. Finally, realizing that each of our base methods correctly solves a different set of problems, we propose a novel Bayesian formulation for creating an ensemble over these base methods aided by a verifier to further boost the accuracy by a significant margin. Extensive experimentation demonstrates that our techniques successively improve the performance of LLMs on the backward reasoning task, with the final ensemble-based method resulting in a substantial performance gain compared to the raw LLMs with standard prompting techniques such as chain-of-thought.
翻訳日:2023-10-04 14:29:07 公開日:2023-10-03
# 浅賀:灰色領域による自動睡眠分析

aSAGA: Automatic Sleep Analysis with Gray Areas ( http://arxiv.org/abs/2310.02032v1 )

ライセンス: Link先を確認
Matias Rusanen, Gabriel Jouan, Riku Huttunen, Sami Nikkonen, Sigr\'i{\dh}ur Sigur{\dh}ard\'ottir, Juha T\"oyr\"as, Brett Duce, Sami Myllymaa, Erna Sif Arnardottir, Timo Lepp\"anen, Anna Sigridur Islind, Samu Kainulainen, Henri Korkalainen(参考訳) 最新の自動睡眠ステージング手法は、手動睡眠ステージングと同等の信頼性と優れた時間効率をすでに示している。 しかし、完全に自動化されたブラックボックスソリューションは臨床ワークフローに適応することは困難であり、説明可能な自動的手法と睡眠技術者の仕事との相互作用は、未熟で不十分な概念化されている。 そこで本研究では,睡眠分析のためのヒューマン・イン・ザ・ループの概念を提案し,臨床用ポリソムノグラフィー記録とホームスリープ研究の両方で効果的に機能する自動睡眠ステージングモデル(asaga)を提案する。 モデルを検証するために,3つの振り返りデータセット(オープンアクセス,臨床,研究駆動)を用いた事前検証アプローチを用いて,広範囲なテストを実施した。 さらに,手作業による再評価を保証した自動睡眠分析において,灰色の領域を概念化した不明瞭な領域を識別するための不確実性マッピングの有用性を検証する。 その結果、睡眠自動分析は、異なる睡眠記録タイプにわたる手動分析と同等のレベルの一致を得た。 さらに、グレーエリアの概念の検証により、睡眠ステージの精度を高め、睡眠技術者が合意に達するのに苦労している記録領域を特定する可能性を明らかにした。 そこで本研究では,説明可能な人工知能の概念を睡眠医学に導入し,ブラックボックス批判の低減と手動睡眠ステージングに伴う負担を軽減することを目的とした,人体自動睡眠ステージングを臨床ワークフローに統合するための基盤を提供する。

State-of-the-art automatic sleep staging methods have already demonstrated comparable reliability and superior time efficiency to manual sleep staging. However, fully automatic black-box solutions are difficult to adapt into clinical workflow and the interaction between explainable automatic methods and the work of sleep technologists remains underexplored and inadequately conceptualized. Thus, we propose a human-in-the-loop concept for sleep analysis, presenting an automatic sleep staging model (aSAGA), that performs effectively with both clinical polysomnographic recordings and home sleep studies. To validate the model, extensive testing was conducted, employing a preclinical validation approach with three retrospective datasets; open-access, clinical, and research-driven. Furthermore, we validate the utilization of uncertainty mapping to identify ambiguous regions, conceptualized as gray areas, in automatic sleep analysis that warrants manual re-evaluation. The results demonstrate that the automatic sleep analysis achieved a comparable level of agreement with manual analysis across different sleep recording types. Moreover, validation of the gray area concept revealed its potential to enhance sleep staging accuracy and identify areas in the recordings where sleep technologists struggle to reach a consensus. In conclusion, this study introduces and validates a concept from explainable artificial intelligence into sleep medicine and provides the basis for integrating human-in-the-loop automatic sleep staging into clinical workflows, aiming to reduce black-box criticism and the burden associated with manual sleep staging.
翻訳日:2023-10-04 14:22:38 公開日:2023-10-03
# OceanGPT: 海洋科学タスクのための大規模言語モデル

OceanGPT: A Large Language Model for Ocean Science Tasks ( http://arxiv.org/abs/2310.02031v1 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Guozhou Zheng, Huajun Chen(参考訳) 生命と生物多様性の貯水池である海洋科学は、地球の表面の70%以上を海洋がカバーしていることを考えると、非常に重要である。 近年,Large Language Models (LLM) の進歩が科学のパラダイムを変えつつある。 他の領域での成功にもかかわらず、現在のLLMは海洋学者のようなドメインの専門家のニーズに応えられず、海洋科学のためのLLMのポテンシャルは過小評価されている。 内在的な理由は、海洋データの巨大で複雑な性質と、より高い粒度と知識の豊かさの必要性である。 これらの問題を緩和するため,海洋分野における初のLCMであるOceanGPTを紹介した。 マルチエージェント協調に基づく命令を生成する,大量の海洋ドメイン命令データを自動的に取得する新しいフレームワークであるDoInstructを提案する。 さらに,海洋域におけるLLMの能力を評価するため,最初の海洋学ベンチマークであるOceanBenchを構築した。 総合的な実験ではあるが、OceanGPTは海洋科学のタスクの高度な知識知識を示すだけでなく、海洋技術における予備的なインテリジェンス能力も得る。 コード、データ、チェックポイントは近々https://github.com/zjunlp/KnowLM.comで公開される。

Ocean science, which delves into the oceans that are reservoirs of life and biodiversity, is of great significance given that oceans cover over 70% of our planet's surface. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in science. Despite the success in other domains, current LLMs often fall short in catering to the needs of domain experts like oceanographers, and the potential of LLMs for ocean science is under-explored. The intrinsic reason may be the immense and intricate nature of ocean data as well as the necessity for higher granularity and richness in knowledge. To alleviate these issues, we introduce OceanGPT, the first-ever LLM in the ocean domain, which is expert in various ocean science tasks. We propose DoInstruct, a novel framework to automatically obtain a large volume of ocean domain instruction data, which generates instructions based on multi-agent collaboration. Additionally, we construct the first oceanography benchmark, OceanBench, to evaluate the capabilities of LLMs in the ocean domain. Though comprehensive experiments, OceanGPT not only shows a higher level of knowledge expertise for oceans science tasks but also gains preliminary embodied intelligence capabilities in ocean technology. Codes, data and checkpoints will soon be available at https://github.com/zjunlp/KnowLM.
翻訳日:2023-10-04 14:22:13 公開日:2023-10-03
# 正確な予測と下手な意思決定:AI/MLのギャップ

Between accurate prediction and poor decision making: the AI/ML gap ( http://arxiv.org/abs/2310.02029v1 )

ライセンス: Link先を確認
Gianluca Bontempi(参考訳) インテリジェントエージェントは、アクションの結果を予測し、ポリシーを最適化するために、AI/ML機能に依存する。 しかし、予測精度に対処する研究コミュニティの取り組みは非常に激しい(そして成功した)ため、学習者の予測(または分類)がより正確になるほど、最終的な決定は良くなるという錯覚を生み出した。 現在、そのような仮定は、(人間または人為的な)意思決定者が可能なアクションの有用性について完全な知識を持っている場合にのみ有効である。 本稿では,ai/mlコミュニティが,現状(あるいはターゲット)の確率の推定に過度に注意を向けて,ユーティリティの正確かつ信頼性の高い推定を損なうという,あまりにも不均衡なアプローチをとっていることを論じる。 特に、誤ったユーティリティアセスメントが決定戦略の期待される実用性に与える影響についての証拠は少ない。 この状況は、最近の批判や規制立法の努力によって強調されたように、AIソリューションの期待と効果的な影響の間に大きなギャップを生じさせている。 本稿では,このギャップを,期待するユーティリティの不確実性に対する感度を定量化し,確率推定による評価結果と比較することで検討することを目的とする。 理論的およびシミュレーションの結果、不正確な実用評価は、低い確率推定よりも(時には)有害である可能性が示されている。 コミュニティへの最後の推奨事項は、純粋な正確性駆動(あるいは強迫的な)アプローチから、より実用性に配慮した方法論に移行することです。

Intelligent agents rely on AI/ML functionalities to predict the consequence of possible actions and optimise the policy. However, the effort of the research community in addressing prediction accuracy has been so intense (and successful) that it created the illusion that the more accurate the learner prediction (or classification) the better would have been the final decision. Now, such an assumption is valid only if the (human or artificial) decision maker has complete knowledge of the utility of the possible actions. This paper argues that AI/ML community has taken so far a too unbalanced approach by devoting excessive attention to the estimation of the state (or target) probability to the detriment of accurate and reliable estimations of the utility. In particular, few evidence exists about the impact of a wrong utility assessment on the resulting expected utility of the decision strategy. This situation is creating a substantial gap between the expectations and the effective impact of AI solutions, as witnessed by recent criticisms and emphasised by the regulatory legislative efforts. This paper aims to study this gap by quantifying the sensitivity of the expected utility to the utility uncertainty and comparing it to the one due to probability estimation. Theoretical and simulated results show that an inaccurate utility assessment may as (and sometimes) more harmful than a poor probability estimation. The final recommendation to the community is then to undertake a focus shift from a pure accuracy-driven (or obsessed) approach to a more utility-aware methodology.
翻訳日:2023-10-04 14:21:45 公開日:2023-10-03
# DeepHGCN: より深いハイパーボリックグラフ畳み込みネットワークを目指して

DeepHGCN: Toward Deeper Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2310.02027v1 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Xiaowei Huang(参考訳) 双曲グラフ畳み込みネットワーク (HGCN) は階層グラフから情報を抽出する大きな可能性を証明している。 しかし、既存のHGCNは、高額な双曲演算と、深さが増加するにつれて過度に平滑な問題のために、浅いアーキテクチャに限られている。 gcnsでは、過剰摂取を軽減するために治療が適用されているが、双曲療法の開発は、双曲的性質に適合するように慎重に設計されるべきであるため、明らかな課題がある。 以上の課題に対処するため,本研究では,計算効率を劇的に改善し,オーバースムーシング効果を大幅に軽減した,最初の深層HGCNアーキテクチャであるDeepHGCNを提案する。 ディープHGCNは,(1)高速かつ高精度な線形写像を実現する新しい双曲的特徴変換層,(2)双曲的残差接続や重みと特徴の正則化といった手法を,効率的な双曲的中点法により促進する。 広範囲な実験により、DeepHGCNはユークリッドと浅い双曲GCNの変種と比較してリンク予測とノード分類のタスクが大幅に改善されていることが示された。

Hyperbolic graph convolutional networks (HGCN) have demonstrated significant potential in extracting information from hierarchical graphs. However, existing HGCNs are limited to shallow architectures, due to the expensive hyperbolic operations and the over-smoothing issue as depth increases. Although in GCNs, treatments have been applied to alleviate over-smoothing, developing a hyperbolic therapy presents distinct challenges since operations should be carefully designed to fit the hyperbolic nature. Addressing the above challenges, in this work, we propose DeepHGCN, the first deep multi-layer HGCN architecture with dramatically improved computational efficiency and substantially alleviated over-smoothing effect. DeepHGCN presents two key enablers of deep HGCNs: (1) a novel hyperbolic feature transformation layer that enables fast and accurate linear maps; and (2) Techniques such as hyperbolic residual connections and regularization for both weights and features facilitated by an efficient hyperbolic midpoint method. Extensive experiments demonstrate that DeepHGCN obtains significant improvements in link prediction and node classification tasks compared to both Euclidean and shallow hyperbolic GCN variants.
翻訳日:2023-10-04 14:21:02 公開日:2023-10-03
# DeepZero: 深層モデルトレーニングにおけるゼロ階最適化のスケールアップ

DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training ( http://arxiv.org/abs/2310.02025v1 )

ライセンス: Link先を確認
Aochuan Chen, Yimeng Zhang, Jinghan Jia, James Diffenderfer, Jiancheng Liu, Konstantinos Parasyris, Yihua Zhang, Zheng Zhang, Bhavya Kailkhura, Sijia Liu(参考訳) zeroth-order(zo)最適化は、一階(fo)情報が取得困難あるいは不可能である場合、機械学習(ml)問題を解決する一般的なテクニックとなっている。 しかし、ZO最適化のスケーラビリティは未解決の問題であり、主にサンプルワイドの敵攻撃生成のような比較的小規模なML問題に限られている。 我々の知る限り、ディープニューラルネットワーク(DNN)のトレーニングにおけるZO最適化の有効性は、性能を著しく低下させることなく実証されていない。 この障害を克服するために,ZO最適化をDNNトレーニングにスクラッチから3つの主要なイノベーションまで拡張可能なZOディープラーニング(DL)フレームワークであるDeepZeroを開発した。 まず, 学習精度と計算効率において, ランダム化ベクトル偏差推定に対する座標次勾配推定(CGE)の利点を示す。 第2に, CGE 以前のスパースDL を探索・活用するために, 有限差分のみを用いてモデルプルーニング手法を拡張したスポーシティ誘導型ZOトレーニングプロトコルを提案する。 第3に,ZO訓練の実践的実装を進めるために,機能再利用法と前方並列化法を開発した。 CIFAR-10でトレーニングしたResNet-20では,DeepZeroがSOTA(State-of-the-art)の精度を実現し,FOトレーニング性能に初めて接近した。 さらに,認証された対角防御とDLに基づく偏微分方程式誤差補正の適用においてDeepZeroの実用性を示し,SOTAよりも10~20%向上した。 我々は,拡張性のあるZO最適化に関する今後の研究を刺激し,ブラックボックスによるDLの進展に寄与すると考えている。

Zeroth-order (ZO) optimization has become a popular technique for solving machine learning (ML) problems when first-order (FO) information is difficult or impossible to obtain. However, the scalability of ZO optimization remains an open problem: Its use has primarily been limited to relatively small-scale ML problems, such as sample-wise adversarial attack generation. To our best knowledge, no prior work has demonstrated the effectiveness of ZO optimization in training deep neural networks (DNNs) without a significant decrease in performance. To overcome this roadblock, we develop DeepZero, a principled ZO deep learning (DL) framework that can scale ZO optimization to DNN training from scratch through three primary innovations. First, we demonstrate the advantages of coordinate-wise gradient estimation (CGE) over randomized vector-wise gradient estimation in training accuracy and computational efficiency. Second, we propose a sparsity-induced ZO training protocol that extends the model pruning methodology using only finite differences to explore and exploit the sparse DL prior in CGE. Third, we develop the methods of feature reuse and forward parallelization to advance the practical implementations of ZO training. Our extensive experiments show that DeepZero achieves state-of-the-art (SOTA) accuracy on ResNet-20 trained on CIFAR-10, approaching FO training performance for the first time. Furthermore, we show the practical utility of DeepZero in applications of certified adversarial defense and DL-based partial differential equation error correction, achieving 10-20% improvement over SOTA. We believe our results will inspire future research on scalable ZO optimization and contribute to advancing DL with black box.
翻訳日:2023-10-04 14:20:00 公開日:2023-10-03
# 線形バンディットに対するナッシュ後悔の保証

Nash Regret Guarantees for Linear Bandits ( http://arxiv.org/abs/2310.02023v1 )

ライセンス: Link先を確認
Ayush Sawarni, Soumybrata Pal, and Siddharth Barman(参考訳) 確率的線形バンディットの枠組みにおける後悔の強固な概念に対する本質的に強固な上界を得る。 Nash regret と呼ばれる強化は、(事前未知の)最適化と線形バンドイットアルゴリズムによって蓄積される期待報酬の幾何学的平均との差として定義される。 幾何学的平均はよく研究されたナッシュ社会福祉(nsw)関数に対応するため、この定式化はバンディットアルゴリズムの性能をラウンドをまたいだ集団的福祉として定量化する。 NSW はフェアネス公理を満たすことが知られており、ナッシュの後悔の上限は原理化されたフェアネスを保証する。 我々は、T$の水平線上の確率線型包帯問題と、周囲次元$d$における腕の組${X}$を考える。 さらに、${X}$ の各アームに付随する確率的報酬が非負の $\nu$-sub-Poisson 確率変数であるような設定に焦点を当てる。 この設定のために、Nashが$O\left( \sqrt {\frac{d\nu}{T}} \log(T |X|)\right)$を後悔するアルゴリズムを開発する。 さらに、腕の集合{X}$が必ずしも有限でない線型バンドイットのインスタンスに対処すると、ナッシュ後悔の上界は$O\left( \frac{d^\frac{5}{4}\nu^{\frac{1}{2}}}{\sqrt{T}} \log(T)\right)$となる。 有界確率変数は部分ポアソンであるため、これらの結果は有界で正の報酬を持つ。 線形バンドイットアルゴリズムは,Keefer-Wolfowitz最適設計と連動して,調整された濃度境界やJohn ellipsoid を用いたサンプリングなど,新しい技術的洞察を持つ逐次除去法に基づいて構築されている。

We obtain essentially tight upper bounds for a strengthened notion of regret in the stochastic linear bandits framework. The strengthening -- referred to as Nash regret -- is defined as the difference between the (a priori unknown) optimum and the geometric mean of expected rewards accumulated by the linear bandit algorithm. Since the geometric mean corresponds to the well-studied Nash social welfare (NSW) function, this formulation quantifies the performance of a bandit algorithm as the collective welfare it generates across rounds. NSW is known to satisfy fairness axioms and, hence, an upper bound on Nash regret provides a principled fairness guarantee. We consider the stochastic linear bandits problem over a horizon of $T$ rounds and with set of arms ${X}$ in ambient dimension $d$. Furthermore, we focus on settings in which the stochastic reward -- associated with each arm in ${X}$ -- is a non-negative, $\nu$-sub-Poisson random variable. For this setting, we develop an algorithm that achieves a Nash regret of $O\left( \sqrt{\frac{d\nu}{T}} \log( T |X|)\right)$. In addition, addressing linear bandit instances in which the set of arms ${X}$ is not necessarily finite, we obtain a Nash regret upper bound of $O\left( \frac{d^\frac{5}{4}\nu^{\frac{1}{2}}}{\sqrt{T}} \log(T)\right)$. Since bounded random variables are sub-Poisson, these results hold for bounded, positive rewards. Our linear bandit algorithm is built upon the successive elimination method with novel technical insights, including tailored concentration bounds and the use of sampling via John ellipsoid in conjunction with the Kiefer-Wolfowitz optimal design.
翻訳日:2023-10-04 14:19:22 公開日:2023-10-03
# ファシブル・カウンターファクチュアル・説明に向けて:分類基準テンプレートに基づくNLG法

Towards Feasible Counterfactual Explanations: A Taxonomy Guided Template-based NLG Method ( http://arxiv.org/abs/2310.02019v1 )

ライセンス: Link先を確認
Pedram Salimi, Nirmalie Wiratunga, David Corsar, Anjana Wijekoon(参考訳) 対実説明 (cf-XAI) は、あるクラスから別のクラスへ結果を変更するのに必要な特徴値の最小限の変更を記述する。 しかし、多くのcf-XAI法はこれらの変化の可能性を無視している。 本稿では,自然言語(Natural-XAI)でcf-XAIを提示するための新しいアプローチを提案する。 我々はこの取り組みに3つの貢献をする。 まず,人間によって構成されるcf-xaiにおける2つのテーマをユーザ調査により同定した。コンテンツ関連,反事実的およびクエリ的視点から特徴とその値がどのように含まれているか,そして,必要な価値変化を記述するための構造と用語に注目した構造関連である。 次に,4つの明確に定義されたカテゴリーを持つ特徴行動性分類を導入し,説明過程の合理化を図る。 ユーザ研究と分類学の知見を用いて,diceやnice,discernといった既存の説明器と互換性のある汎用的なテンプレートベースの自然言語生成(nlg)手法を開発し,前述の既存アプローチの制限に対応する反事実を生成する。 最後に,3つの領域における分類誘導型NLGテンプレートの性能評価を行った。 以上の結果から,n-xai^tアプローチは全次元において高いユーザ評価を受け,明瞭度,受容性,実現性,感度の面で評価された領域の大半で有意に改善した。

Counterfactual Explanations (cf-XAI) describe the smallest changes in feature values necessary to change an outcome from one class to another. However, many cf-XAI methods neglect the feasibility of those changes. In this paper, we introduce a novel approach for presenting cf-XAI in natural language (Natural-XAI), giving careful consideration to actionable and comprehensible aspects while remaining cognizant of immutability and ethical concerns. We present three contributions to this endeavor. Firstly, through a user study, we identify two types of themes present in cf-XAI composed by humans: content-related, focusing on how features and their values are included from both the counterfactual and the query perspectives; and structure-related, focusing on the structure and terminology used for describing necessary value changes. Secondly, we introduce a feature actionability taxonomy with four clearly defined categories, to streamline the explanation presentation process. Using insights from the user study and our taxonomy, we created a generalisable template-based natural language generation (NLG) method compatible with existing explainers like DICE, NICE, and DisCERN, to produce counterfactuals that address the aforementioned limitations of existing approaches. Finally, we conducted a second user study to assess the performance of our taxonomy-guided NLG templates on three domains. Our findings show that the taxonomy-guided Natural-XAI approach (n-XAI^T) received higher user ratings across all dimensions, with significantly improved results in the majority of the domains assessed for articulation, acceptability, feasibility, and sensitivity dimensions.
翻訳日:2023-10-04 14:18:43 公開日:2023-10-03
# 異種労働者によるオブジェクトの集合のランク付け:簡単な問題

Ranking a Set of Objects using Heterogeneous Workers: QUITE an Easy Problem ( http://arxiv.org/abs/2310.02016v1 )

ライセンス: Link先を確認
Alessandro Nordio and Alberto tarable and Emilio Leonardi(参考訳) 不平等な労働者の群集によって提供される、ノイズの多いペアワイズ比較から始まって、n$オブジェクトをランク付けする問題に焦点をあて、それぞれのワーカーは、オブジェクトのペアをランク付けする能力を反映した、特定のレベルの信頼性によって特徴づけられる。 より具体的には、オブジェクトには固有の性質が与えられており、オブジェクトが他のオブジェクトに好まれる確率は、2つの競合の質と作業者の信頼性の違いの両方に依存すると仮定する。 本稿では,作業者の信頼性と対象の質を共同で推定する非適応的ランキングアルゴリズムを提案する。 QUITEの性能は、以前提案されたアルゴリズムと異なるシナリオで比較される。 最後に、QUITEを自然に適応させる方法を示す。

We focus on the problem of ranking $N$ objects starting from a set of noisy pairwise comparisons provided by a crowd of unequal workers, each worker being characterized by a specific degree of reliability, which reflects her ability to rank pairs of objects. More specifically, we assume that objects are endowed with intrinsic qualities and that the probability with which an object is preferred to another depends both on the difference between the qualities of the two competitors and on the reliability of the worker. We propose QUITE, a non-adaptive ranking algorithm that jointly estimates workers' reliabilities and qualities of objects. Performance of QUITE is compared in different scenarios against previously proposed algorithms. Finally, we show how QUITE can be naturally made adaptive.
翻訳日:2023-10-04 14:17:57 公開日:2023-10-03
# データ依存のないパラメトリックpdesのスペクトル演算子学習

Spectral operator learning for parametric PDEs without data reliance ( http://arxiv.org/abs/2310.02013v1 )

ライセンス: Link先を確認
Junho Choi, Taehyun Yun, Namjung Kim, Youngjoon Hong(参考訳) 本稿では,パラメータ偏微分方程式(PDE)をデータ活用の必要なく,演算子ネットワークを用いたスペクトル係数学習(SCLON)を提案する。 本手法の基盤はフーリエ級数やルジャンドル多項式などの直交関数を用いた拡張を用いたスペクトル方法論であり,格子点の少ない正確なPDE解を実現する。 スペクトル法の利点(高精度、効率、一般化、境界条件の正確な充足を含む)をディープニューラルネットワークの長所と組み合わせることで、SCLONは変換戦略を提供する。 提案手法では,ペア入力出力トレーニングデータの必要性を解消するだけでなく,複雑なパラメトリックPDEの解を,特異摂動対流拡散方程式からNavier-Stokes方程式まで効果的に学習し,予測する。 提案フレームワークは既存の科学的機械学習技術と比較して優れた性能を示し,データを活用することなくパラメトリックPDEの複数インスタンスに対するソリューションを提供する。 数学的枠組みは堅牢で信頼性が高く、弱い定式化から導かれるよく発達した損失関数は、境界条件を正確に満たしながら解の正確な近似を保証する。 この手法の有効性は、コルモゴロフ流や境界層のような複雑な自然挙動を正確に予測する能力によってさらに示される。 本質的に、我々の研究は、従来の数値手法と最先端の機械学習技術の橋渡しとして、科学計算の領域におけるパラメトリックPDEソリューションの魅力的な道を開いた。

In this paper, we introduce the Spectral Coefficient Learning via Operator Network (SCLON), a novel operator learning-based approach for solving parametric partial differential equations (PDEs) without the need for data harnessing. The cornerstone of our method is the spectral methodology that employs expansions using orthogonal functions, such as Fourier series and Legendre polynomials, enabling accurate PDE solutions with fewer grid points. By merging the merits of spectral methods - encompassing high accuracy, efficiency, generalization, and the exact fulfillment of boundary conditions - with the prowess of deep neural networks, SCLON offers a transformative strategy. Our approach not only eliminates the need for paired input-output training data, which typically requires extensive numerical computations, but also effectively learns and predicts solutions of complex parametric PDEs, ranging from singularly perturbed convection-diffusion equations to the Navier-Stokes equations. The proposed framework demonstrates superior performance compared to existing scientific machine learning techniques, offering solutions for multiple instances of parametric PDEs without harnessing data. The mathematical framework is robust and reliable, with a well-developed loss function derived from the weak formulation, ensuring accurate approximation of solutions while exactly satisfying boundary conditions. The method's efficacy is further illustrated through its ability to accurately predict intricate natural behaviors like the Kolmogorov flow and boundary layers. In essence, our work pioneers a compelling avenue for parametric PDE solutions, serving as a bridge between traditional numerical methodologies and cutting-edge machine learning techniques in the realm of scientific computation.
翻訳日:2023-10-04 14:17:44 公開日:2023-10-03
# 深度制限のないトレーニングに向けて:緩やかな爆発のないバッチ正規化

Towards Training Without Depth Limits: Batch Normalization Without Gradient Explosion ( http://arxiv.org/abs/2310.02012v1 )

ライセンス: Link先を確認
Alexandru Meterez, Amir Joudaki, Francesco Orabona, Alexander Immer, Gunnar R\"atsch, Hadi Daneshmand(参考訳) 正規化層は、ディープニューラルネットワークの重要な構成要素の1つである。 いくつかの理論的研究により、バッチ正規化は信号の伝播を改善することが示されている。 しかし、バッチ正規化の平均場理論の結果も、この利点は爆発的な勾配の深さを犠牲にしていると結論付けている。 バッチ正規化の2つの側面に動機づけられた本研究は、「バッチ正規化ネットワークは最適な信号伝搬特性を維持することができるが、勾配の爆発を避けることができるか? 線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を任意の深さで有界勾配を持つように構成することで、この疑問を肯定的に解決する。 Weingarten計算に基づいて、この構築されたMLPに対して厳密で非漸近的な理論を構築し、前方信号の伝播を正確に評価すると同時に、勾配が線形独立な入力サンプルに束縛されていることを証明する。 我々の理論に触発されて、ある非線形な活性化に対して同じ特性を経験的に達成する活性化形成スキームも設計する。

Normalization layers are one of the key building blocks for deep neural networks. Several theoretical studies have shown that batch normalization improves the signal propagation, by avoiding the representations from becoming collinear across the layers. However, results on mean-field theory of batch normalization also conclude that this benefit comes at the expense of exploding gradients in depth. Motivated by these two aspects of batch normalization, in this study we pose the following question: "Can a batch-normalized network keep the optimal signal propagation properties, but avoid exploding gradients?" We answer this question in the affirmative by giving a particular construction of an Multi-Layer Perceptron (MLP) with linear activations and batch-normalization that provably has bounded gradients at any depth. Based on Weingarten calculus, we develop a rigorous and non-asymptotic theory for this constructed MLP that gives a precise characterization of forward signal propagation, while proving that gradients remain bounded for linearly independent input samples, which holds in most practical settings. Inspired by our theory, we also design an activation shaping scheme that empirically achieves the same properties for certain non-linear activations.
翻訳日:2023-10-04 14:17:16 公開日:2023-10-03
# 位相符号化を用いたアナログ信号をスパイクに変換する積分ファイア回路

Integrate-and-fire circuit for converting analog signals to spikes using phase encoding ( http://arxiv.org/abs/2310.02055v1 )

ライセンス: Link先を確認
Javier Lopez-Randulfe, Nico Reeb and Alois Knoll(参考訳) センサデータをデジタルニューロモルフィックチップ上でスパイクニューラルネットワークで処理するには、連続したアナログ信号をスパイクパルスに変換する必要がある。 2つの戦略は、エンド・ツー・エンドのニューロモルフィック・アプリケーションにおいて低エネルギー消費と高速な処理速度を達成することを約束している。 まず、アナログ信号をスパイクに直接エンコードしてアナログ・デジタルコンバータ(ADC)をバイパスする。 第二に、時間符号化技術を用いてスパイク間隔を最大化することは、高速で効率的なニューロモルフィック処理の重要なパラメータである。 本研究では,連続アナログ信号を時間符号化スパイク列に符号化するリーク型積分・ファイア(lif)ニューロンモデルの耐火期間の適応制御を提案する。 LIFベースのエンコーダは、デジタルハードウェアと互換性のある位相符号化スパイクを生成する。 ニューロンモデルを物理回路に実装し,異なる電気信号を用いて実験を行った。 デジタルニューロモルフィックチップは生成されたスパイク列車を処理し、フーリエ変換のスパイクバージョンを用いて信号の周波数スペクトルを計算した。 試作回路を1KHzまでの電気信号で試験した。 そこで我々は、ADCやデジタル信号処理アルゴリズムを必要とせずに、電気信号の周波数スペクトルを生成するエンドツーエンドのニューロモルフィックアプリケーションを提供する。

Processing sensor data with spiking neural networks on digital neuromorphic chips requires converting continuous analog signals into spike pulses. Two strategies are promising for achieving low energy consumption and fast processing speeds in end-to-end neuromorphic applications. First, to directly encode analog signals to spikes to bypass the need for an analog-to-digital converter (ADC). Second, to use temporal encoding techniques to maximize the spike sparsity, which is a crucial parameter for fast and efficient neuromorphic processing. In this work, we propose an adaptive control of the refractory period of the leaky integrate-and-fire (LIF) neuron model for encoding continuous analog signals into a train of time-coded spikes. The LIF-based encoder generates phase-encoded spikes that are compatible with digital hardware. We implemented the neuron model on a physical circuit and tested it with different electric signals. A digital neuromorphic chip processed the generated spike trains and computed the signal's frequency spectrum using a spiking version of the Fourier transform. We tested the prototype circuit on electric signals up to 1 KHz. Thus, we provide an end-to-end neuromorphic application that generates the frequency spectrum of an electric signal without the need for an ADC or a digital signal processing algorithm.
翻訳日:2023-10-04 14:11:09 公開日:2023-10-03
# AlignDiff:行動カスタマイズ型拡散モデルによる異種人選好の調整

AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model ( http://arxiv.org/abs/2310.02054v1 )

ライセンス: Link先を確認
Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan and Zhipeng Hu(参考訳) 多様な人間の嗜好を持つエージェントの行動を調整することは、人間の嗜好の固有の抽象性と変異性のため、強化学習(RL)において難しい問題である。 これらの問題に対処するために,人間フィードバック(rlhf)からrlを活用して人間の好みを定量化し,抽象性をカバーする新しいフレームワークであるaligneddiffを提案する。 AlignDiffはユーザーの行動と正確に一致し、効率的に切り替えることができる。 このフレームワークを構築するために、まず、多様な行動の属性の比較を含むマルチパースペクティブなヒューマンフィードバックデータセットを確立し、次に、定量化された相対強度を予測する属性強度モデルをトレーニングします。 行動データセットを相対的な強度で再現した後、我々は属性条件拡散モデルを訓練し、これは属性強度モデルのプランナーとして機能し、推論フェーズにおける優先順位調整のディレクタとして機能する。 我々は,様々なロコモーションタスクにおけるアライディフを評価し,他のベースラインと比較して,選好マッチング,スイッチング,カバーにおいてその優れた性能を示す。 人間の指示の下で見知らぬダウンストリームタスクを完了させる能力もまた、人間とAIのコラボレーションの可能性を示している。 さらなる可視化ビデオがhttps://aligndiff.github.io/で公開されている。

Aligning agent behaviors with diverse human preferences remains a challenging problem in reinforcement learning (RL), owing to the inherent abstractness and mutability of human preferences. To address these issues, we propose AlignDiff, a novel framework that leverages RL from Human Feedback (RLHF) to quantify human preferences, covering abstractness, and utilizes them to guide diffusion planning for zero-shot behavior customizing, covering mutability. AlignDiff can accurately match user-customized behaviors and efficiently switch from one to another. To build the framework, we first establish the multi-perspective human feedback datasets, which contain comparisons for the attributes of diverse behaviors, and then train an attribute strength model to predict quantified relative strengths. After relabeling behavioral datasets with relative strengths, we proceed to train an attribute-conditioned diffusion model, which serves as a planner with the attribute strength model as a director for preference aligning at the inference phase. We evaluate AlignDiff on various locomotion tasks and demonstrate its superior performance on preference matching, switching, and covering compared to other baselines. Its capability of completing unseen downstream tasks under human instructions also showcases the promising potential for human-AI collaboration. More visualization videos are released on https://aligndiff.github.io/.
翻訳日:2023-10-04 14:10:49 公開日:2023-10-03
# グラフニューラルネットワークを用いた意味テキスト生成におけるトピック・フォーカス調律制御

Controlling Topic-Focus Articulation in Meaning-to-Text Generation using Graph Neural Networks ( http://arxiv.org/abs/2310.02053v1 )

ライセンス: Link先を確認
Chunliu Wang, Rik van Noord, Johan Bos(参考訳) 裸の意味表現は、情報がどのように表層レベルで構成されているかによって、自然言語を用いて様々な方法で表現することができる。 意味からテキストを生成する際にトピックフォーカスの調音を制御する方法を見つけることに興味がある。 推移動詞を用いた文の能動音声と受動的音声の区別に着目した。 意味表現にトピックなどの実用的情報を付加し、自然言語生成システムに与えると、アクティブ音声またはパッシブ音声のいずれかを強制する。 グラフで表される意味において、単語の順序に関する明確な情報がないため、グラフニューラルモデルを使用する。 グラフニューラルモデルを用いたトピック・フォーカス調音法(TFA)の3つの異なる手法を試行する。 グラフニューラルモデルにおけるノードアグリゲーションに関する新しい符号化手法を提案する。これは、隣接ノード情報を集約することで従来の符号化ではなく、深さ優先探索を用いてノード表現を学習する。 その結果,本手法は汎用テキスト生成における最先端グラフモデルと競合しうることを示すとともに,従来のアジャケーシに基づくアグリゲーション戦略と比較して,アクティブ・パッシブ変換の課題に大きな改善をもたらすことがわかった。 異なるタイプのtfaは、グラフモデルのパフォーマンスに大きな影響を与える可能性がある。

A bare meaning representation can be expressed in various ways using natural language, depending on how the information is structured on the surface level. We are interested in finding ways to control topic-focus articulation when generating text from meaning. We focus on distinguishing active and passive voice for sentences with transitive verbs. The idea is to add pragmatic information such as topic to the meaning representation, thereby forcing either active or passive voice when given to a natural language generation system. We use graph neural models because there is no explicit information about word order in a meaning represented by a graph. We try three different methods for topic-focus articulation (TFA) employing graph neural models for a meaning-to-text generation task. We propose a novel encoding strategy about node aggregation in graph neural models, which instead of traditional encoding by aggregating adjacent node information, learns node representations by using depth-first search. The results show our approach can get competitive performance with state-of-art graph models on general text generation, and lead to significant improvements on the task of active-passive conversion compared to traditional adjacency-based aggregation strategies. Different types of TFA can have a huge impact on the performance of the graph models.
翻訳日:2023-10-04 14:10:26 公開日:2023-10-03
# エンドツーエンド音声翻訳のための大言語モデルのチューニング

Tuning Large language model for End-to-end Speech Translation ( http://arxiv.org/abs/2310.02050v1 )

ライセンス: Link先を確認
Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, Xiaolin Jiao(参考訳) 大規模言語モデル (LLM) の出現に伴い, LLM に基づくマルチモーダルモデルは大きな可能性を示している。 LLaSM、X-LLM、SpeechGPTといったモデルは、人間の指示を理解して生成する素晴らしい能力を示している。 しかし、その性能は、言語間およびモーダル間の翻訳タスクであるエンドツーエンド音声翻訳(E2E-ST)のような複雑なタスクに直面した時にしばしば悪化する。 シングルモーダルモデルと比較して、マルチモーダルモデルはこれらのシナリオでは遅れている。 本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。 LSTは、音声フロントエンド、アダプタ、LLMバックエンドで構成される。 LST の訓練は,(1) 適応をテキスト埋め込み空間に合わせるように調整するモダリティ調整,(2) 下流タスクの微調整,(2) アダプタと LLM モデルの両方を訓練して,E2EST タスクの性能を最適化する。 MuST-C 音声翻訳ベンチマークの実験結果から,En-De/En-Fr/En-Es 言語ペアにおいて LST-13B が 30.39/41.55/35.33 のBLEU スコアを達成し,従来のモデルを上回っ,新たな最先端技術を確立した。 さらに,単一モーダルモデルの選択と,今後の研究の基盤となるトレーニング戦略の影響について,詳細な分析を行う。 レビュー後、コードとモデルを開放します。

With the emergence of large language models (LLMs), multimodal models based on LLMs have demonstrated significant potential. Models such as LLaSM, X-LLM, and SpeechGPT exhibit an impressive ability to comprehend and generate human instructions. However, their performance often falters when faced with complex tasks like end-to-end speech translation (E2E-ST), a cross-language and cross-modal translation task. In comparison to single-modal models, multimodal models lag behind in these scenarios. This paper introduces LST, a Large multimodal model designed to excel at the E2E-ST task. LST consists of a speech frontend, an adapter, and a LLM backend. The training of LST consists of two stages: (1) Modality adjustment, where the adapter is tuned to align speech representation with text embedding space, and (2) Downstream task fine-tuning, where both the adapter and LLM model are trained to optimize performance on the E2EST task. Experimental results on the MuST-C speech translation benchmark demonstrate that LST-13B achieves BLEU scores of 30.39/41.55/35.33 on En-De/En-Fr/En-Es language pairs, surpassing previous models and establishing a new state-of-the-art. Additionally, we conduct an in-depth analysis of single-modal model selection and the impact of training strategies, which lays the foundation for future research. We will open up our code and models after review.
翻訳日:2023-10-04 14:10:06 公開日:2023-10-03
# 絡み合った光子入力を用いたロスレスマッハ・ゼーダー干渉計の量子計測

Quantum metrology in a lossless Mach-Zehnder interferometer using entangled photon inputs ( http://arxiv.org/abs/2310.02049v1 )

ライセンス: Link先を確認
Shreyas Sadugol and Lev Kaplan(参考訳) マルチ光子絡み込み入力状態を用いて、光子計数検出を用いた無ノイズマッハ・ツェンダー干渉計(mzi)の位相不確かさを推定する。 平坦な事前不確実性を仮定し、ベイズ推定を用いて後続の不確実性を構築する。 最適な入力状態を得るために後方分散を最小化することにより、まず1つの測定で最低位相の不確かさをもたらす推定および測定戦略を考案する。 N00Nとガウス状態は特定の状態において最適であると決定される。 そして、非適応的かつ完全な適応的測定を用いて、繰り返し測定の列に一般化する。 n00nとガウスの入力状態はこれらの場合でも最適に近いため、最適解析式が開発されている。 これらの式を入力として使用すると、一般的なスケーリング式が得られ、目標レベルまで位相不確実性を減らすのに平均でどれだけのショットがかかるかを示す。 最後に、これらの理論結果は、頻繁な推論を用いたモンテカルロシミュレーションと比較される。 いずれの手法においても, 局所的非適応法が位相不確実性を低減するための最も効果的な方法であることが示されている。

Using multi-photon entangled input states, we estimate the phase uncertainty in a noiseless Mach-Zehnder interferometer (MZI) using photon-counting detection. We assume a flat prior uncertainty and use Bayesian inference to construct a posterior uncertainty. By minimizing the posterior variance to get the optimal input states, we first devise an estimation and measurement strategy that yields the lowest phase uncertainty for a single measurement. N00N and Gaussian states are determined to be optimal in certain regimes. We then generalize to a sequence of repeated measurements, using non-adaptive and fully adaptive measurements. N00N and Gaussian input states are close to optimal in these cases as well, and optimal analytical formulae are developed. Using these formulae as inputs, a general scaling formula is obtained, which shows how many shots it would take on average to reduce phase uncertainty to a target level. Finally, these theoretical results are compared with a Monte Carlo simulation using frequentist inference. In both methods of inference, the local non-adaptive method is shown to be the most effective practical method to reduce phase uncertainty.
翻訳日:2023-10-04 14:09:39 公開日:2023-10-03
# SARによる植生予測のためのラベルなし自己蒸留の一般性探索

Exploring Generalisability of Self-Distillation with No Labels for SAR-Based Vegetation Prediction ( http://arxiv.org/abs/2310.02048v1 )

ライセンス: Link先を確認
Laura Mart\'inez-Ferrer, Anna Jungbluth, Joseph A. Gallego-Mejia, Matt Allen, Francisco Dorr, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an(参考訳) 本研究では,DINO-ViTをベースとした2つの合成開口レーダデータセット(S1GRDまたはGSSIC)を3つのリージョン(中国,コヌス,ヨーロッパ)で事前トレーニングする。 より小さなラベル付きデータセット上でモデルを微調整し、植生の割合を予測するとともに、モデルの埋め込み空間と、多様な地理的領域をまたいで一般化し、見当たらないデータとの接続を実証的に研究する。 S1GRDの場合、異なる領域の埋め込み空間は明確に分離され、GSSICは重なり合う。 微調整中に位置パターンが残っており、埋め込み距離が大きくなると、不慣れな領域の誤差が高くなる。 これにより,リモートセンシングに適用した自己教師モデルに対する一般化可能性の理解が高まる。

In this work we pre-train a DINO-ViT based model using two Synthetic Aperture Radar datasets (S1GRD or GSSIC) across three regions (China, Conus, Europe). We fine-tune the models on smaller labeled datasets to predict vegetation percentage, and empirically study the connection between the embedding space of the models and their ability to generalize across diverse geographic regions and to unseen data. For S1GRD, embedding spaces of different regions are clearly separated, while GSSIC's overlaps. Positional patterns remain during fine-tuning, and greater distances in embeddings often result in higher errors for unfamiliar regions. With this, our work increases our understanding of generalizability for self-supervised models applied to remote sensing.
翻訳日:2023-10-04 14:09:19 公開日:2023-10-03
# 咬合下のビデオトランスフォーマー:物理と背景がロボット操作の大規模モデルに与える影響

Video Transformers under Occlusion: How Physics and Background Attributes Impact Large Models for Robotic Manipulation ( http://arxiv.org/abs/2310.02044v1 )

ライセンス: Link先を確認
Shutong Jin, Ruiyu Wang, Muhammad Zahid and Florian T. Pokorny(参考訳) トランスフォーマーアーキテクチャとデータセットサイズが拡大を続けるにつれ、モデルパフォーマンスに影響を与える特定のデータセット要因を理解する必要性が高まっている。 本稿では, 物体物理特性(色, 摩擦係数, 形状)と背景特性(静的, 動的, 背景複雑さ)が, 障害物予測タスクにおけるビデオトランスフォーマーの性能に与える影響について検討する。 物体物理学的属性と背景特性はモデルの性能にどのように影響するか? モデル一般化に最も影響を与える属性は何か? 1つのタスクで大きなトランスフォーマーモデルのパフォーマンスにデータ飽和点があるだろうか? そこで,本研究では,異なる物理と背景を持つ物体の46万の一貫した記録からなる実世界ビデオベース・プッシュ・データセットであるocclumanipを提案する。 1.4 tb, フレキシブルな時間長の1278時間の高画質映像と対象物軌跡を収集し, 時間的要件の異なるタスクに適応した。 さらに,OccluManipが提供する18のサブデータセットすべてに対して,平均96%の精度でビデオ変換を行う汎用ビデオ変換器(VOT)を提案する。 OccluManip と VOT は https://github.com/ShutongJIN/OccluManip.git でリリースされる。

As transformer architectures and dataset sizes continue to scale, the need to understand the specific dataset factors affecting model performance becomes increasingly urgent. This paper investigates how object physics attributes (color, friction coefficient, shape) and background characteristics (static, dynamic, background complexity) influence the performance of Video Transformers in trajectory prediction tasks under occlusion. Beyond mere occlusion challenges, this study aims to investigate three questions: How do object physics attributes and background characteristics influence the model performance? What kinds of attributes are most influential to the model generalization? Is there a data saturation point for large transformer model performance within a single task? To facilitate this research, we present OccluManip, a real-world video-based robot pushing dataset comprising 460,000 consistent recordings of objects with different physics and varying backgrounds. 1.4 TB and in total 1278 hours of high-quality videos of flexible temporal length along with target object trajectories are collected, accommodating tasks with different temporal requirements. Additionally, we propose Video Occlusion Transformer (VOT), a generic video-transformer-based network achieving an average 96% accuracy across all 18 sub-datasets provided in OccluManip. OccluManip and VOT will be released at: https://github.com/ShutongJIN/OccluManip.git
翻訳日:2023-10-04 14:09:08 公開日:2023-10-03
# インヒビター:効率的なトランスフォーマーのためのreluと追加に基づく注意

The Inhibitor: ReLU and Addition-Based Attention for Efficient Transformers ( http://arxiv.org/abs/2310.02041v1 )

ライセンス: Link先を確認
Rickard Br\"annvall(参考訳) 量子化トランスの計算効率を向上させるため,dot-productおよびsoftmaxベースの注意を付加とreluアクティベーションのみを含む代替機構に置き換える。 これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避けるが、従来のドット積注意のコア機能の多くを維持している。 より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。 4つの共通ベンチマークタスクのトレーニング実験は、ドット積の注意を持つ従来のトランスフォーマーに匹敵するテストセット予測スコアを示す。 私たちのスケーリング実験では、平文でも暗号化でも、重要な計算節約が示されています。 特に,本論文で導入されたreluおよび追加ベースの注意機構は,暗号化変数のコストのかかる乗算を回避し,準同型暗号化下で動作するプライバシ保存型aiアプリケーションを可能にする可能性がある。

To enhance the computational efficiency of quantized Transformers, we replace the dot-product and Softmax-based attention with an alternative mechanism involving addition and ReLU activation only. This side-steps the expansion to double precision often required by matrix multiplication and avoids costly Softmax evaluations but maintains much of the core functionality of conventional dot-product attention. It can enable more efficient execution and support larger quantized Transformer models on resource-constrained hardware or alternative arithmetic systems like homomorphic encryption. Training experiments on four common benchmark tasks show test set prediction scores comparable to those of conventional Transformers with dot-product attention. Our scaling experiments also suggest significant computational savings, both in plaintext and under encryption. In particular, we believe that the ReLU and addition-based attention mechanism introduced in this paper may enable privacy-preserving AI applications operating under homomorphic encryption by avoiding the costly multiplication of encrypted variables.
翻訳日:2023-10-04 14:08:40 公開日:2023-10-03
# Jury: 総合評価ツールキット

Jury: A Comprehensive Evaluation Toolkit ( http://arxiv.org/abs/2310.02040v1 )

ライセンス: Link先を確認
Devrim Cavusoglu, Ulas Sert, Secil Sen, Sinan Altinuc(参考訳) 評価は、予測に基づくシステムの基本的なブロックとして、ディープラーニングにおいて重要な役割を果たす。 しかし、膨大な数の自然言語処理(NLP)タスクと様々なメトリクスの開発が、異なるメトリクスで異なるシステムを評価する上での課題につながっている。 これらの課題に対処するために、さまざまなタスクやメトリクスに対して評価を行うための標準化された構造を備えた統一的な評価フレームワークである陪審を導入する。 陪審の目的は、すべてのシステムのメートル法評価を標準化し改善し、評価の課題を克服するコミュニティを支援することである。 オープンソースリリース以来、陪審は幅広い読者にリーチし、https://github.com/obss/jury.comで入手できる。

Evaluation plays a critical role in deep learning as a fundamental block of any prediction-based system. However, the vast number of Natural Language Processing (NLP) tasks and the development of various metrics have led to challenges in evaluating different systems with different metrics. To address these challenges, we introduce jury, a toolkit that provides a unified evaluation framework with standardized structures for performing evaluation across different tasks and metrics. The objective of jury is to standardize and improve metric evaluation for all systems and aid the community in overcoming the challenges in evaluation. Since its open-source release, jury has reached a wide audience and is available at https://github.com/obss/jury.
翻訳日:2023-10-04 14:08:24 公開日:2023-10-03
# 画像分類における特徴抽出のための事前学習モデルの評価

An evaluation of pre-trained models for feature extraction in image classification ( http://arxiv.org/abs/2310.02037v1 )

ライセンス: Link先を確認
Erick da Silva Puls, Matheus V. Todescato, Joel L. Carbonera(参考訳) 近年,画像分類タスクの性能が大幅に向上している。 このパフォーマンス改善は主に、ディープラーニング技術の採用によるものです。 一般的に、ディープラーニング技術は大量の注釈付きデータを必要とするため、小さなデータセットに適用する上では困難である。 このシナリオでは、トランスファー学習戦略は、これらの問題を克服するための有望な代替手段になっています。 本研究は,画像分類タスクにおける特徴抽出のために,学習済みニューラルネットワークの性能を比較することを目的としている。 4つの画像データセットで16種類の事前学習モデルを評価した。 その結果,clip-vit-b と vit-h-14 は,clip-resnet50 モデルと同等の性能を示したが,可変性は低かった。 そこで本研究では,画像分類作業における特徴抽出モデルの選択を支持する証拠を提供する。

In recent years, we have witnessed a considerable increase in performance in image classification tasks. This performance improvement is mainly due to the adoption of deep learning techniques. Generally, deep learning techniques demand a large set of annotated data, making it a challenge when applying it to small datasets. In this scenario, transfer learning strategies have become a promising alternative to overcome these issues. This work aims to compare the performance of different pre-trained neural networks for feature extraction in image classification tasks. We evaluated 16 different pre-trained models in four image datasets. Our results demonstrate that the best general performance along the datasets was achieved by CLIP-ViT-B and ViT-H-14, where the CLIP-ResNet50 model had similar performance but with less variability. Therefore, our study provides evidence supporting the choice of models for feature extraction in image classification tasks.
翻訳日:2023-10-04 14:08:12 公開日:2023-10-03
# 1D-CapsNet-LSTM:マルチステップストックインデックス予測のためのディープラーニングベースモデル

1D-CapsNet-LSTM: A Deep Learning-Based Model for Multi-Step Stock Index Forecasting ( http://arxiv.org/abs/2310.02090v1 )

ライセンス: Link先を確認
Cheng Zhang, Nilam Nur Amir Sjarif, Roslina Ibrahim(参考訳) 株価指数の多段階予測は金融セクターにおいて重要な課題であり、様々な金融活動における意思決定において重要な役割を担っている。 しかし、データの確率的かつ揮発的性質のため、予測結果が満足できないことが多い。 研究者は様々な試みを行っており、このプロセスは進行中である。 モデル性能を向上させるために1次元CNNを用いた畳み込みニューラルネットワーク長寿命メモリ(CNN-LSTM)ネットワークにインスパイアされた本研究では、LSTMに基づく予測モデルにおいて、カプセルネットワーク(CapsNet)を高度な特徴抽出器として活用し、マルチステップ予測を強化することを検討する。 この目的のために、1D-CapsNet-LSTMと呼ばれる新しいニューラルネットワークが導入された。これは、1D CapsNetが1Dシーケンシャルデータから高レベルな特徴を抽出し、LSTM層が以前抽出した特徴間の時間的依存関係をキャプチャし、予測された値間の確率的依存関係を異なる時間ステップで維持するマルチインプットマルチアウトプット(MIMO)戦略を使用する。 提案モデルは,Standard & Poor's 500 (S&P 500), Dow Jones Industrial Average (DJIA), Nasdaq Composite Index (IXIC), New York Stock Exchange (NYSE) などの実世界の株価指標に基づいて評価され,様々な評価指標を用いてLSTM, Recurrent Neural Network (RNN), CNN-LSTMといったベースラインモデルと比較された。 比較結果は,1D-CapsNet-LSTMモデルがベースラインモデルより優れ,複雑な予測タスクを効果的に扱える可能性が示唆された。

Multi-step forecasting of stock market index prices is a crucial task in the financial sector, playing a pivotal role in decision-making across various financial activities. However, forecasting results are often unsatisfactory owing to the stochastic and volatile nature of the data. Researchers have made various attempts, and this process is ongoing. Inspired by convolutional neural network long short-term memory (CNN-LSTM) networks that utilize a 1D CNN for feature extraction to boost model performance, this study explores the use of a capsule network (CapsNet) as an advanced feature extractor in an LSTM-based forecasting model to enhance multi-step predictions. To this end, a novel neural architecture called 1D-CapsNet-LSTM was introduced, which combines a 1D CapsNet to extract high-level features from 1D sequential data and an LSTM layer to capture the temporal dependencies between the previously extracted features and uses a multi-input multi-output (MIMO) strategy to maintain the stochastic dependencies between the predicted values at different time steps. The proposed model was evaluated based on several real-world stock market indices, including Standard & Poor's 500 (S&P 500), Dow Jones Industrial Average (DJIA), Nasdaq Composite Index (IXIC), and New York Stock Exchange (NYSE), and was compared with baseline models such as LSTM, recurrent neural network (RNN), and CNN-LSTM in terms of various evaluation metrics. The comparison results suggest that the 1D-CapsNet-LSTM model outperforms the baseline models and has immense potential for the effective handling of complex prediction tasks.
翻訳日:2023-10-04 13:59:50 公開日:2023-10-03
# 点近傍埋め込み

Point Neighborhood Embeddings ( http://arxiv.org/abs/2310.02083v1 )

ライセンス: Link先を確認
Pedro Hermosilla(参考訳) 点畳み込み操作は3次元空間のパターンを検出するために各点の近傍情報を符号化する異なる埋め込み機構に依存する。 しかしながら、畳み込みは通常全体として評価されるため、そのような近隣情報をエンコードする理想的なメカニズムがどれであるかを調査する作業はあまり行われていない。 本稿では,PNE(Point Neighborhood Embeddings)のみを制御された実験装置で解析する最初の大規模研究について述べる。 私たちの実験から、ポイントクラウドのためのニューラルネットワークアーキテクチャの将来設計を改善するのに役立つ、PNEのための一連の推奨事項を導き出します。 最も意外な発見は、ReLUアクティベーション関数を持つ多層パーセプトロン(MLP)をベースとした最も一般的な埋め込みは、全ての埋め込みの中で最低性能を示し、点座標の単純な線形結合によって、いくつかのタスクを超越している。 さらに,このような組込みに基づく単純な畳み込みを用いたニューラルネットワークアーキテクチャは,最近の複雑な処理を上回って,いくつかのタスクで最先端の結果を実現できることを示す。 最後に、これらの発見は、他のより複雑な畳み込み操作に比例し、最近の最先端アーキテクチャをいかに改善できるかを示す。

Point convolution operations rely on different embedding mechanisms to encode the neighborhood information of each point in order to detect patterns in 3D space. However, as convolutions are usually evaluated as a whole, not much work has been done to investigate which is the ideal mechanism to encode such neighborhood information. In this paper, we provide the first extensive study that analyzes such Point Neighborhood Embeddings (PNE) alone in a controlled experimental setup. From our experiments, we derive a set of recommendations for PNE that can help to improve future designs of neural network architectures for point clouds. Our most surprising finding shows that the most commonly used embedding based on a Multi-layer Perceptron (MLP) with ReLU activation functions provides the lowest performance among all embeddings, even being surpassed on some tasks by a simple linear combination of the point coordinates. Additionally, we show that a neural network architecture using simple convolutions based on such embeddings is able to achieve state-of-the-art results on several tasks, outperforming recent and more complex operations. Lastly, we show that these findings extrapolate to other more complex convolution operations, where we show how following our recommendations we are able to improve recent state-of-the-art architectures.
翻訳日:2023-10-04 13:59:15 公開日:2023-10-03
# 量子統計クエリによる量子プロセス学習

Learning Quantum Processes with Quantum Statistical Queries ( http://arxiv.org/abs/2310.02075v1 )

ライセンス: Link先を確認
Chirag Wadhwa and Mina Doosti(参考訳) 複雑な量子プロセスの学習は、量子コンピューティングと量子機械学習の多くの領域において中心的な課題であり、量子ベンチマーク、暗号解析、変分量子アルゴリズムに応用されている。 本稿では,量子統計クエリ(QSQ)モデル内で量子プロセス学習を研究するための最初の学習フレームワークを紹介し,量子プロセス(QPSQ)に対する統計クエリの最初の公式定義を提供する。 このフレームワークにより,任意の量子プロセスに対する効率的なqpsq学習器の提案が可能となる。 また,本アルゴリズムの有効性を示す数値シミュレーションも提供する。 このフレームワークの実践的関連性は、暗号解析の応用を通じて実証されており、量子ハードウェアセキュリティの分野において重要な問題に対処する古典的可読量子物理不閉関数(CR-QPUF)の脆弱性を強調している。 この研究は、量子プロセスの学習可能性を理解するための重要なステップであり、セキュリティへの影響に光を当てている。

Learning complex quantum processes is a central challenge in many areas of quantum computing and quantum machine learning, with applications in quantum benchmarking, cryptanalysis, and variational quantum algorithms. This paper introduces the first learning framework for studying quantum process learning within the Quantum Statistical Query (QSQ) model, providing the first formal definition of statistical queries to quantum processes (QPSQs). The framework allows us to propose an efficient QPSQ learner for arbitrary quantum processes accompanied by a provable performance guarantee. We also provide numerical simulations to demonstrate the efficacy of this algorithm. The practical relevance of this framework is exemplified through application in cryptanalysis, highlighting vulnerabilities of Classical-Readout Quantum Physical Unclonable Functions (CR-QPUFs), addressing an important open question in the field of quantum hardware security. This work marks a significant step towards understanding the learnability of quantum processes and shedding light on their security implications.
翻訳日:2023-10-04 13:58:52 公開日:2023-10-03
# ACE: 気候予測のための高速で熟練した地球大気モデル

ACE: A fast, skillful learned global atmospheric model for climate prediction ( http://arxiv.org/abs/2310.02074v1 )

ライセンス: Link先を確認
Oliver Watt-Meyer, Gideon Dresdner, Jeremy McGibbon, Spencer K. Clark, Brian Henn, James Duncan, Noah D. Brenowitz, Karthik Kashinath, Michael S. Pritchard, Boris Bonev, Matthew E. Peters, Christopher S. Bretherton(参考訳) 既存のMLベースの大気モデルは、長期的な安定性と物理的一貫性を必要とする気候予測には適していない。 我々は,既存の100km大域大気モデルに対して,200Mパラメータの自己回帰機械学習エミュレータであるACE(AI2 Climate Emulator)を提案する。 ACEの定式化は、質量や水分の保存のような物理法則の評価を可能にする。 エミュレータは10年間安定しており、明示的な制約なしに柱の水分をほとんど保存し、基準モデルの気候を忠実に再現し、トラックされた変数の80%以上で挑戦的なベースラインを上回っている。 ACEは壁時計の時間が100倍近く必要であり、通常利用可能なリソースを使用する基準モデルよりもエネルギー効率が100倍高い。

Existing ML-based atmospheric models are not suitable for climate prediction, which requires long-term stability and physical consistency. We present ACE (AI2 Climate Emulator), a 200M-parameter, autoregressive machine learning emulator of an existing comprehensive 100-km resolution global atmospheric model. The formulation of ACE allows evaluation of physical laws such as the conservation of mass and moisture. The emulator is stable for 10 years, nearly conserves column moisture without explicit constraints and faithfully reproduces the reference model's climate, outperforming a challenging baseline on over 80% of tracked variables. ACE requires nearly 100x less wall clock time and is 100x more energy efficient than the reference model using typically available resources.
翻訳日:2023-10-04 13:58:35 公開日:2023-10-03
# マルチモーダル大言語モデルによるエンド・ツー・エンドの身体決定に向けて: GPT4-Vision による探索と超越

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond ( http://arxiv.org/abs/2310.02071v1 )

ライセンス: Link先を確認
Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Tianyu Liu, Baobao Chang(参考訳) 本研究では,エージェントの具体的意思決定プロセスを改善する上で,MLLM(Multimodal Large Language Models)の可能性を検討する。 大きな言語モデル(LLM)はその高度な推論技術と広大な世界知識のために広く使われているが、GPT4-VisionのようなMLLMは視覚的理解と推論能力の向上を提供する。 我々は,最先端のMLLMがエンド・ツー・エンドで具体的意思決定を扱えるか,LLMとMLLMの連携が意思決定を促進するかを検討する。 これらの問題に対処するため,PCA-EVALと呼ばれる新しいベンチマークを導入し,知覚,認知,行動の観点から具体的意思決定を評価する。 さらに,マルチエージェント協調フレームワークであるhomesを提案する。llmがmllmとapiを活用して,インフォームド意思決定のためのマルチモーダル情報収集を可能にする。 GPT4-Visionモデルでは, 平均判定精度(+3%)において, GPT4-HOLMESを上回り, GPT4-HOLMESよりも高い結果が得られた。 しかし、この性能は最新のGPT4-Visionモデルのみであり、オープンソースのMLLMを26%上回っている。 GPT4-Visionのような強力なMLLMは、エンボディエージェントの意思決定を約束し、MLLM研究の新たな道筋を提供する。

In this study, we explore the potential of Multimodal Large Language Models (MLLMs) in improving embodied decision-making processes for agents. While Large Language Models (LLMs) have been widely used due to their advanced reasoning skills and vast world knowledge, MLLMs like GPT4-Vision offer enhanced visual understanding and reasoning capabilities. We investigate whether state-of-the-art MLLMs can handle embodied decision-making in an end-to-end manner and whether collaborations between LLMs and MLLMs can enhance decision-making. To address these questions, we introduce a new benchmark called PCA-EVAL, which evaluates embodied decision-making from the perspectives of Perception, Cognition, and Action. Additionally, we propose HOLMES, a multi-agent cooperation framework that allows LLMs to leverage MLLMs and APIs to gather multimodal information for informed decision-making. We compare end-to-end embodied decision-making and HOLMES on our benchmark and find that the GPT4-Vision model demonstrates strong end-to-end embodied decision-making abilities, outperforming GPT4-HOLMES in terms of average decision accuracy (+3%). However, this performance is exclusive to the latest GPT4-Vision model, surpassing the open-source state-of-the-art MLLM by 26%. Our results indicate that powerful MLLMs like GPT4-Vision hold promise for decision-making in embodied agents, offering new avenues for MLLM research.
翻訳日:2023-10-04 13:58:23 公開日:2023-10-03
# Deep Learning Age Approximationにおけるコンテンツバイアス: 説明可能性向上に向けた新しいアプローチ

Content Bias in Deep Learning Age Approximation: A new Approach Towards more Explainability ( http://arxiv.org/abs/2310.02067v1 )

ライセンス: Link先を確認
Robert J\"ochl and Andreas Uhl(参考訳) 時間的画像法医学の文脈では、異なる時間スロット(クラス)の画像に基づいて訓練されたニューラルネットワークが、年齢に関連する特徴のみを活用することは明らかではない。 通常、近接的に撮影された画像(例えば同じ年齢階級に属する)は、いくつかの共通のコンテンツ特性を共有している。 このようなコンテンツバイアスはニューラルネットワークによって利用することができる。 本研究では,画像コンテンツの影響を評価する新しい手法を提案する。 このアプローチは、年齢信号が埋め込まれた合成画像(コンテンツバイアスを除外できる)を用いて検証される。 提案手法により,年齢分類の文脈で訓練された'標準'ニューラルネットワークは,画像内容に強く依存していることが示されている。 潜在的な対策として、トレーニング中の画像内容の影響を軽減するために2つの異なる手法を適用し、提案手法により評価する。

In the context of temporal image forensics, it is not evident that a neural network, trained on images from different time-slots (classes), exploit solely age related features. Usually, images taken in close temporal proximity (e.g., belonging to the same age class) share some common content properties. Such content bias can be exploited by a neural network. In this work, a novel approach that evaluates the influence of image content is proposed. This approach is verified using synthetic images (where content bias can be ruled out) with an age signal embedded. Based on the proposed approach, it is shown that a `standard' neural network trained in the context of age classification is strongly dependent on image content. As a potential countermeasure, two different techniques are applied to mitigate the influence of the image content during training, and they are also evaluated by the proposed method.
翻訳日:2023-10-04 13:57:50 公開日:2023-10-03
# ジョイントトランスを用いたデ・ノボ薬物設計

De Novo Drug Design with Joint Transformers ( http://arxiv.org/abs/2310.02066v1 )

ライセンス: Link先を確認
Adam Izdebski and Ewelina Weglarz-Tomczak and Ewa Szczurek and Jakub M. Tomczak(参考訳) de novo drug designでは、トレーニングデータ以外の新しい分子を同時生成し、そのターゲット特性を予測する必要があるため、生成モデルでは難しい作業となる。 そこで本研究では,共同生成モデルにおけるトランスフォーマーデコーダ,トランスフォーマーエンコーダ,および予測器を組み合わせたジョイントトランスフォーマを提案する。 ペナル化されたログライクな目的を持つモデルのトレーニングにより,分子生成における最先端性能が向上し,新たにサンプリングした分子の予測誤差は,微調整デコーダのみのトランスに比べて42%減少した。 最後に, 統合トランスフォーマを用いた確率的ブラックボックス最適化アルゴリズムを提案し, トレーニングデータと比較し, ド・ノボの薬剤設計における他のスマイルベース最適化法を上回って, 目標特性を改善した新規分子を生成する。

De novo drug design requires simultaneously generating novel molecules outside of training data and predicting their target properties, making it a hard task for generative models. To address this, we propose Joint Transformer that combines a Transformer decoder, a Transformer encoder, and a predictor in a joint generative model with shared weights. We show that training the model with a penalized log-likelihood objective results in state-of-the-art performance in molecule generation, while decreasing the prediction error on newly sampled molecules, as compared to a fine-tuned decoder-only Transformer, by 42%. Finally, we propose a probabilistic black-box optimization algorithm that employs Joint Transformer to generate novel molecules with improved target properties, as compared to the training data, outperforming other SMILES-based optimization methods in de novo drug design.
翻訳日:2023-10-04 13:57:36 公開日:2023-10-03
# VENOM:Sparse Tensor Coreのパワーを解放するためのベクトル化されたN:Mフォーマット

VENOM: A Vectorized N:M Format for Unleashing the Power of Sparse Tensor Cores ( http://arxiv.org/abs/2310.02065v1 )

ライセンス: Link先を確認
Roberto L. Castro, Andrei Ivanov, Diego Andrade, Tal Ben-Nun, Basilio B. Fraguela, Torsten Hoefler(参考訳) ディープラーニングモデルの成功とスケーリングの増加は、より高い計算効率とパワーを必要とする。 スパーシフィケーションは、より小さなモデルと高い計算効率をもたらす可能性があり、ハードウェアの高速化が進んでいる。 しかし、これを効率的に活用するには、特別なスパースベクトルユニットのハードウェアサポートを利用するために、カーネル実装、プルーニングアルゴリズム、ストレージフォーマットが必要である。 その例として、NVIDIAのスパーステンソルコア(SPTC)があり、2倍のスピードアップを約束している。 しかし、SPTCは2:4フォーマットしかサポートせず、達成可能な間隔比を50%に制限している。 本稿では,SPTC上で任意のN:M比の実行を可能にするV:N:Mフォーマットを提案する。 そこで本稿では,dlルーチンのための高性能スパースライブラリであるspathaを提案する。 SpathaはcuBLASの最大37倍のスピードアップを達成した。 また, 現代の変圧器において, V:N:Mと高間隔比のスパシフィケーションが可能であり, 精度を損なうことはほとんどない。

The increasing success and scaling of Deep Learning models demands higher computational efficiency and power. Sparsification can lead to both smaller models as well as higher compute efficiency, and accelerated hardware is becoming available. However, exploiting it efficiently requires kernel implementations, pruning algorithms, and storage formats, to utilize hardware support of specialized sparse vector units. An example of those are the NVIDIA's Sparse Tensor Cores (SPTCs), which promise a 2x speedup. However, SPTCs only support the 2:4 format, limiting achievable sparsity ratios to 50%. We present the V:N:M format, which enables the execution of arbitrary N:M ratios on SPTCs. To efficiently exploit the resulting format, we propose Spatha, a high-performance sparse-library for DL routines. We show that Spatha achieves up to 37x speedup over cuBLAS. We also demonstrate a second-order pruning technique that enables sparsification to high sparsity ratios with V:N:M and little to no loss in accuracy in modern transformers.
翻訳日:2023-10-04 13:57:18 公開日:2023-10-03
# EXMOSユーザスタディから学んだ教訓:EXMOSプラットフォームを評価するために実施されたユーザスタディから重要な教訓を要約する技術レポート

Lessons Learned from EXMOS User Studies: A Technical Report Summarizing Key Takeaways from User Studies Conducted to Evaluate The EXMOS Platform ( http://arxiv.org/abs/2310.02063v1 )

ライセンス: Link先を確認
Aditya Bhattacharya, Simone Stumpf, Lucija Gosak, Gregor Stiglic, Katrien Verbert(参考訳) インタラクティブな機械学習システムにおいて、説明の提供は、予測モデルのデバッグと強化のプロセスにおいて重要な助けとなる。 しかし、様々なグローバルモデル中心とデータ中心の説明が、モデル改善のために潜在的なデータ関連問題の検出と解決をドメインの専門家が効果的に支援できる程度は、ほとんど未調査のままである。 本技術報告では,2つのユーザ研究の要点を要約する。 システム内のデータ中心とモデル中心の両方の視点に根ざしたグローバル説明の影響を包括的に検証し、自動化されたデータ設定と手動データ設定の両方で機械学習モデルを最適化する上で、医療専門家を支援するように設計しました。 そこで本研究では,70名の医療専門家を対象とした定量的分析と,30名の医療専門家による質的評価を行った。 これらの研究は、異なる説明タイプが3つの主要な次元(信頼、理解可能性、モデル改善)に与える影響を照明することを目的としていた。 その結果、グローバルモデル中心の説明だけでは、データ構成の複雑なプロセス中にユーザーを効果的に導くには不十分であることがわかった。 対照的に、データ中心の説明は、構成後のシステム変更の理解を強化することで、その可能性を示した。 しかし, 両者の組み合わせは, 信頼の育成, 理解性の向上, および医療専門家のモデル強化の促進に最も有効であった。 また、説明によって駆動される対話型機械学習システムの開発にも重要な意味を持つ。 これらの洞察は、ドメインの専門家が機械学習の潜在能力を最大限活用するための、より効果的なシステムの構築を導くことができる。

In the realm of interactive machine-learning systems, the provision of explanations serves as a vital aid in the processes of debugging and enhancing prediction models. However, the extent to which various global model-centric and data-centric explanations can effectively assist domain experts in detecting and resolving potential data-related issues for the purpose of model improvement has remained largely unexplored. In this technical report, we summarise the key findings of our two user studies. Our research involved a comprehensive examination of the impact of global explanations rooted in both data-centric and model-centric perspectives within systems designed to support healthcare experts in optimising machine learning models through both automated and manual data configurations. To empirically investigate these dynamics, we conducted two user studies, comprising quantitative analysis involving a sample size of 70 healthcare experts and qualitative assessments involving 30 healthcare experts. These studies were aimed at illuminating the influence of different explanation types on three key dimensions: trust, understandability, and model improvement. Results show that global model-centric explanations alone are insufficient for effectively guiding users during the intricate process of data configuration. In contrast, data-centric explanations exhibited their potential by enhancing the understanding of system changes that occur post-configuration. However, a combination of both showed the highest level of efficacy for fostering trust, improving understandability, and facilitating model enhancement among healthcare experts. We also present essential implications for developing interactive machine-learning systems driven by explanations. These insights can guide the creation of more effective systems that empower domain experts to harness the full potential of machine learning
翻訳日:2023-10-04 13:56:58 公開日:2023-10-03
# 3次元土壌構造におけるバイオダイナミックな反応拡散モデルのための大域的トラクタ

Global Attractor for a Reaction-Diffusion Model Arising in Biological Dynamic in 3D Soil Structure ( http://arxiv.org/abs/2310.02060v1 )

ライセンス: Link先を確認
Mohamed Elghandouri, Khalil Ezzinbi, Mouad Klai, Olivier Monga(参考訳) 偏微分方程式(pdes)は、特に生物学の領域において、複雑な自然過程をモデル化し理解するためのツールとして重要な役割を果たす。 本研究では, 3次元土壌構造の複雑なマトリックス内における微生物活性の領域を探索し, 溶液の存在と特異性, 対応するPDEモデルの漸近挙動の両面から貴重な知見を提供する。 本研究は,長期システム行動に重要な意味を持つ基本的特徴である,グローバルなアトラクションの発見につながる。 本研究の精度を高めるために,このグローバルアトラクションの特性を視覚的に説明するために数値シミュレーションを用いた。

Partial Differential Equations (PDEs) play a crucial role as tools for modeling and comprehending intricate natural processes, notably within the domain of biology. This research explores the domain of microbial activity within the complex matrix of 3D soil structures, providing valuable understanding into both the existence and uniqueness of solutions and the asymptotic behavior of the corresponding PDE model. Our investigation results in the discovery of a global attractor, a fundamental feature with significant implications for long-term system behavior. To enhance the clarity of our findings, numerical simulations are employed to visually illustrate the attributes of this global attractor.
翻訳日:2023-10-04 13:56:31 公開日:2023-10-03
# 受動偏光ベース補償による大気自由空間チャネル上の昼夜QKD

Daytime and Nighttime QKD over an atmospheric free space channel with passive polarisation bases compensation ( http://arxiv.org/abs/2310.02115v1 )

ライセンス: Link先を確認
Saumya Ranjan Behera, Melvee George, Urbasi Sinha(参考訳) 量子通信(qc)は、セキュアな通信に革命をもたらす未来的な技術である。 光子に基づく量子鍵分布(QKD)は、光子の偏光度をファイバー通信と自由空間通信の両方に利用し、QC研究で最も広く研究されている領域である。 本研究では,50$m自由空間光リンクと絡み合いに基づくBBM92QKDプロトコルを用いて,繊維の複屈折と大気の影響によるQKDへの影響を調査・緩和する。 本研究では,ファイバー複屈折による偏光衝突の臨界問題と,アリスとボブの参照フレームの違いに対処するために,受動的偏光補正方式を実装した。 このスキームはこれらの悪影響を効果的に軽減し、量子チャネルに対する信頼性の高い分極制御を保証する。 さらに,高背景雑音レベルや動的環境変化などの課題に直面し,昼夜共にQKD実験を実施している。 これらの問題を克服するために,信号品質とセキュリティを高めるために,様々なフィルタリング手法を用いる。 その結果,自由空間光リンク上でのqkdの実装は,照明条件や気象条件の異なる場合であっても,平均および高キーレートで<11\%$の情報理論的セキュアqberを生成できることが実証された。 データ取得の24時間サイクルで、平均日照キーレート(3.9118\pm0.7339 KHz$)とQBER(10.5518\pm1.3428\%$)をそれぞれ、夜間キーレート(4.6118\pm0.8088 KHz$)とQBER(10.3545\pm1.2501\%$)をそれぞれ測定した。

Quantum Communication (QC) represents a promising futuristic technology, revolutionizing secure communication. Photon-based Quantum Key Distribution (QKD) is the most widely explored area in QC research, utilizing the polarisation degree of freedom of photons for both fibre and free-space communication. In this work, we investigate and mitigate the challenges posed by fibre birefringence and atmospheric effects on QKD, using a $50$-meter free-space optical link and entanglement-based BBM92 QKD protocol. We implement a passive polarisation correction scheme to address the critical issue of polarisation scrambling induced by fibre birefringence and the difference in the frame of reference between Alice and Bob. This scheme effectively mitigates these adverse effects, ensuring reliable polarisation control over the quantum channel. Furthermore, we conduct QKD experiments in both day and night conditions, encountering challenges such as high background noise levels and dynamic environmental changes. To overcome these issues, we employ various filtering techniques to enhance signal quality and security. Our results demonstrate the successful implementation of QKD over a free-space optical link by producing information-theoretic secure QBER of $<11\%$ on an average and high keyrate, even under varying lighting and weather conditions. Over one 24 hour cycle of data acquisition, we measured an average daylight keyrate and QBER of ($3.9118\pm0.7339 KHz$ and $10.5518\pm1.3428\%$) respectively and night time keyrate and QBER of ($4.6118\pm0.8088 KHz$ and $10.3545\pm1.2501\%$) respectively.
翻訳日:2023-10-04 13:51:16 公開日:2023-10-03
# FLEDGE: 推論とバックドア攻撃に耐性を持つLedgerベースのフェデレーションラーニング

FLEDGE: Ledger-based Federated Learning Resilient to Inference and Backdoor Attacks ( http://arxiv.org/abs/2310.02113v1 )

ライセンス: Link先を確認
Jorge Castillo, Phillip Rieger, Hossein Fereidooni, Qian Chen, Ahmad Sadeghi(参考訳) Federated Learning(FL)は、信頼できる集約サーバを使用して、複数のパーティ(あるいはクライアント)がプライベートデータを共有せずに、機械学習モデルを協調的にトレーニングできるようにする分散学習プロセスである。 しかし最近の研究は、FLに対する推論と中毒攻撃の有効性を実証している。 両方の攻撃を同時に緩和することは非常に難しい。 最先端のソリューションは、セキュアなマルチパーティ計算(smpc)および/またはディファレンシャルプライバシ(dp)による中毒防御の使用を提案している。 しかし、これらの手法は効率的ではなく、攻撃の背後にある悪意ある意図、すなわち敵(悪質なサーバやクライアント)が収益化のためにシステムを活用することに対処できない。 これらの制限を克服するため,我々は,当事者の行動に対する責任を負わせ,推論や毒殺攻撃の緩和に合理的な効率性を達成するために,ledgerベースのflフレームワークであるnonegeを提案する。 当社のソリューションでは,不正行為を罰し,良性行為に報酬を与えることで,当事者説明責任を高めるために暗号通貨を活用する。 我々は、Reddit、MNIST、Fashion-MNIST、CIFAR-10の4つの公開データセットに対して広範な評価を行う。 実験の結果,(1) FLEDGEはモデルの有用性を犠牲にすることなく,モデル更新に対して強力なプライバシ保証を提供し,(2) FLEDGEは,グローバルモデルの性能を低下させることなく,異なる毒性攻撃を軽減し,(3) FLEDGEは,モデルトレーニングやモデルアグリゲーションにおける良質な行動を促進する独自の報酬メカニズムを提供することがわかった。

Federated learning (FL) is a distributed learning process that uses a trusted aggregation server to allow multiple parties (or clients) to collaboratively train a machine learning model without having them share their private data. Recent research, however, has demonstrated the effectiveness of inference and poisoning attacks on FL. Mitigating both attacks simultaneously is very challenging. State-of-the-art solutions have proposed the use of poisoning defenses with Secure Multi-Party Computation (SMPC) and/or Differential Privacy (DP). However, these techniques are not efficient and fail to address the malicious intent behind the attacks, i.e., adversaries (curious servers and/or compromised clients) seek to exploit a system for monetization purposes. To overcome these limitations, we present a ledger-based FL framework known as FLEDGE that allows making parties accountable for their behavior and achieve reasonable efficiency for mitigating inference and poisoning attacks. Our solution leverages crypto-currency to increase party accountability by penalizing malicious behavior and rewarding benign conduct. We conduct an extensive evaluation on four public datasets: Reddit, MNIST, Fashion-MNIST, and CIFAR-10. Our experimental results demonstrate that (1) FLEDGE provides strong privacy guarantees for model updates without sacrificing model utility; (2) FLEDGE can successfully mitigate different poisoning attacks without degrading the performance of the global model; and (3) FLEDGE offers unique reward mechanisms to promote benign behavior during model training and/or model aggregation.
翻訳日:2023-10-04 13:50:42 公開日:2023-10-03
# SIEVE:画像キャプションモデルを用いたマルチモーダルデータセットプルーニング

SIEVE: Multimodal Dataset Pruning Using Image Captioning Models ( http://arxiv.org/abs/2310.02110v1 )

ライセンス: Link先を確認
Anas Mahmoud, Mostafa Elhoushi, Amro Abbas, Yu Yang, Newsha Ardalani, Hugh Leather, Ari Morcos(参考訳) Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。 これは、これらのデータセットの品質がダウンストリームタスクにおけるvlmのパフォーマンスと強く関連しているため、データセットのプルーニングに対する重要なニーズを強調する。 事前訓練されたモデルからCLIPScoreを使用して、高度に整列されたサンプルを使用したモデルのみをトレーニングすることは、プルーニングの最も成功した方法の1つである。 1)プレトレーニングCLIPモデルにより得られた刺激的相関による偽陽性。 2)硬質試料と悪質試料の判別不良による偽陰性,および 3) 事前訓練されたCLIPデータセットと同様のサンプルに対するバイアス付きランキング。 本稿では,小型・多種多様な画像テキストペア上で事前訓練された画像キャプションモデルから生成した合成キャプションを用いて,ノイズの多い画像テキストペアのアライメントを評価するプルーニング手法SIEVEを提案する。 数十億の文に事前学習された言語モデルの埋め込み空間における意味的テクストの類似度を推定し,生成キャプションの限定的多様性と代替テキスト(alt-text)の多様性とのギャップを橋渡しする。 マルチモーダルデータセットフィルタリングベンチマークであるDataCompを用いて、38のダウンストリームタスクにおいて、大規模プールにおける最先端のパフォーマンスと中規模プールにおける競争結果を達成し、CLIPScoreベースのフィルタリングを平均1.7%、平均2.6%上回った。

Vision-Language Models (VLMs) are pretrained on large, diverse, and noisy web-crawled datasets. This underscores the critical need for dataset pruning, as the quality of these datasets is strongly correlated with the performance of VLMs on downstream tasks. Using CLIPScore from a pretrained model to only train models using highly-aligned samples is one of the most successful methods for pruning.We argue that this approach suffers from multiple limitations including: 1) false positives due to spurious correlations captured by the pretrained CLIP model, 2) false negatives due to poor discrimination between hard and bad samples, and 3) biased ranking towards samples similar to the pretrained CLIP dataset. We propose a pruning method, SIEVE, that employs synthetic captions generated by image-captioning models pretrained on small, diverse, and well-aligned image-text pairs to evaluate the alignment of noisy image-text pairs. To bridge the gap between the limited diversity of generated captions and the high diversity of alternative text (alt-text), we estimate the semantic textual similarity in the embedding space of a language model pretrained on billions of sentences. Using DataComp, a multimodal dataset filtering benchmark, we achieve state-of-the-art performance on the large scale pool, and competitive results on the medium scale pool, surpassing CLIPScore-based filtering by 1.7% and 2.6% on average, on 38 downstream tasks.
翻訳日:2023-10-04 13:50:10 公開日:2023-10-03
# 効果的なAI意思決定に向けて:AIアドバイスの適切な信頼性におけるヒューマンラーニングの役割

Towards Effective Human-AI Decision-Making: The Role of Human Learning in Appropriate Reliance on AI Advice ( http://arxiv.org/abs/2310.02108v1 )

ライセンス: Link先を確認
Max Schemmer, Andrea Bartos, Philipp Spitzer, Patrick Hemmer, Niklas K\"uhl, Jonas Liebschner, Gerhard Satzger(参考訳) 人間とAIの協力の真の可能性は、人間とAIの相補的な能力を利用して、個々のAIや人間の相補的なチームパフォーマンス(CTP)よりも優れた共同パフォーマンスを達成することである。 この相補的な可能性を実現するためには、AIのアドバイス、すなわちAIのアドバイスに適切に依存する場合、人間は裁量を行う必要がある。 これまでの研究は、AIレコメンデーションを評価するためのAIのメンタルモデルの構築に重点を置いていたが、最近の研究では、メンタルモデルだけでは適切な依存を説明できないことが示されている。 我々は、メンタルモデルに加えて、人間の学習が適切な信頼の鍵となる媒介者であり、したがってCTPを仮定する。 本研究では,100名を対象にした実験において,学習と適切な信頼との関係を示す。 本研究は、人間-ai意思決定の効果的な設計に意味を持つ、信頼度分析のための基本的な概念を提供する。

The true potential of human-AI collaboration lies in exploiting the complementary capabilities of humans and AI to achieve a joint performance superior to that of the individual AI or human, i.e., to achieve complementary team performance (CTP). To realize this complementarity potential, humans need to exercise discretion in following AI 's advice, i.e., appropriately relying on the AI's advice. While previous work has focused on building a mental model of the AI to assess AI recommendations, recent research has shown that the mental model alone cannot explain appropriate reliance. We hypothesize that, in addition to the mental model, human learning is a key mediator of appropriate reliance and, thus, CTP. In this study, we demonstrate the relationship between learning and appropriate reliance in an experiment with 100 participants. This work provides fundamental concepts for analyzing reliance and derives implications for the effective design of human-AI decision-making.
翻訳日:2023-10-04 13:49:45 公開日:2023-10-03
# インスタンスはもっと注意が必要だ:インスタンスのプロンプトを書き直すとゼロショットパフォーマンスが向上する

Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance ( http://arxiv.org/abs/2310.02107v1 )

ライセンス: Link先を確認
Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao(参考訳) 大規模な言語モデル(llm)がゼロショットでタスクを実行することを可能にすることは、その労力削減(すなわちタスク固有のアノテーションを必要としない)による魅力的な目標だった。 LLMのゼロショットのパフォーマンスを改善するために、以前の作業はより効果的なタスク命令(例えば ``let's Think by Step'' など)の開発に重点を置いてきた。 しかし、LLMがゼロショットで正しく解決するためには、個別のテストインスタンスがより慎重に設計され、カスタマイズされた指示を必要とする。 そこで本研究では,PRoMPTdを提案する。PRoMPTdは,各テストインプットに対するタスクプロンプトを,より具体的で,曖昧で,かつ完全なものに書き換えることで,タスクLLMに対するより良いガイダンスを提供する。 GPT-4 をタスク LLM として,算術,論理的推論,コード生成を含む8つのタスクを対象とした PRoMPTd の評価を行った。 特に、\algoname は、複雑な数学データセットで約10\%、人為的なコード生成タスクで5\%という絶対的な改善を達成し、従来のゼロショット法を上回っている。 さらに、書き換えプロンプトは、LLMが各テストインスタンスをどのように解決するかをよりよく理解し、敵のプロンプトに対する防御メカニズムとして活用できることを示した。 ソースコードとデータセットはhttps://github.com/salokr/PRoMPTdから取得できる。

Enabling large language models (LLMs) to perform tasks in zero-shot has been an appealing goal owing to its labor-saving (i.e., requiring no task-specific annotations); as such, zero-shot prompting approaches also enjoy better task generalizability. To improve LLMs' zero-shot performance, prior work has focused on devising more effective task instructions (e.g., ``let's think step by step'' ). However, we argue that, in order for an LLM to solve them correctly in zero-shot, individual test instances need more carefully designed and customized instructions. To this end, we propose PRoMPTd, an approach that rewrites the task prompt for each individual test input to be more specific, unambiguous, and complete, so as to provide better guidance to the task LLM. We evaluated PRoMPTd on eight datasets covering tasks including arithmetics, logical reasoning, and code generation, using GPT-4 as the task LLM. Notably, \algoname achieves an absolute improvement of around 10\% on the complex MATH dataset and 5\% on the code generation task on HumanEval, outperforming conventional zero-shot methods. In addition, we also showed that the rewritten prompt can provide better interpretability of how the LLM resolves each test instance, which can potentially be leveraged as a defense mechanism against adversarial prompting. The source code and dataset can be obtained from https://github.com/salokr/PRoMPTd
翻訳日:2023-10-04 13:49:29 公開日:2023-10-03
# 雑音量子デバイス上での分極基底状態のシミュレーション

Simulating polaritonic ground states on noisy quantum devices ( http://arxiv.org/abs/2310.02100v1 )

ライセンス: Link先を確認
Mohammad Hassan, Fabijan Pavo\v{s}evi\'c, Derek S. Wang, Johannes Flick(参考訳) 最近のノイズ量子デバイスのための量子アルゴリズムの出現は、偏光化学のための光学キャビティにおける分子の強い光-物質相互作用をシミュレートするための新しい経路を提供する。 本研究では,小型・雑音量子デバイス上で電子-光子結合系をシミュレートする汎用フレームワークを提案する。 この方法は、分極的ユニタリ結合クラスタ(PUCC)アンサッツを持つ変分量子固有解法(VQE)に基づいている。 化学精度を達成するために、電子-光子パリティなどの量子ビット低減法における様々な対称性を活用し、最近開発された基準ゼロノイズ補間法などの誤差緩和スキームを用いる。 光学キャビティにおけるH$2$分子の結合長, 空洞周波数, 結合強度の多種多様性に対して, VQE-PUCCアプローチのロバスト性を検討した。 実験により得られた電子-光子相関の一般指標である光子数と、基本的に化学反応性に関連する基底状態エネルギーの2つの特性を測定する。

The recent advent of quantum algorithms for noisy quantum devices offers a new route toward simulating strong light-matter interactions of molecules in optical cavities for polaritonic chemistry. In this work, we introduce a general framework for simulating electron-photon coupled systems on small, noisy quantum devices. This method is based on the variational quantum eigensolver (VQE) with the polaritonic unitary coupled cluster (PUCC) ansatz. To achieve chemical accuracy, we exploit various symmetries in qubit reduction methods, such as electron-photon parity, and use recently developed error mitigation schemes, such as the reference zero-noise extrapolation method. We explore the robustness of the VQE-PUCC approach across a diverse set of regimes for the bond length, cavity frequency, and coupling strength of the H$_2$ molecule in an optical cavity. To quantify the performance, we measure two properties: ground-state energy, fundamentally relevant to chemical reactivity, and photon number, an experimentally accessible general indicator of electron-photon correlation.
翻訳日:2023-10-04 13:49:00 公開日:2023-10-03
# ゼロショット画像復元における古典的デコンボリューションの活用と特徴抽出

Leveraging Classic Deconvolution and Feature Extraction in Zero-Shot Image Restoration ( http://arxiv.org/abs/2310.02097v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Chobola, Gesine M\"uller, Veit Dausmann, Anton Theileis, Jan Taucher, Jan Huisken, Tingying Peng(参考訳) 非盲点デコンボリューションは、取得したカーネルによってぼやけた画像からシャープなイメージを復元することを目的としている。 既存のディープニューラルネットワークアーキテクチャは、シャープな地上真理画像の大規模なデータセットに基づいて構築され、監視によって訓練されることが多い。 しかし、高品質な地上の真理画像であるシャープは、特にバイオメディカルな用途では必ずしも利用できない。 これにより、現在のアプローチの適用性が著しく損なわれる。 本稿では,ディープラーニングと古典的反復的デコンボリューションアルゴリズムの力を生かした,新しい非ブレンドデコンボリューション手法を提案する。 提案手法は,入力画像から深い特徴を抽出するための事前学習ネットワークと,反復的なRichardson-Lucyデコンボリューションステップを組み合わせる。 その後、分解された特徴を統合するためにゼロショット最適化プロセスが採用され、高品質な再構成画像が得られる。 従来の反復的デコンボリューション法を用いて事前再構成を行うことで,より小さなネットワークを有効利用して最終画像を生成することができ,計算資源の需要を低減しつつ,再構築を加速することができる。 本手法は,非ブレンドデコンボリューションタスクの様々な実世界のアプリケーションにおいて,大幅な改善を示す。

Non-blind deconvolution aims to restore a sharp image from its blurred counterpart given an obtained kernel. Existing deep neural architectures are often built based on large datasets of sharp ground truth images and trained with supervision. Sharp, high quality ground truth images, however, are not always available, especially for biomedical applications. This severely hampers the applicability of current approaches in practice. In this paper, we propose a novel non-blind deconvolution method that leverages the power of deep learning and classic iterative deconvolution algorithms. Our approach combines a pre-trained network to extract deep features from the input image with iterative Richardson-Lucy deconvolution steps. Subsequently, a zero-shot optimisation process is employed to integrate the deconvolved features, resulting in a high-quality reconstructed image. By performing the preliminary reconstruction with the classic iterative deconvolution method, we can effectively utilise a smaller network to produce the final image, thus accelerating the reconstruction whilst reducing the demand for valuable computational resources. Our method demonstrates significant improvements in various real-world applications non-blind deconvolution tasks.
翻訳日:2023-10-04 13:48:42 公開日:2023-10-03
# 6次元における表面欠陥を伴うR\'{e}nyiエントロピー

R\'{e}nyi Entropy with Surface Defects in Six Dimensions ( http://arxiv.org/abs/2310.02096v1 )

ライセンス: Link先を確認
Ma-Ke Yuan, Yang Zhou(参考訳) 我々は、6次元のR\'{e}nyiエントロピーと超対称R\'{e}nyiエントロピーに対する表面欠陥寄与を計算する。 まず自由場に対するr\'{e}nyiエントロピーに対する表面欠陥の寄与を計算し、表面欠陥を伴う絡み合いエントロピーに関する以前の公式を検証する。 共形写像を$s^1_\beta\times h^{d-1}$ を用いて、r\'{e}nyiエントロピーへの欠陥寄与を計算するための熱核法を開発した。 同じ形状の$s^1_\beta\times h^5$ と追加の背景場を用いることで、6次元の$(2,0)$理論に対する通常の r\'{e}nyi エントロピーの超対称な改良を構成できる。 超対称 r\'{e}nyi エントロピーに対する表面欠陥の寄与は、r\'{e}nyi 指数の多項式として、n$ の上限で単純なスケーリングを持つことがわかった。 また、フリーフィールド結果と大規模な$n$結果の接続方法についても論じる。

We compute the surface defect contribution to R\'{e}nyi entropy and supersymmetric R\'{e}nyi entropy in six dimensions. We first compute the surface defect contribution to R\'{e}nyi entropy for free fields, which verifies a previous formula about entanglement entropy with surface defect. Using conformal map to $S^1_\beta\times H^{d-1}$ we develop a heat kernel approach to compute the defect contribution to R\'{e}nyi entropy, which is applicable for $p$-dimensional defect in general $d$-dimensional free fields. Using the same geometry $S^1_\beta\times H^5$ with an additional background field, one can construct the supersymmetric refinement of the ordinary R\'{e}nyi entropy for six-dimensional $(2,0)$ theories. We find that the surface defect contribution to supersymmetric R\'{e}nyi entropy has a simple scaling as polynomial of R\'{e}nyi index in the large $N$ limit. We also discuss how to connect the free field results and large $N$ results.
翻訳日:2023-10-04 13:48:22 公開日:2023-10-03
# CoNO:連続力学系のための複雑ニューラル演算子

CoNO: Complex Neural Operator for Continuous Dynamical Systems ( http://arxiv.org/abs/2310.02094v1 )

ライセンス: Link先を確認
Karn Tiwari, N M Anoop Krishnan, Prathosh A P(参考訳) ニューラル演算子はデータ駆動モデルを拡張して無限次元の関数空間をマップする。 これらのモデルは、微分方程式、 viz 天気予報、流体流、固体力学で表される連続力学系をうまく解いた。 しかし、既存の作用素は依然として実空間に依存しており、関数変換によって複素空間で取得される可能性のあるリッチ表現を失う。 本稿では、複素分数フーリエ領域における積分核をパラメータ化する複素ニューラル演算子(CoNO)を提案する。 さらに、リアスフリーアクティベーション関数とともに複雑な値のニューラルネットワークを用いるモデルは、複雑な値と複雑な代数的性質を保存し、表現の改善、ノイズへの堅牢性、一般化を可能にする。 このモデルは, 1つの複素分数フーリエ変換を用いて, 基礎となる偏微分方程式を効果的に捕捉することを示す。 本研究では,ゼロショット超解像,アウトオブディストリビューションデータの評価,データ効率,雑音に対するロバスト性など,複数のデータセットに対するconoの広範な経験的評価を行う。 CoNOは、これらのタスクにおけるすべての最先端モデルと同等または優れたパフォーマンスを示す。 さらに、CoNOは連続力学系をモデリングするための堅牢で優れたモデルを示し、科学的な機械学習の補足を提供する。

Neural operators extend data-driven models to map between infinite-dimensional functional spaces. These models have successfully solved continuous dynamical systems represented by differential equations, viz weather forecasting, fluid flow, or solid mechanics. However, the existing operators still rely on real space, thereby losing rich representations potentially captured in the complex space by functional transforms. In this paper, we introduce a Complex Neural Operator (CoNO), that parameterizes the integral kernel in the complex fractional Fourier domain. Additionally, the model employing a complex-valued neural network along with aliasing-free activation functions preserves the complex values and complex algebraic properties, thereby enabling improved representation, robustness to noise, and generalization. We show that the model effectively captures the underlying partial differential equation with a single complex fractional Fourier transform. We perform an extensive empirical evaluation of CoNO on several datasets and additional tasks such as zero-shot super-resolution, evaluation of out-of-distribution data, data efficiency, and robustness to noise. CoNO exhibits comparable or superior performance to all the state-of-the-art models in these tasks. Altogether, CoNO presents a robust and superior model for modeling continuous dynamical systems, providing a fillip to scientific machine learning.
翻訳日:2023-10-04 13:48:00 公開日:2023-10-03
# プレコンディショニングしたポリアクステップサイズを有する確率勾配ディフレッシュ

Stochastic Gradient Descent with Preconditioned Polyak Step-size ( http://arxiv.org/abs/2310.02093v1 )

ライセンス: Link先を確認
Farshed Abdukhakimov, Chulu Xiang, Dmitry Kamzolov, Martin Tak\'a\v{c}(参考訳) Stochastic Gradient Descent (SGD) は、機械学習の問題を解決するために広く使われている多くの反復最適化手法の1つである。 これらの手法は貴重な特性を示し、研究者や産業機械学習エンジニアをシンプルに惹きつける。 しかし, この手法の弱点の1つは, 各損失関数とデータセットの組み合わせの学習率(ステップサイズ)を調整し, 最適化問題を解き, 所定の時間予算で効率的な性能を得る必要があることである。 Stochastic Gradient Descent with Polyak Step-size (SPS)は、オプティマイザの学習速度を微調整する必要性を軽減する更新ルールを提供する方法である。 本稿では,Hutchinson法,Adam法,AdaGrad法などのプレコンディショニング手法を用いたSPSの拡張を提案する。

Stochastic Gradient Descent (SGD) is one of the many iterative optimization methods that are widely used in solving machine learning problems. These methods display valuable properties and attract researchers and industrial machine learning engineers with their simplicity. However, one of the weaknesses of this type of methods is the necessity to tune learning rate (step-size) for every loss function and dataset combination to solve an optimization problem and get an efficient performance in a given time budget. Stochastic Gradient Descent with Polyak Step-size (SPS) is a method that offers an update rule that alleviates the need of fine-tuning the learning rate of an optimizer. In this paper, we propose an extension of SPS that employs preconditioning techniques, such as Hutchinson's method, Adam, and AdaGrad, to improve its performance on badly scaled and/or ill-conditioned datasets.
翻訳日:2023-10-04 13:47:39 公開日:2023-10-03
# CORec-Cri: コラボレーションとソーシャル技術は、危機の文脈化にどのように役立つのか?

CORec-Cri: How collaborative and social technologies can help to contextualize crises? ( http://arxiv.org/abs/2310.02143v1 )

ライセンス: Link先を確認
Ngoc Luyen Le, Jinfeng Zhong, Elsa Negre, Marie-H\'el\`ene Abel(参考訳) 危機状況は複雑で多面的な課題を呈し、多くの場合、複数の組織やステークホルダーがさまざまな専門分野、責任、リソースを関与する必要がある。 これらの危機に効果的に対応するためには、影響地域に関する正確でタイムリーな情報を取得することが不可欠である。 本稿では,社会技術とコラボレーションが危機のコンテキスト化にどのように役立つか,そして,影響のある地域やリアルタイムニーズの特定について検討する。 この目的のために,既存の作業に基づいてCORec-Cri (Contextulized Ontology-based Recommender system for crisis management)を定義した。 このアプローチのモチベーションは2つあります – まず、利害関係者間の効果的なコラボレーションは、効率的で協調的な危機対応に不可欠です。 我々はシステム設計の重要なコンポーネントを詳述し、意思決定、リソース割り当て、利害関係者間のコミュニケーションをサポートする可能性を強調した。 最後に、危機管理を改善するために危機の文脈化に我々のシステムが適用できる例を示す。

Crisis situations can present complex and multifaceted challenges, often requiring the involvement of multiple organizations and stakeholders with varying areas of expertise, responsibilities, and resources. Acquiring accurate and timely information about impacted areas is crucial to effectively respond to these crises. In this paper, we investigate how collaborative and social technologies help to contextualize crises, including identifying impacted areas and real-time needs. To this end, we define CORec-Cri (Contextulized Ontology-based Recommender system for crisis management) based on existing work. Our motivation for this approach is two-fold: first, effective collaboration among stakeholders is essential for efficient and coordinated crisis response; second, social computing facilitates interaction, information flow, and collaboration among stakeholders. We detail the key components of our system design, highlighting its potential to support decision-making, resource allocation, and communication among stakeholders. Finally, we provide examples of how our system can be applied to contextualize crises to improve crisis management.
翻訳日:2023-10-04 13:38:39 公開日:2023-10-03
# PAD-Phys:顔バイオメトリックスにおける提示検出のための爆発的生理

PAD-Phys: Exploiting Physiology for Presentation Attack Detection in Face Biometrics ( http://arxiv.org/abs/2310.02140v1 )

ライセンス: Link先を確認
Luis F. Gomez, Julian Fierrez, Aythami Morales, Mahdi Ghafourian, Ruben Tolosana, Imanol Solano, Alejandro Garcia and Francisco Zamora-Martinez(参考訳) プレゼンテーション攻撃検出(PAD)は、顔認識システムにおいて、個人情報の漏洩やエンティティへのアイデンティティの偽造を避けるための重要な段階である。 近年,rPPG(remote Photoplethysmography)に基づくパルス検出は,顔提示攻撃検出に有効であることが示されている。 本稿では、rPPGに基づく提示攻撃検出に対する3つの異なるアプローチを示す。 (i)rppgモデルを用いた生理ドメイン (二)Deepfakesドメイン(モデルが生理領域から特定のDeepfakes検出タスクに再訓練された領域) (iii)ボナフィドとアタックを区別する能力を向上させるために、前2つのドメインから転送学習を適用して新たなプレゼンテーションアタックドメインを訓練した。 その結果、プレゼンテーション攻撃ドメインを生理的およびディープフェイクスドメインと比較すると、平均分類誤り率(ACER)が21.70%減少(41.03%から19.32%)していることが判明した。 実験では,rPPGモデルにおける伝達学習の効率を強調し,この生理的特徴のコピーを許さない機器での提示攻撃検出を良好に行う。

Presentation Attack Detection (PAD) is a crucial stage in facial recognition systems to avoid leakage of personal information or spoofing of identity to entities. Recently, pulse detection based on remote photoplethysmography (rPPG) has been shown to be effective in face presentation attack detection. This work presents three different approaches to the presentation attack detection based on rPPG: (i) The physiological domain, a domain using rPPG-based models, (ii) the Deepfakes domain, a domain where models were retrained from the physiological domain to specific Deepfakes detection tasks; and (iii) a new Presentation Attack domain was trained by applying transfer learning from the two previous domains to improve the capability to differentiate between bona-fides and attacks. The results show the efficiency of the rPPG-based models for presentation attack detection, evidencing a 21.70% decrease in average classification error rate (ACER) (from 41.03% to 19.32%) when the presentation attack domain is compared to the physiological and Deepfakes domains. Our experiments highlight the efficiency of transfer learning in rPPG-based models and perform well in presentation attack detection in instruments that do not allow copying of this physiological feature.
翻訳日:2023-10-04 13:38:21 公開日:2023-10-03
# 任意の数の参加者に一般化したgroverのアルゴリズムに基づくシークレット共有プロトコルのインターセプト攻撃に対するセキュリティ

Security of a Grover's Algorithm-based secret sharing protocol, generalized for an arbitrary number of participants, against interception attacks ( http://arxiv.org/abs/2310.02136v1 )

ライセンス: Link先を確認
Hristo Tonchev, Rosen Bahtev(参考訳) 本研究では,Grovers検索アルゴリズムに基づく秘密共有プロトコルに対するインターセプション攻撃について検討する。 2と3の参加者のみにアルゴリズムを与える以前の研究とは異なり、我々は任意の参加者に対してアルゴリズムを一般化した。 アルゴリズムで使用されるどちらの反射も一般家庭の反射を用いて構成される。 我々の主な目標は、盗聴者が真の初期状態と盗聴者が想定したものと家計の角度に応じて秘密を破る確率を得ることである。 2人と3人の参加者がいる場合、正確な分析解を与える。 これらの式は数値結果と一致している。 分析式を外挿するために, 4~7人の被験者を対象にシミュレーションを行った。

In this work, we study interception attacks against a secret sharing protocol based on Grovers search algorithm. Unlike previous works that only give the algorithm for two and three participants, we have generalized the algorithm for any number of participants. Both reflections used in the algorithm are constructed using a generalized Householder reflection. Our main goal is to obtain the probability for an eavesdropper to break the secret depending on the true initial state and the one assumed by the eavesdropper and on the Householder angle. In cases where there are two and three participants, we give an exact analytical solution. These formulas are consistent with the numerical results. We use simulations for the case of between 4 and 7 participants to extrapolate the analytical formula for any number of participants.
翻訳日:2023-10-04 13:38:00 公開日:2023-10-03
# rf量子ドットセンサの長距離自動補償

Automated long-range compensation of an rf quantum dot sensor ( http://arxiv.org/abs/2310.02135v1 )

ライセンス: Link先を確認
Joseph Hickie, Barnaby van Straaten, Federico Fedele, Daniel Jirovec, Andrea Ballabio, Daniel Chrastina, Giovanni Isella, Georgios Katsaros, Natalia Ares(参考訳) 電荷センシングは、特にスピン量子ビットの読み出しにおいて重要な量子デバイスを探索するための感度の高い技術である。 良好な読み出し感性を実現するためには、測定対象デバイスへの電荷センサの近接が不可欠である。 しかし、この近接はデバイスの動作がセンサーのチューニングに影響を与え、最終的に読み出し感度に影響を及ぼすことを意味する。 本稿では,計測装置のゲート電圧を1v×1vのウィンドウにスイープし,ベイズ光子によって選択されたセンサ構成を維持しながら,このクロストーク効果を補償する手法を提案する。 我々のアルゴリズムは,大規模量子デバイスアーキテクチャの運用に必要な完全自動化ソリューション群への重要な貢献である。

Charge sensing is a sensitive technique for probing quantum devices, of particular importance for spin qubit readout. To achieve good readout sensitivities, the proximity of the charge sensor to the device to be measured is a necessity. However, this proximity also means that the operation of the device affects, in turn, the sensor tuning and ultimately the readout sensitivity. We present an approach for compensating for this cross-talk effect allowing for the gate voltages of the measured device to be swept in a 1 V x 1 V window while maintaining a sensor configuration chosen by a Bayesian optimiser. Our algorithm is a key contribution to the suite of fully automated solutions required for the operation of large quantum device architectures.
翻訳日:2023-10-04 13:37:48 公開日:2023-10-03
# satnetによる信頼できる論理ルールの学習

Learning Reliable Logical Rules with SATNet ( http://arxiv.org/abs/2310.02133v1 )

ライセンス: Link先を確認
Zhaoyu Li, Jinpei Guo, Yuhe Jiang, Xujie Si(参考訳) 高度なAIシステムには、論理的推論とディープラーニングの橋渡しが不可欠だ。 本研究は, 既定論理構造に頼ることなく, 微分可能学習を通じて解釈可能かつ検証可能な論理規則を生成することによって, この目標に対処する新しい枠組みを提案する。 我々のアプローチは、入力出力例から基礎となるルールを学習する差別化可能なMaxSATソルバSATNetの上に構築されている。 その効果にもかかわらず、SATNetの学習重量は直接解釈可能ではなく、人間が読めるルールを作成できない。 そこで本研究では,satnet の学習重みと重み付き maxsat 形式の命題的論理規則のセットとの交換性を実現する "maximum equal" という新しい仕様法を提案する。 さらに,復号化重み付きMaxSAT公式を用いて,基礎的真理規則に対して有効な検証手法をいくつか導入する。 ストリーム変換とスドク問題の実験では、デコードされたルールは信頼性が高く、正確な解法を用いることで100%の精度が得られるが、元のSATNetでは多くの場合、正しい解が得られない。 さらに, 復号化論理則が基本真理則と機能的に等価であることを正式に検証する。

Bridging logical reasoning and deep learning is crucial for advanced AI systems. In this work, we present a new framework that addresses this goal by generating interpretable and verifiable logical rules through differentiable learning, without relying on pre-specified logical structures. Our approach builds upon SATNet, a differentiable MaxSAT solver that learns the underlying rules from input-output examples. Despite its efficacy, the learned weights in SATNet are not straightforwardly interpretable, failing to produce human-readable rules. To address this, we propose a novel specification method called "maximum equality", which enables the interchangeability between the learned weights of SATNet and a set of propositional logical rules in weighted MaxSAT form. With the decoded weighted MaxSAT formula, we further introduce several effective verification techniques to validate it against the ground truth rules. Experiments on stream transformations and Sudoku problems show that our decoded rules are highly reliable: using exact solvers on them could achieve 100% accuracy, whereas the original SATNet fails to give correct solutions in many cases. Furthermore, we formally verify that our decoded logical rules are functionally equivalent to the ground truth ones.
翻訳日:2023-10-04 13:37:35 公開日:2023-10-03
# 大規模言語モデルにおける知識編集の落とし穴

Unveiling the Pitfalls of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2310.02129v1 )

ライセンス: Link先を確認
Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen(参考訳) 微調整型Large Language Models(LLMs)のコストが上昇するにつれて、最近の研究はLLMに埋め込まれた暗黙の知識を編集する方法論の開発に向けられた。 しかし、まだダーククラウドのオーバーヘッドは残っている -- 知識の編集は蝶効果を引き起こすのだろうか? 知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。 本稿では,LLMの知識編集に伴う潜在的な落とし穴について検討する。 そこで我々は,新しいベンチマークデータセットを導入し,革新的な評価指標を提案する。 1) 知識衝突: 論理的に衝突する事実群を編集することで, 従来の手法で無視されたLCMの面における固有の矛盾を増大させることができる。 2) 知識歪み: 事実知識の編集を目的としたパラメータの変更は, LLMの自然知識構造を不可避的に歪曲することができる。 実験の結果は、知識編集が意図しない結果の影をLLMに不注意に落とし、将来の作品に注意と努力を喚起することを示した。 コードはhttps://github.com/zjunlp/pitfallsknowledgeeditingでリリースされる。

As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there's still a dark cloud lingering overhead -- will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code will be released at https://github.com/zjunlp/PitfallsKnowledgeEditing.
翻訳日:2023-10-04 13:37:14 公開日:2023-10-03
# LLMエージェントの協調メカニズムを探る:社会心理学の視点から

Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View ( http://arxiv.org/abs/2310.02124v1 )

ライセンス: Link先を確認
Jintian Zhang, Xin Xu, Shumin Deng(参考訳) 自然言語処理(NLP)システムは、複雑な社会環境においてますます採用されているため、押し付けクエリが出現する: これらのNLPシステムは、複数の大規模言語モデル(LLM)からなるマルチエージェント社会において、人間のような協調的な知性を反映できるだろうか? 本稿では,現代のnlpシステム間の協調機構を理論的洞察と実用実験を融合して検証する。 我々は,llmエージェントからなる4つのユニークな「社会」を作製し,それぞれのエージェントが特定の「トレイト」(容易な行動や自信過剰)を特徴とし,異なる「思考パターン」(行動や反省)と協調する。 これらのマルチエージェント社会を3つのベンチマークデータセットで評価し,LLMエージェントが,活発な議論から内省的考察に至るまで,多様な社会的行動を活用することでタスクをナビゲートすることを明らかにする。 特に、コラボレーティブ戦略では、効率を最適化する(APIトークンを少なくする)だけでなく、以前のトップ層アプローチよりも優れている。 さらに, LLMエージェントは, 基本的社会心理学理論を反映して, 適合性や多数決ルールなどの社会的行動を示すことを示す。 結論として,社会心理学からの洞察を統合してLLMエージェントの協調を文脈化し,LLMエージェントの協調メカニズムに関するさらなる研究を刺激する。 コードとデータセット(すでに補足資料として提出されています)の共有を約束し、この有望な道のさらなる研究を促進することを願っています(すべてのコードとデータは、 \url{https://github.com/zjunlp/MachineSoM}で利用可能です)。 ).

As Natural Language Processing (NLP) systems are increasingly employed in intricate social environments, a pressing query emerges: Can these NLP systems mirror human-esque collaborative intelligence, in a multi-agent society consisting of multiple large language models (LLMs)? This paper probes the collaboration mechanisms among contemporary NLP systems by melding practical experiments with theoretical insights. We fabricate four unique `societies' comprised of LLM agents, where each agent is characterized by a specific `trait' (easy-going or overconfident) and engages in collaboration with a distinct `thinking pattern' (debate or reflection). Evaluating these multi-agent societies on three benchmark datasets, we discern that LLM agents navigate tasks by leveraging diverse social behaviors, from active debates to introspective reflections. Notably, certain collaborative strategies only optimize efficiency (using fewer API tokens), but also outshine previous top-tier approaches. Moreover, our results further illustrate that LLM agents manifest human-like social behaviors, such as conformity or majority rule, mirroring foundational Social Psychology theories. In conclusion, we integrate insights from Social Psychology to contextualize the collaboration of LLM agents, inspiring further investigations into the collaboration mechanism for LLMs. We commit to sharing our code and datasets (already submitted in supplementary materials), hoping to catalyze further research in this promising avenue (All code and data are available at \url{https://github.com/zjunlp/MachineSoM}.).
翻訳日:2023-10-04 13:36:55 公開日:2023-10-03
# TWIZ:マルチモーダル会話刺激の魔法

TWIZ: The Wizard of Multimodal Conversational-Stimulus ( http://arxiv.org/abs/2310.02118v1 )

ライセンス: Link先を確認
Rafael Ferreira, Diogo Tavares, Diogo Silva, Rodrigo Val\'erio, Jo\~ao Bordalo, In\^es Sim\~oes, Vasco Ramos, David Semedo, Jo\~ao Magalh\~aes(参考訳) 本報告では,Alexa Prize TaskBot Challenge 2022において,タスクウィザードチームであるTWIZのビジョン,課題,科学的貢献について述べる。 当社のビジョンは、twizボットを便利でマルチモーダルで、知識に富み、魅力的なアシスタントとして構築することで、複雑な手動タスクの完了をユーザに導くことです。 そこで本研究では,(1)情報提供による人間型会話,(2)音声,画像,ビデオなどの様々なモーダル性を活用したマルチモーダル刺激,(3)ゼロショット会話フローの3つの研究課題に焦点をあてて,未知のシナリオとのインタラクションの堅牢性を向上させる。 TWIZは幅広いタスクをサポートすることができるアシスタントであり、創造的な料理、音声によるビデオナビゲーション、複雑な手作業の対話を訓練した大規模言語モデルであるTWIZ-LLMといった革新的な機能を備えている。 ユーザから提供された評価やフィードバックから,TWIZボットは効果的で堅牢なシステムであり,複数のマルチモーダル刺激を与えながらタスクを通じてユーザを誘導できることを示した。

In this report, we describe the vision, challenges, and scientific contributions of the Task Wizard team, TWIZ, in the Alexa Prize TaskBot Challenge 2022. Our vision, is to build TWIZ bot as an helpful, multimodal, knowledgeable, and engaging assistant that can guide users towards the successful completion of complex manual tasks. To achieve this, we focus our efforts on three main research questions: (1) Humanly-Shaped Conversations, by providing information in a knowledgeable way; (2) Multimodal Stimulus, making use of various modalities including voice, images, and videos; and (3) Zero-shot Conversational Flows, to improve the robustness of the interaction to unseen scenarios. TWIZ is an assistant capable of supporting a wide range of tasks, with several innovative features such as creative cooking, video navigation through voice, and the robust TWIZ-LLM, a Large Language Model trained for dialoguing about complex manual tasks. Given ratings and feedback provided by users, we observed that TWIZ bot is an effective and robust system, capable of guiding users through tasks while providing several multimodal stimuli.
翻訳日:2023-10-04 13:36:21 公開日:2023-10-03
# シンメトリ・シングルインデックス学習

Symmetric Single Index Learning ( http://arxiv.org/abs/2310.02117v1 )

ライセンス: Link先を確認
Aaron Zweig, Joan Bruna(参考訳) 勾配に基づく手法で証明可能な学習を行う神経アーキテクチャはほとんどない。 人気のあるモデルはシングルインデックスモデルであり、ラベルは未知の線形射影と未知のスカラーリンク関数を構成することによって生成される。 このモデルをSGDで学習することは比較的よく理解されており、いわゆるリンク関数の情報指数が多項式サンプルの複雑性率を管理する。 しかし、この分析をより深く複雑なアーキテクチャに拡張することは依然として困難である。 本研究では,対称ニューラルネットワークにおける単一索引学習について考察する。 リンク関数の活性化と最大次数仮定に関する解析的な仮定の下で、勾配流は、パワー和多項式の特徴空間において有限支持ベクトルとして表される隠れた植込み方向を回復する。 学習効率を制御する設定に適応した情報指数の概念を特徴付ける。

Few neural architectures lend themselves to provable learning with gradient based methods. One popular model is the single-index model, in which labels are produced by composing an unknown linear projection with a possibly unknown scalar link function. Learning this model with SGD is relatively well-understood, whereby the so-called information exponent of the link function governs a polynomial sample complexity rate. However, extending this analysis to deeper or more complicated architectures remains challenging. In this work, we consider single index learning in the setting of symmetric neural networks. Under analytic assumptions on the activation and maximum degree assumptions on the link function, we prove that gradient flow recovers the hidden planted direction, represented as a finitely supported vector in the feature space of power sum polynomials. We characterize a notion of information exponent adapted to our setting that controls the efficiency of learning.
翻訳日:2023-10-04 13:36:01 公開日:2023-10-03
# 階層的概念発見モデル - ピラミッドの概念スキーム

Hierarchical Concept Discovery Models: A Concept Pyramid Scheme ( http://arxiv.org/abs/2310.02116v1 )

ライセンス: Link先を確認
Konstantinos P. Panousis, Dino Ienco, Diego Marcos(参考訳) ディープラーニングアルゴリズムは、その印象的なパフォーマンスのために最近、大きな注目を集めている。 しかし、その高い複雑さと解釈不能な操作モードは、現実の安全クリティカルなタスクへの信頼性の高い展開を妨げる。 この研究は、アンテホック解釈可能性、特にConcept Bottleneck Models(CBM)をターゲットにしている。 我々のゴールは、多段階の粒度に基づいて、人間の理解可能な概念に関して、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。 この目的のために,新しい階層的概念発見定式化を提案する。 (i)画像テキストモデルの最近の進歩、及び (II)ベイズ的議論を誘発するデータ駆動および疎性による多層概念選択のための革新的定式化。 この枠組みでは、概念情報は画像全体と一般的な非構造化概念の類似性のみに依存するのではなく、画像シーンのパッチ固有の領域に存在するより詳細な概念情報を明らかにするために概念階層の概念を導入する。 実験的に示すように、提案手法は最近のCBMアプローチに勝るだけでなく、相互運用性に対する原則的な枠組みももたらしている。

Deep Learning algorithms have recently gained significant attention due to their impressive performance. However, their high complexity and un-interpretable mode of operation hinders their confident deployment in real-world safety-critical tasks. This work targets ante hoc interpretability, and specifically Concept Bottleneck Models (CBMs). Our goal is to design a framework that admits a highly interpretable decision making process with respect to human understandable concepts, on multiple levels of granularity. To this end, we propose a novel hierarchical concept discovery formulation leveraging: (i) recent advances in image-text models, and (ii) an innovative formulation for multi-level concept selection via data-driven and sparsity inducing Bayesian arguments. Within this framework, concept information does not solely rely on the similarity between the whole image and general unstructured concepts; instead, we introduce the notion of concept hierarchy to uncover and exploit more granular concept information residing in patch-specific regions of the image scene. As we experimentally show, the proposed construction not only outperforms recent CBM approaches, but also yields a principled framework towards interpetability.
翻訳日:2023-10-04 13:35:47 公開日:2023-10-03
# もう一度聞くと失敗する: 大きな言語モデルによる判断の空白

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement ( http://arxiv.org/abs/2310.02174v1 )

ライセンス: Link先を確認
Qiming Xie, Zengzhi Wang, Yi Feng, and Rui Xia(参考訳) ChatGPTのような生成的対話型大言語モデル(LLM)の出現により、様々な分野で仮想アシスタントとして機能するようになり、応答の安定性と信頼性が重要になった。 しかし,使用中は,疑念や不一致を表すユーザからのフォローアップ質問に直面すると,これらのモデルが判断を揺るがす傾向が観察されている。 本研究では,教育における質問戦略からインスピレーションを得て,障害発生前後のLCMの判断一貫性を評価するための2つの評価指標とともに,‘textsc{Follow-up Questioning Mechanism’を提案する。 この機構により,ChatGPT,PaLM2-Bison,Vicuna-13Bの判定一貫性を評価する。 実験結果から, LLMが疑問, 否定, 誤解などの障害に直面した場合には, 最初の回答が正しい場合でも, 判定一貫性は急激に低下することがわかった。 さらに,これらのモデルの判断一貫性を様々な設定(サンプル温度とプロンプト)で検討し,この問題をさらに検証し,プロンプトトーンの影響を観察し,深い行動分析を行う。 さらに、この問題を緩和し、その効果を実証するいくつかのプロンプト手法についても検討する。

With the emergence of generative conversational large language models (LLMs) like ChatGPT, serving as virtual assistants in various fields, the stability and reliability of their responses have become crucial. However, during usage, it has been observed that these models tend to waver in their judgements when confronted with follow-up questions from users expressing skepticism or disagreement. In this work, we draw inspiration from questioning strategies in education and propose a \textsc{Follow-up Questioning Mechanism} along with two evaluation metrics to assess the judgement consistency of LLMs before and after exposure to disturbances. We evaluate the judgement consistency of ChatGPT, PaLM2-Bison, and Vicuna-13B under this mechanism across eight reasoning benchmarks. Empirical results show that even when the initial answers are correct, judgement consistency sharply decreases when LLMs face disturbances such as questioning, negation, or misleading. Additionally, we study these models' judgement consistency under various settings (sampling temperature and prompts) to validate this issue further, observing the impact of prompt tone and conducting an in-depth error analysis for deeper behavioral insights. Furthermore, we also explore several prompting methods to mitigate this issue and demonstrate their effectiveness\footnote{\url{https://github.com/NUSTM/LLMs-Waver-In-Judgements}}.
翻訳日:2023-10-04 13:30:29 公開日:2023-10-03
# Lyfe Agents:低コストリアルタイムソーシャルインタラクションのための生成エージェント

Lyfe Agents: Generative agents for low-cost real-time social interactions ( http://arxiv.org/abs/2310.02172v1 )

ライセンス: Link先を確認
Zhao Kaiya, Michelangelo Naim, Jovana Kondic, Manuel Cortes, Jiaxin Ge, Shuying Luo, Guangyu Robert Yang, Andrew Ahn(参考訳) 大規模言語モデルを用いた高自律的生成エージェントは、仮想社会における複雑な社会的行動のシミュレートを約束する。 しかし、計算コストの低いリアルタイム対話を実現することは依然として困難である。 ここではLyfe Agentを紹介します。 低コストとリアルタイムの応答性とを組み合わせることで、インテリジェントでゴール指向のままです。 主なイノベーションは、(1)オプションアクションフレームワーク、ハイレベルな決定のコスト削減、(2)より優れた自己整合性のための非同期な自己監視、(3)重要なメモリアイテムを低コストで優先順位付けする要約型メモリメカニズムである。 lyfegame 3d仮想環境プラットフォームの複数のマルチエージェントシナリオにおいて,lyfeエージェントの自己モチベーションとソシビリティを評価した。 人間の脳にインスパイアされた手法を応用すれば、Lyfe Agentsは人間のような自己動機の社会的推論を表現できる。 例えば、エージェントは自律的なコラボレーションと情報交換を通じて犯罪(殺人の謎)を解決できる。 一方,Lyfe Agentsは既存の代替品の10倍から100倍のコストで動作可能であった。 本研究は,仮想世界における人間の社会体験を豊かにするための自律生成エージェントの転換可能性の核心である。

Highly autonomous generative agents powered by large language models promise to simulate intricate social behaviors in virtual societies. However, achieving real-time interactions with humans at a low computational cost remains challenging. Here, we introduce Lyfe Agents. They combine low-cost with real-time responsiveness, all while remaining intelligent and goal-oriented. Key innovations include: (1) an option-action framework, reducing the cost of high-level decisions; (2) asynchronous self-monitoring for better self-consistency; and (3) a Summarize-and-Forget memory mechanism, prioritizing critical memory items at a low cost. We evaluate Lyfe Agents' self-motivation and sociability across several multi-agent scenarios in our custom LyfeGame 3D virtual environment platform. When equipped with our brain-inspired techniques, Lyfe Agents can exhibit human-like self-motivated social reasoning. For example, the agents can solve a crime (a murder mystery) through autonomous collaboration and information exchange. Meanwhile, our techniques enabled Lyfe Agents to operate at a computational cost 10-100 times lower than existing alternatives. Our findings underscore the transformative potential of autonomous generative agents to enrich human social experiences in virtual worlds.
翻訳日:2023-10-04 13:29:50 公開日:2023-10-03
# 動的LLMエージェントネットワーク:エージェントチーム最適化によるLLMエージェント協調フレームワーク

Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization ( http://arxiv.org/abs/2310.02170v1 )

ライセンス: Link先を確認
Zijun Liu, Yanzhe Zhang, Peng Li, Yang Liu, Diyi Yang(参考訳) 大規模言語モデル(LLM)エージェントは幅広いタスクで有効であることが示されており、複数のLLMエージェントを組み込むことで、その性能をさらに向上することができる。 既存のアプローチでは、静的なアーキテクチャで相互作用するエージェントの固定セットを採用しており、それらは様々なタスクへの一般化性を制限し、これらのエージェントを設計する際には強い人間を必要とする。 本研究では,タスククエリに基づく動的インタラクションアーキテクチャでコミュニケーションするエージェントの戦略的チームを構築することを提案する。 具体的には、推論やコード生成といった複雑なタスクにおけるLLMエージェントの協調のために、Dynamic LLM-Agent Network(\textbf{DyLAN}$)というフレームワークを構築します。 dylanによってエージェントは、推論時間エージェントの選択と早期停止機構によって、動的アーキテクチャで複数のラウンドに対して対話でき、パフォーマンスと効率が向上する。 さらに, エージェント毎のコントリビューションに基づいたベストエージェントの選択を可能にする, $\textit{Agent Importance Score}$ と呼ばれる教師なしメトリックに基づく自動エージェントチームの最適化アルゴリズムを設計する。 実験により、DyLANは合理的な計算コストで推論タスクとコード生成タスクの両方でうまく機能することを示した。 DyLANはMATHとHumanEvalでそれぞれ13.0%と13.3%改善している。 MMLUの特定の主題について、DyLANのエージェントチームの最適化により、最大25.0%の精度が向上する。

Large language model (LLM) agents have been shown effective on a wide range of tasks, and by ensembling multiple LLM agents, their performances could be further improved. Existing approaches employ a fixed set of agents to interact with each other in a static architecture, which limits their generalizability to various tasks and requires strong human prior in designing these agents. In this work, we propose to construct a strategic team of agents communicating in a dynamic interaction architecture based on the task query. Specifically, we build a framework named Dynamic LLM-Agent Network ($\textbf{DyLAN}$) for LLM-agent collaboration on complicated tasks like reasoning and code generation. DyLAN enables agents to interact for multiple rounds in a dynamic architecture with inference-time agent selection and an early-stopping mechanism to improve performance and efficiency. We further design an automatic agent team optimization algorithm based on an unsupervised metric termed $\textit{Agent Importance Score}$, enabling the selection of best agents based on the contribution each agent makes. Empirically, we demonstrate that DyLAN performs well in both reasoning and code generation tasks with reasonable computational cost. DyLAN achieves 13.0% and 13.3% improvement on MATH and HumanEval, respectively, compared to a single execution on GPT-35-turbo. On specific subjects of MMLU, agent team optimization in DyLAN increases accuracy by up to 25.0%.
翻訳日:2023-10-04 13:29:10 公開日:2023-10-03
# LLMのためのパーソナリティの編集

Editing Personality for LLMs ( http://arxiv.org/abs/2310.02168v1 )

ライセンス: Link先を確認
Shengyu Mao, Ningyu Zhang, Xiaohan Wang, Mengru Wang, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen(参考訳) 本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。 この課題は,個々人の人格が表現された意見の形で現れることが多いため,特定の話題に対する意見関連質問に対するモデルの反応を調整することを目的とする。 具体的には、このタスクに対応するために、新しいベンチマークデータセットPersonalityEditを構築します。 社会心理学における理論を考察し,ニューロチシズム,外向性,同意性という3つの代表的な特徴をベンチマークの基盤として分離した。 そして、GPT-4を用いてデータを収集し、特定のトピックに適合するだけでなく、ターゲットの性格特性を具現化する応答を生成する。 様々なベースラインを含む総合的な実験を行い,LLMにおける個性行動の表現について議論する。 興味をそそる発見は,提案課題の潜在的な課題を明らかにし,残るいくつかの課題を明らかにした。 私たちはNLPコミュニティに洞察を得られることを期待しています。 コードとデータセットはhttps://github.com/zjunlp/easyeditでリリースされる。

This paper introduces an innovative task focused on editing the personality traits of Large Language Models (LLMs). This task seeks to adjust the models' responses to opinion-related questions on specified topics since an individual's personality often manifests in the form of their expressed opinions, thereby showcasing different personality traits. Specifically, we construct a new benchmark dataset PersonalityEdit to address this task. Drawing on the theory in Social Psychology, we isolate three representative traits, namely Neuroticism, Extraversion, and Agreeableness, as the foundation for our benchmark. We then gather data using GPT-4, generating responses that not only align with a specified topic but also embody the targeted personality trait. We conduct comprehensive experiments involving various baselines and discuss the representation of personality behavior in LLMs. Our intriguing findings uncover potential challenges of the proposed task, illustrating several remaining issues. We anticipate that our work can provide the NLP community with insights. Code and datasets will be released at https://github.com/zjunlp/EasyEdit.
翻訳日:2023-10-04 13:28:38 公開日:2023-10-03
# シーケンス決定のための統一フレームワークを目指して

Towards a Unified Framework for Sequential Decision Making ( http://arxiv.org/abs/2310.02167v1 )

ライセンス: Link先を確認
Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares(参考訳) 近年,自動計画(AP)と強化学習(RL)の統合が注目されている。 この統合を実現するために、SDM(Sequential Decision Making)の一般的なフレームワークは、APとRLがどのように適合するかを理解するのに役立ちます。 本稿では,確率論とベイズ推論の概念を基礎として,古典的計画から深部RLまであらゆる手法に適したフレームワークの提供を試みる。 一般化のために,SDMタスクを,マルコフ決定過程(MDP)のトレーニングとテストのセットとして定式化する。 我々は、SDM法がベースとなっているすべてのSDM法を仮定する一般アルゴリズムを提案する。 それによると、全てのSDMアルゴリズムは、利用可能なタスク知識を活用することで、そのソリューション推定を反復的に改善する手順と見なすことができる。 最後に、sdmタスクとメソッドの興味深い特性を計算するための一連の式とアルゴリズムを導出し、その経験的評価と比較を可能にした。

In recent years, the integration of Automated Planning (AP) and Reinforcement Learning (RL) has seen a surge of interest. To perform this integration, a general framework for Sequential Decision Making (SDM) would prove immensely useful, as it would help us understand how AP and RL fit together. In this preliminary work, we attempt to provide such a framework, suitable for any method ranging from Classical Planning to Deep RL, by drawing on concepts from Probability Theory and Bayesian inference. We formulate an SDM task as a set of training and test Markov Decision Processes (MDPs), to account for generalization. We provide a general algorithm for SDM which we hypothesize every SDM method is based on. According to it, every SDM algorithm can be seen as a procedure that iteratively improves its solution estimate by leveraging the task knowledge available. Finally, we derive a set of formulas and algorithms for calculating interesting properties of SDM tasks and methods, which make possible their empirical evaluation and comparison.
翻訳日:2023-10-04 13:28:10 公開日:2023-10-03
# ファクトイド問題に答える知識グラフを備えた大規模言語モデル

Large Language Models Meet Knowledge Graphs to Answer Factoid Questions ( http://arxiv.org/abs/2310.02166v1 )

ライセンス: Link先を確認
Mikhail Salnikov, Hai Le, Prateek Rajput, Irina Nikishina, Pavel Braslavski, Valentin Malykh and Alexander Panchenko(参考訳) 近年,構造化知識を大規模言語モデルに組み込むことによって,様々なNLPタスクの結果が大幅に向上することが示されている。 本稿では,学習済みのテキストからテキストへの言語モデルについて,知識グラフからの付加情報に富み,事実的疑問に答える手法を提案する。 より具体的には,質問対象と回答候補に基づく知識グラフから部分グラフを抽出するアルゴリズムを提案する。 そして,抽出した部分グラフの線形化により,トランスフォーマーモデルで容易に解釈できる情報を得る。 抽出された情報で回答候補を最終ランク付けすると、事前訓練されたテキスト-テキスト言語モデルのHits@1スコアが4-6%向上する。

Recently, it has been shown that the incorporation of structured knowledge into Large Language Models significantly improves the results for a variety of NLP tasks. In this paper, we propose a method for exploring pre-trained Text-to-Text Language Models enriched with additional information from Knowledge Graphs for answering factoid questions. More specifically, we propose an algorithm for subgraphs extraction from a Knowledge Graph based on question entities and answer candidates. Then, we procure easily interpreted information with Transformer-based models through the linearization of the extracted subgraphs. Final re-ranking of the answer candidates with the extracted information boosts Hits@1 scores of the pre-trained text-to-text language models by 4-6%.
翻訳日:2023-10-04 13:27:52 公開日:2023-10-03
# Selenite: 大規模言語モデルから取り除かれた包括的概要で決定を下す

Selenite: Scaffolding Decision Making with Comprehensive Overviews Elicited from Large Language Models ( http://arxiv.org/abs/2310.02161v1 )

ライセンス: Link先を確認
Michael Xieyang Liu, Tongshuang Wu, Tianying Chen, Franklin Mingzhe Li, Aniket Kittur, Brad A. Myers(参考訳) 不慣れなドメインでの意思決定は困難であり、様々な基準に関して異なる選択肢を比較するためにかなりのユーザー努力を必要とする。 先行研究とフォーマティブな研究により、人々は前もって情報空間の概要を見ることで利益を得ることができた。 しかし、既存のセンスメイキングツールは、"コールドスタート"の問題に苦しむ -- これらの概要を生成して共有するには、以前のユーザからの重要なインプットを必要とするだけでなく、これらの概要も偏り、不完全である。 本研究では,LLMを推論機や知識検索機として活用し,ユーザの感覚形成過程を飛躍させるための選択肢と基準の包括的概要を自動生成する,新しいシステムであるSeleniteを紹介する。 次に、Seleniteは、ユーザーが慣れていない情報を体系的かつパーソナライズされた方法で見つけ、読み、ナビゲートするのを助ける。 3つの研究を通して,Seleniteは正確かつ高品質な概要を確実に生成し,ユーザの情報処理を著しく促進し,全体的な理解とセンスメイキング体験を効果的に改善した。

Decision-making in unfamiliar domains can be challenging, demanding considerable user effort to compare different options with respect to various criteria. Prior research and our formative study found that people would benefit from seeing an overview of the information space upfront, such as the criteria that others have previously found useful. However, existing sensemaking tools struggle with the "cold-start" problem -- it not only requires significant input from previous users to generate and share these overviews, but such overviews may also be biased and incomplete. In this work, we introduce a novel system, Selenite, which leverages LLMs as reasoning machines and knowledge retrievers to automatically produce a comprehensive overview of options and criteria to jumpstart users' sensemaking processes. Subsequently, Selenite also adapts as people use it, helping users find, read, and navigate unfamiliar information in a systematic yet personalized manner. Through three studies, we found that Selenite produced accurate and high-quality overviews reliably, significantly accelerated users' information processing, and effectively improved their overall comprehension and sensemaking experience.
翻訳日:2023-10-04 13:27:42 公開日:2023-10-03
# 確率的再接続型メッセージパッシングニューラルネットワーク

Probabilistically Rewired Message-Passing Neural Networks ( http://arxiv.org/abs/2310.02156v1 )

ライセンス: Link先を確認
Chendi Qian, Andrei Manolache, Kareem Ahmed, Zhe Zeng, Guy Van den Broeck, Mathias Niepert, Christopher Morris(参考訳) メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフ構造化入力を処理する強力なツールとして登場した。 しかし、それらは固定された入力グラフ構造で動作し、潜在的なノイズや情報不足を無視している。 さらに、それらの局所的な集約機構は、関連するグラフ構造を捕捉する際の過剰散乱や限定表現力などの問題を引き起こす可能性がある。 これらの課題に対する既存の解決策は主にヒューリスティックな手法に依存しており、基礎となるデータ分布を無視していることが多い。 したがって、与えられた予測タスクに関連するグラフ構造を推論する学習の原則的なアプローチを考案することは、未解決の課題である。 本研究では, 精度が高く, かつ異なる$k$-subsetサンプリングの最近の進歩を活用して, 確率論的に再構成されたMPNN(PR-MPNN)を考案する。 我々は,PR-MPNNが表現力を高める方法について初めて理論的解析を行い,それらが純粋にランダム化されたアプローチより優れている条件を同定した。 実証的に、我々のアプローチは、過剰な監視やアンダーリーチングといった問題を効果的に軽減します。 さらに,従来のMPNNモデルや最近のグラフトランスフォーマーアーキテクチャと比較して,既存の実世界のデータセットに対して,競合的あるいは優れた予測性能を示す。

Message-passing graph neural networks (MPNNs) emerged as powerful tools for processing graph-structured input. However, they operate on a fixed input graph structure, ignoring potential noise and missing information. Furthermore, their local aggregation mechanism can lead to problems such as over-squashing and limited expressive power in capturing relevant graph structures. Existing solutions to these challenges have primarily relied on heuristic methods, often disregarding the underlying data distribution. Hence, devising principled approaches for learning to infer graph structures relevant to the given prediction task remains an open challenge. In this work, leveraging recent progress in exact and differentiable $k$-subset sampling, we devise probabilistically rewired MPNNs (PR-MPNNs), which learn to add relevant edges while omitting less beneficial ones. For the first time, our theoretical analysis explores how PR-MPNNs enhance expressive power, and we identify precise conditions under which they outperform purely randomized approaches. Empirically, we demonstrate that our approach effectively mitigates issues like over-squashing and under-reaching. In addition, on established real-world datasets, our method exhibits competitive or superior predictive performance compared to traditional MPNN models and recent graph transformer architectures.
翻訳日:2023-10-04 13:27:21 公開日:2023-10-03
# グラフニューラルネットワークに基づく脳波分類:調査

Graph Neural Network-based EEG Classification: A Survey ( http://arxiv.org/abs/2310.02152v1 )

ライセンス: Link先を確認
Dominik Klepl, Min Wu, Fei He(参考訳) グラフニューラルネットワーク(GNN)は、感情認識、運動画像、神経疾患、障害などのタスクにおいて、脳波の分類にますます用いられる。 GNNベースの分類器を設計するための幅広い手法が提案されている。 したがって、これらのアプローチの体系的なレビューと分類が必要である。 我々は本トピックに関する出版文献を徹底的に検索し,比較のためにいくつかのカテゴリを導出する。 これらの分類は、方法の類似点と相違点を強調する。 その結果,空間上のスペクトルグラフ畳み込み層の存在が示唆された。 さらに、ノードの特徴の標準的な形態を特定し、最も人気のあるものは生の脳波信号と差動エントロピーである。 脳波分類のためのGNNベースのアプローチの出現傾向を要約した。 最後に,トランスファー学習手法の可能性や周波数間相互作用の適切なモデリングなど,有望な研究の方向性について考察する。

Graph neural networks (GNN) are increasingly used to classify EEG for tasks such as emotion recognition, motor imagery and neurological diseases and disorders. A wide range of methods have been proposed to design GNN-based classifiers. Therefore, there is a need for a systematic review and categorisation of these approaches. We exhaustively search the published literature on this topic and derive several categories for comparison. These categories highlight the similarities and differences among the methods. The results suggest a prevalence of spectral graph convolutional layers over spatial. Additionally, we identify standard forms of node features, with the most popular being the raw EEG signal and differential entropy. Our results summarise the emerging trends in GNN-based approaches for EEG classification. Finally, we discuss several promising research directions, such as exploring the potential of transfer learning methods and appropriate modelling of cross-frequency interactions.
翻訳日:2023-10-04 13:27:00 公開日:2023-10-03
# ニューラルネットワーク関数近似を用いたレスレスマルチアーマバンドのWhittle Indexに基づくQラーニングの有限時間解析

Finite-Time Analysis of Whittle Index based Q-Learning for Restless Multi-Armed Bandits with Neural Network Function Approximation ( http://arxiv.org/abs/2310.02147v1 )

ライセンス: Link先を確認
Guojun Xiong, Jian Li(参考訳) whittle index policyは、難解なrestless multi-armed bandits (rmab)問題に対するヒューリスティックである。 漸近的に最適であるが、ウィトル指標を見つけることは困難である。 本稿では,ニューラルネットワーク関数近似を用いたrmabのためのウィットルインデックスに基づくq-learningアルゴリズムであるneural-q-whittleを提案する。 深層Q-ラーニングの実証的な成功にもかかわらず、ニューラルネットワークと2時間スケールQ-ラーニングを結合するNeural-Q-Whittleの非漸近収束速度はほとんど不明である。 本稿では、マルコフ連鎖からデータを生成し、Q関数をReLUニューラルネットワークで近似するニューラルネットワークの有限時間解析を行う。 解析では, 2つの結合パラメータの進化を捉えるためにリアプノフドリフト法を用いており, 値関数近似の非線形性はさらに近似誤差を特徴づける必要がある。 これらはNeural-Q-Whittleと$\mathcal{O}(1/k^{2/3})$収束率を与え、$k$は反復数である。

Whittle index policy is a heuristic to the intractable restless multi-armed bandits (RMAB) problem. Although it is provably asymptotically optimal, finding Whittle indices remains difficult. In this paper, we present Neural-Q-Whittle, a Whittle index based Q-learning algorithm for RMAB with neural network function approximation, which is an example of nonlinear two-timescale stochastic approximation with Q-function values updated on a faster timescale and Whittle indices on a slower timescale. Despite the empirical success of deep Q-learning, the non-asymptotic convergence rate of Neural-Q-Whittle, which couples neural networks with two-timescale Q-learning largely remains unclear. This paper provides a finite-time analysis of Neural-Q-Whittle, where data are generated from a Markov chain, and Q-function is approximated by a ReLU neural network. Our analysis leverages a Lyapunov drift approach to capture the evolution of two coupled parameters, and the nonlinearity in value function approximation further requires us to characterize the approximation error. Combing these provide Neural-Q-Whittle with $\mathcal{O}(1/k^{2/3})$ convergence rate, where $k$ is the number of iterations.
翻訳日:2023-10-04 13:26:49 公開日:2023-10-03
# 空間ナビゲーションタスクにおける構造的タスク分解

Structurally guided task decomposition in spatial navigation tasks ( http://arxiv.org/abs/2310.02221v1 )

ライセンス: Link先を確認
Ruiqi He, Carlos G. Correa, Thomas L. Griffiths, Mark K. Ho(参考訳) 認知資源が限られているのに、どうやって効率的に計画できるのか? 我々は,より複雑なタスクにおける計画を容易にするために,タスクに構造情報を追加することで,広範囲の簡単な計画問題を説明できる既存のタスク分解モデルを拡張して,この問題に対処することを目的とした。 拡張モデルは、空間ナビゲーションのより複雑な計画領域に適用された。 以上の結果から,本フレームワークはオンライン実験の参加者のナビゲーション戦略を正確に予測できることが示唆された。

How are people able to plan so efficiently despite limited cognitive resources? We aimed to answer this question by extending an existing model of human task decomposition that can explain a wide range of simple planning problems by adding structure information to the task to facilitate planning in more complex tasks. The extended model was then applied to a more complex planning domain of spatial navigation. Our results suggest that our framework can correctly predict the navigation strategies of the majority of the participants in an online experiment.
翻訳日:2023-10-04 13:18:06 公開日:2023-10-03
# simおよび実環境における事前学習された視覚表現の大規模研究から何を学ぶか?

What do we learn from a large-scale study of pre-trained visual representations in sim and real environments? ( http://arxiv.org/abs/2310.02219v1 )

ライセンス: Link先を確認
Sneha Silwal, Karmesh Yadav, Tingfan Wu, Jay Vakil, Arjun Majumdar, Sergio Arnaud, Claire Chen, Vincent-Pierre Berges, Dhruv Batra, Aravind Rajeswaran, Mrinal Kalakrishnan, Franziska Meier, Oleksandr Maksymets(参考訳) 本稿では,実世界のタスクを実行するダウンストリームポリシをトレーニングするために,事前学習された視覚表現(pvr)の使用に関する大規模な実証調査を行う。 我々の研究は5つの異なるPVR、二つの異なるポリシー学習パラダイム(シミュレーションと強化学習)、そして5つの異なる操作と屋内ナビゲーションタスクのための3つの異なるロボットからなる。 この取り組みから3つの洞察が得られます 1) シミュレーションにおけるpvrの性能動向は, 一般的に実世界の動向を示すものである。 2) pvrsを使用することで,室内画像nav(実世界における無撮影シーンへのゼロショット転送)による初歩的な成果を得ることができる。 3)PVRのバリエーション,主にデータ拡張と微調整によるメリットは,実世界のパフォーマンスにも寄与する。 詳しくはプロジェクトのWebサイトを参照。

We present a large empirical investigation on the use of pre-trained visual representations (PVRs) for training downstream policies that execute real-world tasks. Our study spans five different PVRs, two different policy-learning paradigms (imitation and reinforcement learning), and three different robots for 5 distinct manipulation and indoor navigation tasks. From this effort, we can arrive at three insights: 1) the performance trends of PVRs in the simulation are generally indicative of their trends in the real world, 2) the use of PVRs enables a first-of-its-kind result with indoor ImageNav (zero-shot transfer to a held-out scene in the real world), and 3) the benefits from variations in PVRs, primarily data-augmentation and fine-tuning, also transfer to the real-world performance. See project website for additional details and visuals.
翻訳日:2023-10-04 13:17:58 公開日:2023-10-03
# 深層学習を用いた超広帯域マイクロ波を用いた出血検出・局在測定システム

An experimental system for detection and localization of hemorrhage using ultra-wideband microwaves with deep learning ( http://arxiv.org/abs/2310.02215v1 )

ライセンス: Link先を確認
Eisa Hedayati, Fatemeh Safari, George Verghese, Vito R. Ciancia, Daniel K. Sodickson, Seena Dehkharghani, Leeor Alon(参考訳) ストロークは死亡率と障害の主な原因である。 創発的診断と介入は初期脳イメージングによって決定されるが、既存の画像診断は一般的に費用がかかり、非移動的であり、高度に専門的な手術と解釈を必要とする。 低エネルギーマイクロ波は、画像と診断の可能性を併せ持つ、低コスト、小型のフォームファクタ、高速で安全な組織誘電特性プローブとして研究されている。 しかしながら、マイクロ波再構成に固有の課題は進歩を妨げるため、マイクロ波イメージング(MWI)はいまだに科学的目的である。 本稿では,血液を模倣するファントムを解剖学的に現実的な人間の頭部モデルに翻訳するロボットナビゲーションシステムを含む専用実験フレームワークを提案する。 改良型アンチポッド型ヴィヴァルディアンテナの8要素超広帯域(UWB)アレイを開発し、0.6-9.0GHzの2ポートベクトルネットワークアナライザで駆動した。 複雑な散乱パラメータを測定し,出血の誘電的シグネチャを専用ディープニューラルネットワークを用いて,出血のクラスと局在の予測を行った。 検出>0.99の感度と特異性が観察され,rayliegh平均局在誤差は1.65mmであった。 この研究は、UWBマイクロ波ストローク検出のための堅牢な実験モデルとディープラーニングソリューションの実現性を確立する。

Stroke is a leading cause of mortality and disability. Emergent diagnosis and intervention are critical, and predicated upon initial brain imaging; however, existing clinical imaging modalities are generally costly, immobile, and demand highly specialized operation and interpretation. Low-energy microwaves have been explored as low-cost, small form factor, fast, and safe probes of tissue dielectric properties, with both imaging and diagnostic potential. Nevertheless, challenges inherent to microwave reconstruction have impeded progress, hence microwave imaging (MWI) remains an elusive scientific aim. Herein, we introduce a dedicated experimental framework comprising a robotic navigation system to translate blood-mimicking phantoms within an anatomically realistic human head model. An 8-element ultra-wideband (UWB) array of modified antipodal Vivaldi antennas was developed and driven by a two-port vector network analyzer spanning 0.6-9.0 GHz at an operating power of 1 mw. Complex scattering parameters were measured, and dielectric signatures of hemorrhage were learned using a dedicated deep neural network for prediction of hemorrhage classes and localization. An overall sensitivity and specificity for detection >0.99 was observed, with Rayliegh mean localization error of 1.65 mm. The study establishes the feasibility of a robust experimental model and deep learning solution for UWB microwave stroke detection.
翻訳日:2023-10-04 13:17:44 公開日:2023-10-03
# 空間と時間を表す言語モデル

Language Models Represent Space and Time ( http://arxiv.org/abs/2310.02207v1 )

ライセンス: Link先を確認
Wes Gurnee, Max Tegmark(参考訳) 大規模言語モデル(LLM)の能力は、そのようなシステムが巨大な表面統計の収集やデータ生成プロセスの一貫性のあるモデル(世界モデル)を学ぶだけなのかという議論を引き起こしている。 Llama-2モデルの3つの空間的データセット(世界,アメリカ,ニューヨーク)と3つの時間的データセット(歴史図形,アートワーク,ニュースヘッドライン)の学習された表現を分析して,後者の証拠を発見した。 LLMは複数のスケールにわたる空間と時間の線形表現を学ぶ。 これらの表現は変化を促すために堅牢であり、異なる実体タイプ(都市やランドマークなど)で統一される。 さらに空間的および時間的座標を確実にエンコードする個々の「空間的ニューロン」と「時間的ニューロン」を識別する。 我々の分析は、現代のLLMが空間や時間といった基本的な次元に関する構造化された知識を習得し、表面的な統計だけでなくリテラル世界モデルも学べるという考え方を支持することを実証している。

The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual ``space neurons'' and ``time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.
翻訳日:2023-10-04 13:17:19 公開日:2023-10-03
# チャンキング: タスクを変えることなく継続的に学ぶこと

Chunking: Forgetting Matters in Continual Learning even without Changing Tasks ( http://arxiv.org/abs/2310.02206v1 )

ライセンス: Link先を確認
Thomas L. Lee, Amos Storkey(参考訳) 連続学習(cl)の研究は、動的に変化するデータ分布から生じる問題に重点を置いている。 しかし、cl は2つの部分問題に分解することができる。 (a)データ配信のシフト、および b) データがチャンクに分割されているという事実を扱うため、任意の時点でデータの一部のみをトレーニングすることができる。 この研究では、データチャンキングである後者のサブプロブレムを見て、CL文学におけるチャンキングの以前の分析は少ないことに注意してください。 実験では,オフライン学習によるパフォーマンス低下の約半数を,チャンキングがCLの重要な部分であることを示しています。 さらに,現在のclアルゴリズムはチャンキングサブ問題に対処せず,データ分布が変化しない場合のsgdトレーニングだけでなく,平易なsgdトレーニングも行わないことを明らかにした。 学習が大量のデータで発生するとパフォーマンスが低下する理由を分析した結果,分散シフトによる問題としてしばしば見られる,忘れることが依然として発生し,重大な問題であることがわかった。 線形ケースの解析により, クランク単位の重み付けにより, チャンキング設定の性能が向上し, この性能が全CL設定に遷移することを示す。 したがって、チャンキングの作業は一般にCLを前進させるのに役立つと論じる。

Work on continual learning (CL) has largely focused on the problems arising from the dynamically-changing data distribution. However, CL can be decomposed into two sub-problems: (a) shifts in the data distribution, and (b) dealing with the fact that the data is split into chunks and so only a part of the data is available to be trained on at any point in time. In this work, we look at the latter sub-problem -- the chunking of data -- and note that previous analysis of chunking in the CL literature is sparse. We show that chunking is an important part of CL, accounting for around half of the performance drop from offline learning in our experiments. Furthermore, our results reveal that current CL algorithms do not address the chunking sub-problem, only performing as well as plain SGD training when there is no shift in the data distribution. We analyse why performance drops when learning occurs on chunks of data, and find that forgetting, which is often seen to be a problem due to distribution shift, still arises and is a significant problem. Motivated by an analysis of the linear case, we show that per-chunk weight averaging improves performance in the chunking setting and that this performance transfers to the full CL setting. Hence, we argue that work on chunking can help advance CL in general.
翻訳日:2023-10-04 13:17:01 公開日:2023-10-03
# 電力系統のリスク評価のための確率量子パワーフロー

Stochastic Quantum Power Flow for Risk Assessment in Power Systems ( http://arxiv.org/abs/2310.02203v1 )

ライセンス: Link先を確認
Brynjar S{\ae}varsson, Hj\"ortur J\'ohannsson, Spyros Chatzivasileiadis(参考訳) 本稿では,我々の知る限り,確率的潮流に対する最初の量子コンピューティング手法を紹介する。 確率的潮流は、電力系統の運用や計画において、不確定な発生、負荷、偶発性といった確率的要因が電力系統に与える影響を研究するために広く使われている。 ほとんどの標準的なアプローチはモンテカルロシミュレーションを用いる。 本稿では,送風不確実性が送風網における線過負荷の確率に与える影響について考察する。 量子モンテカルロ法と線形系の解はどちらも古典計算法よりも計算効率が良いことが理論的に証明されている。 例えば、量子モンテカルロは同じ精度を達成するために古典モンテカルロよりもかなり少ないサンプルを必要とする。 本稿では,この量子アドバンテージを活かして量子確率的潮流法を定式化した最初の定式化について述べる。 本手法は,2つの小型電力系統を対象に実験を行い,従来のシミュレーションと比較した。

This paper introduces, to the best of our knowledge, the first quantum computing methodology for stochastic power flow. Stochastic power flow is widely used in power system operation and planning to study the impact of stochastic factors, such as uncertain generation, load, or contingencies, on power systems. Most standard approaches use Monte-Carlo simulations. In this paper, we focus on how the uncertainty of wind infeed affects the probability of line overloadings in a power grid. Quantum Monte Carlo approaches and the solution of linear systems have both been theoretically proven to be more computationally efficient than classical computing approaches. For example, Quantum Monte Carlo requires substantially fewer samples than Classical Monte Carlo to achieve the same accuracy. This paper presents the first formulation that exploits this quantum advantage to formulate a Quantum Stochastic Power Flow method. The developed method is tested for two small power systems and compared to classical simulations.
翻訳日:2023-10-04 13:16:40 公開日:2023-10-03
# ワンショット教師なしドメイン適応のための学習可能なデータ拡張

Learnable Data Augmentation for One-Shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2310.02201v1 )

ライセンス: Link先を確認
Julio Ivan Davila Carrazco, Pietro Morerio, Alessio Del Bue, Vittorio Murino(参考訳) 本稿では,学習可能なデータ拡張に基づく分類フレームワークを提案し,OS-UDA(One-Shot Unsupervised Domain Adaptation)問題に対処する。 os-udaは、モデル適応のために1つのラベルなしのターゲットサンプルしか利用できないため、ドメイン適応において最も難しい設定である。 このような単一サンプルによって駆動される我々の手法であるLearnAug-UDAは、ソースデータを拡張する方法を学び、ターゲットと知覚的に類似させる。 その結果、そのような拡張データに基づいて訓練された分類器は、対象領域に対して適切に一般化される。 これを実現するために、私たちは、ソースデータを強化するために知覚的損失とスタイル転送戦略を利用するエンコーダ・デコーダアーキテクチャを設計しました。 本手法はドメイン適応型ベンチマークであるdomainnetとvisdaにおいて最先端のパフォーマンスを実現する。 プロジェクトコードはhttps://github.com/IIT-PAVIS/LearnAug-UDAで公開されている。

This paper presents a classification framework based on learnable data augmentation to tackle the One-Shot Unsupervised Domain Adaptation (OS-UDA) problem. OS-UDA is the most challenging setting in Domain Adaptation, as only one single unlabeled target sample is assumed to be available for model adaptation. Driven by such single sample, our method LearnAug-UDA learns how to augment source data, making it perceptually similar to the target. As a result, a classifier trained on such augmented data will generalize well for the target domain. To achieve this, we designed an encoder-decoder architecture that exploits a perceptual loss and style transfer strategies to augment the source data. Our method achieves state-of-the-art performance on two well-known Domain Adaptation benchmarks, DomainNet and VisDA. The project code is available at https://github.com/IIT-PAVIS/LearnAug-UDA
翻訳日:2023-10-04 13:16:26 公開日:2023-10-03
# 自動誘導車両の効率的なオンラインスケジューリングとルーティング:既存の手法とループベースアルゴリズムの比較

Efficient Online Scheduling and Routing for Automated Guided Vehicles: Comparing a Novel Loop-Based Algorithm Against Existing Methods ( http://arxiv.org/abs/2310.02195v1 )

ライセンス: Link先を確認
Louis Stubbe, Jens Goemaere, Jan Goedgebeur(参考訳) 自動誘導車両(AGV)は様々な産業で広く使われており、効率的な運用には競合のない方法でスケジューリングとルーティングが不可欠である。 本稿では,AGVのオンライン・コンフリクトフリースケジューリングとルーティング問題を解決するループベースのアルゴリズムを提案する。 提案アルゴリズムは, 正確な手法, 欲求的ヒューリスティック, メタヒューリスティックとを比較した。 我々は、このアルゴリズムが他のアルゴリズムより優れているか、より少ない計算時間で等しく良い解が得られることを実験的に示す。

Automated guided vehicles (AGVs) are widely used in various industries, and scheduling and routing them in a conflict-free manner is crucial to their efficient operation. We propose a loop-based algorithm that solves the online, conflict-free scheduling and routing problem for AGVs. The proposed algorithm is compared against an exact method, a greedy heuristic and a metaheuristic. We experimentally show that this algorithm either outperforms the other algorithms or gets an equally good solution in less computing time.
翻訳日:2023-10-04 13:16:12 公開日:2023-10-03
# 水理の逆モデルにおける不確かさの定量化

Uncertainty Quantification in Inverse Models in Hydrology ( http://arxiv.org/abs/2310.02193v1 )

ライセンス: Link先を確認
Somya Sharma Chatterjee, Rahul Ghosh, Arvind Renganathan, Xiang Li, Snigdhansu Chatterjee, John Nieber, Christopher Duffy, Vipin Kumar(参考訳) 水文学では、土壌地質学や地形学のような盆地特性情報の限定的利用のため、流れのモデリングは依然として困難な課題である。 これらの特性は測定誤差のためうるさくなり、完全に欠落することもある。 この課題を克服するために、より容易に利用できるストリームフローと気象データから物理特性を復元する知識誘導確率逆モデリング手法を提案する。 河川流域特性を推定するための最新の逆モデルと比較した。 また,これらの推定値が,元々の流域特性値ではなく,流れモデルの改善をもたらすことを示した。 逆モデルでは R$^2$ が 3 % 改善され(基本特性推定)、フォワードモデルでは 6 % が改良される(ストリームフロー予測)。 我々のフレームワークは、逆モデルと前方モデルの両方における不確実性を定量化できるため、説明可能性も改善しています。 不確かさの定量化は、モデルの予測の信頼性と限界に関するさらなる洞察を提供することで、機械学習モデルの説明可能性を改善する上で重要な役割を果たす。 本分析では,不確実性推定の品質を評価する。 基準不確かさの定量化法と比較して,認識不確かさの分散率を10 %,カバレッジ率を13 %向上させた。 この情報は、ステークホルダーが予測に関連する不確実性のレベルを理解し、潜在的な結果をより包括的に見るのに役立つ。

In hydrology, modeling streamflow remains a challenging task due to the limited availability of basin characteristics information such as soil geology and geomorphology. These characteristics may be noisy due to measurement errors or may be missing altogether. To overcome this challenge, we propose a knowledge-guided, probabilistic inverse modeling method for recovering physical characteristics from streamflow and weather data, which are more readily available. We compare our framework with state-of-the-art inverse models for estimating river basin characteristics. We also show that these estimates offer improvement in streamflow modeling as opposed to using the original basin characteristic values. Our inverse model offers 3\% improvement in R$^2$ for the inverse model (basin characteristic estimation) and 6\% for the forward model (streamflow prediction). Our framework also offers improved explainability since it can quantify uncertainty in both the inverse and the forward model. Uncertainty quantification plays a pivotal role in improving the explainability of machine learning models by providing additional insights into the reliability and limitations of model predictions. In our analysis, we assess the quality of the uncertainty estimates. Compared to baseline uncertainty quantification methods, our framework offers 10\% improvement in the dispersion of epistemic uncertainty and 13\% improvement in coverage rate. This information can help stakeholders understand the level of uncertainty associated with the predictions and provide a more comprehensive view of the potential outcomes.
翻訳日:2023-10-04 13:16:01 公開日:2023-10-03
# 光クロック伝送による記録光子情報効率と77dB損失を有する光チャネル上での12.5ビット/光子の回収

Record Photon Information Efficiency with Optical Clock Transmission and Recovery of 12.5 bits/photon over an Optical Channel with 77 dB Loss ( http://arxiv.org/abs/2310.02191v1 )

ライセンス: Link先を確認
Ren\'e-Jean Essiambre (1), Cheng Guo (1 and 2), Sai Kanth Dacha (1), Alexei Ashikhmin (1), Andrea Blanco-Redondo (1), Frank R. Kschischang (3), Konrad Banaszek (4), Matthew Weiner (1), Rose Kopf (1), Ian Crawley (1), Mohamad H. Idjadi (1), Ayed A. Sayem (1), Jie Zhao (1), James D. Sandoz (5), Nicolas Fontaine (1), Nicole Menkart (1) Roland Ryf (1), John Cloonan (5), Michael Vasilyev (2), Thomas E. Murphy (6), Ellsworth C. Burrows (1) ((1) Nokia Bell Labs, 600 Mountain Ave, New Providence, NJ 07974, USA, (2) Department of Electrical Engineering, University of Texas at Arlington, Arlington, TX 76019, USA, (3) Dept. of Electrical and Computer Engineering, University of Toronto, Toronto, ON M5S 3G4, Canada, (4) Centre for Quantum Optical Technologies, University of Warsaw, 02-097 Warszawa, Poland, (5) Nokia, 600 Mountain Ave, New Providence, NJ 07974, USA, (6) Institute for Research in Electron. and Appl. Phys., Univ. of Maryland, College Park, MD 20742, USA)(参考訳) 実験では、入射光子当たり12.5~ビット、従来のコヒーレント検出の理論的限界よりも9.4~db高い光検出を示す。 単一レーザーはデータと光クロックの両方を送信し、77~dbの減衰を量子検出の前に行い、光クロックとデータ回復を行う。

We experimentally demonstrate optical detection at 12.5~bits per incident photon, 9.4~dB higher than the theoretical limit of conventional coherent detection. A single laser transmits both data and optical clock, undergoes 77~dB of attenuation before quantum detection followed by optical clock and data recovery.
翻訳日:2023-10-04 13:15:38 公開日:2023-10-03
# アンサンブルロバスト性向上のためのモデル学習不均一性の探索

Exploring Model Learning Heterogeneity for Boosting Ensemble Robustness ( http://arxiv.org/abs/2310.02237v1 )

ライセンス: Link先を確認
Yanzhao Wu, Ka-Ho Chow, Wenqi Wei, Ling Liu(参考訳) ディープニューラルネットワークアンサンブルは、複雑な学習タスクの一般化性能を改善する可能性を秘めている。 本報告では, アンサンブルの多様性が高いヘテロジニアス深層アンサンブルが, モデル学習のヘテロジニアリティを有効活用し, アンサンブルの堅牢性を高めることができることを示す。 まず,同じ学習問題を解決するために訓練された不均質なdnnモデル,例えばオブジェクト検出は,重み付きバウンディングボックスアンサンブルコンセンサス法による平均平均精度(map)を著しく向上させることができることを示した。 第2に、コネクテッドコンポーネントラベリング(CCL)に基づくアライメントを導入することにより、オブジェクト検出やセマンティックセグメンテーションといった異なる学習問題を解決するための異種モデルのアンサンブルをさらに構成する。 本手法は,アンサンブルモデル間の高いアンサンブル多様性と低負の相関性を促進するアンサンブルチームを構成することができ,負の例と敵の攻撃に対するアンサンブルロバスト性を高めることができることを示す。 第3に,アンサンブルのロバスト性について,負相関の観点から形式的解析を行う。 広汎な実験は、良性および対向性の両方において不均一なアンサンブルの強化された堅牢性を検証する。 ソースコードはgithubのhttps://github.com/git-disl/heterobustで入手できる。

Deep neural network ensembles hold the potential of improving generalization performance for complex learning tasks. This paper presents formal analysis and empirical evaluation to show that heterogeneous deep ensembles with high ensemble diversity can effectively leverage model learning heterogeneity to boost ensemble robustness. We first show that heterogeneous DNN models trained for solving the same learning problem, e.g., object detection, can significantly strengthen the mean average precision (mAP) through our weighted bounding box ensemble consensus method. Second, we further compose ensembles of heterogeneous models for solving different learning problems, e.g., object detection and semantic segmentation, by introducing the connected component labeling (CCL) based alignment. We show that this two-tier heterogeneity driven ensemble construction method can compose an ensemble team that promotes high ensemble diversity and low negative correlation among member models of the ensemble, strengthening ensemble robustness against both negative examples and adversarial attacks. Third, we provide a formal analysis of the ensemble robustness in terms of negative correlation. Extensive experiments validate the enhanced robustness of heterogeneous ensembles in both benign and adversarial settings. The source codes are available on GitHub at https://github.com/git-disl/HeteRobust.
翻訳日:2023-10-04 13:10:38 公開日:2023-10-03
# wikipediaの記事の自動品質評価 -体系的文献レビュー-

Automatic Quality Assessment of Wikipedia Articles -- A Systematic Literature Review ( http://arxiv.org/abs/2310.02235v1 )

ライセンス: Link先を確認
Pedro Miguel Mo\'as, Carla Teixeira Lopes(参考訳) Wikipediaは世界最大のオンライン百科事典だが、コラボレーションによる記事の品質維持は難しい。 Wikipediaは品質尺度を設計したが、このような手作業による評価プロセスにより、多くの記事が未評価のままである。 既存のwikipedia記事の品質を自動的に測定する方法、機械学習アルゴリズム、記事の特徴、品質指標、使用済みデータセットを識別・比較し、149の異なる研究を検証し、それらの共通点とギャップを探索する。 文学は広く、そのアプローチは過去の技術動向に従っている。 しかし、機械学習はまだウィキペディアで広く使われておらず、我々の分析が将来の研究者の現実を変える助けになることを願っています。

Wikipedia is the world's largest online encyclopedia, but maintaining article quality through collaboration is challenging. Wikipedia designed a quality scale, but with such a manual assessment process, many articles remain unassessed. We review existing methods for automatically measuring the quality of Wikipedia articles, identifying and comparing machine learning algorithms, article features, quality metrics, and used datasets, examining 149 distinct studies, and exploring commonalities and gaps in them. The literature is extensive, and the approaches follow past technological trends. However, machine learning is still not widely used by Wikipedia, and we hope that our analysis helps future researchers change that reality.
翻訳日:2023-10-04 13:10:13 公開日:2023-10-03
# MIS-AVioDD:オーディオ・ビジュアル・ディープフェイク検出のためのモダリティ不変と特殊表現

MIS-AVioDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2310.02234v1 )

ライセンス: Link先を確認
Vinaya Sree Katamneni and Ajita Rattani(参考訳) ディープフェイク(Deepfakes)は、ディープ・ジェネレーティブ・アルゴリズムを用いて生成される合成メディアであり、深刻な社会的・政治的脅威を生じさせている。 顔の操作や合成音声以外にも、近年、音声や視覚の操作によって新しいタイプのディープフェイクが登場している。 本研究では,マルチモーダル・ビジュアル・ディープフェイク・ディテクターの新たな世代について検討し,マルチモーダル操作検出のための音声・視覚データに着目した。 既存のマルチモーダル(オーディオ-視覚)ディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。 既存の研究では、これらのマルチモーダル検出器は、ユニモーダルオーディオとビジュアルディープフェイク検出器と同等の性能が得られることが示されている。 音声信号と視覚信号の異質性は分布的モダリティギャップを生じさせ,効率的な融合と効率的な性能にとって大きな課題となると推測する。 本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。 具体的には、モーダリティ(音響および視覚)不変量と特定の表現の併用を提案する。 これにより、プリスタンまたはフェイクコンテンツを表す各モダリティに特有の共通パターンやパターンが保存され、マルチモーダルディープフェイク操作検出のために融合される。 FakeAVCelebとKoDFオーディオビジュアルディープフェイクデータセットの実験結果から,SOTAユニモーダルとマルチモーダルオーディオビジュアルディープフェイク検出器をそれぞれ17.8$%と18.4$%で比較することにより,提案手法の精度が向上することが示唆された。 したがって、最先端のパフォーマンスを得る。

Deepfakes are synthetic media generated using deep generative algorithms and have posed a severe societal and political threat. Apart from facial manipulation and synthetic voice, recently, a novel kind of deepfakes has emerged with either audio or visual modalities manipulated. In this regard, a new generation of multimodal audio-visual deepfake detectors is being investigated to collectively focus on audio and visual data for multimodal manipulation detection. Existing multimodal (audio-visual) deepfake detectors are often based on the fusion of the audio and visual streams from the video. Existing studies suggest that these multimodal detectors often obtain equivalent performances with unimodal audio and visual deepfake detectors. We conjecture that the heterogeneous nature of the audio and visual signals creates distributional modality gaps and poses a significant challenge to effective fusion and efficient performance. In this paper, we tackle the problem at the representation level to aid the fusion of audio and visual streams for multimodal deepfake detection. Specifically, we propose the joint use of modality (audio and visual) invariant and specific representations. This ensures that the common patterns and patterns specific to each modality representing pristine or fake content are preserved and fused for multimodal deepfake manipulation detection. Our experimental results on FakeAVCeleb and KoDF audio-visual deepfake datasets suggest the enhanced accuracy of our proposed method over SOTA unimodal and multimodal audio-visual deepfake detectors by $17.8$% and $18.4$%, respectively. Thus, obtaining state-of-the-art performance.
翻訳日:2023-10-04 13:09:59 公開日:2023-10-03
# 一般化schr\"odingerブリッジマッチング

Generalized Schr\"odinger Bridge Matching ( http://arxiv.org/abs/2310.02233v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Yaron Lipman, Maximilian Nickel, Brian Karrer, Evangelos A. Theodorou, Ricky T. Q. Chen(参考訳) 拡散モデルや流れモデルを訓練するための現代の分布マッチングアルゴリズムは、2つの境界分布間の境界分布の時間発展を直接規定する。 本研究では,これらの限界がタスク固有の目的関数の解として暗黙的に説明されるような,一般化された分布マッチング設定を考える。 Generalized Schr\"odinger Bridge (GSB)として知られるこの問題は、機械学習の内外を問わず、多くの科学分野に広く見られる。 本研究では,最近の進歩に触発された新しいマッチングアルゴリズムであるgeneralized schr\"odinger bridge matching (gsbm)を提案する。 このような一般化は条件確率的最適制御の解法として、効率的な変分近似を利用でき、さらに経路積分理論の助けを借りてデバイアス化できることを示す。 従来のGSB問題の解法と比較して、GSBMアルゴリズムはトレーニングを通して境界分布間の実現可能なトランスポートマップを常に保持し、安定した収束を可能にし、スケーラビリティを著しく向上させる。 我々は,観衆のナビゲーション,意見の非分極化,LiDAR多様体,画像領域の転送など,幅広い実験環境において,我々の主張を実証的に検証した。 本研究はタスク固有の最適性構造により拡張された拡散モデルのトレーニングに新たなアルゴリズム的機会をもたらす。

Modern distribution matching algorithms for training diffusion or flow models directly prescribe the time evolution of the marginal distributions between two boundary distributions. In this work, we consider a generalized distribution matching setup, where these marginals are only implicitly described as a solution to some task-specific objective function. The problem setup, known as the Generalized Schr\"odinger Bridge (GSB), appears prevalently in many scientific areas both within and without machine learning. We propose Generalized Schr\"odinger Bridge Matching (GSBM), a new matching algorithm inspired by recent advances, generalizing them beyond kinetic energy minimization and to account for task-specific state costs. We show that such a generalization can be cast as solving conditional stochastic optimal control, for which efficient variational approximations can be used, and further debiased with the aid of path integral theory. Compared to prior methods for solving GSB problems, our GSBM algorithm always preserves a feasible transport map between the boundary distributions throughout training, thereby enabling stable convergence and significantly improved scalability. We empirically validate our claims on an extensive suite of experimental setups, including crowd navigation, opinion depolarization, LiDAR manifolds, and image domain transfer. Our work brings new algorithmic opportunities for training diffusion models enhanced with task-specific optimality structures.
翻訳日:2023-10-04 13:09:29 公開日:2023-10-03
# HoloNets: スペクトル畳み込みは方向性グラフに拡張される

HoloNets: Spectral Convolutions do extend to Directed Graphs ( http://arxiv.org/abs/2310.02232v1 )

ライセンス: Link先を確認
Christian Koke, Daniel Cremers(参考訳) グラフ学習コミュニティ内では、従来の知識は、スペクトル畳み込みネットワークは無向グラフにのみ展開できる、と定めている。 ここでは、グラフフーリエ変換への伝統的な依存が超流動であることを示し、複素解析やスペクトル理論の高度なツールを用いて、スペクトル畳み込みを有向グラフに拡張する。 本稿では,新たに開発されたフィルタの周波数応答解釈を行い,フィルタ表現に使用するベースの影響を調査し,ネットワークを基盤とする特性演算子との相互作用について議論する。 開発した理論を徹底的に検証するために,実世界における実験を行い,有向スペクトル畳み込みネットワークは,多くのデータセットにおける親和性ノード分類のための新たな技術結果を提供し,ベースラインとは対照的に,解像度スケールの異なる位相摂動に対して安定的に表現できることを示した。

Within the graph learning community, conventional wisdom dictates that spectral convolutional networks may only be deployed on undirected graphs: Only there could the existence of a well-defined graph Fourier transform be guaranteed, so that information may be translated between spatial- and spectral domains. Here we show this traditional reliance on the graph Fourier transform to be superfluous and -- making use of certain advanced tools from complex analysis and spectral theory -- extend spectral convolutions to directed graphs. We provide a frequency-response interpretation of newly developed filters, investigate the influence of the basis used to express filters and discuss the interplay with characteristic operators on which networks are based. In order to thoroughly test the developed theory, we conduct experiments in real world settings, showcasing that directed spectral convolutional networks provide new state of the art results for heterophilic node classification on many datasets and -- as opposed to baselines -- may be rendered stable to resolution-scale varying topological perturbations.
翻訳日:2023-10-04 13:09:06 公開日:2023-10-03
# 未特定視覚課題におけるショートカットの緩和のための拡散不整合表現の活用

Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts in Underspecified Visual Tasks ( http://arxiv.org/abs/2310.02230v1 )

ライセンス: Link先を確認
Luca Scimeca, Alexander Rubinstein, Armand Nicolicioiu, Damien Teney and Yoshua Bengio(参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近距離学習現象につながり、モデルが信頼できるものを無視しながら、誤った、分かりやすい手がかりに依存する可能性がある。 本研究では,拡散確率モデル(dpms)を用いた合成反事実生成を利用したアンサンブル多様化フレームワークを提案する。 DPMは、トレーニングデータに大きく相関している場合でも、複数の視覚的手がかりを独立して表現できる固有の能力を持っていることがわかった。 この特徴を利用して、モデルの多様性を奨励し、いくつかの多様化目標に対するアプローチの有効性を実証的に示す。 拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成できることを示す。

Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to shortcut learning phenomena, where a model may rely on erroneous, easy-to-learn, cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting the generation of synthetic counterfactuals using Diffusion Probabilistic Models (DPMs). We discover that DPMs have the inherent capability to represent multiple visual cues independently, even when they are largely correlated in the training data. We leverage this characteristic to encourage model diversity and empirically show the efficacy of the approach with respect to several diversification objectives. We show that diffusion-guided diversification can lead models to avert attention from shortcut cues, achieving ensemble diversity performance comparable to previous methods requiring additional data collection.
翻訳日:2023-10-04 13:08:48 公開日:2023-10-03
# 異なる深層学習モデルによる臨床テキストからの医学的・時間的関係の抽出

Extraction of Medication and Temporal Relation from Clinical Text by Harnessing Different Deep Learning Models ( http://arxiv.org/abs/2310.02229v1 )

ライセンス: Link先を確認
Hangyu Tu and Lifeng Han and Goran Nenadic(参考訳) 電子カルテ(EMR)で表される臨床テキストは、豊富な医療情報を含み、疾患予測、パーソナライズド情報レコメンデーション、臨床決定支援、薬物パターンマイニングおよび測定に必須である。 薬物の言及と時間的情報の間の関係抽出は、臨床医が患者の治療歴をよりよく理解するのに役立つ。 薬物抽出および時間的関係分類における深層学習(DL)と大規模言語モデル(LLMs)の性能を評価するため,臨床領域名称認識(NER)のためのBiLSTM-CRFとCNN-BiLSTM、時間的関係抽出(RE)のためのBERT-CNNなどの先進的な学習構造を用いて,異なる単語埋め込み手法の探索に加えて,経験的調査を行った。 さらに,医薬品の構造的出力と時間的関係を生成するために,一連の後処理の役割も設計した。 以上の結果から,CNN-BiLSTMはi2b2-2009臨床NERの75.67,77.83,78.17でBiLSTM-CRFモデルにわずかに勝っていることがわかった。 BERT-CNNモデルはまた、i2b2-2012の課題から設定した時間的関係抽出テストでマクロAvgを用いてP/R/F1の64.48、67.17、65.03を適度に評価した。 MedTem の Code and Tools は \url{https://github.com/HECTA-UoM/MedTem} でホストされる。

Clinical texts, represented in electronic medical records (EMRs), contain rich medical information and are essential for disease prediction, personalised information recommendation, clinical decision support, and medication pattern mining and measurement. Relation extractions between medication mentions and temporal information can further help clinicians better understand the patients' treatment history. To evaluate the performances of deep learning (DL) and large language models (LLMs) in medication extraction and temporal relations classification, we carry out an empirical investigation of \textbf{MedTem} project using several advanced learning structures including BiLSTM-CRF and CNN-BiLSTM for a clinical domain named entity recognition (NER), and BERT-CNN for temporal relation extraction (RE), in addition to the exploration of different word embedding techniques. Furthermore, we also designed a set of post-processing roles to generate structured output on medications and the temporal relation. Our experiments show that CNN-BiLSTM slightly wins the BiLSTM-CRF model on the i2b2-2009 clinical NER task yielding 75.67, 77.83, and 78.17 for precision, recall, and F1 scores using Macro Average. BERT-CNN model also produced reasonable evaluation scores 64.48, 67.17, and 65.03 for P/R/F1 using Macro Avg on the temporal relation extraction test set from i2b2-2012 challenges. Code and Tools from MedTem will be hosted at \url{https://github.com/HECTA-UoM/MedTem}
翻訳日:2023-10-04 13:08:32 公開日:2023-10-03
# SNIP:統一事前学習による数学的記号と数値領域のブリッジ

SNIP: Bridging Mathematical Symbolic and Numeric Realms with Unified Pre-training ( http://arxiv.org/abs/2310.02227v1 )

ライセンス: Link先を確認
Kazem Meidani, Parshin Shojaee, Chandan K. Reddy, Amir Barati Farimani(参考訳) 複雑な自然現象のモデル化に記号的数理方程式が不可欠である時代には、科学的な探究には観察の収集と数学的表現への翻訳がしばしば必要となる。 近年,データから洞察を抽出する強力なツールとしてディープラーニングが登場している。 しかしながら、既存のモデルは典型的には数値的あるいは記号的ドメインを専門とし、通常は特定のタスクに合わせた教師付き方法で訓練される。 このアプローチは、記号方程式とその数値方程式の間のタスクに依存しない統一的な理解から生じる実質的な利益を無視している。 このギャップを埋めるために,シンボルドメインと数値ドメインの対比学習を併用し,事前学習における相互類似性を高めるシンボリック・数値統合事前学習であるSNIPを導入する。 潜時空間解析を行うことにより,SNIPが表現のクロスドメインな洞察を提供し,記号的指導によって数値データの埋め込みが促進されることを示す。 我々は,記号型から数値型への数学的性質予測や,記号型回帰と呼ばれる数値型から記号型への方程式発見など,SNIPを多種多様なタスクで評価する。 その結果、SNIPは様々なタスクに効果的に移行し、完全に教師されたベースラインを一貫して上回り、既存のタスク固有の手法と強く競合することがわかった。

In an era where symbolic mathematical equations are indispensable for modeling complex natural phenomena, scientific inquiry often involves collecting observations and translating them into mathematical expressions. Recently, deep learning has emerged as a powerful tool for extracting insights from data. However, existing models typically specialize in either numeric or symbolic domains, and are usually trained in a supervised manner tailored to specific tasks. This approach neglects the substantial benefits that could arise from a task-agnostic unified understanding between symbolic equations and their numeric counterparts. To bridge the gap, we introduce SNIP, a Symbolic-Numeric Integrated Pre-training, which employs joint contrastive learning between symbolic and numeric domains, enhancing their mutual similarities in the pre-trained embeddings. By performing latent space analysis, we observe that SNIP provides cross-domain insights into the representations, revealing that symbolic supervision enhances the embeddings of numeric data and vice versa. We evaluate SNIP across diverse tasks, including symbolic-to-numeric mathematical property prediction and numeric-to-symbolic equation discovery, commonly known as symbolic regression. Results show that SNIP effectively transfers to various tasks, consistently outperforming fully supervised baselines and competing strongly with established task-specific methods, especially in few-shot learning scenarios where available data is limited.
翻訳日:2023-10-04 13:07:55 公開日:2023-10-03
# 話す前に考える: ポーズトークンで言語モデルを訓練する

Think before you speak: Training Language Models With Pause Tokens ( http://arxiv.org/abs/2310.02226v1 )

ライセンス: Link先を確認
Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan(参考訳) 言語モデルは、即座に一連のトークンを生成して応答を生成する:$(K+1)^{th}$トークンは、前のトークンごとに1つのベクトルである層ごとに$K$隠れベクトルを操作する結果である。 代わりに、$(K+1)^{th}$トークンを出力する前に、モデルに$K+10$隠れベクトルを操作させるとしたらどうでしょう? 我々は、(学習可能な)$\textit{pause}$トークンで言語モデルのトレーニングと推論を行い、そのシーケンスを入力プレフィックスに追加することで、このアイデアを運用する。 そして、最後の一時停止トークンが現れるまでモデルの出力の抽出を遅らせ、モデルが応答にコミットする前に余分な計算を処理できるようにする。 我々は,C4の因果前訓練を伴う1Bおよび130Mパラメータのデコーダのみのモデルと,推論,質問応答,一般的な理解,事実リコールを含む下流タスクに対して,$\textit{pause-training}$を経験的に評価した。 我々の主な発見は、モデルが事前訓練され、遅延とともに微調整されたときに、推論時間遅延が上昇するということである。 1Bモデルでは、9つのタスクのうち8つで、最も顕著に、SQuADのQAタスクで18\%$ EMスコアが、CommonSenseQAで8\%、GSM8kの推論タスクで1\%$精度が上昇している。 我々の研究は、遅れた次世代予測を広く適用可能な新しいパラダイムにするための概念的および実践的な研究課題を提起する。

Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18\%$ EM score on the QA task of SQuAD, $8\%$ on CommonSenseQA and $1\%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.
翻訳日:2023-10-04 13:07:29 公開日:2023-10-03
# 言語モデルは個人情報を保護できるのか?

Can Language Models be Instructed to Protect Personal Information? ( http://arxiv.org/abs/2310.02224v1 )

ライセンス: Link先を確認
Yang Chen, Ethan Mendes, Sauvik Das, Wei Xu, Alan Ritter(参考訳) 大規模なマルチモーダル言語モデルは、多くのアプリケーションでトランスフォーメーションが証明されている。 しかし、これらのモデルは事前トレーニングデータを記憶し、リークし、ユーザーのプライバシーと情報セキュリティに関する深刻な懸念を引き起こすことが示されている。 データリークは防止すべきだが,提案手法のプライバシー保護とモデルユーティリティとのトレードオフを検討することも重要である。 本稿では、シミュレーションシナリオにおいて、特定の個人情報のカテゴリを保護するようモデルに指示された場合、プライバシ/ユーティリティトレードオフを評価するためのマルチモーダルベンチマークであるPrivQAを紹介する。 また,プライバシを著しく改善する応答を反復的に自己調整する手法を提案する。 しかし, 一連のレッドチーム実験により, テキスト入力や画像入力による単純なジェイルブレイク手法により, 敵の保護を回避できることが判明した。 PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。 privqaデータセット全体をhttps://llm-access-control.github.io/でリリースします。

Large multimodal language models have proven transformative in numerous applications. However, these models have been shown to memorize and leak pre-training data, raising serious user privacy and information security concerns. While data leaks should be prevented, it is also crucial to examine the trade-off between the privacy protection and model utility of proposed approaches. In this paper, we introduce PrivQA -- a multimodal benchmark to assess this privacy/utility trade-off when a model is instructed to protect specific categories of personal information in a simulated scenario. We also propose a technique to iteratively self-moderate responses, which significantly improves privacy. However, through a series of red-teaming experiments, we find that adversaries can also easily circumvent these protections with simple jailbreaking methods through textual and/or image inputs. We believe PrivQA has the potential to support the development of new models with improved privacy protections, as well as the adversarial robustness of these protections. We release the entire PrivQA dataset at https://llm-access-control.github.io/.
翻訳日:2023-10-04 13:06:56 公開日:2023-10-03
# talk2bev: 自律運転のための言語強調鳥眼図

Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving ( http://arxiv.org/abs/2310.02251v1 )

ライセンス: Link先を確認
Vikrant Dewangan, Tushar Choudhary, Shivam Chandhok, Shubham Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna Murthy Jatavallabhula, K. Madhava Krishna(参考訳) Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための大型視覚言語モデル(LVLM)インターフェースである。 既存の自動運転シナリオの認識システムは、オブジェクトカテゴリと駆動シナリオの事前定義された(閉じた)セットに重点を置いているが、talk2bevは、汎用言語とビジョンモデルの最近の進歩とbev構造化マップ表現を融合させ、タスク固有のモデルの必要性をなくしている。 これにより、単一のシステムは、視覚的および空間的推論、トラフィックアクターの意図の予測、視覚的手がかりに基づく意思決定を含む様々な自律運転タスクに対応できる。 我々は、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語拡張型BEVマップに埋め込まれた視覚的コンテキストに基盤付けることの両方に依存する、多数のシーン理解タスクに基づいて、Talk2BEVを広範囲に評価する。 自動運転シナリオのためのLVLMのさらなる研究を可能にするために、1,000人の人間によるBEVシナリオを含むベンチマークであるTalk2BEV-Benchを開発しリリースする。

Talk2BEV is a large vision-language model (LVLM) interface for bird's-eye view (BEV) maps in autonomous driving contexts. While existing perception systems for autonomous driving scenarios have largely focused on a pre-defined (closed) set of object categories and driving scenarios, Talk2BEV blends recent advances in general-purpose language and vision models with BEV-structured map representations, eliminating the need for task-specific models. This enables a single system to cater to a variety of autonomous driving tasks encompassing visual and spatial reasoning, predicting the intents of traffic actors, and decision-making based on visual cues. We extensively evaluate Talk2BEV on a large number of scene understanding tasks that rely on both the ability to interpret free-form natural language queries, and in grounding these queries to the visual context embedded into the language-enhanced BEV map. To enable further research in LVLMs for autonomous driving scenarios, we develop and release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV scenarios, with more than 20,000 questions and ground-truth responses from the NuScenes dataset.
翻訳日:2023-10-04 12:59:17 公開日:2023-10-03
# なぜオートエンコーダが機能するのか?

Why do autoencoders work? ( http://arxiv.org/abs/2310.02250v1 )

ライセンス: Link先を確認
Matthew D. Kvalheim and Eduardo D. Sontag(参考訳) ディープニューラルネットワークオートエンコーダは、モデル削減のために計算的に使用される。 それらは入力ユークリッド空間$\R^n$の$k$-次元部分集合$K$にあるデータの本質的な次元を認識することができる。 基本的な考え方は、$\R^n$ を $\R^k$ にマッピングする符号化層(ボトルネック層または潜在変数の空間と呼ばれる)と、$\R^k$ を $\R^n$ にマッピングする復号層の両方を、2つの写像を構成する際にセット $K$ から入力データが復元されるようにすることである。 これは、入力と再構成された出力との差を最小限に抑えるために、ネットワーク内のパラメータ(重み)を調整することで達成される。 ニューラルネットワーク(連続活性化関数を持つ)は連続写像を計算するため、完全再構成を達成するネットワークの存在は、$K$が$\R^k$の$k$-次元部分集合に同型であることを示唆する。 一方、実際には、このテクニックは ‘work' とよく似ており、この効果を説明する方法があるかどうかを問うことになる。 私たちは、小さなエラーまで、実際にそのメソッドが機能することを保証していることを示す。 これは微分幾何学からある事実に訴えることによって行われる。 アイデアを説明するための計算例も含んでいる。

Deep neural network autoencoders are routinely used computationally for model reduction. They allow recognizing the intrinsic dimension of data that lie in a $k$-dimensional subset $K$ of an input Euclidean space $\R^n$. The underlying idea is to obtain both an encoding layer that maps $\R^n$ into $\R^k$ (called the bottleneck layer or the space of latent variables) and a decoding layer that maps $\R^k$ back into $\R^n$, in such a way that the input data from the set $K$ is recovered when composing the two maps. This is achieved by adjusting parameters (weights) in the network to minimize the discrepancy between the input and the reconstructed output. Since neural networks (with continuous activation functions) compute continuous maps, the existence of a network that achieves perfect reconstruction would imply that $K$ is homeomorphic to a $k$-dimensional subset of $\R^k$, so clearly there are topological obstructions to finding such a network. On the other hand, in practice the technique is found to ``work'' well, which leads one to ask if there is a way to explain this effectiveness. We show that, up to small errors, indeed the method is guaranteed to work. This is done by appealing to certain facts from differential geometry. A computational example is also included to illustrate the ideas.
翻訳日:2023-10-04 12:58:55 公開日:2023-10-03
# インド語における攻撃言語検出のための事前学習文変換器の調和

Harnessing Pre-Trained Sentence Transformers for Offensive Language Detection in Indian Languages ( http://arxiv.org/abs/2310.02249v1 )

ライセンス: Link先を確認
Ananya Joshi, Raviraj Joshi(参考訳) ますます相互に繋がるデジタル世界では、ソーシャルメディアプラットフォームはヘイトスピーチと攻撃的なコンテンツの普及のための強力なチャネルとして現れています。 この研究はヘイトスピーチ検出の領域に分解され、ベンガル語、アッサム語、グジャラーティ語という3つの低資源インド語に重点が置かれた。 この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。 HASOC 2023データセットを利用して、事前訓練されたBERTとSBERTモデルを微調整し、ヘイトスピーチの同定の有効性を評価する。 以上の結果から,単言語文-BERTモデルの優位性,特にベンガル語では高い評価を得た。 しかし、アッサム語とグジャラティ語のパフォーマンスは、強化の継続する機会を示している。 私たちの目標は、ヘイトスピーチの拡散に対抗することで、包括的オンライン空間を育むことです。

In our increasingly interconnected digital world, social media platforms have emerged as powerful channels for the dissemination of hate speech and offensive content. This work delves into the domain of hate speech detection, placing specific emphasis on three low-resource Indian languages: Bengali, Assamese, and Gujarati. The challenge is framed as a text classification task, aimed at discerning whether a tweet contains offensive or non-offensive content. Leveraging the HASOC 2023 datasets, we fine-tuned pre-trained BERT and SBERT models to evaluate their effectiveness in identifying hate speech. Our findings underscore the superiority of monolingual sentence-BERT models, particularly in the Bengali language, where we achieved the highest ranking. However, the performance in Assamese and Gujarati languages signifies ongoing opportunities for enhancement. Our goal is to foster inclusive online spaces by countering hate speech proliferation.
翻訳日:2023-10-04 12:58:28 公開日:2023-10-03
# 変分コヒーレント量子アニーリング

Variational Coherent Quantum Annealing ( http://arxiv.org/abs/2310.02248v1 )

ライセンス: Link先を確認
N. Barraza, G. Alvarado Barrios, I. Montalban, E. Solano, and F. Albarr\'an-Arriagada(参考訳) 本稿では,量子部品が量子アニーラのコヒーレンス時間内で厳密に動作し,変分コヒーレント量子アニーラリング(vcqa)と呼ばれる手法を提案する。 量子力学を規定するスケジュール関数の最適化には、調整された関数の断片的なファミリーを用いる。 また,進化の開始時と終了時に消失する補助的ハミルトニアンを導入し,その過程でエネルギーギャップを増大させ,アルゴリズム時間を短縮する。 線形, 巡回, 恒星接続性を考慮して, z-局所項を補助ハミルトニアンとして用いた数値実験を開発した。 さらに,ハイゼンベルク連鎖のような非確率的ハミルトニアンに対して,VCQA提案の可能性を示すアルゴリズムを検証した。 この方法では,6つの変動パラメータとデバイスコヒーレンス時間内の持続時間で,基底状態誤差の実質的な低減を実現する。 したがって、提案されたVCQAパラダイムは、現在の量子アニールに対するエキサイティングな展望を提供する。

We present a hybrid classical-quantum computing paradigm where the quantum part strictly runs within the coherence time of a quantum annealer, a method we call variational coherent quantum annealing (VCQA). It involves optimizing the schedule functions governing the quantum dynamics by employing a piecewise family of tailored functions. We also introduce auxiliary Hamiltonians that vanish at the beginning and end of the evolution to increase the energy gap during the process, subsequently reducing the algorithm times. We develop numerical tests using z-local terms as the auxiliary Hamiltonian while considering linear, cyclic, and star connectivity. Moreover, we test our algorithm for a non-stoquastic Hamiltonian such as a Heisenberg chain, showing the potential of the VCQA proposal in different scenarios. In this manner, we achieve a substantial reduction in the ground-state error with just six variational parameters and a duration within the device coherence times. Therefore, the proposed VCQA paradigm offers exciting prospects for current quantum annealers.
翻訳日:2023-10-04 12:58:13 公開日:2023-10-03
# Relaxの学習: 線形システムインスタンスのシーケンス全体にわたるソルバーパラメータの設定

Learning to Relax: Setting Solver Parameters Across a Sequence of Linear System Instances ( http://arxiv.org/abs/2310.02246v1 )

ライセンス: Link先を確認
Mikhail Khodak, Edmond Chow, Maria-Florina Balcan, Ameet Talwalkar(参考訳) 線形システムの解法である$Ax=b$は、多くの解法とプリコンディショナーが開発された基本的な科学計算プリミティブである。 これらのパラメータは、解決されるシステムに依存する最適な値を持ち、しばしば識別が不可能または高価であるため、実際には準最適ヒューリスティックが使用される。 一つの数値シミュレーションのように、多くの関連する線形系を解く必要がある共通設定を考える。 このシナリオでは、余分な行列計算なしで、ほぼ最適に近い反復数が得られるパラメータを逐次選択できるだろうか? 我々は、$\omega$というパラメータが実行時に大きな影響を与える標準解法であるsor(equal over-relaxation)を肯定的に答える。 本手法では,反復回数だけをフィードバックとして使用する帯域幅オンライン学習アルゴリズムが,シーケンス長が増加するにつれて,最大固定$\omega$に近づくような,一連のインスタンスのパラメータを選択できることを証明した。 さらに、追加構造情報を与えると、文脈的バンディット法がインスタンス最適化ポリシーの性能を漸近的に達成し、各インスタンスに対して最高の$\omega$を選択することを示す。 本研究は、高精度線形システム解法の最初の学習理論的処理と、データ駆動科学計算におけるエンドツーエンド保証を提供し、よく理解された学習アルゴリズムを用いて数値手法を高速化する可能性を理論的に証明する。

Solving a linear system $Ax=b$ is a fundamental scientific computing primitive for which numerous solvers and preconditioners have been developed. These come with parameters whose optimal values depend on the system being solved and are often impossible or too expensive to identify; thus in practice sub-optimal heuristics are used. We consider the common setting in which many related linear systems need to be solved, e.g. during a single numerical simulation. In this scenario, can we sequentially choose parameters that attain a near-optimal overall number of iterations, without extra matrix computations? We answer in the affirmative for Successive Over-Relaxation (SOR), a standard solver whose parameter $\omega$ has a strong impact on its runtime. For this method, we prove that a bandit online learning algorithm -- using only the number of iterations as feedback -- can select parameters for a sequence of instances such that the overall cost approaches that of the best fixed $\omega$ as the sequence length increases. Furthermore, when given additional structural information, we show that a contextual bandit method asymptotically achieves the performance of the instance-optimal policy, which selects the best $\omega$ for each instance. Our work provides the first learning-theoretic treatment of high-precision linear system solvers and the first end-to-end guarantees for data-driven scientific computing, demonstrating theoretically the potential to speed up numerical methods using well-understood learning algorithms.
翻訳日:2023-10-04 12:57:57 公開日:2023-10-03
# テンソルプログラムvi:無限深層ニューラルネットワークにおける特徴学習

Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks ( http://arxiv.org/abs/2310.02244v1 )

ライセンス: Link先を確認
Greg Yang, Dingli Yu, Chen Zhu, Soufiane Hayou(参考訳) 無限幅のニューラルネットワークを分類し、 *optimal* 限界を識別することで、テンソルプログラム iv と v は *widthwise hyperparameter transfer* に対して $\mu$p と呼ばれる普遍的な方法、すなわち狭いものから広いニューラルネットワークの最適ハイパーパラメータを予測することを証明した。 ここでは、深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。 我々はブロック乗数と学習率の深さ方向のパラメトリゼーションを、その無限幅とその深度制限によって分類する。 各ブロックが1つの層しか持たないresnetsでは、深さ-$\mu$pと呼ばれる一意な最適パラメトリゼーションを識別し、深さ方向のハイパーパラメータ転送を経験的に示す。 深さ-$\mu$p は、特徴の学習と特徴の多様性の両方を最大化することが特徴である。 これを実行すると、すべての均質な非線形性の中で絶対値が特徴の多様性を最大化し、実際に経験的に優れた性能をもたらすことが分かる。 しかし、各ブロックがより深い(現代の変圧器のような)場合、そのようなパラメトリゼーションの可能な無限深度制限の基本的な制限を見つけ、これは理論上も経験的にも単純なネットワーク上でも、Common Crawlで訓練されたメガトロン変換器と同様に説明できる。

By classifying infinite-width neural networks and identifying the *optimal* limit, Tensor Programs IV and V demonstrated a universal way, called $\mu$P, for *widthwise hyperparameter transfer*, i.e., predicting optimal hyperparameters of wide neural networks from narrow ones. Here we investigate the analogous classification for *depthwise parametrizations* of deep residual networks (resnets). We classify depthwise parametrizations of block multiplier and learning rate by their infinite-width-then-depth limits. In resnets where each block has only one layer, we identify a unique optimal parametrization, called Depth-$\mu$P that extends $\mu$P and show empirically it admits depthwise hyperparameter transfer. We identify *feature diversity* as a crucial factor in deep networks, and Depth-$\mu$P can be characterized as maximizing both feature learning and feature diversity. Exploiting this, we find that absolute value, among all homogeneous nonlinearities, maximizes feature diversity and indeed empirically leads to significant better performance. However, if each block is deeper (such as modern transformers), then we find fundamental limitations in all possible infinite-depth limits of such parametrizations, which we illustrate both theoretically and empirically on simple networks as well as Megatron transformer trained on Common Crawl.
翻訳日:2023-10-04 12:57:30 公開日:2023-10-03
# 多項式時間で任意の温度での量子ハミルトンの学習

Learning quantum Hamiltonians at any temperature in polynomial time ( http://arxiv.org/abs/2310.02243v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Allen Liu, Ankur Moitra, Ewin Tang(参考訳) 局所量子ハミルトニアン$H$とそのギブス状態のコピーである$\rho = e^{-\beta H}/\textrm{tr}(e^{-\beta H})$を既知の逆温度$\beta>0$で学習する問題を研究する。 anshu, arunachalam, kuwahara, and soleimanifar (arxiv: 2004.07266) は、n$ qubits でハミルトニアンを学習するアルゴリズムを提供し、ギブス状態の多項式のコピーを数えるだけで$\epsilon$ を計算した。 計算効率の高いアルゴリズムの取得は、主要なオープン問題 [alhambra'22 (arxiv:2204.08349)], [anshu, arunachalam'22 (arxiv:2204.08349)] であり、以前の研究は、高温[haah, kothari, tang'21 (arxiv:2108.04842)] または通勤用語 [anshu, arunachalam, kuwahara, soleimanifar'21] でのみ解決した。 我々はこの問題を完全に解決し、任意の定数$\beta > 0$でギブス状態の多項式的に多くのコピーから$\epsilon$を精度良く学習するための多項式時間アルゴリズムを与える。 我々の主な技術的貢献は、指数関数に対する新しい平坦多項式近似と、多変量スカラー多項式と入れ子交換子間の変換である。 これにより、多項式系としてハミルトン学習を定式化できる。 次に、この多項式系の低次和の緩和を解くことで、ハミルトニアンを正確に学習できることを示す。

We study the problem of learning a local quantum Hamiltonian $H$ given copies of its Gibbs state $\rho = e^{-\beta H}/\textrm{tr}(e^{-\beta H})$ at a known inverse temperature $\beta>0$. Anshu, Arunachalam, Kuwahara, and Soleimanifar (arXiv:2004.07266) gave an algorithm to learn a Hamiltonian on $n$ qubits to precision $\epsilon$ with only polynomially many copies of the Gibbs state, but which takes exponential time. Obtaining a computationally efficient algorithm has been a major open problem [Alhambra'22 (arXiv:2204.08349)], [Anshu, Arunachalam'22 (arXiv:2204.08349)], with prior work only resolving this in the limited cases of high temperature [Haah, Kothari, Tang'21 (arXiv:2108.04842)] or commuting terms [Anshu, Arunachalam, Kuwahara, Soleimanifar'21]. We fully resolve this problem, giving a polynomial time algorithm for learning $H$ to precision $\epsilon$ from polynomially many copies of the Gibbs state at any constant $\beta > 0$. Our main technical contribution is a new flat polynomial approximation to the exponential function, and a translation between multi-variate scalar polynomials and nested commutators. This enables us to formulate Hamiltonian learning as a polynomial system. We then show that solving a low-degree sum-of-squares relaxation of this polynomial system suffices to accurately learn the Hamiltonian.
翻訳日:2023-10-04 12:57:01 公開日:2023-10-03
# 拡散確率モデルを用いた物体間相互作用の階層的生成

Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models ( http://arxiv.org/abs/2310.02242v1 )

ライセンス: Link先を確認
Huaijin Pi, Sida Peng, Minghui Yang, Xiaowei Zhou, Hujun Bao(参考訳) 本稿では,従来の自己回帰モデルや経路計画に基づく手法では達成できない長距離多種多様な動作を合成する課題に焦点をあてて,対象物と相互作用する人間の3次元運動を生成する新しいアプローチを提案する。 この課題を解決するための階層型生成フレームワークを提案する。 特に、我々のフレームワークはまず一連のマイルストーンを生成し、それらに沿って動きを合成します。 したがって、遠距離運動生成はマイルストーンによって誘導されるいくつかの短い動き列を合成できる。 NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。 ソースコードは私たちのプロジェクトページhttps://zju3dv.github.io/hghoiで閲覧できます。

This paper presents a novel approach to generating the 3D motion of a human interacting with a target object, with a focus on solving the challenge of synthesizing long-range and diverse motions, which could not be fulfilled by existing auto-regressive models or path planning-based methods. We propose a hierarchical generation framework to solve this challenge. Specifically, our framework first generates a set of milestones and then synthesizes the motion along them. Therefore, the long-range motion generation could be reduced to synthesizing several short motion sequences guided by milestones. The experiments on the NSM, COUCH, and SAMP datasets show that our approach outperforms previous methods by a large margin in both quality and diversity. The source code is available on our project page https://zju3dv.github.io/hghoi.
翻訳日:2023-10-04 12:56:19 公開日:2023-10-03
# minigpt-5: 生成vokensによる視覚言語間生成

MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens ( http://arxiv.org/abs/2310.02239v1 )

ライセンス: Link先を確認
Kaizhi Zheng, Xuehai He, Xin Eric Wang(参考訳) 大規模言語モデル(llm)は、自然言語処理の進歩に多大な注意を払っており、テキスト理解と生成の非並列性を示している。 しかし、コヒーレントなテキスト物語を伴う画像の同時生成は、いまだ発展途上のフロンティアである。 これに対し,画像テキスト出力の橋梁として機能する「生成ヴォケンズ」の概念を取り入れた,革新的インターリーブな視覚・言語生成手法を提案する。 本手法は,画像の包括的記述を必要としない,記述自由なマルチモーダル生成に焦点を当てた2段階の訓練戦略を特徴とする。 モデル整合性を高めるため、分類器フリーガイダンスが組み込まれ、画像生成における発声の有効性を高める。 我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善され、VISTデータセットの人間評価において、優れた、あるいは同等のマルチモーダル出力が一貫して提供され、様々なベンチマークでその有効性を強調している。

Large Language Models (LLMs) have garnered significant attention for their advancements in natural language processing, demonstrating unparalleled prowess in text comprehension and generation. Yet, the simultaneous generation of images with coherent textual narratives remains an evolving frontier. In response, we introduce an innovative interleaved vision-and-language generation technique anchored by the concept of "generative vokens," acting as the bridge for harmonized image-text outputs. Our approach is characterized by a distinctive two-staged training strategy focusing on description-free multimodal generation, where the training requires no comprehensive descriptions of images. To bolster model integrity, classifier-free guidance is incorporated, enhancing the effectiveness of vokens on image generation. Our model, MiniGPT-5, exhibits substantial improvement over the baseline Divter model on the MMDialog dataset and consistently delivers superior or comparable multimodal outputs in human evaluations on the VIST dataset, highlighting its efficacy across diverse benchmarks.
翻訳日:2023-10-04 12:56:07 公開日:2023-10-03
# ハリー・ポッターって誰? LLMにおける近似アンラーニング

Who's Harry Potter? Approximate Unlearning in LLMs ( http://arxiv.org/abs/2310.02238v1 )

ライセンス: Link先を確認
Ronen Eldan and Mark Russinovich(参考訳) 大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。 これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。 本稿では,トレーニングデータのサブセットをスクラッチから再トレーニングすることなく,llmからアンラーニングする手法を提案する。 我々はLlama2-7bモデル(最近Metaがオープンソース化した生成言語モデル)からHarry Potterの本を学習するタスクについて評価した。 モデルが事前トレーニングに184K以上のGPU時間を要する一方で、約1GPUの微調整によって、Harry Potter関連のコンテンツを生成またはリコールする能力は事実上消失し、一般的なベンチマーク(Winogrande、Hellaswag、arc、boolq、piqaなど)のパフォーマンスはほとんど影響を受けていない。 コミュニティ評価のために、HuggingFaceで微調整されたモデルを公開しています。 我々の知る限りでは、生成言語モデルにおける非学習の効果的な手法を提示する最初の論文である。 まず、ターゲットデータ上でさらに訓練された強化モデルを使用して、学習対象と最も関連のあるトークンを特定し、そのロジットをベースラインモデルと比較する。 第2に,対象データの慣用的表現を汎用的な表現に置き換え,モデル独自の予測を用いてトークン毎に代替ラベルを生成する。 これらのラベルは、ターゲットデータでトレーニングされていないモデルの次の予測を近似することを目的としている。 第3に、これらの代替ラベルでモデルを微調整し、モデルのコンテキストで促されるたびに、モデルのメモリから元のテキストを効果的に消去する。

Large language models (LLMs) are trained on massive internet corpora that often contain copyrighted content. This poses legal and ethical challenges for the developers and users of these models, as well as the original authors and publishers. In this paper, we propose a novel technique for unlearning a subset of the training data from a LLM, without having to retrain it from scratch. We evaluate our technique on the task of unlearning the Harry Potter books from the Llama2-7b model (a generative language model recently open-sourced by Meta). While the model took over 184K GPU-hours to pretrain, we show that in about 1 GPU hour of finetuning, we effectively erase the model's ability to generate or recall Harry Potter-related content, while its performance on common benchmarks (such as Winogrande, Hellaswag, arc, boolq and piqa) remains almost unaffected. We make our fine-tuned model publicly available on HuggingFace for community evaluation. To the best of our knowledge, this is the first paper to present an effective technique for unlearning in generative language models. Our technique consists of three main components: First, we use a reinforced model that is further trained on the target data to identify the tokens that are most related to the unlearning target, by comparing its logits with those of a baseline model. Second, we replace idiosyncratic expressions in the target data with generic counterparts, and leverage the model's own predictions to generate alternative labels for every token. These labels aim to approximate the next-token predictions of a model that has not been trained on the target data. Third, we finetune the model on these alternative labels, which effectively erases the original text from the model's memory whenever it is prompted with its context.
翻訳日:2023-10-04 12:55:47 公開日:2023-10-03
# DREAM:人間の視覚システムを逆転させる視覚デコード

DREAM: Visual Decoding from Reversing Human Visual System ( http://arxiv.org/abs/2310.02265v1 )

ライセンス: Link先を確認
Weihao Xia, Raoul de Charette, Cengiz \"Oztireli, Jing-Hao Xue(参考訳) 本稿では,人間の視覚システムに関する基礎知識に基づいて,脳活動から映像を再構成するfmri-to-image手法であるdreamを提案する。 我々は、人間が視覚の世界をどのように知覚するかの階層的かつ並列的な性質を模倣する逆経路を作成する。 これらの調整された経路は、fMRIデータから意味、色、深さの手がかりを解読し、視覚刺激からfMRI記録への前方経路を反映する。 2つのコンポーネントは、人間の視覚系内の逆過程を模倣する: この脳領域の経路を逆転させ、fMRIデータから意味を抽出するReverse Visual Association Cortex(R-VAC)、fMRI信号から色と深さを同時に予測するReverse Parallel PKM(R-PKM)である。 実験の結果,本手法は外観,構造,セマンティクスの一貫性の観点から,現在の最先端モデルよりも優れていることが示された。 この分野でのさらなる研究を促進するために、コードは公開されます。

In this work we present DREAM, an fMRI-to-image method for reconstructing viewed images from brain activities, grounded on fundamental knowledge of the human visual system. We craft reverse pathways that emulate the hierarchical and parallel nature of how humans perceive the visual world. These tailored pathways are specialized to decipher semantics, color, and depth cues from fMRI data, mirroring the forward pathways from visual stimuli to fMRI recordings. To do so, two components mimic the inverse processes within the human visual system: the Reverse Visual Association Cortex (R-VAC) which reverses pathways of this brain region, extracting semantics from fMRI data; the Reverse Parallel PKM (R-PKM) component simultaneously predicting color and depth from fMRI signals. The experiments indicate that our method outperforms the current state-of-the-art models in terms of the consistency of appearance, structure, and semantics. Code will be made publicly available to facilitate further research in this field.
翻訳日:2023-10-04 12:50:04 公開日:2023-10-03
# 大規模言語モデルを用いた一般化可能な長距離マニピュレーション

Generalizable Long-Horizon Manipulations with Large Language Models ( http://arxiv.org/abs/2310.02264v1 )

ライセンス: Link先を確認
Haoyu Zhou, Mingyu Ding, Weikun Peng, Masayoshi Tomizuka, Lin Shao, Chuang Gan(参考訳) 本研究は,大規模言語モデル(llms)の機能を活用して,新規なオブジェクトと未認識のタスクを汎用的に操作するためのプリミティブタスク条件を生成するフレームワークを提案する。 これらのタスク条件は、長距離タスク実行のためのダイナミックモーションプリミティブ(DMP)トラジェクトリの生成と調整のガイドとなる。 我々はさらに,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。 シミュレーションと実世界の両環境における広範囲な実験は、新しい物体と新しいが関連するタスクの両方において、我々のフレームワークの有効性を実証し、ロボットシステムの汎用性と適応性を向上するLLMの可能性を強調した。 プロジェクトウェブサイト: https://object814.github.io/Task-Condition-With-LLM/

This work introduces a framework harnessing the capabilities of Large Language Models (LLMs) to generate primitive task conditions for generalizable long-horizon manipulations with novel objects and unseen tasks. These task conditions serve as guides for the generation and adjustment of Dynamic Movement Primitives (DMP) trajectories for long-horizon task execution. We further create a challenging robotic manipulation task suite based on Pybullet for long-horizon task evaluation. Extensive experiments in both simulated and real-world environments demonstrate the effectiveness of our framework on both familiar tasks involving new objects and novel but related tasks, highlighting the potential of LLMs in enhancing robotic system versatility and adaptability. Project website: https://object814.github.io/Task-Condition-With-LLM/
翻訳日:2023-10-04 12:49:42 公開日:2023-10-03
# データカリキュラムにおける大規模言語モデル学習の対比

Contrastive Post-training Large Language Models on Data Curriculum ( http://arxiv.org/abs/2310.02263v1 )

ライセンス: Link先を確認
Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao(参考訳) アライメントは大きな言語モデル(LLM)を人間の好みに向けるための重要なステップとなる。 本稿では,様々な強度のモデル(例えばinstructgpt,chatgpt,gpt-4)から選択ペアを自動的に構築することにより,アライメントのための対比後訓練手法を検討する。 我々はSLiCとDPOの対比手法をSFTベースラインと慎重に比較し、DPOがSFT飽和度を継続してもステップ関数の改善をもたらすことを発見した。 また,「より簡単な」ペアから学習し,「より硬い」ペアへ移行し,さらにアライメントを改善することで,コントラスト付きポストトレーニングのためのデータカリキュラム学習手法について検討した。 最後に、実験をスケールアップして、より多くのデータとOrcaのような大きなモデルでトレーニングします。 対照的にポストトレーニングは、既にGPT-4出力をチューニングした最先端の教育学習モデルであるOrcaの性能をさらに向上させ、ChatGPTよりも優れている。

Alignment serves as an important step to steer large language models (LLMs) towards human preferences. In this paper, we explore contrastive post-training techniques for alignment by automatically constructing preference pairs from multiple models of varying strengths (e.g., InstructGPT, ChatGPT and GPT-4). We carefully compare the contrastive techniques of SLiC and DPO to SFT baselines and find that DPO provides a step-function improvement even after continueing SFT saturates. We also explore a data curriculum learning scheme for contrastive post-training, which starts by learning from "easier" pairs and transitioning to "harder" ones, which further improves alignment. Finally, we scale up our experiments to train with more data and larger models like Orca. Remarkably, contrastive post-training further improves the performance of Orca, already a state-of-the-art instruction learning model tuned with GPT-4 outputs, to exceed that of ChatGPT.
翻訳日:2023-10-04 12:49:29 公開日:2023-10-03
# RSRD:安全で快適な自動運転のための道路表面再構成データセットとベンチマーク

RSRD: A Road Surface Reconstruction Dataset and Benchmark for Safe and Comfortable Autonomous Driving ( http://arxiv.org/abs/2310.02262v1 )

ライセンス: Link先を確認
Tong Zhao, Chenfeng Xu, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan, Yintao Wei(参考訳) 本稿では,道路環境が運転性能全体において重要な役割を担っているインテリジェントロボットシステム,特に自律走行車における安全と快適性の増大に対処する。 例えば、路面の再構築は、移動計画と制御システムの車両応答の分析と予測を強化するのに役立つ。 我々は,様々な運転条件下で,専用プラットフォームで収集した実世界,高解像度,高精度なデータセットであるRoad Surface Reconstruction Dataset (RSRD)を紹介した。 約16,000対のステレオ画像、原点雲、地底深度/分散マップを含む一般的な道路タイプをカバーし、その品質を確保するために正確な後処理パイプラインを備えている。 rsrdに基づき、深度推定とステレオマッチングによる道路プロファイルの復元のための総合ベンチマークを更に構築する。 各種最先端手法による予備評価では、安全自動運転に向けての多視点ステレオなどの技術開発に有用な資源として、RSRDのかなりの機会を浮き彫りにしながら、我々のデータセットの有効性と課題を明らかにしている。 データセットとデモビデオはhttps://thu-rsxd.com/rsrd/で入手できる。

This paper addresses the growing demands for safety and comfort in intelligent robot systems, particularly autonomous vehicles, where road conditions play a pivotal role in overall driving performance. For example, reconstructing road surfaces helps to enhance the analysis and prediction of vehicle responses for motion planning and control systems. We introduce the Road Surface Reconstruction Dataset (RSRD), a real-world, high-resolution, and high-precision dataset collected with a specialized platform in diverse driving conditions. It covers common road types containing approximately 16,000 pairs of stereo images, original point clouds, and ground-truth depth/disparity maps, with accurate post-processing pipelines to ensure its quality. Based on RSRD, we further build a comprehensive benchmark for recovering road profiles through depth estimation and stereo matching. Preliminary evaluations with various state-of-the-art methods reveal the effectiveness of our dataset and the challenge of the task, underscoring substantial opportunities of RSRD as a valuable resource for advancing techniques, e.g., multi-view stereo towards safe autonomous driving. The dataset and demo videos are available at https://thu-rsxd.com/rsrd/
翻訳日:2023-10-04 12:49:09 公開日:2023-10-03
# transradar:リアルタイムマルチビューレーダセマンティクスセグメンテーションのための適応方向トランスフォーマ

TransRadar: Adaptive-Directional Transformer for Real-Time Multi-View Radar Semantic Segmentation ( http://arxiv.org/abs/2310.02260v1 )

ライセンス: Link先を確認
Yahia Dalbah, Jean Lahoud, Hisham Cholakkal(参考訳) シーン理解は、自律運転を可能にし、高いパフォーマンスと安全性の標準を維持する上で重要な役割を果たす。 この課題に対処するため、カメラとレーザースキャナー(LiDAR)が最も一般的に使われているセンサーであり、レーダーは一般的ではない。 それでもレーダーは、悪天候に耐性のある低コスト、情報密度、高速センシング技術を維持している。 レーダに基づくシーンセマンティックセマンティックセグメンテーションについては、これまでも複数の研究がなされてきたが、レーダーデータの性質は、固有のノイズや空間性、不均質な前景や背景など、依然として課題となっている。 本研究では,レーダデータの多入力融合と,レーダ知覚の欠点に対処するために調整された損失関数を用いて,レーダシーンの意味的セグメンテーションを行う新しい手法を提案する。 我々の新しいアーキテクチャは、重要な特徴情報を適応的にキャプチャする効率的な注意ブロックを含んでいる。 提案手法であるTransRadarは,モデルサイズを小さくしながら,CARRADAおよびRADIalデータセット上で最先端の手法より優れている。 https://github.com/YahiDar/TransRadar

Scene understanding plays an essential role in enabling autonomous driving and maintaining high standards of performance and safety. To address this task, cameras and laser scanners (LiDARs) have been the most commonly used sensors, with radars being less popular. Despite that, radars remain low-cost, information-dense, and fast-sensing techniques that are resistant to adverse weather conditions. While multiple works have been previously presented for radar-based scene semantic segmentation, the nature of the radar data still poses a challenge due to the inherent noise and sparsity, as well as the disproportionate foreground and background. In this work, we propose a novel approach to the semantic segmentation of radar scenes using a multi-input fusion of radar data through a novel architecture and loss functions that are tailored to tackle the drawbacks of radar perception. Our novel architecture includes an efficient attention block that adaptively captures important feature information. Our method, TransRadar, outperforms state-of-the-art methods on the CARRADA and RADIal datasets while having smaller model sizes. https://github.com/YahiDar/TransRadar
翻訳日:2023-10-04 12:48:37 公開日:2023-10-03
# 宝くじのセンシングによるニューラルネットワークのスケーリング則

A Neural Scaling Law from Lottery Ticket Ensembling ( http://arxiv.org/abs/2310.02258v1 )

ライセンス: Link先を確認
Ziming Liu, Max Tegmark(参考訳) 神経スケーリングの法則(neural scaling law、nsl)は、モデルのパフォーマンスがスケールによって向上する現象を指す。 Sharma & Kaplan は近似理論を用いて NSL を分析し、MSE の損失は $N^{-\alpha}$, $\alpha=4/d$ と予測した。 それらの理論はいくつかのケース(例えば ReLU ネットワーク)でうまく機能するが、単純な 1D 問題 $y=x^2$ は予想と異なるスケーリング法(\alpha=1$)を示す(\alpha=4$)。 ニューラルネットワークをオープンし、新しいスケーリング法則が宝くじのセンスリングに由来することを突き止めた: 平均的なネットワークは、アウトプットのばらつきを減らすために、より多くの「宝くじ」を持っている。 我々は,単一ニューラルネットワークを機械的に解釈し,統計的に研究することで,その理解を支援する。 我々は、$n^{-1}$のスケーリング則を抽選券の「中央極限定理」に分類する。 最後に,大きな言語モデルや統計物理学的な学習理論にその可能性について論じる。

Neural scaling laws (NSL) refer to the phenomenon where model performance improves with scale. Sharma & Kaplan analyzed NSL using approximation theory and predict that MSE losses decay as $N^{-\alpha}$, $\alpha=4/d$, where $N$ is the number of model parameters, and $d$ is the intrinsic input dimension. Although their theory works well for some cases (e.g., ReLU networks), we surprisingly find that a simple 1D problem $y=x^2$ manifests a different scaling law ($\alpha=1$) from their predictions ($\alpha=4$). We opened the neural networks and found that the new scaling law originates from lottery ticket ensembling: a wider network on average has more "lottery tickets", which are ensembled to reduce the variance of outputs. We support the ensembling mechanism by mechanistically interpreting single neural networks, as well as studying them statistically. We attribute the $N^{-1}$ scaling law to the "central limit theorem" of lottery tickets. Finally, we discuss its potential implications for large language models and statistical physics-type theories of learning.
翻訳日:2023-10-04 12:48:13 公開日:2023-10-03
# MathVista:ビジュアルコンテキストにおける基礎モデルの数学的推論の評価

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts ( http://arxiv.org/abs/2310.02255v1 )

ライセンス: Link先を確認
Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, Jianfeng Gao(参考訳) 大規模言語モデル(llm)と大規模マルチモーダルモデル(lmm)は様々な領域において印象的なスキルを示すが、視覚的文脈における数学的推論能力は正式には検討されていない。 この能力でLLMとLMMを入手することは、汎用AIアシスタントにとって不可欠であり、教育、データ分析、科学的発見において有望な可能性を示す。 このギャップを埋めるために,さまざまな数学的および視覚的タスクの課題を回避すべく設計されたベンチマークであるmathvistaを提案する。 まず,本論文から重要タスクタイプ,推論スキル,視覚的コンテキストを分類し,既存の28の算数および視覚的質問応答データセットから選択する。 そして、欠落した視覚的コンテキストに対応するために、IQTest、FunctionQA、PaperQAという3つの新しいデータセットを構築します。 しばしば取り上げられる問題は、ocrや画像キャプションを超えた深い視覚的理解と、リッチなドメイン固有のツールによる構成的推論を必要とするため、既存のモデルにとって大きな課題となる。 我々は,11の著名なオープンソースおよびプロプライエタリ基盤モデル(LLM,ツール付きLLM,LMM)を総合的に評価し,GPT-4Vによる早期実験を行った。 最高のパフォーマンスモデルであるMultimodal Bardは、人間のパフォーマンスの58%しか達成していない(34.8%対60.3%)。 この大きなギャップを考えると、mathvistaは、数学的に集中的で視覚的にリッチな実世界のタスクに取り組むことができる汎用aiエージェントの開発における将来の研究を加速する。 予備的なテストでは、MathVistaはGPT-4Vにも課題を示し、ベンチマークの重要性を強調している。 プロジェクトはhttps://mathvista.github.io/で入手できる。

Although Large Language Models (LLMs) and Large Multimodal Models (LMMs) exhibit impressive skills in various domains, their ability for mathematical reasoning within visual contexts has not been formally examined. Equipping LLMs and LMMs with this capability is vital for general-purpose AI assistants and showcases promising potential in education, data analysis, and scientific discovery. To bridge this gap, we present MathVista, a benchmark designed to amalgamate challenges from diverse mathematical and visual tasks. We first taxonomize the key task types, reasoning skills, and visual contexts from the literature to guide our selection from 28 existing math-focused and visual question answering datasets. Then, we construct three new datasets, IQTest, FunctionQA, and PaperQA, to accommodate for missing types of visual contexts. The problems featured often require deep visual understanding beyond OCR or image captioning, and compositional reasoning with rich domain-specific tools, thus posing a notable challenge to existing models. We conduct a comprehensive evaluation of 11 prominent open-source and proprietary foundation models (LLMs, LLMs augmented with tools, and LMMs), and early experiments with GPT-4V. The best-performing model, Multimodal Bard, achieves only 58% of human performance (34.8% vs 60.3%), indicating ample room for further improvement. Given this significant gap, MathVista fuels future research in the development of general-purpose AI agents capable of tackling mathematically intensive and visually rich real-world tasks. Preliminary tests show that MathVista also presents challenges to GPT-4V, underscoring the benchmark's importance. The project is available at https://mathvista.github.io/.
翻訳日:2023-10-04 12:47:49 公開日:2023-10-03
# 量子統計クエリによるユニタリ学習

Learning unitaries with quantum statistical queries ( http://arxiv.org/abs/2310.02254v1 )

ライセンス: Link先を確認
Armando Angrisani(参考訳) 量子統計量クエリ(QSQ)からユニタリ演算子を学習するためのアルゴリズムを,Choi-Jamiolkowski状態に関して提案する。 量子統計クエリは、限られた量子リソースを持つ学習者の能力を捉え、期待値のノイズのみを入力として受信する。 本手法は,1つの量子統計クエリで1つのパウリ弦のサブセット上のユニタリのフーリエ質量を推定する新しい手法を基礎として,一様量子例に対する前の結果を一般化する。 この知見を生かして、量子ゴールドライヒ・レヴィンアルゴリズムは量子統計クエリで実装できるのに対し、以前のバージョンのアルゴリズムはオラクルがユニタリとその逆へのアクセスを必要とすることを示した。 さらに, このモデルでは, $\mathcal{O}(\log n)$-juntas と量子ブール関数が効率よく学習可能であること, 定数深度回路は量子統計的クエリで効率よく学習可能であることを証明した。 一方、これらのタスクに対する以前のアルゴリズムはすべて、Choi-Jamiolkowski状態への直接アクセスまたはユニタリへのオラクルアクセスを必要とする。 さらに上界は、局所的にスクランブルされたアンサンブル上でのこれらのユニタリの作用を効率的に学習できることを示唆している。 また、これらの正の結果にもかかわらず、量子統計クエリは、Choi-Jamiolkowski状態に対する分離可能な測定と比較して、特定のタスクに対して指数関数的に大きなサンプル複雑性をもたらすことを示した。 特に、位相軌道ユニタリーのクラスを学ぶための指数的下界と、チャネルのユニタリティをテストするための二重指数的下界を、我々の設定した量子状態に関する以前の議論に適応して示す。 最後に,本研究の結果をハイブリッド量子機械学習に適用する可能性を示す,平均ケースサロゲートモデルの新たな定義を提案する。

We propose several algorithms for learning unitary operators from quantum statistical queries (QSQs) with respect to their Choi-Jamiolkowski state. Quantum statistical queries capture the capabilities of a learner with limited quantum resources, which receives as input only noisy estimates of expected values of measurements. Our methods hinge on a novel technique for estimating the Fourier mass of a unitary on a subset of Pauli strings with a single quantum statistical query, generalizing a previous result for uniform quantum examples. Exploiting this insight, we show that the quantum Goldreich-Levin algorithm can be implemented with quantum statistical queries, whereas the prior version of the algorithm involves oracle access to the unitary and its inverse. Moreover, we prove that $\mathcal{O}(\log n)$-juntas and quantum Boolean functions with constant total influence are efficiently learnable in our model, and constant-depth circuits are learnable sample-efficiently with quantum statistical queries. On the other hand, all previous algorithms for these tasks require direct access to the Choi-Jamiolkowski state or oracle access to the unitary. In addition, our upper bounds imply that the actions of those classes of unitaries on locally scrambled ensembles can be efficiently learned. We also demonstrate that, despite these positive results, quantum statistical queries lead to an exponentially larger sample complexity for certain tasks, compared to separable measurements to the Choi-Jamiolkowski state. In particular, we show an exponential lower bound for learning a class of phase-oracle unitaries and a double exponential lower bound for testing the unitarity of channels, adapting to our setting previous arguments for quantum states. Finally, we propose a new definition of average-case surrogate models, showing a potential application of our results to hybrid quantum machine learning.
翻訳日:2023-10-04 12:47:16 公開日:2023-10-03
# 部分置換置換に対するゲルファント・テセリン基底と量子情報への応用

Gelfand-Tsetlin basis for partially transposed permutations, with applications to quantum information ( http://arxiv.org/abs/2310.02252v1 )

ライセンス: Link先を確認
Dmitry Grinko, Adam Burchardt, Maris Ozols(参考訳) 図形有界ブライヤー代数の行列表現である部分転置置換行列代数の表現論について検討する。 この代数は量子情報における様々な文脈で現れる混合シュール・ワイル双対性において重要な役割を果たす。 我々の主な技術的結果は、ゲルファント・テセリン基底における壁付きブラウアー代数生成器の作用の明示的な公式である。 対称群(ヤングの直交形、ヤングヤマノ内基底とも呼ばれる)の有名なゲルファント・テセリン基底を一般化する。 結果の量子情報への2つの応用を提供する。 まず,一様量子チャネルに対する半定値最適化問題を対称性の低減により単純化する方法を示す。 第2に、最適ポートベースの量子テレポーテーションプロトコルを実装するための効率的な量子回路を導出し、既知の自明な構成を指数関数的に改善する。 その結果、これは非局所的にユニタリを実装するのに必要な絡み合いの量に対する既知の下界を指数関数的に改善する。 どちらの応用も、混合ユニタリ対称性のテンソルへの量子シュアー変換の一般化を必要とする。 我々は、この混合量子シューア変換のための効率的な量子回路を開発し、基底ベクトルの行列積状態表現を提供する。 定数局所次元に対して、これは混合量子シュラー変換ユニタリの任意のエントリを計算するための効率的な古典アルゴリズムをもたらす。

We study representation theory of the partially transposed permutation matrix algebra, a matrix representation of the diagrammatic walled Brauer algebra. This algebra plays a prominent role in mixed Schur-Weyl duality that appears in various contexts in quantum information. Our main technical result is an explicit formula for the action of the walled Brauer algebra generators in the Gelfand-Tsetlin basis. It generalizes the well-known Gelfand-Tsetlin basis for the symmetric group (also known as Young's orthogonal form or Young-Yamanouchi basis). We provide two applications of our result to quantum information. First, we show how to simplify semidefinite optimization problems over unitary-equivariant quantum channels by performing a symmetry reduction. Second, we derive an efficient quantum circuit for implementing the optimal port-based quantum teleportation protocol, exponentially improving the known trivial construction. As a consequence, this also exponentially improves the known lower bound for the amount of entanglement needed to implement unitaries non-locally. Both applications require a generalization of quantum Schur transform to tensors of mixed unitary symmetry. We develop an efficient quantum circuit for this mixed quantum Schur transform and provide a matrix product state representation of its basis vectors. For constant local dimension, this yields an efficient classical algorithm for computing any entry of the mixed quantum Schur transform unitary.
翻訳日:2023-10-04 12:46:43 公開日:2023-10-03
# DNN圧縮の評価基準

Evaluation Metrics for DNNs Compression ( http://arxiv.org/abs/2305.10616v4 )

ライセンス: Link先を確認
Abanoub Ghobrial, Samuel Budgett, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder(参考訳) ニューラルネットワークの圧縮のための様々な技術を開発するための研究が進行中である。 しかし、コミュニティには標準化された評価指標が欠けているため、異なるアプリケーションに最適な圧縮テクニックを特定する上で鍵となる。 本稿では,既存のニューラルネットワーク圧縮評価メトリクスをレビューし,netzipと呼ばれる標準化フレームワークに実装する。 既存の評価のギャップをカバーするための2つの新しい指標を文献に紹介する。 1)圧縮・ハードウェア非依存理論速度(CHATS)と 2) 総合圧縮成功(OCS)。 オブジェクト分類とオブジェクト検出に焦点を当てた2つの異なるハードウェアプラットフォーム(PCとRaspberry Pi 4)のケーススタディを用いてNetZIPの使用を実証する。

There is a lot of ongoing research effort into developing different techniques for neural networks compression. However, the community lacks standardised evaluation metrics, which are key to identifying the most suitable compression technique for different applications. This paper reviews existing neural network compression evaluation metrics and implements them into a standardisation framework called NetZIP. We introduce two novel metrics to cover existing gaps of evaluation in the literature: 1) Compression and Hardware Agnostic Theoretical Speed (CHATS) and 2) Overall Compression Success (OCS). We demonstrate the use of NetZIP using two case studies on two different hardware platforms (a PC and a Raspberry Pi 4) focusing on object classification and object detection.
翻訳日:2023-10-04 10:59:51 公開日:2023-10-03
# 積分近似の改良による拡散型サンプリングプロセスの高速化について

On Accelerating Diffusion-Based Sampling Process via Improved Integration Approximation ( http://arxiv.org/abs/2304.11328v4 )

ライセンス: Link先を確認
Guoqiang Zhang, Niwa Kenta, W. Bastiaan Kleijn(参考訳) 拡散に基づく生成モデルをサンプリングする一般的なアプローチは、常微分方程式(ODE)を解くことである。 既存のサンプルでは、ODEソルバの係数はODE定式化、逆離散時間ステップ、および使用されるODEメソッドによって事前に決定される。 本稿では,統合近似(IIA)を改良し,特定の係数を最適化することにより,一般的なODEベースのサンプリングプロセス(EDM,DDIM,DPM-Solverを含む)を高速化することを検討する。 本稿では,各時間ステップ毎に選択された係数に対して平均二乗誤差(MSE)関数を最小化する。 MSEは、元のODEソルバを一連の微細な時間ステップに適用し、原理的には次の拡散状態を予測するためのより正確な積分近似を与える。 提案手法では事前学習モデルの変更は必要とせず,2次最適化問題を解くための計算オーバーヘッドが非常に小さいだけである。 神経機能評価(NFE)が小さい場合(25未満)に、IIA-EDM、IIA-DDIM、IIA-DPM-Solverを使用することで、FIDスコアが大幅に向上することを示した。

A popular approach to sample a diffusion-based generative model is to solve an ordinary differential equation (ODE). In existing samplers, the coefficients of the ODE solvers are pre-determined by the ODE formulation, the reverse discrete timesteps, and the employed ODE methods. In this paper, we consider accelerating several popular ODE-based sampling processes (including EDM, DDIM, and DPM-Solver) by optimizing certain coefficients via improved integration approximation (IIA). We propose to minimize, for each time step, a mean squared error (MSE) function with respect to the selected coefficients. The MSE is constructed by applying the original ODE solver for a set of fine-grained timesteps, which in principle provides a more accurate integration approximation in predicting the next diffusion state. The proposed IIA technique does not require any change of a pre-trained model, and only introduces a very small computational overhead for solving a number of quadratic optimization problems. Extensive experiments show that considerably better FID scores can be achieved by using IIA-EDM, IIA-DDIM, and IIA-DPM-Solver than the original counterparts when the neural function evaluation (NFE) is small (i.e., less than 25).
翻訳日:2023-10-04 10:59:43 公開日:2023-10-03
# 蒸留決定木

Distillation Decision Tree ( http://arxiv.org/abs/2206.04661v3 )

ライセンス: Link先を確認
Xuetao Lu and J. Jack Lee(参考訳) 機械学習モデル、特にブラックボックスモデルは、その優れた予測能力で広く好まれている。 しかし、解釈可能性の欠如により、しばしば精査や批判に直面している。 パラドックス的に、その強い予測能力は基礎となるデータに対する深い理解を示唆し、解釈のかなりの可能性を示唆している。 知識蒸留の概念を取り入れた蒸留決定木(DDT)の導入を行った。 この方法は、ブラックボックスモデルから決定木へのデータに関する知識の蒸留を可能にし、ブラックボックスモデルの解釈を容易にする。 知識蒸留によって構築されたDDTの解釈可能性はその構造安定性に大きく依存する。 我々は,DDTの構造安定性の理論基盤を確立し,その構造が軽微な仮定の下で安定性を達成できることを実証した。 さらに,DDTを効率的に構築するためのアルゴリズムを開発した。 総合シミュレーション研究は、DDTが正確で信頼性の高い解釈を提供する能力を検証する。 さらに、潜在的なアプリケーションシナリオを検討し、実世界の問題に対してDDTをどのように適用できるかを説明するためのケーススタディを提供する。

Machine learning models, particularly the black-box models, are widely favored for their outstanding predictive capabilities. However, they often face scrutiny and criticism due to the lack of interpretability. Paradoxically, their strong predictive capabilities suggest a deep understanding about the underlying data, implying significant potential for interpretation. Leveraging the emerging concept of knowledge distillation, we introduced the method of distillation decision tree (DDT). This method enables the distillation of knowledge about the data from a black-box model into a decision tree, thereby facilitating the interpretation of the black-box model. Constructed through the knowledge distillation process, the interpretability of DDT relies significantly on the stability of its structure. We establish the theoretical foundations for the structural stability of DDT, demonstrating that its structure can achieve stability under mild assumptions. Furthermore, we develop algorithms for efficient construction of (hybrid) DDTs. A comprehensive simulation study validates DDT's ability to provide accurate and reliable interpretations. Additionally, we explore potential application scenarios and provide corresponding case studies to illustrate how DDT can be applied to real-world problems.
翻訳日:2023-10-04 10:59:20 公開日:2023-10-03
# 資源制約下における神経モジュールの特殊化のダイナミクス

Dynamics of specialization in neural modules under resource constraints ( http://arxiv.org/abs/2106.02626v4 )

ライセンス: Link先を確認
Gabriel B\'ena, Dan F. M. Goodman(参考訳) 脳は構造と機能の両方において高度にモジュール化されていると長い間信じられてきたが、最近の証拠は両方のモジュラリティの程度に疑問を呈している。 私たちは、構造的モジュラリティが機能的な特殊化を保証するのに十分であるという仮説をテストするために、人工ニューラルネットワークを使用しました。 次に,環境とネットワークのどの特徴が特殊化の出現に繋がるかを体系的にテストした。 我々は,簡単な玩具環境,タスク,ネットワークを用いて,精密な制御を可能にし,この設定では,いくつかの異なる特殊化尺度が質的に類似した結果をもたらすことを示す。 さらに,(1) 環境の特徴が有意に分離可能な環境でのみ特殊化が実現可能であること,(2) ネットワークのリソース制約が強い場合に優先的に特殊化が生じること,(3) それらの発見は異なるネットワークアーキテクチャ間で質的に類似しているが,量的関係はアーキテクチャタイプに依存している。 最後に,機能的特殊化は時間ごとに動的に変化し,そのダイナミクスがネットワーク内の情報フローのタイミングと帯域に依存することを示した。 構造的モジュラリティに基づく静的な特殊化の概念は、生物学から脳に触発された神経形態学まで、現実世界の複雑さの状況における知性を理解するためのフレームワークとしてあまりにも単純すぎると結論づける。 より複雑なデータ、ネットワークモデル、電気生理学的記録に拡張する前に、単純化されたシナリオで機能的モジュラリティの候補を徹底的にテストすることを提案することは、実りあるアプローチである可能性が高い。

It has long been believed that the brain is highly modular both in terms of structure and function, although recent evidence has led some to question the extent of both types of modularity. We used artificial neural networks to test the hypothesis that structural modularity is sufficient to guarantee functional specialization, and find that in general, this doesn't necessarily hold except at extreme levels. We then systematically tested which features of the environment and network do lead to the emergence of specialization. We used a simple toy environment, task and network, allowing us precise control, and show that in this setup, several distinct measures of specialization give qualitatively similar results. We further find that (1) specialization can only emerge in environments where features of that environment are meaningfully separable, (2) specialization preferentially emerges when the network is strongly resource-constrained, and (3) these findings are qualitatively similar across different network architectures, but the quantitative relationships depends on the architecture type. Finally, we show that functional specialization varies dynamically across time, and demonstrate that these dynamics depend on both the timing and bandwidth of information flow in the network. We conclude that a static notion of specialization, based on structural modularity, is likely too simple a framework for understanding intelligence in situations of real-world complexity, from biology to brain-inspired neuromorphic systems. We propose that thoroughly stress testing candidate definitions of functional modularity in simplified scenarios before extending to more complex data, network models and electrophysiological recordings is likely to be a fruitful approach.
翻訳日:2023-10-04 10:59:04 公開日:2023-10-03
# 直感的か依存的か? LLMの矛盾問題に対するロバスト性の検討

Intuitive or Dependent? Investigating LLMs' Robustness to Conflicting Prompts ( http://arxiv.org/abs/2309.17415v2 )

ライセンス: Link先を確認
Jiahao Ying, Yixin Cao, Kai Xiong, Yidong He, Long Cui, Yongbin Liu(参考訳) 本稿では,実世界のアプリケーションにおけるノイズやタスク設定によるコントラスト情報を含む内部メモリやプロンプトに対するllmsの選好のロバスト性について検討する。 この目的のために,定量的ベンチマークフレームワークを構築し,llmsの選好を制御するためのロールプレイング介入を行う。 具体的に、我々は、プロンプトや記憶から正しい事実を識別する能力をターゲットにした事実的堅牢性と、認知理論に基づく決定的な「正しい」答えが存在しないと仮定して、一貫した選択を行う際のLCMの振る舞いを分類する決定スタイルという2つのタイプを定義します。 7つのオープンソースおよびクローズドソースllmに関する広範な実験から得られた知見から,これらのモデルは誤解を招くプロンプト,特にコモンセンス知識の指導に強い影響を受けやすいことが明らかとなった。 詳細な指示は誤解を招く回答の選択を緩和するが、無効な回答の発生を増加させる。 選好を解き明かした後、異なるサイズのLLMを特定のスタイルのロール・インストラクションを通して介入し、それぞれの高次のロバスト性および適応性を示す。

This paper explores the robustness of LLMs' preference to their internal memory or the given prompt, which may contain contrasting information in real-world applications due to noise or task settings. To this end, we establish a quantitative benchmarking framework and conduct the role playing intervention to control LLMs' preference. In specific, we define two types of robustness, factual robustness targeting the ability to identify the correct fact from prompts or memory, and decision style to categorize LLMs' behavior in making consistent choices -- assuming there is no definitive "right" answer -- intuitive, dependent, or rational based on cognitive theory. Our findings, derived from extensive experiments on seven open-source and closed-source LLMs, reveal that these models are highly susceptible to misleading prompts, especially for instructing commonsense knowledge. While detailed instructions can mitigate the selection of misleading answers, they also increase the incidence of invalid responses. After Unraveling the preference, we intervene different sized LLMs through specific style of role instruction, showing their varying upper bound of robustness and adaptivity.
翻訳日:2023-10-04 10:55:58 公開日:2023-10-03
# 不完全テキストに基づく人物識別のためのプロトタイプ誘導型クロスモーダル補完とアライメント

Prototype-guided Cross-modal Completion and Alignment for Incomplete Text-based Person Re-identification ( http://arxiv.org/abs/2309.17104v2 )

ライセンス: Link先を確認
Tiantian Gong, Guodong Du, Junsheng Wang, Yongkang Ding, Liyan Zhang(参考訳) 従来のテキストベースの人物識別(ReID)技術は、理想的なシナリオである完全一致するマルチモーダルデータに大きく依存している。 しかしながら、クロスモーダルデータの収集と処理の間、避けられないデータの欠落と腐敗のため、不完全なデータ問題は、通常現実世界のアプリケーションで発生する。 そこで本研究では,不完全テキストベースreidタスクと呼ばれる,人物画像とテキスト記述が完全に一致せず,部分的に欠落したモダリティデータを含む,より実用的なタスクを考える。 そこで本稿では,不完全なテキストベースReIDの問題を処理するための新しいPCCA(Prototype-guided Cross-modal Completion and Alignment)フレームワークを提案する。 具体的には、欠落したモダリティデータに基づくテキストクエリに基づいて人物画像を直接検索することはできない。 そこで本研究では、既存の画像とテキストの相互類似性を計算し、欠落した画像の特徴を完遂するための重要なガイダンスを提供するクロスモーダル近傍構築戦略を提案する。 さらに, 欠落したモーダル特徴を効率的に補完するために, 上記欠落モーダルデータの隣接部分集合と対応するプロトタイプとの関連グラフを構築し, 生成された欠落モーダル特徴をさらに強化する。 さらに,画像とテキストの細粒度アライメントをより密にするため,共用空間における細粒度アライメントを改善するために,モダリティの不均一性ギャップを効果的に低減できるプロトタイプアライメント損失を発生させる。 異なる比率の異なる複数のベンチマークによる実験結果から,本手法が最先端のテキスト画像ReID手法より一貫して優れていることが示された。

Traditional text-based person re-identification (ReID) techniques heavily rely on fully matched multi-modal data, which is an ideal scenario. However, due to inevitable data missing and corruption during the collection and processing of cross-modal data, the incomplete data issue is usually met in real-world applications. Therefore, we consider a more practical task termed the incomplete text-based ReID task, where person images and text descriptions are not completely matched and contain partially missing modality data. To this end, we propose a novel Prototype-guided Cross-modal Completion and Alignment (PCCA) framework to handle the aforementioned issues for incomplete text-based ReID. Specifically, we cannot directly retrieve person images based on a text query on missing modality data. Therefore, we propose the cross-modal nearest neighbor construction strategy for missing data by computing the cross-modal similarity between existing images and texts, which provides key guidance for the completion of missing modal features. Furthermore, to efficiently complete the missing modal features, we construct the relation graphs with the aforementioned cross-modal nearest neighbor sets of missing modal data and the corresponding prototypes, which can further enhance the generated missing modal features. Additionally, for tighter fine-grained alignment between images and texts, we raise a prototype-aware cross-modal alignment loss that can effectively reduce the modality heterogeneity gap for better fine-grained alignment in common space. Extensive experimental results on several benchmarks with different missing ratios amply demonstrate that our method can consistently outperform state-of-the-art text-image ReID approaches.
翻訳日:2023-10-04 10:55:36 公開日:2023-10-03
# フーリエニューラル演算子の多解能動的学習

Multi-Resolution Active Learning of Fourier Neural Operators ( http://arxiv.org/abs/2309.16971v2 )

ライセンス: Link先を確認
Shibo Li, Xin Yu, Wei Xing, Mike Kirby, Akil Narayan, Shandian Zhe(参考訳) Fourier Neural Operator (FNO) は、多くのタスクで最先端のパフォーマンスを達成するだけでなく、トレーニングや予測において非常に効率的である、人気のある演算子学習フレームワークである。 しかし、fnoのトレーニングデータの収集は、しばしば高価な物理シミュレーションを必要とするため、実際にはコストのかかるボトルネックである。 この問題を解決するために,FNO(MRA-FNO)の多解能動学習(MRA-FNO)を提案する。 具体的には,確率的マルチレゾリューションfnoを提案し,アンサンブルモンテカルロを用いて効果的な後進推定アルゴリズムを開発した。 アクティブラーニングを行うには, 活用コスト比を最大化し, それぞれのステップで新しい例と解答を得る。 モーメントマッチングと行列決定式補題を用いて,効率的な計算を可能にする。 さらに,早期に高分解能クエリを過大にペナルティ化するのを避けるためのコストアニーリングフレームワークを開発した。 過度なペナルティ化は、解像度の差が重要で、低解像度のクエリや劣ったパフォーマンスでしばしば立ち往生するアクティブラーニングを実現する場合、深刻である。 本手法はこの問題を克服し,汎用多要素能動学習および最適化問題に適用する。 ベンチマーク演算子学習タスクにおいて,本手法の利点を示した。

Fourier Neural Operator (FNO) is a popular operator learning framework, which not only achieves the state-of-the-art performance in many tasks, but also is highly efficient in training and prediction. However, collecting training data for the FNO is a costly bottleneck in practice, because it often demands expensive physical simulations. To overcome this problem, we propose Multi-Resolution Active learning of FNO (MRA-FNO), which can dynamically select the input functions and resolutions to lower the data cost as much as possible while optimizing the learning efficiency. Specifically, we propose a probabilistic multi-resolution FNO and use ensemble Monte-Carlo to develop an effective posterior inference algorithm. To conduct active learning, we maximize a utility-cost ratio as the acquisition function to acquire new examples and resolutions at each step. We use moment matching and the matrix determinant lemma to enable tractable, efficient utility computation. Furthermore, we develop a cost annealing framework to avoid over-penalizing high-resolution queries at the early stage. The over-penalization is severe when the cost difference is significant between the resolutions, which renders active learning often stuck at low-resolution queries and inferior performance. Our method overcomes this problem and applies to general multi-fidelity active learning and optimization problems. We have shown the advantage of our method in several benchmark operator learning tasks.
翻訳日:2023-10-04 10:55:04 公開日:2023-10-03
# ONNXExplainer: シェープ値を使ってニューラルネットワークを記述するためのONNXベースのジェネリックフレームワーク

ONNXExplainer: an ONNX Based Generic Framework to Explain Neural Networks Using Shapley Values ( http://arxiv.org/abs/2309.16916v2 )

ライセンス: Link先を確認
Yong Zhao, Runxin He, Nicholas Kersting, Can Liu, Shubham Agrawal, Chiranjeet Chetia, Yu Gu(参考訳) ニューラルネットワークモデルが決定を下す理由を理解することは、推論のパフォーマンスと同じくらい重要である。 シャプリー値が最も人気があるニューラルネットワークモデルの予測を説明するために、様々な方法が提案されている。 SHAPパッケージは、TensorFlowやPyTorchで実装されたニューラルネットワークを説明するためのShapley値の主導的な実装であるが、クロスプラットフォームのサポートがなく、ワンショットデプロイメントができないため、非常に非効率である。 これらの問題に対処するために、ONNXエコシステムのShapley値を使用してニューラルネットワークを説明する汎用フレームワークであるONNXExplainerを紹介する。 ONNXExplainerでは、ニューラルネットワークの推論と説明のワンショット展開を可能にするだけでなく、メモリ消費の少ない説明の計算効率を大幅に改善する独自の自動微分と最適化アプローチを開発している。 公平な比較目的では、tensorflowとpytorchで同じ最適化を実装し、現在のartオープンソース製品であるshapに対するパフォーマンスを測定します。 大規模なベンチマークでは、提案された最適化アプローチが、VGG19、ResNet50、DenseNet201、EfficientNetB0の説明遅延を最大500%改善することを示した。

Understanding why a neural network model makes certain decisions can be as important as the inference performance. Various methods have been proposed to help practitioners explain the prediction of a neural network model, of which Shapley values are most popular. SHAP package is a leading implementation of Shapley values to explain neural networks implemented in TensorFlow or PyTorch but lacks cross-platform support, one-shot deployment and is highly inefficient. To address these problems, we present the ONNXExplainer, which is a generic framework to explain neural networks using Shapley values in the ONNX ecosystem. In ONNXExplainer, we develop its own automatic differentiation and optimization approach, which not only enables One-Shot Deployment of neural networks inference and explanations, but also significantly improves the efficiency to compute explanation with less memory consumption. For fair comparison purposes, we also implement the same optimization in TensorFlow and PyTorch and measure its performance against the current state of the art open-source counterpart, SHAP. Extensive benchmarks demonstrate that the proposed optimization approach improves the explanation latency of VGG19, ResNet50, DenseNet201, and EfficientNetB0 by as much as 500%.
翻訳日:2023-10-04 10:54:39 公開日:2023-10-03
# 4つのミンコフスキー真空状態からのAdS$_3$真空状態

AdS$_3$ Vacuum State from Four Minkowski Vacuum States ( http://arxiv.org/abs/2309.15107v4 )

ライセンス: Link先を確認
Lucas Kocia Kovalsky(参考訳) 1{+}2$ minkowski真空状態のテンソル積は、パリティや時間反転対称性のない3次元反ド・ジッター(ads$_3$)時空の無限集合に対する自己整合真空状態である。 無限集合はすべての AdS$_3$ と 0 でない一意なスカラー曲率の対で構成され、各対のメンバーは空間無限大で結合される。

We show that a tensor product of four specific $1{+}2$ Minkowski vacuum states is a self-consistent vacuum state for an infinite set of three-dimensional anti-de Sitter (AdS$_3$) spacetimes without parity or time-reversal symmetry. The infinite set consists of pairs of all AdS$_3$ with non-zero unique scalar curvatures, where the members of each pair are glued together at spatial infinity.
翻訳日:2023-10-04 10:54:16 公開日:2023-10-03
# MAmmoth:ハイブリッドインストラクションチューニングによる数学一般モデルの構築

MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning ( http://arxiv.org/abs/2309.05653v3 )

ライセンス: Link先を確認
Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen(参考訳) 我々は,一般的な数学問題解決に適したオープンソースの大規模言語モデル(LLM)であるMAmmoTHを紹介する。 MAmmoTHモデルは、厳密にキュレートされた命令チューニングデータセットであるMathInstructでトレーニングされている。 mathinstructは13の数学データセットから中間的な合理性を持つようにコンパイルされます。 cot (chain-of-thought) とpot (program-of-thought) のハイブリッドであり、数学における様々な分野をカバーする。 CoTとPoTのハイブリッドは、ツール使用の可能性を広げるだけでなく、異なる数学問題に対して異なる思考プロセスを可能にする。 その結果、MAmmoTHシリーズは、すべてのスケールにわたる9つの数学的推論データセットで既存のオープンソースモデルを大幅に上回り、平均精度は16%から32%向上した。 注目すべきは、我々のMAmmoTH-7Bモデルは、最高のオープンソース7Bモデル(WizardMath)を23%上回るMATH(競合レベルのデータセット)で33%に達し、MAmmoTH-34Bモデルは、GPT-4のCoT結果よりも44%の精度でMATH上で44%の精度を達成したことだ。 本研究は,多種多様な問題カバレッジの重要性と,優れた数学ジェネラリストモデルの開発におけるハイブリッド理性の利用を明らかにする。

We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 16% and 32%. Remarkably, our MAmmoTH-7B model reaches 33% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 23%, and the MAmmoTH-34B model achieves 44% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
翻訳日:2023-10-04 10:53:52 公開日:2023-10-03
# Deep LearningがAdaptive Filteringと出会う: スタインの偏見のないリスク推定手法

Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk Estimator Approach ( http://arxiv.org/abs/2307.16708v3 )

ライセンス: Link先を確認
Zahra Esmaeilbeig and Mojtaba Soltanalian(参考訳) 本稿では,再帰最小二乗法 (RLS) と等変適応ソース分離 (EASI) の2つの顕著な適応フィルタリングアルゴリズムを,アルゴリズムのアンローリングにより再検討する。 アンロール手法に基づいて,Deep RLSとDeep EASIと称される新しいタスクベースディープラーニングフレームワークを導入する。 これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、トレーニングプロセスを活用することで効率的なソース信号推定を可能にする。 そこで本研究では,stein の unbiased risk estimator (sure) に基づくサーロゲート損失関数を用いた,これらの深層未ロールネットワークのトレーニングを提案する。 実験により,Deep RLSとDeep EASIネットワークは,その基盤となるアルゴリズムより優れていることが示された。 また, 従来の平均二乗誤差損失に比べ, SURE に基づくトレーニングの有効性を数値実験により明らかにした。 本稿では, ニューラルネットワークの一般化性能評価指標として, 学習目的あるいは評価指標として, 将来的な確実性向上のための指標を定式化する。

This paper revisits two prominent adaptive filtering algorithms, namely recursive least squares (RLS) and equivariant adaptive source separation (EASI), through the lens of algorithm unrolling. Building upon the unrolling methodology, we introduce novel task-based deep learning frameworks, denoted as Deep RLS and Deep EASI. These architectures transform the iterations of the original algorithms into layers of a deep neural network, enabling efficient source signal estimation by leveraging a training process. To further enhance performance, we propose training these deep unrolled networks utilizing a surrogate loss function grounded on Stein's unbiased risk estimator (SURE). Our empirical evaluations demonstrate that the Deep RLS and Deep EASI networks outperform their underlying algorithms. Moreover, the efficacy of SURE-based training in comparison to conventional mean squared error loss is highlighted by numerical experiments. The unleashed potential of SURE-based training in this paper sets a benchmark for future employment of SURE either for training purposes or as an evaluation metric for generalization performance of neural networks.
翻訳日:2023-10-04 10:53:28 公開日:2023-10-03
# 計画、長い文脈理解、プログラム合成を備えた現実世界のウェブエージェント

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis ( http://arxiv.org/abs/2307.12856v3 )

ライセンス: Link先を確認
Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust(参考訳) 事前訓練された大規模言語モデル(LLM)は、最近、自律Web自動化におけるより優れた一般化とサンプル効率を実現している。 しかし,実世界のWebサイトのパフォーマンスは,(1)オープンドメイン性,(2)コンテキスト長の制限,(3)HTMLの帰納バイアスの欠如に悩まされている。 webagentは、自然言語命令に従う実際のwebサイト上で、自己経験からタスクを完了するために学習するllm駆動エージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、それらから生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。 We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML document using local and global attention mechanism and a mixture of long-span denoising objectives, for planning and summarization。 我々は、我々のモジュラーレシピが実際のWebサイトの成功率を50%以上改善し、HTML-T5が様々なHTML理解タスクを解く最良のモデルであること、MiniWoBのWebオートメーションベンチマークにおける従来の手法よりも18.7%高い成功率、オフラインタスク計画評価であるMind2WebでのSoTAパフォーマンスを実証的に示す。

Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that learns from self-experience to complete tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via Python programs generated from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our modular recipe improves the success on real websites by over 50%, and that HTML-T5 is the best model to solve various HTML understanding tasks; achieving 18.7% higher success rate than the prior method on MiniWoB web automation benchmark, and SoTA performance on Mind2Web, an offline task planning evaluation.
翻訳日:2023-10-04 10:53:05 公開日:2023-10-03
# mlpのスケーリング: 帰納的バイアスの話

Scaling MLPs: A Tale of Inductive Bias ( http://arxiv.org/abs/2306.13575v3 )

ライセンス: Link先を確認
Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann(参考訳) 本研究では、ディープラーニングにおける最も基本的な構成要素である多層パーセプトロン(MLP)を再検討し、視覚タスクにおけるその性能の限界について検討する。 MLPに対する経験的洞察は、複数の理由から重要である。 1) 変圧器による畳み込みモデルによる近年の物語「非帰納的バイアスは良い」を考えると、この仮説の限界を探求するのは自然である。 そのため、MDPは視覚特有の誘導バイアスを欠いているため、理想的なテストベッドを提供する。 2) MLPは, より複雑なアーキテクチャで観察される経験的現象を説明するプロキシとして機能し, 数学的単純さから, 深層学習理論文学の主役に過ぎなかった。 驚くべきことに、MLPの実験的なデータポイントは、特に大規模な事前学習プロトコルと組み合わせた場合、文献では非常に見つからない。 mlpは実践モデルによって示された経験的進歩を反映していますか? それとも理論家は、MLPをプロキシとしての役割を再考する必要があるのだろうか? これら2つの側面に洞察を与えます。 CIFAR10は95%,CIFAR100は82%,ImageNet ReaLは58%) により, MLPの性能は劇的に向上し, 帰納バイアスの欠如が実際に補償できることを示した。 我々は,MLPが現代人の行動に忠実に模倣しているのを観察し,学習環境のいくつかの構成要素は,強い行動や予期せぬ行動を示す。 計算効率が本質的に高いため、学術研究者にとって大きな事前学習実験がより利用できるようになる。 私たちの実験はすべて、1つのGPU上で実行されました。

In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they lack any vision-specific inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (95% on CIFAR10, 82% on CIFAR100, 58% on ImageNet ReaL), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.
翻訳日:2023-10-04 10:52:39 公開日:2023-10-03