このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240130となっている論文です。

PDF登録状況(公開日: 20240130)

TitleAuthorsAbstract論文公表日・翻訳日
# 映像生成・理解・ストリーミングのための生成AIとLLMに関する調査

A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming ( http://arxiv.org/abs/2404.16038v1 )

ライセンス: Link先を確認
Pengyuan Zhou, Lin Wang, Zhi Liu, Yanbin Hao, Pan Hui, Sasu Tarkoma, Jussi Kangasharju, (参考訳) 本稿では、現在最先端のAI技術であるジェネレーティブ人工知能(ジェネレーティブAI)と大規模言語モデル(LLM)が、ビデオ生成、理解、ストリーミングを含むビデオ技術の分野をどう変えているかについて、洞察に富んだ検証を行う。 これは、現実世界のダイナミクスとデジタル創造のギャップを埋める大きな飛躍となる、非常にリアルなビデオ制作におけるこれらの技術の革新的な利用を強調している。 また、ビデオ理解におけるLLMの高度な能力についても検討し、視覚コンテンツから意味のある情報を抽出し、ビデオとのインタラクションを強化する効果を実証した。 ビデオストリーミングの分野では、LLMがより効率的でユーザ中心のストリーミング体験にどのように貢献し、個々の視聴者の好みにコンテンツ配信を適用するかについて論じる。 この包括的なレビューは、ビデオ関連のタスクにジェネレーティブAIとLLMを適用することの現在の成果、進行中の課題、そして将来の可能性を通じて、これらの技術がマルチメディア、ネットワーキング、AIコミュニティに関連するビデオ技術分野を前進させる潜在可能性を強調している。

This paper offers an insightful examination of how currently top-trending AI technologies, i.e., generative artificial intelligence (Generative AI) and large language models (LLMs), are reshaping the field of video technology, including video generation, understanding, and streaming. It highlights the innovative use of these technologies in producing highly realistic videos, a significant leap in bridging the gap between real-world dynamics and digital creation. The study also delves into the advanced capabilities of LLMs in video understanding, demonstrating their effectiveness in extracting meaningful information from visual content, thereby enhancing our interaction with videos. In the realm of video streaming, the paper discusses how LLMs contribute to more efficient and user-centric streaming experiences, adapting content delivery to individual viewer preferences. This comprehensive review navigates through the current achievements, ongoing challenges, and future possibilities of applying Generative AI and LLMs to video-related tasks, underscoring the immense potential these technologies hold for advancing the field of video technology related to multimedia, networking, and AI communities.
翻訳日:2024-07-01 11:49:01 公開日:2024-01-30
# 設計による現実感の没入 -AR/VR環境におけるセキュリティ対策の包括的分析-

Immersed in Reality Secured by Design -- A Comprehensive Analysis of Security Measures in AR/VR Environments ( http://arxiv.org/abs/2404.16839v1 )

ライセンス: Link先を確認
Sameer Chauhan, Luv Sachdeva, (参考訳) 仮想現実や、複合現実や拡張現実などの関連技術は、主流メディアとフリンジメディアの両方で広く取り上げられている。 被験者が新しいARヘッドセット、別のARデバイス、またはARメガネに目を向けると、講演は技術とデザインの詳細に素早く移行する。 残念ながら、誰もセキュリティを気にしていないようでした。 データ盗難やその他のサイバー攻撃は、仮想現実システムに深刻な脅威をもたらす。 仮想現実ゴーグルはコンピュータやIoTデバイスの専門バージョンであり、仮想現実体験はソフトウェアパッケージである。 結果として、ARシステムは、コンピュータ、タブレット、携帯電話など、私たちが毎日使っている他のIoTデバイスと同じくらい脆弱です。 一般的なサイバーセキュリティの脅威や暴行の防止と対応が不可欠だ。 サイバー犯罪者は、他のコンピューターシステムと同じようにバーチャルリアリティーヘッドセットを利用することができる。 本稿では,これらの攻撃によって引き起こされたデータ漏洩を分析した結果,個人情報やネットワーク認証の不正取得,ハードウェアやソフトウェアへの被害など,さまざまな懸念が生じる可能性がある。 Augmented Reality(AR)は、ネットワークアクティビティ、システムログ、セキュリティアラートのリアルタイム監視と可視化を可能にする。 これにより、セキュリティ専門家は直ちに脅威を特定し、不審な活動を監視し、進展する問題を修正することができる。 このデータは、拡張現実インターフェースを使用して、美的かつ直感的に構造化されたフォーマットで表示することができ、より高速な分析と意思決定を可能にします。

Virtual reality and related technologies such as mixed and augmented reality have received extensive coverage in both mainstream and fringe media outlets. When the subject goes to a new AR headset, another AR device, or AR glasses, the talk swiftly shifts to the technical and design details. Unfortunately, no one seemed to care about security. Data theft and other forms of cyberattack pose serious threats to virtual reality systems. Virtual reality goggles are just specialist versions of computers or Internet of Things devices, whereas virtual reality experiences are software packages. As a result, AR systems are just as vulnerable as any other Internet of Things (IoT) device we use on a daily basis, such as computers, tablets, and phones. Preventing and responding to common cybersecurity threats and assaults is crucial. Cybercriminals can exploit virtual reality headsets just like any other computer system. This paper analysis the data breach induced by these assaults could result in a variety of concerns, including but not limited to identity theft, the unauthorized acquisition of personal information or network credentials, damage to hardware and software, and so on. Augmented reality (AR) allows for real-time monitoring and visualization of network activity, system logs, and security alerts. This allows security professionals to immediately identify threats, monitor suspicious activities, and fix any issues that develop. This data can be displayed in an aesthetically pleasing and intuitively structured format using augmented reality interfaces, enabling for faster analysis and decision-making.
翻訳日:2024-07-01 11:49:01 公開日:2024-01-30
# Flash: CPU上での高精度で低レイテンシのディープCNNのためのハイブリッドプライベート推論プロトコル

Flash: A Hybrid Private Inference Protocol for Deep CNNs with High Accuracy and Low Latency on CPU ( http://arxiv.org/abs/2401.16732v1 )

ライセンス: Link先を確認
Hyeri Roh, Jinsu Yeo, Yeongil Ko, Gu-Yeon Wei, David Brooks, Woo-Seok Choi, (参考訳) 本稿では,Hymomorphic encryption (HE) とSecure Two-party Computing (2PC) を併用した,最適化されたプライベート推論(PI)ハイブリッドプロトコルであるFlashについて述べる。 この目的のために、Flashは高速スロットローテーション操作と新しいデータ符号化方式に基づく低遅延畳み込みアルゴリズムを提案し、その結果、最先端の4-94倍の性能向上を実現した。 第二に、標準的な非線形アクティベーション関数ReLUによって導入された通信コストを最小限に抑えるため、FlashはReLUを多項式$x^2+x$で置き換え、新しいアクティベーション関数で深部CNNモデルを訓練する。 トレーニングされたモデルは、CIFAR-10/100とTinyImageNetの推論精度を16%改善した(ResNet-32の40%まで)。 最後に、Flashは、オフライン通信を必要としない効率的な2PCベースの$x^2+x$評価プロトコルを提案し、それによってアクティベーション層を最先端の84-196倍に処理するための通信コストを削減した。 結果として、CPU上で実装されたFlashのエンドツーエンドPIレイテンシは、CIFAR-100では0.02分、TinyImageNetでは0.57分、CIFAR-100では0.07GB、TinyImageNetでは0.22GBである。 Flashは最先端のPIを16-45倍のレイテンシと84-196倍の通信コストで改善する。 さらに、ImageNetでさえ、FlashはCPU上で1分未満の遅延を1GB未満の通信で提供することができる。

This paper presents Flash, an optimized private inference (PI) hybrid protocol utilizing both homomorphic encryption (HE) and secure two-party computation (2PC), which can reduce the end-to-end PI latency for deep CNN models less than 1 minute with CPU. To this end, first, Flash proposes a low-latency convolution algorithm built upon a fast slot rotation operation and a novel data encoding scheme, which results in 4-94x performance gain over the state-of-the-art. Second, to minimize the communication cost introduced by the standard nonlinear activation function ReLU, Flash replaces the entire ReLUs with the polynomial $x^2+x$ and trains deep CNN models with the new activation function. The trained models improve the inference accuracy for CIFAR-10/100 and TinyImageNet by 16% on average (up to 40% for ResNet-32) compared to prior art. Last, Flash proposes an efficient 2PC-based $x^2+x$ evaluation protocol that does not require any offline communication and that reduces the total communication cost to process the activation layer by 84-196x over the state-of-the-art. As a result, the end-to-end PI latency of Flash implemented on CPU is 0.02 minute for CIFAR-100 and 0.57 minute for TinyImageNet classification, while the total data communication is 0.07GB for CIFAR-100 and 0.22GB for TinyImageNet. Flash improves the state-of-the-art PI by 16-45x in latency and 84-196x in communication cost. Moreover, even for ImageNet, Flash can deliver the latency less than 1 minute on CPU with the total communication less than 1GB.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-30
# Sandi: 直接コミュニケーションにおける説明責任と応用のためのシステム

Sandi: A System for Accountability and Applications in Direct Communication ( http://arxiv.org/abs/2401.16759v1 )

ライセンス: Link先を確認
F. Betül Durak, Kim Laine, Simon Langowski, Radames Cruz Moreno, (参考訳) 私たちはSandiというシステムを構築し、ほとんどあるいは全くコンテキストを共有しない当事者間のオンラインコミュニケーションを信頼する。 Sandiは、独自の‘somewhat monotone’のプライバシ保護システムに基づいており、強力なプライバシとセキュリティ特性を備えている。 登録された送信者は、Sandiから暗号化タグをリクエストし、メッセージに添付する。 メッセージレシーバーは登録アカウントを必要としないが、送信者のスコアを使って送信者の信頼度を決定することができる。 レシーバーがメッセージが不適切であれば、そのタグを使ってサンディに送信者を報告し、送信者のスコアを下げることができる。 Sandiの設計は、小さなバイナリデータ転送を可能にするあらゆる通信システムとの互換性を保証する。 Sandiは送信者および受信者の両方に利益をもたらすことを目指している。 受信機は評判スコアを付けたメッセージに反応する傾向にあるため、販売者は利益を得る。 受信側は、前回の受信側からの不可解な証拠に基づいて、誰と対話すべきかをよりよく選択できるため、利点がある。 Sandiは、長期的な秘密鍵を維持するために送信者や受信者を必要としない。 送信者に対するスコア完全保証,送信者と受信者に対する完全な通信プライバシ保証,報告受信者を保護するレポートプライバシ保証,送信者を保護するためのリンク不能保証を提供する。 最後に,送信者に対してゲーム理論解析を行う。 プロパティのリストを満たす任意のスコア関数に対して、Sandiは合理的な送信者を戦略に向けて駆動し、不適切なメッセージの量を減らすことを証明している。

We construct a system, Sandi, to bring trust in online communication between parties that share little or no context. Sandi is based on a unique ``somewhat monotone'' privacy-preserving reputation system, with strong privacy and security properties. Registered senders request cryptographic tags from Sandi, which they attach to their messages. Message receivers do not need registered accounts, but they can use a sender's score to decide how much the sender should be trusted. If a receiver finds the message inappropriate, they can use the tag to report the sender to Sandi, thus decreasing the sender's score. The design of Sandi ensures compatibility with any communication system that allows for small binary data transmission. Sandi aims to benefit both senders and receivers. Senders benefit, as receivers are more likely to react to their messages with reputation scores attached. Receivers benefit, as they can make better choices in who to interact with based on indisputable evidence from prior receivers. Sandi does not require senders or receivers to maintain long-term secret keys. We provide a score integrity guarantee for the senders, a full communication privacy guarantee for the senders and receivers, a report privacy guarantee to protect reporting receivers, and an unlinkability guarantee to protect senders. Finally, we provide a game-theoretic analysis for the sender. We prove that, for any score function satisfying a list of properties, Sandi drives rational senders towards a strategy, which reduces the amount of inappropriate messages.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-30
# 誤り訂正符号によるAI生成テキストのロバストなマルチビット透かし

Provably Robust Multi-bit Watermarking for AI-generated Text via Error Correction Code ( http://arxiv.org/abs/2401.16820v1 )

ライセンス: Link先を確認
Wenjie Qu, Dong Yin, Zixin He, Wei Zou, Tianyang Tao, Jinyuan Jia, Jiaheng Zhang, (参考訳) 大きな言語モデル(LLM)は、人間の言語に似たテキストを生成する優れた能力のために広くデプロイされている。 しかし、犯罪者によって偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために誤用され、倫理的懸念を引き起こす可能性がある。 透かしは、LLMが生成したテキストに透かし(eg, a bit string)を埋め込むLLMの誤用を軽減するための重要なテクニックである。 これにより、LCMが生成したテキストの検出や、生成されたテキストの特定のユーザへのトレースが可能になる。 既存の透かし技法の最大の制限は、特に透かしが長い文字列の場合、テキストから正確に効率よく透かしを抽出できないことである。 このキー制限は、生成されたテキストを特定のユーザにトレースするなど、現実世界のアプリケーションへのデプロイを妨げます。 本研究は,この課題に対処するために,textbf{error-correction codes} をベースとした LLM 生成テキストに対する新しい透かし手法を提案する。 提案手法は, 対訳語/token編集(挿入, 削除, 置換)により, 透かしを正しく抽出し, 証明可能な頑健性を保証する。 このブレークスルーは、我々の広範な実験結果からも証明されている。 実験の結果,提案手法は,ベンチマークデータセットの精度とロバスト性の両方において,既存のベースラインを大幅に上回っていることがわかった。 例えば、長さ12のビット列を200トンのテキストに埋め込む場合、我々のアプローチは9,8.4 %$で、Yoo et al(最先端のベースライン)のパフォーマンスを85.6 %$で上回ります。 200語で生成したテキストに50個のトークンを注入するコピーペースト攻撃を受けると,Yoo et al のマッチングレートが 65 % 以下に低下するのに対して,本手法は 90.8 %$ の相当な一致率を維持する。

Large Language Models (LLMs) have been widely deployed for their remarkable capability to generate texts resembling human language. However, they could be misused by criminals to create deceptive content, such as fake news and phishing emails, which raises ethical concerns. Watermarking is a key technique to mitigate the misuse of LLMs, which embeds a watermark (e.g., a bit string) into a text generated by a LLM. Consequently, this enables the detection of texts generated by a LLM as well as the tracing of generated texts to a specific user. The major limitation of existing watermark techniques is that they cannot accurately or efficiently extract the watermark from a text, especially when the watermark is a long bit string. This key limitation impedes their deployment for real-world applications, e.g., tracing generated texts to a specific user. This work introduces a novel watermarking method for LLM-generated text grounded in \textbf{error-correction codes} to address this challenge. We provide strong theoretical analysis, demonstrating that under bounded adversarial word/token edits (insertion, deletion, and substitution), our method can correctly extract watermarks, offering a provable robustness guarantee. This breakthrough is also evidenced by our extensive experimental results. The experiments show that our method substantially outperforms existing baselines in both accuracy and robustness on benchmark datasets. For instance, when embedding a bit string of length 12 into a 200-token generated text, our approach attains an impressive match rate of $98.4\%$, surpassing the performance of Yoo et al. (state-of-the-art baseline) at $85.6\%$. When subjected to a copy-paste attack involving the injection of 50 tokens to generated texts with 200 words, our method maintains a substantial match rate of $90.8\%$, while the match rate of Yoo et al. diminishes to below $65\%$.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-30
# NTRUリンクリング信号を用いたDIDに基づく検証可能なランダム関数のためのセキュアハイブリッドブロックチェーンシステム

Quantum-Secure Hybrid Blockchain System for DID-based Verifiable Random Function with NTRU Linkable Ring Signature ( http://arxiv.org/abs/2401.16906v1 )

ライセンス: Link先を確認
Bong Gon Kim, Dennis Wong, Yoon Seok Yang, (参考訳) 本研究では,既存のシステムの欠点に対処するセキュアなスマートコントラクトベース検証ランダム関数(VRF)モデルを提案する。 量子コンピューティングが出現するにつれて、従来の公開鍵暗号は潜在的な脆弱性に直面している。 VRFのロバスト性を高めるために、擬似ランダムシーケンスを生成するために、量子後リング-LWE暗号を用いる。 このアプローチの計算強度と関連するオンチェーンガスコストを考慮して,オンチェーンとオフチェーンがスケーラブルでセキュアな方法で通信可能な,VRFシステムのハイブリッドアーキテクチャを提案する。 オフチェーン計算(例えば、Ring-LWE暗号)の妥当性と整合性を確保するため、NTRU格子上に量子セキュアリンク可能なリングシグネチャスキームを用い、鍵カプセル化機構(KEM)をセキュアな鍵生成機構(DKG)として実装する。 当社の分散VRFは、ブロックチェーンベースの分散識別子(DID)を備えたマルチパーティ計算(MPC)を採用し、ランダム性とセキュリティの強化という全体的な取り組みを確実にしています。 提案したVRFモデルのセキュリティとプライバシの利点について,時間的・空間的複雑さを近似した評価を行った。 また、VRF MPCモデルのエントロピーを評価し、Solidityスマートコントラクト統合の概要を説明します。 この研究は、ランダム性と検証を必要とするシナリオに最適なVRF出力の証明を作成し、検証する方法を提供する。 最後に、ランダム性のためのNIST SP800-22テストスイートを用いて、合計176テストの平均p値が0.5459、標準11テストで97.73%のパスレートで、可換な結果を示す。

In this study, we present a secure smart contract-based Verifiable Random Function (VRF) model, addressing the shortcomings of existing systems. As quantum computing emerges, conventional public key cryptography faces potential vulnerabilities. To enhance our VRF's robustness, we employ post-quantum Ring-LWE encryption for generating pseudo-random sequences. Given the computational intensity of this approach and associated on-chain gas costs, we propose a hybrid architecture of VRF system where on-chain and off-chain can communicate in a scalable and secure way. To ensure the validity and integrity of the off-chain computations (e.g., Ring-LWE encryption), we employ a quantum-secure linkable ring signature scheme on NTRU lattice and also delegated key generation (DKG) with a secure key encapsulation mechanism (KEM). Our decentralized VRF employs multi-party computation (MPC) with blockchain-based decentralized identifiers (DID), ensuring the collective efforts of enhanced randomness and security. We show the security and privacy advantages of our proposed VRF model with the approximated estimation of overall temporal and spatial complexities. We also evaluate our VRF MPC model's entropy and outline its Solidity smart contract integration. This research also provides a method to produce and verify the VRF output's proof, optimal for scenarios necessitating randomness and validation. Lastly, using NIST SP800-22 test suite for randomness, we demonstrate the commendable result with a 97.73% overall pass rate on 11 standard tests and 0.5459 of average p-value for the total 176 tests.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-30
# WGAN-AFL:ワッサースタイン-GANを用いたシードジェネレーションファザ

WGAN-AFL: Seed Generation Augmented Fuzzer with Wasserstein-GAN ( http://arxiv.org/abs/2401.16947v1 )

ライセンス: Link先を確認
Liqun Yang, Chunan Li, Yongxin Qiu, Chaoren Wei, Jian Yang, Hongcheng Guo, Jinxin Ma, Zhoujun Li, (参考訳) セキュリティ上の脆弱性に対処することの重要性は疑わしいものであり、ソフトウェアは国防や金融といった分野において重要になっている。 そのため、ソフトウェア脆弱性によるセキュリティ問題は無視できない。 ファズテスト(英: Fuzz Testing)は、ソフトウェアの脆弱性を検出する自動テスト技術である。 しかし, ファジリング性能は初期入力種子に敏感である。 高品質な初期入力シードがない場合、ファッジャはプログラムパス探索において重要なリソースを消費し、脆弱性検出の効率を大幅に低下させる可能性がある。 この問題に対処するため,WGAN-AFLを提案する。 高品質なテストケースを収集することにより,GAN(Generative Adversarial Network)を訓練して特徴を学習し,高品質な初期入力シードを得る。 GANに固有のモード崩壊やトレーニング不安定性といった欠点を克服するため,我々はWasserstein GAN(WGAN)アーキテクチャをトレーニングに利用し,生成した種子の品質をさらに向上させた。 実験の結果、WGAN-AFLはコードカバレッジ、新しいパス、脆弱性発見において元のAFLよりも大幅に優れており、WGAN-AFLによる種子品質の効果的な向上が示されている。

The importance of addressing security vulnerabilities is indisputable, with software becoming crucial in sectors such as national defense and finance. Consequently, The security issues caused by software vulnerabilities cannot be ignored. Fuzz testing is an automated software testing technology that can detect vulnerabilities in the software. However, most previous fuzzers encounter challenges that fuzzing performance is sensitive to initial input seeds. In the absence of high-quality initial input seeds, fuzzers may expend significant resources on program path exploration, leading to a substantial decrease in the efficiency of vulnerability detection. To address this issue, we propose WGAN-AFL. By collecting high-quality testcases, we train a generative adversarial network (GAN) to learn their features, thereby obtaining high-quality initial input seeds. To overcome drawbacks like mode collapse and training instability inherent in GANs, we utilize the Wasserstein GAN (WGAN) architecture for training, further enhancing the quality of the generated seeds. Experimental results demonstrate that WGAN-AFL significantly outperforms the original AFL in terms of code coverage, new paths, and vulnerability discovery, demonstrating the effective enhancement of seed quality by WGAN-AFL.
翻訳日:2024-03-25 12:17:56 公開日:2024-01-30
# ランダム化キーカプセル化/統合

Randomized Key Encapsulation/Consolidation ( http://arxiv.org/abs/2401.16993v1 )

ライセンス: Link先を確認
Amir K. Khandani, (参考訳) この記事では、暗号化キーを共有するのに使用される2つのトピック間のギャップを埋める。 (i)鍵整合(key Consolidation)、すなわち、類似性のある2つの情報ソースから2つの同一のビット列を抽出する(共通ランダム性)。 (II)公開鍵対におけるランダム性を取り入れた量子セーフ鍵カプセル化 キー・コンソリデーション(Key Consolidation)の文脈において、提案手法は、漏洩情報から有用なデータを抽出する際のEveが直面する複雑さを増大させる。 この文脈では、パケットデータネットワークにおけるラウンドトリップ旅行時間から共通乱数性を確立するために[1]で提案した手法に適用する。 提案手法は,秘密度を共通乱数における類似度量に適応させることができる。 通常のランダム性がない極端な場合、量子セーフ暗号キーをカプセル化することもできる。 後者の場合、提案方式は、現在量子安全な鍵カプセル化の基礎となっているMcEliece暗号システムに関して改善されている。 [1] A. K. Khandani, "Looping for Encryption Key Generation Over the Internet: A New Frontier in Physical Layer Security" 2023 Biennial Symposium on Communications (BSC), Montreal, QC, Canada, 2023, pp. 59-64

This article bridges the gap between two topics used in sharing an encryption key: (i) Key Consolidation, i.e., extracting two identical strings of bits from two information sources with similarities (common randomness). (ii) Quantum-safe Key Encapsulation by incorporating randomness in Public/Private Key pairs. In the context of Key Consolidation, the proposed scheme adds to the complexity Eve faces in extracting useful data from leaked information. In this context, it is applied to the method proposed in [1] for establishing common randomness from round-trip travel times in a packet data network. The proposed method allows adapting the secrecy level to the amount of similarity in common randomness. It can even encapsulate a Quantum-safe encryption key in the extreme case that no common randomness is available. In the latter case, it is shown that the proposed scheme offers improvements with respect to the McEliece cryptosystem which currently forms the foundation for Quantum safe key encapsulation. [1] A. K. Khandani, "Looping for Encryption Key Generation Over the Internet: A New Frontier in Physical Layer Security," 2023 Biennial Symposium on Communications (BSC), Montreal, QC, Canada, 2023, pp. 59-64
翻訳日:2024-03-25 12:17:56 公開日:2024-01-30
# 1スパイクSNN: ANN-SNN変換損失最小化のためのベース操作による単一スパイク位相符号化

One-Spike SNN: Single-Spike Phase Coding with Base Manipulation for ANN-to-SNN Conversion Loss Minimization ( http://arxiv.org/abs/2403.08786v1 )

ライセンス: Link先を確認
Sangwoo Hwang, Jaeha Kung, (参考訳) スパイクニューラルネットワーク(SNN)はイベント駆動であるため、エネルギー効率は従来の人工ニューラルネットワーク(ANN)よりも高い。 SNNは離散的なスパイクを通してデータを配信するので、トレーニングに勾配法を用いることは困難であり、精度は制限される。 ANNと類似したSNNの精度を維持するため、事前訓練されたANNをSNNに変換する(ANN-to-SNN変換)。 変換の間、SNNにおける一連のスパイクに対するANNのアクティベーションの符号化は変換損失を最小限に抑えるために重要である。 本研究では,SNN層間でデータを転送するスパイク数を最小限に抑える符号化方式として,単一スパイク位相符号化を提案する。 位相符号化における単一スパイク近似による符号化誤差を最小限に抑えるため,閾値シフトとベース操作を提案する。 CIFARとImageNetデータセットを用いた3つの畳み込みニューラルネットワーク(CNN)で検証された推論精度(平均0.58%)を損なうことなく、グラフ畳み込みネットワーク(GCN)は平均精度0.90%のSNNに変換される。 最も重要な点として、我々のSNNのエネルギー効率はANNのベースラインに比べて4.6~17.3X向上している。

As spiking neural networks (SNNs) are event-driven, energy efficiency is higher than conventional artificial neural networks (ANNs). Since SNN delivers data through discrete spikes, it is difficult to use gradient methods for training, limiting its accuracy. To keep the accuracy of SNNs similar to ANN counterparts, pre-trained ANNs are converted to SNNs (ANN-to-SNN conversion). During the conversion, encoding activations of ANNs to a set of spikes in SNNs is crucial for minimizing the conversion loss. In this work, we propose a single-spike phase coding as an encoding scheme that minimizes the number of spikes to transfer data between SNN layers. To minimize the encoding error due to single-spike approximation in phase coding, threshold shift and base manipulation are proposed. Without any additional retraining or architectural constraints on ANNs, the proposed conversion method does not lose inference accuracy (0.58% on average) verified on three convolutional neural networks (CNNs) with CIFAR and ImageNet datasets.In addition, graph convolutional networks (GCNs) are converted to SNNs successfully with an average accuracy loss of 0.90%.Most importantly, the energy efficiency of our SNN improves by 4.6~17.3 X compared to the ANN baseline.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# Adaptive Consensus Graph Filterによるマルチビューサブスペースクラスタリング

Multi-view Subspace Clustering via An Adaptive Consensus Graph Filter ( http://arxiv.org/abs/2403.08787v1 )

ライセンス: Link先を確認
Lai Wei, Shanshan Song, (参考訳) 近年,マルチビューサブスペースクラスタリング (MVSC) が注目されている。 既存のMVSC手法の多くは、まず異なるビューから補完情報を収集し、その結果、マルチビューデータセットのサブスペース構造を示すためにコンセンサス再構成係数行列を導出する。 本稿ではまず,まずコンセンサス再構成係数行列の存在を仮定し,それを用いてコンセンサスグラフフィルタを構築する。 各ビューでは、データをスムーズ化し、再構成係数行列の正規化器を設計する。 最後に、異なる視点から得られた再構成係数行列を用いて、コンセンサス再構成係数行列の制約を作成する。 そこで,提案手法では,異なる視点からのコンセンサス再構成係数行列,コンセンサスグラフフィルタ,および再構成係数行列が相互依存する。 最適な値を得るための最適化アルゴリズムを提供する。 多様なマルチビューデータセットに対する大規模な実験により、我々の手法は最先端の手法よりも優れていることが示された。

Multiview subspace clustering (MVSC) has attracted an increasing amount of attention in recent years. Most existing MVSC methods first collect complementary information from different views and consequently derive a consensus reconstruction coefficient matrix to indicate the subspace structure of a multi-view data set. In this paper, we initially assume the existence of a consensus reconstruction coefficient matrix and then use it to build a consensus graph filter. In each view, the filter is employed for smoothing the data and designing a regularizer for the reconstruction coefficient matrix. Finally, the obtained reconstruction coefficient matrices from different views are used to create constraints for the consensus reconstruction coefficient matrix. Therefore, in the proposed method, the consensus reconstruction coefficient matrix, the consensus graph filter, and the reconstruction coefficient matrices from different views are interdependent. We provide an optimization algorithm to obtain their optimal values. Extensive experiments on diverse multi-view data sets demonstrate that our approach outperforms some state-of-the-art methods.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# 物体検出の検証 -- IBP IoU

Verification for Object Detection -- IBP IoU ( http://arxiv.org/abs/2403.08788v1 )

ライセンス: Link先を確認
Noémie Cohen, Mélanie Ducoffe, Ryma Boumazouza, Christophe Gabreau, Claire Pagetti, Xavier Pucel, Audrey Galametz, (参考訳) 我々は、オブジェクト検出モデルの形式的検証のための新しいインターバル境界伝搬(IBP)手法を導入し、特に、IoU(Intersection over Union)メトリックをターゲットとした。 このアプローチはIBP IoUという名前のオープンソースコードで実装されており、一般的な抽象的な解釈に基づく検証ツールと互換性がある。 得られた検証はランディングアプローチによる滑走路検出と手書き文字認識ケーススタディに基づいて評価される。 ベースライン(Vanilla IBP IoU)との比較では、IPP IoUの精度と安定性が向上し、よりセキュアで堅牢な機械学習アプリケーションに寄与する。

We introduce a novel Interval Bound Propagation (IBP) approach for the formal verification of object detection models, specifically targeting the Intersection over Union (IoU) metric. The approach has been implemented in an open source code, named IBP IoU, compatible with popular abstract interpretation based verification tools. The resulting verifier is evaluated on landing approach runway detection and handwritten digit recognition case studies. Comparisons against a baseline (Vanilla IBP IoU) highlight the superior performance of IBP IoU in ensuring accuracy and stability, contributing to more secure and robust machine learning applications.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# 説明可能な顔認証のための人体概念のブリッジとコンピュータビジョン

Bridging Human Concepts and Computer Vision for Explainable Face Verification ( http://arxiv.org/abs/2403.08789v1 )

ライセンス: Link先を確認
Miriam Doh, Caroline Mazini Rodrigues, Nicolas Boutry, Laurent Najman, Matei Mancas, Hugues Bersini, (参考訳) 人工知能(AI)は、Face Verificationのような機密性の高いアプリケーションの意思決定プロセスに影響を与えるため、決定の透明性、公平性、説明責任を保証することが基本である。 説明可能な人工知能(XAI)技術は、AI決定を明確にするために存在するが、これらの決定を人間に解釈できることは同様に重要である。 本稿では,顔認証アルゴリズムの解釈可能性を高めるために,コンピュータと人間の視覚を組み合わせたアプローチを提案する。 特に、人間の知覚プロセスにインスパイアされ、マシンが顔の比較作業中に人間の意味領域をどのように知覚するかを理解する。 私たちはMediapipeを使って、人間の意味の異なる顔領域を識別し、マシンの知覚分析を可能にするセグメンテーション技術を提供している。 さらに、意思決定プロセスに対する人間の解釈可能な洞察を提供するために、2つのモデルに依存しないアルゴリズムを適用した。

With Artificial Intelligence (AI) influencing the decision-making process of sensitive applications such as Face Verification, it is fundamental to ensure the transparency, fairness, and accountability of decisions. Although Explainable Artificial Intelligence (XAI) techniques exist to clarify AI decisions, it is equally important to provide interpretability of these decisions to humans. In this paper, we present an approach to combine computer and human vision to increase the explanation's interpretability of a face verification algorithm. In particular, we are inspired by the human perceptual process to understand how machines perceive face's human-semantic areas during face comparison tasks. We use Mediapipe, which provides a segmentation technique that identifies distinct human-semantic facial regions, enabling the machine's perception analysis. Additionally, we adapted two model-agnostic algorithms to provide human-interpretable insights into the decision-making processes.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# SAT局所探索の並列高速化予測における逐次実行時分布の利用

Using Sequential Runtime Distributions for the Parallel Speedup Prediction of SAT Local Search ( http://arxiv.org/abs/2403.08790v1 )

ライセンス: Link先を確認
Alejandro Arbelaez, Charlotte Truchet, Philippe Codognet, (参考訳) 本稿では,Satifiability 問題に対する局所探索アルゴリズムのスケーラビリティと並列化を詳細に解析する。 本稿では,その逐次バージョンの実行時挙動を解析することにより,与えられたアルゴリズムの並列性能を推定するフレームワークを提案する。 実際、シーケンシャルプロセスのランタイム分布を統計的手法で近似することにより、並列プロセスのランタイム挙動を順序統計に基づくモデルで予測することができる。 本研究では,2つのSATローカルサーチソル(Sparrow と CCASAT)の並列性能について検討し,予測性能と384コアまでの並列ハードウェアにおける実実験結果を比較した。 モデルが正確であることを示し、実験データに近い性能を予測する。 さらに,異なる種類のインスタンス(ランダムおよび工芸品)を調査した結果,局所探索解法は異なる挙動を示し,その実行時分布は指数(シフト)と非シフト)と対数正規の2種類の分布で近似できることがわかった。

This paper presents a detailed analysis of the scalability and parallelization of local search algorithms for the Satisfiability problem. We propose a framework to estimate the parallel performance of a given algorithm by analyzing the runtime behavior of its sequential version. Indeed, by approximating the runtime distribution of the sequential process with statistical methods, the runtime behavior of the parallel process can be predicted by a model based on order statistics. We apply this approach to study the parallel performance of two SAT local search solvers, namely Sparrow and CCASAT, and compare the predicted performances to the results of an actual experimentation on parallel hardware up to 384 cores. We show that the model is accurate and predicts performance close to the empirical data. Moreover, as we study different types of instances (random and crafted), we observe that the local search solvers exhibit different behaviors and that their runtime distributions can be approximated by two types of distributions: exponential (shifted and non-shifted) and lognormal.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# ガス化化学ユニット

Gated Chemical Units ( http://arxiv.org/abs/2403.08791v1 )

ライセンス: Link先を確認
Mónika Farsang, Radu Grosu, (参考訳) Gated Chemical Units (GCUs) という新しいタイプのゲート型リカレント細胞を導入し、一般的に使われているゲート型リカレントユニットの新たな洞察を提供し、それらのギャップを生物学的に証明可能なニューラルモデルに橋渡しする。 我々は電気・化学シナプスを持つ生体ニューロンに対する神経科学において広く採用されている常微分方程式モデルであるElectric Equivalent Circuits (EECs) からGCUを系統的に導出した。 我々は、より安定な飽和EECと、より表現力のある化学シナプスに焦点をあてる。 GCUを定義するため,我々は時間ゲート (TG) と呼ばれる新しいゲートをEECの差分方程式モデルで導入する。 TGは、単純なオイラー積分法で使用する最適な時間ステップをニューロンごとに学習し、非常に効率的なゲート単位へと導く。 従来のゲートリカレントユニットにおいて、TGがリザーブゲート(FG)に対応することを観察することにより、これらのユニットをニューラルODEとして新しい定式化する。 また、GCUでは、FGはその液体時間定数であることを示す。 最後に、GCUが従来の繰り返し単位におけるゲートの解法の性質を説明するだけでなく、これらの単位に対して非常に競争力のある代替手段であることを示す。

We introduce Gated Chemical Units (GCUs), a new type of gated recurrent cells which provide fresh insights into the commonly-used gated recurrent units, and bridge their gap to biologically-plausible neural models. We systematically derive GCUs from Electrical Equivalent Circuits (EECs), a widely adopted ordinary-differential-equations model in neuroscience for biological neurons with both electrical and chemical synapses. We focus on saturated EECs, as they are more stable, and chemical synapses, as they are more expressive. To define GCUs, we introduce a new kind of gate, we call a time gate (TG), in the associated difference-equations model of the EECs. The TG learns for each neuron the optimal time step to be used in a simple Euler integration scheme, and leads to a very efficient gated unit. By observing that the TG corresponds to the forget gate (FG) in traditional gated recurrent units, we provide a new formulation of these units as neural ODEs. We also show that in GCUs, the FG is in fact its liquid time constant. Finally, we demonstrate that GCUs not only explain the elusive nature of gates in traditional recurrent units, but also represent a very competitive alternative to these units.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# リアルタイム表情認識:ニューロモルフィックハードウェア対エッジAI加速器

Realtime Facial Expression Recognition: Neuromorphic Hardware vs. Edge AI Accelerators ( http://arxiv.org/abs/2403.08792v1 )

ライセンス: Link先を確認
Heath Smith, James Seekings, Mohammadreza Mohammadi, Ramtin Zand, (参考訳) 本稿では,社会ロボティクスなどの実世界の様々な応用における重要な要素として,リアルタイム表情認識(FER)システムに焦点をあてる。 フェース機械学習(ML)モデルをエッジに展開するためのハードウェアオプションとして,ニューロモルフィックハードウェアとエッジAIアクセラレータの2つについて検討する。 我々の研究は、Intel LoihiニューロモーフィックプロセッサとRaspberry Pi-4、Intel Neural Compute Stick (NSC)、Jetson Nano、Coral TPUの4つの異なるエッジプラットフォームの比較分析を提供する徹底的な実験を含む。 その結果,低消費電力かつエネルギー消費のエッジAIアクセラレーターであるCoral TPUと比較して,約2桁の消費電力削減と1桁の省エネが達成できた。 これらの電力とエネルギーの削減は、ニューロモルフィックソリューションがエッジアクセラレータと同等の精度を維持している間に達成される。

The paper focuses on real-time facial expression recognition (FER) systems as an important component in various real-world applications such as social robotics. We investigate two hardware options for the deployment of FER machine learning (ML) models at the edge: neuromorphic hardware versus edge AI accelerators. Our study includes exhaustive experiments providing comparative analyses between the Intel Loihi neuromorphic processor and four distinct edge platforms: Raspberry Pi-4, Intel Neural Compute Stick (NSC), Jetson Nano, and Coral TPU. The results obtained show that Loihi can achieve approximately two orders of magnitude reduction in power dissipation and one order of magnitude energy savings compared to Coral TPU which happens to be the least power-intensive and energy-consuming edge AI accelerator. These reductions in power and energy are achieved while the neuromorphic solution maintains a comparable level of accuracy with the edge accelerators, all within the real-time latency requirements.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# 大規模画像分類器畳み込みニューラルネットワークにおけるニューラルロス関数の進化

Neural Loss Function Evolution for Large-Scale Image Classifier Convolutional Neural Networks ( http://arxiv.org/abs/2403.08793v1 )

ライセンス: Link先を確認
Brandon Morgan, Dean Hougen, (参考訳) 分類において、ニューラルネットワークは通常、クロスエントロピーを最小化して学習するが、精度を用いて評価され、比較される。 この格差は、ニューラルネットワークのクロスエントロピーのドロップイン置換損失関数探索であるニューラルロス関数探索(NLFS)を示唆している。 NLFSを画像分類器畳み込みニューラルネットワークに適用する。 我々は、より多様な損失関数を探索するNLFSの新しい探索空間と、大規模畳み込みニューラルネットワークに正確に転送する代理関数を提案する。 我々は、突然変異のみの老化遺伝的アルゴリズムである正規化進化を用いて、この空間を探索する。 進化と損失関数除去プロトコルの提案により、複数のアーキテクチャ、データセット、画像拡張技術に最終損失関数を移行し、一般化を評価した。 その結果,NuroLoss1,NeuroLoss2,NeuroLoss3の3つの新たな損失関数が得られた。

For classification, neural networks typically learn by minimizing cross-entropy, but are evaluated and compared using accuracy. This disparity suggests neural loss function search (NLFS), the search for a drop-in replacement loss function of cross-entropy for neural networks. We apply NLFS to image classifier convolutional neural networks. We propose a new search space for NLFS that encourages more diverse loss functions to be explored, and a surrogate function that accurately transfers to large-scale convolutional neural networks. We search the space using regularized evolution, a mutation-only aging genetic algorithm. After evolution and a proposed loss function elimination protocol, we transferred the final loss functions across multiple architectures, datasets, and image augmentation techniques to assess generalization. In the end, we discovered three new loss functions, called NeuroLoss1, NeuroLoss2, and NeuroLoss3 that were able to outperform cross-entropy in terms of a higher mean test accuracy as a simple drop-in replacement loss function across the majority of experiments.
翻訳日:2024-03-25 08:16:13 公開日:2024-01-30
# Layer-2 Blockchain を用いたCBDCのクロスボーダー交換

Cross-border Exchange of CBDCs using Layer-2 Blockchain ( http://arxiv.org/abs/2312.16193v2 )

ライセンス: Link先を確認
Krzysztof Gogol, Johnnatan Messias, Malte Schlosser, Benjamin Kraner, Claudio Tessone, (参考訳) 本稿では,CBDCのクロスボーダー取引のための新しい多層ブロックチェーンアーキテクチャを提案する。 許可されたレイヤ2は、基盤となるネットワークのパブリックコンセンサスに依存して、トランザクションのセキュリティと整合性を確保し、国内CBDC実装との相互運用性を保証する。 複数のLayer-3は様々なAMM(Automated Market Maker)を運用し、最低コストで互いに競合する。 システムの実用的意義を考察するために,Project Marianaをベンチマークとして,過去のFXレートに基づいて取引コストのシミュレーションを行う。 本研究は, 流動性フラグメンテーションであっても, 多層・多層AMMセットアップは単一AMMよりもコスト効率が高いことを示した。

This paper proposes a novel multi-layer blockchain architecture for the cross-border trading of CBDCs. The permissioned layer-2, by relying on the public consensus of the underlying network, assures the security and integrity of the transactions and ensures interoperability with domestic CBDCs implementations. Multiple Layer-3s operate various Automated Market Makers (AMMs) and compete with each other for the lowest costs. To provide insights into the practical implications of the system, simulations of trading costs are conducted based on historical FX rates, with Project Mariana as a benchmark. The study shows that, even with liquidity fragmentation, a multi-layer and multi-AMM setup is more cost-efficient than a single AMM.
翻訳日:2024-03-18 11:18:35 公開日:2024-01-30
# ランダムオラクルからの擬似乱数発生器構築のための量子「リフティング定理」

A Quantum "Lifting Theorem" for Constructions of Pseudorandom Generators from Random Oracles ( http://arxiv.org/abs/2401.14319v3 )

ライセンス: Link先を確認
Jonathan Katz, Ben Sela, (参考訳) ランダムなオラクルから構築した擬似乱数発生器(PRG)の(量子)セキュリティについて検討する。 我々は、大まかに言えば、そのようなPRGが古典的敵に対して無条件に安全であり、多項式的に多くのクエリをランダムなオラクルに生成するならば、同じ意味で(無条件で)量子的敵に対して安全であることを示す「持ち上げ定理」を証明している。 独立な関心の結果として、疑似決定論的量子軌道アルゴリズム(すなわち、確率の高い量子アルゴリズムは繰り返し実行時に同じ値を返す)は、計算的に非有界であるが、クエリ数に多項式の爆発しか持たない有界な古典軌道アルゴリズムによってシミュレートできることを示す。 これは、我々の持ち上げ定理が、ランダムなオラクルへの量子クエリをそれ自体が生成するPRGに対しても成り立つという結論である。

We study the (quantum) security of pseudorandom generators (PRGs) constructed from random oracles. We prove a "lifting theorem" showing, roughly, that if such a PRG is unconditionally secure against classical adversaries making polynomially many queries to the random oracle, then it is also (unconditionally) secure against quantum adversaries in the same sense. As a result of independent interest, we also show that any pseudo-deterministic quantum-oracle algorithm (i.e., a quantum algorithm that with high probability returns the same value on repeated executions) can be simulated by a computationally unbounded but query bounded classical-oracle algorithm with only a polynomial blowup in the number of queries. This implies as a corollary that our lifting theorem holds even for PRGs that themselves make quantum queries to the random oracle.
翻訳日:2024-03-18 08:17:26 公開日:2024-01-30
# リップルダウンルールを用いた人間中心ゴール推論

Human-Centric Goal Reasoning with Ripple-Down Rules ( http://arxiv.org/abs/2402.10224v1 )

ライセンス: Link先を確認
Kenji Brameld, Germ\'an Castro, Claude Sammut, Mark Roberts, David W. Aha(参考訳) ActorSimは海軍研究所で開発された目標推論フレームワークである。 当初、全てのゴール推論ルールは手作りであった。 本研究は,人間のトレーナーがシステムによる決定に同意しない場合,トレーナーがシステムを引き継ぎ,正しい判断を示すという,実演による学習能力によってアクタシムを拡張するものである。 学習コンポーネントは、Ripple-Down Rules(RDR)を使用して、将来同様のケースを正しく扱うために、新たな決定ルールを構築する。 このシステムは、都市全体の災害をシミュレートするrobocup rescue agentシミュレーションを使用して実証され、火災、救急車、警察など緊急サービスを異なる場所に派遣して民間人を危険な状況から避難させる必要がある。 rdrは、actorimとエージェントシミュレータの間を仲介するために使用されるスクリプト言語であるframescriptで実装されている。 Ripple-Down Rulesを使用すると、ActorSimは以前のバージョンよりも桁違いに多くの目標を達成できる。

ActorSim is a goal reasoning framework developed at the Naval Research Laboratory. Originally, all goal reasoning rules were hand-crafted. This work extends ActorSim with the capability of learning by demonstration, that is, when a human trainer disagrees with a decision made by the system, the trainer can take over and show the system the correct decision. The learning component uses Ripple-Down Rules (RDR) to build new decision rules to correctly handle similar cases in the future. The system is demonstrated using the RoboCup Rescue Agent Simulation, which simulates a city-wide disaster, requiring emergency services, including fire, ambulance and police, to be dispatched to different sites to evacuate civilians from dangerous situations. The RDRs are implemented in a scripting language, FrameScript, which is used to mediate between ActorSim and the agent simulator. Using Ripple-Down Rules, ActorSim can scale to an order of magnitude more goals than the previous version.
翻訳日:2024-02-25 17:15:12 公開日:2024-01-30
# 物理インフォーメーション機械学習における物理インフォーメーションニューラルネットワークと関連モデルの数値解析

Numerical analysis of physics-informed neural networks and related models in physics-informed machine learning ( http://arxiv.org/abs/2402.10926v1 )

ライセンス: Link先を確認
Tim De Ryck and Siddhartha Mishra(参考訳) 物理インフォームドニューラルネットワーク(PINN)とその変種は、偏微分方程式の前方および逆問題の数値シミュレーションのためのアルゴリズムとして近年非常に人気がある。 本稿では,物理インフォームド機械学習のバックボーンを構成するPINNおよび関連モデルの数値解析について,現在利用可能な結果の総合的なレビューを行う。 PINNによるPDEの近似における誤差の様々な成分の分析を効果的に行うことができる統一的なフレームワークを提供する。 近似、一般化、トレーニングエラーとそのpdeの型と基礎となる領域の次元に関する振る舞いについて、利用可能な結果の詳細なレビューを行った。 特に、解の正則性の役割と、誤差解析における摂動に対する安定性が解明される。 数値的な結果も理論を説明するために提示される。 機械学習において,様々なモデルの全体的な性能に悪影響を及ぼす重要なボトルネックとして,トレーニングエラーを識別する。

Physics-informed neural networks (PINNs) and their variants have been very popular in recent years as algorithms for the numerical simulation of both forward and inverse problems for partial differential equations. This article aims to provide a comprehensive review of currently available results on the numerical analysis of PINNs and related models that constitute the backbone of physics-informed machine learning. We provide a unified framework in which analysis of the various components of the error incurred by PINNs in approximating PDEs can be effectively carried out. A detailed review of available results on approximation, generalization and training errors and their behavior with respect to the type of the PDE and the dimension of the underlying domain is presented. In particular, the role of the regularity of the solutions and their stability to perturbations in the error analysis is elucidated. Numerical results are also presented to illustrate the theory. We identify training errors as a key bottleneck which can adversely affect the overall performance of various models in physics-informed machine learning.
翻訳日:2024-02-25 17:02:06 公開日:2024-01-30
# 空間コンピューティング:概念,応用,課題,今後の方向性

Spatial Computing: Concept, Applications, Challenges and Future Directions ( http://arxiv.org/abs/2402.07912v1 )

ライセンス: Link先を確認
Gokul Yenduri, Ramalingam M, Praveen Kumar Reddy Maddikunta, Thippa Reddy Gadekallu, Rutvij H Jhaveri, Ajay Bandi, Junxin Chen, Wei Wang, Adarsh Arunkumar Shirawalmath, Raghav Ravishankar, Weizheng Wang(参考訳) 空間コンピューティングは、物理的環境へのデバイスのシームレスな統合を促進する技術進歩であり、より自然で直感的なデジタルワールドユーザエクスペリエンスをもたらす。 空間コンピューティングは、コンピューティングの分野で大きな進歩をもたらす可能性がある。 GPSや位置情報サービスから医療まで、空間コンピューティング技術はデジタル世界とのインタラクションに影響を与え、改善してきた。 インタラクティブなデジタル環境構築における空間コンピューティングの利用は、ますます普及し、効果的になっている。 これは、研究者や産業組織の間で重要性が増していることから説明され、このレビューを行う動機となった。 本稿では,空間コンピューティングの実現技術と各種アプリケーションへの影響について概観する。 空間コンピューティングに関するプロジェクトについても論じる。 本稿では,空間コンピューティングの潜在的な課題と限界についても考察する。 さらに,潜在的な解決策と今後の方向性についても論じる。 本稿では,空間コンピューティングの包括的理解,その実現技術,様々なアプリケーションへの影響,新たな課題,潜在的なソリューションの提供を目的とする。

Spatial computing is a technological advancement that facilitates the seamless integration of devices into the physical environment, resulting in a more natural and intuitive digital world user experience. Spatial computing has the potential to become a significant advancement in the field of computing. From GPS and location-based services to healthcare, spatial computing technologies have influenced and improved our interactions with the digital world. The use of spatial computing in creating interactive digital environments has become increasingly popular and effective. This is explained by its increasing significance among researchers and industrial organisations, which motivated us to conduct this review. This review provides a detailed overview of spatial computing, including its enabling technologies and its impact on various applications. Projects related to spatial computing are also discussed. In this review, we also explored the potential challenges and limitations of spatial computing. Furthermore, we discuss potential solutions and future directions. Overall, this paper aims to provide a comprehensive understanding of spatial computing, its enabling technologies, their impact on various applications, emerging challenges, and potential solutions.
翻訳日:2024-02-18 13:56:53 公開日:2024-01-30
# qacp:中国のpythonプログラミング学習者を支援する注釈付き質問応答データセット

QACP: An Annotated Question Answering Dataset for Assisting Chinese Python Programming Learners ( http://arxiv.org/abs/2402.07913v1 )

ライセンス: Link先を確認
Rui Xiao, Lu Han, Xiaoying Zhou, Jiong Wang, Na Zong, Pengyu Zhang(参考訳) オンライン学習プラットフォーム、特に急速に成長するコンピュータプログラミングコースでは、何千もの学生の学習クエリに対処するにはかなりの人的コストが必要となる。 プログラミング教育に適したインテリジェントアシスタント大言語モデル(LLM)の作成は、異なるデータサポートを必要とする。 しかし、実際のアプリケーションシナリオでは、そのようなLLMをトレーニングするデータリソースは比較的少ない。 そこで本稿では,プログラミングのための知的教育システムにおけるデータ不足に対処するために,python学習者のための新しい中国語問答データセットを提案する。 質問の情報源の信頼性と信頼性を確保するため,実際の学生の質問から質問を収集し,質問の種類や学習者のタイプなど,様々な次元に分類した。 このアノテーション原則は、オンラインプログラミング教育の有効性と品質を高めるために設計され、プログラミング指導支援(ta)を開発するための堅固なデータ基盤を提供する。 さらに,中国語内容の処理・生成に長けた各種LLMの総合的な評価を行い,コンピュータプログラミングコースにおける知的指導支援としての一般LLMの潜在的な限界を強調した。

In online learning platforms, particularly in rapidly growing computer programming courses, addressing the thousands of students' learning queries requires considerable human cost. The creation of intelligent assistant large language models (LLMs) tailored for programming education necessitates distinct data support. However, in real application scenarios, the data resources for training such LLMs are relatively scarce. Therefore, to address the data scarcity in intelligent educational systems for programming, this paper proposes a new Chinese question-and-answer dataset for Python learners. To ensure the authenticity and reliability of the sources of the questions, we collected questions from actual student questions and categorized them according to various dimensions such as the type of questions and the type of learners. This annotation principle is designed to enhance the effectiveness and quality of online programming education, providing a solid data foundation for developing the programming teaching assists (TA). Furthermore, we conducted comprehensive evaluations of various LLMs proficient in processing and generating Chinese content, highlighting the potential limitations of general LLMs as intelligent teaching assistants in computer programming courses.
翻訳日:2024-02-18 13:41:54 公開日:2024-01-30
# 地図エリートは検索空間を照らすか? MAP-Elitesの大規模ユーザ研究 : 人間-AI協調設計への応用

Does mapping elites illuminate search spaces? A large-scale user study of MAP--Elites applied to human--AI collaborative design ( http://arxiv.org/abs/2402.07911v1 )

ライセンス: Link先を確認
Sean P. Walton, Ben J. Evans, Alma A. M. Rahat, James Stovold, Jakub Vincalek(参考訳) 設計プロセスにデザイン推奨が与える影響を理解するため,人間-AI協調設計ツールの2つの研究を行った。 調査されたツールは、一定時間内に可能な限り移動するための仮想車を設計しようとする進化的アルゴリズムに基づいている。 参加者は自分の車を設計し、アルゴリズムに推薦し、アルゴリズムからレコメンデーションのセットを見ることができた。 いくつかのセットは単にランダムに選択され、他のセットはmap-eliteを使用して選択された。 最初の研究では、808の設計セッションが科学的なアウトリーチプログラムの一部として記録され、それぞれがツールの使い方を分析した。 この定量的データについて,12名の被験者を対象に,より小さな二重盲検実験を行った。 実験室では、質問に対する回答とともに、大規模な研究から得られた同じ量データを収集した。 MAP-Elitesが高品質な個人推薦を提供するという証拠はいくつかあるが、これらの勧告が単なるランダムな設計選択よりもデザインプロセスに肯定的な影響を与えるという証拠は得られていない。 実際、MAP-Elitesとランダムに選択されたレコメンデーションの組み合わせを提供することは、このプロセスに有益であるようだ。 さらに、MAP-Elitesからのリコメンデーションを単に見ることは、デザインタスクにおけるエンゲージメントと最終的なデザインの品質に肯定的な影響を及ぼした。 本研究は,新しい混合開始ツールを設計する研究者と,既存ツールの評価を希望する研究者の両方にとって重要である。 さらに,人間-AI協調アルゴリズムの成功を評価するために現在研究者が使用しているメトリクスは,これらのアルゴリズムが設計プロセスに与える影響を十分に測定していないことがわかった。

Two studies of a human-AI collaborative design tool were carried out in order to understand the influence design recommendations have on the design process. The tool investigated is based on an evolutionary algorithm attempting to design a virtual car to travel as far as possible in a fixed time. Participants were able to design their own cars, make recommendations to the algorithm and view sets of recommendations from the algorithm. The algorithm-recommended sets were designs which had been previously tested; some sets were simply randomly picked and other sets were picked using MAP-Elites. In the first study 808 design sessions were recorded as part of a science outreach program, each with analytical data of how each participant used the tool. To provide context to this quantitative data, a smaller double-blind lab study was also carried out with 12 participants. In the lab study the same quantitative data from the large scale study was collected alongside responses to interview questions. Although there is some evidence that the MAP-Elites provide higher-quality individual recommendations, neither study provides convincing evidence that these recommendations have a more positive influence on the design process than simply a random selection of designs. In fact, it seems that providing a combination of MAP-Elites and randomly selected recommendations is beneficial to the process. Furthermore, simply viewing recommendations from the MAP-Elites had a positive influence on engagement in the design task and the quality of the final design produced. Our findings are significant both for researchers designing new mixed-initiative tools, and those who wish to evaluate existing tools. Most significantly, we found that metrics researchers currently use to evaluate the success of human-AI collaborative algorithms do not measure the full influence these algorithms have on the design process.
翻訳日:2024-02-18 13:41:37 公開日:2024-01-30
# 脳波を用いた疲労予測アルゴリズムの検討

Review of algorithms for predicting fatigue using EEG ( http://arxiv.org/abs/2402.09443v1 )

ライセンス: Link先を確認
Ildar Rakhmatulin(参考訳) 疲労検出は、交通、医療、産業など様々な分野の安全、生産性、幸福を高める上で最も重要なものである。 本稿では,脳波(eeg)信号を用いた生理的疲労検出への機械学習アルゴリズムの適用に関する包括的研究を行う。 本研究の目的は,脳波データに基づく個人の疲労レベル予測における各種アルゴリズムの有効性を評価することである。

Fatigue detection is of paramount importance in enhancing safety, productivity, and well-being across diverse domains, including transportation, healthcare, and industry. This scientific paper presents a comprehensive investigation into the application of machine learning algorithms for the detection of physiological fatigue using Electroencephalogram (EEG) signals. The primary objective of this study was to assess the efficacy of various algorithms in predicting an individual's level of fatigue based on EEG data.
翻訳日:2024-02-18 13:03:50 公開日:2024-01-30
# 自己駆動型センサとディープラーニングを組み合わせた人工知能応用の進歩

Progress in artificial intelligence applications based on the combination of self-driven sensors and deep learning ( http://arxiv.org/abs/2402.09442v1 )

ライセンス: Link先を確認
Weixiang Wan, Wenjian Sun, Bo Liu, Linying Pan, Jingyu Xu(参考訳) モノのインターネット時代において、持続可能な電源、展開が容易で柔軟な使用が可能なスマートセンサーシステムの開発は、解決が難しい問題となっている。 従来の電源には、頻繁に交換や充電といった問題があり、ウェアラブルデバイスの開発を制限している。 接触分離摩擦ナノ発電機 (teng) を多孔性チレン (ptfe) とアルミニウム (ai) ホイルを用いて作製した。 人間の運動エネルギーは人体アレンジメントによって収集され、出力電気信号の変化に応じて人間の運動姿勢が監視された。 2012年、Academician Wang Zhong lin と彼のチームは、マックスウェルの変位電流を駆動力として、機械的刺激を直接電気信号に変換することで、自己駆動型センサーとして使用できるトリボ誘電体ナノジェネレータ (TENG) を発明した。 テングベースのセンサは、単純な構造と高瞬時電力密度の利点があり、インテリジェントセンサーシステムを構築する上で重要な手段となる。 同時に、低コストで開発サイクルが短く、強力なデータ処理能力と予測能力を持つ機械学習は、TENGが生成する多数の電気信号の処理に重大な影響を及ぼし、TENGセンサーと組み合わせることで、将来的にはインテリジェントセンサーネットワークの急速な開発が促進される。 そこで本稿は, 音声認識能力に優れ, ユビキタスセンサネットワークにおける音認識モジュールアーキテクチャの実現可能性を評価することを目的とした, TENG のインテリジェントな音響監視・認識システムに基づく。

In the era of Internet of Things, how to develop a smart sensor system with sustainable power supply, easy deployment and flexible use has become a difficult problem to be solved. The traditional power supply has problems such as frequent replacement or charging when in use, which limits the development of wearable devices. The contact-to-separate friction nanogenerator (TENG) was prepared by using polychotomy thy lene (PTFE) and aluminum (AI) foils. Human motion energy was collected by human body arrangement, and human motion posture was monitored according to the changes of output electrical signals. In 2012, Academician Wang Zhong lin and his team invented the triboelectric nanogenerator (TENG), which uses Maxwell displacement current as a driving force to directly convert mechanical stimuli into electrical signals, so it can be used as a self-driven sensor. Teng-based sensors have the advantages of simple structure and high instantaneous power density, which provides an important means for building intelligent sensor systems. At the same time, machine learning, as a technology with low cost, short development cycle, strong data processing ability and prediction ability, has a significant effect on the processing of a large number of electrical signals generated by TENG, and the combination with TENG sensors will promote the rapid development of intelligent sensor networks in the future. Therefore, this paper is based on the intelligent sound monitoring and recognition system of TENG, which has good sound recognition capability, and aims to evaluate the feasibility of the sound perception module architecture in ubiquitous sensor networks.
翻訳日:2024-02-18 13:03:43 公開日:2024-01-30
# サイバーセキュリティにおける大規模言語モデル

Large Language Models in Cybersecurity: State-of-the-Art ( http://arxiv.org/abs/2402.00891v1 )

ライセンス: Link先を確認
Farzad Nourmohammadzadeh Motlagh, Mehrdad Hajizadeh, Mehryar Majd, Pejman Najafi, Feng Cheng, Christoph Meinel(参考訳) 大規模言語モデル(llm)の台頭は、人工知能に近づいた知性の理解に革命をもたらした。 導入以来、研究者は様々な分野にまたがるLSMの応用を積極的に探求してきた。 サイバーセキュリティは、伝統的にデータ駆動ソリューションに耐性があり、機械学習を受け入れるのが遅い。 本研究は,サイバーセキュリティ分野におけるllmの防御的及び敵対的応用の徹底的な特徴を述べるとともに,既存の文献を考察する。 本総説では, 現状を調査, 分類するだけでなく, 重要な研究ギャップも明らかにする。 攻撃的および防御的双方のアプリケーションを評価することにより,LSMによるサイバーセキュリティに関連する潜在的なリスクと機会の包括的理解を目指す。

The rise of Large Language Models (LLMs) has revolutionized our comprehension of intelligence bringing us closer to Artificial Intelligence. Since their introduction, researchers have actively explored the applications of LLMs across diverse fields, significantly elevating capabilities. Cybersecurity, traditionally resistant to data-driven solutions and slow to embrace machine learning, stands out as a domain. This study examines the existing literature, providing a thorough characterization of both defensive and adversarial applications of LLMs within the realm of cybersecurity. Our review not only surveys and categorizes the current landscape but also identifies critical research gaps. By evaluating both offensive and defensive applications, we aim to provide a holistic understanding of the potential risks and opportunities associated with LLM-driven cybersecurity.
翻訳日:2024-02-11 17:29:38 公開日:2024-01-30
# RFCプロトコル仕様をCPSA定義に変換するための大規模言語モデルの利用

Utilizing Large Language Models to Translate RFC Protocol Specifications to CPSA Definitions ( http://arxiv.org/abs/2402.00890v1 )

ライセンス: Link先を確認
Martin Duclos, Ivan A. Fernandez, Kaneesha Moore, Sudip Mittal, Edward Zieglar(参考訳) 本稿では,Large Language Models (LLMs) を用いて,RFCプロトコル仕様をCryptographic Protocol Shapes Analyzer (CPSA) と互換性のあるフォーマットに変換することを提案する。 本手法は,プロトコル仕様をCPSAに適した構造化モデルに変換する自動手法を提供することにより,プロトコル解析に関わる複雑さと労力を削減することを目的とする。 本稿では,RFCプロトコルトランスレータの実装,形式的手法解析のアクセシビリティ向上への影響,インターネットプロトコルのセキュリティ向上の可能性について論じる。

This paper proposes the use of Large Language Models (LLMs) for translating Request for Comments (RFC) protocol specifications into a format compatible with the Cryptographic Protocol Shapes Analyzer (CPSA). This novel approach aims to reduce the complexities and efforts involved in protocol analysis, by offering an automated method for translating protocol specifications into structured models suitable for CPSA. In this paper we discuss the implementation of an RFC Protocol Translator, its impact on enhancing the accessibility of formal methods analysis, and its potential for improving the security of internet protocols.
翻訳日:2024-02-11 17:29:25 公開日:2024-01-30
# 大規模言語モデルのセキュリティとプライバシの課題:調査

Security and Privacy Challenges of Large Language Models: A Survey ( http://arxiv.org/abs/2402.00888v1 )

ライセンス: Link先を確認
Badhan Chandra Das, M. Hadi Amini, Yanzhao Wu(参考訳) 大規模言語モデル(llm)は、異常な能力を示し、テキストの生成と要約、言語翻訳、質問応答など、複数の分野に貢献した。 現在、LLMは、複雑な言語パターンを分析し、コンテキストに応じて適切な応答を提供する機能を備えた、コンピュータ化された言語処理タスクにおいて、非常に人気のあるツールになりつつある。 重要なアドバンテージを提供する一方で、これらのモデルは、脱獄攻撃、データ中毒攻撃、Personally Identible Information (PII)漏洩攻撃など、セキュリティおよびプライバシ攻撃にも脆弱である。 この調査は、トレーニングデータとユーザの両方に対するllmのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまなドメインにおけるアプリケーションベースのリスクの徹底的なレビューを提供する。 我々は,LSMの脆弱性の程度を評価し,LSMのセキュリティとプライバシ攻撃について調査し,潜在的な防御機構について検討する。 さらに、この領域における既存の研究のギャップを概説し、今後の研究の方向性を強調する。

Large Language Models (LLMs) have demonstrated extraordinary capabilities and contributed to multiple fields, such as generating and summarizing text, language translation, and question-answering. Nowadays, LLM is becoming a very popular tool in computerized language processing tasks, with the capability to analyze complicated linguistic patterns and provide relevant and appropriate responses depending on the context. While offering significant advantages, these models are also vulnerable to security and privacy attacks, such as jailbreaking attacks, data poisoning attacks, and Personally Identifiable Information (PII) leakage attacks. This survey provides a thorough review of the security and privacy challenges of LLMs for both training data and users, along with the application-based risks in various domains, such as transportation, education, and healthcare. We assess the extent of LLM vulnerabilities, investigate emerging security and privacy attacks for LLMs, and review the potential defense mechanisms. Additionally, the survey outlines existing research gaps in this domain and highlights future research directions.
翻訳日:2024-02-11 17:29:16 公開日:2024-01-30
# 都市総合知性に向けて : 都市基礎モデルのレビューと展望

Towards Urban General Intelligence: A Review and Outlook of Urban Foundation Models ( http://arxiv.org/abs/2402.01749v1 )

ライセンス: Link先を確認
Weijia Zhang, Jindong Han, Zhao Xu, Hang Ni, Hao Liu, Hui Xiong(参考訳) 機械学習技術は現在、インテリジェントな都市サービスの発展に不可欠であり、都市環境の効率、持続可能性、リバビリティを高める上で重要な役割を果たしている。 ChatGPTのような最近の基盤モデルの出現は、機械学習と人工知能の分野で革命的な変化を示している。 コンテキスト理解、問題解決、および幅広いタスクにおける適応性におけるこれらの非並列的な能力は、これらのモデルを都市ドメインに統合することは、スマートシティの開発に変革をもたらす可能性があることを示唆している。 UFM(Urban Foundation Models)への関心が高まりつつあるにもかかわらず、この急成長する分野は明確な定義の欠如、体系的なレビュー、普遍化可能なソリューションといった課題に直面している。 この目的のために,本論文ではまずUFMの概念を紹介し,その構築にかかわるユニークな課題について論じる。 次に、都市データモダリティとタイプに基づいて、現在のUFM関連の作品を分類するデータ中心分類法を提案する。 さらに,この分野の進歩を促進するために,特定課題を克服すべく設計された ufms の実現に向けた有望な枠組みを提案する。 さらに,UFMの応用状況について検討し,都市環境におけるその潜在的な影響について詳述する。 関連論文とオープンソースリソースは、https://github.com/usail-hkust/Awesome-Urban-Foundation-Modelsで継続的に更新されている。

Machine learning techniques are now integral to the advancement of intelligent urban services, playing a crucial role in elevating the efficiency, sustainability, and livability of urban environments. The recent emergence of foundation models such as ChatGPT marks a revolutionary shift in the fields of machine learning and artificial intelligence. Their unparalleled capabilities in contextual understanding, problem solving, and adaptability across a wide range of tasks suggest that integrating these models into urban domains could have a transformative impact on the development of smart cities. Despite growing interest in Urban Foundation Models~(UFMs), this burgeoning field faces challenges such as a lack of clear definitions, systematic reviews, and universalizable solutions. To this end, this paper first introduces the concept of UFM and discusses the unique challenges involved in building them. We then propose a data-centric taxonomy that categorizes current UFM-related works, based on urban data modalities and types. Furthermore, to foster advancement in this field, we present a promising framework aimed at the prospective realization of UFMs, designed to overcome the identified challenges. Additionally, we explore the application landscape of UFMs, detailing their potential impact in various urban contexts. Relevant papers and open-source resources have been collated and are continuously updated at https://github.com/usail-hkust/Awesome-Urban-Foundation-Models.
翻訳日:2024-02-11 16:20:08 公開日:2024-01-30
# 系統文献レビュー:ハマースタイル分類のための計算的アプローチ

Systematic Literature Review: Computational Approaches for Humour Style Classification ( http://arxiv.org/abs/2402.01759v1 )

ライセンス: Link先を確認
Mary Ogbuka Kenneth, Foaad Khosmood and Abbas Edalat(参考訳) 様々なユーモアのスタイルを理解することは、ユーモアの多面的な性質とその心理学や人工知能といった分野への影響を理解するのに不可欠である。 この理解により、ユーモアは、採用されるスタイルによって、個人の健康と関係に治療的または有害な影響を与えることが判明した。 計算に基づくユーモアのスタイル分析専用の研究はいまだに稀であるが、関連するタスク、特に二進的ユーモアとサルカズムの認識において、広範な研究が盛んである。 この体系的文献レビュー (slr) では, 関連課題に適用される計算手法の展望を調査し, ユーモア分析に対する基礎的妥当性を明らかにする。 本研究では,様々なデータセットと評価指標を照らし,ユーモア研究の複雑な地形を効果的にナビゲートする共通手法を提案する。 我々の努力は潜在的な研究ギャップを決定づけ、有望な方向性を概説した。 さらに、SLRは、バイナリユーモアやサルカズム検出といった関連するタスクからユーモアスタイルの分類にシームレスに移行できる様々な特徴と計算モデルを特定する。 これらの特徴は、不合理性、感情と極性分析、曖昧性検出、音響ニュアンス、視覚的な手がかり、文脈的洞察などを含んでいる。 出現する計算モデルは、伝統的な機械学習パラダイム、ニューラルネットワークアーキテクチャ、トランスフォーマーベースのモデル、ユーモアのニュアンスに適応した特殊化されたモデルを含む。 最後に、SLRはユーモアと皮肉に関連する既存のデータセットへのアクセスを提供し、将来の研究者の仕事を促進する。

Understanding various humour styles is essential for comprehending the multifaceted nature of humour and its impact on fields such as psychology and artificial intelligence. This understanding has revealed that humour, depending on the style employed, can either have therapeutic or detrimental effects on an individual's health and relationships. Although studies dedicated exclusively to computational-based humour style analysis remain somewhat rare, an expansive body of research thrives within related task, particularly binary humour and sarcasm recognition. In this systematic literature review (SLR), we survey the landscape of computational techniques applied to these related tasks and also uncover their fundamental relevance to humour style analysis. Through this study, we unveil common approaches, illuminate various datasets and evaluation metrics, and effectively navigate the complex terrain of humour research. Our efforts determine potential research gaps and outlined promising directions. Furthermore, the SLR identifies a range of features and computational models that can seamlessly transition from related tasks like binary humour and sarcasm detection to invigorate humour style classification. These features encompass incongruity, sentiment and polarity analysis, ambiguity detection, acoustic nuances, visual cues, contextual insights, and more. The computational models that emerge contain traditional machine learning paradigms, neural network architectures, transformer-based models, and specialised models attuned to the nuances of humour. Finally, the SLR provides access to existing datasets related to humour and sarcasm, facilitating the work of future researchers.
翻訳日:2024-02-11 16:06:12 公開日:2024-01-30
# Aalap:インドにおける法と副法機能のためのAIアシスタント

Aalap: AI Assistant for Legal & Paralegal Functions in India ( http://arxiv.org/abs/2402.01758v1 )

ライセンス: Link先を確認
Aman Tiwari, Prathamesh Kalamkar, Atreyo Banerjee, Saurabh Karn, Varun Hemachandran and Smita Gupta(参考訳) 法的なタスクでプロプライエタリな言語モデルを使用することは、データのプライバシの問題、ドメインデータの異質性、ドメイン知識の洗練、ドメインの独自性といった問題を引き起こす。 私たちは、特定のインドの法的タスクに関連する命令データに基づいて、微調整されたMistral 7BモデルであるAalalpを作成しました。 Aalap の性能はテストデータの 31 % で gpt-3.5-turbo より優れており,GPT4 で評価したテストデータの 34 % で同等のスコアが得られる。 aalapの訓練は、主に法的リコールではなく、法的推論を教えることに焦点を当てている。 Aalapは、弁護士、裁判官、あるいは法律システムで働く人の日々の活動に間違いなく役立ちます。

Using proprietary Large Language Models on legal tasks poses challenges due to data privacy issues, domain data heterogeneity, domain knowledge sophistication, and domain objectives uniqueness. We created Aalalp, a fine-tuned Mistral 7B model on instructions data related to specific Indian legal tasks. The performance of Aalap is better than gpt-3.5-turbo in 31\% of our test data and obtains an equivalent score in 34\% of the test data as evaluated by GPT4. Training Aalap mainly focuses on teaching legal reasoning rather than legal recall. Aalap is definitely helpful for the day-to-day activities of lawyers, judges, or anyone working in legal systems.
翻訳日:2024-02-11 16:05:44 公開日:2024-01-30
# SpecDiff-GAN:音声・音楽合成のためのスペクトル形ノイズ拡散GAN

SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis ( http://arxiv.org/abs/2402.01753v1 )

ライセンス: Link先を確認
Teysir Baoueb (IP Paris, LTCI, IDS, S2A), Haocheng Liu (IP Paris, LTCI, IDS, S2A), Mathieu Fontaine (IP Paris, LTCI, IDS, S2A), Jonathan Le Roux (MERL), Gael Richard (IP Paris, LTCI, IDS, S2A)(参考訳) GANモデルは、高速サンプル生成を確保しつつ高品質な音声信号を合成することができる。 しかし、訓練は困難であり、モード崩壊や発散などいくつかの問題が発生する。 本稿では,HiFi-GANに基づくニューラルボコーダであるSpecDiff-GANについて紹介する。 本モデルでは,実検体と偽検体の両方にガウス分布からのノイズを注入し,判別器に入力する前方拡散法によってトレーニング安定性が向上する。 判別器のタスクをより困難にすることを目的として,スペクトル形状の雑音分布を利用したモデルをさらに改良する。 次に,複数のデータセットに対して提案した音声と音楽の合成モデルの有効性を示す。 実験により,本モデルは複数のベースラインと比較して,音質と効率が良好に比較できることを確認した。

Generative adversarial network (GAN) models can synthesize highquality audio signals while ensuring fast sample generation. However, they are difficult to train and are prone to several issues including mode collapse and divergence. In this paper, we introduce SpecDiff-GAN, a neural vocoder based on HiFi-GAN, which was initially devised for speech synthesis from mel spectrogram. In our model, the training stability is enhanced by means of a forward diffusion process which consists in injecting noise from a Gaussian distribution to both real and fake samples before inputting them to the discriminator. We further improve the model by exploiting a spectrally-shaped noise distribution with the aim to make the discriminator's task more challenging. We then show the merits of our proposed model for speech and music synthesis on several datasets. Our experiments confirm that our model compares favorably in audio quality and efficiency compared to several baselines.
翻訳日:2024-02-11 16:05:32 公開日:2024-01-30
# Sinhala YouTubeビデオにおける音声分析による偽コンテンツとヘイトスピーチの同定

Identifying False Content and Hate Speech in Sinhala YouTube Videos by Analyzing the Audio ( http://arxiv.org/abs/2402.01752v1 )

ライセンス: Link先を確認
W. A. K. M. Wickramaarachchi, Sameeri Sathsara Subasinghe, K. K. Rashani Tharushika Wijerathna, A. Sahashra Udani Athukorala, Lakmini Abeywardhana, A. Karunasena(参考訳) YouTubeは偽情報やヘイトスピーチの拡散で世界的危機に直面している。 これらの問題に対処するため、YouTubeは偽情報やヘイトスピーチの宣伝を含むコンテンツをアップロードすることを禁じた。 攻撃的な英語コンテンツを減らすために多くの研究が行われてきたが、シンハラコンテンツに関する研究は極めて不足している。 本研究の目的は、sinhalaのyoutubeビデオにおける暴力や誤情報の拡散を最小限に抑える方法を提案することにある。 このアプローチは、タイトルと説明をオーディオコンテンツと比較し、ビデオにヘイトスピーチが含まれるかどうかを評価する評価システムを開発することを含む。 本手法は,Pytubeライブラリを用いた音声抽出,微調整Whisperモデルによる音声書き起こし,ディスティロベルタベースモデルとテキスト分類LSTMモデルを用いたヘイトスピーチ検出,微調整BART-Large-XSUMモデルによるテキスト要約を含む。 特に、Whisperモデルは48.99 %のワードエラー率を達成し、 distilroberta-base モデルは F1 スコア 0.856 とリコール値 0.861 を示し、LSTM モデルはオーバーフィッティングの兆候を示した。

YouTube faces a global crisis with the dissemination of false information and hate speech. To counter these issues, YouTube has implemented strict rules against uploading content that includes false information or promotes hate speech. While numerous studies have been conducted to reduce offensive English-language content, there's a significant lack of research on Sinhala content. This study aims to address the aforementioned gap by proposing a solution to minimize the spread of violence and misinformation in Sinhala YouTube videos. The approach involves developing a rating system that assesses whether a video contains false information by comparing the title and description with the audio content and evaluating whether the video includes hate speech. The methodology encompasses several steps, including audio extraction using the Pytube library, audio transcription via the fine-tuned Whisper model, hate speech detection employing the distilroberta-base model and a text classification LSTM model, and text summarization through the fine-tuned BART-Large- XSUM model. Notably, the Whisper model achieved a 48.99\% word error rate, while the distilroberta-base model demonstrated an F1 score of 0.856 and a recall value of 0.861 in comparison to the LSTM model, which exhibited signs of overfitting.
翻訳日:2024-02-11 16:05:18 公開日:2024-01-30
# chatgpt対bardによるアルツハイマー型認知症検出機能の評価

Performance Assessment of ChatGPT vs Bard in Detecting Alzheimer's Dementia ( http://arxiv.org/abs/2402.01751v1 )

ライセンス: Link先を確認
Balamurali B T, Jer-Ming Chen(参考訳) 大規模言語モデル (LLM) は多くの分野で応用が増加している。 ここでは3つのLSMチャットボット(ChatGPT-3.5、ChatGPT-4、Bard)が、自発音声記録からのテキスト入力を用いてアルツハイマー性認知症(AD)と認知正常(CN)を認識できる現在の形式で評価される。 ゼロショット学習のアプローチは、2つのレベルの独立したクエリで使用されており、第2のクエリ(チェーンのプロンプト)は、第1のクエリよりも詳細なものだ。 各LSMチャットボットの性能は、精度、感度、特異性、精度、F1スコアで生成された予測に基づいて評価される。 LLMチャットボットは3種類の結果(AD、CN、Unsure)を生成した。 ADを肯定的に特定すると、バードは最高真正値(89%のリコール)と最高F1スコア(71%)を産み出したが、CNをADと誤認する傾向があり、高い信頼度(低い「不確実」率)でCNを同定すると、GPT-4は56%、最高F1スコア(62%)となり、外交的スタンス(「不確実」レート)を採用した。 全体として、3つのLLMチャットボットは、AD対CNが確率レベルを超えているが、現在臨床応用を満足していない。

Large language models (LLMs) find increasing applications in many fields. Here, three LLM chatbots (ChatGPT-3.5, ChatGPT-4 and Bard) are assessed - in their current form, as publicly available - for their ability to recognize Alzheimer's Dementia (AD) and Cognitively Normal (CN) individuals using textual input derived from spontaneous speech recordings. Zero-shot learning approach is used at two levels of independent queries, with the second query (chain-of-thought prompting) eliciting more detailed than the first. Each LLM chatbot's performance is evaluated on the prediction generated in terms of accuracy, sensitivity, specificity, precision and F1 score. LLM chatbots generated three-class outcome ("AD", "CN", or "Unsure"). When positively identifying AD, Bard produced highest true-positives (89% recall) and highest F1 score (71%), but tended to misidentify CN as AD, with high confidence (low "Unsure" rates); for positively identifying CN, GPT-4 resulted in the highest true-negatives at 56% and highest F1 score (62%), adopting a diplomatic stance (moderate "Unsure" rates). Overall, three LLM chatbots identify AD vs CN surpassing chance-levels but do not currently satisfy clinical application.
翻訳日:2024-02-11 16:04:51 公開日:2024-01-30
# PACE:大規模言語モデルを用いた通信効率向上のための実用的エージェント

PACE: A Pragmatic Agent for Enhancing Communication Efficiency Using Large Language Models ( http://arxiv.org/abs/2402.01750v1 )

ライセンス: Link先を確認
Jiaxuan Li and Minxi Yang and Dahua Gao and Wenlong Xu and Guangming Shi(参考訳) 現在の通信技術は、理論的能力、スペクトル可用性、電力資源の制限に直面している。 選択的データ伝送に端末インテリジェンスを活用する実用的コミュニケーションは、資源保護を提供する。 既存の研究には普遍的な目的解決ツールがなく、特定のタスクに適用性に制限がある。 本稿では,Large Language Models (LLM) を用いたPACE(Pragmatic Agent for Communication efficiency)に基づく画像実用的コミュニケーションフレームワークを提案する。 このフレームワークでは、PACEは意味認識、意図分解、意図指向コーディングを順次実行する。 通信におけるllmの有効利用を確保するため、必要な知識を補完する知識ベースを設計、実用的コミュニケーションシナリオやタスク要件の理解を容易にする専用のプロンプトを導入し、伝送効率とコストの間の合理的なトレードオフを実現するための思考連鎖をデザインする。 実験的な検証のために,画像実用的通信データセットとそれに対応する評価基準を構築した。 シミュレーションの結果,提案手法は従来型および非LLM方式の実用的コミュニケーションを伝送効率で上回ることがわかった。

Current communication technologies face limitations in terms of theoretical capacity, spectrum availability, and power resources. Pragmatic communication, leveraging terminal intelligence for selective data transmission, offers resource conservation. Existing research lacks universal intention resolution tools, limiting applicability to specific tasks. This paper proposes an image pragmatic communication framework based on a Pragmatic Agent for Communication Efficiency (PACE) using Large Language Models (LLM). In this framework, PACE sequentially performs semantic perception, intention resolution, and intention-oriented coding. To ensure the effective utilization of LLM in communication, a knowledge base is designed to supplement the necessary knowledge, dedicated prompts are introduced to facilitate understanding of pragmatic communication scenarios and task requirements, and a chain of thought is designed to assist in making reasonable trade-offs between transmission efficiency and cost. For experimental validation, this paper constructs an image pragmatic communication dataset along with corresponding evaluation standards. Simulation results indicate that the proposed method outperforms traditional and non-LLM-based pragmatic communication in terms of transmission efficiency.
翻訳日:2024-02-11 16:04:15 公開日:2024-01-30
# 商用AI、紛争、道徳責任:二元的AI技術に関連する道徳的責任に関する理論的分析と実践的アプローチ

Commercial AI, Conflict, and Moral Responsibility: A theoretical analysis and practical approach to the moral responsibilities associated with dual-use AI technology ( http://arxiv.org/abs/2402.01762v1 )

ライセンス: Link先を確認
Daniel Trusilo and David Danks(参考訳) 本稿では、非軍事的応用のためのAIシステムを開発する際の道徳的責任に関する理論的分析と実践的アプローチについて述べる。 我々は、AIは他の技術にまたがって乗算効果を持つため、従来の二元的または多元的技術の歴史的例とは異なる、クロスオーバー技術の一形態であると主張する。 結果として、デュアルユース技術に関する倫理的責任に関する既存の分析は、必ずしもAIシステムで機能するとは限らない。 代わりに私たちは、AIシステムのライフサイクルに関わるステークホルダーが、合理的に予測可能なシステムの使用に対して道徳的に責任があると主張する。 基本的には、ある行為に対するエージェントの道徳的責任は、その意図だけで決定されるとは限らない。我々はまた、エージェントが、その行為の潜在的な結果、例えば、そのために設計されていなくても、紛争中のシステムの潜在的な使用を予測できるものを考える必要がある。 特に,(1) 民間AIシステムが紛争支援活動を含む活発な紛争に適用されること,(2) 紛争における民間AIシステムの使用が武力紛争法の適用に影響を与えること,(3) クロスオーバーAI技術が武力紛争に該当しない紛争に適用されること,などが合理的に予測できる。 これらの合理的な結果を考えると、我々は市民AIの開発者が道徳的責任を和らげるために、技術的に実現可能な3つのアクションを提示します。 (a)マルチパースペクティブ能力テストの体系的アプローチを確立すること。 (b)模型重量行列に電子透かしを統合すること、 (c) 競合関連AIアプリケーションに対する監視および報告機構の利用。

This paper presents a theoretical analysis and practical approach to the moral responsibilities when developing AI systems for non-military applications that may nonetheless be used for conflict applications. We argue that AI represents a form of crossover technology that is different from previous historical examples of dual- or multi-use technology as it has a multiplicative effect across other technologies. As a result, existing analyses of ethical responsibilities around dual-use technologies do not necessarily work for AI systems. We instead argue that stakeholders involved in the AI system lifecycle are morally responsible for uses of their systems that are reasonably foreseeable. The core idea is that an agent's moral responsibility for some action is not necessarily determined by their intentions alone; we must also consider what the agent could reasonably have foreseen to be potential outcomes of their action, such as the potential use of a system in conflict even when it is not designed for that. In particular, we contend that it is reasonably foreseeable that: (1) civilian AI systems will be applied to active conflict, including conflict support activities, (2) the use of civilian AI systems in conflict will impact applications of the law of armed conflict, and (3) crossover AI technology will be applied to conflicts that fall short of armed conflict. Given these reasonably foreseeably outcomes, we present three technically feasible actions that developers of civilian AIs can take to potentially mitigate their moral responsibility: (a) establishing systematic approaches to multi-perspective capability testing, (b) integrating digital watermarking in model weight matrices, and (c) utilizing monitoring and reporting mechanisms for conflict-related AI applications.
翻訳日:2024-02-11 15:50:53 公開日:2024-01-30
# 大規模言語モデルにおける解釈可能性の再考

Rethinking Interpretability in the Era of Large Language Models ( http://arxiv.org/abs/2402.01761v1 )

ライセンス: Link先を確認
Chandan Singh, Jeevana Priya Inala, Michel Galley, Rich Caruana, Jianfeng Gao(参考訳) 解釈可能な機械学習は過去10年間、大きなデータセットとディープニューラルネットワークの増加によって、関心領域として爆発的に増加した。 同時に、大きな言語モデル(LLM)は、幅広いタスクにわたって顕著な能力を示し、解釈可能な機械学習の機会を再考する機会を提供している。 特に、自然言語で説明できる能力により、llmは人間に与えることができるパターンのスケールと複雑さを拡大することができる。 しかし、これらの新しい機能は幻覚的な説明や膨大な計算コストといった新しい課題を引き起こす。 本稿では,LLM解釈の新たな分野(LLMの解釈とLLMの解釈の両方)を評価するために,既存の手法の見直しから始める。 これらの制限にもかかわらず、LLM自体の監査を含む多くのアプリケーションにおいて、より野心的なスコープで解釈可能性を再定義する機会がある、と我々は主張する。 LLMの解釈には,新たなデータセットを直接解析し,インタラクティブな説明を生成するという,新たな2つの研究優先事項が注目されている。

Interpretable machine learning has exploded as an area of interest over the last decade, sparked by the rise of increasingly large datasets and deep neural networks. Simultaneously, large language models (LLMs) have demonstrated remarkable capabilities across a wide array of tasks, offering a chance to rethink opportunities in interpretable machine learning. Notably, the capability to explain in natural language allows LLMs to expand the scale and complexity of patterns that can be given to a human. However, these new capabilities raise new challenges, such as hallucinated explanations and immense computational costs. In this position paper, we start by reviewing existing methods to evaluate the emerging field of LLM interpretation (both interpreting LLMs and using LLMs for explanation). We contend that, despite their limitations, LLMs hold the opportunity to redefine interpretability with a more ambitious scope across many applications, including in auditing LLMs themselves. We highlight two emerging research priorities for LLM interpretation: using LLMs to directly analyze new datasets and to generate interactive explanations.
翻訳日:2024-02-11 15:50:07 公開日:2024-01-30
# マルチモーダルで説明可能なAI駆動型チャットボット学習システムにおける信頼と倫理的考察:ルービックキューブを協調的に解く場合

Trust and ethical considerations in a multi-modal, explainable AI-driven chatbot tutoring system: The case of collaboratively solving Rubik's Cube ( http://arxiv.org/abs/2402.01760v1 )

ライセンス: Link先を確認
Kausik Lakkaraju, Vedant Khandelwal, Biplav Srivastava, Forest Agostinelli, Hengtao Tang, Prathamjeet Singh, Dezhi Wu, Matt Irvin, Ashish Kundu(参考訳) 人工知能(AI)は、学生の学習パターンに関する膨大なデータから洞察を明らかにする力で、教育を変革する可能性がある。 しかし、AIに対する倫理的で信頼できる懸念は提起されているが、未解決である。 高校のAI教育における著名な倫理問題は、データのプライバシー、情報漏洩、虐待的言語、公平性である。 本稿では、高校生がAIと協力してルービックキューブを解くための多目的協調プラットフォーム(ALLUREチャットボット)において、倫理的かつ信頼性の高い懸念に対処するために構築された技術コンポーネントについて述べる。 データプライバシでは、子どもや親、教師のインフォームドコンセントが、管理されるデータの中心にあることを確実にしたいと思っています。 子どもは関与しているため、テキスト、音声、視覚といった言語はユーザーとaiの両方から受け入れられ、システムは危険な状況から対話を制御できる。 また、情報管理においては、時間とともに改善を学習しながら、あるグループから別のグループにユーザーに関する情報を漏らさないよう保証したい。

Artificial intelligence (AI) has the potential to transform education with its power of uncovering insights from massive data about student learning patterns. However, ethical and trustworthy concerns of AI have been raised but are unsolved. Prominent ethical issues in high school AI education include data privacy, information leakage, abusive language, and fairness. This paper describes technological components that were built to address ethical and trustworthy concerns in a multi-modal collaborative platform (called ALLURE chatbot) for high school students to collaborate with AI to solve the Rubik's cube. In data privacy, we want to ensure that the informed consent of children, parents, and teachers, is at the center of any data that is managed. Since children are involved, language, whether textual, audio, or visual, is acceptable both from users and AI and the system can steer interaction away from dangerous situations. In information management, we also want to ensure that the system, while learning to improve over time, does not leak information about users from one group to another.
翻訳日:2024-02-11 15:49:35 公開日:2024-01-30
# nanoner: 専門家の知識と遠隔監視によるナノバイオロジーのための名前付きエンティティ認識

NanoNER: Named Entity Recognition for nanobiology using experts' knowledge and distant supervision ( http://arxiv.org/abs/2402.03362v1 )

ライセンス: Link先を確認
Martin Lentschat (SIGMA, GETALP), Cyril Labb\'e (LIG, SIGMA), Ran Cheng (LIG, SIGMA)(参考訳) 本稿では,ナノバイオロジーのための名前付きエンティティ認識(NER)モデルであるNanoNERのトレーニングと評価について述べる。 NERは、構造化されていないテキストの範囲内で特定のエンティティを識別し、自然言語処理(NLP)や情報抽出において主要なタスクであることが多い。 本モデルの目的は,これまでドメインの専門家が認識していたエンティティを,ドメインの本質的な知識を構成するものとして認識することである。 ドメインの語彙と分類を提供するオントロジーに基づいて、専門家が目前にあるドメインに関連するエンティティを決定するための反復的なプロセスを実行しました。 次に,nerにおける遠隔監督学習の可能性について検討し,この手法が最小限のマンパワーでアノテートデータの量を増やす方法をサポートする。 120k以上の物質を含む728個の全文ナノバイオロジー論文のフルコーパスにおいて,NanoNERは既知物質の認識に関するF1スコア0.98を得た。 また,本モデルでは,0.77から0.81までの精度で,テキスト中の新しい実体を発見する能力を示した。 アブレーション実験はさらにこれを確認し,外部資源へのアプローチの依存度を評価することができた。 リソースへのアプローチの依存性を強調しながら、アブレーションされた用語の最大30%を再発見する能力も確認した。 本稿では,NERの専門領域における今後の研究に有用な知見と方向性を提供するとともに,その方法論,実験設計,重要な知見を詳述する。 さらに,本手法は最小限のマンパワーを必要とするため,他の専門分野に一般化できると考えている。

Here we present the training and evaluation of NanoNER, a Named Entity Recognition (NER) model for Nanobiology. NER consists in the identification of specific entities in spans of unstructured texts and is often a primary task in Natural Language Processing (NLP) and Information Extraction. The aim of our model is to recognise entities previously identified by domain experts as constituting the essential knowledge of the domain. Relying on ontologies, which provide us with a domain vocabulary and taxonomy, we implemented an iterative process enabling experts to determine the entities relevant to the domain at hand. We then delve into the potential of distant supervision learning in NER, supporting how this method can increase the quantity of annotated data with minimal additional manpower. On our full corpus of 728 full-text nanobiology articles, containing more than 120k entity occurrences, NanoNER obtained a F1-score of 0.98 on the recognition of previously known entities. Our model also demonstrated its ability to discover new entities in the text, with precision scores ranging from 0.77 to 0.81. Ablation experiments further confirmed this and allowed us to assess the dependency of our approach on the external resources. It highlighted the dependency of the approach to the resource, while also confirming its ability to rediscover up to 30% of the ablated terms. This paper details the methodology employed, experimental design, and key findings, providing valuable insights and directions for future related researches on NER in specialized domain. Furthermore, since our approach require minimal manpower , we believe that it can be generalized to other specialized fields.
翻訳日:2024-02-11 15:25:49 公開日:2024-01-30
# プロパゲータのFeynman-Dyson図形摂動膨張の非収束性

Nonconvergence of the Feynman-Dyson diagrammatic perturbation expansion of propagators ( http://arxiv.org/abs/2312.03157v7 )

ライセンス: Link先を確認
So Hirata, Ireneusz Grabowski, J. V. Ortiz, Rodney J. Bartlett(参考訳) 分子の高次多体グリーン関数法を用いて、一粒子多体グリーン関数のファインマン・ダイソン図形摂動膨張のいくつかの病理学的挙動を数値的に説明する。 (i)周波数依存性の自己エネルギーの摂動膨張は多くの周波数領域において正確な自己エネルギーに収束しない。 二) 奇摂次自己エネルギーは定性的に間違った形状であり、その結果、対応するダイソン方程式の多くの根は、極が複雑であるか、残基が一元を超えたり、負になったりする、非物理的である。 3) 等階自己エネルギーを持つダイソン方程式は、電子相関効果を考慮に入れないゼロ階平均場理論の軌道エネルギー差にエネルギーが近づいた根を持つ。 (4)頂点あるいは辺再正規化による図形の無限部分和はこれらの問題を悪化させる。 これらの非コンバージェンスにより、多くの低次イオン化や高次電子結合根では役に立たない高次ファインマン・ダイソン図式摂動理論が実現されるだけでなく、全ての極と残基の知識を必要とする ans\"{a}tze と組み合わせた使用の妥当性も疑問視される。 このような ans\"{a}tze には、ガリツキー・ミグダル恒等式、自己整合グリーン関数法、代数図形構成のモデルなどがある。

Using a general-order ab initio many-body Green's-function method for molecules, we numerically illustrate several pathological behaviors of the Feynman-Dyson diagrammatic perturbation expansion of one-particle many-body Green's functions as electron Feynman propagators. (i) The perturbation expansion of the frequency-dependent self-energy is not convergent at the exact self-energy in many frequency domains. (ii) An odd-perturbation-order self-energy has a qualitatively wrong shape and, as a result, many roots of the corresponding Dyson equation are nonphysical in that the poles may be complex or the residues can exceed unity or be negative. (iii) The Dyson equation with an even-order self-energy has roots whose energies approach sheer orbital energy differences of the zeroth-order mean-field theory with little to no electron-correlation effects taken into account. (iv) Infinite partial summation of diagrams by vertex or edge renormalization can exacerbate these problems. Not only do these nonconvergences render higher-order Feynman-Dyson diagrammatic perturbation theory useless for many lower-lying ionization or higher-lying electron-attachment roots, but they also call into question the validity of its combined use with the ans\"{a}tze requiring the knowledge of all poles and residues. Such ans\"{a}tze include the Galitskii-Migdal identity, the self-consistent Green's-function methods, and some models of the algebraic diagrammatic construction.
翻訳日:2024-02-02 18:52:41 公開日:2024-01-30
# gpt4battery: 生liイオン電池の適応状態推定のためのllm駆動フレームワーク

GPT4Battery: An LLM-driven Framework for Adaptive State of Health Estimation of Raw Li-ion Batteries ( http://arxiv.org/abs/2402.00068v1 )

ライセンス: Link先を確認
Yuyuan Feng, Guosheng Hu, Zhihong Zhang(参考訳) 健康状態 (SOH) は、直接測定できないが推定を必要とする電池の劣化レベルを評価するための重要な指標である。 正確なSOH推定はLiイオン電池の検出、制御、フィードバックを促進し、安全かつ効率的なエネルギー管理と次世代電池の開発を導く。 データ駆動型SOH推定の大幅な進歩にもかかわらず、生涯のトレーニングデータを生成するための時間とリソースの削減実験は、多種多様なLiイオン電池(例えば、クロスケミカル、クロスマニュファクチャラー、クロスキャパシティ)を扱うことのできる1つの大きなモデルを確立する上で、課題となる。 そこで本稿では,大規模言語モデル(LLM)の強力な一般化機能を活用し,多種多様な電池間でのSOH推定に適応する新しいフレームワークを提案する。 本手法は, 電池寿命の終了時においても, 推定精度を確保するために, 試験時間トレーニング手法により, ラベル付きデータが順次, 分散シフトに適合する実シナリオを修正した。 その結果,62個のバッテリから収集した4つの広く認識されているデータセットに対して,最先端の精度が得られた。 さらに,クロスバタリー推定の理論的課題を分析し,提案手法の有効性を定量的に説明する。

State of health (SOH) is a crucial indicator for assessing the degradation level of batteries that cannot be measured directly but requires estimation. Accurate SOH estimation enhances detection, control, and feedback for Li-ion batteries, allowing for safe and efficient energy management and guiding the development of new-generation batteries. Despite the significant progress in data-driven SOH estimation, the time and resource-consuming degradation experiments for generating lifelong training data pose a challenge in establishing one large model capable of handling diverse types of Li-ion batteries, e.g., cross-chemistry, cross-manufacturer, and cross-capacity. Hence, this paper utilizes the strong generalization capability of large language model (LLM) to proposes a novel framework for adaptable SOH estimation across diverse batteries. To match the real scenario where unlabeled data sequentially arrives in use with distribution shifts, the proposed model is modified by a test-time training technique to ensure estimation accuracy even at the battery's end of life. The validation results demonstrate that the proposed framework achieves state-of-the-art accuracy on four widely recognized datasets collected from 62 batteries. Furthermore, we analyze the theoretical challenges of cross-battery estimation and provide a quantitative explanation of the effectiveness of our method.
翻訳日:2024-02-02 18:17:39 公開日:2024-01-30
# 条件付きマルコフ連鎖探索における活用戦略--3-index割り当て問題に関する事例研究

Exploitation Strategies in Conditional Markov Chain Search: A case study on the three-index assignment problem ( http://arxiv.org/abs/2402.00076v1 )

ライセンス: Link先を確認
Sahil Patel and Daniel Karapetyan(参考訳) Conditional Markov Chain Search (CMCS) は、離散組合せ最適化問題に対するメタヒューリスティックの自動設計のためのフレームワークである。 ヒルクライマーやミュータントなどのアルゴリズム的なコンポーネントが与えられると、cmcはどのコンポーネントを適用するかを決定する。 決定は、オフラインで学習できるcmc設定によって決定される。 CMCSは受け入れ基準を持っておらず、いかなる動きもフレームワークによって受け入れられる。 その結果、特に探検には適しているが、搾取には適していない。 本研究では,フレームワークの活用能力を向上させるための拡張について検討する。 計算研究を行うため,我々はこの枠組みを3インデックス割当問題に適用した。 実験の結果,2段CMCSは1段CMCSよりも優れていることがわかった。

The Conditional Markov Chain Search (CMCS) is a framework for automated design of metaheuristics for discrete combinatorial optimisation problems. Given a set of algorithmic components such as hill climbers and mutations, CMCS decides in which order to apply those components. The decisions are dictated by the CMCS configuration that can be learnt offline. CMCS does not have an acceptance criterion; any moves are accepted by the framework. As a result, it is particularly good in exploration but is not as good at exploitation. In this study, we explore several extensions of the framework to improve its exploitation abilities. To perform a computational study, we applied the framework to the three-index assignment problem. The results of our experiments showed that a two-stage CMCS is indeed superior to a single-stage CMCS.
翻訳日:2024-02-02 18:03:58 公開日:2024-01-30
# D-Nikud:LSTMと事前訓練モデルによるヘブライ語発音の強化

D-Nikud: Enhancing Hebrew Diacritization with LSTM and Pretrained Models ( http://arxiv.org/abs/2402.00075v1 )

ライセンス: Link先を確認
Adi Rosenthal and Nadav Shaked(参考訳) D-Nikudは、LSTMネットワークとBERTベースの(トランスフォーマー)事前学習モデルの強みを統合するヘブライ語のダイアクリプティゼーションの新しいアプローチである。 Nakdimonの手法にインスパイアされ、TavBERT事前学習モデルと統合され、高度なアーキテクチャ選択と多様なトレーニングデータが組み込まれています。 実験では,いくつかのベンチマークデータセットにおいて,現代テキストに特に重点を置いて,ジェンダーのようなより特定されたダイアリタイズを行い,最先端の結果を示す。

D-Nikud, a novel approach to Hebrew diacritization that integrates the strengths of LSTM networks and BERT-based (transformer) pre-trained model. Inspired by the methodologies employed in Nakdimon, we integrate it with the TavBERT pre-trained model, our system incorporates advanced architectural choices and diverse training data. Our experiments showcase state-of-the-art results on several benchmark datasets, with a particular emphasis on modern texts and more specified diacritization like gender.
翻訳日:2024-02-02 18:03:48 公開日:2024-01-30
# 生存分析のための説明可能なAI:中央値SHAPアプローチ

Explainable AI for survival analysis: a median-SHAP approach ( http://arxiv.org/abs/2402.00072v1 )

ライセンス: Link先を確認
Lucile Ter-Minassian, Sahra Ghalebikesabi, Karla Diaz-Ordaz and Chris Holmes(参考訳) 日常的な臨床実践に機械学習が採用されると、医学的応用に合わせた説明可能なaiメソッドが必要になる。 シェープ価値は、局所的なモデルの説明に広く関心を呼んだ。 ここでは、それらの解釈は、要約統計量とそれに対する推定量の両方に強く依存しており、その結果、我々が'アンカーポイント'と認識するものを定義する。 平均アンカーポイントの使用規約は,生存時間を予測するブラックボックスモデルを記述する手法である中央値SHAPを導入し,生存分析の誤解を招く可能性があることを示す。

With the adoption of machine learning into routine clinical practice comes the need for Explainable AI methods tailored to medical applications. Shapley values have sparked wide interest for locally explaining models. Here, we demonstrate their interpretation strongly depends on both the summary statistic and the estimator for it, which in turn define what we identify as an 'anchor point'. We show that the convention of using a mean anchor point may generate misleading interpretations for survival analysis and introduce median-SHAP, a method for explaining black-box models predicting individual survival times.
翻訳日:2024-02-02 18:03:37 公開日:2024-01-30
# 自律走査型プローブ顕微鏡における初期選択と初期介入が学習ダイナミクスに及ぼす影響について

Unraveling the Impact of Initial Choices and In-Loop Interventions on Learning Dynamics in Autonomous Scanning Probe Microscopy ( http://arxiv.org/abs/2402.00071v1 )

ライセンス: Link先を確認
Boris N. Slautin, Yongtao Liu, Hiroshi Funakubo, Sergei V. Kalinin(参考訳) 自律実験(AE)の現在の焦点は、AEを効果的に実行する堅牢なワークフローの開発にある。 これには、ハイパーパラメータチューニングの戦略やワークフローループ内の高レベルな人間の介入など、AEプロセスをガイドするための明確に定義されたアプローチの必要性が伴います。 本稿では、走査型プローブ顕微鏡におけるAE領域におけるDeep Kernel Learning(DKL)の学習ダイナミクスに対する初期実験条件とループ内介入の影響を包括的に分析する。 本研究では,最初の実験装置がその後の学習軌跡に大きな影響を与える「シードエフェクト」の概念を探求する。 さらに,AEにおけるシードポイント介入のアプローチを導入し,オペレーターが探索プロセスに影響を及ぼすようにした。 PbTiO3薄膜上のPiezoresponse Force Microscopy (PFM) のデータセットを用いて、DKLの材料特性予測における「シード効果」と「インループシード介入」の影響について述べる。 本研究は、学習率の最適化と自動材料キャラクタリゼーションの効率向上における初期選択と適応的介入の重要性を強調する。 この研究は、様々なキャラクタリゼーション技術にまたがる潜在的な応用と顕微鏡によるより堅牢で効果的なaeワークフローを設計するための貴重な洞察を提供する。 資金をサポートする分析コードは、https://github.com/slautin/2024_seed_effect_dkl_boで公開されている。

The current focus in Autonomous Experimentation (AE) is on developing robust workflows to conduct the AE effectively. This entails the need for well-defined approaches to guide the AE process, including strategies for hyperparameter tuning and high-level human interventions within the workflow loop. This paper presents a comprehensive analysis of the influence of initial experimental conditions and in-loop interventions on the learning dynamics of Deep Kernel Learning (DKL) within the realm of AE in Scanning Probe Microscopy. We explore the concept of 'seed effect', where the initial experiment setup has a substantial impact on the subsequent learning trajectory. Additionally, we introduce an approach of the seed point interventions in AE allowing the operator to influence the exploration process. Using a dataset from Piezoresponse Force Microscopy (PFM) on PbTiO3 thin films, we illustrate the impact of the 'seed effect' and in-loop seed interventions on the effectiveness of DKL in predicting material properties. The study highlights the importance of initial choices and adaptive interventions in optimizing learning rates and enhancing the efficiency of automated material characterization. This work offers valuable insights into designing more robust and effective AE workflows in microscopy with potential applications across various characterization techniques. The analysis code that supports the funding is publicly available at https://github.com/Slautin/2024_Seed_effect_DKL_BO.
翻訳日:2024-02-02 18:03:27 公開日:2024-01-30
# EvoMerge: 大規模言語モデルのための神経進化

EvoMerge: Neuroevolution for Large Language Models ( http://arxiv.org/abs/2402.00070v1 )

ライセンス: Link先を確認
Yushu Jiang(参考訳) 大規模言語モデルの大規模な微調整は、必ずしもより良い結果をもたらすとは限らない。 多くの場合、モデルは推論能力を得ることなく、ある形式のデータを模倣するのが良くなり、最終的には知性を失う。 ここでは,大規模言語モデルのトレーニングとマージのための体系的アプローチであるevomergeを紹介する。 EvoMergeは、ウェイトクロスオーバーと微調整のモデルマージを活用し、従来の微調整の限界を超えてモデルを推し進めることを目的とした進化過程を確立した。

Extensive fine-tuning on Large Language Models does not always yield better results. Oftentimes, models tend to get better at imitating one form of data without gaining greater reasoning ability and may even end up losing some intelligence. Here I introduce EvoMerge, a systematic approach to large language model training and merging. Leveraging model merging for weight crossover and fine-tuning for weight mutation, EvoMerge establishes an evolutionary process aimed at pushing models beyond the limits of conventional fine-tuning.
翻訳日:2024-02-02 18:03:01 公開日:2024-01-30
# 抽象コンピュータアーキテクチャ記述言語を用いたAIハードウェアアクセラレータのモデル化

Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators ( http://arxiv.org/abs/2402.00069v1 )

ライセンス: Link先を確認
Mika Markus M\"uller, Alexander Richard Manfred Borst, Konstantin L\"ubeck, Alexander Louis-Ferdinand Jung, Oliver Bringmann(参考訳) 人工知能(AI)は特にディープニューラルネットワーク(Deep Neural Networks, DNN)の普及を通じて、顕著な成長を遂げている。 これらの強力なモデルは、様々な領域にわたる技術進歩を促進する。 しかし、現実のアプリケーションでその可能性を活用するためには、特別なハードウェアアクセラレータが不可欠である。 この需要は、さまざまなベンダーが提供するパラメータ可能なaiハードウェアアクセラレーターの市場を生んだ。 AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。 この決定は、適切なハードウェアを選択し、適切なパラメータセットを設定することである。 しかし、異なるアクセラレーターデザインの代替品を比較することは複雑な作業である。 多くの場合、エンジニアはデータシート、スプレッドシート計算、または遅いブラックボックスシミュレータに依存しており、パフォーマンス特性の粗い理解しか提供しない。 抽象コンピュータアーキテクチャ記述言語(英: Abstract Computer Architecture Description Language、ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化であり、異なる抽象レベルでコンピュータアーキテクチャを伝達し、性能特性の推測を可能にする。 本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。

Artificial Intelligence (AI) has witnessed remarkable growth, particularly through the proliferation of Deep Neural Networks (DNNs). These powerful models drive technological advancements across various domains. However, to harness their potential in real-world applications, specialized hardware accelerators are essential. This demand has sparked a market for parameterizable AI hardware accelerators offered by different vendors. Manufacturers of AI-integrated products face a critical challenge: selecting an accelerator that aligns with their product's performance requirements. The decision involves choosing the right hardware and configuring a suitable set of parameters. However, comparing different accelerator design alternatives remains a complex task. Often, engineers rely on data sheets, spreadsheet calculations, or slow black-box simulators, which only offer a coarse understanding of the performance characteristics. The Abstract Computer Architecture Description Language (ACADL) is a concise formalization of computer architecture block diagrams, which helps to communicate computer architecture on different abstraction levels and allows for inferring performance characteristics. In this paper, we demonstrate how to use the ACADL to model AI hardware accelerators, use their ACADL description to map DNNs onto them, and explain the timing simulation semantics to gather performance results.
翻訳日:2024-02-02 18:02:52 公開日:2024-01-30
# 音声分離による会議のオンライン話者ダイアリゼーション

Online speaker diarization of meetings guided by speech separation ( http://arxiv.org/abs/2402.00067v1 )

ライセンス: Link先を確認
Elio Gruttadauria (IP Paris, LTCI, IDS, S2A), Mathieu Fontaine (LTCI, IP Paris), Slim Essid (IDS, S2A, LTCI)(参考訳) 重複音声は話者ダイアリゼーションシステムにおいて問題視されている。 その結果,近年,音声分離による性能向上が提案されている。 有望ではあるが、音声分離モデルは、一定数の話者との模擬混合で訓練されるため、現実的なデータに苦しむ。 そこで本研究では, amiコーパスにおいて, 複数話者による長時間会議記録のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。 分離ネットワークの代替としてConvTasNetとDPRNNを2つか3つの出力源で検討する。 話者ダイアリゼーション結果を得るには、推定ソース毎に音声活動検出を行う。 最後のモデルは、AMIを使用して分離を実際のデータに適用した後、エンドツーエンドで微調整される。 このシステムは短いセグメントで動作し、話者埋め込みとインクリメンタルクラスタリングを用いて局所予測を縫い合わせることで推論を行う。 以上の結果から,本システムでは,眼窩情報を使用しない,首輪のない,重複した音声を含む)完全評価を行うことで,AMIヘッドセットの最先端性の向上が図られた。 最後に, 重ね合わせ音声区間において, システムの強みを示す。

Overlapped speech is notoriously problematic for speaker diarization systems. Consequently, the use of speech separation has recently been proposed to improve their performance. Although promising, speech separation models struggle with realistic data because they are trained on simulated mixtures with a fixed number of speakers. In this work, we introduce a new speech separation-guided diarization scheme suitable for the online speaker diarization of long meeting recordings with a variable number of speakers, as present in the AMI corpus. We envisage ConvTasNet and DPRNN as alternatives for the separation networks, with two or three output sources. To obtain the speaker diarization result, voice activity detection is applied on each estimated source. The final model is fine-tuned end-to-end, after first adapting the separation to real data using AMI. The system operates on short segments, and inference is performed by stitching the local predictions using speaker embeddings and incremental clustering. The results show that our system improves the state-of-the-art on the AMI headset mix, using no oracle information and under full evaluation (no collar and including overlapped speech). Finally, we show the strength of our system particularly on overlapped speech sections.
翻訳日:2024-02-02 18:02:31 公開日:2024-01-30
# 多施設データの力を解き放つ : 施設間におけるゲノムデータの統合と調和

Unlocking the Power of Multi-institutional Data: Integrating and Harmonizing Genomic Data Across Institutions ( http://arxiv.org/abs/2402.00077v1 )

ライセンス: Link先を確認
Yuan Chen, Ronglai Shen, Xiwen Feng, Katherine Panageas(参考訳) 癌はゲノム変異によって引き起こされる複雑な疾患であり、腫瘍シークエンシングはがん患者の臨床治療のメインステイとなっている。 多施設シークエンシングデータの出現は、実世界の証拠を学習し、精度のオンコロジーを高めるための強力な資源となる。 アメリカがん研究協会(American Association for Cancer Research)が率いるGENIE BPCは、複数のがんセンターで治療された患者の臨床情報とゲノムデータをリンクするユニークなデータベースを構築している。 しかし、このような多施設のシーケンシングデータを活用することは大きな課題である。 遺伝子パネルの変異は、共通の遺伝子セットで解析を行うと情報を失う。 さらに、シークエンシング技術の違いと患者間の異質性が複雑化する。 高データ次元、スパース遺伝子変異パターン、および個々の遺伝子レベルでの弱い信号は、さらに問題を複雑にする。 これらの現実的な課題に感銘を受け、ブリッジモデルを紹介します。 質的一致の潜在変数アプローチを使用して、共通の遺伝子を超えた情報を保存し、利用可能なすべてのデータの利用を最大化するために統合機能を導出し、情報共有を利用して学習効率とモデルの一般化能力の両方を高める。 調和化およびノイズ低減化された低次元潜伏変数を抽出することにより、各個体固有の真の突然変異パターンを捕捉する。 モデルの性能とパラメータ推定を広範囲なシミュレーション研究により評価する。 ブリッジモデルから抽出した潜伏性特徴は,genIE BPCデータ中の6種類のがんの生存率の予測に一貫して優れている。

Cancer is a complex disease driven by genomic alterations, and tumor sequencing is becoming a mainstay of clinical care for cancer patients. The emergence of multi-institution sequencing data presents a powerful resource for learning real-world evidence to enhance precision oncology. GENIE BPC, led by the American Association for Cancer Research, establishes a unique database linking genomic data with clinical information for patients treated at multiple cancer centers. However, leveraging such multi-institutional sequencing data presents significant challenges. Variations in gene panels result in loss of information when the analysis is conducted on common gene sets. Additionally, differences in sequencing techniques and patient heterogeneity across institutions add complexity. High data dimensionality, sparse gene mutation patterns, and weak signals at the individual gene level further complicate matters. Motivated by these real-world challenges, we introduce the Bridge model. It uses a quantile-matched latent variable approach to derive integrated features to preserve information beyond common genes and maximize the utilization of all available data while leveraging information sharing to enhance both learning efficiency and the model's capacity to generalize. By extracting harmonized and noise-reduced lower-dimensional latent variables, the true mutation pattern unique to each individual is captured. We assess the model's performance and parameter estimation through extensive simulation studies. The extracted latent features from the Bridge model consistently excel in predicting patient survival across six cancer types in GENIE BPC data.
翻訳日:2024-02-02 17:48:20 公開日:2024-01-30
# de novo薬物設計における強化学習の活用

Utilizing Reinforcement Learning for de novo Drug Design ( http://arxiv.org/abs/2303.17615v2 )

ライセンス: Link先を確認
Hampus Gummesson Svensson, Christian Tyrchan, Ola Engkvist, Morteza Haghir Chehreghani(参考訳) 特定の性質を持つ新規な薬物分子を生成するためのディープラーニングベースのアプローチは、ここ数年で大きな関心を集めている。 近年の研究では、強化学習を利用した新規分子の文字列ベース生成に有望な性能を示した。 本稿では,ドパミン受容体RDD2に対して活性を示すと予測される新規分子を生成するためのRNNベースのポリシーを学習するために,ドノボ薬物設計のための強化学習を用いた統一的な枠組みを開発し,様々なオン・オフ・ポリティクス強化学習アルゴリズムとバッファーを体系的に研究する。 以上の結果から,少なくともトップスコーリング分子とロースコーリング分子の両方を,構造多様性が不可欠である場合の方針更新に利用する方が有利であることが示唆された。 すべての生成分子を反復で使用すると、オンポジーアルゴリズムのパフォーマンス安定性が向上するようである。 さらに、高分子、中間分子、低分子を再生する場合、オフポリシーアルゴリズムは、生成する活性分子の構造的多様性と数を改善する可能性を示すが、より長い探索フェーズのコストがかかる可能性がある。 本研究は,ド・ノボ薬物設計のための様々な強化学習手法を研究者が研究できるオープンソースフレームワークを提供する。

Deep learning-based approaches for generating novel drug molecules with specific properties have gained a lot of interest in the last few years. Recent studies have demonstrated promising performance for string-based generation of novel molecules utilizing reinforcement learning. In this paper, we develop a unified framework for using reinforcement learning for de novo drug design, wherein we systematically study various on- and off-policy reinforcement learning algorithms and replay buffers to learn an RNN-based policy to generate novel molecules predicted to be active against the dopamine receptor DRD2. Our findings suggest that it is advantageous to use at least both top-scoring and low-scoring molecules for updating the policy when structural diversity is essential. Using all generated molecules at an iteration seems to enhance performance stability for on-policy algorithms. In addition, when replaying high, intermediate, and low-scoring molecules, off-policy algorithms display the potential of improving the structural diversity and number of active molecules generated, but possibly at the cost of a longer exploration phase. Our work provides an open-source framework enabling researchers to investigate various reinforcement learning methods for de novo drug design.
翻訳日:2024-02-01 20:26:00 公開日:2024-01-30
# 超選択規則の存在下でのフェルミオンモード絡みの操作

Manipulating fermionic mode entanglement in the presence of superselection rules ( http://arxiv.org/abs/2303.04559v2 )

ライセンス: Link先を確認
\"Omer T{\i}r{\i}nk, G\"okhan Torun, Onur Pusuluk(参考訳) 超選択規則(superselection rules, ssr)は、パリティや粒子数などの物理量の保存につながり、フェルミオン系における許容可能な物理操作に制約を課している。 これは、与えられた状態にある抽出可能なモードの絡み合いの量と、いわゆる絡み合いのない操作による操作に影響する。 本稿では,二成分モード絡み合いの混合状態変換のための主化に基づくアルゴリズムを提案する。そこでは,許容される演算(すなわち,資源非生成演算),すなわち局所演算と古典通信は局所ssrによって制限される。 次に,局所パリティSSRに着目し,触媒によって課される制約を緩和する可能性を検討する。 特に,アシラリーモードが局所パリティの変化を触媒することを示す。 最後に,様々な分野の様々な問題に対する方法論の適用について論じる。 したがって、化学分子における軌道絡み合いの活性化と、識別可能な量子系における多成分絡み合いや量子不一致の操作に新たな光をあてる可能性がある。

Superselection rules (SSRs), linked to the conservation of physical quantities such as parity or particle number, impose constraints on allowable physical operations in fermionic systems. This affects the amount of extractable mode entanglement possessed in a given state and its manipulation by the so-called entanglement-free operations. Here, we present a majorization-based algorithm for the mixed state transformations of bipartite mode entanglement, where the allowed operations (i.e., resource non-generating operations), that is, local operations and classical communication, are restricted by local SSRs. We then focus on the local parity SSR and investigate the possibility to relax the constraints imposed by it through a catalyst. In particular, we show that an ancillary mode system can catalyze the change in local parity. Finally, we discuss the application of our methodology to various problems in different fields. Accordingly, we propose that it may shed new light on the activation of orbital entanglement in chemical molecules and the manipulation of multipartite entanglement or quantum discord in distinguishable quantum systems.
翻訳日:2024-02-01 20:25:39 公開日:2024-01-30
# 吸収スケールグラフを用いた無作為歩行へのインフォマップの適応

An adaptation of InfoMap to absorbing random walks using absorption-scaled graphs ( http://arxiv.org/abs/2112.10953v3 )

ライセンス: Link先を確認
Esteban Vargas Bernal, Mason A. Porter, Joseph H. Tien(参考訳) infomapはネットワーク内のノードの密結合された"コミュニティ"を検出する一般的なアプローチである。 このようなコミュニティを検出するために、infomapは情報理論からランダムウォークとアイデアを使用する。 ノードが異種疾患除去率を持つネットワーク上に広がる病気のダイナミクスに動機づけられ、infomapをランダムウォークの吸収に適応させる。 これを実現するために、吸収スケールグラフ(吸収率に応じてエッジウェイトをスケールするグラフ)とマルコフ時間消去を用いる。 InfoMapの適応の1つは、ノード吸収率が0ドルに近づく制限の中でInfoMapの標準バージョンに収束する。 本研究では,InfoMapの適応を用いて得られるコミュニティ構造が,ノード吸収率を考慮しない手法を用いて検出するコミュニティ構造とは大きく異なることを示す。 また,不均質な吸収率によって誘導される群落構造は,リング格子網の感受性回復(sir)ダイナミクスにとって重要な意味を持つことを示した。 例えば、いくつかの状況では、適度なノード数がノード吸収率が大きい場合に発生期間を最大化する。

InfoMap is a popular approach to detect densely connected "communities" of nodes in networks. To detect such communities, InfoMap uses random walks and ideas from information theory. Motivated by the dynamics of disease spread on networks, whose nodes can have heterogeneous disease-removal rates, we adapt InfoMap to absorbing random walks. To do this, we use absorption-scaled graphs (in which edge weights are scaled according to absorption rates) and Markov time sweeping. One of our adaptations of InfoMap converges to the standard version of InfoMap in the limit in which the node-absorption rates approach $0$. We demonstrate that the community structure that one obtains using our adaptations of InfoMap can differ markedly from the community structure that one detects using methods that do not account for node-absorption rates. We also illustrate that the community structure that is induced by heterogeneous absorption rates can have important implications for susceptible-infected-recovered (SIR) dynamics on ring-lattice networks. For example, in some situations, the outbreak duration is maximized when a moderate number of nodes have large node-absorption rates.
翻訳日:2024-02-01 20:24:56 公開日:2024-01-30
# ReLUネットワークにおける最適化に基づく境界強調の計算トレードオフ

Computational Tradeoffs of Optimization-Based Bound Tightening in ReLU Networks ( http://arxiv.org/abs/2312.16699v2 )

ライセンス: Link先を確認
Fabian Badilla, Marcos Goycoolea, Gonzalo Mu\~noz, Thiago Serra(参考訳) relu(recurtified linear unit)アクティベーションを持つニューラルネットワークを表現するためのmilp(mixed-integer linear programming)モデルの利用は、この10年間でますます広まっている。 これにより、MILP技術を用いて、テストまたはストレス・サービヘイビアを行い、トレーニングを逆向きに改善し、予測能力を活用した最適化モデルに組み込むことができる。 これらのMILPモデルの多くはアクティベーション境界に依存している。 すなわち、各ニューロンの入力値に束縛される。 本研究では,これらの境界の厳密さと,その結果のMILPモデルの解法とのトレードオフについて検討する。 ネットワーク構造、正規化、ラウンドリングの影響に基づき、これらのモデルを実装するためのガイドラインを提供する。

The use of Mixed-Integer Linear Programming (MILP) models to represent neural networks with Rectified Linear Unit (ReLU) activations has become increasingly widespread in the last decade. This has enabled the use of MILP technology to test-or stress-their behavior, to adversarially improve their training, and to embed them in optimization models leveraging their predictive power. Many of these MILP models rely on activation bounds. That is, bounds on the input values of each neuron. In this work, we explore the tradeoff between the tightness of these bounds and the computational effort of solving the resulting MILP models. We provide guidelines for implementing these models based on the impact of network structure, regularization, and rounding.
翻訳日:2024-02-01 20:19:27 公開日:2024-01-30
# カーネルに基づく最適輸送のためのセミスムースニュートン法

A Specialized Semismooth Newton Method for Kernel-Based Optimal Transport ( http://arxiv.org/abs/2310.14087v2 )

ライセンス: Link先を確認
Tianyi Lin, Marco Cuturi and Michael I. Jordan(参考訳) カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。 近年の研究では、これらの推定器は高次元~\citep{Vacher-2021-Dimension}の確率測度を比較する際に、プラグイン(線形プログラミングに基づく)OT推定器よりも統計的に効率的であることが示唆されている。 残念なことに、この統計的な利点は非常に高い計算コストがかかる: 計算は短い段階のインテリアポイント法 (SSIPM) に依存しており、これは実際は大きな反復数を持つため、これらの推定器はすぐに難解なw.r.t.サンプルサイズ$n$になる。 これらの推定器をより大きな$n$にスケールするために、カーネルベースのot問題の非スムース不動点モデルを提案し、特殊なセミスムースニュートン(ssn)法によって効率的に解くことができることを示した。 我々はSSN法がO(1/\sqrt{k})$の大域収束率と標準正規性条件下での局所二次収束率を達成することを証明した。 合成データと実データの両方でSSIPMよりもかなり高速であることを示す。

Kernel-based optimal transport (OT) estimators offer an alternative, functional estimation procedure to address OT problems from samples. Recent works suggest that these estimators are more statistically efficient than plug-in (linear programming-based) OT estimators when comparing probability measures in high-dimensions~\citep{Vacher-2021-Dimension}. Unfortunately, that statistical benefit comes at a very steep computational price: because their computation relies on the short-step interior-point method (SSIPM), which comes with a large iteration count in practice, these estimators quickly become intractable w.r.t. sample size $n$. To scale these estimators to larger $n$, we propose a nonsmooth fixed-point model for the kernel-based OT problem, and show that it can be efficiently solved via a specialized semismooth Newton (SSN) method: We show, exploring the problem's structure, that the per-iteration cost of performing one SSN step can be significantly reduced in practice. We prove that our SSN method achieves a global convergence rate of $O(1/\sqrt{k})$, and a local quadratic convergence rate under standard regularity conditions. We show substantial speedups over SSIPM on both synthetic and real datasets.
翻訳日:2024-02-01 20:17:41 公開日:2024-01-30
# クエンチダイナミクスによるフロケ位相の特徴づけ:マルチサブシステムアプローチ

Characterizing Floquet topological phases by quench dynamics: A multiple-subsystem approach ( http://arxiv.org/abs/2310.08409v2 )

ライセンス: Link先を確認
Bei-Bei Wang, Long Zhang(参考訳) バンド反転曲面と呼ばれる運動量部分空間におけるクエンチダイナミクスの創発的トポロジ的パターンによってフロケ位相が完全に検出できる周期駆動系の力学特性理論について検討する。 我々は、最近の研究(Zhang et al., Phys. Lett. 125, 183001 (2020))の結果を改善し、任意のスピン偏極軸に沿ってクエンチを適用することで、$d$次元フロケ位相の一般的なクラスを$\mathbb{Z}$値不変量で分類するより柔軟なスキームを提案する。 我々の基本的な考え方は、フロケ系をクエージエネルギーにおいて周期的な複数の静的サブシステムに分解することで、フロケ位相の完全な特徴付けは、時間非依存のハミルトン多様体に対する一連のバルクトポロジ不変量を特定することで、測定の利便性と柔軟性を大幅に向上させる。 本研究では,2次元と3次元の実験的に実現可能なモデル2つを数値的に解析し,動的特徴量を調べるために2つの異なるが等価な視点を採用する。 最後に,実験の不完全性を考慮すると,本手法を初期状態が完全に分極しない一般的な状況にも適用できることを示す。 この研究は、超低温原子や他の量子シミュレータにおけるフロケ位相を動的に分類するための即時実装可能なアプローチを提供する。

We investigate the dynamical characterization theory for periodically driven systems in which Floquet topology can be fully detected by emergent topological patterns of quench dynamics in momentum subspaces called band-inversion surfaces. We improve the results of a recent work [Zhang et al., Phys. Rev. Lett. 125, 183001 (2020)] and propose a more flexible scheme to characterize a generic class of $d$-dimensional Floquet topological phases classified by $\mathbb{Z}$-valued invariants by applying a quench along an arbitrary spin-polarization axis. Our basic idea is that by disassembling the Floquet system into multiple static subsystems that are periodic in quasienergy, a full characterization of Floquet topological phases reduces to identifying a series of bulk topological invariants for time-independent Hamiltonians, which greatly enhances the convenience and flexibility of the measurement. We illustrate the scheme by numerically analyzing two experimentally realizable models in two and three dimensions, respectively, and adopting two different but equivalent viewpoints to examine the dynamical characterization. Finally, considering the imperfection of experiment, we demonstrate that the present scheme can also be applied to a general situation where the initial state is not completely polarized. This study provides an immediately implementable approach for dynamically classifying Floquet topological phases in ultracold atoms or other quantum simulators.
翻訳日:2024-02-01 20:16:54 公開日:2024-01-30
# Twitter上の低視聴率コンテンツのスーパースプレッダーの識別と特徴化

Identifying and characterizing superspreaders of low-credibility content on Twitter ( http://arxiv.org/abs/2207.09524v4 )

ライセンス: Link先を確認
Matthew R. DeVerna, Rachith Aiyappa, Diogo Pacheco, John Bryden, Filippo Menczer(参考訳) 世界のデジタル情報エコシステムは、偽情報の拡散に苦戦し続けている。 以前の研究は、不釣り合いな低信頼性コンテンツ(いわゆるスーパースプリーダー)を一貫して広めるユーザーがこの問題の中心にあることを示唆している。 我々は,この仮説を定量的に検証し,今後数ヶ月にわたって上位スーパースプレッダを予測するための単純な指標を導入する。 次に、最も多能なスーパースプレッダを特徴付ける定性的なレビューを行い、それらの共有行動を分析する。 superspreaderには、大きなフォロワーを持つパンディット、信頼性の低いメディアコンセント、これらのメディアコンセントに付随する個人アカウント、さまざまなインフルエンサーが含まれる。 それらは本質的に政治的であり、典型的なユーザ情報共有の誤報よりも有害な言語を使用する。 また、Twitterが著名なスーパースレッダーを見落としていることを示す証拠も見つかっている。 この研究が悪役を公衆に理解し、健全なデジタル談話に対する悪影響を緩和するためのステップを促進することを願っている。

The world's digital information ecosystem continues to struggle with the spread of misinformation. Prior work has suggested that users who consistently disseminate a disproportionate amount of low-credibility content -- so-called superspreaders -- are at the center of this problem. We quantitatively confirm this hypothesis and introduce simple metrics to predict the top superspreaders several months into the future. We then conduct a qualitative review to characterize the most prolific superspreaders and analyze their sharing behaviors. Superspreaders include pundits with large followings, low-credibility media outlets, personal accounts affiliated with those media outlets, and a range of influencers. They are primarily political in nature and use more toxic language than the typical user sharing misinformation. We also find concerning evidence that suggests Twitter may be overlooking prominent superspreaders. We hope this work will further public understanding of bad actors and promote steps to mitigate their negative impacts on healthy digital discourse.
翻訳日:2024-02-01 18:15:45 公開日:2024-01-30
# StructCoder:コード生成のための構造対応トランス

StructCoder: Structure-Aware Transformer for Code Generation ( http://arxiv.org/abs/2206.05239v3 )

ライセンス: Link先を確認
Sindhu Tipirneni, Ming Zhu, Chandan K. Reddy(参考訳) 近年,ディープラーニングによるソフトウェアエンジニアリングタスクの自動化に対する関心が高まっている。 本稿では,異なる言語や自然言語記述において,対象とするソースコードを生成することを目標とするコード生成の問題に対処する。 コード生成のための最先端のディープラーニングモデルは、主に自然言語用に設計されたトレーニング戦略を使用する。 しかし、コードの理解と生成には、コードの構文とセマンティクスをより厳密に理解する必要がある。 このモチベーションにより、エンコーダとデコーダの両方を明示的に訓練して、ソースおよびターゲットコード内の構文とデータフローを認識するエンコーダ・デコーダ変換モデルを開発する。 ソースコードの構文木とデータフローグラフを活用することでエンコーダ構造を意識するだけでなく,AST(Abstract Syntax Tree)パスの予測とデータフロー予測という2つの新しい補助タスクを導入することで,対象コードの構文とデータフローを保存するためのデコーダもサポートしています。 私たちの知る限りでは、構文とデータフローの両方をモデル化して生成されたコードの品質を向上させる構造対応トランスフォーマーデコーダを導入するのは、これが初めてです。 提案したStructCoderモデルは,CodeXGLUEベンチマークにおいて,コード翻訳およびテキスト・ツー・コード生成タスクの最先端性能を実現し,APPSコード生成ベンチマークで同様のサイズのベースラインを改善する。 私たちのコードはhttps://github.com/reddy-lab-code-research/StructCoder/で公開されています。

There has been a recent surge of interest in automating software engineering tasks using deep learning. This paper addresses the problem of code generation, where the goal is to generate target code given source code in a different language or a natural language description. Most state-of-the-art deep learning models for code generation use training strategies primarily designed for natural language. However, understanding and generating code requires a more rigorous comprehension of the code syntax and semantics. With this motivation, we develop an encoder-decoder Transformer model where both the encoder and decoder are explicitly trained to recognize the syntax and data flow in the source and target codes, respectively. We not only make the encoder structure-aware by leveraging the source code's syntax tree and data flow graph, but we also support the decoder in preserving the syntax and data flow of the target code by introducing two novel auxiliary tasks: AST (Abstract Syntax Tree) paths prediction and data flow prediction. To the best of our knowledge, this is the first work to introduce a structure-aware Transformer decoder that models both syntax and data flow to enhance the quality of generated code. The proposed StructCoder model achieves state-of-the-art performance on code translation and text-to-code generation tasks in the CodeXGLUE benchmark, and improves over baselines of similar size on the APPS code generation benchmark. Our code is publicly available at https://github.com/reddy-lab-code-research/StructCoder/.
翻訳日:2024-02-01 18:15:28 公開日:2024-01-30
# 超伝導体間の負の静水圧

Negative electrohydrostatic pressure between superconducting bodies ( http://arxiv.org/abs/2307.04903v2 )

ライセンス: Link先を確認
Thomas J. Maldonado, Dung N. Pham, Alessio Amaolo, Alejandro W. Rodriguez, Hakan E. T\"ureci(参考訳) 非相対論的スカラー電磁力学の流体力学的表現を超伝導秩序パラメータに適用することにより、平面超伝導体間の負の(魅力的な)圧力を予測する。 ロンドン浸透深度 $\lambda_\text{L} \approx 100 \text{ nm}$ の従来の超伝導体の場合、圧力はアングストローム分離時に $\text{N/mm}^2$ に達する。 得られた表面エネルギーは、通常のフェルミオン状態に適用されたハートリー・フォック法よりも実験値とよく一致しており、この理論は超伝導量子デバイスの解析にバーディーン・クーパー・シュリーファーとギンズバーグ・ランダウ理論のバルク制限を回避している。

By applying a hydrodynamic representation of non-relativistic scalar electrodynamics to the superconducting order parameter, we predict a negative (attractive) pressure between planar superconducting bodies. For conventional superconductors with London penetration depth $\lambda_\text{L} \approx 100 \text{ nm}$, the pressure reaches tens of $\text{N/mm}^2$ at angstrom separations. The resulting surface energies are in better agreement with experimental values than those predicted by the Hartree-Fock method applied to the normal fermionic state, and the theory circumvents the bulk limitations of the Bardeen-Cooper-Schrieffer and Ginzburg-Landau theories to the analysis of superconducting quantum devices.
翻訳日:2024-02-01 18:07:14 公開日:2024-01-30
# バックプロパゲーションフリー4次元連続アントベースニューラルトポロジーサーチ

Backpropagation-Free 4D Continuous Ant-Based Neural Topology Search ( http://arxiv.org/abs/2305.06715v3 )

ライセンス: Link先を確認
AbdElRahman ElSaid and Karl Ricanek and Zeming Lyu and Alexander Ororbia and Travis Desell(参考訳) 連続 ant-based topology search (cants) は、以前に導入されたnature-inspired neural architecture search (nas)アルゴリズムであり、antコロニー最適化 (aco) に基づいている。 CANTSは、連続的な検索空間を使用して、ニューラルアーキテクチャ検索空間を間接的にエンコードする。 合成アリエージェントは、フェロモンの密度と分布に基づいてカントの連続探索空間を探索し、アリが現実世界でどのように動くかに強い影響を受けている。 この連続的な検索空間により、cantsは任意のサイズのニューラルネットワーク(anns)の設計を自動化でき、ユーザが指定したサイズの構造内で動作しなければならない現在の多くのnasアルゴリズムに固有の重要な制限を取り除くことができる。 この研究は、潜在神経シナプス重みを表す探索空間に4次元を追加することでカントを拡大する。 この余分な次元を加えることで、cantsエージェントはアーキテクチャだけでなく、バックプロパゲーション(bp)を適用せずにannの重みも最適化できるため、最適化プロセスで消費される時間を大幅に削減することができる。 実世界のデータを用いた実験により,BP-Free CANTSアルゴリズムは動作時間を大幅に削減しつつ,CANTSとANTSの双方と比較して高い競合性能を示した。

Continuous Ant-based Topology Search (CANTS) is a previously introduced novel nature-inspired neural architecture search (NAS) algorithm that is based on ant colony optimization (ACO). CANTS utilizes a continuous search space to indirectly-encode a neural architecture search space. Synthetic ant agents explore CANTS' continuous search space based on the density and distribution of pheromones, strongly inspired by how ants move in the real world. This continuous search space allows CANTS to automate the design of artificial neural networks (ANNs) of any size, removing a key limitation inherent to many current NAS algorithms that must operate within structures of a size that is predetermined by the user. This work expands CANTS by adding a fourth dimension to its search space representing potential neural synaptic weights. Adding this extra dimension allows CANTS agents to optimize both the architecture as well as the weights of an ANN without applying backpropagation (BP), which leads to a significant reduction in the time consumed in the optimization process: at least an average of 96% less time consumption with very competitive optimization performance, if not better. The experiments of this study - using real-world data - demonstrate that the BP-Free CANTS algorithm exhibits highly competitive performance compared to both CANTS and ANTS while requiring significantly less operation time.
翻訳日:2024-02-01 18:03:40 公開日:2024-01-30
# 隠れたテンソル構造

Hidden tensor structures ( http://arxiv.org/abs/2308.04202v4 )

ライセンス: Link先を確認
Marek Czachor(参考訳) 分離可能なヒルベルト空間によって状態空間が与えられる任意の単一系は、自動的に無限に多くの隠れテンソル様構造を持つ。 これは古典場理論や古典信号解析と同様に、全ての量子力学系を含む。 したがって、単一の1次元高調波発振器、無限ポテンシャル井戸、あるいは有限期間の古典的有限振幅信号のように単純な系を任意の数のサブシステムに分解することができる。 結果として生じる構造は、量子計算、ベルの不等式違反、普遍量子ゲートの定式化を可能にするのに十分なリッチである。 標準的な量子アプリケーションは、位置と隠れた位置を区別する。 隠れた位置は、粒子がスピンレスであっても、隠れたスピンが伴うことができる。 隠れた自由度は多くの点でモジュラー変数と類似している。 さらに、これらの隠れた構造は、ブラント・グリーンバーグによる生成消滅作用素のマルチボゾン表現のような、いくつかのよく知られた理論構成のルーツであり、高次または分数次スクイージングの文脈で集中的に研究されていることが示されている。 古典的信号解析の文脈において、議論された構造は、なぜ量子コンピュータを古典的アナログ回路デバイスでエミュレートすることができるのかを説明する。

Any single system whose space of states is given by a separable Hilbert space is automatically equipped with infinitely many hidden tensor-like structures. This includes all quantum mechanical systems as well as classical field theories and classical signal analysis. Accordingly, systems as simple as a single one-dimensional harmonic oscillator, an infinite potential well, or a classical finite-amplitude signal of finite duration, can be decomposed into an arbitrary number of subsystems. The resulting structure is rich enough to enable quantum computation, violation of Bell's inequalities, and formulation of universal quantum gates. Less standard quantum applications involve a distinction between position and hidden position. The hidden position can be accompanied by a hidden spin, even if the particle is spinless. Hidden degrees of freedom are in many respects analogous to modular variables. Moreover, it is shown that these hidden structures are at the roots of some well known theoretical constructions, such as the Brandt-Greenberg multi-boson representation of creation-annihilation operators, intensively investigated in the context of higher-order or fractional-order squeezing. In the context of classical signal analysis, the discussed structures explain why it is possible to emulate a quantum computer by classical analog circuit devices.
翻訳日:2024-02-01 17:53:47 公開日:2024-01-30
# SCRAPS:音響空間と音声空間の音声コントラスト表現

SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic Spaces ( http://arxiv.org/abs/2307.12445v2 )

ライセンス: Link先を確認
Ivan Vall\'es-P\'erez, Grzegorz Beringer, Piotr Bilinski, Gary Cook, Roberto Barra-Chicote(参考訳) 論文の多くの例は、ディープラーニングモデルがマルチモーダルデータとうまく連携できることを証明した。 最近、CLIPは、画像とテキスト記述間の共有潜在空間をディープラーニングシステムで学習できるようにし、下流タスクではゼロまたは少数ショットの結果が卓越している。 本稿では,CLIPが提案したのと同じアイデアを,音声空間と音響空間が共存する音声領域に適用する。 音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。 その結果,提案モデルは音素の20%をランダムに置き換える際に91%のスコアが低下し,異なる種類の雑音に対してかなりの頑健性が得られ,ガウス雑音の75%と混合した場合のパフォーマンスが10%低下した。 また,結果の埋め込みが,知性評価や音声生成タスクにおける豊富な事前学習音声埋め込みの活用など,下流のさまざまなアプリケーションにとって有用であることを示す実証的証拠を提供する。 最後に、音声生成と認識分野に興味深い意味を持つ潜在的な応用について論じる。

Numerous examples in the literature proved that deep learning models have the ability to work well with multimodal data. Recently, CLIP has enabled deep learning systems to learn shared latent spaces between images and text descriptions, with outstanding zero- or few-shot results in downstream tasks. In this paper we explore the same idea proposed by CLIP but applied to the speech domain, where the phonetic and acoustic spaces usually coexist. We train a CLIP-based model with the aim to learn shared representations of phonetic and acoustic spaces. The results show that the proposed model is sensible to phonetic changes, with a 91% of score drops when replacing 20% of the phonemes at random, while providing substantial robustness against different kinds of noise, with a 10% performance drop when mixing the audio with 75% of Gaussian noise. We also provide empirical evidence showing that the resulting embeddings are useful for a variety of downstream applications, such as intelligibility evaluation and the ability to leverage rich pre-trained phonetic embeddings in speech generation task. Finally, we discuss potential applications with interesting implications for the speech generation and recognition fields.
翻訳日:2024-02-01 17:51:07 公開日:2024-01-30
# 注意に基づく心房細動検出のためのppg-ecg信号変換

PPG-to-ECG Signal Translation for Continuous Atrial Fibrillation Detection via Attention-based Deep State-Space Modeling ( http://arxiv.org/abs/2309.15375v2 )

ライセンス: Link先を確認
Khuong Vo, Mostafa El-Khamy, Yoojin Choi(参考訳) 心電図(Electrocardiogram、ECG、EKG)は、心臓の電気活動を測定する検査である。 心電図は、不整脈、心臓発作、心不全など、幅広い心臓疾患の診断と監視にしばしば用いられる。 一方、従来のECGは臨床検査を必要としており、医療施設への配備を制限する。 一方、シングルリードECGは、管理手順を用いてウェアラブルデバイスで普及している。 ECGの代替品は、非侵襲的で低コストな光学手法を用いて心臓生理を計測し、日常生活において重要な心臓の兆候を捉えるのに適した選択であるフォトプレチスモグラフィ(PPG)である。 その結果、健康モニタリングにおいて人気が高まり、様々な臨床および商用ウェアラブルデバイスで使用されている。 ECGとPSGは強く相関するが、後者は重要な臨床診断値を提供していない。 本稿では,主観非依存の注意に基づく深部状態空間モデルを提案し,PSG信号を対応するECG波形に変換する。 このモデルは、確率的グラフィカルモデルの観点から事前知識を組み込むことで、データ効率が高い。 このモデルにより、心電図の精度を連続PSGモニタリングで補完することにより、成人で最も一般的な心房細動(AFib)の検出が可能になる。 55名の被験者を対象にMIMIC IIIデータベースを用いて評価を行った。 定量的および定性的な実験結果は,本手法の有効性と有効性を示すものである。

An electrocardiogram (ECG or EKG) is a medical test that measures the heart's electrical activity. ECGs are often used to diagnose and monitor a wide range of heart conditions, including arrhythmias, heart attacks, and heart failure. On the one hand, the conventional ECG requires clinical measurement, which restricts its deployment to medical facilities. On the other hand, single-lead ECG has become popular on wearable devices using administered procedures. An alternative to ECG is Photoplethysmography (PPG), which uses non-invasive, low-cost optical methods to measure cardiac physiology, making it a suitable option for capturing vital heart signs in daily life. As a result, it has become increasingly popular in health monitoring and is used in various clinical and commercial wearable devices. While ECG and PPG correlate strongly, the latter does not offer significant clinical diagnostic value. Here, we propose a subject-independent attention-based deep state-space model to translate PPG signals to corresponding ECG waveforms. The model is highly data-efficient by incorporating prior knowledge in terms of probabilistic graphical models. Notably, the model enables the detection of atrial fibrillation (AFib), the most common heart rhythm disorder in adults, by complementing ECG's accuracy with continuous PPG monitoring. We evaluated the model on 55 subjects from the MIMIC III database. Quantitative and qualitative experimental results demonstrate the effectiveness and efficiency of our approach.
翻訳日:2024-02-01 17:41:14 公開日:2024-01-30
# 時間領域における応答関数の修飾と拡張

Denoising and Extension of Response Functions in the Time Domain ( http://arxiv.org/abs/2309.02566v2 )

ライセンス: Link先を確認
Alexander F. Kemper, Chao Yang, and Emanuel Gull(参考訳) 電子グリーン関数、磁気、電荷感受性といった量子系の応答関数は、系の外部摂動に対する応答を記述する。 これらは場の理論や量子コンピューティングに関心を持つ中心的な対象であり、実験で直接測定される。 応答関数は本質的に因果的です。 平衡系と定常状態系では、周波数領域の正のスペクトル関数に対応する。 応答関数はヒルベルト空間上の内積を定義し、したがって正の定値関数を誘導するので、この関数の特性は測定データのノイズを減少させ、平衡状態と定常状態において有限時間間隔で知られているデータに対する正の定値拡張を構築するのに使うことができる。

Response functions of quantum systems, such as electron Green's functions, magnetic, or charge susceptibilities, describe the response of a system to an external perturbation. They are the central objects of interest in field theories and quantum computing and measured directly in experiment. Response functions are intrinsically causal. In equilibrium and steady-state systems, they correspond to a positive spectral function in the frequency domain. Since response functions define an inner product on a Hilbert space and thereby induce a positive definite function, the properties of this function can be used to reduce noise in measured data and, in equilibrium and steady state, to construct positive definite extensions for data known on finite time intervals, which are then guaranteed to correspond to positive spectra.
翻訳日:2024-02-01 17:38:49 公開日:2024-01-30
# GeoSAM: モビリティインフラストラクチャの自動セグメンテーションのためのスパースと濃厚なビジュアルプロンプトを備えた微調整SAM

GeoSAM: Fine-tuning SAM with Sparse and Dense Visual Prompting for Automated Segmentation of Mobility Infrastructure ( http://arxiv.org/abs/2311.11319v2 )

ライセンス: Link先を確認
Rafi Ibn Sultan, Chengyin Li, Hui Zhu, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu(参考訳) Segment Anything Model (SAM)は、自然画像のセグメンテーションに適用された際、印象的な性能を示している。 しかし、特に道路、歩道、横断歩道などの移動インフラを分割する場合、航空画像や衛星画像のような地理的画像に苦しむ。 この劣ったパフォーマンスは、これらのオブジェクトの狭い特徴、それらのテクスチャが周囲に混ざり合うこと、木、建物、車両、歩行者のようなオブジェクトから干渉することに由来する。 これらの課題に対処するために,ゼロショット学習からの濃密な視覚的プロンプトと,事前学習したCNNセグメンテーションモデルからの疎密な視覚的プロンプトを用いて微調整戦略を実装する新しいSAMベースのフレームワークであるGeoSAMを提案する。 提案するジオサムは, 道路インフラ, 歩行者インフラ, および平均して26%, 7%, および17%の地理的画像分割手法を上回っており, 地理画像における道路インフラストラクチャと歩行者インフラストラクチャを含む移動インフラの分割に基礎モデルを活用する際の瞬間的な飛躍を表している。 ソースコードはこのgithubリポジトリにある。 https://github.com/rafiibnsultan/geosam/tree/main。

The Segment Anything Model (SAM) has shown impressive performance when applied to natural image segmentation. However, it struggles with geographical images like aerial and satellite imagery, especially when segmenting mobility infrastructure including roads, sidewalks, and crosswalks. This inferior performance stems from the narrow features of these objects, their textures blending into the surroundings, and interference from objects like trees, buildings, vehicles, and pedestrians - all of which can disorient the model to produce inaccurate segmentation maps. To address these challenges, we propose Geographical SAM (GeoSAM), a novel SAM-based framework that implements a fine-tuning strategy using the dense visual prompt from zero-shot learning, and the sparse visual prompt from a pre-trained CNN segmentation model. The proposed GeoSAM outperforms existing approaches for geographical image segmentation, specifically by 26%, 7%, and 17% for road infrastructure, pedestrian infrastructure, and on average, respectively, representing a momentous leap in leveraging foundation models to segment mobility infrastructure including both road and pedestrian infrastructure in geographical images. The source code can be found on this GitHub repository: https://github.com/rafiibnsultan/GeoSAM/tree/main.
翻訳日:2024-02-01 17:31:50 公開日:2024-01-30
# 人類の未来への門を閉じる:超人的な汎用人工知能を開発すべきでない理由と理由

Close the Gates to an Inhuman Future: How and why we should choose to not develop superhuman general-purpose artificial intelligence ( http://arxiv.org/abs/2311.09452v2 )

ライセンス: Link先を確認
Anthony Aguirre(参考訳) 人工知能の最近の劇的な進歩は、今後数年のうちに、人間は超人的な汎用AIを作成することによって、しきい値を不可逆的に越える可能性があることを示している。 これは、人間の社会の中核的な側面を上回り、多くの前例のないリスクを生じさせ、いくつかの意味で制御不能になる可能性がある。 まずは、ニューラルネットワークのトレーニングと実行に使用可能な計算に基づいて、国内および国際レベルに配置され、ハードウェアセキュリティ対策によって検証されるハードリミット(hard limit)を導入することで、そうしないことを選択できます。 こうした制限がある中で、AIの研究と産業は、人間が理解し制御できる狭義の汎用AIと、そこから大きな利益を享受できるAIの両方を作ることに集中することができる。

Recent dramatic advances in artificial intelligence indicate that in the coming years, humanity may irreversibly cross a threshold by creating superhuman general-purpose AI: AI that is better than humans at cognitive tasks in general in the way that AI is currently unbeatable in certain domains. This would upend core aspects of human society, present many unprecedented risks, and is likely to be uncontrollable in several senses. We can choose to not do so, starting by instituting hard limits - placed at the national and international level, and verified by hardware security measures - on the computation that can be used to train and run neural networks. With these limits in place, AI research and industry can focus on making both narrow and general-purpose AI that humans can understand and control, and from which we can reap enormous benefit.
翻訳日:2024-02-01 17:31:07 公開日:2024-01-30
# GRASP:マルチモーダル言語モデルにおける言語GRoundingとSituated Physics Understandingの評価のための新しいベンチマーク

GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models ( http://arxiv.org/abs/2311.09048v2 )

ライセンス: Link先を確認
Serwan Jassim, Mario Holubar, Annika Richter, Cornelius Wolff, Xenia Ohmer, Elia Bruni(参考訳) 本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。 この評価は、Unityシミュレーションを利用する2層アプローチによって達成される。 モデルが単純なテキスト記述と視覚情報とを関連付ける能力を評価することで、言語接地の最初のレベルテストを行う。 第2のレベルは、オブジェクトの永続性や連続性といった「直観物理学」の原則に対するモデルの理解を評価する。 ベンチマークの公開に加えて、いくつかの最先端マルチモーダルLCMの評価にも使用しています。 評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥が認められた。 特に色や形状に関して、少なくともいくつかの接地能力を示すが、これらの能力は迅速な戦略に大きく依存する。 同時に、すべてのモデルが直観物理学のテストでは50%以下または50%の確率で実行され、人間の被験者は平均80%の精度で正しい。 これらの制限は、GRASPのようなベンチマークを使用して、これらの能力の開発における将来のモデルの進捗を監視することの重要性を浮き彫りにしている。

This paper presents GRASP, a novel benchmark to evaluate the language grounding and physical understanding capabilities of video-based multimodal large language models (LLMs). This evaluation is accomplished via a two-tier approach leveraging Unity simulations. The first level tests for language grounding by assessing a model's ability to relate simple textual descriptions with visual information. The second level evaluates the model's understanding of "Intuitive Physics" principles, such as object permanence and continuity. In addition to releasing the benchmark, we use it to evaluate several state-of-the-art multimodal LLMs. Our evaluation reveals significant shortcomings in the language grounding and intuitive physics capabilities of these models. Although they exhibit at least some grounding capabilities, particularly for colors and shapes, these capabilities depend heavily on the prompting strategy. At the same time, all models perform below or at the chance level of 50% in the Intuitive Physics tests, while human subjects are on average 80% correct. These identified limitations underline the importance of using benchmarks like GRASP to monitor the progress of future models in developing these competencies.
翻訳日:2024-02-01 17:30:50 公開日:2024-01-30
# 医用画像解析におけるGPT-4Vのマルチモーダル機能の評価

A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis ( http://arxiv.org/abs/2310.20381v5 )

ライセンス: Link先を確認
Yingshu Li, Yunyi Liu, Zhanyu Wang, Xinyu Liang, Lei Wang, Lingqiao Liu, Leyang Cui, Zhaopeng Tu, Longyue Wang, Luping Zhou(参考訳) 本研究は, 医用画像解析におけるGPT-4Vのマルチモーダル機能の評価を行い, 放射線診断レポート生成, 医用ビジュアル質問応答, 医用ビジュアルグラウンドティングの3つの課題に着目した。 評価のために、各タスク毎に一連のプロンプトを設計し、GPT-4Vの対応する能力を誘導して十分な優れた出力を生成する。 定量的分析, 人的評価, ケーススタディの3つの評価方法を用いて, 詳細な評価を行う。 評価の結果,GPT-4Vは医用画像の理解に優れ,高品質な放射線診断レポートを作成でき,医用画像に関する質問に効果的に答えることができることがわかった。 一方,医療用視覚接地の性能は大幅に向上する必要があることが判明した。 また,定量的分析による評価結果と人的評価による評価結果との相違を観察した。 この相違は、gpt-4vのような大規模言語モデルの性能評価における従来のメトリクスの限界と、自動定量分析のための新しいメトリクスの開発の必要性を示唆している。

This work conducts an evaluation of GPT-4V's multimodal capability for medical image analysis, with a focus on three representative tasks of radiology report generation, medical visual question answering, and medical visual grounding. For the evaluation, a set of prompts is designed for each task to induce the corresponding capability of GPT-4V to produce sufficiently good outputs. Three evaluation ways including quantitative analysis, human evaluation, and case study are employed to achieve an in-depth and extensive evaluation. Our evaluation shows that GPT-4V excels in understanding medical images and is able to generate high-quality radiology reports and effectively answer questions about medical images. Meanwhile, it is found that its performance for medical visual grounding needs to be substantially improved. In addition, we observe the discrepancy between the evaluation outcome from quantitative analysis and that from human evaluation. This discrepancy suggests the limitations of conventional metrics in assessing the performance of large language models like GPT-4V and the necessity of developing new metrics for automatic quantitative analysis.
翻訳日:2024-02-01 17:29:00 公開日:2024-01-30
# 拡散視覚プログラマとしての画像翻訳

Image Translation as Diffusion Visual Programmers ( http://arxiv.org/abs/2401.09742v2 )

ライセンス: Link先を確認
Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Ying Nian Wu, Dongfang Liu(参考訳) 本稿では,ニューロシンボリック画像翻訳フレームワークであるdvpを提案する。 提案したDVPはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込み,RoI識別,スタイル転送,位置操作にまたがる多種多様な視覚的プログラム(コンピュータビジョンモデル)のコヒーレントなシーケンスを編成し,透過的かつ制御可能な画像翻訳プロセスを容易にする。 大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。 第一に、DVPはインスタンスの正規化を通じて条件フレキシブルな翻訳を実現し、手動ガイダンスによる感度を排除し、高品質なコンテンツ生成のためのテキスト記述に最適に集中できるようにします。 第二に、このフレームワークは特徴空間における複雑な高次元概念をよりアクセスしやすい低次元のシンボル(例えば [Prompt], [RoI object])に解読することで、コンテキスト内推論を強化する。 最後に、DVPは、各プログラミング段階で明示的な記号表現を提供することで、システム制御性と説明可能性を改善し、ユーザが直感的に解釈し、結果を変更することを可能にする。 我々の研究は、人工画像翻訳プロセスと認知知能を調和させるための重要なステップであり、より広範な応用を約束する。

We introduce the novel Diffusion Visual Programmer (DVP), a neuro-symbolic image translation framework. Our proposed DVP seamlessly embeds a condition-flexible diffusion model within the GPT architecture, orchestrating a coherent sequence of visual programs (i.e., computer vision models) for various pro-symbolic steps, which span RoI identification, style transfer, and position manipulation, facilitating transparent and controllable image translation processes. Extensive experiments demonstrate DVP's remarkable performance, surpassing concurrent arts. This success can be attributed to several key features of DVP: First, DVP achieves condition-flexible translation via instance normalization, enabling the model to eliminate sensitivity caused by the manual guidance and optimally focus on textual descriptions for high-quality content generation. Second, the framework enhances in-context reasoning by deciphering intricate high-dimensional concepts in feature spaces into more accessible low-dimensional symbols (e.g., [Prompt], [RoI object]), allowing for localized, context-free editing while maintaining overall coherence. Last but not least, DVP improves systemic controllability and explainability by offering explicit symbolic representations at each programming stage, empowering users to intuitively interpret and modify results. Our research marks a substantial step towards harmonizing artificial image translation processes with cognitive intelligence, promising broader applications.
翻訳日:2024-02-01 17:20:25 公開日:2024-01-30
# 騒音下における次元低減ハイパーパラメータの校正

Calibrating dimension reduction hyperparameters in the presence of noise ( http://arxiv.org/abs/2312.02946v3 )

ライセンス: Link先を確認
Justin Lin and Julia Fukuyama(参考訳) 次元削減ツールの目的は、高次元データの低次元表現を構築することである。 これらのツールは、ノイズ低減、可視化、計算コストの削減など、様々な理由で使用されている。 しかし、他のモデリング問題でよく議論されている基本的な問題があるが、次元減少の文献ではほとんど完全に無視されている。 信号とノイズの組み合わせとしてデータを解釈する場合、先行研究は、データ全体、すなわち信号とノイズの両方をキャプチャする能力について、次元の縮小テクニックを判断する。 他のモデリング問題の文脈では、オーバーフィッティングと戦うために特徴選択、クロスバリデーション、正規化といった手法が用いられるが、次元縮小を行う際にはそのような予防措置は取らない。 本稿では,ノイズの存在下での次元減少問題をモデル化し,t-SNE と UMAP を適用した場合,近隣住民の役割の複雑度と多様さを探索する枠組みを提案する。 より具体的には、以前推奨されたパープレキシティの値を示し、隣人の数は小さすぎ、ノイズに過度に適合する傾向がある。 また、ノイズの存在下でハイパーパラメータを校正するワークフローも提示する。

The goal of dimension reduction tools is to construct a low-dimensional representation of high-dimensional data. These tools are employed for a variety of reasons such as noise reduction, visualization, and to lower computational costs. However, there is a fundamental issue that is highly discussed in other modeling problems, but almost entirely ignored in the dimension reduction literature: overfitting. If we interpret data as a combination of signal and noise, prior works judge dimension reduction techniques on their ability to capture the entirety of the data, i.e. both the signal and the noise. In the context of other modeling problems, techniques such as feature-selection, cross-validation, and regularization are employed to combat overfitting, but no such precautions are taken when performing dimension reduction. In this paper, we present a framework that models dimension reduction problems in the presence of noise and use this framework to explore the role perplexity and number of neighbors play in overfitting data when applying t-SNE and UMAP. More specifically, we show previously recommended values for perplexity and number of neighbors are too small and tend to overfit the noise. We also present a workflow others may use to calibrate hyperparameters in the presence of noise.
翻訳日:2024-02-01 17:17:12 公開日:2024-01-30
# 大言語モデル命令チューニングのためのハイパーパラメータ最適化

Hyperparameter Optimization for Large Language Model Instruction-Tuning ( http://arxiv.org/abs/2312.00949v2 )

ライセンス: Link先を確認
Christophe Tribes, Sacha Benarroch-Lelong, Peng Lu, Ivan Kobyzev(参考訳) 大規模言語モデル(llms)の微調整により、最近、自然言語処理アプリケーションのマイルストーンを達成した。 より大きなLSMの出現は、より効率的な微調整方法の道を開いた。 これらのうち、ローランド適応法(LoRA)は、重量行列の低ランク分解を導入しながら、事前訓練されたLLMの重量のほとんどを凍結させ、ネットワークのごく一部しかチューニングできないようにする。 LoRAで微調整されたモデルの下流タスクのパフォーマンスは、分解のランクを含む一連のハイパーパラメータに大きく依存している。 本研究では,2つの主ブラックボックス最適化(BBO)手法を用いて,これらのハイパーパラメータの選択について検討する。 事前学習されたllmをブラックボックスとして微調整と検証を行うパイプライン全体を調べ、ハイパーパラメータの空間を \nomadアルゴリズムで効率的に探索し、チューニングモデルの性能と人間のアライメントを向上させる。

The fine-tuning of Large Language Models (LLMs) has enabled them to recently achieve milestones in natural language processing applications. The emergence of ever larger LLMs has paved the way for more efficient fine-tuning methods. Among these, the Low-Rank Adaptation (LoRA) method keeps most of the weights of the pre-trained LLM frozen while introducing a low-rank decomposition of the weight matrix, enabling the tuning of only a very small proportion of the network. The performance on downstream tasks of models fine-tuned with LoRA heavily relies on a set of hyperparameters including the rank of the decomposition. In this work, we investigate the choice of these hyperparameters through two main blackbox optimization (BBO) techniques. We examine the whole pipeline of performing fine-tuning and validation on a pre-trained LLM as a blackbox and efficiently explore the space of hyperparameters with the \nomad algorithm, achieving a boost in performance and human alignment of the tuned model.
翻訳日:2024-02-01 17:16:23 公開日:2024-01-30
# ACT: 敵対的一貫性モデル

ACT: Adversarial Consistency Models ( http://arxiv.org/abs/2311.14097v2 )

ライセンス: Link先を確認
Fei Kong, Jinhao Duan, Lichao Sun, Hao Cheng, Renjing Xu, Hengtao Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu(参考訳) 拡散モデルは画像生成に優れているが、ステップバイステップのデノージングは生成速度を遅くする。 一貫性トレーニングは、単一ステップサンプリングでこの問題に対処するが、しばしば低品質世代を生成し、高いトレーニングコストを必要とする。 本稿では,目標分布と生成分布との間のwasserstein距離を最小化する一貫性トレーニング損失の最適化について述べる。 時間ステップが増加すると、上限は以前の一貫性トレーニング損失を蓄積する。 そのため、電流と累積損失を減らすために、より大きなバッチサイズが必要となる。 本稿では,判別器を用いて,各時刻における分布間のJensen-Shannon(JS)ばらつきを極力最小化するAdversarial Consistency Training(ACT)を提案する。 理論的には、ACTは生成品質と収束を高める。 一貫性トレーニングフレームワークに識別器を組み込むことにより、cifar10、imagenet 64$\times$64およびlsun cat 256$\times$256データセットのfidスコアを改善し、ゼロショット画像インペインティング能力を保持し、元のバッチサイズの1/6$以下、モデルパラメータとトレーニングステップの1/2$以下を使用することにより、リソース消費を大幅に削減することができる。

Though diffusion models excel in image generation, their step-by-step denoising leads to slow generation speeds. Consistency training addresses this issue with single-step sampling but often produces lower-quality generations and requires high training costs. In this paper, we show that optimizing consistency training loss minimizes the Wasserstein distance between target and generated distributions. As timestep increases, the upper bound accumulates previous consistency training losses. Therefore, larger batch sizes are needed to reduce both current and accumulated losses. We propose Adversarial Consistency Training (ACT), which directly minimizes the Jensen-Shannon (JS) divergence between distributions at each timestep using a discriminator. Theoretically, ACT enhances generation quality, and convergence. By incorporating a discriminator into the consistency training framework, our method achieves improved FID scores on CIFAR10, ImageNet 64$\times$64 and LSUN Cat 256$\times$256 datasets, retains zero-shot image inpainting capabilities, and uses less than $1/6$ of the original batch size and fewer than $1/2$ of the model parameters and training steps compared to the baseline method, this leads to a substantial reduction in resource consumption.
翻訳日:2024-02-01 17:15:08 公開日:2024-01-30
# 不確実性定量化のための信頼緩和法とサンプル法の組み合わせ

Combining Confidence Elicitation and Sample-based Methods for Uncertainty Quantification in Misinformation Mitigation ( http://arxiv.org/abs/2401.08694v2 )

ライセンス: Link先を確認
Mauricio Rivera, Jean-Fran\c{c}ois Godbout, Reihaneh Rabbany, Kellin Pelrine(参考訳) 誤情報の緩和に取り組むための最有力候補として,大規模言語モデルが登場している。 しかし、既存のアプローチは幻覚や自信過剰な予測に苦しむ。 我々は,NLP誤情報軽減ソリューションのキャリブレーションを改善するために,直接信頼抽出とサンプルベース一貫性手法の両方を活用する不確実性定量化フレームワークを提案する。 まず,サンプルサイズと確率レベルの異なる一貫性特性を利用するサンプルベース一貫性手法の校正について検討する。 次に,単数と二段階の信頼導出手順における頑健な数値化プロンプトの性能と分布変化を評価する。 また、同じプロンプトの性能をGPTの異なるバージョンと異なる数値スケールと比較する。 最後に,サンプルベースの一貫性と動詞化手法を組み合わせることで,gptモデルに対する不確実性推定の精度を高めるハイブリッドフレームワークを提案する。 本研究は,誤情報低減アプリケーションにおいて,大規模言語モデルの信頼性を向上させる新たな不確実性定量化手法を提案する。

Large Language Models have emerged as prime candidates to tackle misinformation mitigation. However, existing approaches struggle with hallucinations and overconfident predictions. We propose an uncertainty quantification framework that leverages both direct confidence elicitation and sampled-based consistency methods to provide better calibration for NLP misinformation mitigation solutions. We first investigate the calibration of sample-based consistency methods that exploit distinct features of consistency across sample sizes and stochastic levels. Next, we evaluate the performance and distributional shift of a robust numeric verbalization prompt across single vs. two-step confidence elicitation procedure. We also compare the performance of the same prompt with different versions of GPT and different numerical scales. Finally, we combine the sample-based consistency and verbalized methods to propose a hybrid framework that yields a better uncertainty estimation for GPT models. Overall, our work proposes novel uncertainty quantification methods that will improve the reliability of Large Language Models in misinformation mitigation applications.
翻訳日:2024-02-01 17:07:02 公開日:2024-01-30
# 小児脳腫瘍のオートセグメンテーションにおけるnnu-netとdeepmedic法の訓練と比較

Training and Comparison of nnU-Net and DeepMedic Methods for Autosegmentation of Pediatric Brain Tumors ( http://arxiv.org/abs/2401.08404v2 )

ライセンス: Link先を確認
Arastoo Vossough, Nastaran Khalili, Ariana M. Familiar, Deep Gandhi, Karthik Viswanathan, Wenxin Tu, Debanjan Haldar, Sina Bagheri, Hannah Anderson, Shuvanjan Haldar, Phillip B. Storm, Adam Resnick, Jeffrey B. Ware, Ali Nabavizadeh, Anahita Fathi Kazerooni(参考訳) 脳腫瘍は最も一般的な固形腫瘍であり、子供のがん関連死亡の原因となっている。 腫瘍の分節化は外科的および治療計画、反応の評価とモニタリングに不可欠である。 しかし、手動のセグメンテーションは時間がかかり、演算子間のばらつきが高く、より効率的な方法の必要性を強調している。 We compared two deep learning-based 3D segmentation models, DeepMedic and nnU-Net, after training with pediatric-specific multi-institutional brain tumor data using based on multi-parametric MRI scans.Multi-parametric preoperative MRI scans of 339 pediatric patients (n=293 internal and n=46 external cohorts) with a variety of tumor subtypes, were preprocessed and manually segmented into four tumor subregions, i.e., enhancing tumor (ET), non-enhancing tumor (NET), cystic components (CC), and peritumoral edema (ED). トレーニング後,2つのモデルの内部および外部テストセットの性能を,Diceスコア,感度,ハウスドルフ距離を用いて評価した。 nnU-Netの内部テストセットのディススコアは、WTが0.9+/0.07(0.94)、ETが0.77+/-0.29、NETが0.66+/-0.32、CCが0.71+/-0.33、EDが0.71+/-0.40であった。 DeepMedicのDiceスコアはWTが0.82+/-0.16、ETが0.66+/-0.32、NETが0.48+/-0.27、CCが0.48+/-0.36、EDが0.19+/-0.33であった。 diceスコアはnnu-net (p<=0.01) で有意に高かった。 複数施設のBraTS-PEDs 2023データセット上で訓練されたnnU-Netモデルの外部的検証により,Diceスコア0.87+/-0.13 (0.91) と 0.83+/-0.18 (0.89) の腫瘍全体と腫瘍コアのセグメンテーションにおける高い一般化能が示された。 小児特異的データトレーニングnnu-netモデルは、小児脳腫瘍の全腫瘍および亜領域の分節に対してdeepmedicよりも優れている。

Brain tumors are the most common solid tumors and the leading cause of cancer-related death among children. Tumor segmentation is essential in surgical and treatment planning, and response assessment and monitoring. However, manual segmentation is time-consuming and has high inter-operator variability, underscoring the need for more efficient methods. We compared two deep learning-based 3D segmentation models, DeepMedic and nnU-Net, after training with pediatric-specific multi-institutional brain tumor data using based on multi-parametric MRI scans.Multi-parametric preoperative MRI scans of 339 pediatric patients (n=293 internal and n=46 external cohorts) with a variety of tumor subtypes, were preprocessed and manually segmented into four tumor subregions, i.e., enhancing tumor (ET), non-enhancing tumor (NET), cystic components (CC), and peritumoral edema (ED). After training, performance of the two models on internal and external test sets was evaluated using Dice scores, sensitivity, and Hausdorff distance with reference to ground truth manual segmentations. Dice score for nnU-Net internal test sets was (mean +/- SD (median)) 0.9+/-0.07 (0.94) for WT, 0.77+/-0.29 for ET, 0.66+/-0.32 for NET, 0.71+/-0.33 for CC, and 0.71+/-0.40 for ED, respectively. For DeepMedic the Dice scores were 0.82+/-0.16 for WT, 0.66+/-0.32 for ET, 0.48+/-0.27, for NET, 0.48+/-0.36 for CC, and 0.19+/-0.33 for ED, respectively. Dice scores were significantly higher for nnU-Net (p<=0.01). External validation of the trained nnU-Net model on the multi-institutional BraTS-PEDs 2023 dataset revealed high generalization capability in segmentation of whole tumor and tumor core with Dice scores of 0.87+/-0.13 (0.91) and 0.83+/-0.18 (0.89), respectively. Pediatric-specific data trained nnU-Net model is superior to DeepMedic for whole tumor and subregion segmentation of pediatric brain tumors.
翻訳日:2024-02-01 17:06:47 公開日:2024-01-30
# 大規模言語モデルを用いた強化学習を用いたコードセキュリティ脆弱性修復

Code Security Vulnerability Repair Using Reinforcement Learning with Large Language Models ( http://arxiv.org/abs/2401.07031v2 )

ライセンス: Link先を確認
Nafis Tanveer Islam, Mohammad Bahrami Karkevandi, Peyman Najafirad(参考訳) 最近のLarge Language Models (LLMs) の進歩により、幅広い開発者にとって機能的に正しいコードの生成はより複雑になってきている。 LLMを使用すると、機能開発プロセスが加速する一方で、コードのセキュリティに大きなリスクが生じる。 LLMを使った適切なセキュリティ対策によるコード生成は、機能コード生成よりもはるかに難しい作業である。 セキュリティ対策には、SQLインジェクション防止のためのnullポインタチェックまたは準備されたステートメントで構成される、元のコードに一対のコードを追加することが含まれる。 現在、利用可能なコード修復 LLM は、教師付き微調整によってコード修復を生成する。 しかし、元のコードと修復されたコードは、セキュリティ対策として機能する (1-2) 行を除いて、機能と構文的にほとんど似ている。 このセキュリティ対策に必要なラインと機能的コードとの間の不均衡は、適切なセキュリティ対策を加えることなく機能的コードを生成する優先順位付けを教師付き微調整モデルに強制する。 そこで本研究では,LLMから生成したコードのセキュリティ強化と強化のために,コードにセキュリティと機能的対策を加えることに集中する意味的報酬機構と構文的報酬機構を組み合わせた,プログラム固有の修復のための強化学習手法を提案する。

With the recent advancement of Large Language Models (LLMs), generating functionally correct code has become less complicated for a wide array of developers. While using LLMs has sped up the functional development process, it poses a heavy risk to code security. Code generation with proper security measures using LLM is a significantly more challenging task than functional code generation. Security measures may include adding a pair of lines of code with the original code, consisting of null pointer checking or prepared statements for SQL injection prevention. Currently, available code repair LLMs generate code repair by supervised fine-tuning, where the model looks at cross-entropy loss. However, the original and repaired codes are mostly similar in functionality and syntactically, except for a few (1-2) lines, which act as security measures. This imbalance between the lines needed for security measures and the functional code enforces the supervised fine-tuned model to prioritize generating functional code without adding proper security measures, which also benefits the model by resulting in minimal loss. Therefore, in this work, for security hardening and strengthening of generated code from LLMs, we propose a reinforcement learning-based method for program-specific repair with the combination of semantic and syntactic reward mechanisms that focus heavily on adding security and functional measures in the code, respectively.
翻訳日:2024-02-01 17:05:29 公開日:2024-01-30
# Kolmogorov-Donoho 最適関数クラスに対するワイドおよびディープReLUニューラルネットワークの普遍一貫性と最小収束率

Universal Consistency of Wide and Deep ReLU Neural Networks and Minimax Optimal Convergence Rates for Kolmogorov-Donoho Optimal Function Classes ( http://arxiv.org/abs/2401.04286v2 )

ライセンス: Link先を確認
Hyunouk Ko and Xiaoming Huo(参考訳) 本稿では,ロジスティック損失を訓練した広層および深層ニューラルネットワーク分類器の普遍的一貫性を実証する。 また,ニューラルネットワークに基づく分類器が最小収束率を達成する確率測度のクラスに対して十分な条件を与える。 その結果は、広く知られている関数クラスに適用される。 特に、以前のほとんどの作業は回帰関数に明示的な滑らかさの仮定を課しているが、我々のフレームワークはより一般的な設定を包含している。 提案されたニューラルネットワークはロジスティック損失の最小化か、$0$〜$$損失のいずれかである。 前者の場合、それらは良心過剰な振る舞いを示す補間分類器である。

In this paper, we prove the universal consistency of wide and deep ReLU neural network classifiers trained on the logistic loss. We also give sufficient conditions for a class of probability measures for which classifiers based on neural networks achieve minimax optimal rates of convergence. The result applies to a wide range of known function classes. In particular, while most previous works impose explicit smoothness assumptions on the regression function, our framework encompasses more general settings. The proposed neural networks are either the minimizers of the logistic loss or the $0$-$1$ loss. In the former case, they are interpolating classifiers that exhibit a benign overfitting behavior.
翻訳日:2024-02-01 17:04:12 公開日:2024-01-30
# 有限周波における無秩序thoulessポンプの欠如

Absence of disordered Thouless pumps at finite frequency ( http://arxiv.org/abs/2401.17395v1 )

ライセンス: Link先を確認
Dominik Vuina, David M. Long, Philip J. D. Crowley and Anushya Chandran(参考訳) チューレスポンプ(Thouless pump)は、電荷を量子化された速度でポンプする1次元バンド絶縁体である。 前回の研究では、パンピングは弱く乱れたチェーンに持続し、有限駆動周波数のクリーンチェーンに別々に持続することを示した。 障害と有限周波数の相互作用について検討し、瞬時固有状態間の非断熱遷移によりポンプ速度が常にゼロに減衰することを示す。 しかし、減衰は遅く、ドライブの期間に指数関数的に大きい時間スケールで起こる。 断熱限界では、瞬時スペクトルのバンドギャップは、ポンプが停止する上の臨界障害強度で閉じる。 バンドエッジ近傍の希少状態間の散乱モデルから, この遷移に伴うポンプ速度のスケーリングを予測した。 我々の予測は超低温原子・フォトニックプラットフォームで実験的に検証できる。

A Thouless pump is a slowly driven one-dimensional band insulator which pumps charge at a quantised rate. Previous work showed that pumping persists in weakly disordered chains, and separately in clean chains at finite drive frequency. We study the interplay of disorder and finite frequency, and show that the pump rate always decays to zero due to non-adiabatic transitions between the instantaneous eigenstates. However, the decay is slow, occurring on a time-scale that is exponentially large in the period of the drive. In the adiabatic limit, the band gap in the instantaneous spectrum closes at a critical disorder strength above which pumping ceases. We predict the scaling of the pump rate around this transition from a model of scattering between rare states near the band edges. Our predictions can be experimentally tested in ultracold atomic and photonic platforms.
翻訳日:2024-02-01 16:54:32 公開日:2024-01-30
# YTCommentQA: インストラクショナルビデオにおけるビデオ質問応答性

YTCommentQA: Video Question Answerability in Instructional Videos ( http://arxiv.org/abs/2401.17343v1 )

ライセンス: Link先を確認
Saelyne Yang, Sunghyun Park, Yunseok Jang, Moontae Lee(参考訳) インストラクションビデオは様々なタスクのハウツーガイドを提供し、視聴者はコンテンツに関してしばしば質問をする。 これらの疑問に対処することはコンテンツを理解するのに不可欠だが、すぐに答えを得るのは難しい。 ビデオ質問応答(ビデオqa)タスクのために多くの計算モデルが開発されているが、それらは主にビデオコンテンツに基づいて生成された質問に基づいて訓練され、コンテンツの中から回答を生み出すことを目的としている。 しかし、現実世界の状況では、ユーザーはビデオの情報的境界を超える疑問を呈し、ビデオが答えを提供できるかどうかを判断する必要性を強調する。 映像コンテンツによって質問に答えられるかどうかの判断は、視覚情報と言語情報が絡み合っているビデオのマルチモーダル性によって困難である。 このギャップを埋めるために、ytcommentqaデータセットを紹介します。このデータセットには、youtubeから自然に生成された質問が含まれています。 応答可能性分類タスクを用いた実験は、YTCommentQAの複雑さを示し、ビデオ推論における視覚情報とスクリプト情報の複合的な役割を理解する必要性を強調する。 データセットはhttps://github.com/lgresearch/ytcommentqaで利用可能である。

Instructional videos provide detailed how-to guides for various tasks, with viewers often posing questions regarding the content. Addressing these questions is vital for comprehending the content, yet receiving immediate answers is difficult. While numerous computational models have been developed for Video Question Answering (Video QA) tasks, they are primarily trained on questions generated based on video content, aiming to produce answers from within the content. However, in real-world situations, users may pose questions that go beyond the video's informational boundaries, highlighting the necessity to determine if a video can provide the answer. Discerning whether a question can be answered by video content is challenging due to the multi-modal nature of videos, where visual and verbal information are intertwined. To bridge this gap, we present the YTCommentQA dataset, which contains naturally-generated questions from YouTube, categorized by their answerability and required modality to answer -- visual, script, or both. Experiments with answerability classification tasks demonstrate the complexity of YTCommentQA and emphasize the need to comprehend the combined role of visual and script information in video reasoning. The dataset is available at https://github.com/lgresearch/YTCommentQA.
翻訳日:2024-02-01 16:54:19 公開日:2024-01-30
# 地球観測データの予測信頼度向上のための潜在空間メトリック

A Latent Space Metric for Enhancing Prediction Confidence in Earth Observation Data ( http://arxiv.org/abs/2401.17342v1 )

ライセンス: Link先を確認
Ioannis Pitsiorlas, Argyro Tsantalidou, George Arvanitakis, Marios Kountouris, Charalambos Kontoes(参考訳) 本研究では,特に蚊の存在量推定(ma)に着目し,地球観測(eo)データを利用した回帰タスクにおいて,機械学習モデル予測の信頼性を推定する新しい手法を提案する。 変動型オートエンコーダアーキテクチャを利用して、EOデータセットの潜在空間表現による信頼度を導出する。 この手法は、潜在表現におけるユークリッド距離と個々のMA予測における絶対誤差(AE)との相関を確立する上で重要である。 本研究は,イタリア・ヴェネト州とドイツのライン川流域におけるeoデータセットに着目し,蚊の個体数の影響が大きい地域を対象としている。 重要な発見は、MA予測のAEと提案された信頼度との0.46の顕著な相関である。 この相関は、EOデータ分析と蚊量研究の両方の文脈において、信頼性を定量化し、AIモデルの予測の信頼性を高めるための、堅牢で新しい指標を示す。

This study presents a new approach for estimating confidence in machine learning model predictions, specifically in regression tasks utilizing Earth Observation (EO) data, with a particular focus on mosquito abundance (MA) estimation. We take advantage of a Variational AutoEncoder architecture, to derive a confidence metric by the latent space representations of EO datasets. This methodology is pivotal in establishing a correlation between the Euclidean distance in latent representations and the Absolute Error (AE) in individual MA predictions. Our research focuses on EO datasets from the Veneto region in Italy and the Upper Rhine Valley in Germany, targeting areas significantly affected by mosquito populations. A key finding is a notable correlation of 0.46 between the AE of MA predictions and the proposed confidence metric. This correlation signifies a robust, new metric for quantifying the reliability and enhancing the trustworthiness of the AI model's predictions in the context of both EO data analysis and mosquito abundance studies.
翻訳日:2024-02-01 16:53:54 公開日:2024-01-30
# ハードウェアを用いたモデルアーキテクチャの共設計事例

The Case for Co-Designing Model Architectures with Hardware ( http://arxiv.org/abs/2401.14489v2 )

ライセンス: Link先を確認
Quentin Anthony, Jacob Hatef, Deepak Narayanan, Stella Biderman, Stas Bekman, Junqi Yin, Aamir Shafi, Hari Subramoni, Dhabaleswar Panda(参考訳) GPUは最先端のディープラーニングモデルのほとんどをトレーニングする責任があるが、新しいディープラーニング(DL)モデルを設計する場合、アーキテクチャの影響はしばしば見過ごされる。 その結果、ターゲットハードウェアに対してより快適になるようにdlモデルを変更すれば、dlトレーニングと推論のランタイムパフォーマンスが大幅に向上する。 本稿では,トランスモデルのランタイム性能を最大化するためのガイドラインを提案する。 これらのガイドラインは、GPU上で実行される計算カーネルの効率性に対するモデル形状を制御する様々なモデルハイパーパラメータの影響を慎重に考慮して作成されている。 効率の良いモデル形状を持つモデルのスループットは、類似のパラメータを持つが最適化されていないモデルに比べて精度を保ちながら最大39\%向上する。

While GPUs are responsible for training the vast majority of state-of-the-art deep learning models, the implications of their architecture are often overlooked when designing new deep learning (DL) models. As a consequence, modifying a DL model to be more amenable to the target hardware can significantly improve the runtime performance of DL training and inference. In this paper, we provide a set of guidelines for users to maximize the runtime performance of their transformer models. These guidelines have been created by carefully considering the impact of various model hyperparameters controlling model shape on the efficiency of the underlying computation kernels executed on the GPU. We find the throughput of models with efficient model shapes is up to 39\% higher while preserving accuracy compared to models with a similar number of parameters but with unoptimized shapes.
翻訳日:2024-02-01 16:51:43 公開日:2024-01-30
# 限られた資源を用いた位相測定による量子ステアリング

Quantum steering from phase measurements with limited resources ( http://arxiv.org/abs/2401.17431v1 )

ライセンス: Link先を確認
Gabriele Bizzarri, Ilaria Gianani, Mylenne Manrique, Vincenzo Berardi, Giovanni Capellini, Fabio Bruni, Marco Barbieri(参考訳) 量子ステアリング(quantum steering)は、ある当事者のアリス(alice)が遠方の状態(bob)の量子相関を介して制御する能力を捉え、局所的な隠れた状態モデルで許容されるよりも優れた能力を持つ。 量子ステアリングの存在を検証することは、量子チャネルの認証に意味があり、量子状態の計量的パワーとの関係が最近証明されている。 このリンクは、非ステアブル状態に対するクレー=ラオ境界保持の違反によって確立される: その直接評価は、多くの繰り返しの漸近的な体制において操作を必要とする。 ここで、我々は、限られた数のリソースの使用を明示的に考慮するために、以前の研究を拡張し、この修正されたアプローチを量子光学実験でテストする。 装置の欠陥は、マルチパラメータ設定における元のテストの適応を要求する。 この結果は,量子チャネルの検証にこのような気象学的アプローチを適用するためのガイドラインを提供する。

Quantum steering captures the ability of one party, Alice, to control through quantum correlations the state at a distant location, Bob, with superior ability than allowed by a local hidden state model. Verifying the presence of quantum steering has implications for the certification of quantum channels, and its connection to the metrological power of the quantum state has been recently proved. This link is established by means of the violation of a Cram\'er-Rao bound holding for non-steerable states: its direct assessment would then require operation in the asymptotic regime of a large number of repetitions. Here, we extend previous work to account explicitly for the use of a limited number of resources, and put this modified approach to test in a quantum optics experiment. The imperfections in the apparatus demand an adaptation of the original test in the multiparameter setting. Our results provide guidelines to apply such a metrological approach to the validation of quantum channels.
翻訳日:2024-02-01 16:43:41 公開日:2024-01-30
# 反ファクト量子通信を用いた量子ネットワーク

Quantum networks using counterfactual quantum communication ( http://arxiv.org/abs/2401.17397v1 )

ライセンス: Link先を確認
Aakash Warke, Kishore Thapliyal and Anirban Pathak(参考訳) 対物的量子通信は、量子通信の最も興味深い側面の1つであり、2つのパーティは、通信プロセスに関わるパーティ間で量子粒子や古典粒子の伝達なしに通信することができる。 この量子コミュニケーションの側面は、連鎖量子ゼノ効果が重要な役割を果たす相互作用のない測定から生じる。 本稿では、電子対から2つの独立した光子に絡み合った状態を送信する新しい反事実量子通信プロトコルを提案する。 ここで提案するプロトコルは, 住宅用キュービットから飛行用キュービットへの情報転送に, 対実的手法を用いることができることを示す。 次に,このプロトコルが反事実量子ネットワークに繋がる量子リピータの構築に利用され,線形量子ネットワーク上での反事実通信が可能となることを示す。

Counterfactual quantum communication is one of the most interesting facets of quantum communication, allowing two parties to communicate without any transmission of quantum or classical particles between the parties involved in the communication process. This aspect of quantum communication originates from the interaction-free measurements where the chained quantum Zeno effect plays an important role. Here, we propose a new counterfactual quantum communication protocol for transmitting an entangled state from a pair of electrons to two independent photons. Interestingly, the protocol proposed here shows that the counterfactual method can be employed to transfer information from house qubits to flying qubits. Following this, we show that the protocol finds uses in building quantum repeaters leading to a counterfactual quantum network, enabling counterfactual communication over a linear quantum network.
翻訳日:2024-02-01 16:43:22 公開日:2024-01-30
# トルコ語理解タスクのための微調整トランスベースエンコーダ

Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks ( http://arxiv.org/abs/2401.17396v1 )

ライセンス: Link先を確認
Savas Yildirim(参考訳) ディープラーニングと近年のTransformerベースの言語モデルは、ここ数年で自然言語処理の研究を支配している。 正確で高速な微調整特性のおかげで、従来の機械学習ベースのアプローチよりも優れており、nlu(自然言語理解)問題の多くに最先端の結果をもたらしている。 近年の研究では、変換器の双方向エンコーダ表現であるBERTのようなトランスフォーマーベースのモデルが、多くのタスクにおいて顕著な成果を上げている。 さらに、それらの伝達学習能力のおかげで、これらのアーキテクチャは、事前に構築されたモデルを変換し、質問応答などの特定のNLUタスクに微調整することができる。 本研究では,トルコ語のトランスフォーマーモデルとベースラインベンチマークを提案する。 トルコのBERTモデル、すなわち、ベース設定でトレーニングされたBERTurkを、多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価しました。 本研究は,トルコ語における固有認識,感性分析,質問回答,テキスト分類において,既存のベースラインアプローチを著しく上回る結果となった。 我々は、これら4つの微調整されたモデルとリソースを再現性と他のトルコの研究者やアプリケーションのサポートとして公開しました。

Deep learning-based and lately Transformer-based language models have been dominating the studies of natural language processing in the last years. Thanks to their accurate and fast fine-tuning characteristics, they have outperformed traditional machine learning-based approaches and achieved state-of-the-art results for many challenging natural language understanding (NLU) problems. Recent studies showed that the Transformer-based models such as BERT, which is Bidirectional Encoder Representations from Transformers, have reached impressive achievements on many tasks. Moreover, thanks to their transfer learning capacity, these architectures allow us to transfer pre-built models and fine-tune them to specific NLU tasks such as question answering. In this study, we provide a Transformer-based model and a baseline benchmark for the Turkish Language. We successfully fine-tuned a Turkish BERT model, namely BERTurk that is trained with base settings, to many downstream tasks and evaluated with a the Turkish Benchmark dataset. We showed that our studies significantly outperformed other existing baseline approaches for Named-Entity Recognition, Sentiment Analysis, Question Answering and Text Classification in Turkish Language. We publicly released these four fine-tuned models and resources in reproducibility and with the view of supporting other Turkish researchers and applications.
翻訳日:2024-02-01 16:43:08 公開日:2024-01-30
# 空洞支援量子メモリにおける光子の高速貯蔵

Fast storage of photons in cavity-assisted quantum memories ( http://arxiv.org/abs/2401.17394v1 )

ライセンス: Link先を確認
Johann S. Kollath-B\"onig, Luca Dellantonio, Luigi Giannelli, Tom Schmit, Giovanna Morigi and Anders S. S{\o}rensen(参考訳) 理想的なフォトニック量子メモリは、任意の光パルスを単位効率で保存することができる。 これは、パルスがメモリの帯域幅よりも長い時間を持つ断熱的な状態で動作する必要がある。 短パルスの非断熱的な状態においては、記憶は不完全であり、情報は常に失われる。 光キャビティ内に閉じ込められた個々の原子、またはそのアンサンブルに基づくセットアップの帯域制限を理論的に検討する。 パルスの持続時間によらず,記憶・検索プロセスの効率を最適化するための効果的な戦略を明らかにする。 本プロトコルは, ほぼ完全に解析的に導出され, 数値最適化により得られたプロトコルよりも効率が良い。 さらに,本研究は,いくつかのレシエーションにおける量子メモリの性能に関する理解を深めた。 無限の時間間隔で定義されるパルスを考えるとき、その形は漸近的な振る舞いによって2つのカテゴリに分けられる。 パルスの強度が指数関数よりも遅くなり、あるいは指数関数として増加すると、記憶効率はパルス幅によってのみ制限される。 一方、有限間隔で定義されたパルスに対して、効率は記憶の開始時の形状、または検索プロセスの終了時の形状によって決定される。

Ideal photonic quantum memories can store arbitrary pulses of light with unit efficiency. This requires operating in the adiabatic regime, where pulses have a duration much longer than the bandwidth of the memory. In the non-adiabatic regime of short pulses, memories are therefore imperfect, and information is always lost. We theoretically investigate the bandwidth limitations for setups based on individual atoms, or ensembles thereof, confined inside optical cavities. We identify an effective strategy for optimizing the efficiencies of the storage and retrieval process regardless of the duration of the pulses. Our protocol is derived almost completely analytically and attains efficiencies better than or comparable to those obtained by numerical optimization. Furthermore, our results provide an improved understanding of the performance of quantum memories in several regimes. When considering pulses defined on an infinite time interval, the shapes can be divided into two categories, depending on their asymptotic behaviours. If the intensity of the pulse increases with time slower than or as an exponential function, then the storage efficiency is only limited by the pulse width. For pulses defined on a finite interval, on the other hand, the efficiency is determined by the shape at the beginning of the storage or, correspondingly, at the end of the retrieval process.
翻訳日:2024-02-01 16:42:46 公開日:2024-01-30
# コントラスト型インコンテキスト学習による言語モデル応答のカスタマイズ

Customizing Language Model Responses with Contrastive In-Context Learning ( http://arxiv.org/abs/2401.17390v1 )

ライセンス: Link先を確認
Xiang Gao, Kamalika Das(参考訳) 大規模言語モデル(llm)は、機械学習アプリケーションでますます重要になっている。 しかし、LSMを私たちの意図に合わせることは困難であり、特に、他人に好まれるコンテンツを生成したい場合や、LCMが説明が難しい特定のスタイルやトーンで応答したい場合などです。 この課題に対処するために、コントラスト的な例を使って、私たちの意図をよりよく記述するアプローチを提案する。 これには、本当の意図を示す肯定的な例と、LLMが避けたい特性を示す否定的な例が含まれます。 否定的な例は、人間が書いたラベル付きデータから取得するか、llm自身によって生成される。 回答を生成する前に、モデルにサンプルを分析して避けるべきことを教えるように依頼します。 この推論ステップは、モデルにユーザのニーズを適切に表現し、より良い回答を生成するためのガイドを提供します。 StackExchangeやRedditなど,合成されたデータセットと実世界のデータセットの両方で,私たちのアプローチを試したところ,標準的な数発のプロンプトに比べてパフォーマンスが大幅に向上していることが分かりました。

Large language models (LLMs) are becoming increasingly important for machine learning applications. However, it can be challenging to align LLMs with our intent, particularly when we want to generate content that is preferable over others or when we want the LLM to respond in a certain style or tone that is hard to describe. To address this challenge, we propose an approach that uses contrastive examples to better describe our intent. This involves providing positive examples that illustrate the true intent, along with negative examples that show what characteristics we want LLMs to avoid. The negative examples can be retrieved from labeled data, written by a human, or generated by the LLM itself. Before generating an answer, we ask the model to analyze the examples to teach itself what to avoid. This reasoning step provides the model with the appropriate articulation of the user's need and guides it towards generting a better answer. We tested our approach on both synthesized and real-world datasets, including StackExchange and Reddit, and found that it significantly improves performance compared to standard few-shot prompting
翻訳日:2024-02-01 16:42:28 公開日:2024-01-30
# Infini-gram:非有界n-gram言語モデルからトリリオントークンへのスケーリング

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens ( http://arxiv.org/abs/2401.17377v1 )

ライセンス: Link先を確認
Jiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi(参考訳) n-gram言語モデルは、この時代の神経大言語モデル(LLM)にまだ関係があるだろうか? 我々の答えはイエスであり、テキスト分析とニューラルLLMの改善の両方でそれらの値を示す。 しかし、これは n-gram モデルを2つの側面で近代化する必要がある。 まず、ニューラルネットワークLLMと同じデータスケールでトレーニングします -- 1.4兆トークンです。 これは史上最大のn-gramモデルである。 第二に、既存の n-gram モデルは、その性能を妨げる小さな n を用いており、代わりに、バックオフ付き $\infty$-gram LM を導入して n を任意の大きさにすることができる。 n-gramカウントテーブルをプリ計算する(非常に高価)代わりに、ミリ秒レベルのレイテンシで$\infty$-gram(および任意のn-gramを持つn-gram)の確率を計算できるinfini-gramというエンジンを開発します。 例えば、$\infty$-gramフレームワークとinfini-gramエンジンは、人間の書き起こしと機械生成のテキストの新規かつ興味深い分析を可能にする:$\infty$-gram LMは、次のトーケン予測(47%)に対してかなり高い精度を持ち、ニューラルLLMを補完し、言語モデリングの難易度を大幅に減らすことができる。 また,機械生成テキストを解析する際には,機械の接尾辞長に対する$$\infty$-gramの一致レベルの不規則性も観察し,ニューラルLLM事前学習の欠陥とトランスフォーマーの位置埋め込みを示す。 我々は,大規模なテキストコーパスから検索した動詞情報をどのように最適に活用するか,さらなる研究を可能にするために,インフィニグラムエンジンをオープンソース化した。

Are n-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we show their values in both text analysis and improving neural LLMs. Yet this necessitates modernizing n-gram models in two aspects. First, we train them at the same data scale as neural LLMs -- 1.4 trillion tokens. This is the largest n-gram model ever built. Second, existing n-gram models use small n which hinders their performance; we instead allow n to be arbitrarily large, by introducing a new $\infty$-gram LM with backoff. Instead of pre-computing n-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute $\infty$-gram (as well as n-gram with arbitrary n) probabilities with millisecond-level latency. The $\infty$-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the $\infty$-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their language modeling perplexities. When analyzing machine-generated text, we also observe irregularities in the machine--$\infty$-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers. We open-source our infini-gram engine in the hopes of enabling more study on how to best use verbatim information retrieved from large text corpora.
翻訳日:2024-02-01 16:42:08 公開日:2024-01-30
# アラビア語のツイート法:Twitter上のアラビア語の音声行為を分類するための事前訓練されたトランスフォーマーモデル

Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for Classifying Arabic Speech Acts on Twitter ( http://arxiv.org/abs/2401.17373v1 )

ライセンス: Link先を確認
Khadejaa Alshehri, Areej Alhothali and Nahed Alowidi(参考訳) 発話行為とは、会話の中で発話を行う際に、質問、推薦、挨拶、感謝、思考の表現、提案などを行う際の話者の行為である。 言語行動を理解することは、話者や作家の言葉の背後にある意図された意味や行動を理解するのに役立つ。 本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。 Twitterやソーシャルメディアは、日々の生活にますます統合されつつある。 結果として、彼らはユーザーの見解や態度を表す重要な情報源へと進化してきた。 本研究では,アラビア語音声行為分類における様々なbertモデルの利点を統合するために,bertを用いた重み付きアンサンブル学習手法を提案する。 提案モデルとアラビア語 bert モデルおよびシーケンスベースモデルの比較を行った。 既存のアラビア語感情分析データセット (asad) のサブセットを6つの発話行動カテゴリにアノテートすることにより, 方言的アラビア語ツイート行動データセットを開発した。 また,以前開発されたアラビア語ツイートアクトデータセット (arsas) 上で評価を行った。 音声行為問題でよく見られるクラス不均衡問題を克服するため,トランスフォーマーに基づくデータ拡張モデルを導入し,音声行為カテゴリの等比を生成する。 その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。 BERTに基づくアンサンブル法では,平均F1スコアと精度をそれぞれ0.74と0.85で改善した。

Speech acts are a speakers actions when performing an utterance within a conversation, such as asking, recommending, greeting, or thanking someone, expressing a thought, or making a suggestion. Understanding speech acts helps interpret the intended meaning and actions behind a speakers or writers words. This paper proposes a Twitter dialectal Arabic speech act classification approach based on a transformer deep learning neural network. Twitter and social media, are becoming more and more integrated into daily life. As a result, they have evolved into a vital source of information that represents the views and attitudes of their users. We proposed a BERT based weighted ensemble learning approach to integrate the advantages of various BERT models in dialectal Arabic speech acts classification. We compared the proposed model against several variants of Arabic BERT models and sequence-based models. We developed a dialectal Arabic tweet act dataset by annotating a subset of a large existing Arabic sentiment analysis dataset (ASAD) based on six speech act categories. We also evaluated the models on a previously developed Arabic Tweet Act dataset (ArSAS). To overcome the class imbalance issue commonly observed in speech act problems, a transformer-based data augmentation model was implemented to generate an equal proportion of speech act categories. The results show that the best BERT model is araBERTv2-Twitter models with a macro-averaged F1 score and an accuracy of 0.73 and 0.84, respectively. The performance improved using a BERT-based ensemble method with a 0.74 and 0.85 averaged F1 score and accuracy on our dataset, respectively.
翻訳日:2024-02-01 16:41:36 公開日:2024-01-30
# ナノダイアモンド・レラクソメトリーによる水中のナノモル常磁性スピンの検出

Optically-Trapped Nanodiamond-Relaxometry Detection of Nanomolar Paramagnetic Spins in Aqueous Environments ( http://arxiv.org/abs/2401.17372v1 )

ライセンス: Link先を確認
Shiva Iyer, Changyu Yao, Olivia Lazorik, Pengyun Wang, Gianna Glenn, Michael Mohs, Yinyao Shi, Michael Mansour, Erik Henriksen, Kater Murch, Shankar Mukherji, Chong Zu(参考訳) 水環境における電気的および磁気的性質の探索は、ナノスケールセンシングにおけるフロンティア課題である。 例えば、新しい材料から生きた細胞まで、さまざまなシステムでイオン環境を理解することには厳しい制限が課されています。 蛍光ナノダイアモンド(FND)の窒素-原子空洞(NV)中心は、ナノスケールにおける温度、pH、および常磁性種の濃度を検知する良い候補として現れてきたが、校正された測定を困難にする粒子-粒子間変動や、水環境における正確な位置センサーの厳密化といったハードルがいくつかある。 これを解決するために,光学式FNDにおけるNV中心の緩和効果を示す。 原理実証実験において、光トラップしたfndはパラ磁性イオンに対して高い再現性を持つナノモル感度(\mathrm{gd}^{3+}\)を可能にすることを示した。 我々は、スピンコヒーレンスダイナミクスと組み合わせたナノスケールラングミュア吸着に類似したモデルを開発することで、実験データの3つの相を捉える。 我々の研究は、生物学的な条件下で自由な常磁性イオンと分子を感知する経路の基礎を提供する。

Probing electrical and magnetic properties in aqueous environments remains a frontier challenge in nanoscale sensing. Our inability to do so with quantitative accuracy imposes severe limitations, for example, on our understanding of the ionic environments in a diverse array of systems, ranging from novel materials to the living cell. The Nitrogen-Vacancy (NV) center in fluorescent nanodiamonds (FNDs) has emerged as a good candidate to sense temperature, pH, and the concentration of paramagnetic species at the nanoscale, but comes with several hurdles such as particle-to-particle variation which render calibrated measurements difficult, and the challenge to tightly confine and precisely position sensors in aqueous environment. To address this, we demonstrate relaxometry with NV centers within optically-trapped FNDs. In a proof of principle experiment, we show that optically-trapped FNDs enable highly reproducible nanomolar sensitivity to the paramagnetic ion, \(\mathrm{Gd}^{3+}\). We capture the three distinct phases of our experimental data by devising a model analogous to nanoscale Langmuir adsorption combined with spin coherence dynamics. Our work provides a basis for routes to sense free paramagnetic ions and molecules in biologically relevant conditions.
翻訳日:2024-02-01 16:41:10 公開日:2024-01-30
# ユニタリミラー回路による計測誘起エンタングルメント遷移の検出

Detecting Measurement-Induced Entanglement Transitions With Unitary Mirror Circuits ( http://arxiv.org/abs/2401.17367v1 )

ライセンス: Link先を確認
Yariv Yanay, Brian Swingle, Charles Tahan(参考訳) 監視されたランダム回路は、2つのキュービットゲートを絡む交互の層と、数ドルのキュービットに適用される射影的シングルキュービットの測定からなるが、近年の関心の対象となっている。 特に、結果として生じる定常状態は、高相関状態と「体積則」絡み合いが$p<p_{c}$から「領域則」絡み合いが$p>p_{c}$の局所状態への相転移を示す。 アンサンブルレベルでは見ることができないので、実験的にこの遷移にアクセスするのは難しい。 つまり、観測するには、測定結果のセットが繰り返すまで実験を繰り返す必要があり、測定結果の数が指数関数的に小さい。 この問題を克服するため,我々は,投影回路の行列積状態(MPS)に基づく「ユニタリミラー」を生成するハイブリッド量子古典アルゴリズムを提案する。 多項式サイズのテンソルネットワークは、面積則の絡み合いを持つ量子状態を表すことができ、ユニタリミラーは、実験状態が $p_{c}$ を超えることを十分に近似できるが、指数関数的にその下には失敗する。 このミラーの破れは臨界点をピンポイントすることができる。 アルゴリズムの概要とその結果について概説する。 我々は、mpsによってよく表現される任意の状態の最大エンタングルメントエントロピーに境界を示し、この境界からボリュームロー位相がどのように有界になるかを示唆する。 我々は、この絡み合いがMPSが失敗する下からも同様に束縛できるかどうか検討する。 最後に、小さな量子ビット数とランダムなクリフォードゲートを持つモニタ回路の数値結果を示す。

Monitored random circuits, consisting of alternating layers of entangling two-qubit gates and projective single-qubit measurements applied to some fraction $p$ of the qubits, have been a topic of recent interest. In particular, the resulting steady state exhibits a phase transition from highly correlated states with "volume-law" entanglement at $p<p_{c}$ to localized states with "area-law" entanglement at $p>p_{c}$. It is hard to access this transition experimentally, as it cannot be seen at the ensemble level. Naively, to observe it one must repeat the experiment until the set of measurement results repeats itself, with likelihood that is exponentially small in the number of measurements. To overcome this issue, we present a hybrid quantum-classical algorithm which creates a matrix product state (MPS) based "unitary mirror" of the projected circuit. Polynomial-sized tensor networks can represent quantum states with area-law entanglement, and so the unitary mirror can well-approximate the experimental state above $p_{c}$ but fails exponentially below it. The breaking of this mirror can thus pinpoint the critical point. We outline the algorithm and how such results would be obtained. We present a bound on the maximum entanglement entropy of any given state that is well-represented by an MPS, and from the bound suggest how the volume-law phase can be bounded. We consider whether the entanglement could similarly be bounded from below where the MPS fails. Finally, we present numerical results for small qubit numbers and for monitored circuits with random Clifford gates.
翻訳日:2024-02-01 16:40:41 公開日:2024-01-30
# デコヒーレント量子誤り訂正符号における双対性のタペストリー

Tapestry of dualities in decohered quantum error correction codes ( http://arxiv.org/abs/2401.17359v1 )

ライセンス: Link先を確認
Kaixiang Su, Zhou Yang, Chao-Ming Jian(参考訳) 量子誤り訂正(QEC)符号は、デコヒーレンスによる誤りから量子情報を保護する。 それらの多くは、エキゾチックなトポロジカル量子問題の原型モデルとしても機能する。 デコヒーレンスの下でのQEC符号の挙動の調査は、符号のエラーに対する堅牢性だけでなく、デコヒーレンスによって駆動される新しい非平衡量子相にも光を当てる。 QEC符号の誤り閾値を含む位相遷移は、システムのR\enyiエントロピー$S_R$と異なるR\enyiインデックス$R$で探索することができる。 本稿では,パウリ雑音によるQEC符号のR'enyiエントロピーを特徴付ける統計モデルの一般的な構成について検討する。 これらの統計モデルは, 豊かな双対関係を織り込んだ「テーペストリー」に構成できることを示す。 ビットフリップと位相フリップの誤差を持つCalderbank-Shor-Steane (CSS)符号に対して、各R'enyiエントロピーがランダム性を持つ2つの統計モデルによって捕捉されることを示す。 R=2,3,\infty$の場合、CSSコード内のデコヒーレンス誘起相転移の臨界ビットフリップと位相フリップエラー率に関連する2つのエラータイプの間には、追加の双対性が存在する。 x$-type と $z$-type stabilizers の間の "$em$ symmetry" を持つ css コードでは、$r=2,3,\infty$ の双対性は超普遍的な自己双対誤差率を持つ自己双対性になる。 これらの自己双対性は、$S_{R=2,3,\infty}$で示される符号の相転移を強く制約する。 汎用的なパウリ雑音でデコヒーレントされた一般的な安定化符号に対しては、システムのエントロピーを特徴付ける統計モデルを構築し、誤差率の異なるパウリ雑音間の一般双対関係を得る。

Quantum error correction (QEC) codes protect quantum information from errors due to decoherence. Many of them also serve as prototypical models for exotic topological quantum matters. Investigating the behavior of the QEC codes under decoherence sheds light on not only the codes' robustness against errors but also new out-of-equilibrium quantum phases driven by decoherence. The phase transitions, including the error threshold, of the decohered QEC codes can be probed by the systems' R\'enyi entropies $S_R$ with different R\'enyi indices $R$. In this paper, we study the general construction of the statistical models that characterize the R\'enyi entropies of QEC codes decohered by Pauli noise. We show that these statistical models can be organized into a "tapestry" woven by rich duality relations among them. For Calderbank-Shor-Steane (CSS) codes with bit-flip and phase-flip errors, we show that each R\'enyi entropy is captured by a pair of dual statistical models with randomness. For $R=2,3,\infty$, there are additional dualities that map between the two error types, relating the critical bit-flip and phase-flip error rates of the decoherence-induced phase transitions in the CSS codes. For CSS codes with an "$em$ symmetry" between the $X$-type and the $Z$-type stabilizers, the dualities with $R=2,3,\infty$ become self-dualities with super-universal self-dual error rates. These self-dualities strongly constrain the phase transitions of the code signaled by $S_{R=2,3,\infty}$. For general stabilizer codes decohered by generic Pauli noise, we also construct the statistical models that characterize the systems' entropies and obtain general duality relations between Pauli noise with different error rates.
翻訳日:2024-02-01 16:40:13 公開日:2024-01-30
# 混合状態量子異常と多部絡み合い

Mixed-state quantum anomaly and multipartite entanglement ( http://arxiv.org/abs/2401.17357v1 )

ライセンス: Link先を確認
Leonardo A. Lessa, Meng Cheng, Chong Wang(参考訳) 多体状態の量子絡み合い測定は、物質の相を特徴づけるのにますます有用である。 ここでは、混合状態絡み合いと't Hooft anomaly'の間の驚くべき関係を探求する。 より具体的には、異常対称性を持つd$空間次元の格子系を考えると、アノマリーは群コホモロジー $h^{d+2}(g,u(1))$ の不変量によって特徴づけられる。 G\rho\propto\rho$は必ずしも$(d+2)$-非分離である、すなわちヒルベルト空間における$d+2$状態のテンソル積の混合ではないという意味で、$G$の下で強い対称である混合状態$\rho$が示される。 さらに、そのような状態は、有限深さの局所量子チャネルを用いて任意の$(d+2)$-分離状態から準備することはできないので、非分離性は自然界において長い距離を持つ。 これらの結果の証明を$d\leq1$で、妥当性引数を$d>1$で提供します。 したがって、異常非分離接続は、非自明な長距離多部絡み合い($d=1$)を持つ混合状態の単純な例を生成することができる。 また、リーブ・シュルツ・マティス型の異常に制約されたシステムを含む、強対称性と弱対称性の両方を含む混合異常についても短時間議論する。

Quantum entanglement measures of many-body states have been increasingly useful to characterize phases of matter. Here we explore a surprising connection between mixed state entanglement and 't Hooft anomaly. More specifically, we consider lattice systems in $d$ space dimensions with anomalous symmetry $G$ where the anomaly is characterized by an invariant in the group cohomology $H^{d+2}(G,U(1))$. We show that any mixed state $\rho$ that is strongly symmetric under $G$, in the sense that $G\rho\propto\rho$, is necessarily $(d+2)$-nonseparable, i.e. is not the mixture of tensor products of $d+2$ states in the Hilbert space. Furthermore, such states cannot be prepared from any $(d+2)$-separable states using finite-depth local quantum channels, so the nonseparability is long-ranged in nature. We provide proof of these results in $d\leq1$, and plausibility arguments in $d>1$. The anomaly-nonseparability connection thus allows us to generate simple examples of mixed states with nontrivial long-ranged multipartite entanglement (even in $d=1$). We also briefly discuss mixed anomaly involving both strong and weak symmetries, including systems constrained by the Lieb-Schultz-Mattis type of anomaly.
翻訳日:2024-02-01 16:39:39 公開日:2024-01-30
# メタモデルに基づく言語進化と自動文法最適化による高速プロトタイピング

Supporting Meta-model-based Language Evolution and Rapid Prototyping with Automated Grammar Optimization ( http://arxiv.org/abs/2401.17351v1 )

ライセンス: Link先を確認
Weixing Zhang, J\"org Holtmann, Daniel Str\"uber, Regina Hebig, Jan-Philipp Stegh\"ofer(参考訳) モデル駆動エンジニアリングでは、テキストドメイン固有言語(DSL)の開発は、基礎となる抽象構文を定義するメタモデルと、DSLの具体的な構文を定義する文法の構築を伴う。 xtextのような言語ワークベンチでは、メタモデルから文法を自動的に生成できますが、生成された文法は通常、ユーザビリティを向上させるために手作業で最適化する必要があります。 迅速なプロトタイピングや言語の進化中にメタモデルが変化すると、文法を再生成して再度最適化し、繰り返しの努力とエラーの可能性を引き起こす必要がある。 本稿では,メタモデルに基づく言語進化の文脈で生成した文法を最適化する手法である grammaroptimizer を提案する。 高速なプロトタイピングと言語進化における言語エンジニアの労力を削減するため、設定可能な文法最適化ルールのカタログを提供する。 設定が完了すると、これらのルールは将来の進化ステップ後に自動的に適用および再適用され、冗長な手作業が大幅に削減される。 さらに、サポートされている最適化のいくつかは、具体的な構文要素のスタイルを世界規模で変更することができる。 文法最適化ルールは、7つの利用可能なdslに基づいて、生成された既存の専門家による文法の比較から抽出された。

In model-driven engineering, developing a textual domain-specific language (DSL) involves constructing a meta-model, which defines an underlying abstract syntax, and a grammar, which defines the concrete syntax for the DSL. Language workbenches such as Xtext allow the grammar to be automatically generated from the meta-model, yet the generated grammar usually needs to be manually optimized to improve its usability. When the meta-model changes during rapid prototyping or language evolution, it can become necessary to re-generate the grammar and optimize it again, causing repeated effort and potential for errors. In this paper, we present GrammarOptimizer, an approach for optimizing generated grammars in the context of meta-model-based language evolution. To reduce the effort for language engineers during rapid prototyping and language evolution, it offers a catalog of configurable grammar optimization rules. Once configured, these rules can be automatically applied and re-applied after future evolution steps, greatly reducing redundant manual effort. In addition, some of the supported optimizations can globally change the style of concrete syntax elements, further significantly reducing the effort for manual optimizations. The grammar optimization rules were extracted from a comparison of generated and existing, expert-created grammars, based on seven available DSLs.
翻訳日:2024-02-01 16:39:13 公開日:2024-01-30
# ディープブラックリッターマンモデルによる時系列サプライヤ割り当てリスク最適化

Timeseries Suppliers Allocation Risk Optimization via Deep Black Litterman Model ( http://arxiv.org/abs/2401.17350v1 )

ライセンス: Link先を確認
Jiayuan Luo, Wentao Zhang, Yuchen Fang, Xiaowei Gao, Dingyi Zhuang, Hao Chen, Xinke Jiang(参考訳) 我々は,時間と空間のダイナミクスに着目し,サプライヤの選択と順序割り当てを最適化するblモデルとパースペクティブマトリックスを提案する。 我々は,時空間グラフニューラルネットワークを用いたサプライヤ関係ネットワークの開発により,複雑なサプライヤ相互依存性の理解を深める。 さらに,マスケッドランキング機構を用いたゼロオーダーシナリオにおける信頼性問題に対処し,サプライヤーのランキング効率を向上させる。 従来のモデルと比較して,2つのデータセットに対して優れた結果を示す。 実世界のデータセットを用いた評価では、特に高分解能シナリオにおいて、正確な予測と正確な信頼区間を提供するdblmの優位性が強調される。

We introduce the BL model and the Perspective Matrix to optimize supplier selection and order allocation, focusing on both temporal and spatial dynamics. Our development of a Supplier Relationship Network, using a Spatio-Temporal Graph Neural Network, enhances the understanding of complex supplier interdependencies. Additionally, we address credibility issues in zero-order scenarios with a Masked Ranking Mechanism, improving supplier ranking efficiency. Our model demonstrates superior results on two datasets compared to the traditional models. Our evaluations using real-world datasets highlight DBLM's superiority in providing accurate predictions and precise confidence intervals, particularly in high-resolution scenarios.
翻訳日:2024-02-01 16:38:52 公開日:2024-01-30
# 機械学習における擬似乱数生成器の再現性、エネルギー効率、性能:python, numpy, tensorflow, pytorchの実装の比較研究

Reproducibility, energy efficiency and performance of pseudorandom number generators in machine learning: a comparative study of python, numpy, tensorflow, and pytorch implementations ( http://arxiv.org/abs/2401.17345v1 )

ライセンス: Link先を確認
Benjamin Antunes, David R.C Hill(参考訳) Pseudo-Random Number Generators (PRNGs) は、機械学習技術において多くの手法に興味深いため、ユビキタスになった。 機械学習の分野は、近年の大規模言語モデル(llm)のブレークスルーの例のように、さまざまな領域で大きく進歩する可能性を秘めている。 しかしながら、関心が高まっているにもかかわらず、持続的な懸念は再現性やエネルギー消費に関する問題を含んでいる。 再現性は、堅牢な科学的調査と説明可能性に不可欠であり、エネルギー効率は有限な地球資源の保存を必須とする。 本研究は,Pseudo-Random Number Generators (PRNGs) が,各PRNGアルゴリズムのオリジナルのC実装と比較して,統計的品質と数値再現性を裏付ける機械学習言語,ライブラリ,フレームワークに採用されているかどうかを考察する。 さらに, 各種実装の時間効率とエネルギー消費を評価することを目的とする。 我々の実験にはPython、NumPy、TensorFlow、PyTorchが含まれており、Mersenne Twister、PCG、Philoxアルゴリズムを利用している。 注目すべきは、機械学習技術の時間的性能がCベースの実装と密接に一致していることであり、さらに優れたパフォーマンスを達成する事例である。 一方で、ml技術がc実装技術よりも10%のエネルギーを消費していることは注目に値する。 しかし, 統計的品質は同等であることがわかったが, 同一の種とアルゴリズムの異なるプラットフォーム間で数値再現性は得られなかった。

Pseudo-Random Number Generators (PRNGs) have become ubiquitous in machine learning technologies because they are interesting for numerous methods. The field of machine learning holds the potential for substantial advancements across various domains, as exemplified by recent breakthroughs in Large Language Models (LLMs). However, despite the growing interest, persistent concerns include issues related to reproducibility and energy consumption. Reproducibility is crucial for robust scientific inquiry and explainability, while energy efficiency underscores the imperative to conserve finite global resources. This study delves into the investigation of whether the leading Pseudo-Random Number Generators (PRNGs) employed in machine learning languages, libraries, and frameworks uphold statistical quality and numerical reproducibility when compared to the original C implementation of the respective PRNG algorithms. Additionally, we aim to evaluate the time efficiency and energy consumption of various implementations. Our experiments encompass Python, NumPy, TensorFlow, and PyTorch, utilizing the Mersenne Twister, PCG, and Philox algorithms. Remarkably, we verified that the temporal performance of machine learning technologies closely aligns with that of C-based implementations, with instances of achieving even superior performances. On the other hand, it is noteworthy that ML technologies consumed only 10% more energy than their C-implementation counterparts. However, while statistical quality was found to be comparable, achieving numerical reproducibility across different platforms for identical seeds and algorithms was not achieved.
翻訳日:2024-02-01 16:38:39 公開日:2024-01-30
# 回路QEDにおけるDicke Superradiantによる熱電流の増強

Dicke superradiant enhancement of the heat current in circuit QED ( http://arxiv.org/abs/2401.17469v1 )

ライセンス: Link先を確認
Gian Marcello Andolina, Paolo Andrea Erdman, Frank No\'e, Jukka Pekola, and Marco Schir\`o(参考訳) Dicke superradiant emissionのような集団効果は、量子デバイスの性能を高めることができる。 そこで本研究では, 冷水浴と温水浴の間に流れる熱流を, 熱水浴に結合したN$ qubitsのアンサンブルを通して検討した。 集合結合が有限サイズのシナリオでN$で熱電流の2次スケーリングにつながる状態を見つける。 逆に、熱力学限界に近づくと、集合シナリオが非衝突の場合よりもパラメトリックな拡張を示すことが証明される。 次に, 外部環境に対する不可避なカップリングをモデル化し, 局所的に各キュービットと相互作用する第3の制御不能な寄生浴の存在を検討する。 定常電流に非摂動効果があるにもかかわらず, 集団増強はそのような付加に対して堅牢であることを示す。 最後に,超伝導回路を用いたディック熱弁の実現可能性について論じる。 その結果, 2つの超伝導量子ビットを持つ最小現実的な実験環境では, 集合的アドバンテージは非集合的シナリオと比較して約10-%$向上することがわかった。

Collective effects, such as Dicke superradiant emission, can enhance the performance of a quantum device. Here, we study the heat current flowing between a cold and a hot bath through an ensemble of $N$ qubits, which are collectively coupled to the thermal baths. We find a regime where the collective coupling leads to a quadratic scaling of the heat current with $N$ in a finite-size scenario. Conversely, when approaching the thermodynamic limit, we prove that the collective scenario exhibits a parametric enhancement over the non-collective case. We then consider the presence of a third uncontrolled {\it parasitic} bath, interacting locally with each qubit, that models unavoidable couplings to the external environment. Despite having a non-perturbative effect on the steady-state currents, we show that the collective enhancement is robust to such an addition. Finally, we discuss the feasibility of realizing such a Dicke heat valve with superconducting circuits. Our findings indicate that in a minimal realistic experimental setting with two superconducting qubits, the collective advantage offers an enhancement of approximately $10\%$ compared to the non-collective scenario.
翻訳日:2024-02-01 16:29:49 公開日:2024-01-30
# 2次効果による予測不確かさの説明

Explaining Predictive Uncertainty by Exposing Second-Order Effects ( http://arxiv.org/abs/2401.17441v1 )

ライセンス: Link先を確認
Florian Bley and Sebastian Lapuschkin and Wojciech Samek and Gr\'egoire Montavon(参考訳) 説明可能なAIは、複雑なMLブラックボックスに透明性をもたらし、特に、これらのモデルが予測に使用する機能を特定することができる。 これまでのところ、予測の不確実性、すなわち「疑わしい」モデルについてはほとんど研究されていない。 我々の調査によると、予測の不確実性は、単一の特徴や製品間の相互作用を含む2階効果に支配されている。 この2次効果に基づいて予測不確実性を説明する新しい手法を提案する。 計算により,本手法は一階述語に対する単純な共分散計算に還元される。 提案手法は一般に適用可能であり,共通属性技術(LRP, Gradient x Inputなど)を2次不確実性説明器に変換し,これをCovLRP, CovGIなどと呼ぶ。 本手法が生み出す説明の正確性は,体系的な定量的評価によって実証され,本手法の総合的有用性は2つの実演で実証された。

Explainable AI has brought transparency into complex ML blackboxes, enabling, in particular, to identify which features these models use for their predictions. So far, the question of explaining predictive uncertainty, i.e. why a model 'doubts', has been scarcely studied. Our investigation reveals that predictive uncertainty is dominated by second-order effects, involving single features or product interactions between them. We contribute a new method for explaining predictive uncertainty based on these second-order effects. Computationally, our method reduces to a simple covariance computation over a collection of first-order explanations. Our method is generally applicable, allowing for turning common attribution techniques (LRP, Gradient x Input, etc.) into powerful second-order uncertainty explainers, which we call CovLRP, CovGI, etc. The accuracy of the explanations our method produces is demonstrated through systematic quantitative evaluations, and the overall usefulness of our method is demonstrated via two practical showcases.
翻訳日:2024-02-01 16:29:29 公開日:2024-01-30
# 擬エルミート・ランダウ・ツェナー・シュタッケルベルク・マヨラナ効果の量子シミュレーション

Quantum simulation of the pseudo-Hermitian Landau-Zener-St\"uckelberg-Majorana effect ( http://arxiv.org/abs/2401.17438v1 )

ライセンス: Link先を確認
Feliks Kivel\"a, Shruti Dogra, Gheorghe Sorin Paraoanu(参考訳) 標準量子力学で使われるハミルトニアンはエルミート型であるが、非ヘルミート型ハミルトニアンに理論を拡張することもできる。 特に興味深いのは、非エルミートハミルトニアンがパリティ時間(PT)対称性を満たすこと、あるいはより一般に擬ハーモニティ性である。 本研究では,Landau-Zener-St\"uckelberg-Majorana (LZSM) モデルの擬エルミート拡張に使用される時間依存非エルミート対称ハミルトンの量子シミュレーションを提案する。 このシミュレーションは、ナイマーク拡張を用いて、非エルミートハミルトニアンを1キュービットとアンシラに対してエルミートハミルトニアンに変換し、アンシラ状態におけるポストセレクションにより、元の非エルミートハミルトニアンに対応する非ユニタリ時間発展を保証している。 擬エルミート型LZSMシステムの理論的処理に基づいて,時間的遷移速度の依存性や,他の動的不変量による全確率の保存の置き換えなどの特性を予測した。

While the Hamiltonians used in standard quantum mechanics are Hermitian, it is also possible to extend the theory to non-Hermitian Hamiltonians. Particularly interesting are non-Hermitian Hamiltonians satisfying parity-time (PT) symmetry, or more generally pseudo-Hermiticity, since such non-Hermitian Hamiltonians can still exhibit real eigenvalues. In this work, we present a quantum simulation of the time-dependent non-Hermitian non-PT-symmetric Hamiltonian used in a pseudo-Hermitian extension of the Landau-Zener-St\"uckelberg-Majorana (LZSM) model. The simulation is implemented on a superconducting processor by using Naimark dilation to transform a non-Hermitian Hamiltonian for one qubit into a Hermitian Hamiltonian for a qubit and an ancilla; postselection on the ancilla state ensures that the qubit undergoes nonunitary time-evolution corresponding to the original non-Hermitian Hamiltonian. We observe properties such as the dependence of transition rates on time and the replacement of conservation of total probability by other dynamical invariants in agreement with predictions based on a theoretical treatment of the pseudo-Hermitian LZSM system.
翻訳日:2024-02-01 16:29:10 公開日:2024-01-30
# モバイルパズルゲームにおける難易度モデリング:プレイヤーアナリティクスとシミュレーションデータを組み合わせた方法に関する実証的研究

Difficulty Modelling in Mobile Puzzle Games: An Empirical Study on Different Methods to Combine Player Analytics and Simulated Data ( http://arxiv.org/abs/2401.17436v1 )

ライセンス: Link先を確認
Jeppe Theiss Kristensen, Paolo Burelli(参考訳) 難易度はプレイヤーエンゲージメントの鍵となる要因の1つであり、しばしばデザイナーがプレイヤー体験を最適化するために最も微調整する側面の1つである。 一般的なプラクティスは、コンテンツとのインタラクションによって収集されたデータからメトリクスを作成することだが、コンテンツが解放された後にのみ見積もりが可能であり、将来のプレイヤーの特徴を考慮しない。 本稿では,このような条件下での難易度を推定するための潜在的な解決策をいくつか提示し,異なるシナリオにおいてどの手法とどのタイプのデータがより優れているかを理解することを目的とした比較研究の結果を示す。 その結果、コホート統計とシミュレーションデータの組み合わせで訓練されたモデルは、すべてのシナリオにおいて最も正確な難易度の推定結果を生成することがわかった。 さらに、これらのモデルの中で、人工ニューラルネットワークが最も一貫した結果を示す。

Difficulty is one of the key drivers of player engagement and it is often one of the aspects that designers tweak most to optimise the player experience; operationalising it is, therefore, a crucial task for game development studios. A common practice consists of creating metrics out of data collected by player interactions with the content; however, this allows for estimation only after the content is released and does not consider the characteristics of potential future players. In this article, we present a number of potential solutions for the estimation of difficulty under such conditions, and we showcase the results of a comparative study intended to understand which method and which types of data perform better in different scenarios. The results reveal that models trained on a combination of cohort statistics and simulated data produce the most accurate estimations of difficulty in all scenarios. Furthermore, among these models, artificial neural networks show the most consistent results.
翻訳日:2024-02-01 16:28:43 公開日:2024-01-30
# 大規模言語モデルは経済選択予測ラボを置き換えることができるか?

Can Large Language Models Replace Economic Choice Prediction Labs? ( http://arxiv.org/abs/2401.17435v1 )

ライセンス: Link先を確認
Eilam Shapira, Omer Madmon, Roi Reichart, Moshe Tennenholtz(参考訳) 経済選択予測は重要な課題であり、しばしば人間の選択データを取得することの難しさに制約される。 実際、実験経済学の研究は主に単純な選択設定に焦点を当てていた。 aiコミュニティは、最近この取り組みに2つの方法で貢献している: 前述の単純な選択予測設定でllmが人間に代用できるかどうか、そして、不完全な情報、反復遊び、自然言語コミュニケーション、特に言語ベースの説得ゲームを用いた、より精巧だが厳密な実験経済設定のmlレンズを通しての研究。 llmは、経済環境を完全にシミュレートし、効率的な人間の選択予測のためのデータを生成し、精巧な経済研究所の研究に代えることができるか? 我々はこの研究の先駆者であり、その実現可能性を示している。 特に、LLM生成データのみに基づいてトレーニングされたモデルは、言語ベースの説得ゲームにおいて人間の行動を効果的に予測でき、実際の人間のデータに基づいてトレーニングされたモデルよりも優れていることを示す。

Economic choice prediction is an essential challenging task, often constrained by the difficulties in acquiring human choice data. Indeed, experimental economics studies had focused mostly on simple choice settings. The AI community has recently contributed to that effort in two ways: considering whether LLMs can substitute for humans in the above-mentioned simple choice prediction settings, and the study through ML lens of more elaborated but still rigorous experimental economics settings, employing incomplete information, repetitive play, and natural language communication, notably language-based persuasion games. This leaves us with a major inspiration: can LLMs be used to fully simulate the economic environment and generate data for efficient human choice prediction, substituting for the elaborated economic lab studies? We pioneer the study of this subject, demonstrating its feasibility. In particular, we show that a model trained solely on LLM-generated data can effectively predict human behavior in a language-based persuasion game, and can even outperform models trained on actual human data.
翻訳日:2024-02-01 16:28:28 公開日:2024-01-30
# ハッカソンにおける生成AIの統合:機会、課題、教育的意味

Integrating Generative AI in Hackathons: Opportunities, Challenges, and Educational Implications ( http://arxiv.org/abs/2401.17434v1 )

ライセンス: Link先を確認
Ramteja Sajja, Carlos Erazo, Zhouyayan Li, Bekir Z. Demiray, Yusuf Sermet and Ibrahim Demir(参考訳) ハッカソンやソフトウェアコンペティションは、ソフトウェア産業においてますます重要になってきており、組織と学生の両方にとってイノベーションとスキル開発にとって重要な触媒となっている。 これらのプラットフォームは、企業がアイデアを素早くプロトタイプし、学生は豊かな学習経験を得て、実践的なスキルを高めることができる。 長年にわたり、ハッカソンは単なる競争イベントから重要な教育ツールへと移行し、理論的な知識と現実世界の問題解決を融合させてきた。 ハッカソンをコンピュータサイエンスとソフトウェアエンジニアリングのカリキュラムに統合することで、教育の習熟度をコラボレーティブなコンテキストで調整し、相互接続を促進し、産学連携を通じて強化された学習を促進することを目指している。 しかし、人工知能(AI)や機械学習といった先進技術がハッカソンに注入されることは、その構造と成果に革命をもたらしている。 この進化は、学習経験の向上のような機会と、倫理的関心事のような課題をもたらす。 本研究は,アイオワ大学2023年イベントにおける事例研究に基づいて,生成型aiが生徒の技術的選択に与える影響を検討したものである。 この調査は、ハッカソンにおけるAIの役割とその教育的意味についての洞察を提供し、将来の出来事におけるこれらの技術の統合のロードマップを提供し、イノベーションが倫理的および教育的考察とバランスしていることを保証する。

Hackathons and software competitions, increasingly pivotal in the software industry, serve as vital catalysts for innovation and skill development for both organizations and students. These platforms enable companies to prototype ideas swiftly, while students gain enriched learning experiences, enhancing their practical skills. Over the years, hackathons have transitioned from mere competitive events to significant educational tools, fusing theoretical knowledge with real-world problem-solving. The integration of hackathons into computer science and software engineering curricula aims to align educational proficiencies within a collaborative context, promoting peer connectivity and enriched learning via industry-academia collaborations. However, the infusion of advanced technologies, notably artificial intelligence (AI), and machine learning, into hackathons is revolutionizing their structure and outcomes. This evolution brings forth both opportunities, like enhanced learning experiences, and challenges, such as ethical concerns. This study delves into the impact of generative AI, examining its influence on student's technological choices based on a case study on the University of Iowa 2023 event. The exploration provides insights into AI's role in hackathons, and its educational implications, and offers a roadmap for the integration of such technologies in future events, ensuring innovation is balanced with ethical and educational considerations.
翻訳日:2024-02-01 16:28:09 公開日:2024-01-30
# 日本からのメタバース視点:参加型投機設計事例研究

Metaverse Perspectives from Japan: A Participatory Speculative Design Case Study ( http://arxiv.org/abs/2401.17428v1 )

ライセンス: Link先を確認
Michel Hohendanner, Chiara Ullstein, Dohjin Miyamoto, Emma Fukuwatari Huffman, Gudrun Socher, Jens Grossklags, Hirotaka Osawa(参考訳) 現在、メタバースの開発は産業の手に委ねられている。 市民はこの過程にほとんど影響を与えない。 代わりに、(デジタル)社会の多元主義に公正に対処するためには、メタバースとAIのようなその中核技術に関する多くの異なる視点を含むオープンな談話に努めるべきである。 我々は,日本市民の将来のメタバース社会に対する視点や社会的・倫理的意義を探求するために,参加投機的デザイン (psd) のアプローチを用いる。 私たちの貢献は2倍です。 まず,メタバースのような新興技術に対する批判的談話における市民参加におけるpsdの有効性を実証し,ワークショップの枠組みを方法論的貢献として提供する。 第2に,参加者の視点から重要なテーマを特定し,文化に敏感なデザインと仮想環境の開発に関する洞察を提供する。 分析の結果,コミュニケーション,社会的相互作用,危機準備,政治参加などの物理的環境の障壁を断ち切ること,アイデンティティに関連する問題に取り組むことなど,様々な社会的問題を解決できる可能性が示唆された。 未来のメタバース社会に関して、参加者の想像力は、人間とAIの関係、技術的解決主義、政治と技術、グローバリゼーションと地域文化、没入型技術に関する批判的な疑問を提起する。 我々はメタバース開発の議論の拡大に寄与する。

Currently, the development of the metaverse lies in the hands of industry. Citizens have little influence on this process. Instead, to do justice to the pluralism of (digital) societies, we should strive for an open discourse including many different perspectives on the metaverse and its core technologies such as AI. We utilize a participatory speculative design (PSD) approach to explore Japanese citizens' perspectives on future metaverse societies, as well as social and ethical implications. Our contributions are twofold. Firstly, we demonstrate the effectiveness of PSD in engaging citizens in critical discourse on emerging technologies like the metaverse, offering our workshop framework as a methodological contribution. Secondly, we identify key themes from participants' perspectives, providing insights for culturally sensitive design and development of virtual environments. Our analysis shows that participants imagine the metaverse to have the potential to solve a variety of societal issues; for example, breaking down barriers of physical environments for communication, social interaction, crisis preparation, and political participation, or tackling identity-related issues. Regarding future metaverse societies, participants' imaginations raise critical questions about human-AI relations, technical solutionism, politics and technology, globalization and local cultures, and immersive technologies. We discuss implications and contribute to expanding conversations on metaverse developments.
翻訳日:2024-02-01 16:27:46 公開日:2024-01-30
# 速度超過と総加速度--絡み合いに対する運動学的アプローチ

Speed excess and total acceleration: a kinematical approach to entanglement ( http://arxiv.org/abs/2401.17427v1 )

ライセンス: Link先を確認
C. Chryssomalakos, A. G. Flores-Delgado, E. Guzm\'an-Gonz\'alez, L. Hanotel, E. Serrano-Ens\'astiga(参考訳) スピン状態の総分散の概念は、3つの直交軸に沿ったスピン射影測定のばらつきの平均として定義され、また全ての回転軸上で平均化された射影空間における状態の回転速度を与える。 この量に対して、システム構成の下で加算法則を計算し、分離可能な状態の場合、単純なピタゴラス形式であることを示す。 絡み合いの存在下では、複合状態が「その部分よりも速く回転する」ことから、全体のばらつきと絡み合いの相関関係のキネマティックな起源が明らかとなる。 回転下の状態の加速に関する同様の定義を純粋状態と混合状態の両方で解析し、その関係を幅広い絡み合い関係の測度で数値的に探究する。

We show that the concept of total variance of a spin state, defined as the average of the variances of spin projection measurements along three orthogonal axes, also gives the rotational speed of the state in projective space, averaged over all rotation axes. We compute the addition law, under system composition, for this quantity and find that, in the case of separable states, it is of simple pythagorean form. In the presence of entanglement, we find that the composite state "rotates faster than its parts", thus unveiling a kinematical origin for the correlation of total variance with entanglement. We analyze a similar definition for the acceleration of a state under rotations, for both pure and mixed states, and probe numerically its relation with a wide array of entanglement related measures.
翻訳日:2024-02-01 16:27:22 公開日:2024-01-30
# 文脈内線形回帰における多頭部注意の優位性

Superiority of Multi-Head Attention in In-Context Linear Regression ( http://arxiv.org/abs/2401.17426v1 )

ライセンス: Link先を確認
Yingqian Cui, Jie Ren, Pengfei He, Jiliang Tang, Yue Xing(参考訳) 線形回帰タスクを用いた文脈内学習において,ソフトマックスを考慮した変圧器の性能に関する理論的解析を行った。 現行の文献では, 単頭/多頭注意による変圧器の収束に主眼を置きつつ, 性能比較に焦点をあてている。 重ね合わせ次元の多頭注意が単頭注意よりも優れていることを示すために, 正確な理論解析を行う。 文脈内例 d が増加すると、単頭/多頭注意による予測損失は o(1/d) であり、多頭注意の予測損失はより小さい乗算定数を持つ。 最も単純なデータ分散設定に加えて、ノイズラベル、局所的な例、相関した特徴、事前知識などのシナリオについても検討する。 一般に,複数頭部の注意は単一頭部の注意よりも優先される。 本研究はトランスフォーマーアーキテクチャにおけるマルチヘッドアテンションの設計の有効性を検証する。

We present a theoretical analysis of the performance of transformer with softmax attention in in-context learning with linear regression tasks. While the existing literature predominantly focuses on the convergence of transformers with single-/multi-head attention, our research centers on comparing their performance. We conduct an exact theoretical analysis to demonstrate that multi-head attention with a substantial embedding dimension performs better than single-head attention. When the number of in-context examples D increases, the prediction loss using single-/multi-head attention is in O(1/D), and the one for multi-head attention has a smaller multiplicative constant. In addition to the simplest data distribution setting, we consider more scenarios, e.g., noisy labels, local examples, correlated features, and prior knowledge. We observe that, in general, multi-head attention is preferred over single-head attention. Our results verify the effectiveness of the design of multi-head attention in the transformer architecture.
翻訳日:2024-02-01 16:27:07 公開日:2024-01-30
# ニューラルネットワークの高速ニュートリノフレーバー変換による超新星ニュートリノエネルギースペクトル再構成への応用

Application of Neural Networks for the Reconstruction of Supernova Neutrino Energy Spectra Following Fast Neutrino Flavor Conversions ( http://arxiv.org/abs/2401.17424v1 )

ライセンス: Link先を確認
Sajad Abbar, Meng-Ru Wu, and Zewei Xiong(参考訳) ニュートリノは、核融合超新星(ccsne)や中性子星融合(nsms)のような非常に高密度の天体物理環境で高速フレーバー変換(ffc)を行うことができる。 本研究では,ffcの成長速度が真空ハミルトニアンのそれを大幅に上回ると,すべてのニュートリノ(エネルギーによらず)がエネルギー積分ニュートリノスペクトルによって引き起こされる共通の生存確率を共有することを明らかにした。 次に、物理インフォームドニューラルネットワーク(PINN)を用いて、そのような多エネルギーニュートリノガス中のFFCの漸近効果を予測する。 これらの予測は、通常最先端のCCSNとNSMシミュレーションで利用できる各エネルギービンのニュートリノ角分布の最初の2つのモーメントに基づいている。 我々のピンは、それぞれ電子チャネル内のニュートリノの数とニュートリノモーメントにおける相対絶対誤差を予測するために、$\lesssim6\%$と$\lesssim 18\%$という低い誤差を達成する。

Neutrinos can undergo fast flavor conversions (FFCs) within extremely dense astrophysical environments such as core-collapse supernovae (CCSNe) and neutron star mergers (NSMs). In this study, we explore FFCs in a \emph{multi-energy} neutrino gas, revealing that when the FFC growth rate significantly exceeds that of the vacuum Hamiltonian, all neutrinos (regardless of energy) share a common survival probability dictated by the energy-integrated neutrino spectrum. We then employ physics-informed neural networks (PINNs) to predict the asymptotic outcomes of FFCs within such a multi-energy neutrino gas. These predictions are based on the first two moments of neutrino angular distributions for each energy bin, typically available in state-of-the-art CCSN and NSM simulations. Our PINNs achieve errors as low as $\lesssim6\%$ and $\lesssim 18\%$ for predicting the number of neutrinos in the electron channel and the relative absolute error in the neutrino moments, respectively.
翻訳日:2024-02-01 16:26:51 公開日:2024-01-30
# wifiチャネル状態情報に基づく透過壁イメージング

Through-Wall Imaging based on WiFi Channel State Information ( http://arxiv.org/abs/2401.17417v1 )

ライセンス: Link先を確認
Julian Strohmayer, Rafael Sterzinger, Christian Stippel, Martin Kampel(参考訳) 本研究は,WiFiチャネル状態情報(CSI)からの画像をスルーウォールシナリオで合成する手法を提案する。 コスト効率,照明の不変性,壁面の透過性といったWiFiの強みを活用することで,室内環境を室内境界を超えて視覚的に監視することが可能になる。 より一般的には、WiFi CSIの解釈性を改善するために、画像ベースの下流タスク(例えば視覚活動認識)を実行するオプションをアンロックする。 WiFi CSIから画像へのクロスモーダルな変換を実現するため、我々は問題特定に適応したマルチモーダル変分オートエンコーダ(VAE)を頼りにしている。 提案手法は,アーキテクチャ構成のアブレーション研究と再構成画像の定量的・適格評価を通じて広範囲に評価した。 本手法の有効性を実証し,実用化の可能性を強調した。

This work presents a seminal approach for synthesizing images from WiFi Channel State Information (CSI) in through-wall scenarios. Leveraging the strengths of WiFi, such as cost-effectiveness, illumination invariance, and wall-penetrating capabilities, our approach enables visual monitoring of indoor environments beyond room boundaries and without the need for cameras. More generally, it improves the interpretability of WiFi CSI by unlocking the option to perform image-based downstream tasks, e.g., visual activity recognition. In order to achieve this crossmodal translation from WiFi CSI to images, we rely on a multimodal Variational Autoencoder (VAE) adapted to our problem specifics. We extensively evaluate our proposed methodology through an ablation study on architecture configuration and a quantitative/qualitative assessment of reconstructed images. Our results demonstrate the viability of our method and highlight its potential for practical applications.
翻訳日:2024-02-01 16:26:29 公開日:2024-01-30
# 深層学習によるボルツマン最適化問題の解法

Solving Boltzmann Optimization Problems with Deep Learning ( http://arxiv.org/abs/2401.17408v1 )

ライセンス: Link先を確認
Fiona Knoll, John T. Daly, Jess J. Meyer(参考訳) 数十年にわたるハイパフォーマンスコンピューティング(hpc)効率の指数関数的スケーリングが終わりに近づいている。 相補的金属酸化物半導体(CMOS)技術におけるトランジスタベースの論理は、さらなる小型化が不可能な物理的限界に近づいている。 将来のHPC効率向上は、必ずしも新しい技術と計算パラダイムに依存している。 isingモデルは、高エネルギー効率な計算のための将来のフレームワークとして、特に有望である。 イジングシステムは、計算のエネルギー消費に対する熱力学的限界に近づくエネルギーで操作することができる。 イジングシステムは論理とメモリの両方として機能する。 これにより、コストのかかるデータ移動を排除し、CMOSコンピューティング固有のエネルギーコストを大幅に削減することができる。 isingベースのハードウェアを作成する上での課題は、基本的な非決定論的ハードウェア上で正しい結果を生み出す有用な回路を最適化することである。 本稿では,Isingモデルにおける誤りの発生源を最小化する最適化問題を効率的に解くために,深層ニューラルネットワークとランダムフォレストを組み合わせた新しい機械学習手法を提案する。 さらに,ボルツマン確率最適化問題を教師付き機械学習問題として表現するプロセスを提案する。

Decades of exponential scaling in high performance computing (HPC) efficiency is coming to an end. Transistor based logic in complementary metal-oxide semiconductor (CMOS) technology is approaching physical limits beyond which further miniaturization will be impossible. Future HPC efficiency gains will necessarily rely on new technologies and paradigms of compute. The Ising model shows particular promise as a future framework for highly energy efficient computation. Ising systems are able to operate at energies approaching thermodynamic limits for energy consumption of computation. Ising systems can function as both logic and memory. Thus, they have the potential to significantly reduce energy costs inherent to CMOS computing by eliminating costly data movement. The challenge in creating Ising-based hardware is in optimizing useful circuits that produce correct results on fundamentally nondeterministic hardware. The contribution of this paper is a novel machine learning approach, a combination of deep neural networks and random forests, for efficiently solving optimization problems that minimize sources of error in the Ising model. In addition, we provide a process to express a Boltzmann probability optimization problem as a supervised machine learning problem.
翻訳日:2024-02-01 16:26:12 公開日:2024-01-30
# 連続学習のためのステップサイズ最適化

Step-size Optimization for Continual Learning ( http://arxiv.org/abs/2401.17401v1 )

ライセンス: Link先を確認
Thomas Degris, Khurram Javed, Arsalan Sharifnassab, Yuxin Liu, Richard Sutton(参考訳) 継続的な学習では、学習者は生涯にわたってデータから学び続けなければならない。 鍵となる問題は、どの知識を保ち、どの知識を離すかを決めることである。 ニューラルネットワークでは、ステップサイズのベクトルを使用して、勾配サンプルがネットワーク重みを変化させる程度をスケールすることができる。 rmspropやadamのような一般的なアルゴリズムは、このステップサイズのベクトルに適応するためにヒューリスティック、特に正規化を用いる。 本稿では,これらのヒューリスティックは,例えば,ステップサイズベクトルをより優れたステップサイズベクトルから遠ざけるなど,全体目標関数に対する適応の効果を無視していることを示す。 一方、IDBD (Sutton, 1992) のような確率的メタ勾配降下アルゴリズムは、全体的な目的関数に関してステップサイズベクトルを明示的に最適化する。 単純な問題では、IDBD は RMSProp と Adam がしないステップサイズベクトルを一貫して改善できることを示す。 2つのアプローチの違いとそれぞれの制限について説明する。 結論として,両アプローチを組み合わせることは,連続学習におけるニューラルネットワークの性能向上に有望な将来方向性となる可能性を示唆する。

In continual learning, a learner has to keep learning from the data over its whole life time. A key issue is to decide what knowledge to keep and what knowledge to let go. In a neural network, this can be implemented by using a step-size vector to scale how much gradient samples change network weights. Common algorithms, like RMSProp and Adam, use heuristics, specifically normalization, to adapt this step-size vector. In this paper, we show that those heuristics ignore the effect of their adaptation on the overall objective function, for example by moving the step-size vector away from better step-size vectors. On the other hand, stochastic meta-gradient descent algorithms, like IDBD (Sutton, 1992), explicitly optimize the step-size vector with respect to the overall objective function. On simple problems, we show that IDBD is able to consistently improve step-size vectors, where RMSProp and Adam do not. We explain the differences between the two approaches and their respective limitations. We conclude by suggesting that combining both approaches could be a promising future direction to improve the performance of neural networks in continual learning.
翻訳日:2024-02-01 16:25:56 公開日:2024-01-30
# CALM: ローカルミックスとしての進化

CALM: Convolution As Local Mixture ( http://arxiv.org/abs/2401.17400v1 )

ライセンス: Link先を確認
Lifan Liang(参考訳) 本稿では,畳み込み層の特徴写像を,画像モデリングのための特殊種類のガウス混合系の非正規化ログ後段と等価であることを示す。 次に,モデルを拡張して多様な特徴を駆動し,それに対応するEMアルゴリズムを提案する。 このアプローチによる畳み込み重みの学習は効率的で、収束が保証され、教師付き情報を必要としない。 コードは、https://github.com/LifanLiang/CALM.comで入手できる。

In this paper, we showed that the feature map of a convolution layer is equivalent to the unnormalized log posterior of a special kind of Gaussian mixture for image modeling. Then we expanded the model to drive diverse features and proposed a corresponding EM algorithm to learn the model. Learning convolution weights using this approach is efficient, guaranteed to converge, and does not need supervised information. Code is available at: https://github.com/LifanLiang/CALM.
翻訳日:2024-02-01 16:25:35 公開日:2024-01-30
# 零錐の量子幾何学

Quantum geometry of the null cone ( http://arxiv.org/abs/2401.17491v1 )

ライセンス: Link先を確認
Wolfgang Wieland(参考訳) 重力零初期データの非摂動量子化を提案する。 我々の出発点は、パリティ負のホルスト項をバルクに有する四次重力に対する特性ヌル初期問題である。 結果のキャロル境界場理論に関する基礎的なレビューの後、我々は特定の衝撃的放射データ群を導入する。 このクラスは、特定のリレーショナルクロックの選択のために定義される。 クロックは、ヌル境界のせん断がステップ関数のプロファイルに従うように選択される。 角依存は任意である。 次に、raychaudhuri方程式と、$sl(2,\mathbb{r})$ホロノミーに対するキャロル輸送方程式である残余制約を解く。 位相空間における結果として生じる部分多様体はシンプレクティックであることを示す。 それぞれのヌルジェネレータに沿って、単純なメカニカルシステムになります。 このシステムの量子化は単純である。 我々の基本的な戦略は、制約付き補助ヒルベルト空間から始めることである。 物理的ヒルベルト空間は制約の核であり、はしご作用素の組合せである。 制約とそのエルミート共役は第二級である。 制約を解くことは、物理的状態に対する単純な再帰関係を示唆する。 結果として生じる物理的ヒルベルト空間において、$SL(2,\mathbb{R})$ Casimir はディラック可観測である。 この観測は2つの放射モードのスペクトルを決定する。 最初の断面積と最後の断面積もディラック観測量である。 彼らは離散スペクトルを持ち、この話題に関する初期の結果と一致する。

We present a non-perturbative quantization of gravitational null initial data. Our starting point is the characteristic null initial problem for tetradic gravity with a parity-odd Holst term in the bulk. After a basic review about the resulting Carrollian boundary field theory, we introduce a specific class of impulsive radiative data. This class is defined for a specific choice of relational clock. The clock is chosen in such a way that the shear of the null boundary follows the profile of a step function. The angular dependence is arbitrary. Next, we solve the residual constraints, which are the Raychaudhuri equation and a Carrollian transport equation for an $SL(2,\mathbb{R})$ holonomy. We show that the resulting submanifold in phase space is symplectic. Along each null generator, we end up with a simple mechanical system. The quantization of this system is straightforward. Our basic strategy is to start from an auxiliary Hilbert space with constraints. The physical Hilbert space is the kernel of a constraint, which is a combination of ladder operators. The constraint and its hermitian conjugate are second-class. Solving the constraint amounts to imposing a simple recursion relation for physical states. On the resulting physical Hilbert space, the $SL(2,\mathbb{R})$ Casimir is a Dirac observable. This observable determines the spectrum of the two radiative modes. The area at the initial and final cross sections are Dirac observables as well. They have a discrete spectrum, which agrees with earlier results on this topic.
翻訳日:2024-02-01 16:18:24 公開日:2024-01-30
# Pixel to Elevation: 自動オフロードナビゲーションのための画像を用いた長距離標高マップの学習

Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation ( http://arxiv.org/abs/2401.17484v1 )

ライセンス: Link先を確認
Chanyoung Chung, Georgios Georgakis, Patrick Spieler, Curtis Padgett, Shehryar Khattak(参考訳) 長距離地形を理解することは、特に高速で航行する場合に、オフロードロボットミッションの成功に不可欠である。 現在幾何学的マッピングに大きく依存しているLiDARセンサーは、より遠くのマッピングでスパース測定を行う。 そこで本稿では,この課題に対処するために,車載エゴセントリック画像のみを用いて長距離地形図をリアルタイムに予測できる新しい学習ベース手法を提案する。 提案手法は3つの要素から構成される。 まず, トランスフォーマーをベースとしたエンコーダを導入し, エゴセントリックな視線と, 以前の鳥眼の視線高度マップの予測との相互関係を学習する。 第2に,多視点視覚画像特徴を有する複雑な非構造地形上での3次元車両の姿勢認識型位置符号化を提案する。 最後に, 下流のナビゲーションタスクを容易にするために, 標高地図予測間の時間的一貫性を高めるために, 履歴学習可能な地図埋め込みを提案する。 実世界のオフロード駆動データを用いて,複雑・非構造地形における自律型オフロードロボットナビゲーションの適用性について実験的に検証した。 さらに,現在の最先端手法と比較して定性的かつ定量的に比較した。 広域フィールド実験により,本手法は,地形の高度を正確に予測する上でベースラインモデルを超えることを実証した。 最後に,提案手法の重要成分の効果を強調・理解し,オフロードロボットナビゲーション能力向上に適合性を検証するため,アブレーション研究を行った。

Understanding terrain topology at long-range is crucial for the success of off-road robotic missions, especially when navigating at high-speeds. LiDAR sensors, which are currently heavily relied upon for geometric mapping, provide sparse measurements when mapping at greater distances. To address this challenge, we present a novel learning-based approach capable of predicting terrain elevation maps at long-range using only onboard egocentric images in real-time. Our proposed method is comprised of three main elements. First, a transformer-based encoder is introduced that learns cross-view associations between the egocentric views and prior bird-eye-view elevation map predictions. Second, an orientation-aware positional encoding is proposed to incorporate the 3D vehicle pose information over complex unstructured terrain with multi-view visual image features. Lastly, a history-augmented learn-able map embedding is proposed to achieve better temporal consistency between elevation map predictions to facilitate the downstream navigational tasks. We experimentally validate the applicability of our proposed approach for autonomous offroad robotic navigation in complex and unstructured terrain using real-world offroad driving data. Furthermore, the method is qualitatively and quantitatively compared against the current state-of-the-art methods. Extensive field experiments demonstrate that our method surpasses baseline models in accurately predicting terrain elevation while effectively capturing the overall terrain topology at long-ranges. Finally, ablation studies are conducted to highlight and understand the effect of key components of the proposed approach and validate their suitability to improve offroad robotic navigation capabilities.
翻訳日:2024-02-01 16:18:06 公開日:2024-01-30
# Colony-Enhanced Recurrent Neural Architecture Search: Collaborative Ant-Based Optimization

Colony-Enhanced Recurrent Neural Architecture Search: Collaborative Ant-Based Optimization ( http://arxiv.org/abs/2401.17480v1 )

ライセンス: Link先を確認
Abdelrahman Elsaid(参考訳) ニューラルネットワークアーキテクチャを手作業で開発することは、しばしば最適で非効率な構造に繋がる大きな課題である。 完全なニューラルネットワーク構成の追求は複雑な作業であり、ニューラルアーキテクチャサーチ(NAS)のようなメタヒューリスティックなアプローチの必要性を促す。 本稿では,自然の創発的なメカニズムからインスピレーションを得て,NASとNeural Evolutionの境界を推し進めるCANTS-N(Collaborative Ant-based Neural Topology Search)を紹介する。 この革新的なアプローチでは、Antにインスパイアされたエージェントはニューラルネットワークの構造を慎重に構築し、動的環境内で動的に適応する。 Particle Swarm Optimization (PSO)によって導かれ、CANTS-Nのコロニーはアーキテクチャ探索を最適化し、BPフリーのCANTS、BP CANTS、ANTSといった確立された手法よりも平均二乗誤差(MSE)を著しく改善した。 スケーラブルで適応性があり、前方に見えるCANTS-NはNASとNEの景観を再構築する可能性がある。 本稿では,その方法論,結果,および遠縁な含意に関する詳細な知見を提供する。

Crafting neural network architectures manually is a formidable challenge often leading to suboptimal and inefficient structures. The pursuit of the perfect neural configuration is a complex task, prompting the need for a metaheuristic approach such as Neural Architecture Search (NAS). Drawing inspiration from the ingenious mechanisms of nature, this paper introduces Collaborative Ant-based Neural Topology Search (CANTS-N), pushing the boundaries of NAS and Neural Evolution (NE). In this innovative approach, ant-inspired agents meticulously construct neural network structures, dynamically adapting within a dynamic environment, much like their natural counterparts. Guided by Particle Swarm Optimization (PSO), CANTS-N's colonies optimize architecture searches, achieving remarkable improvements in mean squared error (MSE) over established methods, including BP-free CANTS, BP CANTS, and ANTS. Scalable, adaptable, and forward-looking, CANTS-N has the potential to reshape the landscape of NAS and NE. This paper provides detailed insights into its methodology, results, and far-reaching implications.
翻訳日:2024-02-01 16:17:37 公開日:2024-01-30
# ソーシャルメディア上での精神障害の検出:chatgptによる説明可能なアプローチ

Detecting mental disorder on social media: a ChatGPT-augmented explainable approach ( http://arxiv.org/abs/2401.17477v1 )

ライセンス: Link先を確認
Loris Belcastro, Riccardo Cantini, Fabrizio Marozzo, Domenico Talia, Paolo Trunfio(参考訳) デジタル時代には、ソーシャルメディアに表される抑うつ症状の流行が深刻な懸念を呼び起こし、タイムリーに検出するための高度な手法が必要となった。 本稿では,大規模言語モデル(llm)と説明可能な人工知能(xai)とチャットgptのような会話エージェントを効果的に組み合わせた新しい手法を提案することで,抑うつ検出の課題を解決する。 提案手法では, BERT の Twitter 固有の変種である BERTweet を新たな自己探索モデル BERT-XDD に統合することにより, マスキングによる分類と説明の両立が可能となる。 ChatGPTを使用して解釈可能性をさらに強化し、技術的説明を人間可読な注釈に変換する。 本手法は,抑うつ検出を効果的かつモジュール的に行うことにより,社会的に責任を持つデジタルプラットフォームの開発に寄与し,早期介入の促進と医療専門家の指導の下でのメンタルヘルスの課題支援に寄与する。

In the digital era, the prevalence of depressive symptoms expressed on social media has raised serious concerns, necessitating advanced methodologies for timely detection. This paper addresses the challenge of interpretable depression detection by proposing a novel methodology that effectively combines Large Language Models (LLMs) with eXplainable Artificial Intelligence (XAI) and conversational agents like ChatGPT. In our methodology, explanations are achieved by integrating BERTweet, a Twitter-specific variant of BERT, into a novel self-explanatory model, namely BERT-XDD, capable of providing both classification and explanations via masked attention. The interpretability is further enhanced using ChatGPT to transform technical explanations into human-readable commentaries. By introducing an effective and modular approach for interpretable depression detection, our methodology can contribute to the development of socially responsible digital platforms, fostering early intervention and support for mental health challenges under the guidance of qualified healthcare professionals.
翻訳日:2024-02-01 16:17:13 公開日:2024-01-30
# Chain-of-Abstraction Reasoningを用いた効率的なツールの開発

Efficient Tool Use with Chain-of-Abstraction Reasoning ( http://arxiv.org/abs/2401.17464v1 )

ライセンス: Link先を確認
Silin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang(参考訳) 人間の期待に沿う忠実な推論を達成するためには、大規模言語モデル(LLM)は現実世界の知識(例えば、Webの事実、数学、物理ルール)に対する推論の基礎となる必要がある。 ツールは、この外部知識にアクセスするのに役立ちますが、マルチステップ推論問題においてツールを呼び出すためのllmエージェント(例えば、ツールフォーマー)の微調整には、依然として課題があります。 本研究では,多段階推論におけるツールの活用を向上するLLMの新しい手法を提案する。 提案手法であるChain-of-Abstraction(CoA)では,LLMを学習し,まず抽象的なプレースホルダーで推論チェーンをデコードし,ドメインツールを呼び出し,特定の知識を充足して各推論チェーンを再構築する。 この抽象チェーンによる計画により、llmはより一般的な推論戦略を学ぶことができ、異なる推論問題に関連するドメイン知識(例えば数学の結果)のシフトに頑健である。 また、LCMは外部ツールのデコードと呼び出しを並列に行うことができ、ツールの応答を待つことで引き起こされる推論遅延を回避することができる。 数学的推論とWiki QA領域において、我々の手法は、平均6%の絶対QA精度で、分布内および分布外の両方のベースラインを常に上回ることを示す。 また,本手法で訓練したLLMエージェントは,標準ツール拡張LLMよりも平均1.4倍高速な推論速度で,より効率的なツール利用を示す。

To achieve faithful reasoning that aligns with human expectations, large language models (LLMs) need to ground their reasoning to real-world knowledge (e.g., web facts, math and physical rules). Tools help LLMs access this external knowledge, but there remains challenges for fine-tuning LLM agents (e.g., Toolformer) to invoke tools in multi-step reasoning problems, where inter-connected tool calls require holistic and efficient tool usage planning. In this work, we propose a new method for LLMs to better leverage tools in multi-step reasoning. Our method, Chain-of-Abstraction (CoA), trains LLMs to first decode reasoning chains with abstract placeholders, and then call domain tools to reify each reasoning chain by filling in specific knowledge. This planning with abstract chains enables LLMs to learn more general reasoning strategies, which are robust to shifts of domain knowledge (e.g., math results) relevant to different reasoning questions. It also allows LLMs to perform decoding and calling of external tools in parallel, which avoids the inference delay caused by waiting for tool responses. In mathematical reasoning and Wiki QA domains, we show that our method consistently outperforms previous chain-of-thought and tool-augmented baselines on both in-distribution and out-of-distribution test sets, with an average ~6% absolute QA accuracy improvement. LLM agents trained with our method also show more efficient tool use, with inference speed being on average ~1.4x faster than baseline tool-augmented LLMs.
翻訳日:2024-02-01 16:16:54 公開日:2024-01-30
# LLMエージェントを用いた合成対話データセット生成

Synthetic Dialogue Dataset Generation using LLM Agents ( http://arxiv.org/abs/2401.17461v1 )

ライセンス: Link先を確認
Yelaman Abdullin, Diego Molla-Aliod, Bahadorreza Ofoghi, John Yearwood, Qingyang Li(参考訳) リニアプログラミング(LP)の問題は、現実のアプリケーションで広く使われている。 しかし、その明らかな単純さにもかかわらず、訓練されていないユーザーは、特定の問題の線形モデルを決定するのが困難である。 我々は,ユーザとの会話に係わる目標指向の会話エージェントの作成と,それに続くエージェントが線形モデルを生成するために必要なすべての情報を導出することを提案する。 本稿では,このような対話エージェントの開発・訓練に使用可能なサンプル対話生成手法を提案する。 本研究では,対話エージェントとして機能する2つのエージェントと,ユーザとして機能する2つのエージェントを開発する。 ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。 また,対話が生成する要約が本来の問題記述にどの程度合致しているかを評価することにより,対話の外部的評価を提案する。 我々は,gpt-4を用いて評価指標を模倣した評価手法を含む,人間および自動評価を行う。 評価結果は, GPT-4評価指標の品質向上には依然として研究が必要であるが, 対話の全体的な品質向上を示すものである。 サブセットの人間のアノテーションを含む結果の対話は、研究コミュニティで利用可能である。 対話生成に使用される会話エージェントをベースラインとして使用することができる。

Linear programming (LP) problems are pervasive in real-life applications. However, despite their apparent simplicity, an untrained user may find it difficult to determine the linear model of their specific problem. We envisage the creation of a goal-oriented conversational agent that will engage in conversation with the user to elicit all information required so that a subsequent agent can generate the linear model. In this paper, we present an approach for the generation of sample dialogues that can be used to develop and train such a conversational agent. Using prompt engineering, we develop two agents that "talk" to each other, one acting as the conversational agent, and the other acting as the user. Using a set of text descriptions of linear problems from NL4Opt available to the user only, the agent and the user engage in conversation until the agent has retrieved all key information from the original problem description. We also propose an extrinsic evaluation of the dialogues by assessing how well the summaries generated by the dialogues match the original problem descriptions. We conduct human and automatic evaluations, including an evaluation approach that uses GPT-4 to mimic the human evaluation metrics. The evaluation results show an overall good quality of the dialogues, though research is still needed to improve the quality of the GPT-4 evaluation metrics. The resulting dialogues, including the human annotations of a subset, are available to the research community. The conversational agent used for the generation of the dialogues can be used as a baseline.
翻訳日:2024-02-01 16:16:21 公開日:2024-01-30
# 勾配推定に有用な無線環境のレンダリング:ゼロ次確率連関学習法

Rendering Wireless Environments Useful for Gradient Estimators: A Zero-Order Stochastic Federated Learning Method ( http://arxiv.org/abs/2401.17460v1 )

ライセンス: Link先を確認
Elissa Mhanna and Mohamad Assaad(参考訳) フェデレーション学習(federated learning, fl)は、複数のエッジデバイスが生データを開示することなく、協調的にモデルをトレーニングできる、機械学習の新しいアプローチである。 しかし、通信や計算のボトルネックに苦しむため、特にデバイスとサーバが無線チャネルを介して通信する場合、このアプローチの実践的実装を妨げるいくつかの課題がある。 通信効率の高い枠組みを用いて, チャネル状態係数の知識を必要とせず, 無線通信チャネルの性質を利用する一点勾配推定器を用いた新しいゼロオーダー(zo)方式を提案する。 学習アルゴリズム自体に無線チャネルを組み込む最初の方法であり、それを分析し、その影響を取り除くリソースを無駄にしない。 この研究の2つの主な困難は、flでは目的関数が通常凸でないことであり、これにより fl から zo メソッドへの拡張が難しくなり、無線チャネルの影響を含め、追加の注意が要る。 しかし,これらの課題を克服し,提案するゼロ次フェデレート学習(zofl)フレームワークを包括的に分析した。 我々は、その収束を理論的に確立し、非凸設定で $o(\frac{1}{\sqrt[3]{k}})$ の収束率を証明する。 さらに、独立・同一分散(IID)および非IIDデバイスデータ分布を考慮した実験結果により、本アルゴリズムの可能性を示す。

Federated learning (FL) is a novel approach to machine learning that allows multiple edge devices to collaboratively train a model without disclosing their raw data. However, several challenges hinder the practical implementation of this approach, especially when devices and the server communicate over wireless channels, as it suffers from communication and computation bottlenecks in this case. By utilizing a communication-efficient framework, we propose a novel zero-order (ZO) method with a one-point gradient estimator that harnesses the nature of the wireless communication channel without requiring the knowledge of the channel state coefficient. It is the first method that includes the wireless channel in the learning algorithm itself instead of wasting resources to analyze it and remove its impact. The two main difficulties of this work are that in FL, the objective function is usually not convex, which makes the extension of FL to ZO methods challenging, and that including the impact of wireless channels requires extra attention. However, we overcome these difficulties and comprehensively analyze the proposed zero-order federated learning (ZOFL) framework. We establish its convergence theoretically, and we prove a convergence rate of $O(\frac{1}{\sqrt[3]{K}})$ in the nonconvex setting. We further demonstrate the potential of our algorithm with experimental results, taking into account independent and identically distributed (IID) and non-IID device data distributions.
翻訳日:2024-02-01 16:15:59 公開日:2024-01-30
# ソフトウェアテストにおける大規模言語モデルの利用に関する予備的検討

A Preliminary Study on Using Large Language Models in Software Pentesting ( http://arxiv.org/abs/2401.17459v1 )

ライセンス: Link先を確認
Kumar Shashwat, Francis Hahn, Xinming Ou, Dmitry Goldgof, Lawrence Hall, Jay Ligatti, S. Raj Rajgopalan, Armin Ziaie Tabari(参考訳) 大規模言語モデル(LLM)は、セキュリティ操作センタ(SOC)に見られるようなセキュリティタスクを自動化するための有望な可能性を提供すると考えられている。 この可能性を評価するための第一歩として、ソースコードにおけるソフトウェアセキュリティの脆弱性を自動的に識別するソフトウェアペンテスティングにおけるLLMの使用について検討する。 LLMベースのAIエージェントは、人間のオペレーターがそれと対話する際に、特定のセキュリティタスクのために時間とともに改善できると仮定する。 このような改善は、生成した応答に基づいてLLMに送信されるエンジニアリングプロンプトによって、モデルがより正確な結果を提供するように、関連するコンテキストや構造を含めることができる。 このようなエンジニアリングの取り組みは、現在のタスクでより良い結果を出すように設計されたプロンプトが、将来の未知のタスクでより良い結果を生み出すと持続的になる。 この仮説を検証するために、様々な脆弱性を含む2,740の手作りソースコードテストケースを含むOWASP Benchmark Project 1.2を利用する。 テストケースをトレーニングデータとテストデータに分割し、トレーニングデータ(のみ)に基づいてプロンプトを設計し、テストデータの最終システムを評価する。 テストデータにおけるaiエージェントのパフォーマンスと,プロンプトエンジニアリングを使わずにエージェントのパフォーマンスを比較した。 また、セキュリティテストに広く使用されている静的コードアナライザであるSonarQubeのものと、AIエージェントの結果を比較します。 GoogleのGemini-proとOpenAIのGPT-3.5-TurboとGPT-4-Turbo(チャット補完とアシスタントAPIの両方)を使って、さまざまなバージョンのAIエージェントを構築し、テストしました。 その結果、llmsの使用はソフトウェアペンテスティングのためのaiエージェントを構築するための実行可能なアプローチであることが分かりました。

Large language models (LLM) are perceived to offer promising potentials for automating security tasks, such as those found in security operation centers (SOCs). As a first step towards evaluating this perceived potential, we investigate the use of LLMs in software pentesting, where the main task is to automatically identify software security vulnerabilities in source code. We hypothesize that an LLM-based AI agent can be improved over time for a specific security task as human operators interact with it. Such improvement can be made, as a first step, by engineering prompts fed to the LLM based on the responses produced, to include relevant contexts and structures so that the model provides more accurate results. Such engineering efforts become sustainable if the prompts that are engineered to produce better results on current tasks, also produce better results on future unknown tasks. To examine this hypothesis, we utilize the OWASP Benchmark Project 1.2 which contains 2,740 hand-crafted source code test cases containing various types of vulnerabilities. We divide the test cases into training and testing data, where we engineer the prompts based on the training data (only), and evaluate the final system on the testing data. We compare the AI agent's performance on the testing data against the performance of the agent without the prompt engineering. We also compare the AI agent's results against those from SonarQube, a widely used static code analyzer for security testing. We built and tested multiple versions of the AI agent using different off-the-shelf LLMs -- Google's Gemini-pro, as well as OpenAI's GPT-3.5-Turbo and GPT-4-Turbo (with both chat completion and assistant APIs). The results show that using LLMs is a viable approach to build an AI agent for software pentesting that can improve through repeated use and prompt engineering.
翻訳日:2024-02-01 16:15:34 公開日:2024-01-30
# ローレンツホログラム重力と時間エネルギー不確実性原理

Lorentzian holographic gravity and the time-energy uncertainty principle ( http://arxiv.org/abs/2401.17458v1 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 本稿では,バルク時空における非零質量の存在下でのローレンツ古典化ホログラフィックテンソルネットワークのオンシェル方程式のヒューリスティック導出について述べる。 このオンシェル方程式の導出は、2つの物理的仮定に基づいている。 まず、ローレンツのバルク理論は基底状態にある。 第二に、ローレンツのホログラム重力の法則は時間エネルギーの不確実性原理と同一視される。 この導出の議論は、ホログラフィックの原理と古典化に基づく量子力学的時間不確実性としてのローレンツ重力の新たな絵に繋がる可能性がある。

In this article, we present a heuristic derivation of the on-shell equation of the Lorentzian classicalized holographic tensor network in the presence of a non-zero mass in the bulk spacetime. This derivation of the on-shell equation is based on two physical assumptions. First, the Lorentzian bulk theory is in the ground state. Second, the law of Lorentzian holographic gravity is identified with the time-energy uncertainty principle. The arguments in this derivation could lead to a novel picture of Lorentzian gravity as a quantum mechanical time uncertainty based on the holographic principle and classicalization.
翻訳日:2024-02-01 16:15:01 公開日:2024-01-30
# 分割計画における高速サンプリングのためのマルチスケール並列テンパリング

Multiscale Parallel Tempering for Fast Sampling on Redistricting Plans ( http://arxiv.org/abs/2401.17455v1 )

ライセンス: Link先を確認
Gabriel Chuang, Gregory Herschlag, Jonathan C. Mattingly(参考訳) 再編成計画の監査においては、この計画と中立的に描画された再配置計画のアンサンブルを比較する。 アンサンブルは、バランスのとれたグラフ分割の分布をサンプリングするアルゴリズムによって生成される。 アンサンブルと所定の計画との党派差を監査するためには、例えば、コンパクト性のレベルや地域保存の差異よりも、党派差が偏見から生じると結論付けるために、非党派基準が一致していることを保証する必要がある。 特定のサンプリングアルゴリズムにより、計画上のポリシーに基づく確率分布を明示的に記述することができるが、これらのアルゴリズムは、いくつかの特別な測度を除いて、大きなグラフ(すなわち再制限空間)に対する混合時間が低かった。 本研究では,各スケールで局所的な移動を行うマルチスケール並列テンパリング手法を提案する。 地域の動きは、幅広い政策に基づく措置を取り入れることを可能にします。 本手法をコネチカット州で検討し、この規模でサンプリングされたことのない政策ベースの分布を高速に混合することに成功した。 我々のアルゴリズムは かなり広い範囲に 拡大すると約束しています (i)より原則と状況に基づく比較を許容する。 (ii)政策が再分権に与える典型的な党派的影響についての調査。

When auditing a redistricting plan, a persuasive method is to compare the plan with an ensemble of neutrally drawn redistricting plans. Ensembles are generated via algorithms that sample distributions on balanced graph partitions. To audit the partisan difference between the ensemble and a given plan, one must ensure that the non-partisan criteria are matched so that we may conclude that partisan differences come from bias rather than, for example, levels of compactness or differences in community preservation. Certain sampling algorithms allow one to explicitly state the policy-based probability distribution on plans, however, these algorithms have shown poor mixing times for large graphs (i.e. redistricting spaces) for all but a few specialized measures. In this work, we generate a multiscale parallel tempering approach that makes local moves at each scale. The local moves allow us to adopt a wide variety of policy-based measures. We examine our method in the state of Connecticut and succeed at achieving fast mixing on a policy-based distribution that has never before been sampled at this scale. Our algorithm shows promise to expand to a significantly wider class of measures that will (i) allow for more principled and situation-based comparisons and (ii) probe for the typical partisan impact that policy can have on redistricting.
翻訳日:2024-02-01 16:14:54 公開日:2024-01-30
# Qplacer: 超伝導量子コンピュータのための周波数対応コンポーネント配置

Qplacer: Frequency-Aware Component Placement for Superconducting Quantum Computers ( http://arxiv.org/abs/2401.17450v1 )

ライセンス: Link先を確認
Junyao Zhang, Hanrui Wang, Qi Ding, Jiaqi Gu, Reouven Assouly, William D. Oliver, Song Han, Kenneth R. Brown, Hai "Helen" Li, Yiran Chen(参考訳) ノイズの多い中間規模量子(NISQ)コンピュータは、量子ビット数の限界に直面し、大規模かつフォールトトレラントな量子コンピューティングへの進歩を妨げる。 スケーリングを妨げる重要な課題はクロストークであり、量子ビット、共振器、基板を含む量子チップ上の隣り合うコンポーネント間の不要な相互作用が特徴である。 限られた基板領域で多面クロストークを体系的に解くための一般的なアプローチを動機付けている。 本稿では,量子コンピュータ用の周波数対応静電配置フレームワークqplacerを提案し,これらのコンポーネントをコンパクトな基板設計とともに空間領域と周波数領域に分離することでクロストークを緩和する。 Qplacerは、キュービットと共振器の周波数領域分離を保証する周波数割り当て器で開始する。 次に、レイアウトの柔軟性のためにパディング戦略と共振器分割を組み込む。 我々のアプローチの中心は、荷電粒子としての量子成分の概念化であり、「周波数反発力」の概念による戦略的空間隔離を可能にする。 以上の結果から,Qplacerはコンパクトな基板サイズを維持しつつ,様々なクロストークの影響を緩和する物理部品配置を慎重に設計していることがわかった。 デバイストポロジーベンチマークでは、qplacerは、手動設計と古典的な配置エンジンの結果と比較して、理論的なクロストークフリーレイアウトに必要な面積を平均2.61倍と2.25倍削減できる。

Noisy Intermediate-Scale Quantum (NISQ) computers face a critical limitation in qubit numbers, hindering their progression towards large-scale and fault-tolerant quantum computing. A significant challenge impeding scaling is crosstalk, characterized by unwanted interactions among neighboring components on quantum chips, including qubits, resonators, and substrate. We motivate a general approach to systematically resolving multifaceted crosstalks in a limited substrate area. We propose Qplacer, a frequency-aware electrostatic-based placement framework tailored for superconducting quantum computers, to alleviate crosstalk by isolating these components in spatial and frequency domains alongside compact substrate design. Qplacer commences with a frequency assigner that ensures frequency domain isolation for qubits and resonators. It then incorporates a padding strategy and resonator partitioning for layout flexibility. Central to our approach is the conceptualization of quantum components as charged particles, enabling strategic spatial isolation through a 'frequency repulsive force' concept. Our results demonstrate that Qplacer carefully crafts the physical component layout in mitigating various crosstalk impacts while maintaining a compact substrate size. On device topology benchmarks, Qplacer can reduce the required area for theoretical crosstalk-free layout by 2.61x and 2.25x on average, compared to the results of manual design and classical placement engines, respectively.
翻訳日:2024-02-01 16:14:32 公開日:2024-01-30
# 情報フローの逆転:半カルト圏における回帰

Reversing information flow: retrodiction in semicartesian categories ( http://arxiv.org/abs/2401.17447v1 )

ライセンス: Link先を確認
Arthur J. Parzygnat(参考訳) 統計的推論において、回帰(retrodiction)は、現在の影響や現在につながるダイナミクスの知識に基づいて、過去の潜在的な原因を推測する行為である。 リトロディクションは、力学が可逆でなくても適用可能であり、それが存在するときのリバースダイナミクスと一致するので、逆転は逆転の拡張、すなわち時間反転と見なすことができる。 近年、逆行の公理的な定義は、圏論のアイデアを用いて古典確率と量子確率の両方に適用できる方法でなされている。 ほぼ同時に、半カルテ圏の観点からの情報フローの枠組みがカテゴリ確率論の設定において提案されている。 ここでは、半カルト圏における情報フロー公理に付加する逆数論の一般的な定義を定式化し、古典的および量子確率論を超えた逆数論の抽象的枠組みを提供する。 より正確には、ベイズ推論、より一般にジェフリーの確率キネマティックスを任意の半カルト圏に拡張する。

In statistical inference, retrodiction is the act of inferring potential causes in the past based on knowledge of the effects in the present and the dynamics leading to the present. Retrodiction is applicable even when the dynamics is not reversible, and it agrees with the reverse dynamics when it exists, so that retrodiction may be viewed as an extension of inversion, i.e., time-reversal. Recently, an axiomatic definition of retrodiction has been made in a way that is applicable to both classical and quantum probability using ideas from category theory. Almost simultaneously, a framework for information flow in in terms of semicartesian categories has been proposed in the setting of categorical probability theory. Here, we formulate a general definition of retrodiction to add to the information flow axioms in semicartesian categories, thus providing an abstract framework for retrodiction beyond classical and quantum probability theory. More precisely, we extend Bayesian inference, and more generally Jeffrey's probability kinematics, to arbitrary semicartesian categories.
翻訳日:2024-02-01 16:14:07 公開日:2024-01-30
# 低コストアンサンブルプルーニングのための液体民主主義

Liquid Democracy for Low-Cost Ensemble Pruning ( http://arxiv.org/abs/2401.17443v1 )

ライセンス: Link先を確認
Ben Armstrong, Kate Larson(参考訳) 我々は、アンサンブルの学習と、アンサンブルのトレーニングコストを減らすために活用できる代表的投票パラダイム(液体民主主義)との間に強いつながりがあると主張している。 本稿では,液体民主主義に触発されたデリゲーション機構を通じて,冗長な分類器をアンサンブルから識別し除去するインクリメンタルトレーニング手順を提案する。 分析と広範な実験を通じて,このプロセスは,完全なアンサンブルをトレーニングするよりも,トレーニングの計算コストを大幅に削減することを示した。 基礎となるデリゲーション機構を慎重に選択することにより、分類器の集団における重み集中を回避し、いくつかのブースティング法よりも高い精度をもたらす。 さらに、この研究は、計算社会選択文学のフレームワークが、非伝統的な領域の問題にどのように適用できるかの例として機能する。

We argue that there is a strong connection between ensemble learning and a delegative voting paradigm -- liquid democracy -- that can be leveraged to reduce ensemble training costs. We present an incremental training procedure that identifies and removes redundant classifiers from an ensemble via delegation mechanisms inspired by liquid democracy. Through both analysis and extensive experiments we show that this process greatly reduces the computational cost of training compared to training a full ensemble. By carefully selecting the underlying delegation mechanism, weight centralization in the classifier population is avoided, leading to higher accuracy than some boosting methods. Furthermore, this work serves as an exemplar of how frameworks from computational social choice literature can be applied to problems in nontraditional domains.
翻訳日:2024-02-01 16:13:46 公開日:2024-01-30
# どんな場面でも:フォトリアリスティックなビデオオブジェクト挿入

Anything in Any Scene: Photorealistic Video Object Insertion ( http://arxiv.org/abs/2401.17509v1 )

ライセンス: Link先を確認
Chen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu(参考訳) リアルなビデオシミュレーションは、仮想現実から映画制作まで、さまざまな応用にまたがる大きな可能性を示している。 これは、実際の設定でビデオをキャプチャするシナリオが非現実的か高価である場合に特に当てはまる。 映像シミュレーションにおける既存のアプローチは、しばしば照明環境を正確にモデル化したり、物体の形状を表現したり、高レベルのフォトリアリズムを達成することができない。 本稿では,既存の動的ビデオに任意のオブジェクトをシームレスに挿入し,物理的リアリズムを強く重視する,リアルな映像シミュレーションのための新奇で汎用的なフレームワークであるAnything in Any Sceneを提案する。 提案する汎用フレームワークは、3つの重要なプロセスを包含する。 1) リアルな物体を所定のシーンビデオに統合して,幾何学的リアリズムを確保する。 2) 空と環境の照明分布を推定し, 写実的な影をシミュレートして光のリアリズムを高めること。 3) 最終的な映像出力を洗練してフォトリアリズムを最大化するスタイル転送ネットワークを用いる。 実験により、Anything in Any Sceneフレームワークは、優れた幾何学的リアリズム、照明リアリズム、フォトリアリズムのシミュレーションビデオを生成する。 ビデオデータ生成に関する課題を著しく軽減することにより,高品質なビデオを取得するための効率的かつコスト効率の高いソリューションを提供する。 さらに、そのアプリケーションはビデオデータ拡張を超えて、仮想現実、ビデオ編集、その他様々なビデオ中心のアプリケーションにおいて有望な可能性を示している。 プロジェクトコードへのアクセスとより高解像度のビデオ結果について、プロジェクトのWebサイトhttps://anythinginanyscene.github.ioを参照してください。

Realistic video simulation has shown significant potential across diverse applications, from virtual reality to film production. This is particularly true for scenarios where capturing videos in real-world settings is either impractical or expensive. Existing approaches in video simulation often fail to accurately model the lighting environment, represent the object geometry, or achieve high levels of photorealism. In this paper, we propose Anything in Any Scene, a novel and generic framework for realistic video simulation that seamlessly inserts any object into an existing dynamic video with a strong emphasis on physical realism. Our proposed general framework encompasses three key processes: 1) integrating a realistic object into a given scene video with proper placement to ensure geometric realism; 2) estimating the sky and environmental lighting distribution and simulating realistic shadows to enhance the light realism; 3) employing a style transfer network that refines the final video output to maximize photorealism. We experimentally demonstrate that Anything in Any Scene framework produces simulated videos of great geometric realism, lighting realism, and photorealism. By significantly mitigating the challenges associated with video data generation, our framework offers an efficient and cost-effective solution for acquiring high-quality videos. Furthermore, its applications extend well beyond video data augmentation, showing promising potential in virtual reality, video editing, and various other video-centric applications. Please check our project website https://anythinginanyscene.github.io for access to our project code and more high-resolution video results.
翻訳日:2024-02-01 16:04:02 公開日:2024-01-30
# 大規模言語モデルのための矢印時間

Arrows of Time for Large Language Models ( http://arxiv.org/abs/2401.17505v1 )

ライセンス: Link先を確認
Vassilis Papadopoulos, J\'er\'emie Wenger, Cl\'ement Hongler(参考訳) 自己回帰型大言語モデルによる確率論的モデリングを時間方向の角度から検討する。 このようなモデルが自然言語をモデル化する能力で示す時間非対称性は、次のトークンを予測しようとする場合と、前のトークンを予測しようとする場合との違いである。 この違いは同時に微妙で、様々なモダリティ(言語、モデルサイズ、トレーニング時間、...)で非常に一貫性がある。 理論的には、これは驚くべきことだ:情報理論的な見地からすると、そのような違いはないはずである。 このような非対称性がスパルシリティや計算複雑性からどのように現れるのかを説明するための理論的枠組みを提供し、その結果によって開かれた多くの視点を概説する。

We study the probabilistic modeling performed by Autoregressive Large Language Models through the angle of time directionality. We empirically find a time asymmetry exhibited by such models in their ability to model natural language: a difference in the average log-perplexity when trying to predict the next token versus when trying to predict the previous one. This difference is at the same time subtle and very consistent across various modalities (language, model size, training time, ...). Theoretically, this is surprising: from an information-theoretic point of view, there should be no such difference. We provide a theoretical framework to explain how such an asymmetry can appear from sparsity and computational complexity considerations, and outline a number of perspectives opened by our results.
翻訳日:2024-02-01 16:03:35 公開日:2024-01-30
# CaMU:深層モデル学習における因果関係の解消

CaMU: Disentangling Causal Effects in Deep Model Unlearning ( http://arxiv.org/abs/2401.17504v1 )

ライセンス: Link先を確認
Shaofei Shen, Chenhao Zhang, Alina Bialkowski, Weitong Chen, Miao Xu(参考訳) 機械学習では、残ったデータの必要な情報を保持しながら、データを忘れる情報を取り除く必要がある。 この領域の最近の進歩にもかかわらず、既存の方法論は主に、データ削除後の大幅な性能低下をもたらす残りのデータの情報に対する負の影響を考慮せずに、データ削除の効果に焦点を当てている。 削除後の残データの性能を修復しようとする方法もあるが、その修理後に忘れられた情報も返却できる。 このような問題は、忘れたデータと残ったデータの複雑な絡み合いが原因である。 これらの2種類のデータがモデルに与える影響を適切に区別することなく、既存のアルゴリズムは、忘れているデータの不適切な削除や、残りのデータから貴重な情報の不要な損失のリスクを負う。 この欠点に対処するため,本研究では,未学習の因果解析を行い,CaMU(Causal Machine Unlearning)と呼ばれる新しいフレームワークを導入する。 このフレームワークは、忘れたデータと残りのデータの間の因果効果を解消するために、残りのデータの情報に対する介入を追加する。 そして、CaMUは、残りのデータの因果関係を同時に保存しながら、データの忘れに関する因果影響を除去する。 様々なデータセットやモデルに対する総合的な実験結果から、CaMUは残りのデータの性能を高め、データ忘れの影響を効果的に最小化することを示唆している。 特に、この研究は、因果関係の新しい視点から深層モデルアンラーニングタスクを解釈し、因果解析に基づくソリューションを提供する最初のものである。

Machine unlearning requires removing the information of forgetting data while keeping the necessary information of remaining data. Despite recent advancements in this area, existing methodologies mainly focus on the effect of removing forgetting data without considering the negative impact this can have on the information of the remaining data, resulting in significant performance degradation after data removal. Although some methods try to repair the performance of remaining data after removal, the forgotten information can also return after repair. Such an issue is due to the intricate intertwining of the forgetting and remaining data. Without adequately differentiating the influence of these two kinds of data on the model, existing algorithms take the risk of either inadequate removal of the forgetting data or unnecessary loss of valuable information from the remaining data. To address this shortcoming, the present study undertakes a causal analysis of the unlearning and introduces a novel framework termed Causal Machine Unlearning (CaMU). This framework adds intervention on the information of remaining data to disentangle the causal effects between forgetting data and remaining data. Then CaMU eliminates the causal impact associated with forgetting data while concurrently preserving the causal relevance of the remaining data. Comprehensive empirical results on various datasets and models suggest that CaMU enhances performance on the remaining data and effectively minimizes the influences of forgetting data. Notably, this work is the first to interpret deep model unlearning tasks from a new perspective of causality and provide a solution based on causal analysis, which opens up new possibilities for future research in deep model unlearning.
翻訳日:2024-02-01 16:03:20 公開日:2024-01-30
# 量子ネットワークにおけるサービスエンタングルメントルーティングの微分化

Differentiated Service Entanglement Routing for Quantum Networks ( http://arxiv.org/abs/2401.17503v1 )

ライセンス: Link先を確認
Hui Han and Bo Liu and Bangying Tang and Siyu Xiong and Jinquan Huang and Wanrong Yu and Shuhui Chen(参考訳) 様々なトポロジを持つ絡み合い分布ネットワークは、主にアクティブ波長多重ルーティング戦略によって実装されている。 しかし、最大化されたネットワーク接続と最適なネットワーク効率を同時に達成する絡み合いルーティングスキームの設計は、量子ネットワークにとって大きな課題である。 本稿では、まず、テンソルベースの経路探索アルゴリズムを用いて、最低損失経路とサポート波長チャネルを抽出し、次に、区別された経路戦略でペアチャネルを割り当てる、差分型サービス絡み合わせルーティング(DSER)方式を提案する。 評価の結果,提案手法は大規模量子ネットワークの構築に有効であることが示唆された。

The entanglement distribution networks with various topologies are mainly implemented by active wavelength multiplexing routing strategies. However, designing an entanglement routing scheme, which achieves the maximized network connections and the optimal overall network efficiency simultaneously, remains a huge challenge for quantum networks. In this article, we propose a differentiated service entanglement routing (DSER) scheme, which firstly finds out the lowest loss paths and supported wavelength channels with the tensor-based path searching algorithm, and then allocates the paired channels with the differentiated routing strategies. The evaluation results show that the proposed DSER scheme can be performed for constructing various large scale quantum networks.
翻訳日:2024-02-01 16:02:53 公開日:2024-01-30
# LeTO:微分軌道最適化による制約付きビジュモータ政策の学習

LeTO: Learning Constrained Visuomotor Policy with Differentiable Trajectory Optimization ( http://arxiv.org/abs/2401.17500v1 )

ライセンス: Link先を確認
Zhengtong Xu, Yu She(参考訳) 本稿では,可微分軌道最適化による制約付きビジュモータポリシーの学習手法であるLeTOを紹介する。 我々のアプローチは、差別化可能な最適化層をニューラルネットワークに一意に統合する。 最適化層を軌道最適化問題として定式化することにより、モデルが余分なモジュールなしで安全かつ制御された方法でアクションを生成することができる。 本手法は,訓練過程中に制約情報を導入し,制約を満たすためのトレーニング目標のバランス,軌道の平滑化,デモによる誤りの最小化を可能にする。 この"グレーボックス"メソッドは、最適化に基づく安全性と解釈性を、ニューラルネットワークの強力な表現能力とマージする。 シミュレーションおよび実ロボット上でLeTOを定量的に評価する。 シミュレーションでは、LeTOは最先端の模倣学習手法に匹敵する成功率を達成するが、生成された軌道は不確実性が少なく、高品質で、より滑らかである。 実世界の実験では、制約クリティカルなタスクを処理するためにLeTOをデプロイしました。 その結果,LeTOと最先端の模倣学習手法を比較した。 コードをhttps://github.com/ZhengtongXu/LeTOでリリースします。

This paper introduces LeTO, a method for learning constrained visuomotor policy via differentiable trajectory optimization. Our approach uniquely integrates a differentiable optimization layer into the neural network. By formulating the optimization layer as a trajectory optimization problem, we enable the model to end-to-end generate actions in a safe and controlled fashion without extra modules. Our method allows for the introduction of constraints information during the training process, thereby balancing the training objectives of satisfying constraints, smoothing the trajectories, and minimizing errors with demonstrations. This "gray box" method marries the optimization-based safety and interpretability with the powerful representational abilities of neural networks. We quantitatively evaluate LeTO in simulation and on the real robot. In simulation, LeTO achieves a success rate comparable to state-of-the-art imitation learning methods, but the generated trajectories are of less uncertainty, higher quality, and smoother. In real-world experiments, we deployed LeTO to handle constraints-critical tasks. The results show the effectiveness of LeTO comparing with state-of-the-art imitation learning approaches. We release our code at https://github.com/ZhengtongXu/LeTO.
翻訳日:2024-02-01 16:02:41 公開日:2024-01-30
# AdvGPS:マルチエージェント・パーセプション攻撃のための逆GPS

AdvGPS: Adversarial GPS for Multi-Agent Perception Attack ( http://arxiv.org/abs/2401.17499v1 )

ライセンス: Link先を確認
Jinlong Li, Baolu Li, Xinyu Liu, Jianwu Fang, Felix Juefei-Xu, Qing Guo, Hongkai Yu(参考訳) マルチエージェント認識システムは、様々なエージェントに位置するセンサーから視覚データを収集し、GPS信号によって決定された相対的なポーズを利用して情報を効果的に融合させ、閉塞のような単一エージェントセンシングの限界を緩和する。 しかし、GPS信号の精度は、無線通信や建物などの障害物など、様々な要因に影響される可能性がある。 知覚融合におけるGPS信号の重要な役割と様々な干渉の可能性を考えると、特定のGPS信号がマルチエージェント認識システムを簡単に誤認できるかどうかを調べることが重要である。 この問題に対処するため、我々はこの課題を敵対的攻撃課題として捉え、システム内の個々のエージェントに対してステルス性のある敵対的gps信号を生成できる方法である \textsc{advgps} を導入する。 ブラックボックスシナリオにおいて,これらの攻撃の成功率を高めるために,出現に基づく不一致,分布に基づく不一致,タスク認識的不一致の3種類の統計的に敏感な自然不一致を導入する。 OPV2Vデータセットに関する広範な実験により、これらの攻撃が最先端の手法の性能を著しく損なうことが示され、異なるポイントクラウドベースの3D検出システム間で顕著な転送可能性を示している。 この警告的な啓示は、マルチエージェント認識システムにおけるセキュリティへの影響に対処する必要性を強調しており、それによって研究の重要領域が強調される。

The multi-agent perception system collects visual data from sensors located on various agents and leverages their relative poses determined by GPS signals to effectively fuse information, mitigating the limitations of single-agent sensing, such as occlusion. However, the precision of GPS signals can be influenced by a range of factors, including wireless transmission and obstructions like buildings. Given the pivotal role of GPS signals in perception fusion and the potential for various interference, it becomes imperative to investigate whether specific GPS signals can easily mislead the multi-agent perception system. To address this concern, we frame the task as an adversarial attack challenge and introduce \textsc{AdvGPS}, a method capable of generating adversarial GPS signals which are also stealthy for individual agents within the system, significantly reducing object detection accuracy. To enhance the success rates of these attacks in a black-box scenario, we introduce three types of statistically sensitive natural discrepancies: appearance-based discrepancy, distribution-based discrepancy, and task-aware discrepancy. Our extensive experiments on the OPV2V dataset demonstrate that these attacks substantially undermine the performance of state-of-the-art methods, showcasing remarkable transferability across different point cloud based 3D detection systems. This alarming revelation underscores the pressing need to address security implications within multi-agent perception systems, thereby underscoring a critical area of research.
翻訳日:2024-02-01 16:02:23 公開日:2024-01-30
# カルトグラフィー接種によるQAモデルの性能向上

Improving QA Model Performance with Cartographic Inoculation ( http://arxiv.org/abs/2401.17498v1 )

ライセンス: Link先を確認
Allen Chen (UT Austin), Okan Tankirulu (UT Austin)(参考訳) qaモデルは複雑かつオープンなコンテキスト推論の問題に直面しますが、トレーニングデータにデータセット固有のパターンを使用することで、パフォーマンスの高いソリューションヒューリスティックスを学べることが多いのです。 これらのパターン、あるいは"データセットアーティファクト"は、モデルが現実世界のqa問題に一般化する能力を減らす。 QAのためにトレーニングされたElectraSmallDiscriminatorモデルを用いて、予測のためにアーティファクトに依存したモデルを混乱させるように設計された敵対的課題セットを用いて、データセットアーティファクトの影響と頻度を分析する。 アーティファクトの影響を緩和する手法に関する既存の研究を拡張し,データセットアーティファクトへのモデル依存を軽減するために,課題データの最適化サブセット上でモデルを微調整する新しい手法である地図接種法を提案する。 課題セットからあいまいな逆さまの例でモデルを選択的に微調整することで、他の課題環境やqaデータセットへのモデルの一般化性を最小限に抑えながら、全チャレンジデータセットで大幅なパフォーマンス改善ができることを示す。

QA models are faced with complex and open-ended contextual reasoning problems, but can often learn well-performing solution heuristics by exploiting dataset-specific patterns in their training data. These patterns, or "dataset artifacts", reduce the model's ability to generalize to real-world QA problems. Utilizing an ElectraSmallDiscriminator model trained for QA, we analyze the impacts and incidence of dataset artifacts using an adversarial challenge set designed to confuse models reliant on artifacts for prediction. Extending existing work on methods for mitigating artifact impacts, we propose cartographic inoculation, a novel method that fine-tunes models on an optimized subset of the challenge data to reduce model reliance on dataset artifacts. We show that by selectively fine-tuning a model on ambiguous adversarial examples from a challenge set, significant performance improvements can be made on the full challenge dataset with minimal loss of model generalizability to other challenging environments and QA datasets.
翻訳日:2024-02-01 16:01:56 公開日:2024-01-30
# 視覚構文理解に向けて

Towards Visual Syntactical Understanding ( http://arxiv.org/abs/2401.17497v1 )

ライセンス: Link先を確認
Sayeed Shafayet Chowdhury, Soumyadeep Chandra, and Kaushik Roy(参考訳) 構文は通常、言語学の分野で研究され、文中の単語の配列を参照する。 同様に、画像は視覚的な「感覚」と見なすことができ、画像の意味部分は「単語」として振る舞う。 視覚構文理解は人間に自然に起こるが、ディープニューラルネットワーク(dnn)がそのような推論を備えているかどうかを調べるのは興味深い。 そこで我々は, 自然な画像(例えば, 顔の目と鼻を交換するなど)の構文を「正しくない」画像として変更し, このような構文異常に対するDNNの感度について検討する。 そこで本研究では,視覚トランスフォーマーと同様に最先端の畳み込みニューラルネットワークが,正しい画像のみを訓練した場合に構文的に正しい画像と不正確な画像を区別できないことを観察する。 この問題に対処し,dnnで視覚的構文理解を可能にするため,我々は3段階のフレームワークを提案する。 (i)画像中の「単語」(または、サブフィーチャー)を検出する。 (ii)自動エンコーダを用いて、検出された単語を順次マスクして再構成する。 (iii)各箇所でオリジナル部と再構築部を比較し、統語的正しさを判定する。 リコンストラクションモジュールは、bertのようなマスクによるイメージの自動エンコーディングでトレーニングされ、言語モデルにインスパイアされたトレーニングを活用して、構文をよりよくキャプチャする。 なお,提案手法は,誤画像はテスト時にのみ使用され,誤ラベルと誤ラベルはトレーニングに使用されないという意味で,教師なしである。 celebaとafhqデータセットについて実験を行い,それぞれ92.10%,90.89%の分類精度を得た。 特にこのアプローチは、明示的にトレーニングすることなくcelebaとafhqと共通のクラスを共有するimagenetサンプルにうまく一般化している。

Syntax is usually studied in the realm of linguistics and refers to the arrangement of words in a sentence. Similarly, an image can be considered as a visual 'sentence', with the semantic parts of the image acting as 'words'. While visual syntactic understanding occurs naturally to humans, it is interesting to explore whether deep neural networks (DNNs) are equipped with such reasoning. To that end, we alter the syntax of natural images (e.g. swapping the eye and nose of a face), referred to as 'incorrect' images, to investigate the sensitivity of DNNs to such syntactic anomaly. Through our experiments, we discover an intriguing property of DNNs where we observe that state-of-the-art convolutional neural networks, as well as vision transformers, fail to discriminate between syntactically correct and incorrect images when trained on only correct ones. To counter this issue and enable visual syntactic understanding with DNNs, we propose a three-stage framework- (i) the 'words' (or the sub-features) in the image are detected, (ii) the detected words are sequentially masked and reconstructed using an autoencoder, (iii) the original and reconstructed parts are compared at each location to determine syntactic correctness. The reconstruction module is trained with BERT-like masked autoencoding for images, with the motivation to leverage language model inspired training to better capture the syntax. Note, our proposed approach is unsupervised in the sense that the incorrect images are only used during testing and the correct versus incorrect labels are never used for training. We perform experiments on CelebA, and AFHQ datasets and obtain classification accuracy of 92.10%, and 90.89%, respectively. Notably, the approach generalizes well to ImageNet samples which share common classes with CelebA and AFHQ without explicitly training on them.
翻訳日:2024-02-01 16:01:35 公開日:2024-01-30
# 量子畳み込みニューラルネットワークを用いた脳腫瘍診断

Brain Tumor Diagnosis Using Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2401.15804v2 )

ライセンス: Link先を確認
Muhammad Al-Zafar Khan, Nouhaila Innan, Abdullah Al Omar Galib, Mohamed Bennai(参考訳) 量子畳み込みニューラルネットワーク(qcnns)の医療診断への統合は、脳腫瘍の分類の革新的な進歩を意味する。 本研究は、脳がん画像の特定と分類に適したQCNNモデルの高精度設計と実行について詳述する。 提案したQCNNアーキテクチャとアルゴリズムは99.67%の例外的な分類精度を達成し,臨床応用の強力なツールとしての可能性を示した。 このモデルの性能は、迅速かつ信頼性の高い脳腫瘍診断を促進する能力を強調し、治療計画における意思決定プロセスの合理化を図っている。 これらの発見は、医療画像における量子コンピューティングと量子機械学習方法論のさらなる研究と応用を強く支持しており、量子エンハンスド診断が患者のケアと治療結果の標準を著しく高める可能性を示唆している。

Integrating Quantum Convolutional Neural Networks (QCNNs) into medical diagnostics represents a transformative advancement in the classification of brain tumors. This research details a high-precision design and execution of a QCNN model specifically tailored to identify and classify brain cancer images. Our proposed QCNN architecture and algorithm have achieved an exceptional classification accuracy of 99.67%, demonstrating the model's potential as a powerful tool for clinical applications. The remarkable performance of our model underscores its capability to facilitate rapid and reliable brain tumor diagnoses, potentially streamlining the decision-making process in treatment planning. These findings strongly support the further investigation and application of quantum computing and quantum machine learning methodologies in medical imaging, suggesting a future where quantum-enhanced diagnostics could significantly elevate the standard of patient care and treatment outcomes.
翻訳日:2024-02-01 11:36:34 公開日:2024-01-30
# 先進的なアーティストの意見:AI生成芸術における透明性、オーナーシップ、公正性に関する調査研究

Foregrounding Artist Opinions: A Survey Study on Transparency, Ownership, and Fairness in AI Generative Art ( http://arxiv.org/abs/2401.15497v2 )

ライセンス: Link先を確認
Juniper Lovato, Julia Zimmerman, Isabelle Smith, Peter Dodds, Jennifer Karson(参考訳) 生成人工知能(AI)ツールは、アートのようなアウトプットを作成し、創造的なプロセスを支援するために使用される。 これらのツールはアーティストに利益をもたらすが、芸術労働力を傷つけ、芸術的および知的所有権を侵害する可能性がある。 生成AI作成者は、アーティストからの明確な同意なく、アーチストのデジタル作品をスクラップして、生成AIモデルをトレーニングし、大規模にアートライクなモデル出力を生成する。 これらのアウトプットは、現在、市場での人間アーティストとの競争に使われ、また、生成過程においてアートを作成するアーティストによって使用されている。 我々は459人のアーティストを調査し、生成AIアートの潜在的有用性と害に関するアーティストの意見の緊張関係を調査した。 本研究では、生成AIアートモデルの有用性と脅威、AIアートトレーニングモデルにおける芸術作品の公開における公正な実践、AIアートデリバティブの所有と権利、公正な補償に関するアーティストの意見を調査する。 概して、モデルクリエーターは、AIモデルをトレーニングするために使用するアートやイメージの詳細を開示する必要がある、と私たちは考えています。 また, アーティストの意見は, 職業的地位や実践, 人口動態, 美術品購入の有無, 生成aiの習熟度, 利用によって異なることがわかった。 この研究の結果が、アートコミュニティとジェネレーティブAI研究者と開発者の間でより有意義なコラボレーションと整合性をもたらすことを期待しています。

Generative Artificial Intelligence (AI) tools are used to create art-like outputs and aid in the creative process. While these tools have potential benefits for artists, they also have the potential to harm the art workforce and infringe upon artistic and intellectual property rights. Without explicit consent from artists, Generative AI creators scrape artists' digital work to train Generative AI models and produce art-like model outputs at scale. These outputs are now being used to compete with human artists in the marketplace as well as being used by some artists in their generative processes to create art. We surveyed 459 artists to investigate the tension between artists' opinions on Generative AI art's potential utility and harm. This study surveys artists' opinions on the utility and threat of Generative AI art models, fair practices in the disclosure of artistic works in AI art training models, ownership and rights of AI art derivatives, and fair compensation. We find that artists, by and large, think that model creators should be required to disclose in detail what art and images they use to train their AI models. We also find that artists' opinions vary by professional status and practice, demographics, whether they have purchased art, and familiarity with and use of Generative AI. We hope the results of this work will further more meaningful collaboration and alignment between the art community and Generative AI researchers and developers.
翻訳日:2024-02-01 11:36:19 公開日:2024-01-30
# 量子ビットとクトリットとしてのニュートリノ

Neutrinos as qubits and qutrits ( http://arxiv.org/abs/2203.13485v2 )

ライセンス: Link先を確認
Abhishek Kumar Jha, Akshay Chatla and Bindu A. Bambah(参考訳) ニュートリノを、SU(2)パウリ行列とSU(3)ゲルマン行列を用いてポインカル球を構成することにより、量子情報理論の量子ビット状態とクォート状態にマッピングする。 2量子系におけるポアンカーエ球面の構築により、2つのニュートリノ系のブロッホベクトル空間において貴重な対称性をもたらすブロッホ行列を構築することができる。 ニュートリノをクトリットと同定することにより、ニュートリノのクトリノ絡み合いの測度を計算する。 SU(3)Gell-Mann 行列はテンソル積を用いて、2つのクォートリットニュートリノ系の Poincar\'e 球を構成する。 2つのニュートリノ系における2成分量子ビットと2成分量子ビットの絡み合い測度の比較を行った。 この結果は、3つのニュートリノ系における2つのクトリッツの絡み合いの研究を保証している。

We map neutrinos to qubit and qutrit states of quantum information theory by constructing the Poincar\'e sphere using SU(2) Pauli matrices and SU(3) Gell-Mann matrices, respectively. The construction of the Poincar\'e sphere in the two-qubit system enables us to construct the Bloch matrix, which yields valuable symmetries in the Bloch vector space of two neutrino systems. By identifying neutrinos with qutrits, we calculate the measures of qutrit entanglement for neutrinos. We use SU(3) Gell-Mann matrices tensor products to construct the Poincar\'e sphere of two qutrits neutrino systems. The comparison between the entanglement measures of bipartite qubits and bipartite qutrits in the two neutrino system are shown. The result warrants a study of two qutrits entanglement in the three neutrino system.
翻訳日:2024-01-31 20:17:03 公開日:2024-01-30
# Hilbert Flattening:視覚識別のための局所保存マトリックス展開法

Hilbert Flattening: a Locality-Preserving Matrix Unfolding Method for Visual Discrimination ( http://arxiv.org/abs/2202.10240v7 )

ライセンス: Link先を確認
Qingsong Zhao, Yi Wang, Zhipeng Zhou, Duoqian Miao, Limin Wang, Yu Qiao, Cairong Zhao(参考訳) フラット化は多次元の特徴地図や画像を一次元ベクトルに変換することによってコンピュータビジョンにおいて不可欠である。 しかし、既存のフラット化アプローチは局所的な滑らかさの維持を怠り、視覚モデルの表現的学習能力に影響を与える可能性がある。 本稿では,平坦行列の局所性を保存するための革新的手法としてヒルベルト曲線平滑化を提案する。 一般的なジグザグ演算と比較し、ヒルベルト曲線の平坦化は、入力スケールのばらつきに対して頑健性を維持しつつ、元の格子構造の空間的関係と局所的滑らかさを保ち続けることができることを示した。 また、Hilbertトークンサンプリングをトークン集約器に組み込んだ視覚変換器アーキテクチャであるLocalformerを導入し、その局所性バイアスを高める。 画像分類とセマンティックセグメンテーションタスクに関する大規模な実験は、Localformerがベースラインモデルを一貫して上回ることを示した。 また、他の一般的なアーキテクチャ(MLP-Mixerなど)に対して、一貫したパフォーマンス向上をもたらすことも示しています。

Flattening is essential in computer vision by converting multi-dimensional feature maps or images into one-dimensional vectors. However, existing flattening approaches neglect the preservation of local smoothness, which can impact the representational learning capacity of vision models. In this paper, we propose Hilbert curve flattening as an innovative method to preserve locality in flattened matrices. We compare it with the commonly used Zigzag operation and demonstrate that Hilbert curve flattening can better retain the spatial relationships and local smoothness of the original grid structure, while maintaining robustness against the input scale variance. And, we introduce the Localformer, a vision transformer architecture that incorporates Hilbert token sampling with a token aggregator to enhance its locality bias. Extensive experiments on image classification and semantic segmentation tasks demonstrate that the Localformer outperforms baseline models consistently. We also show it brings consistent performance boosts for other popular architectures (e.g. MLP-Mixer).
翻訳日:2024-01-31 20:16:48 公開日:2024-01-30
# 最も近い隣人の経験過程

Nearest neighbor empirical processes ( http://arxiv.org/abs/2110.15083v3 )

ライセンス: Link先を確認
Fran\c{c}ois Portier(参考訳) 回帰フレームワークでは、共変量のうち隣人から与えられた点x$への応答に基づく経験的尺度を導入し、中央統計量として研究する。 第一に、関連する経験的過程は、近傍アルゴリズムの局所化性を反映した関数の基底クラス上の局所括弧エントロピー条件の下で一様中心極限定理を満たすことが示される。 第二に、一様非漸近境界は、一様エントロピー数上のよく知られた条件の下で成立し、しばしばVapnik-Chervonenkisと呼ばれる。 一様中心極限定理で得られるガウス極限の共分散は、余変数値が与えられた条件共分散作用素に単純に等しい。 これは、標準式を用いて、全データの代わりに最寄りの近傍のみを用いて分散を推定する可能性を示唆する。 これは条件累積分布関数の推定と局所線形回帰という2つの問題について説明する。

In the regression framework, the empirical measure based on the responses resulting from the nearest neighbors, among the covariates, to a given point $x$ is introduced and studied as a central statistical quantity. First, the associated empirical process is shown to satisfy a uniform central limit theorem under a local bracketing entropy condition on the underlying class of functions reflecting the localizing nature of the nearest neighbor algorithm. Second a uniform non-asymptotic bound is established under a well-known condition, often referred to as Vapnik-Chervonenkis, on the uniform entropy numbers. The covariance of the Gaussian limit obtained in the uniform central limit theorem is simply equal to the conditional covariance operator given the covariate value. This suggests the possibility of using standard formulas to estimate the variance by using only the nearest neighbors instead of the full data. This is illustrated on two problems: the estimation of the conditional cumulative distribution function and local linear regression.
翻訳日:2024-01-31 20:16:31 公開日:2024-01-30
# 完全連結モデルによる臨界量子メトロロジー:HeisenbergからKibble-Zurekスケーリング

Critical Quantum Metrology with Fully-Connected Models: From Heisenberg to Kibble-Zurek Scaling ( http://arxiv.org/abs/2110.04144v2 )

ライセンス: Link先を確認
Louis Garbe, Obinna Abah, Simone Felicetti, and Ricardo Puebla(参考訳) 相転移は古典的および量子センシングアプリケーションにとって魅力的なツールである。 量子センサは、量子力学が許容する究極の精度であるハイゼンベルクスケーリングを、大きなプローブ数と長い測定時間に制限して飽和させることができることが証明されている。 臨界速度の低下のため、プロトコルの持続時間は臨界量子論において最も重要となる。 しかし、どのようにして長期間の限界に達するかは、一般には未解決の問題である。 これまでのところ、臨界量子系の静的または動的性質に基づく2つの二コトミックアプローチのみが検討されている。 ここでは、静的および動的アプローチ間の連続的な接続を生成するプロトコルの異なるファミリに対して、量子フィッシャー情報のスケーリングに関する包括的分析を行う。 特に、実験的妥当性が高い幅広い量子臨界系のクラスである完全連結モデルを考える。 我々の分析は、普遍的精度スケーリング体制の存在を明らかにしている。 これらの規則は、有限時間プロトコルや有限サイズシステムにおいても有効である。 また、任意の時間依存二次ハミルトニアンの精度境界を導出することにより、これらの結果を一般的な理論的な観点で構成する。

Phase transitions represent a compelling tool for classical and quantum sensing applications. It has been demonstrated that quantum sensors can in principle saturate the Heisenberg scaling, the ultimate precision bound allowed by quantum mechanics, in the limit of large probe number and long measurement time. Due to the critical slowing down, the protocol duration time is of utmost relevance in critical quantum metrology. However, how the long-time limit is reached remains in general an open question. So far, only two dichotomic approaches have been considered, based on either static or dynamical properties of critical quantum systems. Here, we provide a comprehensive analysis of the scaling of the quantum Fisher information for different families of protocols that create a continuous connection between static and dynamical approaches. In particular, we consider fully-connected models, a broad class of quantum critical systems of high experimental relevance. Our analysis unveils the existence of universal precision-scaling regimes. These regimes remain valid even for finite-time protocols and finite-size systems. We also frame these results in a general theoretical perspective, by deriving a precision bound for arbitrary time-dependent quadratic Hamiltonians.
翻訳日:2024-01-31 20:16:15 公開日:2024-01-30
# ボルンにおける衝撃波と真空複屈折の欠如について-インフェルド電磁力学

On the absence of shock waves and vacuum birefringence in Born--Infeld electrodynamics ( http://arxiv.org/abs/2107.12249v5 )

ライセンス: Link先を確認
Hedvika Kadlecov\'a(参考訳) ボルン-インフェルド電磁力学における2つの対向伝播電磁波の真空中相互作用について検討した。 まず、線形偏極ビームのボルンケースである${\bf e}\cdot{\bf b}=0$, i について検討する。 e. $\mathfrak{G}^2=0$ (crossed field configuration) はボルン=インフェルドとボルン電磁力学と同一であり、その後非線形偏光ビームの一般ボルン=インフェルドの場合、$\mathfrak{G}^2\neq0$ を研究する。 いずれの場合も、非線形場方程式は自己相似解を用いて分離し、衝撃波の形成を調べる。 唯一の非線形解は、一定の速度で伝播し、近似に衝撃を与えない並外れた進行波解であることを示す。 2種類の例外波解を求め,どの位相速度が対向ビームや共伝播ビームに対応しているかを数値的に解析し,その後,例外波の伝播方向を決定する。

We study the interaction of two counter-propagating electromagnetic waves in vacuum in the Born-Infeld electrodynamics. First we investigate the Born case for linearly polarized beams, ${\bf E}\cdot{\bf B}=0$, i. e. $\mathfrak{G}^2=0$ (crossed field configuration), which is identical for Born-Infeld and Born electrodynamics; subsequently we study the general Born-Infeld case for beams which are nonlinearly polarized, $\mathfrak{G}^2\neq0$. In both cases, we show that the nonlinear field equations decouple using self-similar solutions and investigate the shock wave formation. We show that the only nonlinear solutions are exceptional travelling wave solutions which propagate with constant speed and which do not turn into shocks for our approximation. We obtain two types of exceptional wave solutions, then we numerically analyze which phase velocities correspond to the counter- or co-propagating beams and subsequently we determine the direction of propagation of the exceptional waves.
翻訳日:2024-01-31 20:15:59 公開日:2024-01-30
# 対称性破壊層を有する変分量子固有解法器の効率的な基底状態生成

Efficient ground state preparation in variational quantum eigensolver with symmetry-breaking layers ( http://arxiv.org/abs/2106.02509v2 )

ライセンス: Link先を確認
Chae-Yeun Park(参考訳) 変分量子固有解法(VQE)は、ハミルトニアン期待値を最小化する量子回路アンサッツのパラメータを見つけることにより、与えられたハミルトニアンの基底状態問題を解決する。 量子回路 ans\"{a}tze の中で、ハミルトン変分アンサッツ (HVA) は、十分な深さのアンサッツが基底状態を表現することが理論的に保証されるため、量子多体問題に対して広く研究されている。 しかし、HVAはハミルトニアンと同じ対称性を持っているため、必ずしも自然界でよく見られる対称性を破った基底状態を見つけるのが得意ではない。 本稿では,対称性崩壊問題に対するhvaの限界を体系的に検討し,対称性破壊層を有する代替量子回路ansatzを提案する。 広範囲な数値シミュレーションにより,対象ハミルトニアンが対称崩壊状態を持つ場合,提案するアンサッツの基底状態はベアhvaよりもかなり短くなることがわかった。

Variational quantum eigensolver (VQE) solves the ground state problem of a given Hamiltonian by finding the parameters of a quantum circuit ansatz that minimizes the Hamiltonian expectation value. Among possible quantum circuit ans\"{a}tze, the Hamiltonian variational ansatz (HVA) is widely studied for quantum many-body problems as the ansatz with sufficiently large depth is theoretically guaranteed to express the ground state. However, since the HVA shares the same symmetry with the Hamiltonian, it is not necessarily good at finding the symmetry-broken ground states that prevail in nature. In this paper, we systematically explore the limitations of the HVA for solving symmetry-broken systems and propose an alternative quantum circuit ansatz with symmetry-breaking layers. With extensive numerical simulations, we show that the proposed ansatz finds the ground state in depth significantly shorter than the bare HVA when the target Hamiltonian has symmetry-broken ground states.
翻訳日:2024-01-31 20:15:38 公開日:2024-01-30
# 2次元電子結晶における非平衡量子領域再構成ダイナミクス:実験と量子シミュレーション

Non-equilibrium quantum domain reconfiguration dynamics in a two-dimensional electronic crystal: experiments and quantum simulations ( http://arxiv.org/abs/2103.07343v4 )

ライセンス: Link先を確認
Jaka Vodeb, Michele Diego, Yevhenii Vaskivskyi, Leonard Logaric, Yaroslav Gerasimenko, Viktor Kabanov, Benjamin Lipovsek, Marko Topic and Dragan Mihailovic(参考訳) 複雑な多体量子系の緩和ダイナミクスは平衡から引き起こされ、その後準安定状態に閉じ込められ、理論的および実験的両面から非常に活発な研究分野であり、マクロ的な量子トンネルや核合成から非平衡超伝導、新しいエネルギー効率の記憶装置まで幅広いトピックに影響を及ぼす。 このような系のダイナミクスを理解することは、多体非平衡量子物理学の基本的な側面を探求する上で重要である。 本研究では,古典力学が位相的に制約される量子材料の電子超格子における量子領域再構成ダイナミクスについて検討する。 時間分解型走査型トンネル顕微鏡を用いて電荷再構成を直接観測し、環境騒音の文脈における温度から量子揺らぎ支配ダイナミクスへの交差について検討した。 この過程は、量子材料中の電子間の微視的相互作用と直接対応する量子ビット相互干渉のプログラム可能な超伝導量子シミュレータを用いてモデル化される。 量子材料における実験とシミュレーションのダイナミクスは、スペクトル的に類似したピンクノイズによって駆動される。 実験により得られた電子ドメインの時間変化と温度依存性は,シミュレーションによって極めてよく再現できることがわかった。 実験とシミュレーションの組み合わせは、オープン量子システムにおけるノイズ駆動量子力学の理解を深める。 実用的観点からは、1t-tas2に基づくような不揮発性メモリ装置における保持時間の起源を理解する上で重要である。

Relaxation dynamics of complex many-body quantum systems brought out of equilibrium and subsequently trapped into metastable states is a very active field of research from both the theoretical and experimental point of view with implications in a wide array of topics from macroscopic quantum tunnelling and nucleosynthesis to non-equilibrium superconductivity and new energy-efficient memory devices. Understanding the dynamics of such systems is crucial for exploring fundamental aspects of many-body non-equilibrium quantum physics. In this work we investigate quantum domain reconfiguration dynamics in the electronic superlattice of a quantum material where classical dynamics is topologically constrained. The crossover from temperature to quantum fluctuation dominated dynamics in the context of environmental noise is investigated by directly observing charge reconfiguration with time-resolved scanning tunneling microscopy. The process is modelled using a programmable superconducting quantum simulator in which qubit interconnections correspond directly to the microscopic interactions between electrons in the quantum material. Crucially, the dynamics of both the experiment on the quantum material and the simulation is driven by spectrally similar pink noise. We find that the simulations reproduce the emergent time evolution and temperature dependence of the experimentally observed electronic domain dynamics remarkably well. The combined experiment and simulations lead to a better understanding of noise-driven quantum dynamics in open quantum systems. From a practical viewpoint, the results are important for understanding the origin of the retention time in non-volatile memory devices such as those based on 1T-TaS2.
翻訳日:2024-01-31 20:15:16 公開日:2024-01-30
# 実時間における光子数正確に決定する

Precisely determining photon-number in real-time ( http://arxiv.org/abs/2012.10158v3 )

ライセンス: Link先を確認
Leonardo Assis Morais (1, 2), Till Weinhold (1, 2), Marcelo Pereira de Almeida (1, 2), Joshua Combes (3), Markus Rambach (2), Adriana Lita (4), Thomas Gerrits (4), Sae Woo Nam (4), Andrew G. White (1, 2) and Geoff Gillett (1, 2, 5) ((1) Centre for Engineered Quantum Systems, School of Mathematics and Physics, University of Queensland, (2) School of Maths and Physics, University of Queensland, (3) Department of Electrical, Computer and Energy Engineering, University of Colorado Boulder, (4) National Institute of Standards and Technology, (5) Quantum Valley Ideas Lab)(参考訳) 超伝導トランジションエッジセンサー(TES)は、非平行エネルギー分解能を持つ光子検出器として非常に感度の高いマイクロカロリメータである。 彼らは、天文学スペクトルの測定から、0.6-2.33evのエネルギーに対して、光子数 {=} \hat{n} {=} \hat{a}^{\dag} \hat{a}$ の量子特性を決定する応用を発見した。 しかし、最適なエネルギー分解能を達成するには、1gb/minのオーダーで、処理後のデータ取得が必要であり、リアルタイムにエネルギー情報にアクセスできない。 ここでは、TESパルスの処理にカスタムハードウェアプロセッサを使用し、新しい検出がまだ登録されている間、光子数をリアルタイムで測定し、マグニチュードによるデータ要求を減らす。 我々は、天文学から量子技術へのTES検出器の応用のための変換能力を提供するため、n=16までの光子数を解決した。

Superconducting transition-edge sensors (TES) are extremely sensitive microcalorimeters used as photon detectors with unparalleled energy resolution. They have found application from measuring astronomical spectra through to determining the quantum property of photon-number, $\hat{n} {=} \hat{a}^{\dag} \hat{a}$, for energies from 0.6-2.33eV. However, achieving optimal energy resolution requires considerable data acquisition -- on the order of 1GB/min -- followed by post-processing, which does not allow access to energy information in real time. Here we use a custom hardware processor to process TES pulses while new detections are still being registered, allowing photon-number to be measured in real time as well as reducing data requirements by orders-of-magnitude. We resolve photon number up to n=16 -- achieving up to parts-per-billion discrimination for low photon numbers on the fly -- providing transformational capacity for applications of TES detectors from astronomy through to quantum technology.
翻訳日:2024-01-31 20:14:51 公開日:2024-01-30
# 集団減衰を伴う相互作用スピン系の散逸ダイナミクス

Dissipative dynamics of an interacting spin system with collective damping ( http://arxiv.org/abs/1803.01167v2 )

ライセンス: Link先を確認
Irfan A Dar, Faisal Farooq, Junaid Majeed, Mehboob Rashid, Sheikh Irfan, Muzaffar Qadir Lone(参考訳) 量子系におけるハミルトン力学とリンドブラッド力学の競合は、従来の凝縮物質物理学では逆部分を持たない非平衡現象を引き起こす。 本論文では,非マルコフ浴に結合した無限範囲ハイゼンベルクモデルにおけるこの力学の相互作用を,所与の場所でスピンフリップによりリンドブラッド力学を適用した。 スピンモデルはホルシュタイン-プリマコフ変換によってボゾン化され、熱力学的極限の狭いパラメータの範囲で有効であることが示されている。 シュウィンガー・ケルディシュ法を用いて、モデルの平均場解を導出し、遷移点において系が$\mathcal{Z}_2$対称性を破るのを観察する。 本研究では, 有効系のバス結合に線形に依存する有効温度を計算し, 浴槽スペクトル密度の消散速度と遮断周波数に依存しない。 さらに, 平均場上のゆらぎについて検討し, 散逸スペクトルが様々な物理量で変化する${\rm o}(\frac{1}{n})$補正項によって変化することを示した。

The competition between Hamiltonian and Lindblad dynamics in quantum systems give rise to non-equillibrium phenomena with no counter part in conventional condensed matter physics. In this paper, we investigate this interplay of dynamics in infinite range Heisenberg model coupled to a non-Markovian bath and subjected to Lindblad dynamics due to spin flipping at a given site. The spin model is bosonized via Holstein-Primakoff transformations and is shown to be valid for narrow range of parameters in the thermodynamic limit. Using Schwinger-Keldysh technique, we derive mean field solution of the model and observe that the system breaks $\mathcal{Z}_2$-symmetry at the transition point. We calculate effective temperature that has linear dependence on the effective system-bath coupling, and is independent of the dissipation rate and cutoff frequency of the bath spectral density. Furthermore, we study the fluctuations over mean field and show that the dissipative spectrum is modified by ${\rm O}(\frac{1}{N})$ correction term which results change in various physically measurable quantities.
翻訳日:2024-01-31 20:13:59 公開日:2024-01-30
# 因子モデルにおける二重強近傍

Doubly robust nearest neighbors in factor models ( http://arxiv.org/abs/2211.14297v3 )

ライセンス: Link先を確認
Raaz Dwivedi, Katherine Tian, Sabina Tomkins, Predrag Klasnja, Susan Murphy, Devavrat Shah(参考訳) 潜在因子モデルに欠落データを含む推定のために,改良された近距離近傍(nn)の変種を導入し,解析する。 i, t)$-th エントリが観測されたとき、その平均 $f(u_i, v_t)$ と、未知関数 $f$ と潜在係数 $u_i$ と $v_t$ の平均-ゼロノイズによって与えられる、データ不足による行列補完問題を考える。 平均$f(u_i, v_t)$を推定する以前のNN戦略は、$u_j \approx u_i$の他の行の存在に依存している。 同様に、時刻NN戦略は$t'$と$v_{t'} \approx v_t$の存在に依存している。 これらの戦略は、類似の行や類似の列が利用できない場合にそれぞれ性能が低下する。 1)良い行または良い列の隣人が存在する限り、我々の見積もりは一貫した見積もりを提供する。 2)さらに,良行と良列近傍の両方が存在する場合,非漸近誤差の(ほぼ)クアドドラティックな改善が得られ,単位単位と時間単位のnnと比較して,漸近的信頼区間がかなり狭くなる。

We introduce and analyze an improved variant of nearest neighbors (NN) for estimation with missing data in latent factor models. We consider a matrix completion problem with missing data, where the $(i, t)$-th entry, when observed, is given by its mean $f(u_i, v_t)$ plus mean-zero noise for an unknown function $f$ and latent factors $u_i$ and $v_t$. Prior NN strategies, like unit-unit NN, for estimating the mean $f(u_i, v_t)$ relies on existence of other rows $j$ with $u_j \approx u_i$. Similarly, time-time NN strategy relies on existence of columns $t'$ with $v_{t'} \approx v_t$. These strategies provide poor performance respectively when similar rows or similar columns are not available. Our estimate is doubly robust to this deficit in two ways: (1) As long as there exist either good row or good column neighbors, our estimate provides a consistent estimate. (2) Furthermore, if both good row and good column neighbors exist, it provides a (near-)quadratic improvement in the non-asymptotic error and admits a significantly narrower asymptotic confidence interval when compared to both unit-unit or time-time NN.
翻訳日:2024-01-31 20:08:55 公開日:2024-01-30
# 多粒度不確かさ正規化によるテキストフィードバックによる合成画像検索

Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization ( http://arxiv.org/abs/2211.07394v6 )

ライセンス: Link先を確認
Yiyang Chen, Zhedong Zheng, Wei Ji, Leigang Qu, Tat-Seng Chua(参考訳) テキストフィードバックによる合成画像検索について検討した。 ユーザは、粗いフィードバックから細かいフィードバックに移行することで、徐々に関心の対象を探します。 しかし、既存の方法は、訓練中に正のペアと負のペアを利用することで、後者、すなわちきめ細かい検索にのみ焦点を合わせている。 このペアベースのパラダイムは、一対の特定点間の一対一の距離のみを考慮し、一対一の粗い粗い検索プロセスと一致せず、リコール率を損なう。 このギャップを埋めるために,多粒度不確かさを考慮し,粗粒検索と細粒検索を同時にモデル化する統一学習手法を提案する。 提案手法を基盤とするキーアイデアは,データポイントと小変動点,大変動点のマッチングとして,細粒度検索と粗粒度検索を統合することである。 具体的には、不確実性モデリングと不確実性正規化の2つのモジュールを含む。 1)不確実性モデリングは,特徴空間に同一の分散変動を導入することで,多粒度クエリをシミュレートする。 2) 不確実性モデリングに基づいて,変動範囲に応じて一致目標を適応させる不確実性正規化を導入する。 既存手法と比較して, 提案手法では, モデルが早期に潜在的な候補を追い払うことを明示的に防止し, リコール率を向上させる。 fashioniq, fashion200k, shoesの3つのパブリックデータセットにおいて,提案手法はそれぞれ,強いベースラインに対して +4.03%, +3.38%, +2.40% recall@50 の精度を達成している。

We investigate composed image retrieval with text feedback. Users gradually look for the target of interest by moving from coarse to fine-grained feedback. However, existing methods merely focus on the latter, i.e., fine-grained search, by harnessing positive and negative pairs during training. This pair-based paradigm only considers the one-to-one distance between a pair of specific points, which is not aligned with the one-to-many coarse-grained retrieval process and compromises the recall rate. In an attempt to fill this gap, we introduce a unified learning approach to simultaneously modeling the coarse- and fine-grained retrieval by considering the multi-grained uncertainty. The key idea underpinning the proposed method is to integrate fine- and coarse-grained retrieval as matching data points with small and large fluctuations, respectively. Specifically, our method contains two modules: uncertainty modeling and uncertainty regularization. (1) The uncertainty modeling simulates the multi-grained queries by introducing identically distributed fluctuations in the feature space. (2) Based on the uncertainty modeling, we further introduce uncertainty regularization to adapt the matching objective according to the fluctuation range. Compared with existing methods, the proposed strategy explicitly prevents the model from pushing away potential candidates in the early stage, and thus improves the recall rate. On the three public datasets, i.e., FashionIQ, Fashion200k, and Shoes, the proposed method has achieved +4.03%, +3.38%, and +2.40% Recall@50 accuracy over a strong baseline, respectively.
翻訳日:2024-01-31 20:08:16 公開日:2024-01-30
# 日本人セレブとインフルエンサーのオンラインハラスメント

Online Harassment of Japanese Celebrities and Influencers ( http://arxiv.org/abs/2210.07599v2 )

ライセンス: Link先を確認
Masanori Takano, Fumiaki Taka, Chiki Ogiue, Natsuki Nagata(参考訳) セレブやインフルエンサーなどの有名人は毎日オンライン上で嫌がらせされている。 オンラインハラスメントは彼らを精神的に妨げ、社会に悪影響を及ぼす。 しかし、有名人のオンラインハラスメント被害に関する限られた研究が行われており、その影響は定かではない。 オンラインハラスメントの被害者, 感情的傷害, 違反者に対する行動について, テレビやソーシャルメディアなどで影響力のある人物(N=213ドル)を対象に調査を行い, 各種のオンラインハラスメントが一般的であることを明らかにした。 一部の被害者は、weblogsとソーシャルメディアシステム(例えば、違反者のアカウントをブロック・交換・報告し、コメントフォームを閉じるなど)によって提供されるハラスメント対策機能を使い、身近な人々への被害者化について話し、関連する当局と接触して法的措置を講じた。 対照的に、一部の被害者は嫌がらせを受け入れることを余儀なくされ、犯罪に対する行動を開始しなかった。 被害者の支援、オンラインハラスメントの抑制、教育のためのいくつかのアプローチを提案する。 我々の発見は、プラットフォームがオンラインハラスメントに対するサポートシステムを確立するのに役立つ。

Famous people, such as celebrities and influencers, are harassed online on a daily basis. Online harassment mentally disturbs them and negatively affects society. However, limited studies have been conducted on the online harassment victimization of famous people, and its effects remain unclear. We surveyed Japanese famous people ($N=213$), who were influential people who appeared on television and other traditional media and on social media, regarding online harassment victimization, emotional injury, and action against offenders and revealed that various forms of online harassment are prevalent. Some victims used the anti-harassment functions provided by weblogs and social media systems (e.g., blocking/muting/reporting offender accounts and closing comment forms), talked about their victimization to close people, and contacted relevant authorities to take legal action (talent agencies, legal consultants, and police). By contrast, some victims felt compelled to accept harassment and did not initiate action for offenses. We propose several approaches to support victims, inhibit online harassment, and educate people. Our findings help that platforms establish support systems against online harassment.
翻訳日:2024-01-31 20:06:54 公開日:2024-01-30
# 滑らか化ワッサーシュタイン推定器におけるエントロピー正則化の可能性について

On the potential benefits of entropic regularization for smoothing Wasserstein estimators ( http://arxiv.org/abs/2210.06934v2 )

ライセンス: Link先を確認
J\'er\'emie Bigot, Paul Freulon, Boris P. Hejblum, and Arthur Leclaire(参考訳) 本稿では,統計学における近似と推定誤差の古典的トレードオフのプリズムを通じて,ワッサーシュタイン推定器の平滑化手法としての最適輸送におけるエントロピー正則化の研究に着目する。 ワッサースタイン推定器は、確率測度間の最適な輸送コストの使用を目的関数とする変分問題の解として定義される。 このような推定器は、輸送計画のエントロピーペナルティを用いて最適な輸送コストをその正規化バージョンに置き換えることで定式化することができる。 このような正規化の使用は、結果として生じる推定値に潜在的に大きな滑らか化効果をもたらす。 本研究では,正規化ワッサーシュタイン推定器の近似と推定特性に対する潜在的な利点について検討する。 我々の主な貢献は、分布データ解析を含む統計的学習問題における非正規化ワッサースタイン推定器に匹敵するエントロピー正則化が、より低い計算コストでどのように到達するかを議論することである。 この目的のために,正規化ワッサースタイン推定器の収束に関する新しい理論的結果を示す。 また,最適移動量を用いた混合モデルにおける比例推定の教師付き学習問題において,シミュレーションと実データを用いてその数値的性能について検討した。

This paper is focused on the study of entropic regularization in optimal transport as a smoothing method for Wasserstein estimators, through the prism of the classical tradeoff between approximation and estimation errors in statistics. Wasserstein estimators are defined as solutions of variational problems whose objective function involves the use of an optimal transport cost between probability measures. Such estimators can be regularized by replacing the optimal transport cost by its regularized version using an entropy penalty on the transport plan. The use of such a regularization has a potentially significant smoothing effect on the resulting estimators. In this work, we investigate its potential benefits on the approximation and estimation properties of regularized Wasserstein estimators. Our main contribution is to discuss how entropic regularization may reach, at a lower computational cost, statistical performances that are comparable to those of un-regularized Wasserstein estimators in statistical learning problems involving distributional data analysis. To this end, we present new theoretical results on the convergence of regularized Wasserstein estimators. We also study their numerical performances using simulated and real data in the supervised learning problem of proportions estimation in mixture models using optimal transport.
翻訳日:2024-01-31 20:06:08 公開日:2024-01-30
# 量子状態の局所的未同定部分集合とその秘密パスワード分布におけるリソースフルネス

Locally unidentifiable subset of quantum states and its resourcefulness in secret password distribution ( http://arxiv.org/abs/2209.10954v3 )

ライセンス: Link先を確認
Pratik Ghosal, Arkaprabha Ghosal, Subhendu B. Ghosh and Amit Mukherjee(参考訳) 我々は、局所演算と古典通信(LOCC)を用いて、より大きな既知の集合からランダムに選択された相互直交多部量子状態のサブセットを完璧に識別するために、空間的に分離されたパーティの制限から生じる、局所的部分集合不特定性と呼ばれる非探索的な量子非局所性の非探索形式を導入する。 この非局所性は、局所的非識別性や局所的非識別性といった、既存の量子非局所性よりも強い。 局所的に区別できない集合から複数の多元状態が連続的に順序付けられた方法で空間的に分離された当事者間で分配される場合、どの状態がloccを使っているかを示すことができる。 However, we show that even when the parties cannot mark the states, they may still locally identify the particular states given to them, though not their order -- i.e., they can identify the elements of the given subset of states. Then we prove the existence of such subsets that are not even locally identifiable, thereby manifesting a stronger nonlocality. We also present the genuine version of this nonlocality -- genuine subset unidentifiability -- where the provided subset remains unidentifiable unless all the parties come together in a common location and perform global measurements. この非局所性の潜在的な応用を将来の量子技術に期待する。 我々は,この非局所性が前者よりもリソースとして優れる,ある秘密パスワード配布プロトコルにおいて,このようなアプリケーションについて論じる。

We introduce a hitherto unexplored form of quantum nonlocality, termed local subset unidentifiability, that arises from the limitation of spatially separated parties to perfectly identify a subset of mutually orthogonal multipartite quantum states, randomly chosen from a larger known set, using Local Operations and Classical Communication (LOCC). We show that this nonlocality is stronger than other existing forms of quantum nonlocality, such as local indistinguishability and local unmarkability. If more than one multipartite states from a locally indistinguishable set are distributed between spatially separated parties in a sequentially ordered fashion, then they may or may not mark which state is which using LOCC. However, we show that even when the parties cannot mark the states, they may still locally identify the particular states given to them, though not their order -- i.e., they can identify the elements of the given subset of states. Then we prove the existence of such subsets that are not even locally identifiable, thereby manifesting a stronger nonlocality. We also present the genuine version of this nonlocality -- genuine subset unidentifiability -- where the provided subset remains unidentifiable unless all the parties come together in a common location and perform global measurements. We anticipate potential applications of this nonlocality for future quantum technologies. We discuss one such application in a certain secret password distribution protocol, where this nonlocality outperforms its predecessors as a resource.
翻訳日:2024-01-31 20:05:24 公開日:2024-01-30
# 多モード音響共振器における相関周波数雑音

Correlated frequency noise in a multimode acoustic resonator ( http://arxiv.org/abs/2208.13410v3 )

ライセンス: Link先を確認
Nuttamas Tubsrinuan and Jared H. Cole and Per Delsing and Gustav Andersson(参考訳) 周波数不安定性は量子デバイスにおけるエラーの主な原因である。 本研究では、14個のsawモードの反射係数を7時間以上同時に測定する弾性表面波共振器の周波数ゆらぎについて検討する。 2つの異なるノイズ特性を報告する。 2レベルシステム(TLS)欠陥との相互作用によるマルチモード周波数ノイズは、デチューニングの増加に伴って減少する有意な相関関係を示す。 この発見は、量子デバイスにおける支配的なノイズ源の1つである寄生TLS挙動の現在の理解と一致する。 TLSによるノイズに加えて、遅い反相関ダイナミクスを持つ強い異常周波数変動を観測する。 これらのノイズバーストは超伝導量子系で観測された宇宙放射の符号に似ている。

Frequency instabilities are a major source of errors in quantum devices. This study investigates frequency fluctuations in a surface acoustic wave (SAW) resonator, where reflection coefficients of 14 SAW modes are measured simultaneously for more than seven hours. We report two distinct noise characteristics. Multimode frequency noise caused by interactions with two-level system (TLS) defects shows significant degrees of correlations that diminish with increased detuning. This finding agrees with the current understanding of the parasitic TLS behavior as one of the dominant noise sources in quantum devices. In addition to the TLS-induced noise, we observe strong anomalous frequency fluctuations with slow, anti-correlated dynamics. These noise bursts resemble signatures of cosmic radiation observed in superconducting quantum systems.
翻訳日:2024-01-31 20:05:00 公開日:2024-01-30
# 拡張フェルミオン格子系の断熱理論について

On adiabatic theory for extended fermionic lattice systems ( http://arxiv.org/abs/2208.12220v2 )

ライセンス: Link先を確認
Joscha Henheik and Tom Wessel(参考訳) 本稿では,拡張ガッピングフェルミオン格子系の基底状態に対する断熱理論の最近の結果について考察する。 より正確には、拡張だが有限である無限系に対する一般化された超断熱定理を示し、一様ギャップまたは非摂動基底状態の上のバルクのギャップを仮定する。 このノートの目的は、これらの断熱定理の概要を提供し、それらの証明に必要な主要な考えと技法を概説することである。

We review recent results on adiabatic theory for ground states of extended gapped fermionic lattice systems under several different assumptions. More precisely, we present generalized super-adiabatic theorems for extended but finite as well as infinite systems, assuming either a uniform gap or a gap in the bulk above the unperturbed ground state. The goal of this note is to provide an overview of these adiabatic theorems and briefly outline the main ideas and techniques required in their proofs.
翻訳日:2024-01-31 20:04:51 公開日:2024-01-30
# 量子推定理論に基づく量子誤差緩和の普遍的コスト境界

Universal cost bound of quantum error mitigation based on quantum estimation theory ( http://arxiv.org/abs/2208.09385v6 )

ライセンス: Link先を確認
Kento Tsubouchi, Takahiro Sagawa, and Nobuyuki Yoshioka(参考訳) 本稿では,様々な量子誤差緩和手法のコストを量子推定理論に基づいて分析する統一的手法を提案する。 量子誤差緩和法の演算を効果的に表す仮想量子回路の量子フィッシャー情報行列を解析することにより、観測可能な観測値の偏りのない推定は、測定コストに基づいて回路深さの低い領域で指数関数的な成長に遭遇する、マルコフノイズの幅広いクラスの下で、汎用的な層状量子回路を導出する。 大域的非分極雑音下では、測定結果を再スケーリングするだけで、境界は漸近的に飽和することができる。 さらに,局所ノイズのあるランダム回路に対して,量子ビット数とともにコストが指数関数的に増加することを証明した。 我々の数値シミュレーションは、ブロック壁構造などの線形接続のみを有する回路であっても、各ノイズチャネルは量子ビット数で指数関数的に増大する大域的非分極チャネルに収束する、という観測を裏付けている。 これは、深さと量子ビット数の両方でコストの指数的な増加を意味するだけでなく、十分に深い量子回路に対する再スケーリング技術を検証する。 本研究は,量子誤差緩和の物理的限界の理解に寄与し,量子誤差緩和手法の性能評価のための新たな基準を提供する。

We present a unified approach to analyzing the cost of various quantum error mitigation methods on the basis of quantum estimation theory. By analyzing the quantum Fisher information matrix of a virtual quantum circuit that effectively represents the operations of quantum error mitigation methods, we derive for a generic layered quantum circuit under a wide class of Markovian noise that, unbiased estimation of an observable encounters an exponential growth with the circuit depth in the lower bound on the measurement cost. Under the global depolarizing noise, we in particular find that the bound can be asymptotically saturated by merely rescaling the measurement results. Moreover, we prove for random circuits with local noise that the cost grows exponentially also with the qubit count. Our numerical simulations support the observation that, even if the circuit has only linear connectivity, such as the brick-wall structure, each noise channel converges to the global depolarizing channel with its strength growing exponentially with the qubit count. This not only implies the exponential growth of cost both with the depth and qubit count, but also validates the rescaling technique for sufficiently deep quantum circuits. Our results contribute to the understanding of the physical limitations of quantum error mitigation and offer a new criterion for evaluating the performance of quantum error mitigation techniques.
翻訳日:2024-01-31 20:04:42 公開日:2024-01-30
# 一般化イジングモデルから非可逆アノマリーへ

Towards Non-Invertible Anomalies from Generalized Ising Models ( http://arxiv.org/abs/2208.09101v2 )

ライセンス: Link先を確認
Shang Liu, Wenjie Ji(参考訳) 本稿では,非可逆位相のバルク-バウンダリ対応に対して,トポロジカル順序とフラクトン順序の両方を含む一般的なアプローチを提案する。 これは、可解な$(d+1)$-次元トポロジーを持つバルクモデルが、いわゆる一般化イジング(GI)モデルから$d$次元で構築される新しいバルク構成プロトコルによって達成される。 GIモデルは、バルクモデルのバウンダリで終了することができる。 この構成は、任意の次元における$z_2$ toric コードモデルや x-cube fracton モデルのようなプロトタイプモデルだけでなく、$z_2\times z_2$ トポロジカルオーダー、純ループ励起による 4d $z_2$ トポロジカルオーダーなどのより多様な例を生み出している。 可解モデルのバウンダリは潜在的に異常であり、特定の全対称性電荷を持ち、あるいは特定の境界条件を満たすGIモデルのセクタのみに対応する。 このようなバルク境界対応の具体的条件を導出する。 この条件はバルクモデルが自明であるかフラクトンが順序付けられた場合にのみ違反する。 クラマース=ワニエ双対性の一般化された概念は、建設において重要な役割を果たす。 また, この双対性を利用して, 2つの異なるバルクフラクトンモデルの境界において, 1つの異常理論が実現可能であることを示す。 より一般的には、位相秩序はgiモデルを超えて格子モデルから始まり、例えば対称性が保護された位相秩序を持つものから、付録で提示される様々なバルク構成を通して生成されるかもしれない。

We present a general approach to the bulk-boundary correspondence of noninvertible topological phases, including both topological and fracton orders. This is achieved by a novel bulk construction protocol where solvable $(d+1)$-dimensional bulk models with noninvertible topology are constructed from the so-called generalized Ising (GI) models in $d$ dimensions. The GI models can then terminate on the boundaries of the bulk models. The construction generates abundant examples, including not only prototype ones such as $Z_2$ toric code models in any dimensions no less than two, and the X-cube fracton model, but also more diverse ones such as the $Z_2\times Z_2$ topological order, the 4d $Z_2$ topological order with pure-loop excitations, etc. The boundary of the solvable model is potentially anomalous and corresponds to precisely only sectors of the GI model that host certain total symmetry charges and/or satisfy certain boundary conditions. We derive a concrete condition for such bulk-boundary correspondence. The condition is violated only when the bulk model is either trivial or fracton ordered. A generalized notion of Kramers-Wannier duality plays an important role in the construction. Also, utilizing the duality, we find an example where a single anomalous theory can be realized on the boundaries of two distinct bulk fracton models, a phenomenon not expected in the case of topological orders. More generally, topological orders may also be generated starting with lattice models beyond the GI models, such as those with symmetry protected topological orders, through a variant bulk construction, which we provide in an appendix.
翻訳日:2024-01-31 20:04:15 公開日:2024-01-30
# 地磁気慣性航法に基づく動的センサマッチング

Dynamic Sensor Matching based on Geomagnetic Inertial Navigation ( http://arxiv.org/abs/2208.06233v2 )

ライセンス: Link先を確認
Simone M\"uller and Dieter Kranzlm\"uller(参考訳) 光センサーは動的環境を捉え、ほぼリアルタイムで深度情報を導き出すことができる。 これらのデジタル再構成の品質は、照明、表面およびテクスチャ条件、センシング速度などのセンサ特性、センサオブジェクトの関係などによって決定される。 複数のセンサから動的に収集されたデータを使うことで、改善が得られる。 しかし、複数のセンサーからのデータをマッチングするには、共有世界座標システムが必要である。 本稿では,多センサデータを一般に参照される世界座標系である地球の磁場に転送する概念を提案する。 惑星磁場の定常的な存在は、動的環境の位置決定された再構築の基準となる信頼性の高い世界座標系を提供する。 本手法は,zed 2ステレオカメラの磁場センサを用いて,コンパスに類似した極に対する向き付けを提供するステレオラブを用いて評価する。 慣性測定ユニット情報の助けを借りて、各カメラの位置データを統一世界座標系に転送することができる。 本評価では,地球磁場による品質のレベルを明らかにし,環境検出のための光マルチセンサの動的・リアルタイム応用の基礎となる。

Optical sensors can capture dynamic environments and derive depth information in near real-time. The quality of these digital reconstructions is determined by factors like illumination, surface and texture conditions, sensing speed and other sensor characteristics as well as the sensor-object relations. Improvements can be obtained by using dynamically collected data from multiple sensors. However, matching the data from multiple sensors requires a shared world coordinate system. We present a concept for transferring multi-sensor data into a commonly referenced world coordinate system: the earth's magnetic field. The steady presence of our planetary magnetic field provides a reliable world coordinate system, which can serve as a reference for a position-defined reconstruction of dynamic environments. Our approach is evaluated using magnetic field sensors of the ZED 2 stereo camera from Stereolabs, which provides orientation relative to the North Pole similar to a compass. With the help of inertial measurement unit informations, each camera's position data can be transferred into the unified world coordinate system. Our evaluation reveals the level of quality possible using the earth magnetic field and allows a basis for dynamic and real-time-based applications of optical multi-sensors for environment detection.
翻訳日:2024-01-31 20:03:42 公開日:2024-01-30
# 複雑なマルチエージェントシナリオにおける反事実的治療結果の推定

Estimating counterfactual treatment outcomes over time in complex multi-agent scenarios ( http://arxiv.org/abs/2206.01900v3 )

ライセンス: Link先を確認
Keisuke Fujii, Koh Takeuchi, Atsushi Kuribayashi, Naoya Takeishi, Yoshinobu Kawahara, Kazuya Takeda(参考訳) マルチエージェントシステムにおける介入の評価(例えば、人間が自律運転システムに介入し、プレーヤーが良いショットのためにチームメイトに渡すべき時)は、様々な工学および科学分野において困難である。 対人的長期予測を用いた個別治療効果(ite)の推定は,これらの介入を評価するのに有用である。 しかし、従来のフレームワークのほとんどは、マルチエージェント関係の時間変化のある複雑な構造や、共変量の反事実予測を考慮しなかった。 これは ite の誤った評価と解釈の難しさにつながる可能性がある。 本稿では,マルチエージェントシステムにおける解釈可能かつ反事実的リカレントネットワークを提案し,介入の効果を推定する。 本モデルでは,多エージェント共変量と結果の長期予測に基づく ite 推定フレームワークのための,グラフ変動リカレントニューラルネットワークと理論ベース計算を活用し,介入が有効な状況を確認する。 自動走行車と生体エージェントのシミュレーションモデルについて, 提案手法は, 正則共変量における推定誤差の低減と, ベースラインよりも効果的な処理タイミングを達成できたことを示す。 さらに,実際のバスケットボールデータを用いて現実的な対実予測を行い,ショットシナリオにおける対実パスを評価した。

Evaluation of intervention in a multi-agent system, e.g., when humans should intervene in autonomous driving systems and when a player should pass to teammates for a good shot, is challenging in various engineering and scientific fields. Estimating the individual treatment effect (ITE) using counterfactual long-term prediction is practical to evaluate such interventions. However, most of the conventional frameworks did not consider the time-varying complex structure of multi-agent relationships and covariate counterfactual prediction. This may lead to erroneous assessments of ITE and difficulty in interpretation. Here we propose an interpretable, counterfactual recurrent network in multi-agent systems to estimate the effect of the intervention. Our model leverages graph variational recurrent neural networks and theory-based computation with domain knowledge for the ITE estimation framework based on long-term prediction of multi-agent covariates and outcomes, which can confirm the circumstances under which the intervention is effective. On simulated models of an automated vehicle and biological agents with time-varying confounders, we show that our methods achieved lower estimation errors in counterfactual covariates and the most effective treatment timing than the baselines. Furthermore, using real basketball data, our methods performed realistic counterfactual predictions and evaluated the counterfactual passes in shot scenarios.
翻訳日:2024-01-31 20:03:26 公開日:2024-01-30
# TracInAD:異常検出への影響の測定

TracInAD: Measuring Influence for Anomaly Detection ( http://arxiv.org/abs/2205.01362v4 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Li\^en Doan and Fabrice Daniel(参考訳) 他の多くのタスクと同様に、ニューラルネットワークは異常検出に非常に効果的である。 しかし、テーブル型データセットで異常を検出するのに適したディープラーニングモデルはほとんどない。 本稿では,本研究で最初に導入したインフルエンス指標であるtracinに基づく異常をフラグする新しい手法を提案する。 提案手法は, 教師なし深部異常検出手法の強化に有効である。 提案手法は変動型オートエンコーダを用いてテストし,実験点に対する訓練点のサブサンプルの平均的影響が異常の指標となりうることを示した。 我々のモデルは、最先端のアプローチと比較して競争力があることを証明している。医療およびサイバーセキュリティの表型ベンチマークデータに対する検出精度において、同等またはより良いパフォーマンスを達成する。

As with many other tasks, neural networks prove very effective for anomaly detection purposes. However, very few deep-learning models are suited for detecting anomalies on tabular datasets. This paper proposes a novel methodology to flag anomalies based on TracIn, an influence measure initially introduced for explicability purposes. The proposed methods can serve to augment any unsupervised deep anomaly detection method. We test our approach using Variational Autoencoders and show that the average influence of a subsample of training points on a test point can serve as a proxy for abnormality. Our model proves to be competitive in comparison with state-of-the-art approaches: it achieves comparable or better performance in terms of detection accuracy on medical and cyber-security tabular benchmark data.
翻訳日:2024-01-31 20:03:01 公開日:2024-01-30
# ユーザ価値共生を考慮したiot健康情報システムのための最適サービス資源管理戦略

Optimal service resource management strategy for IoT-based health information system considering value co-creation of users ( http://arxiv.org/abs/2204.02521v2 )

ライセンス: Link先を確認
Ji Fang, Vincent CS Lee, Haiyan Wang(参考訳) 本稿では,サービスの性能向上,サービスリソース活用の最適化,インタラクティブなヘルス情報サービスの提供を目的とした,医療情報サービスの継続的な課題である,サービスリソース管理の最適戦略について検討する。 健康情報サービスにおける価値共創モデルを考慮した最適なサービス資源管理戦略を開発し,ユーザとの協調と対話に焦点をあてた。 深層強化学習アルゴリズムはIoT(Internet of Things)ベースのヘルス情報サービスシステム(I-HISS)に組み込まれ,ユーザのエンゲージメント行動に基づいてサービス提供とサービス適応を制御することでサービスリソースを割り当てる。 健康情報サービスに対するユーザ反応の異なるアルゴリズムの有効性を評価するため,シミュレーション実験を行った。

This paper explores optimal service resource management strategy, a continuous challenge for health information service to enhance service performance, optimise service resource utilisation and deliver interactive health information service. An adaptive optimal service resource management strategy was developed considering a value co-creation model in health information service with a focus on collaborative and interactive with users. The deep reinforcement learning algorithm was embedded in the Internet of Things (IoT)-based health information service system (I-HISS) to allocate service resources by controlling service provision and service adaptation based on user engagement behaviour. The simulation experiments were conducted to evaluate the significance of the proposed algorithm under different user reactions to the health information service.
翻訳日:2024-01-31 20:02:51 公開日:2024-01-30
# スマートグリッドにおける故障予測システムに対する機械誘導逆攻撃

Machine-learned Adversarial Attacks against Fault Prediction Systems in Smart Electrical Grids ( http://arxiv.org/abs/2303.18136v2 )

ライセンス: Link先を確認
Carmelo Ardito, Yashar Deldjoo, Tommaso Di Noia, Eugenio Di Sciascio, Fatemeh Nazary, Giovanni Servedio(参考訳) スマートな電気グリッドでは、障害検出タスクは経済的かつ重要な意味を持つため、社会に大きな影響を与える可能性がある。 近年、欠陥検出や負荷予測といった多くのスマートグリッドアプリケーションが、データ駆動手法を採用しています。 本研究の目的は、スマートグリッドシナリオにおける機械学習(ML)アプリケーションのセキュリティに関する課題を検討することである。 実際、これらのデータ駆動アルゴリズムの堅牢性とセキュリティは、すべての電力グリッドアプリケーションに関して広く研究されていない。 まず,スマートグリッドにおけるディープニューラルネットワーク手法が,逆摂動の影響を受けやすいことを示す。 そこで我々は,スマートグリッドにおける現在のMLアルゴリズムの弱点を,障害の局所化と型分類で示す方法を強調した。

In smart electrical grids, fault detection tasks may have a high impact on society due to their economic and critical implications. In the recent years, numerous smart grid applications, such as defect detection and load forecasting, have embraced data-driven methodologies. The purpose of this study is to investigate the challenges associated with the security of machine learning (ML) applications in the smart grid scenario. Indeed, the robustness and security of these data-driven algorithms have not been extensively studied in relation to all power grid applications. We demonstrate first that the deep neural network method used in the smart grid is susceptible to adversarial perturbation. Then, we highlight how studies on fault localization and type classification illustrate the weaknesses of present ML algorithms in smart grids to various adversarial attacks
翻訳日:2024-01-31 19:54:55 公開日:2024-01-30
# 不均質なコンテキストをもつ帯域のフェデレーション学習

Federated Learning for Heterogeneous Bandits with Unobserved Contexts ( http://arxiv.org/abs/2303.17043v2 )

ライセンス: Link先を確認
Jiabin Lin and Shana Moothedath(参考訳) 本研究では,mエージェントが異なるバンディトに直面し,協調して学習する,未知のコンテキストを持つ連帯確率的マルチアームコンテキストバンディットの問題について検討する。 コミュニケーションモデルは中央サーバから成り、エージェントは定期的に見積もりを中央サーバと共有し、後悔を最小化するために最適なアクションを選択することを学ぶ。 正確なコンテキストは観測不可能であり、エージェントはコンテキストの分布のみを観察していると仮定する。 このような状況は、例えば、コンテキスト自体がノイズ測定である場合や予測メカニズムに基づいて発生する。 我々のゴールは、エージェント間の協調学習を容易にして最適な行動列を選択し、累積報酬を最大化する分散フェデレーションアルゴリズムを開発することである。 特徴ベクトル変換を行うことにより,削除に基づくアルゴリズムを提案し,線形パラメトリ化報酬関数に対する後悔の束縛を証明する。 最後に,本アルゴリズムの性能を検証し,合成データと実世界の映画データセットの数値シミュレーションを用いて,他のベースライン手法と比較した。

We study the problem of federated stochastic multi-arm contextual bandits with unknown contexts, in which M agents are faced with different bandits and collaborate to learn. The communication model consists of a central server and the agents share their estimates with the central server periodically to learn to choose optimal actions in order to minimize the total regret. We assume that the exact contexts are not observable and the agents observe only a distribution of the contexts. Such a situation arises, for instance, when the context itself is a noisy measurement or based on a prediction mechanism. Our goal is to develop a distributed and federated algorithm that facilitates collaborative learning among the agents to select a sequence of optimal actions so as to maximize the cumulative reward. By performing a feature vector transformation, we propose an elimination-based algorithm and prove the regret bound for linearly parametrized reward functions. Finally, we validated the performance of our algorithm and compared it with another baseline approach using numerical simulations on synthetic data and on the real-world movielens dataset.
翻訳日:2024-01-31 19:54:45 公開日:2024-01-30
# LFM-3D:3次元信号を用いた広帯域特徴マッチング

LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D Signals ( http://arxiv.org/abs/2303.12779v3 )

ライセンス: Link先を確認
Arjun Karpur, Guilherme Perrotta, Ricardo Martin-Brualla, Howard Zhou, Andr\'e Araujo(参考訳) 同じ物体の異なる画像にまたがる局所的な対応を見つけることは、その幾何学を理解する上で重要である。 近年,深層学習に基づく局所画像特徴と学習可能なマッチングの出現により,この問題は顕著に進展している。 それでも、学習可能なマッチングは、画像ペア(すなわちワイドカメラのベースライン)間の共有可視性の小さな領域のみが存在する場合、しばしば過小評価される。 この問題に対処するために,粗い単視点幾何推定手法の最近の進歩を利用する。 本稿では,グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワークであるlmm-3dを提案する。 マッチングモデルに3d信号を統合する場合,低次元の3d情報を有効に活用するには適切な位置符号化が不可欠であることを示す。 我々は、正規化された物体座標と単眼深度推定という2つの異なる3次元信号を実験し、広範囲のベースラインにオブジェクト中心の画像対を含む大規模(合成および実)データセット上で評価した。 また,2Dのみの手法と比較して,最大で6%,固定リコールで+28%の精度で特徴マッチングの改善が見られた。 さらに,得られた対応性の改善は,2Dのみのアプローチに比べて,画像対の相対的ポーズ精度を最大8.6%向上させることを示した。

Finding localized correspondences across different images of the same object is crucial to understand its geometry. In recent years, this problem has seen remarkable progress with the advent of deep learning-based local image features and learnable matchers. Still, learnable matchers often underperform when there exists only small regions of co-visibility between image pairs (i.e. wide camera baselines). To address this problem, we leverage recent progress in coarse single-view geometry estimation methods. We propose LFM-3D, a Learnable Feature Matching framework that uses models based on graph neural networks and enhances their capabilities by integrating noisy, estimated 3D signals to boost correspondence estimation. When integrating 3D signals into the matcher model, we show that a suitable positional encoding is critical to effectively make use of the low-dimensional 3D information. We experiment with two different 3D signals - normalized object coordinates and monocular depth estimates - and evaluate our method on large-scale (synthetic and real) datasets containing object-centric image pairs across wide baselines. We observe strong feature matching improvements compared to 2D-only methods, with up to +6% total recall and +28% precision at fixed recall. Additionally, we demonstrate that the resulting improved correspondences lead to much higher relative posing accuracy for in-the-wild image pairs - up to 8.6% compared to the 2D-only approach.
翻訳日:2024-01-31 19:53:41 公開日:2024-01-30
# SITReg:画像登録のための対称・逆整合・トポロジーのためのマルチレゾリューションアーキテクチャ

SITReg: Multi-resolution architecture for symmetric, inverse consistent, and topology preserving image registration ( http://arxiv.org/abs/2303.10211v4 )

ライセンス: Link先を確認
Joel Honkamaa and Pekka Marttinen(参考訳) 深層学習は、2つの画像の座標系間のマッピングを見つけることを目的として、変形可能な医用画像登録のための古典的反復手法の強力な代替手段として登場した。 一般的な古典的画像登録法は、対称性、逆整合性、構造によるトポロジー保存の有用な帰納的バイアスを強制する。 しかし、多くの深層学習登録手法は損失関数を介してこれらの特性を奨励するが、それ以前の方法ではこれらすべてを構成的に強制することはできない。 本稿では, 対称, 逆整合性, トポロジ保存による多分解能特徴表現の抽出に基づく新しい登録アーキテクチャを提案する。 また,変形場のメモリ効率向上のための暗黙の層も開発した。 提案手法は,2つのデータセットに対する最先端の登録精度を実現する。

Deep learning has emerged as a strong alternative for classical iterative methods for deformable medical image registration, where the goal is to find a mapping between the coordinate systems of two images. Popular classical image registration methods enforce the useful inductive biases of symmetricity, inverse consistency, and topology preservation by construct. However, while many deep learning registration methods encourage these properties via loss functions, no earlier methods enforce all of them by construct. Here, we propose a novel registration architecture based on extracting multi-resolution feature representations which is by construct symmetric, inverse consistent, and topology preserving. We also develop an implicit layer for memory efficient inversion of the deformation fields. Our method achieves state-of-the-art registration accuracy on two datasets.
翻訳日:2024-01-31 19:53:17 公開日:2024-01-30
# 可変サイズ圧縮によるデータ依存一般化境界

Data-dependent Generalization Bounds via Variable-Size Compressibility ( http://arxiv.org/abs/2303.05369v2 )

ライセンス: Link先を確認
Milad Sefidgaran and Abdellatif Zaidi(参考訳) 本稿では,本稿で新たに紹介する「可変サイズ圧縮性」フレームワークのレンズを通して,一般化誤差に関する新しいデータ依存上界を確立する。 この枠組みでは、アルゴリズムの一般化誤差は入力データの可変サイズの「圧縮率」にリンクされる。 これは、未知の分布ではなく、与えられた入力データの経験的尺度に依存する境界を持つことが示される。 私たちが確立する新しい一般化境界は、テール境界、期待上のテール境界、そして予想内境界である。 さらに,本フレームワークは,入力データの任意の関数に対する一般境界を導出し,確率変数を出力することも可能であることを示した。 特に、これらの一般境界は、いくつかの既存のPAC-Bayesおよび特別なケースとして回収されるデータ依存の内在的次元ベース境界を仮定し、改善する可能性がある。 例えば、一般化誤差を最適化軌跡に接続し、プロセスの速度歪み次元、プロセスのR'enyi情報次元、および計量平均次元と様々な興味深い関係を明らかにする、新しいデータ依存内在次元ベース境界が確立される。

In this paper, we establish novel data-dependent upper bounds on the generalization error through the lens of a "variable-size compressibility" framework that we introduce newly here. In this framework, the generalization error of an algorithm is linked to a variable-size 'compression rate' of its input data. This is shown to yield bounds that depend on the empirical measure of the given input data at hand, rather than its unknown distribution. Our new generalization bounds that we establish are tail bounds, tail bounds on the expectation, and in-expectations bounds. Moreover, it is shown that our framework also allows to derive general bounds on any function of the input data and output hypothesis random variables. In particular, these general bounds are shown to subsume and possibly improve over several existing PAC-Bayes and data-dependent intrinsic dimension-based bounds that are recovered as special cases, thus unveiling a unifying character of our approach. For instance, a new data-dependent intrinsic dimension-based bound is established, which connects the generalization error to the optimization trajectories and reveals various interesting connections with the rate-distortion dimension of a process, the R\'enyi information dimension of a process, and the metric mean dimension.
翻訳日:2024-01-31 19:52:48 公開日:2024-01-30
# マージナルコントリビューションを伴わないシェープリー値の近似

Approximating the Shapley Value without Marginal Contributions ( http://arxiv.org/abs/2302.00736v5 )

ライセンス: Link先を確認
Patrick Kolpaczki, Viktor Bengs, Maximilian Muschalik, Eyke H\"ullermeier(参考訳) 協調ゲームにおいてプレイヤーに有意義な貢献価値を割り当てる最も一般的な手法であるShapley値は最近、説明可能な人工知能において集中的に使用されている。 その意味性は、シャプリー値のみが満足する公理的な性質のためであるが、エージェントの数で指数関数的に増加する正確な計算を犠牲にしている。 したがって、多くの研究がシェープリー値の効率的な近似に費やされているが、そのほとんどはエージェントの限界貢献の概念に反するものである。 本稿では,余剰寄与の概念から分離されたShapley値の表現に基づいて,SVARM と Stratified SVARM の2つのパラメータフリーおよびドメイン非依存近似アルゴリズムを提案する。 我々は,その近似的品質に関する不一致の理論的保証を証明し,合成ゲームを含む経験的結果と,最先端手法と比較する一般的な説明可能性ユースケースを提供する。

The Shapley value, which is arguably the most popular approach for assigning a meaningful contribution value to players in a cooperative game, has recently been used intensively in explainable artificial intelligence. Its meaningfulness is due to axiomatic properties that only the Shapley value satisfies, which, however, comes at the expense of an exact computation growing exponentially with the number of agents. Accordingly, a number of works are devoted to the efficient approximation of the Shapley value, most of them revolve around the notion of an agent's marginal contribution. In this paper, we propose with SVARM and Stratified SVARM two parameter-free and domain-independent approximation algorithms based on a representation of the Shapley value detached from the notion of marginal contribution. We prove unmatched theoretical guarantees regarding their approximation quality and provide empirical results including synthetic games as well as common explainability use cases comparing ourselves with state-of-the-art methods.
翻訳日:2024-01-31 19:52:12 公開日:2024-01-30
# Booster: スペックと透明な表面の画像の深さのベンチマーク

Booster: a Benchmark for Depth from Images of Specular and Transparent Surfaces ( http://arxiv.org/abs/2301.08245v3 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Alex Costanzino, Fabio Tosi, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) 画像から深度を推定すると、領域内精度と一般化の両面で優れた結果が得られる。 しかし,この領域では,非ランベルト材料を扱うこと,高解像度画像を効果的に処理すること,という2つの課題が解決されている。 そこで本研究では,高解像度で高精度かつ高密度な地下トラスラベルを含む新しいデータセットを提案する。 我々の獲得パイプラインは、新しい時空ステレオフレームワークを活用し、サブピクセル精度で簡単かつ正確なラベリングを可能にする。 データセットは85の異なるシーンで収集された606個のサンプルで構成されており、それぞれのサンプルには高解像度のペア(12 Mpx)と、異なる解像度のセンサーを装着する現代のモバイルデバイスに典型的なアンバランスのステレオペア(12 Mpx, Right: 1.1 Mpx)の両方が含まれている。 さらに,手動でアノテートした材料セグメンテーションマスクと15Kの未ラベルサンプルも提供する。 データセットは列車セットと2つのテストセットで構成され、後者はステレオおよびモノクル深度推定ネットワークの評価に向けられている。 私たちの実験では、この分野におけるオープンチャレンジと今後の研究方向性を強調する。

Estimating depth from images nowadays yields outstanding results, both in terms of in-domain accuracy and generalization. However, we identify two main challenges that remain open in this field: dealing with non-Lambertian materials and effectively processing high-resolution images. Purposely, we propose a novel dataset that includes accurate and dense ground-truth labels at high resolution, featuring scenes containing several specular and transparent surfaces. Our acquisition pipeline leverages a novel deep space-time stereo framework, enabling easy and accurate labeling with sub-pixel precision. The dataset is composed of 606 samples collected in 85 different scenes, each sample includes both a high-resolution pair (12 Mpx) as well as an unbalanced stereo pair (Left: 12 Mpx, Right: 1.1 Mpx), typical of modern mobile devices that mount sensors with different resolutions. Additionally, we provide manually annotated material segmentation masks and 15K unlabeled samples. The dataset is composed of a train set and two test sets, the latter devoted to the evaluation of stereo and monocular depth estimation networks. Our experiments highlight the open challenges and future research directions in this field.
翻訳日:2024-01-31 19:51:58 公開日:2024-01-30
# ニュースと負荷:日々の電力需要予測のための自然言語処理アプリケーションの定量的探索

News and Load: A Quantitative Exploration of Natural Language Processing Applications for Forecasting Day-ahead Electricity System Demand ( http://arxiv.org/abs/2301.07535v2 )

ライセンス: Link先を確認
Yun Bai, Simon Camal, Andrea Michiorri(参考訳) 電力需要と天気の関係は、休日や重要な出来事といった行動的・社会的側面の重要性とともに、電力システムにおいて確立されている。 本研究は,電気需要と社会イベントに関するよりニュアンス情報との関係を考察する。 これは成熟した自然言語処理(nlp)と需要予測技術を用いて行われる。 その結果, 日頭予測は, 単語頻度, 公的な感情, 話題分布, 単語埋め込みなどのテキスト的特徴によって改善された。 これらの特徴に含まれる社会イベントには、世界的なパンデミック、政治、国際紛争、輸送などが含まれる。 リンクの背後にあるメカニズムを説明するために因果関係の効果と相関について論じる。 この研究は、従来の電力需要分析に新しい視点をもたらすと考えられている。 これは、非構造化テキストからの予測を改善する可能性があり、社会学と経済学に潜在的に影響する。

The relationship between electricity demand and weather is well established in power systems, along with the importance of behavioral and social aspects such as holidays and significant events. This study explores the link between electricity demand and more nuanced information about social events. This is done using mature Natural Language Processing (NLP) and demand forecasting techniques. The results indicate that day-ahead forecasts are improved by textual features such as word frequencies, public sentiments, topic distributions, and word embeddings. The social events contained in these features include global pandemics, politics, international conflicts, transportation, etc. Causality effects and correlations are discussed to propose explanations for the mechanisms behind the links highlighted. This study is believed to bring a new perspective to traditional electricity demand analysis. It confirms the feasibility of improving forecasts from unstructured text, with potential consequences for sociology and economics.
翻訳日:2024-01-31 19:51:36 公開日:2024-01-30
# Blind Audio Bandwidth Extension: 拡散に基づくゼロショットアプローチ

Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach ( http://arxiv.org/abs/2306.01433v2 )

ライセンス: Link先を確認
Eloi Moliner, Filip Elvander, Vesa V\"alim\"aki(参考訳) 帯域幅拡張は、帯域制限観測による高周波スペクトルの現実的な再構成を含む。 過去の音声記録の復元など、低域劣化が不明な場合には、盲点となる。 本稿では,事前学習された無条件拡散モデルの生成前処理を活用し,ゼロショット設定におけるブラインド問題に対処するbabe(blind audio bandwidth extension)という新しい手法を提案する。 推論過程において、BABEは拡散後サンプリングの一般化版を使用し、分解演算子は未知だがパラメータ化され、反復的に推論される。 提案手法の性能は客観的および主観的指標を用いて評価され,babeは最先端ブラインド帯域拡張ベースラインを上回っており,合成データを用いてテストした場合のインフォームド手法と比較して競合性能が向上した。 また,本記録との一貫性を維持しつつ,失われた高周波コンテンツを効果的に再構築し,実記録を充実させる際に,babeは頑健な一般化能力を示す。 主観的嗜好テストは,BABEが歴史的録音の音質を著しく向上させることを確認した。 提案手法で復元された過去の記録の例は、同伴のWebページで見ることができる。

Audio bandwidth extension involves the realistic reconstruction of high-frequency spectra from bandlimited observations. In cases where the lowpass degradation is unknown, such as in restoring historical audio recordings, this becomes a blind problem. This paper introduces a novel method called BABE (Blind Audio Bandwidth Extension) that addresses the blind problem in a zero-shot setting, leveraging the generative priors of a pre-trained unconditional diffusion model. During the inference process, BABE utilizes a generalized version of diffusion posterior sampling, where the degradation operator is unknown but parametrized and inferred iteratively. The performance of the proposed method is evaluated using objective and subjective metrics, and the results show that BABE surpasses state-of-the-art blind bandwidth extension baselines and achieves competitive performance compared to informed methods when tested with synthetic data. Moreover, BABE exhibits robust generalization capabilities when enhancing real historical recordings, effectively reconstructing the missing high-frequency content while maintaining coherence with the original recording. Subjective preference tests confirm that BABE significantly improves the audio quality of historical music recordings. Examples of historical recordings restored with the proposed method are available on the companion webpage: (http://research.spa.aalto.fi/publications/papers/ieee-taslp-babe/)
翻訳日:2024-01-31 19:44:23 公開日:2024-01-30
# 量子シリコンフォトニクスでは、異なる種類の光子対光源が同じ相違点を持つか?

Do different kinds of photon-pair sources have the same indistinguishability in quantum silicon photonics? ( http://arxiv.org/abs/2305.10066v2 )

ライセンス: Link先を確認
Jong-Moo Lee, Alessio Baldazzi, Matteo Sanna, Stefano Azzini, Joon Tae Ahn, Myung Lae Lee, Young-Ik Sohn, and Lorenzo Pavesi(参考訳) 同じシリコンフォトニック集積回路では、香港・ウーマンデル干渉実験(HOM)を用いて2種類の縮退光子対光源(マイクロ共振器または導波管)を比較した。 2つの名目上同一のマイクロリング共振器は、マッハ・ツェンダー干渉計の腕を形成する2つの名目上同一の導波路に結合される。 これは2つの異なる波長のレーザーによって励起され、自発的な4波混合により光子対が縮退する。 特に、マイクロリング共振器をポンプ波長と共振して熱的に調整することができるので、マイクロリング共振器または導波管をそれぞれ光子ペア光源として選択することができる。 このようにして、マイクロリング共振器で94%、ストレート導波路で99%のオンチップHOMの可視性を測定する。 実験結果と合同スペクトル強度と縮退光子対の純度に関する理論的シミュレーションとの比較を行った。 両光源が生成する光子対の共振スペクトル振幅(JSA)の重なりによって定量化することができる。 JSAと導波路の重なりは98%,マイクロリング共振器の89%と推定した。

In the same silicon photonic integrated circuit, we compare two types of integrated degenerate photon-pair sources (microring resonators or waveguides) by means of Hong-Ou-Mandel (HOM) interference experiments. Two nominally identical microring resonators are coupled to two nominally identical waveguides which form the arms of a Mach-Zehnder interferometer. This is pumped by two lasers at two different wavelengths to generate, by spontaneous four-wave mixing, degenerate photon pairs. In particular, the microring resonators can be thermally tuned in or out of resonance with the pump wavelengths, thus choosing either the microring resonators or the waveguides as photon-pair sources, respectively. In this way, an on-chip HOM visibility of 94% with microring resonators and 99% with straight waveguides is measured upon filtering. We compare our experimental results with theoretical simulations of the joint spectral intensity and the purity of the degenerate photon pairs. We verify that the visibility is connected to the sources' indistinguishability, which can be quantified by the overlap between the joint spectral amplitudes (JSA) of the photon pairs generated by the two sources. We estimate a JSAs overlap of 98% with waveguides and 89% with microring resonators.
翻訳日:2024-01-31 19:44:01 公開日:2024-01-30
# 非線形電子-フォノンカップリング系におけるバイポーラロンの光学的操作

Optical manipulation of bipolarons in a system with nonlinear electron-phonon coupling ( http://arxiv.org/abs/2305.09238v3 )

ライセンス: Link先を確認
K. Kova\v{c}, D. Gole\v{z}, M. Mierzejewski, and J. Bon\v{c}a(参考訳) 量子フォノンに非線形に結合した2つの電子の完全な量子力学的進化を解析し、双極子活性振動モードに結合する短空間均一光パルスを受ける系の動的応答をシミュレートする。 非線形電子フォノンカップリングは、電子密度の存在下でフォノン周波数を軟化または固化させる。 前者の場合、フォノン周波数の直下に調整された外部光パルスは、電子間のアトラクションを発生させ、光パルスがオフになった後も長期のバウンド状態をもたらす。 これは、メタスタブル状態を引き起こす自己トラッピング電位の動的修飾に由来する。 パルス周波数を増大させることで、魅力的な電子-電子相互作用は反発に変化する。 周波数の異なる2つのシーケンシャル光パルスは、魅力的な相互作用と反発相互作用を切り替えることができる。 最後に, パルス誘起電子結合は, 弱分散光フォノン, 非調和フォノンスペクトルおよび2次元においても効率的であることが示されている。

We investigate full quantum mechanical evolution of two electrons nonlinearly coupled to quantum phonons and simulate the dynamical response of the system subject to a short spatially uniform optical pulse that couples to dipole-active vibrational modes. Nonlinear electron-phonon coupling can either soften or stiffen the phonon frequency in the presence of electron density. In the former case, an external optical pulse tuned just below the phonon frequency generates attraction between electrons and leads to a long-lived bound state even after the optical pulse is switched off. It originates from a dynamical modification of the self-trapping potential that induces a metastable state. By increasing the pulse frequency, the attractive electron-electron interaction changes to repulsive. Two sequential optical pulses with different frequencies can switch between attractive and repulsive interaction. Finally, we show that the pulse-induced binding of electrons is shown to be efficient also for weakly dispersive optical phonons, in the presence anharmonic phonon spectrum and in two dimensions.
翻訳日:2024-01-31 19:43:39 公開日:2024-01-30
# 単一画像深度予測における高次モデル一般化のためのメタ最適化

Meta-Optimization for Higher Model Generalizability in Single-Image Depth Prediction ( http://arxiv.org/abs/2305.07269v2 )

ライセンス: Link先を確認
Cho-Ying Wu, Yiqi Zhong, Junying Wang, Ulrich Neumann(参考訳) 室内での単一画像深度予測において,非表示データセットに対するモデル一般化可能性について検討した。 我々は,ゼロショットクロスデータセット推論の一般化性を高めるために,勾配に基づくメタ学習を利用する。 メタラーニングで最も研究されている画像分類とは異なり、深度はピクセルレベルの連続範囲値であり、各画像から深度へのマッピングは環境によって大きく異なる。 したがって、明確なタスク境界は存在しない。 代わりに、メタ最適化において各RGB-Dペアをタスクとして扱う、きめ細かいタスクを提案する。 まず、制限されたデータに対するメタ学習により、より優れた事前学習(max +29.4\%)がもたらされることを示す。 メタ学習重みを教師付き学習の初期化として使用し、余分なデータや情報を含まないまま、その手法なしでベースラインを一貫して上回る。 単一のデータセットでのみトレーニング/テストを行う屋内深層手法と比較し,ゼロショットクロスデータセットプロトコルを提案し,ロバスト性を評価し,メタ初期化による高い一般化性と正確性を示す。 深度とメタラーニングの交差点での作業は、両方の研究の流れを実用に近づける可能性がある。

Model generalizability to unseen datasets, concerned with in-the-wild robustness, is less studied for indoor single-image depth prediction. We leverage gradient-based meta-learning for higher generalizability on zero-shot cross-dataset inference. Unlike the most-studied image classification in meta-learning, depth is pixel-level continuous range values, and mappings from each image to depth vary widely across environments. Thus no explicit task boundaries exist. We instead propose fine-grained task that treats each RGB-D pair as a task in our meta-optimization. We first show meta-learning on limited data induces much better prior (max +29.4\%). Using meta-learned weights as initialization for following supervised learning, without involving extra data or information, it consistently outperforms baselines without the method. Compared to most indoor-depth methods that only train/ test on a single dataset, we propose zero-shot cross-dataset protocols, closely evaluate robustness, and show consistently higher generalizability and accuracy by our meta-initialization. The work at the intersection of depth and meta-learning potentially drives both research streams to step closer to practical use.
翻訳日:2024-01-31 19:43:24 公開日:2024-01-30
# FedPDD: クロスサイロフェデレーション勧告のためのプライバシー保護二重蒸留フレームワーク

FedPDD: A Privacy-preserving Double Distillation Framework for Cross-silo Federated Recommendation ( http://arxiv.org/abs/2305.06272v2 )

ライセンス: Link先を確認
Sheng Wan, Dashan Gao, Hanlin Gu, Daning Hu(参考訳) クロスプラットフォームレコメンデーションは、さまざまなプラットフォームから異種機能を集めることで、レコメンデーションの精度を向上させることを目的としている。 しかし、このようなプラットフォーム間のクロスサイロなコラボレーションは、ますます厳しいプライバシー保護規制によって制限されるため、トレーニングのためにデータを集約することはできない。 フェデレーション学習(fl)は、レコメンデーションシナリオにおけるデータサイロ問題に対処するための実用的なソリューションである。 既存のクロスサイロfl手法では,重複するユーザのデータを活用することで,モデル情報を伝達してグローバルモデルを構築する。 しかし実際には、重複するユーザ数はしばしば非常に少なく、そのようなアプローチのパフォーマンスをほとんど制限している。 さらに、トレーニング中にモデル情報を伝達するには通信コストが高く、重大なプライバシー漏洩を引き起こす可能性がある。 本稿では,重複するユーザの知識を効率的に伝達するクロスサイロフェデレーションのための,プライバシー保全型二重蒸留フレームワークfeedpddを提案する。 具体的には,二回蒸留戦略により,局所モデルが相手からの明示的な知識だけでなく,その過去の予測から暗黙的な知識を学習できる。 さらに,プライバシと高効率性を確保するため,通信ニーズとプライバシー漏洩リスクを低減するため,オフライントレーニング方式を採用している。 さらに,送信情報を保護するために,ディファレンシャルプライバシを採用する。 実世界の2つのレコメンデーションデータセットであるHetRec-MovieLensとCriteoの実験は、最先端のアプローチと比較してFedPDDの有効性を実証している。

Cross-platform recommendation aims to improve recommendation accuracy by gathering heterogeneous features from different platforms. However, such cross-silo collaborations between platforms are restricted by increasingly stringent privacy protection regulations, thus data cannot be aggregated for training. Federated learning (FL) is a practical solution to deal with the data silo problem in recommendation scenarios. Existing cross-silo FL methods transmit model information to collaboratively build a global model by leveraging the data of overlapped users. However, in reality, the number of overlapped users is often very small, thus largely limiting the performance of such approaches. Moreover, transmitting model information during training requires high communication costs and may cause serious privacy leakage. In this paper, we propose a novel privacy-preserving double distillation framework named FedPDD for cross-silo federated recommendation, which efficiently transfers knowledge when overlapped users are limited. Specifically, our double distillation strategy enables local models to learn not only explicit knowledge from the other party but also implicit knowledge from its past predictions. Moreover, to ensure privacy and high efficiency, we employ an offline training scheme to reduce communication needs and privacy leakage risk. In addition, we adopt differential privacy to further protect the transmitted information. The experiments on two real-world recommendation datasets, HetRec-MovieLens and Criteo, demonstrate the effectiveness of FedPDD compared to the state-of-the-art approaches.
翻訳日:2024-01-31 19:41:57 公開日:2024-01-30
# 量子技術応用のための広帯域半導体のドナー・アクセプター対

Donor-Acceptor Pairs in Wide-Bandgap Semiconductors for Quantum Technology Applications ( http://arxiv.org/abs/2305.05791v3 )

ライセンス: Link先を確認
Anil Bilgin, Ian Hammock, Jeremy Estes, Yu Jin, Hannes Bernien, Alexander High, Giulia Galli(参考訳) 本稿では,広帯域ギャップ半導体におけるドナー-アクセプタ対(daps)間の双極子-双極子カップリングを利用した量子科学プラットフォームを提案する。 ダイヤモンドおよび炭化ケイ素(SiC)の置換点欠陥によって形成されるDAPの電子構造と相互作用を,密度汎関数理論(DFT)に基づいて計算する。 我々は、最も安定な電荷状態を決定し、制約付きDFTを用いてゼロフォノン線を評価し、その結果を単純なドナー・アクセプタペア(DAP)モデルと比較する。 地盤と励起状態の偏光差は、ダイヤモンドおよびSiC中のいくつかのDAPに対して異常に大きな電気双極子モーメントをもたらすことを示す。 選択された置換原子の放射寿命と発光スペクトルを予測し、ダイヤモンド中のb-n対は大きな電子-フォノンカップリングのため制御が難しいが、sic、特にal-n対のdapsは長距離光制御可能な相互作用を実現するのに適していることを示す。

We propose a quantum science platform utilizing the dipole-dipole coupling between donor-acceptor pairs (DAPs) in wide bandgap semiconductors to realize optically controllable, long-range interactions between defects in the solid state. We carry out calculations based on density functional theory (DFT) to investigate the electronic structure and interactions of DAPs formed by various substitutional point defects in diamond and silicon carbide (SiC). We determine the most stable charge states and evaluate zero phonon lines using constrained DFT and compare our results with those of simple donor-acceptor pair (DAP) models. We show that polarization differences between ground and excited states lead to unusually large electric dipole moments for several DAPs in diamond and SiC. We predict radiative lifetimes and photoluminescence spectra for selected substitutional atoms and show that while B-N pairs in diamond are challenging to control due to their large electron-phonon coupling, DAPs in SiC, especially Al-N pairs, are suitable candidates to realize long-range optically controllable interactions.
翻訳日:2024-01-31 19:41:32 公開日:2024-01-30
# アクティブ継続学習:知識保持と学習可能性のバランスについて

Active Continual Learning: On Balancing Knowledge Retention and Learnability ( http://arxiv.org/abs/2305.03923v2 )

ライセンス: Link先を確認
Thuy-Trang Vu, Shahram Khadivi, Mahsa Ghorbanali, Dinh Phung and Gholamreza Haffari(参考訳) 一連のタスクで学んだことを忘れずに新しい知識を得ることは、継続学習(continual learning, cl)の中心である。 タスクが順次やってくる間、トレーニングデータは、しばしば独立して準備され、アノテートされ、入ってくる教師付き学習タスクのclに繋がる。 本稿では,各タスクがラベルなしデータとアノテーション予算のプールを含むアクティブ・ラーニング(al)タスクのシーケンスに対して,アクティブ・コンティニュアル・ラーニング(acl)の未検討問題を検討する。 ドメイン,クラス,タスクインクリメンタルシナリオにおける複数のALアルゴリズムとCLアルゴリズムの有効性と相互作用について検討する。 実験の結果,従来の知識を忘れないという2つの対照的な目標と,CLとALで新しい知識を素早く学習する能力とのトレードオフが明らかになった。 従来のタスクに対して収集したアノテーションにALクエリ戦略を条件付けると、ドメインとタスクの漸進学習におけるタスクパフォーマンスが向上するが、提案した忘れ学習プロファイルは、ALとCLの効果のバランスをとる際のギャップを示唆している。

Acquiring new knowledge without forgetting what has been learned in a sequence of tasks is the central focus of continual learning (CL). While tasks arrive sequentially, the training data are often prepared and annotated independently, leading to the CL of incoming supervised learning tasks. This paper considers the under-explored problem of active continual learning (ACL) for a sequence of active learning (AL) tasks, where each incoming task includes a pool of unlabelled data and an annotation budget. We investigate the effectiveness and interplay between several AL and CL algorithms in the domain, class and task-incremental scenarios. Our experiments reveal the trade-off between two contrasting goals of not forgetting the old knowledge and the ability to quickly learn new knowledge in CL and AL, respectively. While conditioning the AL query strategy on the annotations collected for the previous tasks leads to improved task performance on the domain and task incremental learning, our proposed forgetting-learning profile suggests a gap in balancing the effect of AL and CL for the class-incremental scenario.
翻訳日:2024-01-31 19:40:39 公開日:2024-01-30
# tweezer配列における反強磁性ボソニック$t$-$j$モデルとその量子シミュレーション

Antiferromagnetic bosonic $t$-$J$ models and their quantum simulation in tweezer arrays ( http://arxiv.org/abs/2305.02322v3 )

ライセンス: Link先を確認
Lukas Homeier and Timothy J. Harris and Tizian Blatz and Ulrich Schollw\"ock and Fabian Grusdt and Annabelle Bohrdt(参考訳) 分子の双極子交換とrydberg原子のヴァン・ダー・ワールス相互作用による強い相互作用を持つ光学トワイザーアレイの組み合わせは、幅広い量子スピンモデルの研究の扉を開いた。 次の重要なステップは、そのような設定とモバイルのドーパントの組み合わせである。これにより、多くの強い相関量子材料を弱めていると信じられている物理学をシミュレートすることができる。 本稿では,3つの内部原子あるいは分子状態の集合に局所ヒルベルト空間を符号化することで,ボゾンt-Jモデルを実現する実験手法を提案する。 スピン間の反強磁性(AFM)カップレートの工学的結合により、高T_c$カップレートと同様の電荷運動と磁気秩序の競合を実現することができる。 提案する2dボソニックafm t-jモデルの基底状態は、これまで広く研究されていなかったので、まず2つのドーパント(ボソニック統計が役割を果たす最も単純な例)のケースを分析し、その結果をフェルミオンの場合と比較する。 六脚シリンダ上で大規模密度行列再正規化群 (DMRG) 計算を行い, ストリップを形成するボソニックホールの強い傾向を見出した。 このことは、ボソニック、AFM t-Jモデルが強相関電子の集合相と同様の物理を含むことを証明している。

The combination of optical tweezer arrays with strong interactions -- via dipole-exchange of molecules and van-der-Waals interactions of Rydberg atoms -- has opened the door for the exploration of a wide variety of quantum spin models. A next significant step will be the combination of such settings with mobile dopants: This will enable to simulate the physics believed to underlie many strongly correlated quantum materials. Here we propose an experimental scheme to realize bosonic t-J models via encoding the local Hilbert space in a set of three internal atomic or molecular states. By engineering antiferromagnetic (AFM) couplings between spins, competition between charge motion and magnetic order similar to that in high-$T_c$ cuprates can be realized. Since the ground states of the 2D bosonic AFM t-J model we propose to realize have not been studied extensively before, we start by analyzing the case of two dopants -- the simplest instance in which their bosonic statistics plays a role, and contrast our results to the fermionic case. We perform large-scale density matrix renormalization group (DMRG) calculations on six-legged cylinders, and find a strong tendency for bosonic holes to form stripes. This demonstrates that bosonic, AFM t-J models may contain similar physics as the collective phases in strongly correlated electrons.
翻訳日:2024-01-31 19:40:19 公開日:2024-01-30
# モーメント法による軌道回収に先立つ深層ニューラルネットワーク

Deep Neural-network Prior for Orbit Recovery from Method of Moments ( http://arxiv.org/abs/2304.14604v2 )

ライセンス: Link先を確認
Yuehaw Khoo, Sounak Paul and Nir Sharon(参考訳) 軌道回復問題(orbit recovery problem)は、現実や様々な形態でしばしば発生する問題の一種である。 これらの問題において、群作用によって歪んだ後に未知の関数を推定し、既知の演算子を通して観測することを目的とする。 通常、観測は非自明なレベルのノイズで汚染される。 本稿では,多参照アライメントと単一粒子Creo-EMモデリングの2つの問題について述べる。 雑音を抑制するために,深層ニューラルネットワークを優先的に導入しながら,モーメント法を両問題に適用することを提案する。 特に、私たちのニューラルネットワークは、モーメントを入力として、信号とグループ要素の分布を出力すべきです。 マルチ参照アライメントの場合、モーメントからの信号の再構成の収束を加速するためにNNを使用する利点を実証する。 最後に,本手法を用いてcryo-em設定におけるシミュレーションおよび生物体積の再構成を行う。

Orbit recovery problems are a class of problems that often arise in practice and various forms. In these problems, we aim to estimate an unknown function after being distorted by a group action and observed via a known operator. Typically, the observations are contaminated with a non-trivial level of noise. Two particular orbit recovery problems of interest in this paper are multireference alignment and single-particle cryo-EM modelling. In order to suppress the noise, we suggest using the method of moments approach for both problems while introducing deep neural network priors. In particular, our neural networks should output the signals and the distribution of group elements, with moments being the input. In the multireference alignment case, we demonstrate the advantage of using the NN to accelerate the convergence for the reconstruction of signals from the moments. Finally, we use our method to reconstruct simulated and biological volumes in the cryo-EM setting.
翻訳日:2024-01-31 19:39:54 公開日:2024-01-30
# ボンドメディエーターによるダイヤモンド中の窒素空孔中心から外部核スピンへの偏極移動の促進

Enhancing polarization transfer from nitrogen-vacancy centers in diamond to external nuclear spins via dangling bond mediators ( http://arxiv.org/abs/2304.14282v3 )

ライセンス: Link先を確認
H. Espin\'os, C. Munuera-Javaloy, I. Panadero, P. Acedo, R. Puebla, J. Casanova, E. Torrontegui(参考訳) 分子サンプル中の核スピンを過分極化する非侵襲的なプラットフォームとしてのダイヤモンドにおける窒素空洞中心の利用は、核磁気共鳴実験の感度を高める可能性を持つ有望な研究分野である。 ダイヤモンド構造からNV偏光を移動させることは、動的核偏光法を用いてナノスケールのターゲット上で達成されているが、関連するNMR量に拡張することは大きな課題である。 技術的なハードルの一つは、偏光流出を妨害するダイヤモンド表面の常磁性欠陥の存在である。 しかし、これらの欠陥はNVと核スピンの相互作用の中間体として利用することもできる。 本稿では,既存のマイクロ波配列,すなわちPulsePolを利用して,ダングリング結合や他の局所電子スピンを用いて効率よく,かつ強固に偏光を伝達する手法を提案する。

The use of nitrogen-vacancy centers in diamond as a non-invasive platform for hyperpolarizing nuclear spins in molecular samples is a promising area of research with the potential to enhance the sensitivity of nuclear magnetic resonance experiments. Transferring NV polarization out of the diamond structure has been achieved on nanoscale targets using dynamical nuclear polarization methods, but extending this to relevant NMR volumes poses significant challenges. One major technical hurdle is the presence of paramagnetic defects in the diamond surface which can interfere with polarization outflow. However, these defects can also be harnessed as intermediaries for the interaction between NVs and nuclear spins. We present a method that benefits from existing microwave sequences, namely the PulsePol, to transfer polarization efficiently and robustly using dangling bonds or other localized electronic spins, with the potential to increase polarization rates under realistic conditions.
翻訳日:2024-01-31 19:39:41 公開日:2024-01-30
# 強化学習によるクォークとレプトンの風味構造探索

Exploring the flavor structure of quarks and leptons with reinforcement learning ( http://arxiv.org/abs/2304.14176v3 )

ライセンス: Link先を確認
Satsuki Nishimura, Coh Miyao, Hajime Otsuka(参考訳) クォークとレプトンの風味構造を強化学習を用いて探索する手法を提案する。 具体的なモデルとして、$U(1)$フレーバー対称性を持つモデルに基本値に基づくアルゴリズムを用いる。 クォークとレプトンの$u(1)$電荷でニューラルネットワークを訓練することで、エージェントは21のモデルが実験的に測定された質量とクォークとレプトンの混合角と一致することを発見した。 特に、正規順序の固有値は、逆順序よりも大きくなりがちであり、正規順序は、逆順序とは対照的に、現在の実験データによく適合する。 フラボンフィールドの角成分によって誘導されるニュートリノレス二重ベータ崩壊に対する有効質量の特定の値と大きなレプトニックCP違反は、エージェントの自律的挙動によって予測される。 以上の結果から,強化学習はフレーバー構造を理解する新しい方法である可能性が示唆された。

We propose a method to explore the flavor structure of quarks and leptons with reinforcement learning. As a concrete model, we utilize a basic value-based algorithm for models with $U(1)$ flavor symmetry. By training neural networks on the $U(1)$ charges of quarks and leptons, the agent finds 21 models to be consistent with experimentally measured masses and mixing angles of quarks and leptons. In particular, an intrinsic value of normal ordering tends to be larger than that of inverted ordering, and the normal ordering is well fitted with the current experimental data in contrast to the inverted ordering. A specific value of effective mass for the neutrinoless double beta decay and a sizable leptonic CP violation induced by an angular component of flavon field are predicted by autonomous behavior of the agent. Our finding results indicate that the reinforcement learning can be a new method for understanding the flavor structure.
翻訳日:2024-01-31 19:39:24 公開日:2024-01-30
# カオスマップでレアな事象を典型化する効果的なダイナミクスを見つける

Finding the effective dynamics to make rare events typical in chaotic maps ( http://arxiv.org/abs/2304.13754v3 )

ライセンス: Link先を確認
Ricardo Guti\'errez, Adri\'an Canella-Ortiz and Carlos P\'erez-Espigares(参考訳) 特定の初期条件によるカオス写像の非定型的軌道に付随する力学的な揺らぎや稀な事象は、それらの運命を決定的に決定することができる。 しかし、そのような初期条件の発見は、システムのカオス的な性質のため、非常に難しい作業である。 本研究では,典型的な軌道が元の写像の非定型値に対応する実効的な位相共役写像を求める枠組みを提案することにより,この問題を回避する。 これは、固定点と周期軌道の不安定性の相反する例と、有限時間リャプノフ指数を含む動的相転移の特性に焦点を当てた例によって説明される。 この手順は、マルコフ連鎖、拡散過程、および開量子系の確率力学における一般化されたドゥーブ変換の適用のそれと平行であり、それぞれの場合において、所定の統計を定常状態に持つ新しい過程をもたらす。 この研究は、希少なゆらぎ(動的観測可能量の所定の統計を維持)が大きな偏りの形式主義によって特徴づけられ制御されるシステム群にカオスマップをもたらす。

Dynamical fluctuations or rare events associated with atypical trajectories in chaotic maps due to specific initial conditions can crucially determine their fate, as the may lead to stability islands or regions in phase space otherwise displaying unusual behavior. Yet, finding such initial conditions is a daunting task precisely because of the chaotic nature of the system. In this work, we circumvent this problem by proposing a framework for finding an effective topologically-conjugate map whose typical trajectories correspond to atypical ones of the original map. This is illustrated by means of examples which focus on counterbalancing the instability of fixed points and periodic orbits, as well as on the characterization of a dynamical phase transition involving the finite-time Lyapunov exponent. The procedure parallels that of the application of the generalized Doob transform in the stochastic dynamics of Markov chains, diffusive processes and open quantum systems, which in each case results in a new process having the prescribed statistics in its stationary state. This work thus brings chaotic maps into the growing family of systems whose rare fluctuations -- sustaining prescribed statistics of dynamical observables -- can be characterized and controlled by means of a large-deviation formalism.
翻訳日:2024-01-31 19:39:07 公開日:2024-01-30
# ChatGPTとその他の類似システムはAIの現代ルネサンスハイドラか?

Are ChatGPT and Other Similar Systems the Modern Lernaean Hydras of AI? ( http://arxiv.org/abs/2306.09267v3 )

ライセンス: Link先を確認
Dimitrios Ioannidis, Jeremy Kepner, Andrew Bowne, Harriet S. Bryant(参考訳) 生成人工知能システム(AIシステム)の台頭は、前例のない社会的関与を生み出した。 AIコード生成システムは、過去数十年にわたって開発者が作成した膨大なオープンソースコードライブラリにアクセスすることで、質問や要求に対する応答(出力)を提供する。 しかし、リポジトリとして知られる仮想ライブラリに格納されているオープンソースコードを盗むことで、そうする。 本条では, イノベーションを保護し, 長年の訴訟を回避できる解決策が存在するかどうかを論じる。 AIと著作権の関係によって引き起こされたさまざまな問題にも触れる。 先を見据えて次のように提案する。 (a) 開発者が作成するオープンソースコードのライセンスを直ちに変更し、人間にのみオープンソースコードへのアクセス及び/又は使用を制限すること。 b)我々は、マサチューセッツ工科大学(mit)のライセンスを改訂して、aiシステムがオープンソースコード開発者から適切なライセンスを取得する必要があることを提案します。 (c)我々は、AIシステムの将来を守りつつ、イノベーションを推進するための緊急の立法措置を求める。 (d)難読ケースにおけるAIシステムへの証明の負担のシフトを提案する。

The rise of Generative Artificial Intelligence systems ("AI systems") has created unprecedented social engagement. AI code generation systems provide responses (output) to questions or requests by accessing the vast library of open-source code created by developers over the past few decades. However, they do so by allegedly stealing the open-source code stored in virtual libraries, known as repositories. This Article focuses on how this happens and whether there is a solution that protects innovation and avoids years of litigation. We also touch upon the array of issues raised by the relationship between AI and copyright. Looking ahead, we propose the following: (a) immediate changes to the licenses for open-source code created by developers that will limit access and/or use of any open-source code to humans only; (b) we suggest revisions to the Massachusetts Institute of Technology ("MIT") license so that AI systems are required to procure appropriate licenses from open-source code developers, which we believe will harmonize standards and build social consensus for the benefit of all of humanity, rather than promote profit-driven centers of innovation; (c) we call for urgent legislative action to protect the future of AI systems while also promoting innovation; and (d) we propose a shift in the burden of proof to AI systems in obfuscation cases.
翻訳日:2024-01-31 19:31:55 公開日:2024-01-30
# 離散グラフオートエンコーダ

Discrete Graph Auto-Encoder ( http://arxiv.org/abs/2306.07735v2 )

ライセンス: Link先を確認
Yoann Boget, Magda Gregorova, Alexandros Kalousis(参考訳) 生成法の進歩にもかかわらず、グラフの分布を正確にモデル化することは、主に事前に定義されたあるいは固有のグラフ表現がないために難しい課題である。 この問題に対処する2つの主要な戦略が浮かび上がっている。 1)ノードのソートによって可能な表現数を制限すること、又は 2) 置換不変/等変関数,特にグラフニューラルネットワーク(GNN)を用いる。 本稿では,両戦略の強みを活用し,それぞれの制約を緩和するDGAE(Discrete Graph Auto-Encoder)という新しいフレームワークを提案する。 基本的に、我々は2段階の戦略を提案する。 まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換し、各ノードは量子化されたベクトル列で表される。 第2のステップでは、離散的潜在表現の集合を分類し、その分布をトランスフォーマーアーキテクチャに基づいた特別に設計された自己回帰モデルで学習する。 複数の実験評価を通じ,様々なデータセットにまたがる既存の最新技術と比較し,本モデルの性能を実証した。 様々なアブレーション研究が本手法の関心を支えている。

Despite advances in generative methods, accurately modeling the distribution of graphs remains a challenging task primarily because of the absence of predefined or inherent unique graph representation. Two main strategies have emerged to tackle this issue: 1) restricting the number of possible representations by sorting the nodes, or 2) using permutation-invariant/equivariant functions, specifically Graph Neural Networks (GNNs). In this paper, we introduce a new framework named Discrete Graph Auto-Encoder (DGAE), which leverages the strengths of both strategies and mitigate their respective limitations. In essence, we propose a strategy in 2 steps. We first use a permutation-equivariant auto-encoder to convert graphs into sets of discrete latent node representations, each node being represented by a sequence of quantized vectors. In the second step, we sort the sets of discrete latent representations and learn their distribution with a specifically designed auto-regressive model based on the Transformer architecture. Through multiple experimental evaluations, we demonstrate the competitive performances of our model in comparison to the existing state-of-the-art across various datasets. Various ablation studies support the interest of our method.
翻訳日:2024-01-31 19:31:35 公開日:2024-01-30
# 平均化」による不均一時系列予測の改善と食料需要予測への応用

Improving Forecasts for Heterogeneous Time Series by "Averaging", with Application to Food Demand Forecast ( http://arxiv.org/abs/2306.07119v3 )

ライセンス: Link先を確認
Lukas Neubauer, Peter Filzmoser(参考訳) 実世界のアプリケーションにおける一般的な予測設定は、同一領域のおそらく異種時系列の集合を考える。 長さなどの各時系列の特性が異なるため、各時系列の予測を直進的に得ることは困難である。 本稿では,k-ネアレスト近傍の近傍に類似する時系列を探索するために,動的時間ウォーピングにおける類似度尺度を用いた一般的な枠組みを提案し,平均化による簡易モデルの予測を改善する。 平均化を行ういくつかの方法が提案され、理論的議論は平均化が予測に有用であることを示す。 さらに、診断ツールの提案により、手順の深い理解が可能になる。

A common forecasting setting in real world applications considers a set of possibly heterogeneous time series of the same domain. Due to different properties of each time series such as length, obtaining forecasts for each individual time series in a straight-forward way is challenging. This paper proposes a general framework utilizing a similarity measure in Dynamic Time Warping to find similar time series to build neighborhoods in a k-Nearest Neighbor fashion, and improve forecasts of possibly simple models by averaging. Several ways of performing the averaging are suggested, and theoretical arguments underline the usefulness of averaging for forecasting. Additionally, diagnostics tools are proposed allowing a deep understanding of the procedure.
翻訳日:2024-01-31 19:31:18 公開日:2024-01-30
# シンプルで制御可能な音楽生成

Simple and Controllable Music Generation ( http://arxiv.org/abs/2306.05284v3 )

ライセンス: Link先を確認
Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre D\'efossez(参考訳) 我々は条件付き音楽生成の課題に取り組む。 我々は,圧縮された離散的音楽表現,すなわちトークンのストリームを運用する単一言語モデル (lm) である musicgen を紹介する。 以前の作業とは異なり、MusicGenはシングルステージトランスフォーマーLMと効率的なトークンインターリーブパターンで構成されており、階層化やアップサンプリングといったいくつかのモデルをカスケードする必要がなくなる。 このアプローチに従うと、MusicGenがモノとステレオの両方の高品質なサンプルを生成しながら、テキスト記述やメロディ的な特徴を条件にすることで、生成した出力をよりよく制御できることを示す。 提案手法が標準テキストから音楽へのベンチマークで評価されたベースラインよりも優れていることを示す。 アブレーション研究を通じて,MusicGenを構成する各コンポーネントの重要性に光を当てた。 音楽サンプル、コード、モデルはhttps://github.com/facebookresearch/audiocraftで入手できる。

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft
翻訳日:2024-01-31 19:31:07 公開日:2024-01-30
# MKOR: Rank-1 アップデートを用いたモーメントム付きクロネッカー型最適化器

MKOR: Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1 Updates ( http://arxiv.org/abs/2306.01685v2 )

ライセンス: Link先を確認
Mohammad Mozaffari, Sikan Li, Zhao Zhang, Maryam Mehri Dehnavi(参考訳) 本研究は,deep neural network (dnn) の学習時間と収束特性を改善するために,rank-1 更新を用いた運動量対応クロネッカー型最適化器を提案する。 2階の手法は、収束率が高い一方、1階の手法はモデルサイズまたは/またはトレーニングバッチサイズに関して3倍の複雑さを持つ。 したがって、大きな言語モデル(LLM)のようなトランスフォーマーモデルでは、これらのモデルにおけるバッチサイズがアテンションメカニズムのシーケンス長によってスケールするため、スケーラビリティとパフォーマンスが劣る。 MKORの複雑性はモデルサイズに対して2次的であり、2階法の計算ボトルネックを軽減する。 計算の複雑さが高いため、第2次メソッドの最先端の実装は、第2次情報を必ずしも更新できないため、これらの更新からよりよい収束の約束を十分に活用できない。 2次更新の通信複雑性を低減し、線形通信複雑性を達成することにより、MKORは2次更新の頻度を増加させる。 また,第2次更新が収束を加速しない場合,MKOR(MKOR-H)のハイブリッド版も提案する。 実験の結果, MKORは, 64個のGPU上でのBERT-Large-Uncased上で, LAMBオプティマイザやKAISA/KFACといった2次メソッドの最適実装において, それぞれ2.57倍, 1.85倍の性能を発揮した。

This work proposes a Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1 updates, called MKOR, that improves the training time and convergence properties of deep neural networks (DNNs). Second-order techniques, while enjoying higher convergence rates vs first-order counterparts, have cubic complexity with respect to either the model size and/or the training batch size. Hence they exhibit poor scalability and performance in transformer models, e.g. large language models (LLMs), because the batch sizes in these models scale by the attention mechanism sequence length, leading to large model size and batch sizes. MKOR's complexity is quadratic with respect to the model size, alleviating the computation bottlenecks in second-order methods. Because of their high computation complexity, state-of-the-art implementations of second-order methods can only afford to update the second order information infrequently, and thus do not fully exploit the promise of better convergence from these updates. By reducing the communication complexity of the second-order updates as well as achieving a linear communication complexity, MKOR increases the frequency of second order updates. We also propose a hybrid version of MKOR (called MKOR-H) that mid-training falls backs to a first order optimizer if the second order updates no longer accelerate convergence. Our experiments show that MKOR outperforms state -of-the-art first order methods, e.g. the LAMB optimizer, and best implementations of second-order methods, i.e. KAISA/KFAC, up to 2.57x and 1.85x respectively on BERT-Large-Uncased on 64 GPUs.
翻訳日:2024-01-31 19:30:49 公開日:2024-01-30
# ターゲットドメインラベルのないドメイン適応モデルの評価は可能か?

Can We Evaluate Domain Adaptation Models Without Target-Domain Labels? ( http://arxiv.org/abs/2305.18712v2 )

ライセンス: Link先を確認
Jianfei Yang, Hanjie Qian, Yuecong Xu, Kai Wang, Lihua Xie(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル豊富なソースドメインでトレーニングされたモデルをラベルなしのターゲットドメインに適応させる。 しかし、現実のシナリオでは、ターゲットドメインラベルがないため、UDAモデルの性能を評価することは困難である。 さらに, 対人訓練と自己学習に頼ってUDA法が普及すると, モデル変性と負の移動が生じ, 評価問題がさらに悪化する可能性がある。 本稿では,これらの問題に対処する新しい指標である「textit{Transfer Score}」を提案する。 提案手法は,モデルパラメータによる分類器の空間的均一性,深部表現の伝達性と識別性を評価することで,udaモデルの教師なし評価を可能にする。 提案手法は,対象ドメインを含まない3つの新たな目的を達成し,(1)利用可能な選択肢から最適なUDA法を選択すること,(2)モデル劣化を防止するためにUDAモデルのハイパーパラメーターを最適化すること,(3)UDAモデルのどのチェックポイントが最適かを同定すること,である。 我々の研究は、データレベルのUDA研究と実践的なUDAシナリオのギャップを埋め、UDAモデルの性能の現実的な評価を可能にします。 異なるスケールのUDAデータセットと不均衡分布に関する広範な実験研究を通じて,我々の測定値の有効性を検証する。 その結果、上記の目標をしっかりと達成できることがわかった。

Unsupervised domain adaptation (UDA) involves adapting a model trained on a label-rich source domain to an unlabeled target domain. However, in real-world scenarios, the absence of target-domain labels makes it challenging to evaluate the performance of UDA models. Furthermore, prevailing UDA methods relying on adversarial training and self-training could lead to model degeneration and negative transfer, further exacerbating the evaluation problem. In this paper, we propose a novel metric called the \textit{Transfer Score} to address these issues. The proposed metric enables the unsupervised evaluation of UDA models by assessing the spatial uniformity of the classifier via model parameters, as well as the transferability and discriminability of deep representations. Based on the metric, we achieve three novel objectives without target-domain labels: (1) selecting the best UDA method from a range of available options, (2) optimizing hyperparameters of UDA models to prevent model degeneration, and (3) identifying which checkpoint of UDA model performs optimally. Our work bridges the gap between data-level UDA research and practical UDA scenarios, enabling a realistic assessment of UDA model performance. We validate the effectiveness of our metric through extensive empirical studies on UDA datasets of different scales and imbalanced distributions. The results demonstrate that our metric robustly achieves the aforementioned goals.
翻訳日:2024-01-31 19:29:47 公開日:2024-01-30
# dowg unleashed:効率的なパラメータフリー勾配降下法

DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent Method ( http://arxiv.org/abs/2305.16284v4 )

ライセンス: Link先を確認
Ahmed Khaled and Konstantin Mishchenko and Chi Jin(参考訳) 本稿では,パラメータフリー勾配型最適化器DoWG(Distance over Weighted Gradients)を提案する。 凸最適化における最適調整勾配勾配勾配の収束率をパラメータを調整せずに対数係数に一致させ、スムーズな問題と非滑らかな問題の両方に自動的に適応させることを証明した。 AdaGradフレームワークに続く一般的なアルゴリズムは正規化に使用する2乗勾配のランニング平均を計算するが、DoWGはランニング平均の新しい距離ベース重み付きバージョンを維持しており、所望の特性を達成するのに不可欠である。 また,本理論を補完するために,DoWGが安定性の限界に到達したことを実証的に示し,実践的な機械学習タスクの有効性を検証した。

This paper proposes a new easy-to-implement parameter-free gradient-based optimizer: DoWG (Distance over Weighted Gradients). We prove that DoWG is efficient -- matching the convergence rate of optimally tuned gradient descent in convex optimization up to a logarithmic factor without tuning any parameters, and universal -- automatically adapting to both smooth and nonsmooth problems. While popular algorithms following the AdaGrad framework compute a running average of the squared gradients to use for normalization, DoWG maintains a new distance-based weighted version of the running average, which is crucial to achieve the desired properties. To complement our theory, we also show empirically that DoWG trains at the edge of stability, and validate its effectiveness on practical machine learning tasks.
翻訳日:2024-01-31 19:29:15 公開日:2024-01-30
# 非閉路のアハラノフ-ボーム位相シフトは測定可能な量か?

Is the Aharonov-Bohm phase shift for a non-closed path a measurable quantity ? ( http://arxiv.org/abs/2305.15658v2 )

ライセンス: Link先を確認
Masashi Wakamatsu(参考訳) 近年、荷電粒子と仮想光子の交換によるソレノイド電流との相互作用を通してAB効果を説明する興味深い試みがいくつか見られる。 このアプローチの重要な仮定は、ab相シフトは荷電粒子とソレノイドの間の相互作用エネルギーの移動電荷の経路に沿った変化に比例するということである。 したがって、経路に沿ったAB相の変化はゲージ選択に依存しないので、非閉経路のAB相シフトが原理的に測定可能であると主張する。 しかしながら、ソレノイドと荷電粒子の相互作用エネルギーに関する2つのかなり異なる議論が存在することに気付き、その1つはボイヤーによるものであり、もう1つはサルダニャによるものである。 本稿では,ソレノイド,荷電粒子,量子化された電磁場の結合系の自己完結した量子力学的処理に基づき,ボイヤーとサルダーニャの相互作用エネルギーは少なくとも非特異ゲージ変換に対してはゲージ不変であるが,互いにキャンセルする運命にあることを示す。 解析の結果,ab相の起源はハミルトニアンの他の部分まで遡ることができることがわかった。 さらに、実効的なラグランジアンによる経路積分形式論に基づき、非閉経路のAB相シフトがゲージ変量ではなく、直接の実験観測値に対応しないことを示す。

There recently appear some interesting attempts to explain the AB-effect through the interaction between the charged particle and the solenoid current mediated by the exchange of a virtual photon. A vital assumption of this approach is that AB-phase shift is proportional to the change of the interaction energy between the charged particle and solenoid along the path of the moving charge. Accordingly, they insist that the AB-phase change along a path does not depend on the gauge choice so that the AB-phase shift for a non-closed path is in principle measurable. We however notice the existence of two fairly different discussions on the interaction energy between the solenoid and a charge particle, the one is due to Boyer and the other is due to Saldanha and others. In the present paper, based on a self-contained quantum mechanical treatment of the combined system of a solenoid, a charged particle, and the quantized electromagnetic fields, we show that both interaction energies of Boyer and of Saldanha are in fact gauge invariant at least for non-singular gauge transformations but they are destined to cancel each other. Our analysis rather shows that the origin of the AB-phase can be traced back to other part of our effective Hamiltonian. Furthermore, based on the path-integral formalism with our effective Lagrangian, we explicitly demonstrate that the AB-phase shift for a non-closed path is not a gauge-variant quantity, which means that it would not correspond to direct experimental observables.
翻訳日:2024-01-31 19:29:00 公開日:2024-01-30
# 画像超解像のための最適境界条件付き拡散モードの解法

Solving Diffusion ODEs with Optimal Boundary Conditions for Better Image Super-Resolution ( http://arxiv.org/abs/2305.15357v4 )

ライセンス: Link先を確認
Yiyang Ma, Huan Yang, Wenhan Yang, Jianlong Fu, Jiaying Liu(参考訳) 拡散モデルは、強力な生成モデルの一種であり、画像超解像(SR)タスクにおいて印象的な結果をもたらした。 しかし、拡散モデルの逆過程に導入されたランダム性により、拡散ベースのsrモデルの性能はサンプリングのたびに変動し、特にサンプリングされたステップがほとんどないサンプラーでは顕著である。 この拡散モデル固有のランダム性は非効率性と不安定性をもたらし、SR結果の品質を保証することは困難である。 しかし、我々の研究は、このランダム性を機会として捉えており、それを十分に分析し活用することで、一連の拡散ベースのSR手法の恩恵を受ける可能性を持つ効果的なプラグアンドプレイサンプリング手法の構築につながる。 より詳しくは、拡散常微分方程式(拡散ODE)を最適境界条件(BCs)で解くことにより、事前学習した拡散ベースSRモデルから高品質なSR画像を着実にサンプリングし、BCsの選択と対応するSR結果の特徴を分析することを提案する。 我々の分析は、空間全体における効率的な探索を通して、およそ最適なBCを得るための経路を示す。 提案手法で得られたsrの質は,事前学習した拡散ベースsrモデルとランダム性を持つ電流法で得られた結果の質を上回っており,本手法では追加のトレーニングを行わず,電流拡散ベースのsrモデルを「ブースト」する。

Diffusion models, as a kind of powerful generative model, have given impressive results on image super-resolution (SR) tasks. However, due to the randomness introduced in the reverse process of diffusion models, the performances of diffusion-based SR models are fluctuating at every time of sampling, especially for samplers with few resampled steps. This inherent randomness of diffusion models results in ineffectiveness and instability, making it challenging for users to guarantee the quality of SR results. However, our work takes this randomness as an opportunity: fully analyzing and leveraging it leads to the construction of an effective plug-and-play sampling method that owns the potential to benefit a series of diffusion-based SR methods. More in detail, we propose to steadily sample high-quality SR images from pre-trained diffusion-based SR models by solving diffusion ordinary differential equations (diffusion ODEs) with optimal boundary conditions (BCs) and analyze the characteristics between the choices of BCs and their corresponding SR results. Our analysis shows the route to obtain an approximately optimal BC via an efficient exploration in the whole space. The quality of SR results sampled by the proposed method with fewer steps outperforms the quality of results sampled by current methods with randomness from the same pre-trained diffusion-based SR model, which means that our sampling method "boosts" current diffusion-based SR models without any additional training.
翻訳日:2024-01-31 19:28:33 公開日:2024-01-30
# テキスト事前学習言語モデル

Textually Pretrained Speech Language Models ( http://arxiv.org/abs/2305.13009v3 )

ライセンス: Link先を確認
Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi(参考訳) 音声言語モデル(SpeechLMs)は、テキストの監督なしに、音声データのみを処理し、生成する。 本研究では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。 我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。 音声トークン化器,事前学習されたテキストモデル,データセットサイズなど,異なるモデル設計選択の影響を実験的に分析した。 モデルとデータセットのスケールはどちらも,より高性能なSpeechLMを構築する上で重要な役割を担っている。 私たちの観察に基づいて、パラメータ数とトレーニングデータの両方の観点から、最も大きい(我々の知識を最大限に活用する)スピーチlmを提示する。 さらに, モデル評価をさらに改善し, 今後の研究を進めるために, storycloze textual benchmark の2つの音声版を導入する。 音声サンプル、コード、モデルを公開しています。

Speech language models (SpeechLMs) process and generate acoustic data only, without textual supervision. In this work, we propose TWIST, a method for training SpeechLMs using a warm-start from a pretrained textual language models. We show using both automatic and human evaluations that TWIST outperforms a cold-start SpeechLM across the board. We empirically analyze the effect of different model design choices such as the speech tokenizer, the pretrained textual model, and the dataset size. We find that model and dataset scale both play an important role in constructing better-performing SpeechLMs. Based on our observations, we present the largest (to the best of our knowledge) SpeechLM both in terms of number of parameters and training data. We additionally introduce two spoken versions of the StoryCloze textual benchmark to further improve model evaluation and advance future research in the field. We make speech samples, code and models publicly available: https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .
翻訳日:2024-01-31 19:27:37 公開日:2024-01-30
# fMRIにおける言語符号化モデルのスケーリング法則

Scaling laws for language encoding models in fMRI ( http://arxiv.org/abs/2305.11863v4 )

ライセンス: Link先を確認
Richard Antonello, Aditya Vaidya, and Alexander G. Huth(参考訳) トランスフォーマーに基づく一方向言語モデルからの表現は、自然言語に対する脳の反応を予測するのに有効であることが知られている。 しかし、言語モデルと脳を比較するほとんどの研究は、GPT-2または同様の大きさの言語モデルを用いている。 ここでは、OPTやLLaMAファミリーのような大規模なオープンソースモデルが、fMRIを用いて記録された脳反応を予測するのに優れているかどうかを検証した。 その結果、脳の予測性能は125Mから30Bのパラメータモデルと対数的にスケールし、約15%のエンコーディング性能が3つの被験者で設定されたホールドアウトテストと相関して測定された。 同様の対数行動は、fMRIトレーニングセットのサイズを拡大する際に観察された。 また,hubert,wavlm,whisperを用いた音響符号化モデルのスケーリングを特徴とし,モデルサイズと同等の性能改善を見出した。 これらの大規模で高性能な符号化モデルのノイズ天井解析により、前神経や高次聴覚野などの脳領域の理論的最大値に近い性能を示した。 これらの結果は、モデルとデータの両方におけるスケールの増加が、脳における言語処理の信じられないほど効果的なモデルをもたらすことを示唆している。

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales logarithmically with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar logarithmic behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.
翻訳日:2024-01-31 19:26:59 公開日:2024-01-30
# 言語モデルの効率的なベンチマーク

Efficient Benchmarking of Language Models ( http://arxiv.org/abs/2308.11696v4 )

ライセンス: Link先を確認
Yotam Perlitz, Elron Bandel, Ariel Gera, Ofir Arviv, Liat Ein-Dor, Eyal Shnarch, Noam Slonim, Michal Shmueli-Scheuer, Leshem Choshen(参考訳) 言語モデルの汎用性の向上により、LMは幅広い能力を包括的に評価する新しいクラスのベンチマークを生み出した。 このようなベンチマークは、モデル当たり数千gpu時間に達する膨大な計算コストと関連している。 しかし,これらの評価作業の効率性は文献上ではほとんど議論されなかった。 本稿では,lm評価の計算コストを,信頼性を損なうことなくインテリジェントに削減する,効率的なベンチマーク問題を提案する。 helmベンチマークをテストケースとして使用することにより,ベンチマーク設計の異なる選択が計算信頼性のトレードオフに与える影響を調べる。 そこで本研究では,新しい尺度決定が信頼性ディオールに与える影響を簡潔に評価することを提案する。 例えば、HELMの現在のリーダーは、単にベンチマークから低ランクのモデルを取り除くだけで変化し、いくつかのサンプルが正しいベンチマークランキングを得るのに十分であることを示す。 逆に、ヘルムシナリオのわずかに異なる選択は、ランクが異なる。 ベンチマークの信頼性を最小限に抑えることで、より効率的なベンチマーク設計と利用プラクティスのための具体的な推奨事項を概説し、しばしばx100以上の計算を削減します。

The increasing versatility of language models LMs has given rise to a new class of benchmarks that comprehensively assess a broad range of capabilities. Such benchmarks are associated with massive computational costs reaching thousands of GPU hours per model. However the efficiency aspect of these evaluation efforts had raised little discussion in the literature. In this work we present the problem of Efficient Benchmarking namely intelligently reducing the computation costs of LM evaluation without compromising reliability. Using the HELM benchmark as a test case we investigate how different benchmark design choices affect the computation-reliability tradeoff. We propose to evaluate the reliability of such decisions by using a new measure Decision Impact on Reliability DIoR for short. We find for example that the current leader on HELM may change by merely removing a low-ranked model from the benchmark and observe that a handful of examples suffice to obtain the correct benchmark ranking. Conversely a slightly different choice of HELM scenarios varies ranking widely. Based on our findings we outline a set of concrete recommendations for more efficient benchmark design and utilization practices leading to dramatic cost savings with minimal loss of benchmark reliability often reducing computation by x100 or more.
翻訳日:2024-01-31 19:19:53 公開日:2024-01-30
# 多粒子系における真の非局所GHZ状態の小さな集合

Small sets of genuinely nonlocal GHZ states in multipartite systems ( http://arxiv.org/abs/2308.07171v3 )

ライセンス: Link先を確認
Zong-Xing Xiong, Yongli Zhang, Mao-Sheng Li, Lvzhou Li(参考訳) 直交多部量子状態の集合が真に非局所(distinguishability-based)であるとは、それらが部分系の任意の分割で局所的に区別できないことである。 本研究では,多部系における一般化GHZ状態からなる真の非局所集合を構成する問題を考える。 N が大きい系 (C^2)^(\otimes N) に対して、群論の言語を用いて、N-量子 GHZ 基底の状態の小さな割合 {\theta}[1/2^(N/2)] が真の非局所性を示すのに十分であることを示す。 同様の議論は、系 (C^d)^(\otimes N) における標準一般化GHZ基底についても成り立つ(ただし、d は偶数で N は大きい)。 さらに、任意の固定 n が与えられた条件に移動すると、局所次元 d が十分大きいならば (c^d)^(\otimes n) に d + 1 個の真の非局所一般化 ghz 状態が存在することを示す。 さらに、漸近的な意味での利点として、後者の結果は、「自明なオトゴナリティ保存局所測定」(toplm)技術の明らかな限界を示しており、これは真に非局所性を検出するために頻繁に使われている。

A set of orthogonal multipartite quantum states are called (distinguishability-based) genuinely nonlocal if they are locally indistinguishable across any bipartition of the subsystems. In this work, we consider the problem of constructing small genuinely nonlocal sets consisting of generalized GHZ states in multipartite systems. For system (C^2)^(\otimes N) where N is large, using the language of group theory, we show that a tiny proportion {\Theta}[1/2^(N/2)] of the states among the N-qubit GHZ basis suffice to exhibit genuine nonlocality. Similar arguments also hold for the canonical generalized GHZ bases in systems (C^d)^(\otimes N), wherever d is even and N is large. What is more, moving to the condition that any fixed N is given, we show that d + 1 genuinely nonlocal generalized GHZ states exist in (C^d)^(\otimes N), provided the local dimension d is sufficiently large. As an additional merit, within and beyond an asymptotic sense, the latter result also indicates some evident limitations of the "trivial othogonality-preserving local measurements" (TOPLM) technique that has been utilized frequently for detecting genuine nonlocality.
翻訳日:2024-01-31 19:19:38 公開日:2024-01-30
# SSLRec:レコメンデーションのための自己監督型学習フレームワーク

SSLRec: A Self-Supervised Learning Framework for Recommendation ( http://arxiv.org/abs/2308.05697v3 )

ライセンス: Link先を確認
Xubin Ren, Lianghao Xia, Yuhao Yang, Wei Wei, Tianle Wang, Xuheng Cai and Chao Huang(参考訳) 自己教師付き学習(SSL)は、リコメンデーションシステムにおいてスパースとノイズの多いデータによって引き起こされる課題に対処するソリューションとして、近年大きな関心を集めている。 さまざまなレコメンデーションシナリオ(グラフコラボレーティブフィルタリング、シーケンシャルレコメンデーション、ソーシャルレコメンデーション、KG-enhancedレコメンデーションなど)で最先端のパフォーマンスを提供するために設計されたSSLアルゴリズムが増えているが、異なるドメインにまたがってレコメンデーションアルゴリズムを統合する統一フレームワークはいまだに存在しない。 このようなフレームワークは、自己監督型レコメンデーションアルゴリズムの基盤となり、既存のメソッドの検証を統一し、新しいメソッドの設計を推進する。 このギャップに対処するため、SSLRecという、SSLに強化されたさまざまな推奨者を評価するための、標準化され、フレキシブルで包括的なフレームワークを提供する、新しいベンチマークプラットフォームを紹介します。 SSLRecフレームワークは、ユーザが最先端のモデルを簡単に評価できるモジュラーアーキテクチャと、特定のニーズでSSLレコメンデーションモデルを作成するのに役立つ完全なデータ拡張と自己教師型ツールキットを備えている。 さらにSSLRecは、一貫性と公正な設定で、さまざまなレコメンデーションモデルのトレーニングと評価のプロセスを簡素化する。 私たちのSSLRecプラットフォームは、さまざまなシナリオにわたる最先端のSSL強化レコメンデーションモデルを包括的にカバーしています。 実装されたSSLRecフレームワークは、ソースコードリポジトリhttps://github.com/HKUDS/SSLRecで利用可能です。

Self-supervised learning (SSL) has gained significant interest in recent years as a solution to address the challenges posed by sparse and noisy data in recommender systems. Despite the growing number of SSL algorithms designed to provide state-of-the-art performance in various recommendation scenarios (e.g., graph collaborative filtering, sequential recommendation, social recommendation, KG-enhanced recommendation), there is still a lack of unified frameworks that integrate recommendation algorithms across different domains. Such a framework could serve as the cornerstone for self-supervised recommendation algorithms, unifying the validation of existing methods and driving the design of new ones. To address this gap, we introduce SSLRec, a novel benchmark platform that provides a standardized, flexible, and comprehensive framework for evaluating various SSL-enhanced recommenders. The SSLRec framework features a modular architecture that allows users to easily evaluate state-of-the-art models and a complete set of data augmentation and self-supervised toolkits to help create SSL recommendation models with specific needs. Furthermore, SSLRec simplifies the process of training and evaluating different recommendation models with consistent and fair settings. Our SSLRec platform covers a comprehensive set of state-of-the-art SSL-enhanced recommendation models across different scenarios, enabling researchers to evaluate these cutting-edge models and drive further innovation in the field. Our implemented SSLRec framework is available at the source code repository https://github.com/HKUDS/SSLRec.
翻訳日:2024-01-31 19:19:08 公開日:2024-01-30
# 大規模中国語モデルの生成能力の評価

Evaluating the Generation Capabilities of Large Chinese Language Models ( http://arxiv.org/abs/2308.04823v4 )

ライセンス: Link先を確認
Hui Zeng, Jingyuan Xue, Meng Hao, Chen Sun, Bin Ning, Na Zhang(参考訳) 本稿では,大規模中国語モデルの生成能力を評価するための総合的・自動評価フレームワークであるCG-Evalについて紹介する。 cg-evalは、科学、工学、人文科学、社会科学、数理計算、医師資格試験、司法試験、公認会計士試験の6つの重要な領域における多様な質問に対して、正確かつ文脈的に関連する応答を生成する能力に基づいてモデルを評価する。 これと並行して,複数の指標の重み付け和から開発された,革新的な複合指標gscoreを紹介する。 gscoreは、参照標準に対するモデルのテキスト生成の品質測定を独自に自動化し、詳細なモデル性能の評価を提供する。 この自動化は評価プロセスの効率性とスケーラビリティを高めるだけでなく、様々なモデルに対して客観的かつ一貫した評価を保証する。 評価されたモデルのロバストな機能と比較パフォーマンスを強調した詳細なテストデータと結果は、http://cgeval.besteasy.com/でアクセス可能である。

This paper unveils CG-Eval, the first-ever comprehensive and automated evaluation framework designed for assessing the generative capabilities of large Chinese language models across a spectrum of academic disciplines. CG-Eval stands out for its automated process, which critically assesses models based on their proficiency in generating precise and contextually relevant responses to a diverse array of questions within six key domains: Science and Engineering, Humanities and Social Sciences, Mathematical Calculations, Medical Practitioner Qualification Examination, Judicial Examination, and Certified Public Accountant Examination. Alongside this, we introduce Gscore, an innovative composite index developed from a weighted sum of multiple metrics. Gscore uniquely automates the quality measurement of a model's text generation against reference standards, providing a detailed and nuanced assessment of model performance. This automation not only enhances the efficiency and scalability of the evaluation process but also ensures objective and consistent assessment across various models. The detailed test data and results, highlighting the robust capabilities and comparative performance of the evaluated models, are accessible at http://cgeval.besteasy.com/.
翻訳日:2024-01-31 19:18:04 公開日:2024-01-30
# サンプリングオーバーヘッドを超えたオープンダイナミクスの確率的エラーキャンセラの限界

Limitations of probabilistic error cancellation for open dynamics beyond sampling overhead ( http://arxiv.org/abs/2308.01446v2 )

ライセンス: Link先を確認
Yue Ma and M. S. Kim(参考訳) 力学の量子シミュレーションはnisq時代の重要な目標であり、量子誤差緩和はノイズの影響の修正や排除に有効な経路である可能性がある。 量子誤差緩和に関するほとんどの研究は、回路深度の指数関数的スケーリングによる資源コストに焦点が当てられている。 確率的エラーキャンセレーションのような方法は、進化を有限時間ステップに離散化し、各時間ステップの後に緩和層を適用し、ハミルトニアンに依存しないノイズ部分のみを変更する。 これは、たとえエラー緩和が理想的に実装されたとしても、シミュレーション結果にトロッターのような誤差をもたらす可能性があるため、サンプルの数は無限である。 ここでは,これまでほとんど無視されてきた誤りを分析した。 シミュレーション対象のユニタリ部,デバイスノイズ部,オープンダイナミックスのノイズ部との交換関係によって決定されることを示す。 ディジタル量子シミュレーションとアナログ量子シミュレーションの両方のセットアップを含み、ノイズチャネルを正確に反転させ、時間ステップで第1次に近似することで理想的な誤差軽減マップを定義することを検討する。 単一キュービットの玩具モデルを用いて、その結果を数値的に示す。 本研究は,確率的エラーキャンセラを段階的に連続ダイナミクスに適用する基本的な限界を示し,真の時間連続エラーキャンセラ法の検討を動機付ける。

Quantum simulation of dynamics is an important goal in the NISQ era, within which quantum error mitigation may be a viable path towards modifying or eliminating the effects of noise. Most studies on quantum error mitigation have been focused on the resource cost due to its exponential scaling in the circuit depth. Methods such as probabilistic error cancellation rely on discretizing the evolution into finite time steps and applying the mitigation layer after each time step, modifying only the noise part without any Hamiltonian-dependence. This may lead to Trotter-like errors in the simulation results even if the error mitigation is implemented ideally, which means that the number of samples is taken as infinite. Here we analyze the aforementioned errors which have been largely neglected before. We show that, they are determined by the commutating relations between the superoperators of the unitary part, the device noise part and the noise part of the open dynamics to be simulated. We include both digital quantum simulation and analog quantum simulation setups, and consider defining the ideal error mitigation map both by exactly inverting the noise channel and by approximating it to the first order in the time step. We take single-qubit toy models to numerically demonstrate our findings. Our results illustrate fundamental limitations of applying probabilistic error cancellation in a stepwise manner to continuous dynamics, thus motivating the investigations of truly time-continuous error cancellation methods.
翻訳日:2024-01-31 19:17:25 公開日:2024-01-30
# スライスされたwasserstein損失を伴うニューラルネットワーク学習のためのsgdの収束

Convergence of SGD for Training Neural Networks with Sliced Wasserstein Losses ( http://arxiv.org/abs/2307.11714v2 )

ライセンス: Link先を確認
Eloi Tanguy(参考訳) 最適輸送は近年、特にwasserstein距離のおかげで活発な関心を惹きつけており、これは幾何学的に賢明で直感的に確率測度を比較する方法を提供している。 計算上の理由から、スライデッド・ワッサースタイン距離(SW)はワッサースタイン距離の代替として導入され、生成ニューラルネットワーク(NN)のトレーニングに利用されてきた。 確率勾配Descent (SGD) の収束は, 実際にこのような状況下で観測されているが, この観測に対する理論的保証はない。 ビアンキらによる非滑らか・非凸関数に対するSGDの収束に関する最近の研究(2022年)を活用し、我々はその知識ギャップを橋渡しし、NNパラメータ上のSW損失に対する固定ステップSGD軌道が収束する現実的な文脈を提供する。 より正確には、軌道がステップが減少するにつれて(sub)勾配流れ方程式の集合に近づくことを示す。 より厳密な仮定の下では、雑音および射影されたSGDスキームに対してより強い収束結果を示す。

Optimal Transport has sparked vivid interest in recent years, in particular thanks to the Wasserstein distance, which provides a geometrically sensible and intuitive way of comparing probability measures. For computational reasons, the Sliced Wasserstein (SW) distance was introduced as an alternative to the Wasserstein distance, and has seen uses for training generative Neural Networks (NNs). While convergence of Stochastic Gradient Descent (SGD) has been observed practically in such a setting, there is to our knowledge no theoretical guarantee for this observation. Leveraging recent works on convergence of SGD on non-smooth and non-convex functions by Bianchi et al. (2022), we aim to bridge that knowledge gap, and provide a realistic context under which fixed-step SGD trajectories for the SW loss on NN parameters converge. More precisely, we show that the trajectories approach the set of (sub)-gradient flow equations as the step decreases. Under stricter assumptions, we show a much stronger convergence result for noised and projected SGD schemes, namely that the long-run limits of the trajectories approach a set of generalised critical points of the loss function.
翻訳日:2024-01-31 19:17:02 公開日:2024-01-30
# 生命科学のためのオープンソースの知識グラフエコシステム

An Open-Source Knowledge Graph Ecosystem for the Life Sciences ( http://arxiv.org/abs/2307.05727v2 )

ライセンス: Link先を確認
Tiffany J. Callahan, Ignacio J. Tripodi, Adrianne L. Stefanski, Luca Cappelletti, Sanya B. Taneja, Jordan M. Wyrwa, Elena Casiraghi, Nicolas A. Matentzoglu, Justin Reese, Jonathan C. Silverstein, Charles Tapley Hoyt, Richard D. Boyce, Scott A. Malec, Deepak R. Unni, Marcin P. Joachimiak, Peter N. Robinson, Christopher J. Mungall, Emanuele Cavalleri, Tommaso Fontana, Giorgio Valentini, Marco Mesiti, Lucas A. Gillenwater, Brook Santangelo, Nicole A. Vasilevsky, Robert Hoehndorf, Tellen D. Bennett, Patrick B. Ryan, George Hripcsak, Michael G. Kahn, Michael Bada, William A. Baumgartner Jr, Lawrence E. Hunter(参考訳) 翻訳研究は、生物組織の複数のスケールのデータを必要とする。 シークエンシングとマルチオミクス技術の進歩はこれらのデータの可用性を高めているが、研究者は重要な統合課題に直面している。 知識グラフ(KG)は複雑な現象をモデル化するために使われ、それらを自動的に構築する手法が存在する。 しかし、複雑なバイオメディカルな統合問題に取り組むには、知識のモデル化方法の柔軟性が必要である。 さらに、既存のkg構築手法は、知識表現モデルの中で固定あるいは制限された選択のコストで堅牢なツールを提供する。 PheKnowLator (Phenotype Knowledge Translator) は、完全にカスタマイズ可能な知識表現を持つ存在論的基盤を持つKGのFAIR (Findable, Accessible, Interoperable and Reusable) 構築を自動化するセマンティックエコシステムである。 エコシステムには、KG構築リソース(データ準備APIなど)、分析ツール(SPARQLエンドポイントや抽象化アルゴリズムなど)、ベンチマーク(KGや組み込みなど)が含まれている。 本研究では,既存のオープンソースkg構築手法と体系的に比較し,その計算性能を解析し,大規模kgの構築に用いた。 柔軟な知識表現により、pheknowlatorは性能やユーザビリティを損なうことなく、完全にカスタマイズ可能なkgsを実現する。

Translational research requires data at multiple scales of biological organization. Advancements in sequencing and multi-omics technologies have increased the availability of these data, but researchers face significant integration challenges. Knowledge graphs (KGs) are used to model complex phenomena, and methods exist to construct them automatically. However, tackling complex biomedical integration problems requires flexibility in the way knowledge is modeled. Moreover, existing KG construction methods provide robust tooling at the cost of fixed or limited choices among knowledge representation models. PheKnowLator (Phenotype Knowledge Translator) is a semantic ecosystem for automating the FAIR (Findable, Accessible, Interoperable, and Reusable) construction of ontologically grounded KGs with fully customizable knowledge representation. The ecosystem includes KG construction resources (e.g., data preparation APIs), analysis tools (e.g., SPARQL endpoints and abstraction algorithms), and benchmarks (e.g., prebuilt KGs and embeddings). We evaluated the ecosystem by systematically comparing it to existing open-source KG construction methods and by analyzing its computational performance when used to construct 12 large-scale KGs. With flexible knowledge representation, PheKnowLator enables fully customizable KGs without compromising performance or usability.
翻訳日:2024-01-31 19:16:38 公開日:2024-01-30
# ネットワークスライミングのための近似アルゴリズム

A Proximal Algorithm for Network Slimming ( http://arxiv.org/abs/2307.00684v2 )

ライセンス: Link先を確認
Kevin Bui, Fanghui Xue, Fredrick Park, Yingyong Qi, Jack Xin(参考訳) 畳み込みニューラルネットワーク(cnns)の一般的なチャネルプルーニング方法として、ネットワークスライニング(ns)は、(1)バッチ正規化層のスケーリング係数に適用された$\ell_1$正規化でcnnを訓練する、(2)スケーリング係数が選択しきい値以下であるチャネルを削除する、(3)プルーニングモデルを再訓練して元の精度を回復する3段階のプロセスを有する。 この3段階のプロセスは、CNNの訓練に段階的に降下した結果である。 サブグレードの降下はcnnを正確な構造へと正確に訓練するものではないため、後者の2ステップは必須である。 さらに、劣勾配降下は収束保証を持たない。 そこで我々は近位NSという代替アルゴリズムを開発した。 提案アルゴリズムは,CNNをスパースかつ高精度な構造に訓練するので,スケーリング係数のしきい値の特定は不要である。 Kurdyka-{\L}ojasiewicz 仮定を用いて、近位NSの大域収束を確立する。 最後に,提案アルゴリズムをvggnet,drknet,resnetのcifar 10/100の有効性を検証する。 実験の結果,1ラウンドのトレーニングの後,近位NSは競争精度と圧縮性を備えたCNNが得られることがわかった。

As a popular channel pruning method for convolutional neural networks (CNNs), network slimming (NS) has a three-stage process: (1) it trains a CNN with $\ell_1$ regularization applied to the scaling factors of the batch normalization layers; (2) it removes channels whose scaling factors are below a chosen threshold; and (3) it retrains the pruned model to recover the original accuracy. This time-consuming, three-step process is a result of using subgradient descent to train CNNs. Because subgradient descent does not exactly train CNNs towards sparse, accurate structures, the latter two steps are necessary. Moreover, subgradient descent does not have any convergence guarantee. Therefore, we develop an alternative algorithm called proximal NS. Our proposed algorithm trains CNNs towards sparse, accurate structures, so identifying a scaling factor threshold is unnecessary and fine tuning the pruned CNNs is optional. Using Kurdyka-{\L}ojasiewicz assumptions, we establish global convergence of proximal NS. Lastly, we validate the efficacy of the proposed algorithm on VGGNet, DenseNet and ResNet on CIFAR 10/100. Our experiments demonstrate that after one round of training, proximal NS yields a CNN with competitive accuracy and compression.
翻訳日:2024-01-31 19:16:16 公開日:2024-01-30
# ENN: DCT適応活性化機能を持つニューラルネットワーク

ENN: A Neural Network with DCT Adaptive Activation Functions ( http://arxiv.org/abs/2307.00673v3 )

ライセンス: Link先を確認
Marc Martinez-Gost, Ana P\'erez-Neira, Miguel \'Angel Lagunas(参考訳) ニューラルネットワークの表現性はアクティベーション関数の性質に大きく依存するが、トレーニング段階では事前に定義され固定されることが多い。 本稿では、信号処理の観点から、非線形活性化関数を離散コサイン変換(DCT)を用いてモデル化し、トレーニング中にバックプロパゲーションを用いて適応する新しいモデルであるExpressive Neural Network(ENN)を提案する。 このパラメータ化は、トレーニング可能なパラメータの数を低く抑え、勾配ベースのスキームに適し、異なる学習タスクに適応する。 これは、信号処理の観点から、ネットワークに高い柔軟性と表現性を提供する、アクティベーション関数のための最初の非線形モデルである。 我々は,バンプの概念,すなわち出力空間における各アクティベーション関数の応答を回復することにより,収束時のネットワークの説明可能性に関する知見を提供する。 最後に、徹底的な実験を通して、モデルが分類および回帰タスクに適応できることを示します。 ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。

The expressiveness of neural networks highly depends on the nature of the activation function, although these are usually assumed predefined and fixed during the training stage. Under a signal processing perspective, in this paper we present Expressive Neural Network (ENN), a novel model in which the non-linear activation functions are modeled using the Discrete Cosine Transform (DCT) and adapted using backpropagation during training. This parametrization keeps the number of trainable parameters low, is appropriate for gradient-based schemes, and adapts to different learning tasks. This is the first non-linear model for activation functions that relies on a signal processing perspective, providing high flexibility and expressiveness to the network. We contribute with insights in the explainability of the network at convergence by recovering the concept of bump, this is, the response of each activation function in the output space. Finally, through exhaustive experiments we show that the model can adapt to classification and regression tasks. The performance of ENN outperforms state of the art benchmarks, providing above a 40% gap in accuracy in some scenarios.
翻訳日:2024-01-31 19:15:52 公開日:2024-01-30
# mild: ノイズラベルを用いた学習のためのインスタンス学習ダイナミクスのモデリング

MILD: Modeling the Instance Learning Dynamics for Learning with Noisy Labels ( http://arxiv.org/abs/2306.11560v2 )

ライセンス: Link先を確認
Chuanyang Hu, Shipeng Yan, Zhitong Gao, Xuming He(参考訳) ディープラーニングは大きな成功を収めていますが、正確なラベルを持つ大量のトレーニングデータに依存することが少なくありません。 コストを削減するための顕著な方向は、現実のアプリケーションでユビキタスなノイズラベルで学習することだ。 このような学習タスクにおける重要な課題は、偽ラベルデータに対するネットワーク記憶の影響を減らすことである。 本研究では,各データインスタンスの学習ダイナミクスを総合的に考慮し,クリーンデータを識別するweibull混合モデルに基づく反復的選択手法を提案する。 従来の小損失ヒューリスティックとは対照的に,ディープネットワークは記憶が容易で,クリーンなデータを忘れにくいという観測結果を活用する。 特に,誤分類されたり,トレーニング中に記憶されたりする移行時間を通じて,各インスタンスの記憶と記憶の難しさを計測し,選択のための新しい指標に統合する。 提案するメトリックに基づいて,特定されたクリーンデータのサブセットを保持し,選択手順を繰り返すことで,クリーンなサブセットを反復的に洗練し,最終的にモデルトレーニングに使用する。 提案手法を検証するため,我々は,合成ノイズデータセットと実世界のWebデータについて広範な実験を行った。

Despite deep learning has achieved great success, it often relies on a large amount of training data with accurate labels, which are expensive and time-consuming to collect. A prominent direction to reduce the cost is to learn with noisy labels, which are ubiquitous in the real-world applications. A critical challenge for such a learning task is to reduce the effect of network memorization on the falsely-labeled data. In this work, we propose an iterative selection approach based on the Weibull mixture model, which identifies clean data by considering the overall learning dynamics of each data instance. In contrast to the previous small-loss heuristics, we leverage the observation that deep network is easy to memorize and hard to forget clean data. In particular, we measure the difficulty of memorization and forgetting for each instance via the transition times between being misclassified and being memorized in training, and integrate them into a novel metric for selection. Based on the proposed metric, we retain a subset of identified clean data and repeat the selection procedure to iteratively refine the clean subset, which is finally used for model training. To validate our method, we perform extensive experiments on synthetic noisy datasets and real-world web data, and our strategy outperforms existing noisy-label learning methods.
翻訳日:2024-01-31 19:14:49 公開日:2024-01-30
# 事実: ファクトアウェア言語モデリングのための知識グラフによる大規模言語モデルの拡張

Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling ( http://arxiv.org/abs/2306.11489v2 )

ライセンス: Link先を確認
Linyao Yang and Hongyang Chen and Zhao Li and Xiao Ding and Xindong Wu(参考訳) 近年,代表的大規模言語モデル(LLM)であるChatGPTは,その強力な創発的能力によって注目されている。 一部の研究者は、LLMが知識グラフ(KG)のような構造化知識ベースを置き換える可能性があり、パラメータ化された知識ベースとして機能することを示唆している。 しかし、LLMは大きなコーパスに基づいて確率的言語パターンを学習し、人間との会話を行うのに長けているが、以前のより小さな事前学習言語モデル(PLM)と同様に、知識を基盤としたコンテンツを生成しながら事実を思い出すのが困難である。 これらの制限を克服するために、研究者は、知識に基づくKGを用いてデータ駆動型PLMを拡張して、PLMに明示的な事実知識を組み込むことを提案している。 本稿では、既存の知識グラフ強化事前学習言語モデル(kgplms)とその応用を詳述した、kgsによるplmの強化に関する研究を概観する。 本稿では,知識グラフ強化大言語モデル(KGLLM)を開発することにより,KGPLMに関する既存の研究からヒントを得て,LLMをKGで拡張することを提案する。 KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。

Recently, ChatGPT, a representative large language model (LLM), has gained considerable attention due to its powerful emergent abilities. Some researchers suggest that LLMs could potentially replace structured knowledge bases like knowledge graphs (KGs) and function as parameterized knowledge bases. However, while LLMs are proficient at learning probabilistic language patterns based on large corpus and engaging in conversations with humans, they, like previous smaller pre-trained language models (PLMs), still have difficulty in recalling facts while generating knowledge-grounded contents. To overcome these limitations, researchers have proposed enhancing data-driven PLMs with knowledge-based KGs to incorporate explicit factual knowledge into PLMs, thus improving their performance to generate texts requiring factual knowledge and providing more informed responses to user queries. This paper reviews the studies on enhancing PLMs with KGs, detailing existing knowledge graph enhanced pre-trained language models (KGPLMs) as well as their applications. Inspired by existing studies on KGPLM, this paper proposes to enhance LLMs with KGs by developing knowledge graph-enhanced large language models (KGLLMs). KGLLM provides a solution to enhance LLMs' factual reasoning ability, opening up new avenues for LLM research.
翻訳日:2024-01-31 19:14:28 公開日:2024-01-30
# K'arolyh\'azyモデルの検証可能性について

On the testability of the K\'arolyh\'azy model ( http://arxiv.org/abs/2306.10094v4 )

ライセンス: Link先を確認
Laria Figurato, Angelo Bassi, Sandro Donadi(参考訳) k\'arolyh\'azy の元々の提案は、時空揺らぎが宇宙空間における非一貫性の源になり得ることを示唆しており、予期せぬほど高い放射の放出(最新の実験で観測されたよりも13桁大きい)のために大きな課題に直面した。 この問題に対処するために、K\'arolyh\'azy の確率的計量ゆらぎは波動方程式に従わなければならないという仮定を再評価した。 時空変動のより一般的な相関関数を考慮し、この問題を解決し、上記の提案を復活させる。

K\'arolyh\'azy's original proposal, suggesting that space-time fluctuations could be a source of decoherence in space, faced a significant challenge due to an unexpectedly high emission of radiation (13 orders of magnitude more than what was observed in the latest experiment). To address this issue, we reevaluated K\'arolyh\'azy's assumption that the stochastic metric fluctuation must adhere to a wave equation. By considering more general correlation functions of space-time fluctuations, we resolve the problem and consequently revive the aforementioned proposal.
翻訳日:2024-01-31 19:14:00 公開日:2024-01-30
# ReactGenie: 大規模言語モデルを用いた複雑なマルチモーダルインタラクションのための開発フレームワーク

ReactGenie: A Development Framework for Complex Multimodal Interactions Using Large Language Models ( http://arxiv.org/abs/2306.09649v2 )

ライセンス: Link先を確認
Jackie Junrui Yang, Yingtian Shi, Yuhan Zhang, Karina Li, Daniel Wan Rosli, Anisha Jain, Shuning Zhang, Tianshi Li, James A. Landay, Monica S. Lam(参考訳) 音声とタッチの相互作用を組み合わせることで、マルチモーダルインタフェースはモダリティのみの効率を超えることができる。 本稿では,動作/機能呼び出しの指数的組み合わせの1つに変換されるマルチモーダルコマンドをユーザが発行する複雑なインタラクションを対象とする。 本稿では,単純なオブジェクト指向抽象化とラベル付きユーザ起動型プリミティブでプログラミング可能なプログラミングフレームワークであるreactgenieを提案する。 reactgenieは、マルチモーダルユーザコマンドを、私たちがこの目的のために作ったドメイン固有言語であるreactgeniedslに翻訳します。 ReactGenieランタイムは解析済みのReactGenieDSLを解釈し、複雑なユーザコマンドを実装するプリミティブを構成する。 その結果、reactgenieはユーザインタラクションにおいて前例のないレベルのリッチさを提供します。 評価の結果、12人の開発者が平均2.5時間以内でReactGenieアプリケーションを学習、構築できることがわかった。 さらに、従来のguiと比べて、エンドユーザはreactgenieアプリを使用してタスクを高速かつ少ないタスクロードで完了することができる。

By combining voice and touch interactions, multimodal interfaces can surpass the efficiency of either modality alone. This paper targets complex interactions, where users can issue multimodal commands that translate into one of the possible exponential combinations of actions/function invocations. This paper presents ReactGenie, a programming framework where developers can code with simple object-oriented abstractions and labeled user-invocable primitives. ReactGenie translates multimodal user commands into ReactGenieDSL, a domain-specific language we created for this purpose, using a neural semantic parser based on large-language models. The ReactGenie runtime interprets the parsed ReactGenieDSL and composes primitives to implement complex user commands. As a result, ReactGenie provides an unprecedented level of richness in user interactions. Our evaluation showed that 12 developers can learn and build a ReactGenie application in under 2.5 hours on average. In addition, compared with a traditional GUI, end users can complete tasks faster and with less task load using ReactGenie apps.
翻訳日:2024-01-31 19:13:47 公開日:2024-01-30
# 大言語モデルを用いたあいまいさを考慮したインコンテキスト学習

Ambiguity-Aware In-Context Learning with Large Language Models ( http://arxiv.org/abs/2309.07900v2 )

ライセンス: Link先を確認
Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, Michael Bendersky(参考訳) インコンテキスト学習(ICL)、すなわち、LLMはいくつかのタスク固有のデモしか示さず、タスク固有の微調整が不要なダウンストリームゲインにつながった。 しかし、LSMはプロンプトの選択に敏感であるため、ICLの優れたデモンストレーションをどのように選択するかが重要な研究課題である。 効果的な戦略の1つは、ICLのデモンストレーションとテストインプットのセマンティックな類似性をテキストレトリバーを用いて活用することである。 以前の研究(Lyu et al., 2023)から、ラベルとデモとの組み合わせがモデル予測に偏っていることが分かっています。 これにより、LCMの既存のタスクに関する知識、特に出力ラベル空間に関する知識を考えることで、より良い実証選択戦略が実現できるのではないかという仮説が導かれる。 3つのテキスト分類タスクの広範な実験を通じて、意味的に類似したiclのデモンストレーションを選択するだけでなく、テスト例を取り巻く固有のラベルの曖昧さを解決するためのデモを選択することが有用であることがわかった。 興味深いことに、llmが以前誤って分類され、テスト例の判断境界に落ちているデモを含めると、最もパフォーマンスが向上する。

In-context learning (ICL) i.e. showing LLMs only a few task-specific demonstrations has led to downstream gains with no task-specific fine-tuning required. However, LLMs are sensitive to the choice of prompts, and therefore a crucial research question is how to select good demonstrations for ICL. One effective strategy is leveraging semantic similarity between the ICL demonstrations and test inputs by using a text retriever, which however is sub-optimal as that does not consider the LLM's existing knowledge about that task. From prior work (Lyu et al., 2023), we already know that labels paired with the demonstrations bias the model predictions. This leads us to our hypothesis whether considering LLM's existing knowledge about the task, especially with respect to the output label space can help in a better demonstration selection strategy. Through extensive experimentation on three text classification tasks, we find that it is beneficial to not only choose semantically similar ICL demonstrations but also to choose those demonstrations that help resolve the inherent label ambiguity surrounding the test example. Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example's decision boundary, brings the most performance gain.
翻訳日:2024-01-31 19:07:09 公開日:2024-01-30
# コントラスト-Phys+:時空間コントラストによる教師なし・弱教師付き遠隔生理計測

Contrast-Phys+: Unsupervised and Weakly-supervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast ( http://arxiv.org/abs/2309.06924v2 )

ライセンス: Link先を確認
Zhaodong Sun and Xiaobai Li(参考訳) ビデオベースの遠隔生理計測は、顔の映像を利用して血液量変化信号を測定する。 rPPG測定の監視手法は優れた性能を発揮することが示されている。 しかし、これらの手法の欠点は、しばしばコストがかかり入手が困難である、地上の真実(GT)生理学的信号を持つ顔ビデオを必要とすることである。 本稿では,教師なし設定と弱い教師なし設定の両方で訓練できる方法であるcon contrast-phys+を提案する。 我々は3DCNNモデルを用いて、複数の時空間rPPG信号を生成し、rPPGの事前知識を対照的な損失関数に組み込む。 さらに、GT信号をコントラスト学習に組み込んで、部分的または不正なラベルに適応させる。 対照的な損失は、同じビデオからのrPPG/GT信号をグループ化し、異なるビデオからそれらを分離させる。 RGBおよび近赤外ビデオを含む5つの公開データセットに対して,本手法の評価を行った。 コントラスト-Phys+は、部分的に利用可能または不一致のGT信号を使用する場合やラベルが全くない場合でも、最先端の教師付き手法よりも優れている。 さらに,計算効率,雑音頑健性,一般化の観点から,本手法の利点を強調した。 私たちのコードはhttps://github.com/zhaodongsun/contrast-physで利用可能です。

Video-based remote physiological measurement utilizes facial videos to measure the blood volume change signal, which is also called remote photoplethysmography (rPPG). Supervised methods for rPPG measurements have been shown to achieve good performance. However, the drawback of these methods is that they require facial videos with ground truth (GT) physiological signals, which are often costly and difficult to obtain. In this paper, we propose Contrast-Phys+, a method that can be trained in both unsupervised and weakly-supervised settings. We employ a 3DCNN model to generate multiple spatiotemporal rPPG signals and incorporate prior knowledge of rPPG into a contrastive loss function. We further incorporate the GT signals into contrastive learning to adapt to partial or misaligned labels. The contrastive loss encourages rPPG/GT signals from the same video to be grouped together, while pushing those from different videos apart. We evaluate our methods on five publicly available datasets that include both RGB and Near-infrared videos. Contrast-Phys+ outperforms the state-of-the-art supervised methods, even when using partially available or misaligned GT signals, or no labels at all. Additionally, we highlight the advantages of our methods in terms of computational efficiency, noise robustness, and generalization. Our code is available at https://github.com/zhaodongsun/contrast-phys.
翻訳日:2024-01-31 19:06:46 公開日:2024-01-30
# 反事実生成の過程を知識の源として見る

Viewing the process of generating counterfactuals as a source of knowledge ( http://arxiv.org/abs/2309.04284v2 )

ライセンス: Link先を確認
Vincent Lemaire, Nathan Le Boudec, Victor Guyomard and Fran\c{c}oise Fessant(参考訳) 現在、機械学習モデルの決定を理解するための説明可能なAIメソッドが多数存在する。 そのうちの1つは、特徴の変化をシミュレートし、予測への影響を観察する反事実的推論に基づくものである。 本稿では,このシミュレーションプロセスを,使用可能な知識を,後に異なる方法で生成するための情報源として捉えることを提案する。 この過程は加法モデルで示され、より具体的には、ナイーブ・ベイズ分類器の場合、この目的のために興味深い性質を示す。

There are now many explainable AI methods for understanding the decisions of a machine learning model. Among these are those based on counterfactual reasoning, which involve simulating features changes and observing the impact on the prediction. This article proposes to view this simulation process as a source of creating a certain amount of knowledge that can be stored to be used, later, in different ways. This process is illustrated in the additive model and, more specifically, in the case of the naive Bayes classifier, whose interesting properties for this purpose are shown.
翻訳日:2024-01-31 19:06:08 公開日:2024-01-30
# 合成画像検索のためのデュアルリレーションアライメント

Dual Relation Alignment for Composed Image Retrieval ( http://arxiv.org/abs/2309.02169v2 )

ライセンス: Link先を確認
Xintong Jiang, Yaxiong Wang, Yujiao Wu, Meng Wang, Xueming Qian(参考訳) 合成画像検索は、参照画像を用いた対象画像の検索と、クエリとしての補完テキストの検索を伴うタスクであり、クロスモーダルモデリングの進歩により、大幅に進歩している。 1つのアライメント関係のみを持つ一般的な画像テキスト検索問題、すなわち画像テキストとは異なり、合成画像検索において2種類の関係が存在することを議論する。 明示的な関係は、既存の方法によって一般的に利用される参照画像と補完的なテキストターゲット画像に関連する。 この直感的関係に加えて、我々の実践中の観察では、対象画像と参照画像の関係を研究することにより、補完的なテキストを推測できることから、参照画像とターゲット画像の補完テキストという、暗黙的かつ重要な関係が明らかになった。 既存の手法は、暗黙の関係を見下ろしながら、ネットワークを学習するために明示的な関係を活用することに重点を置いている。 この弱点に対応するために,三重項間の相関関係を完全に活用するために,明示的関係と暗黙的関係を統合した合成画像検索のための新しい枠組みを提案する。 具体的には、まず、基準画像と対象画像とを融合させる視覚合成器を設計し、その結果得られた表現は、(1)補完テキストと意味的アライメントの対応、(2)明示的な関係モデリングを促進するために補完テキストの補償という2つの役割を担い、暗黙的な関係をアライメント学習に組み込む。 提案手法は,CIRRとFashionIQの2つの一般的なデータセットに対して,広範な実験により評価する。 その結果,合成画像検索性能が大幅に向上する上で,二重相関学習の有効性が確認できた。

Composed image retrieval, a task involving the search for a target image using a reference image and a complementary text as the query, has witnessed significant advancements owing to the progress made in cross-modal modeling. Unlike the general image-text retrieval problem with only one alignment relation, i.e., image-text, we argue for the existence of two types of relations in composed image retrieval. The explicit relation pertains to the reference image & complementary text-target image, which is commonly exploited by existing methods. Besides this intuitive relation, the observations during our practice have uncovered another implicit yet crucial relation, i.e., reference image & target image-complementary text, since we found that the complementary text can be inferred by studying the relation between the target image and the reference image. Regrettably, existing methods largely focus on leveraging the explicit relation to learn their networks, while overlooking the implicit relation. In response to this weakness, We propose a new framework for composed image retrieval, termed dual relation alignment, which integrates both explicit and implicit relations to fully exploit the correlations among the triplets. Specifically, we design a vision compositor to fuse reference image and target image at first, then the resulted representation will serve two roles: (1) counterpart for semantic alignment with the complementary text and (2) compensation for the complementary text to boost the explicit relation modeling, thereby implant the implicit relation into the alignment learning. Our method is evaluated on two popular datasets, CIRR and FashionIQ, through extensive experiments. The results confirm the effectiveness of our dual-relation learning in substantially enhancing composed image retrieval performance.
翻訳日:2024-01-31 19:05:20 公開日:2024-01-30
# 単位節の伝搬に無関係なCNF式について

On CNF formulas irredundant with respect to unit clause propagation ( http://arxiv.org/abs/2309.01750v3 )

ライセンス: Link先を確認
Petr Savick\'y(参考訳) 2つのCNF式はucp-等価(ucp-equivalent)と呼ばれ、単位節の伝搬(UCP)に関して同じように振る舞う。 式は ucp-irredundant と呼ばれ、任意の節を削除すると、元の式と同値でない式が導かれる。 既知の結果の結果、ucp-不等式のサイズと最小のucp-等価式のサイズの比率は、少なくとも$n^2$であり、$n$は変数の数である。 対称定値ホーン関数に対するucp-不等式の例を、$\Omega(n/\ln n)$ で最小のucp-等価式より大きくし、したがって上記の比の一般上界は、これより小さくならない。

Two CNF formulas are called ucp-equivalent, if they behave in the same way with respect to the unit clause propagation (UCP). A formula is called ucp-irredundant, if removing any clause leads to a formula which is not ucp-equivalent to the original one. As a consequence of known results, the ratio of the size of a ucp-irredundant formula and the size of a smallest ucp-equivalent formula is at most $n^2$, where $n$ is the number of the variables. We demonstrate an example of a ucp-irredundant formula for a symmetric definite Horn function which is larger than a smallest ucp-equivalent formula by a factor $\Omega(n/\ln n)$ and, hence, a general upper bound on the above ratio cannot be smaller than this.
翻訳日:2024-01-31 19:04:49 公開日:2024-01-30
# 線形プログラムの次元性低減のためのデータ駆動投影:一般化境界と学習法

Data-Driven Projection for Reducing Dimensionality of Linear Programs: Generalization Bound and Learning Methods ( http://arxiv.org/abs/2309.00203v2 )

ライセンス: Link先を確認
Shinsaku Sakaue, Taihei Oki(参考訳) 高次元線形プログラム(LP)を効率的に解く方法は根本的な問題である。 近年, LP解法の改良とは無関係に, LPの解法を高速化できる \textit{random projections} を用いたLPサイズ削減への関心が高まっている。 本稿では,ランダムな投影行列ではなく,データから学習した投影行列を用いて,新たな方向を探究する。 過去の$n$-次元LPのデータから、$n > k$となるような$n\times k$プロジェクション行列を学ぶ。 将来のlpインスタンスに対処するとき、その次元を学習された投影行列を介してn$からk$に減らし、得られたlpを解いてk$-次元の解を得、学習された行列をそれに適用してn$-次元の解を回収する。 理論的には、自然の疑問は: 回復したソリューションの品質を保証するのに十分なデータがどれくらいあるか? この問題は、一般化境界を確立するのに十分なデータ量と、パフォーマンス指標の \textit{pseudo-dimension} を結合する、 \textit{data-driven algorithm design} の枠組みに基づいて解決する。 擬次元上の上界を$\tilde{\mathrm{O}}(nk^2)$とすると、$\tilde{\mathrm{O}}$は対数因子を圧縮する。 また、$\Omega(nk)$ lower bound も提供しており、その結果は $\tilde{\mathrm{O}}(k)$ factor まで厳密であることを意味する。 実用面では,PCA法と勾配法という,投影行列を学習するための2つの自然な手法を探索する。 前者はシンプルで効率的だが、後者は時により良いソリューション品質をもたらすことがある。 実験では,データから投影行列を学習することの実用的利点を確認し,既存のランダム射影よりも高い解質を実現し,lpsの解決に要する時間を大幅に削減した。

How to solve high-dimensional linear programs (LPs) efficiently is a fundamental question. Recently, there has been a surge of interest in reducing LP sizes using \textit{random projections}, which can accelerate solving LPs independently of improving LP solvers. In this paper, we explore a new direction of \emph{data-driven projections}, which use projection matrices learned from data instead of random projection matrices. Given data of past $n$-dimensional LPs, we learn an $n\times k$ projection matrix such that $n > k$. When addressing a future LP instance, we reduce its dimensionality from $n$ to $k$ via the learned projection matrix, solve the resulting LP to obtain a $k$-dimensional solution, and apply the learned matrix to it to recover an $n$-dimensional solution. On the theoretical side, a natural question is: how much data is sufficient to ensure the quality of recovered solutions? We address this question based on the framework of \textit{data-driven algorithm design}, which connects the amount of data sufficient for establishing generalization bounds to the \textit{pseudo-dimension} of performance metrics. We obtain an $\tilde{\mathrm{O}}(nk^2)$ upper bound on the pseudo-dimension, where $\tilde{\mathrm{O}}$ compresses logarithmic factors. We also provide an $\Omega(nk)$ lower bound, implying our result is tight up to an $\tilde{\mathrm{O}}(k)$ factor. On the practical side, we explore two natural methods for learning projection matrices: PCA- and gradient-based methods. While the former is simple and efficient, the latter can sometimes lead to better solution quality. Our experiments confirm the practical benefit of learning projection matrices from data, achieving significantly higher solution quality than the existing random projection while greatly reducing the time for solving LPs.
翻訳日:2024-01-31 19:04:07 公開日:2024-01-30
# Recommender AI Agent:対話型レコメンデーションのための大規模言語モデルの統合

Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations ( http://arxiv.org/abs/2308.16505v3 )

ライセンス: Link先を確認
Xu Huang, Jianxun Lian, Yuxuan Lei, Jing Yao, Defu Lian, Xing Xie(参考訳) Recommenderモデルは、広範囲なユーザー行動データを活用することで、ドメイン固有のアイテムレコメンデーションを提供する。 軽量なドメインエキスパートとして振る舞う能力にもかかわらず、説明の提供や会話への参加といった多彩なタスクをこなすのに苦労しています。 一方、大規模言語モデル(LLM)は、命令理解、常識推論、ヒューマンインタラクションにおいて顕著な能力を示す、人工知能への重要な一歩である。 しかしながら、llmにはドメイン固有の項目カタログや行動パターンに関する知識が欠けている。 各領域の微調整 LLM は経済的でも効率的でもない。 本稿では,レコメンダモデルとLLMのギャップを埋め,それぞれの強みを組み合わせ,多目的かつ対話的なレコメンダシステムを構築する。 llmを脳として,レコメンダモデルをツールとして使用する,効率的なフレームワークである \textbf{interecagent} を導入する。 まず LLM を InteRecAgent に変換するために必要な,最小限のツールについて概説する。 次に、メモリコンポーネント、動的デモ強化タスク計画、リフレクションといった重要なコンポーネントを組み込んだタスク実行のためのInteRecAgent内の効率的なワークフローを提案する。 InteRecAgentは、これらのIDベースの行列因数分解モデルのような従来のレコメンデータシステムにおいて、LLMの統合を通じて自然言語インタフェースによる対話型システムを実現する。 InteRecAgentは対話型レコメンデータシステムとしての性能を達成し,汎用LLMよりも優れていた。 InteRecAgentのソースコードはhttps://aka.ms/recagent.comで公開されている。

Recommender models excel at providing domain-specific item recommendations by leveraging extensive user behavior data. Despite their ability to act as lightweight domain experts, they struggle to perform versatile tasks such as providing explanations and engaging in conversations. On the other hand, large language models (LLMs) represent a significant step towards artificial general intelligence, showcasing remarkable capabilities in instruction comprehension, commonsense reasoning, and human interaction. However, LLMs lack the knowledge of domain-specific item catalogs and behavioral patterns, particularly in areas that diverge from general world knowledge, such as online e-commerce. Finetuning LLMs for each domain is neither economic nor efficient. In this paper, we bridge the gap between recommender models and LLMs, combining their respective strengths to create a versatile and interactive recommender system. We introduce an efficient framework called \textbf{InteRecAgent}, which employs LLMs as the brain and recommender models as tools. We first outline a minimal set of essential tools required to transform LLMs into InteRecAgent. We then propose an efficient workflow within InteRecAgent for task execution, incorporating key components such as memory components, dynamic demonstration-augmented task planning, and reflection. InteRecAgent enables traditional recommender systems, such as those ID-based matrix factorization models, to become interactive systems with a natural language interface through the integration of LLMs. Experimental results on several public datasets show that InteRecAgent achieves satisfying performance as a conversational recommender system, outperforming general-purpose LLMs. The source code of InteRecAgent is released at https://aka.ms/recagent.
翻訳日:2024-01-31 19:03:31 公開日:2024-01-30
# 衛星マップによる搭載センサの補完:hdマップ構築のための新しい展望

Complementing Onboard Sensors with Satellite Map: A New Perspective for HD Map Construction ( http://arxiv.org/abs/2308.15427v3 )

ライセンス: Link先を確認
Wenjie Gao, Jiawei Fu, Yanqing Shen, Haodong Jing, Shitao Chen, Nanning Zheng(参考訳) 高精細(HD)マップは自動運転システムにおいて重要な役割を担っている。 近年,車載センサを用いたhdマップの構築が試みられている。 検出範囲に対する感度や近くの車両による閉塞に対する感受性など、車載センサの固有の制限のため、複雑なシナリオや長距離検出タスクにおいて、これらの手法の性能は著しく低下する。 本稿では,搭載センサを補完する衛星地図を用いて,HDマップ構築を促進する新しい視点について検討する。 まず,各サンプルのサテライトマップタイルをnuscenesで生成し,さらなる研究のために補足データセットを公開する。 衛星地図と既存の手法をよりよく統合するために,特徴レベルの融合とBEVレベルの融合を含む階層型融合モジュールを提案する。 マスクジェネレータとマスク付きクロスアテンション機構で構成された機能レベルの融合は、搭載センサーの機能を洗練するために使用される。 BEVレベルの融合は、搭載センサーから得られた特徴とアライメントモジュールによる衛星マップの座標差を緩和する。 拡張したnuScenesの実験結果は,既存の3つのHDマップ構築手法へのモジュールのシームレスな統合を示している。 衛星地図と提案モジュールは,HDマップセマンティックセグメンテーションとインスタンス検出タスクの両方において,その性能を著しく向上させる。

High-definition (HD) maps play a crucial role in autonomous driving systems. Recent methods have attempted to construct HD maps in real-time using vehicle onboard sensors. Due to the inherent limitations of onboard sensors, which include sensitivity to detection range and susceptibility to occlusion by nearby vehicles, the performance of these methods significantly declines in complex scenarios and long-range detection tasks. In this paper, we explore a new perspective that boosts HD map construction through the use of satellite maps to complement onboard sensors. We initially generate the satellite map tiles for each sample in nuScenes and release a complementary dataset for further research. To enable better integration of satellite maps with existing methods, we propose a hierarchical fusion module, which includes feature-level fusion and BEV-level fusion. The feature-level fusion, composed of a mask generator and a masked cross-attention mechanism, is used to refine the features from onboard sensors. The BEV-level fusion mitigates the coordinate differences between features obtained from onboard sensors and satellite maps through an alignment module. The experimental results on the augmented nuScenes showcase the seamless integration of our module into three existing HD map construction methods. The satellite maps and our proposed module notably enhance their performance in both HD map semantic segmentation and instance detection tasks.
翻訳日:2024-01-31 19:03:01 公開日:2024-01-30
# 領域一般化のための多層・多層コントラスト学習

Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization ( http://arxiv.org/abs/2308.14418v2 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 過去10年間、ディープニューラルネットワークは、学界と産業の両方において、急速に進歩し、コンピュータビジョンの問題に大きな成果をもたらしてきた。 しかし、その成功にもかかわらず、最先端の画像分類アプローチは、多くの現実世界のアプリケーションで要求されるように、これまで見えなかった視覚的コンテキストにおいてうまく一般化できない。 本稿では,この領域一般化(DG)問題に着目し,ネットワークの多層およびマルチスケール表現を活用することにより,深層畳み込みニューラルネットワークの一般化能力を向上できると主張している。 本稿では,低レベルの特徴と高レベルの特徴を複数スケールで組み合わせることで,画像分類器の領域一般化をめざすフレームワークを紹介し,その潜在空間における表現を暗黙的に歪め,表現対象のドメイン不変属性を学習することを可能にする。 さらに,より頑健な表現学習を促進するために,分布シフト下で不変な表現を制約することを目的とした,コントラスト学習に触発された新しい目的関数を提案する。 PACS, VLCS, Office-Home, NICOの領域一般化データセットを用いて, 本手法の有効性を示す。 大規模な実験を通して、我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。

During the past decade, deep neural networks have led to fast-paced progress and significant achievements in computer vision problems, for both academia and industry. Yet despite their success, state-of-the-art image classification approaches fail to generalize well in previously unseen visual contexts, as required by many real-world applications. In this paper, we focus on this domain generalization (DG) problem and argue that the generalization ability of deep convolutional neural networks can be improved by taking advantage of multi-layer and multi-scaled representations of the network. We introduce a framework that aims at improving domain generalization of image classifiers by combining both low-level and high-level features at multiple scales, enabling the network to implicitly disentangle representations in its latent space and learn domain-invariant attributes of the depicted objects. Additionally, to further facilitate robust representation learning, we propose a novel objective function, inspired by contrastive learning, which aims at constraining the extracted representations to remain invariant under distribution shifts. We demonstrate the effectiveness of our method by evaluating on the domain generalization datasets of PACS, VLCS, Office-Home and NICO. Through extensive experimentation, we show that our model is able to surpass the performance of previous DG methods and consistently produce competitive and state-of-the-art results in all datasets.
翻訳日:2024-01-31 19:02:41 公開日:2024-01-30
# TransGNN:リコメンダシステムのためのトランスフォーマーとグラフニューラルネットワークの協調力を損なう

TransGNN: Harnessing the Collaborative Power of Transformers and Graph Neural Networks for Recommender Systems ( http://arxiv.org/abs/2308.14355v2 )

ライセンス: Link先を確認
Peiyan Zhang, Yuchen Yan, Chaozhuo Li, Senzhang Wang, Xing Xie, Sunghun Kim(参考訳) グラフニューラルネットワーク(gnns)は,ユーザ-テーマインタラクショングラフのモデリングを通じて,協調フィルタリング(cf)の有望なソリューションとして浮上している。 既存のGNNベースのレコメンデータシステムの核となるのは、エンコードされた埋め込みを洗練させるために、ユーザとテムのインタラクションエッジに沿って再帰的なメッセージパッシングである。 これらの効果が実証されているにもかかわらず、現在のGNNベースの手法は、限られた受容領域の課題に直面する。 対照的に、Transformerベースの手法は、情報を適応的かつグローバルに集約する上で優れている。 それにもかかわらず、大規模な相互作用グラフへのそれらの応用は、固有の複雑さと複雑で絡み合った構造情報を取得する際の課題によって妨げられている。 本稿では,Transformer層とGNN層を統合して相互に機能を強化する新しいモデルであるTransGNNを提案する。 具体的には、TransGNNはTransformerレイヤを活用して、受容界を広げ、エッジから情報をアンタングルすることで、より関連するノードからの情報を集約し、GNNのメッセージパッシングを強化する。 さらに、グラフ構造情報を効果的にキャプチャするために、位置符号化をGNN層に微妙に設計して統合し、そのような構造知識をノード属性に符号化することにより、グラフ上のTransformerの性能を向上させる。 効率性の考慮は、トランスフォーマーの最も関連するノードのサンプリングと、複雑さを減らすための2つの効率的なサンプル更新戦略を提案することで緩和される。 さらに、理論解析により、TransGNNはGNNよりも表現性が高く、線形複雑性の限界的な増加しか示さない。 5つの公開データセットに関する大規模な実験は、TransGNNの有効性と効率を検証する。

Graph Neural Networks (GNNs) have emerged as promising solutions for collaborative filtering (CF) through the modeling of user-item interaction graphs. The nucleus of existing GNN-based recommender systems involves recursive message passing along user-item interaction edges to refine encoded embeddings. Despite their demonstrated effectiveness, current GNN-based methods encounter challenges of limited receptive fields and the presence of noisy ``interest-irrelevant'' connections. In contrast, Transformer-based methods excel in aggregating information adaptively and globally. Nevertheless, their application to large-scale interaction graphs is hindered by inherent complexities and challenges in capturing intricate, entangled structural information. In this paper, we propose TransGNN, a novel model that integrates Transformer and GNN layers in an alternating fashion to mutually enhance their capabilities. Specifically, TransGNN leverages Transformer layers to broaden the receptive field and disentangle information aggregation from edges, which aggregates information from more relevant nodes, thereby enhancing the message passing of GNNs. Additionally, to capture graph structure information effectively, positional encoding is meticulously designed and integrated into GNN layers to encode such structural knowledge into node attributes, thus enhancing the Transformer's performance on graphs. Efficiency considerations are also alleviated by proposing the sampling of the most relevant nodes for the Transformer, along with two efficient sample update strategies to reduce complexity. Furthermore, theoretical analysis demonstrates that TransGNN offers increased expressiveness compared to GNNs, with only a marginal increase in linear complexity. Extensive experiments on five public datasets validate the effectiveness and efficiency of TransGNN.
翻訳日:2024-01-31 19:02:17 公開日:2024-01-30
# ディープラーニングのためのポイントクラウドデータ拡張の進歩: 調査

Advancements in Point Cloud Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2308.12113v3 )

ライセンス: Link先を確認
Qinfeng Zhu, Lei Fan, Ningxin Weng(参考訳) ディープラーニング(DL)は、検出、セグメンテーション、分類などのポイントクラウド分析タスクにおいて、主流で効果的な方法の1つとなっている。 特にトレーニングデータの量や多様性が限られている場合には、トレーニングdlモデルのオーバーフィットを低減し、モデル性能を向上させることが重要である。 さまざまなポイントクラウドデータ拡張手法がさまざまなポイントクラウド処理タスクで広く使用されているが、現在、これらの手法の体系的な調査やレビューは公開されていない。 そこで本稿では,これらの手法を調査し,それらの複雑さのレベルに応じて,基本および先進的なクラウドデータ拡張手法を含む分類フレームワークに分類する。 これらの拡張法の包括的評価を通じて、本論文はそれらの可能性と限界を特定し、適切な拡張方法を選択するための有用な基準となる。 また,今後の研究の方向性も示唆されている。 この調査は、ポイントクラウドデータ拡張の現状の全体像を提供し、より広範なアプリケーションと開発を促進することに寄与します。

Deep learning (DL) has become one of the mainstream and effective methods for point cloud analysis tasks such as detection, segmentation and classification. To reduce overfitting during training DL models and improve model performance especially when the amount and/or diversity of training data are limited, augmentation is often crucial. Although various point cloud data augmentation methods have been widely used in different point cloud processing tasks, there are currently no published systematic surveys or reviews of these methods. Therefore, this article surveys these methods, categorizing them into a taxonomy framework that comprises basic and advanced point cloud data augmentation methods, according to their levels of complexity. Through a comprehensive evaluation of these augmentation methods, this article identifies their potentials and limitations, serving as a useful reference for choosing appropriate augmentation methods. In addition, potential directions for future research are recommended. This survey contributes to providing a holistic overview of the current state of point cloud data augmentation, promoting its wider application and development.
翻訳日:2024-01-31 19:01:50 公開日:2024-01-30
# clover: クローズドループ検証コード生成

Clover: Closed-Loop Verifiable Code Generation ( http://arxiv.org/abs/2310.17807v2 )

ライセンス: Link先を確認
Chuyue Sun, Ying Sheng, Oded Padon, Clark Barrett(参考訳) コード生成に大規模言語モデルを使用することは、ソフトウェア開発の急速な増加傾向である。 しかし、生成されたコードの正確性を保証する効果的な方法がなければ、この傾向は、望ましくない結果をもたらす可能性がある。 本稿では,この課題に対処するためのビジョンを述べる。cloverパラダイム(クローズドループ検証コード生成の略)は,一貫性チェックという課題に正確性チェックを還元するものだ。 Cloverの中核には、コード、ドキュストリング、フォーマルアノテーション間の一貫性チェックを実行するチェッカーがある。 このチェッカーは,形式検証ツールと大規模言語モデルの新たな統合によって実装されている。 我々は,cloverが一貫性チェックに効果的であるべきという仮説を支持する理論的分析を行う。 また,注記Dafnyプログラムを教科書の難易度で記述した手書きデータセット(CloverBench)の有効性を実証的に検討した。 実験の結果、このデータセットは 一 LLM は、形式仕様を自動生成するのに適当に成功し、 (ii)一貫性チェッカーは、不正なインスタンスに対する許容度(偽陽性なし)を維持しつつ、正しいインスタンスに対する有望な受け入れ率(最大87%)を達成します。

The use of large language models for code generation is a rapidly growing trend in software development. However, without effective methods for ensuring the correctness of generated code, this trend could lead to any number of undesirable outcomes. In this paper, we lay out a vision for addressing this challenge: the Clover paradigm, short for Closed-Loop Verifiable Code Generation, which reduces correctness checking to the more accessible problem of consistency checking. At the core of Clover lies a checker that performs consistency checks among code, docstrings, and formal annotations. The checker is implemented using a novel integration of formal verification tools and large language models. We provide a theoretical analysis to support our thesis that Clover should be effective at consistency checking. We also empirically investigate its feasibility on a hand-designed dataset (CloverBench) featuring annotated Dafny programs at a textbook level of difficulty. Experimental results show that for this dataset, (i) LLMs are reasonably successful at automatically generating formal specifications; and (ii) our consistency checker achieves a promising acceptance rate (up to 87%) for correct instances while maintaining zero tolerance for incorrect ones (no false positives).
翻訳日:2024-01-31 18:55:31 公開日:2024-01-30
# 大規模言語モデルのためのワンショット感度認識混合スパルシティプラニング

One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models ( http://arxiv.org/abs/2310.09499v2 )

ライセンス: Link先を確認
Hang Shao, Bei Liu, Yanmin Qian(参考訳) Generative Pretrained Transformer~(GPT)ファミリーの様々な大規模言語モデル(LLM)は、幅広いテキスト生成タスクにおいて優れたパフォーマンスを実現している。 しかし、膨大なモデルサイズは、高い推論遅延のため、現実のアプリケーションでの使用を妨げている。 したがって, LLM の量子化, プルーニング, その他の手法による効率性の向上は, LLM 研究において重要な課題となっている。 本研究では,リトレーニングを必要とせず,少なくとも 50 % のスパルシティにprune llm に散布する hessian sensitivity-aware mixed sparsity pruning に基づく手法を提案する。 感度に基づいて空間を適応的に割り当てることで、全体空間レベルを維持しながらプルーニングによる誤差を低減することができる。 提案手法の利点は, 空間が極めて高い場合にさらに顕著である。 さらに,本手法は量子化と互換性があり,LLMのさらなる圧縮が可能となる。

Various Large Language Models(LLMs) from the Generative Pretrained Transformer~(GPT) family have achieved outstanding performances in a wide range of text generation tasks. However, the enormous model sizes have hindered their practical use in real-world applications due to high inference latency. Therefore, improving the efficiencies of LLMs through quantization, pruning, and other means has been a key issue in LLM studies. In this work, we propose a method based on Hessian sensitivity-aware mixed sparsity pruning to prune LLMs to at least 50\% sparsity without the need of any retraining. It allocates sparsity adaptively based on sensitivity, allowing us to reduce pruning-induced error while maintaining the overall sparsity level. The advantages of the proposed method exhibit even more when the sparsity is extremely high. Furthermore, our method is compatible with quantization, enabling further compression of LLMs.
翻訳日:2024-01-31 18:55:09 公開日:2024-01-30
# データ中心のグラフ学習:調査

Data-centric Graph Learning: A Survey ( http://arxiv.org/abs/2310.04987v2 )

ライセンス: Link先を確認
Yuxin Guo, Deyu Bo, Cheng Yang, Zhiyuan Lu, Zhongjian Zhang, Jixi Liu, Yufei Peng, Chuan Shi(参考訳) 人工知能(AI)の歴史は、ImageNet for AlexNetやResNetなど、さまざまなディープラーニングモデルに対する高品質なデータの影響を目撃している。 近年、より複雑なニューラルアーキテクチャをモデル中心のアプローチとして設計する代わりに、AIコミュニティの注目はデータ中心のアーキテクチャへとシフトし、ニューラルネットワークの能力を強化するためのデータ処理の改善に注力している。 ユビキタスなトポロジカルデータを扱うグラフ学習も,ディープラーニングの時代において重要な役割を担っている。 本研究では,データ中心の観点からグラフ学習のアプローチを総合的に検討し,(1)グラフデータの修正時期,(2)グラフデータのどの部分が様々なグラフモデルの可能性を解き放つ必要があるか,(3)問題のあるデータの影響からグラフモデルをいかに保護するか,という3つの重要な質問に答える。 そこで本研究では,グラフ学習パイプラインの段階に基づく新しい分類法を提案し,グラフデータ中の異なるデータ構造,すなわちトポロジー,特徴,ラベルの処理方法を強調する。 さらに,グラフデータに埋め込まれた潜在的な問題を解析し,データ中心の方法で解く方法について議論する。 最後に,データ中心グラフ学習の今後の方向性について述べる。

The history of artificial intelligence (AI) has witnessed the significant impact of high-quality data on various deep learning models, such as ImageNet for AlexNet and ResNet. Recently, instead of designing more complex neural architectures as model-centric approaches, the attention of AI community has shifted to data-centric ones, which focuses on better processing data to strengthen the ability of neural models. Graph learning, which operates on ubiquitous topological data, also plays an important role in the era of deep learning. In this survey, we comprehensively review graph learning approaches from the data-centric perspective, and aim to answer three crucial questions: (1) when to modify graph data, (2) what part of the graph data needs modification to unlock the potential of various graph models, and (3) how to safeguard graph models from problematic data influence. Accordingly, we propose a novel taxonomy based on the stages in the graph learning pipeline, and highlight the processing methods for different data structures in the graph data, i.e., topology, feature and label. Furthermore, we analyze some potential problems embedded in graph data and discuss how to solve them in a data-centric manner. Finally, we provide some promising future directions for data-centric graph learning.
翻訳日:2024-01-31 18:54:54 公開日:2024-01-30
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v6 )

ライセンス: Link先を確認
Siyu Ren, Zhiyong Wu, Kenny Q. Zhu(参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。 それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。 しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。 その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。 本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。 EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。 直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。 EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。 EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。 さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。 これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。

Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models.
翻訳日:2024-01-31 18:54:35 公開日:2024-01-30
# X-Transfer: GAN生成フェイク画像検出のためのトランスファー学習フレームワーク

X-Transfer: A Transfer Learning-Based Framework for GAN-Generated Fake Image Detection ( http://arxiv.org/abs/2310.04639v2 )

ライセンス: Link先を確認
Lei Zhang, Hao Chen, Shu Hu, Bin Zhu, Ching Sheng Lin, Xi Wu, Jinrong Hu, Xin Wang(参考訳) generative adversarial networks (gans) は様々な分野、特に画像の生成や編集において著しく進歩している。 しかし、顔置換などの偽画像生成におけるGANの誤用は、重大なセキュリティ上の懸念を引き起こし、広く注目を集めている。 そのため,実画像と偽画像を区別するための効果的な検出手法の開発が急務である。 転写学習の応用を中心に研究が進められている。 それでも、トレーニング中に不均衡なデータを扱う場合、元のデータセットから忘れられた知識や不十分なパフォーマンスといった課題に遭遇する。 そこで本研究では, 並列勾配伝送を用いた2つのニューラルネットワークを用いて, 転送学習を向上する, X-Transferと呼ばれる新しいGAN生成画像検出アルゴリズムを提案する。 さらに,auc損失とクロスエントロピー損失を組み合わせることで,モデルの性能を向上させる。 複数の顔画像データセットに関する総合的な実験を行う。 その結果、我々のモデルは一般的な転送手法よりも優れており、最良の測定値は99.04%向上し、約10%向上した。 さらに,非面データセットにおいて優れた性能を示し,その汎用性とより広い応用可能性を検証する。

Generative adversarial networks (GANs) have remarkably advanced in diverse domains, especially image generation and editing. However, the misuse of GANs for generating deceptive images, such as face replacement, raises significant security concerns, which have gained widespread attention. Therefore, it is urgent to develop effective detection methods to distinguish between real and fake images. Current research centers around the application of transfer learning. Nevertheless, it encounters challenges such as knowledge forgetting from the original dataset and inadequate performance when dealing with imbalanced data during training. To alleviate this issue, this paper introduces a novel GAN-generated image detection algorithm called X-Transfer, which enhances transfer learning by utilizing two neural networks that employ interleaved parallel gradient transmission. In addition, we combine AUC loss and cross-entropy loss to improve the model's performance. We carry out comprehensive experiments on multiple facial image datasets. The results show that our model outperforms the general transferring approach, and the best metric achieves 99.04%, which is increased by approximately 10%. Furthermore, we demonstrate excellent performance on non-face datasets, validating its generality and broader application prospects.
翻訳日:2024-01-31 18:54:14 公開日:2024-01-30
# 三面ハイブリッドニューラルフィールドのニューラルプロセッシング

Neural Processing of Tri-Plane Hybrid Neural Fields ( http://arxiv.org/abs/2310.01140v3 )

ライセンス: Link先を確認
Adriano Cardace, Pierluigi Zama Ramirez, Francesco Ballerini, Allan Zhou, Samuele Salti, Luigi Di Stefano(参考訳) 3Dデータの保存と通信のためのニューラルネットワークの魅力によって、分類や部分分割といったタスクに対処するための直接処理の問題が出現し、近年研究が進められている。 初期のアプローチでは、データセット全体でトレーニングされた共有ネットワークによってパラメータ化されたニューラルネットワークを採用し、優れたタスクパフォーマンスを実現しつつ、再構成品質を犠牲にしている。 後者の改良のために、後の手法では、大きな多層パーセプトロン(mlps)としてパラメータ化された個々の神経場に焦点を当てているが、重み空間の高次元、内在的な重み空間対称性、ランダム初期化に対する感受性のため、処理が困難である。 したがって、ポイントクラウドやメッシュといった明示的な表現を処理することで得られる結果よりも、結果が著しく劣ることがわかった。 一方、特に三面体に基づくハイブリッド表現は、ニューラルネットワークを実現するためのより効率的で効率的な代替手段として現れてきたが、その直接処理はまだ研究されていない。 本稿では,三平面離散データ構造がリッチな情報を符号化し,標準ディープラーニング機械で効果的に処理できることを示す。 我々は、占有率、符号付き/符号なし距離、および初めて放射場などの様々な分野をカバーする広範囲なベンチマークを定義する。 同じ再構成品質のフィールドを処理する一方で、大規模なMLPを処理するフレームワークよりもはるかに優れたタスク性能を実現しています。

Driven by the appealing properties of neural fields for storing and communicating 3D data, the problem of directly processing them to address tasks such as classification and part segmentation has emerged and has been investigated in recent works. Early approaches employ neural fields parameterized by shared networks trained on the whole dataset, achieving good task performance but sacrificing reconstruction quality. To improve the latter, later methods focus on individual neural fields parameterized as large Multi-Layer Perceptrons (MLPs), which are, however, challenging to process due to the high dimensionality of the weight space, intrinsic weight space symmetries, and sensitivity to random initialization. Hence, results turn out significantly inferior to those achieved by processing explicit representations, e.g., point clouds or meshes. In the meantime, hybrid representations, in particular based on tri-planes, have emerged as a more effective and efficient alternative to realize neural fields, but their direct processing has not been investigated yet. In this paper, we show that the tri-plane discrete data structure encodes rich information, which can be effectively processed by standard deep-learning machinery. We define an extensive benchmark covering a diverse set of fields such as occupancy, signed/unsigned distance, and, for the first time, radiance fields. While processing a field with the same reconstruction quality, we achieve task performance far superior to frameworks that process large MLPs and, for the first time, almost on par with architectures handling explicit representations.
翻訳日:2024-01-31 18:53:33 公開日:2024-01-30
# 動的因果関係をもつ解釈可能な模倣学習

Interpretable Imitation Learning with Dynamic Causal Relations ( http://arxiv.org/abs/2310.00489v4 )

ライセンス: Link先を確認
Tianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang, Yuncong Chen, Yanchi Liu, Wei Cheng, Haifeng Chen(参考訳) 専門家のデモンストレーションを模倣してエージェントポリシーを学ぶImitation Learningは、医療制度や自動運転車など多くの応用において有望な結果を示している。 しかし,エージェントが学習した制御方針を解釈することは依然として難しい課題である。 困難は主に2つの側面から生じる。 1)模倣学習のエージェントは通常,ブラックボックスモデルであり,解釈性に欠けるディープニューラルネットワークとして実装される。 2) エージェントの判断の背景にある因果的メカニズムは, 時間経過を通じて静的に留まるのではなく, 軌道に沿って変化する可能性がある。 透明性を高め,ニューラルネットワークの解釈可能性を高めるために,ノードが動作し,状態変数とエッジが予測の背後にある因果関係を示すような,有向非巡回因果グラフの形で取得した知識を公開することを提案する。 さらに,この因果発見プロセスを状態依存的に設計し,潜在因果グラフのダイナミクスをモデル化する。 具体的には, グレンジャー因果関係の観点から因果関係の発見を行い, 自己説明可能な模倣学習フレームワーク, {\method} を提案する。 提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。 モデルが学習されると、その決定の背後にある状態と行動変数間の因果関係が得られ、そこから学んだポリシーを公開する。 合成および実世界の両方のデータセットに対する実験結果から,提案手法の動的因果グラフ学習における有効性を示し,予測精度を高く保ちながら模倣学習の意思決定を理解する。

Imitation learning, which learns agent policy by mimicking expert demonstration, has shown promising results in many applications such as medical treatment regimes and self-driving vehicles. However, it remains a difficult task to interpret control policies learned by the agent. Difficulties mainly come from two aspects: 1) agents in imitation learning are usually implemented as deep neural networks, which are black-box models and lack interpretability; 2) the latent causal mechanism behind agents' decisions may vary along the trajectory, rather than staying static throughout time steps. To increase transparency and offer better interpretability of the neural agent, we propose to expose its captured knowledge in the form of a directed acyclic causal graph, with nodes being action and state variables and edges denoting the causal relations behind predictions. Furthermore, we design this causal discovery process to be state-dependent, enabling it to model the dynamics in latent causal graphs. Concretely, we conduct causal discovery from the perspective of Granger causality and propose a self-explainable imitation learning framework, {\method}. The proposed framework is composed of three parts: a dynamic causal discovery module, a causality encoding module, and a prediction module, and is trained in an end-to-end manner. After the model is learned, we can obtain causal relations among states and action variables behind its decisions, exposing policies learned by it. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of the proposed {\method} in learning the dynamic causal graphs for understanding the decision-making of imitation learning meanwhile maintaining high prediction accuracy.
翻訳日:2024-01-31 18:52:43 公開日:2024-01-30
# ニューラルネットワークの潜在表現におけるadversarial machine learning

Adversarial Machine Learning in Latent Representations of Neural Networks ( http://arxiv.org/abs/2309.17401v3 )

ライセンス: Link先を確認
Milin Zhang, Mohammad Abdi and Francesco Restuccia(参考訳) 分散ディープニューラルネットワーク(DNN)は、モバイルデバイスの計算負担を低減し、エッジコンピューティングシナリオにおけるエンドツーエンドの推論レイテンシを低減することが示されている。 分散DNNは研究されているが、我々の知る限り、分散DNNの敵行動に対するレジリエンスは依然として未解決の問題である。 本稿では,分散DNNの対戦行動に対する堅牢性を厳密に分析することにより,既存の研究ギャップを埋める。 情報理論の文脈でこの問題を提起し、歪みと頑健性に関する2つの新しい測定基準を導入する。 理論的には (i)同じレベルの情報歪みを仮定すると、潜時特徴は入力表現よりも常に堅牢である。 (II) DNNの特徴次元と一般化能力により, 対向ロバスト性は共同で決定される。 理論的知見を検証するために,6つの異なるDNNアーキテクチャ,分散DNNに対する6つの異なるアプローチ,ImageNet-1Kデータセットに対する10の異なる敵攻撃について検討した。 実験の結果, 圧縮潜在表現は, 入力空間に対する攻撃と比較して, 最大88%, 平均57%, 敵攻撃の成功率を低下させることを示した。

Distributed deep neural networks (DNNs) have been shown to reduce the computational burden of mobile devices and decrease the end-to-end inference latency in edge computing scenarios. While distributed DNNs have been studied, to the best of our knowledge the resilience of distributed DNNs to adversarial action still remains an open problem. In this paper, we fill the existing research gap by rigorously analyzing the robustness of distributed DNNs against adversarial action. We cast this problem in the context of information theory and introduce two new measurements for distortion and robustness. Our theoretical findings indicate that (i) assuming the same level of information distortion, latent features are always more robust than input representations; (ii) the adversarial robustness is jointly determined by the feature dimension and the generalization capability of the DNN. To test our theoretical findings, we perform extensive experimental analysis by considering 6 different DNN architectures, 6 different approaches for distributed DNN and 10 different adversarial attacks to the ImageNet-1K dataset. Our experimental results support our theoretical findings by showing that the compressed latent representations can reduce the success rate of adversarial attacks by 88% in the best case and by 57% on the average compared to attacks to the input space.
翻訳日:2024-01-31 18:52:15 公開日:2024-01-30
# InSpaceType:屋内単眼深度推定における再考型空間型

InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation ( http://arxiv.org/abs/2309.13516v2 )

ライセンス: Link先を確認
Cho-Ying Wu, Quankai Gao, Chin-Cheng Hsu, Te-Lin Wu, Jing-Wen Chen, Ulrich Neumann(参考訳) 屋内の単眼深度推定は研究の関心を集めている。 これまでのほとんどの研究は方法論に重点を置いており、主にNYU-Depth-V2(NYUv2)データセットを実験し、テストセット全体のパフォーマンスにのみ集中していた。 しかし、ライブラリやキッチンのような非常に多様で多彩な関数型 \textit{space types} が存在する実世界のシナリオに単眼的深さ推定法を適用する場合、堅牢性や一般化についてはほとんど知られていない。 事前学習したモデルの性能ばらつきを実現するためには,空間型の性能破壊に関する研究が不可欠である。 従来の作業の堅牢性や限界への対処を容易にするため,一般屋内環境のための高品質かつ高解像度なRGBDデータセットInSpaceTypeを収集した。 我々は、inspacetypeに関する最近の12のメソッドをベンチマークし、スペースタイプに関するパフォーマンスの不均衡に苦しむことを発見した。 分析は、他の4つのデータセット、3つの緩和アプローチ、未発見の空間型に一般化する能力に拡張します。 本研究は,室内単眼深度推定における空間タイプ間の性能不均衡を初めて詳細に検討し,空間タイプを考慮せずにモデル展開の安全性を懸念し,さらにロバスト性を改善する可能性に光を当てるものである。 データと補足文書については \url{https://depthcomputation.github.io/depthpublic} を参照。 githubプロジェクトページにあるベンチマークリストは、最下位の単眼深度推定メソッドの更新を保持する。

Indoor monocular depth estimation has attracted increasing research interest. Most previous works have been focusing on methodology, primarily experimenting with NYU-Depth-V2 (NYUv2) Dataset, and only concentrated on the overall performance over the test set. However, little is known regarding robustness and generalization when it comes to applying monocular depth estimation methods to real-world scenarios where highly varying and diverse functional \textit{space types} are present such as library or kitchen. A study for performance breakdown into space types is essential to realize a pretrained model's performance variance. To facilitate our investigation for robustness and address limitations of previous works, we collect InSpaceType, a high-quality and high-resolution RGBD dataset for general indoor environments. We benchmark 12 recent methods on InSpaceType and find they severely suffer from performance imbalance concerning space types, which reveals their underlying bias. We extend our analysis to 4 other datasets, 3 mitigation approaches, and the ability to generalize to unseen space types. Our work marks the first in-depth investigation of performance imbalance across space types for indoor monocular depth estimation, drawing attention to potential safety concerns for model deployment without considering space types, and further shedding light on potential ways to improve robustness. See \url{https://depthcomputation.github.io/DepthPublic} for data and the supplementary document. The benchmark list on the GitHub project page keeps updates for the lastest monocular depth estimation methods.
翻訳日:2024-01-31 18:51:33 公開日:2024-01-30
# コード翻訳モデルの機能的特性の自動テスト

Automatically Testing Functional Properties of Code Translation Models ( http://arxiv.org/abs/2309.12813v2 )

ライセンス: Link先を確認
Hasan Ferit Eniser, Valentin W\"ustholz, Maria Christakis(参考訳) 大規模な言語モデルは、$transpiling$として知られるプログラム言語間のコード翻訳において、ますます実用的になりつつある。 自動トランスパイルは開発者の生産性を大幅に向上させるが、重要な懸念は生成されたコードが正しいかどうかである。 既存の作業は、最初は手作業によるテストスイートを使用して小さなプログラムの翻訳をテストしたが、これらのテストスイートは後に自動化された。 対照的に、コード翻訳モデルの自動化、機能、プロパティベースのテストのための最初のアプローチを考案する。 トランスパイルされたコードに関する一般的なユーザ提供の仕様は、純粋に構文から純粋に意味的なものまで、さまざまなプロパティをキャプチャします。 実験により示すように、この手法は、一般的なコード翻訳モデルにおけるプロパティ違反の検出に非常に有効であり、従って、与えられた特性に対するモデル品質の評価にも有効である。 さらに私たちは、ユーザがモデル全体の品質を気にせずに、特定のプロパティに関して、あるコードの正しい翻訳を得ることを単に目的とする、使用シナリオについても検討しています。 この目的のために, コード翻訳モデルに対して, モデルにわずかに異なるパラメータを繰り返し問い合わせて, 代替的かつより正確な翻訳を生成する, 特性誘導型探索法を開発した。 以上の結果から,この検索手法はコード翻訳の精度が著しく向上することが示唆された。

Large language models are becoming increasingly practical for translating code across programming languages, a process known as $transpiling$. Even though automated transpilation significantly boosts developer productivity, a key concern is whether the generated code is correct. Existing work initially used manually crafted test suites to test the translations of a small corpus of programs; these test suites were later automated. In contrast, we devise the first approach for automated, functional, property-based testing of code translation models. Our general, user-provided specifications about the transpiled code capture a range of properties, from purely syntactic to purely semantic ones. As shown by our experiments, this approach is very effective in detecting property violations in popular code translation models, and therefore, in evaluating model quality with respect to given properties. We also go a step further and explore the usage scenario where a user simply aims to obtain a correct translation of some code with respect to certain properties without necessarily being concerned about the overall quality of the model. To this purpose, we develop the first property-guided search procedure for code translation models, where a model is repeatedly queried with slightly different parameters to produce alternative and potentially more correct translations. Our results show that this search procedure helps to obtain significantly better code translations.
翻訳日:2024-01-31 18:51:05 公開日:2024-01-30
# 大規模言語モデル時代の創造性支援--創発的作家を巻き込んだ実証的研究

Creativity Support in the Age of Large Language Models: An Empirical Study Involving Emerging Writers ( http://arxiv.org/abs/2309.12570v3 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Vishakh Padmakumar, Faeze Brahman, Smaranda Muresan(参考訳) 大規模言語モデル(llm)の開発は、命令に従うことができ、会話的な対話に関与できるようになり、様々なサポートツールへの利用への関心が高まった。 経験的ユーザスタディ (n=30) を通じて, プロのライターを支援するための現代LLMの有用性について検討する。 協調的な筆記インタフェースの設計は、書記を非線形認知活動(計画、翻訳、レビュー)を含む目標志向の思考プロセスとして考えることの認知プロセスモデルに根ざしている。 参加者は、LLMの潜在的および落とし穴に関するフィードバックを共同執筆者として提供するために、完成後調査を提出するよう求められている。 著者とLLMの相互作用を分析すると,LLMが3種類の認知活動にまたがって助けを求める一方で,LLMが翻訳やレビューに有用であることが分かる。 LLMを用いた創造的執筆支援における今後の研究の方向性を明らかにするために,インタラクションと調査回答の両方を分析した。

The development of large language models (LLMs) capable of following instructions and engaging in conversational interactions sparked increased interest in their utilization across various support tools. We investigate the utility of modern LLMs in assisting professional writers via an empirical user study (n=30). The design of our collaborative writing interface is grounded in the cognitive process model of writing that views writing as a goal-oriented thinking process encompassing non-linear cognitive activities: planning, translating, and reviewing. Participants are asked to submit a post-completion survey to provide feedback on the potential and pitfalls of LLMs as writing collaborators. Upon analyzing the writer-LLM interactions, we find that while writers seek LLM's help across all three types of cognitive activities, they find LLMs more helpful in translation and reviewing. Our findings from analyzing both the interactions and the survey responses highlight future research directions in creative writing assistance using LLMs.
翻訳日:2024-01-31 18:50:46 公開日:2024-01-30
# シークエンシャルレコメンデーションにおける差分プライバシーを目指して:ノイズの多いグラフニューラルネットワークアプローチ

Towards Differential Privacy in Sequential Recommendation: A Noisy Graph Neural Network Approach ( http://arxiv.org/abs/2309.11515v2 )

ライセンス: Link先を確認
Wentao Hu, Hui Fang(参考訳) さまざまなオンラインプラットフォームで高名なプライバシー侵害の頻度が高まる中、ユーザはプライバシに対する懸念が高まっている。 パーソナライズされたサービスを提供するオンラインプラットフォームの中核的なコンポーネントであるレコメンダシステムは、プライバシー保護に大きな注目を集めている。 プライバシ保護の黄金の標準として、ディファレンシャルプライバシはレコメンダシステムにおけるプライバシを保護するために広く採用されている。 しかし、既存の微分プライベートリコメンダシステムは静的相互作用と独立相互作用のみを考慮するため、振る舞いが動的で依存的な逐次レコメンデーションには適用できない。 一方、機密性の高いユーザー機能のプライバシーリスクにはほとんど注意が払われていない。 本稿では,これらの制約に対処するために,ノイズの多いグラフニューラルネットワークアプローチ(dipsgnn)を用いた,差分プライベートなシーケンシャルレコメンデーションフレームワークを提案する。 私たちの知識を最大限に活用するために、我々は、依存する相互作用を伴うシーケンシャルなレコメンデーションにおいて、初めて差分プライバシーを達成する。 具体的には、DIPSGNNでは、まず機密性の高いユーザ機能を保護するために、断片的なメカニズムを活用します。 そこで我々は,アグリゲーション摂動機構に基づくグラフニューラルネットワークのアグリゲーションステップにキャリブレーションノイズを革新的に付加する。 そしてこのノイズの多いグラフニューラルネットワークは、順次依存するインタラクションを保護し、ユーザの好みを同時にキャプチャする。 広汎な実験は、プライバシーと精度のバランスの良さの観点から、最先端の微分プライベートレコメンデータシステムよりも優れていることを示す。

With increasing frequency of high-profile privacy breaches in various online platforms, users are becoming more concerned about their privacy. And recommender system is the core component of online platforms for providing personalized service, consequently, its privacy preservation has attracted great attention. As the gold standard of privacy protection, differential privacy has been widely adopted to preserve privacy in recommender systems. However, existing differentially private recommender systems only consider static and independent interactions, so they cannot apply to sequential recommendation where behaviors are dynamic and dependent. Meanwhile, little attention has been paid on the privacy risk of sensitive user features, most of them only protect user feedbacks. In this work, we propose a novel DIfferentially Private Sequential recommendation framework with a noisy Graph Neural Network approach (denoted as DIPSGNN) to address these limitations. To the best of our knowledge, we are the first to achieve differential privacy in sequential recommendation with dependent interactions. Specifically, in DIPSGNN, we first leverage piecewise mechanism to protect sensitive user features. Then, we innovatively add calibrated noise into aggregation step of graph neural network based on aggregation perturbation mechanism. And this noisy graph neural network can protect sequentially dependent interactions and capture user preferences simultaneously. Extensive experiments demonstrate the superiority of our method over state-of-the-art differentially private recommender systems in terms of better balance between privacy and accuracy.
翻訳日:2024-01-31 18:50:30 公開日:2024-01-30
# 接地言語モデルにおける知識ベースへのデータ分散基盤

Data Distribution Bottlenecks in Grounding Language Models to Knowledge Bases ( http://arxiv.org/abs/2309.08345v2 )

ライセンス: Link先を確認
Yiheng Shu, Zhiwei Yu(参考訳) 言語モデル(lms)はすでに自然言語と形式言語の両方を理解し、生成する顕著な能力を示している。 これらの進歩にもかかわらず、大規模知識ベース(kbs)のような実世界の環境との統合は未開発の領域であり、意味解析や「幻覚的」な情報の利用といったアプリケーションに影響を与える。 本稿では,知識ベース質問応答 (KBQA) のタスクにおいて,LMが直面する堅牢性の課題を明らかにすることを目的とした実験的研究である。 この調査は、トレーニングと推論の間の一貫性のないデータ分散、例えば、未認識のドメインへの一般化、さまざまな言語のバリエーションへの適応、異なるデータセット間の転送可能性といったシナリオをカバーする。 包括的実験により,提案するデータ拡張手法を用いても,先進的な小・大規模言語モデルでは様々な面で性能が低下することが判明した。 LMは有望な技術である一方、複雑な環境を扱う際の現在の形態の堅牢性は、データ分散の問題により脆弱で、実用性は限られている。 これは、データ収集とLM学習パラダイムに関する将来の研究を要求する。

Language models (LMs) have already demonstrated remarkable abilities in understanding and generating both natural and formal language. Despite these advances, their integration with real-world environments such as large-scale knowledge bases (KBs) remains an underdeveloped area, affecting applications such as semantic parsing and indulging in "hallucinated" information. This paper is an experimental investigation aimed at uncovering the robustness challenges that LMs encounter when tasked with knowledge base question answering (KBQA). The investigation covers scenarios with inconsistent data distribution between training and inference, such as generalization to unseen domains, adaptation to various language variations, and transferability across different datasets. Our comprehensive experiments reveal that even when employed with our proposed data augmentation techniques, advanced small and large language models exhibit poor performance in various dimensions. While the LM is a promising technology, the robustness of the current form in dealing with complex environments is fragile and of limited practicality because of the data distribution issue. This calls for future research on data collection and LM learning paradims.
翻訳日:2024-01-31 18:49:40 公開日:2024-01-30
# 学術雑誌のマニュアル作成におけるAI利用の認識と検出

Perceptions and Detection of AI Use in Manuscript Preparation for Academic Journals ( http://arxiv.org/abs/2311.14720v2 )

ライセンス: Link先を確認
Nir Chemaya and Daniel Martin(参考訳) ChatGPTやBardといったツールを駆使したLarge Language Models(LLMs)の創発的な能力は、AIが学術的な文章にどう影響するかという興奮と心配の両方を生み出した。 ai利用に関する懸念が高まる中、学術出版物の著者は自発的に原稿の改訂に使用するaiツールを開示し、ジャーナルやカンファレンスは開示の義務付けや検出サービスの利用を開始する可能性がある。 こうした略奪的可能性を踏まえ、学術者は、原稿作成におけるAIの使用を報告する必要があるとみなし、検出器が学術著作におけるAIの使用にどう反応するかを調査する。

The emergent abilities of Large Language Models (LLMs), which power tools like ChatGPT and Bard, have produced both excitement and worry about how AI will impact academic writing. In response to rising concerns about AI use, authors of academic publications may decide to voluntarily disclose any AI tools they use to revise their manuscripts, and journals and conferences could begin mandating disclosure and/or turn to using detection services, as many teachers have done with student writing in class settings. Given these looming possibilities, we investigate whether academics view it as necessary to report AI use in manuscript preparation and how detectors react to the use of AI in academic writing.
翻訳日:2024-01-31 18:42:52 公開日:2024-01-30
# 分散光フォノンに結合した電子系における光双極子

Light bipolarons in a system of electrons coupled to dispersive optical phonons ( http://arxiv.org/abs/2311.12403v2 )

ライセンス: Link先を確認
K. Kova\v{c}, J. Bon\v{c}a(参考訳) 量子分散光フォノンに結合したバイポーラロンの基底状態特性をホルシュタイン-ハッバードモデルで検討した。 我々は, フォノン分散とクーロン反発の相互作用と, バイポーラロン有効質量, 結合エネルギー, 相図に対する相互効果に注目した。 もっとも驚くべきことに、光フォノン分散の曲率の兆候は、クーロン反発(英語版)$U$の存在下でバイポーラロン結合エネルギーに決定的な役割を果たす。 特に、フォノン分散曲率の符号が電子分散曲率の符号と一致するとき、u\to \infty$ と結合が隣接する2つの電子間のフォノンの交換から生じる場合でも、バイポーラロンは強い結合限界に縛られる。 適度な電子-フォノン結合では、光バイポーラロンはU$の値まで存在する。 最後に、バイポーラロン結合エネルギーにおけるフォノン分散の役割の直感的な説明は、結合が隣接する部位に存在する2つの電子間のフォノンの交換から生じる強い結合限界を用いて導かれる。

We investigate the ground state properties of the bipolaron coupled to quantum dispersive optical phonons in the one-dimensional Holstein-Hubbard model. We concentrate on the interplay between the phonon dispersion and the Coulomb repulsion and their mutual effect on the bipolaron effective mass, the binding energy, and the phase diagram. Most surprisingly, the sign of the curvature of the optical phonon dispersion plays a decisive role on the bipolaron binding energy in the presence of the Coulomb repulsion $U$. In particular, when the sign of the phonon dispersion curvature matches the sign of the electron dispersion curvature, the bipolaron remains bound in the strong coupling limit even when $U\to \infty$ and the binding emanates from the exchange of phonons between two electrons residing on adjacent sites. At moderate electron-phonon coupling a light bipolaron exists up to large values of $U$. Finally, an intuitive explanation of the role of the phonon dispersion on the bipolaron binding energy is derived using the strong coupling limit where the binding emanates from the exchange of phonons between two electrons residing on adjacent sites which leads to enhanced stability of bipolarons at elevated Coulomb repulsion.
翻訳日:2024-01-31 18:42:37 公開日:2024-01-30
# AGIシステムのためのメタプロンプティング

Meta Prompting for AGI Systems ( http://arxiv.org/abs/2311.11482v3 )

ライセンス: Link先を確認
Yifan Zhang(参考訳) 本稿では,大規模言語モデル(llms),マルチモーダル基礎モデル,およびaiシステムを用いた問題解決とデータ解釈の革新的手法であるメタプロンプトの包括的研究について述べる。 型理論とカテゴリ理論に基礎を置き、メタプロンピングは従来のコンテンツ中心の手法よりも情報の構造と構文を強調している。 本稿では,メタプロンプティング(MP)の形式的定義を探求し,Few-Shot Promptingとは分離し,さまざまなAIアプリケーションにおけるその有効性を明らかにする。 重要な焦点は、複雑な推論(MP-CR)タスクにMeta Promptingを適用することであり、複雑な問題をより単純なサブプロブレムに効果的に分解し、トークン効率を向上し、より公平な問題解決比較を可能にする。 さらに,LLMが再帰的,メタプログラミング的な方法で新たなプロンプトを自己生成できるメタプロンプトを提案する。 このアプローチは、AIの自律性と適応性において大きな飛躍となる。 本稿では,Meta Promptingのマルチモーダル基盤モデル設定への統合についても紹介し,構造化Meta Promptingフレームワークに画像,オーディオ,ビデオなどのさまざまなデータ型を組み込む上での課題と機会について述べる。 24のゲーム」の問題解決を含む実証実験では、MP-CRエージェントの推論能力の強化、高い精度と効率の達成、メタプロンプティングのAI問題解決への変革的影響を示す。 (コードはhttps://github.com/meta-prompting/meta-promptingで利用可能)。

This paper presents a comprehensive study of Meta Prompting, an innovative technique reshaping the utilization of large language models (LLMs), multi-modal foundation models, and AI systems in problem-solving and data interpretation. Grounded in type theory and category theory, Meta Prompting emphasizes the structure and syntax of information over traditional content-centric methods. The paper explores the formal definitions of Meta Prompting (MP), sets it apart from Few-Shot Prompting, and underlines its effectiveness in various AI applications. A key focus is applying Meta Prompting for complex reasoning (MP-CR) tasks, showing how it effectively deconstructs intricate problems into simpler sub-problems, enhancing token efficiency, and enabling more equitable problem-solving comparisons, especially against few-shot example methods. Additionally, the paper introduces Meta Prompting for prompting tasks, allowing LLMs to self-generate new prompts in a recursive, metaprogramming-like manner. This approach marks a significant leap in AI's autonomous and adaptive capabilities. The paper also introduces the integration of Meta Prompting into multi-modal foundation model settings, tackling the challenges and opportunities of incorporating varied data types such as images, audio, and video within the structured Meta Prompting framework. Empirical experiments, including solving the Game of 24 tasks, demonstrate the MP-CR Agent's enhanced reasoning capabilities, achieving high accuracy and efficiency, and showcasing Meta Prompting's transformative impact on AI problem-solving. (The code is available at https://github.com/meta-prompting/meta-prompting)
翻訳日:2024-01-31 18:42:18 公開日:2024-01-30
# 強結合鎖中のフェルミオン粒子の共鳴輸送とアンダーソン局在に及ぼす内部および外部脱コヒーレンスの影響

Effects of internal and external decoherence on the resonant transport and Anderson localization of fermionic particles in the tight-binding chain ( http://arxiv.org/abs/2311.05995v2 )

ライセンス: Link先を確認
Andrey R. Kolovsky(参考訳) 強結合鎖上の非相互作用フェルミ粒子の量子輸送に及ぼす緩和/脱コヒーレンス過程の影響について検討し、接触(外部デコヒーレンス)の緩和過程と鎖の緩和過程(内部デコヒーレンス)を区別する。 接触の緩和過程は、ランダウアー理論と比較して本質的に共鳴伝達を変更できると論じられている。 また、乱れた鎖の量子輸送にも対処する。 外部デコヒーレンスによりコンダクタンス変動は減少するが、アンダーソン局在長は変化しない。 これはアンダーソンの局在を抑えることができる内部デコヒーレンスの影響と強く対照的である。

We study effects of relaxation/decoherence processes on quantum transport of non-interacting Fermi particles across the tight-binding chain, where we distinguish between relaxation processes in the contacts (external decoherence) and those in the chain (internal decoherence). It is argued that relaxation processes in the contacts can essentially modify the resonant transmission as compared to the Landauer theory. We also address quantum transport in disordered chains. It is shown that external decoherence reduces conductance fluctuations but does not alter the Anderson localization length. This is in strong contrast with the effect of internal decoherence which is found to suppress the Anderson localization.
翻訳日:2024-01-31 18:41:47 公開日:2024-01-30
# regevのファクタリングアルゴリズムを拡張して離散対数を計算する

Extending Regev's factoring algorithm to compute discrete logarithms ( http://arxiv.org/abs/2311.05545v2 )

ライセンス: Link先を確認
Martin Eker{\aa} and Joel G\"artner(参考訳) Regevは最近、Shorのファクタリングアルゴリズムの$d$次元のバリエーションとして認識される量子ファクタリングアルゴリズムを導入した。 本研究では,レゲフの因子分解アルゴリズムを,離散対数を自然に計算するアルゴリズムに拡張する。 さらに, regev の因子分解アルゴリズムの自然拡張について検討し, 順序探索による完全因果化について考察した。 これらすべてのアルゴリズムについて,特に後処理の頑健性など,実装上の様々な考察を行う。

Regev recently introduced a quantum factoring algorithm that may be perceived as a $d$-dimensional variation of Shor's factoring algorithm. In this work, we extend Regev's factoring algorithm to an algorithm for computing discrete logarithms in a natural way. Furthermore, we discuss natural extensions of Regev's factoring algorithm to order finding, and to factoring completely via order finding. For all of these algorithms, we discuss various practical implementation considerations, including in particular the robustness of the post-processing.
翻訳日:2024-01-31 18:41:33 公開日:2024-01-30
# 圧縮性ナビエに対するニューラル正規微分方程式を用いた低次不連続ガレルキン法の拡張-ストークス方程式

Enhancing Low-Order Discontinuous Galerkin Methods with Neural Ordinary Differential Equations for Compressible Navier--Stokes Equations ( http://arxiv.org/abs/2310.18897v2 )

ライセンス: Link先を確認
Shinhoo Kang, Emil M. Constantinescu(参考訳) ここ数年でコンピューティングのパワーが高まり、シミュレーションはより複雑で正確になった。 しかし、科学的発見や問題解決には極めて価値があるが、高忠実度シミュレーションには重要な計算要求が伴う。 その結果、サブグリッドスケールモデルを用いて低忠実度モデルを実行して計算コストを削減することは一般的であるが、適切なサブグリッドスケールモデルを選択して調整することは困難である。 本稿では, ニューラル常微分演算子によって拡張された偏微分方程式を不連続なガレルキン(DG)空間離散化の文脈でシミュレートする際のサブグリッドスケールモデル効果の学習法を提案する。 提案手法は,低次DGソルバの欠落スケールを連続的に学習し,低次DG近似の精度を向上させるとともに,フィルタされた高次DGシミュレーションをある程度の精度で高速化する。 我々は,多次元テイラー・グリーン渦の実例をレイノルズ数と時間で示し,ラミナー,遷移,乱流を網羅する手法を提案する。 提案手法は,低次 (1次) 近似からサブグリッドスケールを再構成するだけでなく,フィルタ付き高次 dg (6次) シミュレーションを2桁高速化する。

The growing computing power over the years has enabled simulations to become more complex and accurate. While immensely valuable for scientific discovery and problem-solving, however, high-fidelity simulations come with significant computational demands. As a result, it is common to run a low-fidelity model with a subgrid-scale model to reduce the computational cost, but selecting the appropriate subgrid-scale models and tuning them are challenging. We propose a novel method for learning the subgrid-scale model effects when simulating partial differential equations augmented by neural ordinary differential operators in the context of discontinuous Galerkin (DG) spatial discretization. Our approach learns the missing scales of the low-order DG solver at a continuous level and hence improves the accuracy of the low-order DG approximations as well as accelerates the filtered high-order DG simulations with a certain degree of precision. We demonstrate the performance of our approach through multidimensional Taylor-Green vortex examples at different Reynolds numbers and times, which cover laminar, transitional, and turbulent regimes. The proposed method not only reconstructs the subgrid-scale from the low-order (1st-order) approximation but also speeds up the filtered high-order DG (6th-order) simulation by two orders of magnitude.
翻訳日:2024-01-31 18:41:24 公開日:2024-01-30
# 深層強化学習による柔軟なジョブショップスケジューリング問題の解法

Solving the flexible job-shop scheduling problem through an enhanced deep reinforcement learning approach ( http://arxiv.org/abs/2310.15706v2 )

ライセンス: Link先を確認
Imanol Echeverria, Maialen Murua, Roberto Santana(参考訳) 業界や様々な現実シナリオに共通するスケジューリング問題では、リアルタイムに破壊的なイベントに対応することが不可欠である。 近年,この制約下で解を生成できる政策学習にDRL(Deep reinforcement Learning)を用いることが提案されている。 本稿では,特に大規模インスタンスにおいて,フレキシブルなジョブショップスケジューリング問題を解決するための新しいDRL手法を提案する。 このアプローチは、問題をより情報的なグラフ表現にヘテロジニアスグラフニューラルネットワークを使用することに基づいている。 この問題の新しいモデリングは、状態情報をキャプチャし、意思決定能力を向上させるポリシーの能力を高める。 さらに、DRLアプローチの性能を高めるための2つの新しいアプローチを導入し、第1は多様なスケジューリングポリシーの生成を伴い、第2はDRLと行動空間を制約するディスパッチルール(DR)を組み合わせる。 2つの公開ベンチマーク実験の結果、我々の手法はDRよりも優れており、3つの最先端のDRL法、特に大規模インスタンスと比較して優れた結果が得られた。

In scheduling problems common in the industry and various real-world scenarios, responding in real-time to disruptive events is essential. Recent methods propose the use of deep reinforcement learning (DRL) to learn policies capable of generating solutions under this constraint. The objective of this paper is to introduce a new DRL method for solving the flexible job-shop scheduling problem, particularly for large instances. The approach is based on the use of heterogeneous graph neural networks to a more informative graph representation of the problem. This novel modeling of the problem enhances the policy's ability to capture state information and improve its decision-making capacity. Additionally, we introduce two novel approaches to enhance the performance of the DRL approach: the first involves generating a diverse set of scheduling policies, while the second combines DRL with dispatching rules (DRs) constraining the action space. Experimental results on two public benchmarks show that our approach outperforms DRs and achieves superior results compared to three state-of-the-art DRL methods, particularly for large instances.
翻訳日:2024-01-31 18:40:59 公開日:2024-01-30
# freenoise: ノイズ再スケジュールによるより長いビデオ拡散のチューニング

FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling ( http://arxiv.org/abs/2310.15169v3 )

ライセンス: Link先を確認
Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu(参考訳) 大規模ビデオデータセットの可用性と拡散モデルの進歩により、テキスト駆動ビデオ生成は大きな進歩を遂げた。 しかし、既存のビデオ生成モデルは通常、限られた数のフレームで訓練されるため、推論中に高精細なロングビデオを生成することができない。 さらに、これらのモデルはシングルテキストの条件のみをサポートするが、実際のシナリオではビデオコンテンツが時間とともに変化するため、マルチテキストの条件を必要とすることが多い。 これらの課題に対処するため、本研究では、複数のテキストに条件付けされた長いビデオを生成するためのテキスト駆動能力の拡張の可能性を探る。 1) 映像拡散モデルにおける初期雑音の影響を最初に解析する。 次に,ノイズの観測に基づいて,事前学習されたビデオ拡散モデルの生成能力を高めながらコンテンツの一貫性を保ちながら,チューニングフリーで時間効率のよいパラダイムであるfreenoiseを提案する。 具体的には、全フレームのノイズを初期化する代わりに、長距離相関のために一連のノイズをスケジュールし、ウィンドウベースの関数によって時間的注意を行う。 2)複数のテキストプロンプトを条件とした動画生成を支援する新しいモーションインジェクション法を考案した。 広範にわたる実験は,映像拡散モデルの生成能力拡張における我々のパラダイムの優位性を検証する。 従来の最高性能法と比較して255%の時間コストがかかるのに対し,本手法は無視可能な時間コストを約17%に抑えている。 生成されたビデオサンプルは、当社のwebサイトから入手できます。

With the availability of large-scale video datasets and the advances of diffusion models, text-driven video generation has achieved substantial progress. However, existing video generation models are typically trained on a limited number of frames, resulting in the inability to generate high-fidelity long videos during inference. Furthermore, these models only support single-text conditions, whereas real-life scenarios often require multi-text conditions as the video content changes over time. To tackle these challenges, this study explores the potential of extending the text-driven capability to generate longer videos conditioned on multiple texts. 1) We first analyze the impact of initial noise in video diffusion models. Then building upon the observation of noise, we propose FreeNoise, a tuning-free and time-efficient paradigm to enhance the generative capabilities of pretrained video diffusion models while preserving content consistency. Specifically, instead of initializing noises for all frames, we reschedule a sequence of noises for long-range correlation and perform temporal attention over them by window-based function. 2) Additionally, we design a novel motion injection method to support the generation of videos conditioned on multiple text prompts. Extensive experiments validate the superiority of our paradigm in extending the generative capabilities of video diffusion models. It is noteworthy that compared with the previous best-performing method which brought about 255% extra time cost, our method incurs only negligible time cost of approximately 17%. Generated video samples are available at our website: http://haonanqiu.com/projects/FreeNoise.html.
翻訳日:2024-01-31 18:40:40 公開日:2024-01-30
# スケーラブルなデータ表現と分類のための学習解釈可能なルール

Learning Interpretable Rules for Scalable Data Representation and Classification ( http://arxiv.org/abs/2310.14336v3 )

ライセンス: Link先を確認
Zhuo Wang, Wei Zhang, Ning Liu, Jianyong Wang(参考訳) 規則に基づくモデル、例えば決定木は、透明な内部構造と優れたモデル表現性のために高いモデル解釈性を必要とするシナリオで広く使われている。 しかし、ルールベースのモデルは、特に大きなデータセットでは、個々のパラメータや構造のために最適化が難しい。 アンサンブルメソッドとファジィ/ソフトルールは一般的にパフォーマンスを改善するために使用されるが、モデルの解釈性を犠牲にしている。 スケーラビリティと解釈性の両方を得るために,データ表現と分類のための解釈不能なルールを自動的に学習する,ルールベース表現学習器(rrl)という新しい分類器を提案する。 非微分可能rrlを効果的に訓練するために、連続空間に投影し、勾配降下を用いて離散モデルを直接最適化できる勾配グラフトと呼ばれる新しい訓練方法を提案する。 論理アクティベーション関数の新たな設計は、RRLのスケーラビリティを高め、エンドツーエンドで連続的な特徴を識別できるようにするためにも考案されている。 10個の小さなデータセットと4つの大きなデータセットの探索実験により、RRLは競争的解釈可能なアプローチよりも優れており、異なるシナリオにおける分類精度とモデルの複雑さのトレードオフを得るために容易に調整できることを示した。 私たちのコードは以下の通りです。

Rule-based models, e.g., decision trees, are widely used in scenarios demanding high model interpretability for their transparent inner structures and good model expressivity. However, rule-based models are hard to optimize, especially on large data sets, due to their discrete parameters and structures. Ensemble methods and fuzzy/soft rules are commonly used to improve performance, but they sacrifice the model interpretability. To obtain both good scalability and interpretability, we propose a new classifier, named Rule-based Representation Learner (RRL), that automatically learns interpretable non-fuzzy rules for data representation and classification. To train the non-differentiable RRL effectively, we project it to a continuous space and propose a novel training method, called Gradient Grafting, that can directly optimize the discrete model using gradient descent. A novel design of logical activation functions is also devised to increase the scalability of RRL and enable it to discretize the continuous features end-to-end. Exhaustive experiments on ten small and four large data sets show that RRL outperforms the competitive interpretable approaches and can be easily adjusted to obtain a trade-off between classification accuracy and model complexity for different scenarios. Our code is available at: https://github.com/12wang3/rrl.
翻訳日:2024-01-31 18:40:16 公開日:2024-01-30
# 多項式アクティベーションを持つグラフニューラルネットワークの表現性に制限がある

Graph Neural Networks with polynomial activations have limited expressivity ( http://arxiv.org/abs/2310.13139v4 )

ライセンス: Link先を確認
Sammy Khalife(参考訳) グラフニューラルネットワーク(GNN)の表現性は、第一次論理の適切な断片によって完全に特徴付けられる。 すなわち、ラベル付きグラフ上で解釈された2つの変分論理(GC2)の任意のクエリは、クエリの深さにのみ依存する大きさのGNNを用いて表現することができる。 barcelo & al., 2020, grohe, 2021] で指摘されているように、この記述は活性化関数の族であり、選択された活性化関数によってgnnによって表現できる論理の階層のポッシビビリティを残している。 本稿では,gc2クエリが多項式アクティベーション関数を持つgnnで表現できないことを証明して,このような階層構造が存在することを示す。 これは多項式と一般的な非多項式の活性化(Rectified Linear Units など)の分離を意味し、[Grohe, 21] で定式化された開問題に答える。

The expressivity of Graph Neural Networks (GNNs) can be entirely characterized by appropriate fragments of the first order logic. Namely, any query of the two variable fragment of graded modal logic (GC2) interpreted over labeled graphs can be expressed using a GNN whose size depends only on the depth of the query. As pointed out by [Barcelo & Al., 2020, Grohe, 2021], this description holds for a family of activation functions, leaving the possibibility for a hierarchy of logics expressible by GNNs depending on the chosen activation function. In this article, we show that such hierarchy indeed exists by proving that GC2 queries cannot be expressed by GNNs with polynomial activation functions. This implies a separation between polynomial and popular non polynomial activations (such as Rectified Linear Units) and answers an open question formulated by [Grohe, 21].
翻訳日:2024-01-31 18:39:53 公開日:2024-01-30
# 進行波パラメトリック増幅器の理想性能のための周辺回路

Peripheral circuits for ideal performance of a travelling-wave parametric amplifier ( http://arxiv.org/abs/2310.11909v2 )

ライセンス: Link先を確認
Hampus Renberg Nilsson, Daryoush Shiri, Robert Rehammar, Anita Fadavi Roudsari, Per Delsing(参考訳) 3波混合(3wm)に基づく高利得進行波パラメトリック増幅器(twpa)の理想性能を実現するための周辺回路の検討を行った。 TWPAを超伝導ディプレクサ、ハイブリッドカプラ、インピーダンス整合ネットワークのネットワークに埋め込むことにより、増幅器は、信号、アイドラー、ポンプの反射を排除し、全ての不要音の伝達を排除しつつ、ほぼ量子制限されたノイズ性能で高い安定した利得を得られる。 また,増幅器が分離可能な構成を示す。 この手法を広帯域アイドラーフィルタリング(wif)と呼ぶ。 この理論は、4-8GHz帯で20dB以上のゲインを予測し、1つの増幅器で10dB、2つのカスケード増幅器で30dBの分離を行うシミュレーションによって支持されている。 本稿では,WIF-TWPAを用いて40dB以上のアイソレータを4-8GHz帯で構成する方法を示す。

We investigate the required peripheral circuits to enable ideal performance for a high-gain travelling-wave parametric amplifier (TWPA) based on three-wave mixing (3WM). By embedding the TWPA in a network of superconducting diplexers, hybrid couplers and impedance matching networks, the amplifier can deliver a high stable gain with near-quantum-limited noise performance, with suppressed gain ripples, while eliminating the reflections of the signal, the idler and the pump as well as the transmission of all unwanted tones. We also demonstrate a configuration where the amplifier can isolate. We call this technique Wideband Idler Filtering (WIF). The theory is supported by simulations that predict over 20 dB gain in the 4-8 GHz band with 10 dB isolation for a single amplifier and 30 dB isolation for two cascaded amplifiers. We demonstrate how the WIF-TWPAs can be used to construct controllable isolators with over 40 dB isolation over the full 4-8 GHz band.
翻訳日:2024-01-31 18:39:09 公開日:2024-01-30
# 等価行列関数ニューラルネットワーク

Equivariant Matrix Function Neural Networks ( http://arxiv.org/abs/2310.10434v2 )

ライセンス: Link先を確認
Ilyes Batatia, Lars L. Schaaf, Huajie Chen, G\'abor Cs\'anyi, Christoph Ortner, Felix A. Faber(参考訳) グラフニューラルネットワーク(GNN)、特にメッセージパスニューラルネットワーク(MPNN)は、さまざまなアプリケーションでグラフを学ぶための強力なアーキテクチャとして登場した。 しかしMPNNは、大きな共役分子や過密や過密によるソーシャルネットワークなどのグラフにおける非局所的な相互作用をモデル化する際の課題に直面している。 スペクトルgnnやリカレントニューラルネットワークやトランスフォーマーといった従来のニューラルネットワークは、これらの課題を軽減しているが、それらはしばしば一般化可能性に欠けたり、データの詳細な構造的関係や対称性を捉えられなかったりする。 これらの問題に対処するために,解析行列同変関数を介して非局所的相互作用をパラメータ化する新しいアーキテクチャであるマトリックス関数ニューラルネットワーク(MFN)を導入する。 resolvent expansionsの採用は、簡単な実装とシステムサイズでの線形スケーリングの可能性を提供する。 MFNアーキテクチャは、ZINCやTUデータセットなどの標準グラフベンチマークで最先端のパフォーマンスを実現し、量子システムにおける複雑な非局所的な相互作用をキャプチャし、新しい最先端の力場への道を歩むことができる。

Graph Neural Networks (GNNs), especially message-passing neural networks (MPNNs), have emerged as powerful architectures for learning on graphs in diverse applications. However, MPNNs face challenges when modeling non-local interactions in graphs such as large conjugated molecules, and social networks due to oversmoothing and oversquashing. Although Spectral GNNs and traditional neural networks such as recurrent neural networks and transformers mitigate these challenges, they often lack generalizability, or fail to capture detailed structural relationships or symmetries in the data. To address these concerns, we introduce Matrix Function Neural Networks (MFNs), a novel architecture that parameterizes non-local interactions through analytic matrix equivariant functions. Employing resolvent expansions offers a straightforward implementation and the potential for linear scaling with system size. The MFN architecture achieves stateof-the-art performance in standard graph benchmarks, such as the ZINC and TU datasets, and is able to capture intricate non-local interactions in quantum systems, paving the way to new state-of-the-art force fields.
翻訳日:2024-01-31 18:38:47 公開日:2024-01-30
# リング・ア・ベル! 拡散モデルにおける概念除去手法の信頼性について

Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? ( http://arxiv.org/abs/2310.10012v2 )

ライセンス: Link先を確認
Yu-Lin Tsai, Chia-Yi Hsu, Chulin Xie, Chih-Hsun Lin, Jia-You Chen, Bo Li, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang(参考訳) 安定拡散(sd)などのt2i合成のための拡散モデルは、最近、高品質なコンテンツを生成するための例外的な能力を示している。 しかし、この進歩は、著作権、禁止、制限されたコンテンツ、またはnsfw画像の作成において、潜在的な誤用に関するいくつかの懸念を引き起こした。 評価段階で安全フィルタを実装したり、望ましくない概念やスタイルを排除するための微調整モデルによって、このような問題を解決する努力がなされているが、幅広いプロンプトに対処する上での安全対策の有効性はほとんど未定である。 本研究では,新しい概念検索アルゴリズムを1つ提案し,その安全性について検討する。 本稿では,T2I拡散モデルに対するモデルに依存しないレッドチームツールであるRing-A-Bellを紹介する。 具体的には、ring-a-bellはまず概念抽出を行い、敏感で不適切な概念の全体的表現を得る。 その後、抽出された概念を活用することで、ring-a-bellは拡散モデルの問題のあるプロンプトと対応する不適切なコンテンツの生成を自動的に識別し、デプロイされた安全機構の信頼性を評価することができる。 最後に、Midjourneyなどのオンラインサービスやさまざまなコンセプト削除方法をテストすることで、我々の手法を実証的に検証する。 この結果から, 安全プロンプトベンチマークの操作により, 既存の安全機構を回避できると考えられるプロンプトを変換し, 実質的に有害な内容の生成につながるような, いわゆる安全機構の欠陥を明らかにすることができた。

Diffusion models for text-to-image (T2I) synthesis, such as Stable Diffusion (SD), have recently demonstrated exceptional capabilities for generating high-quality content. However, this progress has raised several concerns of potential misuse, particularly in creating copyrighted, prohibited, and restricted content, or NSFW (not safe for work) images. While efforts have been made to mitigate such problems, either by implementing a safety filter at the evaluation stage or by fine-tuning models to eliminate undesirable concepts or styles, the effectiveness of these safety measures in dealing with a wide range of prompts remains largely unexplored. In this work, we aim to investigate these safety mechanisms by proposing one novel concept retrieval algorithm for evaluation. We introduce Ring-A-Bell, a model-agnostic red-teaming tool for T2I diffusion models, where the whole evaluation can be prepared in advance without prior knowledge of the target model. Specifically, Ring-A-Bell first performs concept extraction to obtain holistic representations for sensitive and inappropriate concepts. Subsequently, by leveraging the extracted concept, Ring-A-Bell automatically identifies problematic prompts for diffusion models with the corresponding generation of inappropriate content, allowing the user to assess the reliability of deployed safety mechanisms. Finally, we empirically validate our method by testing online services such as Midjourney and various methods of concept removal. Our results show that Ring-A-Bell, by manipulating safe prompting benchmarks, can transform prompts that were originally regarded as safe to evade existing safety mechanisms, thus revealing the defects of the so-called safety mechanisms which could practically lead to the generation of harmful contents.
翻訳日:2024-01-31 18:38:28 公開日:2024-01-30
# メモリを用いたオープン量子ダイナミクスのための統一フレームワーク

Unified Framework for Open Quantum Dynamics with Memory ( http://arxiv.org/abs/2312.13233v2 )

ライセンス: Link先を確認
Felix Ivander, Lachlan P. Lindoy, and Joonho Lee(参考訳) 浴場に結合した量子系のダイナミクスの研究は、一般に中島-ツワンジグメモリカーネル({\mathcal{k}}$)や影響関数(\mathbf{{i}}$)を利用して行われる。 その重要性にもかかわらず、メモリカーネルと影響関数の正式な接続は明確にされていない。 これらの関係をシステムプロパゲータの基礎となるダイアグラム構造、$\mathbf{{i}}$、${\mathcal{k}}$の観察を通して明らかにする。 これに基づいて,標準手法で要求される投影自由ダイナミクス入力を使わずに高調波浴と相互作用する(駆動)システムに対して,$\mathbf{{i}}$ から${\mathcal{k}}$ を構築するための非摂動的,図式的手法を提案する。 この構成により、近似パス積分法は、近似メモリカーネルを用いてどのように理解できるかを示す。 さらに, 実験または数値的精密な手法により得られた一連の還元系軌道から浴のスペクトル密度を抽出し, 量子センシングと工学の新たな道を開くためのハミルトン学習手法を示す。 この研究で提供される洞察は、非マルコフ力学の理解を著しく前進させ、この領域における理論的および実験的発展にとって重要な足掛かりとなる。

Studies of the dynamics of a quantum system coupled to a bath are typically performed by utilizing the Nakajima-Zwanzig memory kernel (${\mathcal{K}}$) or the influence functions ($\mathbf{{I}}$), especially when the dynamics exhibit memory effects (i.e., non-Markovian). Despite their significance, the formal connection between the memory kernel and the influence functions has not been explicitly made. We reveal their relation through the observation of a diagrammatic structure underlying the system propagator, $\mathbf{{I}}$, and ${\mathcal{K}}$. Based on this, we propose a non-perturbative, diagrammatic approach to construct ${\mathcal{K}}$ from $\mathbf{{I}}$ for (driven) systems interacting with harmonic baths without the use of any projection-free dynamics inputs required by standard approaches. With this construction, we also show how approximate path integral methods can be understood in terms of approximate memory kernels. Furthermore, we demonstrate a Hamiltonian learning procedure to extract the bath spectral density from a set of reduced system trajectories obtained experimentally or by numerically exact methods, opening new avenues in quantum sensing and engineering. The insights we provide in this work will significantly advance the understanding of non-Markovian dynamics, and they will be an important stepping stone for theoretical and experimental developments in this area.
翻訳日:2024-01-31 18:31:38 公開日:2024-01-30
# 大規模言語モデルにおけるファクチュアル知識の配置:残差ストリームの探索と語彙空間における部分値の解析

Locating Factual Knowledge in Large Language Models: Exploring the Residual Stream and Analyzing Subvalues in Vocabulary Space ( http://arxiv.org/abs/2312.12141v2 )

ライセンス: Link先を確認
Zeping Yu, Sophia Ananiadou(参考訳) 残差ストリームを探索し,語彙空間のサブ値を分析することにより,大規模言語モデルにおける事実的知識の所在を見いだす。 語彙空間に投影する際、サブバリューが人間解釈可能な概念を持つ理由が分かる。 サブ値の前ソフトマックス値は加算関数によって加算されるので、語彙空間におけるトップトークンの確率は増加する。 これに基づいて、ログ確率増加曲線は線形単調に増大するので、層とサブ値の重要度を計算するためにログ確率増加を用いると、確率増加よりも優れた値が得られる。 さらに, 内部積を計算し, フィードフォワードネットワーク (ffn) のサブ値が前層によってどの程度活性化されるかを評価する。 我々の手法に基づいて、事実知識<France, capital, Paris>がどこに保管されているかが分かる。 特に注意層は「パリはフランスに関連している」と記憶している。 FFNレイヤは"Paris is a capital/city"を格納し、"Capital"に関連する注目サブバリューによって起動される。 本手法はBaevski-18, GPT2, Llama-7B, Llama-13Bに応用した。 全体として,トランスのメカニズムを理解するための新しい手法を提案する。 私たちはgithubでコードを公開します。

We find the location of factual knowledge in large language models by exploring the residual stream and analyzing subvalues in vocabulary space. We find the reason why subvalues have human-interpretable concepts when projecting into vocabulary space. The before-softmax values of subvalues are added by an addition function, thus the probability of top tokens in vocabulary space will increase. Based on this, we find using log probability increase to compute the significance of layers and subvalues is better than probability increase, since the curve of log probability increase has a linear monotonically increasing shape. Moreover, we calculate the inner products to evaluate how much a feed-forward network (FFN) subvalue is activated by previous layers. Base on our methods, we find where factual knowledge <France, capital, Paris> is stored. Specifically, attention layers store "Paris is related to France". FFN layers store "Paris is a capital/city", activated by attention subvalues related to "capital". We leverage our method on Baevski-18, GPT2 medium, Llama-7B and Llama-13B. Overall, we provide a new method for understanding the mechanism of transformers. We will release our code on github.
翻訳日:2024-01-31 18:31:14 公開日:2024-01-30
# 強化学習に基づく音声不均一性最小化のための薬理調整システムの提案

Toward a Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency ( http://arxiv.org/abs/2312.11509v3 )

ライセンス: Link先を確認
Pavlos Constas, Vikram Rawal, Matthew Honorio Oliveira, Andreas Constas, Aditya Khan, Kaison Cheung, Najma Sultani, Carrie Chen, Micol Altomare, Michael Akzam, Jiacheng Chen, Vhea He, Lauren Altomare, Heraa Murqi, Asad Khan, Nimit Amikumar Bhanshali, Youssef Rachad, Michael Guerzhoy(参考訳) そこで本研究では, 患者が精神保健関連言語障害を発症するのに役立つ仮説的な患者薬剤を自動的に処方し, 患者の流血の頻度をゼロコストで測定し, 薬と服用量を調整できる強化学習(rl)システムを提案する。 私たちが構築した大規模なデータセット上で音声の拡散を検出し評価するモジュールと、医薬品の優れた組み合わせを自動的に見つけ出すRLアルゴリズムである。 この2つのモジュールを支援するために,文献からの音声拡散に対する精神医学薬の効果に関するデータを収集し,患者シミュレーションシステムを構築した。 我々は、ある状況下では、rlシステムが優れた医薬品体制に収束できることを実証する。 音声不均一性のある人々のデータセットを収集し,ラベル付けし,そのデータセットを用いた方法を示す。 我々の研究は概念実証であり、音声の拡散に対処するために自動データ収集を使うという考えには、将来性があることが示される。

We propose a reinforcement learning (RL)-based system that would automatically prescribe a hypothetical patient medication that may help the patient with their mental health-related speech disfluency, and adjust the medication and the dosages in response to zero-cost frequent measurement of the fluency of the patient. We demonstrate the components of the system: a module that detects and evaluates speech disfluency on a large dataset we built, and an RL algorithm that automatically finds good combinations of medications. To support the two modules, we collect data on the effect of psychiatric medications for speech disfluency from the literature, and build a plausible patient simulation system. We demonstrate that the RL system is, under some circumstances, able to converge to a good medication regime. We collect and label a dataset of people with possible speech disfluency and demonstrate our methods using that dataset. Our work is a proof of concept: we show that there is promise in the idea of using automatic data collection to address speech disfluency.
翻訳日:2024-01-31 18:30:55 公開日:2024-01-30
# sef-vc: クロス注意による自由ゼロショット音声変換

SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention ( http://arxiv.org/abs/2312.08676v2 )

ライセンス: Link先を確認
Junjie Li, Yiwei Guo, Xie Chen, Kai Yu(参考訳) ゼロショット音声変換(VC: Zero-shot Voice conversion)は、音源話者の音色を任意の標的話者の音色に変換する。 生成した音声の音声は、対象話者の話者埋め込みを提供することで制御できるが、話者類似性は、地上の真実記録より遅れている。 本稿では,提案するSEF-VCについて述べる。このSEF-VCは,話者の音色を参照音声から学習して組み込むための,強力な位置に依存しないクロスアテンション機構によって設計され,HuBERTセマンティックトークンから非自己回帰的に波形を再構成する。 SEF-VCの簡潔な設計により、訓練安定性と音声変換性能が向上する。 目的的および主観的評価は、非常に短い参照音声であっても、強いゼロショットVCベースラインよりもターゲット参照に類似した高品質な音声を生成するSEF-VCの優位性を示す。

Zero-shot voice conversion (VC) aims to transfer the source speaker timbre to arbitrary unseen target speaker timbre, while keeping the linguistic content unchanged. Although the voice of generated speech can be controlled by providing the speaker embedding of the target speaker, the speaker similarity still lags behind the ground truth recordings. In this paper, we propose SEF-VC, a speaker embedding free voice conversion model, which is designed to learn and incorporate speaker timbre from reference speech via a powerful position-agnostic cross-attention mechanism, and then reconstruct waveform from HuBERT semantic tokens in a non-autoregressive manner. The concise design of SEF-VC enhances its training stability and voice conversion performance. Objective and subjective evaluations demonstrate the superiority of SEF-VC to generate high-quality speech with better similarity to target reference than strong zero-shot VC baselines, even for very short reference speeches.
翻訳日:2024-01-31 18:30:38 公開日:2024-01-30
# 微調整か、それとも検索か? LLMにおける知識注入の比較

Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs ( http://arxiv.org/abs/2312.05934v3 )

ライセンス: Link先を確認
Oded Ovadia, Menachem Brief, Moshik Mishaeli, Oren Elisha(参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる多様な質問に答える能力によって証明されるように、事前訓練された重みの中に大量の事実情報をカプセル化する。 しかしながら、この知識は本質的に限定的であり、トレーニングデータの特性に大きく依存している。 したがって、新しい情報を組み込んだり、以前見た情報にllmの機能を洗練したりする外部データセットを使用することは、大きな課題となる。 本研究では、教師なし微調整と検索強化生成(RAG)の2つの一般的なアプローチを比較した。 さまざまなトピックにまたがる様々な知識集約的なタスクに対して,両アプローチを評価した。 その結果,教師なしの微調整は改善するが,RAGはトレーニング中に遭遇した既存の知識と全く新しい知識の両方において,常に優れていた。 さらに、llmは教師なしの微調整によって新しい事実情報を学ぶのに苦労し、訓練中に同じ事実の多くのバリエーションを露出させることでこの問題を緩和できることがわかった。

Large language models (LLMs) encapsulate a vast amount of factual information within their pre-trained weights, as evidenced by their ability to answer diverse questions across different domains. However, this knowledge is inherently limited, relying heavily on the characteristics of the training data. Consequently, using external datasets to incorporate new information or refine the capabilities of LLMs on previously seen information poses a significant challenge. In this study, we compare two common approaches: unsupervised fine-tuning and retrieval-augmented generation (RAG). We evaluate both approaches on a variety of knowledge-intensive tasks across different topics. Our findings reveal that while unsupervised fine-tuning offers some improvement, RAG consistently outperforms it, both for existing knowledge encountered during training and entirely new knowledge. Moreover, we find that LLMs struggle to learn new factual information through unsupervised fine-tuning, and that exposing them to numerous variations of the same fact during training could alleviate this problem.
翻訳日:2024-01-31 18:30:04 公開日:2024-01-30
# 2次元等尺テンソルネットワークにおける位相量子相転移

Topological quantum phase transitions in 2D isometric tensor networks ( http://arxiv.org/abs/2312.05079v2 )

ライセンス: Link先を確認
Yu-Jie Liu, Kirill Shtengel, Frank Pollmann(参考訳) 等方性テンソルネットワーク(isoTNS)は、追加の等方性条件を持つテンソルネットワーク状態のサブクラスを形成し、線形深さの逐次量子回路で効率的に準備できることを意味する。 本研究では, 2d で isotns-solvable モデルを構築する手順を提案する。 アイソTNSのパラメータを連続的に調整することで、多体基底状態は量子相転移を行い、2次元の異なる量子相を示す。 我々は、異なる対称性エンリッチ位相(集合)位相間の結合次元$d = 2$補間を持つイソタンス経路を構築してこれを説明する。 遷移点において、アイソTNS波動関数は古典的6頂点モデルのギャップレス点と関連している。 さらに、臨界波動関数は、一方の空間方向に沿って、他方の空間方向の長い範囲を保ちながら、負の相関をサポートする。 我々は,この経路を実現し,プログラム可能な量子デバイス上で効率的に実現できる完全線形深さパラメトリド局所量子回路を提供する。

Isometric tensor networks (isoTNS) form a subclass of tensor network states that have an additional isometric condition, which implies that they can be efficiently prepared with a linear-depth sequential quantum circuit. In this work, we introduce a procedure to construct isoTNS-solvable models in 2D. By continuously tuning a parameter in the isoTNS, the many-body ground state undergoes quantum phase transitions, exhibiting distinct 2D quantum phases. We illustrate this by constructing an isoTNS path with bond dimension $D = 2$ interpolating between distinct symmetry-enriched topological (SET) phases. At the transition point, the isoTNS wavefunction is related to a gapless point in the classical six-vertex model. Furthermore, the critical wavefunction supports a power-law correlation along one spatial direction while remains long-range ordered in the other spatial direction. We provide an exact linear-depth parametrized local quantum circuit that realizes the path and therefore it can be efficiently realized on a programmable quantum device.
翻訳日:2024-01-31 18:29:46 公開日:2024-01-30
# アダマール門は普遍量子計算における資源状態に置き換えられない

The Hadamard gate cannot be replaced by a resource state in universal quantum computation ( http://arxiv.org/abs/2312.03515v2 )

ライセンス: Link先を確認
Benjamin D. M. Jones, Noah Linden and Paul Skrzypczyk(参考訳) 固定資源の量子状態上で実行される演算を含む量子計算のモデルを考える。 このパラダイムに適合する例としては、マジックステートインジェクションと測定ベースのアプローチがある。 これらのケースを両方組み込んだフレームワークを導入し、アダマール門の例に示すように、この文脈におけるコヒーレンス(あるいは重ね合わせ)の役割に焦点を当てる。 不整合ユニタリ(CNOT、対角ゲートなど計算基底状態から重ね合わせを生成できないもの)、古典的制御、計算基底測定、および任意の資源的な補助状態(任意の次元の)へのアクセスが与えられた場合、コヒーレントユニタリ(例えばアダマール)を非ゼロ確率で正確に実装することは不可能である。 また、上記の演算と$n$ hadamardゲートの間の誘導トレース距離の下限を提供することにより、近似の場合を考える。 この結果の安定性を示すために、$k$ Hadamard gatesを使用して$n>k$ Hadamard gatesを正確に実装する場合、同様のno-go結果に拡張する。

We consider models of quantum computation that involve operations performed on some fixed resourceful quantum state. Examples that fit this paradigm include magic state injection and measurement-based approaches. We introduce a framework that incorporates both of these cases and focus on the role of coherence (or superposition) in this context, as exemplified through the Hadamard gate. We prove that given access to incoherent unitaries (those that are unable to generate superposition from computational basis states, e.g. CNOT, diagonal gates), classical control, computational basis measurements, and any resourceful ancillary state (of arbitrary dimension), it is not possible to implement any coherent unitary (e.g. Hadamard) exactly with non-zero probability. We also consider the approximate case by providing lower bounds for the induced trace distance between the above operations and $n$ Hadamard gates. To demonstrate the stability of this result, this is then extended to a similar no-go result for the case of using $k$ Hadamard gates to exactly implement $n>k$ Hadamard gates.
翻訳日:2024-01-31 18:28:51 公開日:2024-01-30
# REST APIテストを改善するために大規模言語モデルを活用する

Leveraging Large Language Models to Improve REST API Testing ( http://arxiv.org/abs/2312.00894v2 )

ライセンス: Link先を確認
Myeongsoo Kim, Tyler Stennett, Dhruv Shah, Saurabh Sinha, Alessandro Orso(参考訳) REST APIが広く採用され、複雑さとサイズが増大し、自動化されたREST APIテストツールが必要になった。 現在のツールはREST API仕様の構造化データに重点を置いているが、仕様の非構造化自然言語記述で利用可能な貴重な洞察を無視することが多い。 近年、このギャップに対処するため、研究者はこれらの人間の読みやすい記述とクエリ知識ベースからルールを抽出し、意味のある入力値を導出する手法を開発した。 しかし、これらのテクニックは抽出できるルールの種類に制限があり、不正確な結果を生み出す傾向があります。 本稿では、大規模言語モデル(LLM)のパワーと本質的なコンテキスト認識を利用して、REST APIテストを改善する革新的なアプローチであるRESTGPTを提案する。 RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。 そして、これらのルールと値で元の仕様を強化します。 評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。 これらの有望な結果を踏まえ、LLMを通してREST APIテストを進めるための今後の研究の方向性を概説する。

The widespread adoption of REST APIs, coupled with their growing complexity and size, has led to the need for automated REST API testing tools. Current tools focus on the structured data in REST API specifications but often neglect valuable insights available in unstructured natural-language descriptions in the specifications, which leads to suboptimal test coverage. Recently, to address this gap, researchers have developed techniques that extract rules from these human-readable descriptions and query knowledge bases to derive meaningful input values. However, these techniques are limited in the types of rules they can extract and prone to produce inaccurate results. This paper presents RESTGPT, an innovative approach that leverages the power and intrinsic context-awareness of Large Language Models (LLMs) to improve REST API testing. RESTGPT takes as input an API specification, extracts machine-interpretable rules, and generates example parameter values from natural-language descriptions in the specification. It then augments the original specification with these rules and values. Our evaluations indicate that RESTGPT outperforms existing techniques in both rule extraction and value generation. Given these promising results, we outline future research directions for advancing REST API testing through LLMs.
翻訳日:2024-01-31 18:28:11 公開日:2024-01-30
# 生成AIは個人の創造性を高めるが、新しいコンテンツの集団的多様性を減らす

Generative AI enhances individual creativity but reduces the collective diversity of novel content ( http://arxiv.org/abs/2312.00506v2 )

ライセンス: Link先を確認
Anil R. Doshi and Oliver P. Hauser(参考訳) 創造性は人間性の中核である。 ジェネレーティブ人工知能(GenAI) - より強力な大規模言語モデル(LLM)を含む - は、新しいアイデアを提供することによって人間がより創造的になることを約束する。 我々は,GenAIのアイデアが短編作品の制作に与える因果的影響を,一部の著者がGenAIプラットフォームからストーリーアイデアを入手できるオンライン実験で調査した。 GenAIのアイデアへのアクセスは、特に創造的でない作家の間で、ストーリーをより創造的で、より書きやすく、より楽しいものと評価させる。 しかし、GenAI対応の物語は人間単独の物語よりも互いに似通っている。 これらの結果は、集団的な新しさを失うリスクがある個人の創造性の増加を示している。 このダイナミクスは社会的ジレンマに似ており、GenAIでは個々の作家の方が良いが、総じて新しいコンテンツの範囲が狭くなる可能性がある。 本研究の結果は,創造性を高めることに関心のある研究者,政策立案者,実践者に影響を及ぼす。

Creativity is core to being human. Generative artificial intelligence (GenAI) -- including ever more powerful large language models (LLMs) -- holds promise for humans to be more creative by offering new ideas, or less creative by anchoring on GenAI ideas. We study the causal impact of GenAI ideas on the production of a short story in an online experimental study where some writers could obtain story ideas from a GenAI platform. We find that access to GenAI ideas causes stories to be evaluated as more creative, better written, and more enjoyable, especially among less creative writers. However, GenAI-enabled stories are more similar to each other than stories by humans alone. These results point to an increase in individual creativity at the risk of losing collective novelty. This dynamic resembles a social dilemma: with GenAI, individual writers are better off, but collectively a narrower scope of novel content may be produced. Our results have implications for researchers, policy-makers and practitioners interested in bolstering creativity.
翻訳日:2024-01-31 18:27:49 公開日:2024-01-30
# TeG-DG:Face Anti-Spoofingのためのテキストガイド付きドメイン一般化

TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing ( http://arxiv.org/abs/2311.18420v2 )

ライセンス: Link先を確認
Lianrui Mu, Jianhong Bai, Xiaoxuan He, Jiangnan Ye, Xiaoyu Liang, Yuchen Yang, Jiedong Zhuang, Haoji Hu(参考訳) Face Anti-Spoofing (FAS) 技術のドメイン一般化性能の向上が研究の焦点となっている。 既存の方法は、さまざまなトレーニングドメインからドメイン不変な特徴を抽出することに特化している。 有望な性能にもかかわらず、抽出された特徴は必然的に残留スタイルの特徴バイアス(例えば照明、捕獲装置)を含むため、一般化性能は劣る。 本稿では,クロスドメインアライメントのためのテキスト情報を有効に活用できる,テキスト案内型ドメイン一般化(teg-dg)フレームワークを提案する。 私たちの中核的な洞察は、テキストはより抽象的で普遍的な表現形式であり、様々な攻撃の共通点と本質的な特徴を捉え、異なる画像領域間のギャップを埋めることができるということです。 既存の視覚言語モデルとは対照的に,提案フレームワークはFASタスクの領域一般化能力を高めるために精巧に設計されている。 具体的には、まず階層型注意融合(HAF)モジュールを設計し、異なるレベルにおける視覚的特徴の適応的集約を可能にする。 teg-dgは、特に非常に限られたソースドメインデータ(それぞれhterとaucで14%と12%の改善)の状況において、以前のアプローチを大きく上回っている。

Enhancing the domain generalization performance of Face Anti-Spoofing (FAS) techniques has emerged as a research focus. Existing methods are dedicated to extracting domain-invariant features from various training domains. Despite the promising performance, the extracted features inevitably contain residual style feature bias (e.g., illumination, capture device), resulting in inferior generalization performance. In this paper, we propose an alternative and effective solution, the Textually Guided Domain Generalization (TeG-DG) framework, which can effectively leverage text information for cross-domain alignment. Our core insight is that text, as a more abstract and universal form of expression, can capture the commonalities and essential characteristics across various attacks, bridging the gap between different image domains. Contrary to existing vision-language models, the proposed framework is elaborately designed to enhance the domain generalization ability of the FAS task. Concretely, we first design a Hierarchical Attention Fusion (HAF) module to enable adaptive aggregation of visual features at different levels; Then, a Textual-Enhanced Visual Discriminator (TEVD) is proposed for not only better alignment between the two modalities but also to regularize the classifier with unbiased text features. TeG-DG significantly outperforms previous approaches, especially in situations with extremely limited source domain data (~14% and ~12% improvements on HTER and AUC respectively), showcasing impressive few-shot performance.
翻訳日:2024-01-31 18:27:29 公開日:2024-01-30
# 自己埋込コード生成

Self-Infilling Code Generation ( http://arxiv.org/abs/2311.17972v2 )

ライセンス: Link先を確認
Lin Zheng, Jianbo Yuan, Zhi Zhang, Hongxia Yang, Lingpeng Kong(参考訳) この作業では、自己インフィルディングコード生成(auto-infilling code generation)が導入されている。 提案手法は,近年の組み込み可能言語モデルでは,事前定義したプレフィックスと接尾辞に基づいて中央を埋めることを目的としているのに対し,自己埋め込みは周囲のコンテキストと埋め込んだコンテンツの両方を逐次生成する。 従来の復号法では,新たな割り込み機構とループ機構を導入し,非単調プロセスに発展させる。 割り込みは確定接尾辞が確立されるまで特定のコードの生成を延期し、出力の制御を強化する。 一方、自己充足と左から右への復号の相補的な性質を利用するループ機構は、各世代を反復的に更新・同期することができる。 提案する復号処理が,コード生成ベンチマークにおける正規性と品質の向上に有効であることを示すため,大規模な実験を行った。

This work introduces self-infilling code generation, a general framework that incorporates infilling operations into auto-regressive decoding. Our approach capitalizes on the observation that recent infilling-capable code language models can self-infill: whereas infilling operations aim to fill in the middle based on a predefined prefix and suffix, self-infilling sequentially generates both such surrounding context and the infilled content. We utilize this capability to introduce novel interruption and looping mechanisms in conventional decoding, evolving it into a non-monotonic process. Interruptions allow for postponing the generation of specific code until a definitive suffix is established, enhancing control over the output. Meanwhile, the looping mechanism, which leverages the complementary nature of self-infilling and left-to-right decoding, can iteratively update and synchronize each piece of generation cyclically. Extensive experiments are conducted to demonstrate that our proposed decoding process is effective in enhancing both regularity and quality across several code generation benchmarks.
翻訳日:2024-01-31 18:26:59 公開日:2024-01-30
# 戦争と平和(WarAgent):大言語モデルに基づく世界大戦のマルチエージェントシミュレーション

War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars ( http://arxiv.org/abs/2311.17227v2 )

ライセンス: Link先を確認
Wenyue Hua, Lizhou Fan, Lingyao Li, Kai Mei, Jianchao Ji, Yingqiang Ge, Libby Hemphill, Yongfeng Zhang(参考訳) 歴史の交差点での戦争は避けられるか? この問題は人類の歴史を通じて個人、学者、政策立案者、組織によって追求されてきた。 本研究では,人工知能(AI)とLarge Language Models(LLM)の最近の進歩に基づいて,この問題に答えようとしている。 我々は、第一次世界大戦(wwi)、第二次世界大戦(wwii)、古代中国の戦国時代(wsp)を含む歴史的な国際紛争において、参加国、決定、結果をシミュレートする、llmによるマルチエージェントaiシステムである \textbf{waragent} を提案する。 シミュレーションの有効性を評価することにより,多種多様な環境下での国際紛争などの複雑な集団的人間行動の研究における最先端AIシステムの能力の進歩と限界を検討する。 これらのシミュレーションでは、エージェント間の創発的な相互作用は、戦争につながるトリガーと条件を調べるための新しい視点を提供する。 私たちの調査結果は、データ駆動およびaiによる洞察を提供し、紛争解決と平和維持戦略へのアプローチ方法を再定義します。 この意味合いは歴史的分析を超えて、AIを使って人類の歴史を理解し、将来の国際紛争を防ぐ青写真を提供する。 コードとデータは \url{https://github.com/agiresearch/waragent} で入手できる。

Can we avoid wars at the crossroads of history? This question has been pursued by individuals, scholars, policymakers, and organizations throughout human history. In this research, we attempt to answer the question based on the recent advances of Artificial Intelligence (AI) and Large Language Models (LLMs). We propose \textbf{WarAgent}, an LLM-powered multi-agent AI system, to simulate the participating countries, their decisions, and the consequences, in historical international conflicts, including the World War I (WWI), the World War II (WWII), and the Warring States Period (WSP) in Ancient China. By evaluating the simulation effectiveness, we examine the advancements and limitations of cutting-edge AI systems' abilities in studying complex collective human behaviors such as international conflicts under diverse settings. In these simulations, the emergent interactions among agents also offer a novel perspective for examining the triggers and conditions that lead to war. Our findings offer data-driven and AI-augmented insights that can redefine how we approach conflict resolution and peacekeeping strategies. The implications stretch beyond historical analysis, offering a blueprint for using AI to understand human history and possibly prevent future international conflicts. Code and data are available at \url{https://github.com/agiresearch/WarAgent}.
翻訳日:2024-01-31 18:26:40 公開日:2024-01-30
# 大規模言語モデルを用いたエンジニアリングコード生成におけるデータ埋め込みのための新しい前処理手法

Novel Preprocessing Technique for Data Embedding in Engineering Code Generation Using Large Language Model ( http://arxiv.org/abs/2311.16267v2 )

ライセンス: Link先を確認
Yu-Chen Lin, Akhilesh Kumar, Norman Chang, Wenliang Zhang, Muhammad Zakir, Rucha Apte, Haiyang He, Chao Wang, Jyh-Shing Roger Jang(参考訳) ドメイン固有コード生成におけるLLM(Large Language Models)の性能向上に寄与する4つの主な貢献について述べる。 一 埋め込み空間のセマンティック表現を改善するため、LLMに基づくデータ分割及びデータリノベーション技術を活用すること。 (ii) llmsにより駆動される改善信頼性(codrc)のための密度連鎖の導入及びデータ修正信頼性を評価するための適応テキスト修正(atr)アルゴリズム (iii)暗黙的知識拡張・熟考(ikec)即興技術の開発 (iv) 既存のスクリプトを効果的にリファクタリングし、LLMで新しい高品質のスクリプトを生成する。 工学シミュレーションソフトウェアredhawk-scをケーススタディとして利用し,スクリプトの展開と分類におけるデータ前処理手法の有効性を実証する。 IKECと組み合わせると、これらの技術はより関連性の高い情報を取得するために検索-拡張生成(RAG)法を強化し、MapReduceアプリケーションにおけるコード生成問題に対する73.33%の「正しい行の比率」を達成する。

We present four main contributions to enhance the performance of Large Language Models (LLMs) in generating domain-specific code: (i) utilizing LLM-based data splitting and data renovation techniques to improve the semantic representation of embeddings' space; (ii) introducing the Chain of Density for Renovation Credibility (CoDRC), driven by LLMs, and the Adaptive Text Renovation (ATR) algorithm for assessing data renovation reliability; (iii) developing the Implicit Knowledge Expansion and Contemplation (IKEC) Prompt technique; and (iv) effectively refactoring existing scripts to generate new and high-quality scripts with LLMs. By using engineering simulation software RedHawk-SC as a case study, we demonstrate the effectiveness of our data pre-processing method for expanding and categorizing scripts. When combined with IKEC, these techniques enhance the Retrieval-Augmented Generation (RAG) method in retrieving more relevant information, ultimately achieving a 73.33% "Percentage of Correct Lines" for code generation problems in MapReduce applications.
翻訳日:2024-01-31 18:25:45 公開日:2024-01-30
# 流通福祉による政策学習

Policy Learning with Distributional Welfare ( http://arxiv.org/abs/2311.15878v2 )

ライセンス: Link先を確認
Yifan Cui, Sukjin Han(参考訳) 本稿では,分配福祉を対象とする最適治療配分政策について検討する。 治療選択に関する文献の多くは、条件付き平均治療効果(ATE)に基づく実用的福祉を考察している。 平均的な福祉は直感的であるが、特に個人が不均一な場合(例えば、不均一な場合)に好ましくない割り当てをもたらす可能性がある。 本研究の動機は,個別処理効果の条件量子化(QoTE)に基づいて治療を割り当てる最適政策を提案することである。 量的確率の選択によっては、この基準は慎重または無神経な政策立案者に対応することができる。 QoTEを特定することの課題は、実験データにおいても回復が困難である対実的な結果の共分散に関する知識の要求にある。 したがって、不確実性をモデル化する上で堅牢なミニマックスポリシーを導入する。 仮定を特定できる範囲は、より情報的なポリシーを生み出すのに利用できる。 確率的・決定論的政策の双方において,提案する政策の実施を後悔する漸近的境界を確立する。 シミュレーションと2つの経験的応用において、QoTEに基づく最適決定と他の基準に基づく決定を比較する。 この枠組みは、福祉が潜在的な成果の共役分布の関数として定義されるあらゆる状況に一般化することができる。

In this paper, we explore optimal treatment allocation policies that target distributional welfare. Most literature on treatment choice has considered utilitarian welfare based on the conditional average treatment effect (ATE). While average welfare is intuitive, it may yield undesirable allocations especially when individuals are heterogeneous (e.g., with outliers) - the very reason individualized treatments were introduced in the first place. This observation motivates us to propose an optimal policy that allocates the treatment based on the conditional quantile of individual treatment effects (QoTE). Depending on the choice of the quantile probability, this criterion can accommodate a policymaker who is either prudent or negligent. The challenge of identifying the QoTE lies in its requirement for knowledge of the joint distribution of the counterfactual outcomes, which is generally hard to recover even with experimental data. Therefore, we introduce minimax policies that are robust to model uncertainty. A range of identifying assumptions can be used to yield more informative policies. For both stochastic and deterministic policies, we establish the asymptotic bound on the regret of implementing the proposed policies. In simulations and two empirical applications, we compare optimal decisions based on the QoTE with decisions based on other criteria. The framework can be generalized to any setting where welfare is defined as a functional of the joint distribution of the potential outcomes.
翻訳日:2024-01-31 18:25:25 公開日:2024-01-30
# 炭化ケイ素における核スピン量子ビットの高忠実性光読み出し

High fidelity optical readout of a nuclear spin qubit in Silicon Carbide ( http://arxiv.org/abs/2401.04465v2 )

ライセンス: Link先を確認
Erik Hesselmeier, Pierre Kuna, Wolfgang Knolle, Florian Kaiser, Nguyen Tien Son, Misagh Ghezellou, Jawad Ul-Hassan, Vadim Vorobyov, J\"org Wrachtrup(参考訳) 量子状態の読み取りはqubitプラットフォームの成功にとって重要な要件である。 本研究では、繰り返し読み出し手法に基づくv2中心核スピンの高忠実度量子状態読み出しを実証する。 最大99.5$\,\%$ readout fidelity と 99$\,\%$ の状態準備をデモした。 この効率的な読み出しを用いて、測定により核スピンを初期化し、ラビとラムジーの栄養を実証する。 最後に、弱結合二原子核スピン浴の量子センシングへの応用に、核スピンを長寿命メモリとして用いる。

Quantum state readout is a key requirement for a successful qubit platform. In this work we demonstrate a high fidelity quantum state readout of a V2 center nuclear spin based on a repetitive readout technique. We demonstrate up to 99.5$\,\%$ readout fidelity and 99$\,\%$ for state preparation. Using this efficient readout we initialise the nuclear spin by measurement and demonstrate its Rabi and Ramsey nutation. Finally, we use the nuclear spin as a long lived memory for quantum sensing application of weakly coupled diatomic nuclear spin bath.
翻訳日:2024-01-31 18:17:58 公開日:2024-01-30
# 自己再現による非定常テクスチャの生成

Generating Non-Stationary Textures using Self-Rectification ( http://arxiv.org/abs/2401.02847v2 )

ライセンス: Link先を確認
Yang Zhou, Rongjun Xiao, Dani Lischinski, Daniel Cohen-Or, Hui Huang(参考訳) 本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。 本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正し,合成の初期目標を達成できる新しい2段階アプローチを提案する。 その後,提案手法は「自己再現化」と呼ばれ,その対象をコヒーレントでシームレスなテクスチャに自動精製し,参照例の視覚的特徴を忠実に保存する。 提案手法は,事前学習した拡散ネットワークを活用し,自己保持機構を用いて,合成したテクスチャを基準に徐々に整列させ,得られた対象構造を確実に保持する。 実験的な検証により,非定常テクスチャの処理に優れた技術を示し,既存の最先端技術と比較してテクスチャ合成の著しい進歩を示す。 コードはhttps://github.com/xiaorongjun000/Self-Rectificationで入手できる。

This paper addresses the challenge of example-based non-stationary texture synthesis. We introduce a novel twostep approach wherein users first modify a reference texture using standard image editing tools, yielding an initial rough target for the synthesis. Subsequently, our proposed method, termed "self-rectification", automatically refines this target into a coherent, seamless texture, while faithfully preserving the distinct visual characteristics of the reference exemplar. Our method leverages a pre-trained diffusion network, and uses self-attention mechanisms, to gradually align the synthesized texture with the reference, ensuring the retention of the structures in the provided target. Through experimental validation, our approach exhibits exceptional proficiency in handling non-stationary textures, demonstrating significant advancements in texture synthesis when compared to existing state-of-the-art techniques. Code is available at https://github.com/xiaorongjun000/Self-Rectification
翻訳日:2024-01-31 18:17:49 公開日:2024-01-30
# LLMから会話エージェントへ:大規模言語モデルの微調整によるメモリ拡張アーキテクチャ

From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2401.02777v2 )

ライセンス: Link先を確認
Na Liu, Liangyu Chen, Xiaoyu Tian, Wei Zou, Kaijiang Chen, Ming Cui(参考訳) 本稿では,GPT-4のような大規模言語モデル(LLM)を対話エージェントに統合する高度なアーキテクチャであるRAISE(Reasoning and Acting through Scratchpad and Examples)を紹介する。 ReActフレームワークの強化であるRAISEは、会話におけるコンテキストと連続性を維持するために、人間の短期記憶と長期記憶をミラーするデュアルコンポーネントメモリシステムを備えている。 会話の選択、シーン抽出、CoT補完、Scene Augmentationなどのフェーズを含む包括的なエージェント構築シナリオが含まれており、LLMsトレーニングフェーズにつながっている。 このアプローチは複雑なマルチターン対話におけるエージェント制御性と適応性を高める。 不動産販売のコンテキストにおける当社の予備的な評価は、augmentが従来のエージェントよりもいくつかの利点があることを示唆している。 この研究は、よりコンテキスト対応で多用途な会話エージェントを開発するための堅牢なフレームワークを提供することで、ai分野に貢献する。

This paper introduces RAISE (Reasoning and Acting through Scratchpad and Examples), an advanced architecture enhancing the integration of Large Language Models (LLMs) like GPT-4 into conversational agents. RAISE, an enhancement of the ReAct framework, incorporates a dual-component memory system, mirroring human short-term and long-term memory, to maintain context and continuity in conversations. It entails a comprehensive agent construction scenario, including phases like Conversation Selection, Scene Extraction, CoT Completion, and Scene Augmentation, leading to the LLMs Training phase. This approach appears to enhance agent controllability and adaptability in complex, multi-turn dialogues. Our preliminary evaluations in a real estate sales context suggest that RAISE has some advantages over traditional agents, indicating its potential for broader applications. This work contributes to the AI field by providing a robust framework for developing more context-aware and versatile conversational agents.
翻訳日:2024-01-31 18:17:34 公開日:2024-01-30
# Powerformer: パワーフロー調整のためのセクション適応トランス

Powerformer: A Section-adaptive Transformer for Power Flow Adjustment ( http://arxiv.org/abs/2401.02771v3 )

ライセンス: Link先を確認
Kaixuan Chen and Wei Luo and Shunyu Liu and Yaoquan Wei and Yihe Zhou and Yunpeng Qing and Quan Zhang and Jie Song and Mingli Song(参考訳) 本稿では,送電区間間の電力流量調整のための電力配分の最適化を目的とした,ロバストな電力系統状態表現を学習するための新しい変圧器アーキテクチャを提案する。 特に, 提案手法であるpowerformerは, 従来の変圧器の自己着脱と分離して, 専用の部分適応型注意機構を開発した。 この機構は、電力系統状態と送信部情報とを効果的に統合し、ロバストな状態表現の開発を容易にする。 さらに,電力系統のグラフトポロジーとバスノードの電気特性を考慮することで,グラフニューラルネットワークの伝搬と多要素注意機構の表現性をさらに高めるための2つのカスタマイズ戦略を提案する。 IEEE 118バスシステム、中国の現実的な300バスシステム、9241バスを備えた大規模ヨーロッパシステムを含む3つのパワーシステムシナリオにおいて、Powerformerは複数のベースライン方式よりも優れた性能を示す。

In this paper, we present a novel transformer architecture tailored for learning robust power system state representations, which strives to optimize power dispatch for the power flow adjustment across different transmission sections. Specifically, our proposed approach, named Powerformer, develops a dedicated section-adaptive attention mechanism, separating itself from the self-attention used in conventional transformers. This mechanism effectively integrates power system states with transmission section information, which facilitates the development of robust state representations. Furthermore, by considering the graph topology of power system and the electrical attributes of bus nodes, we introduce two customized strategies to further enhance the expressiveness: graph neural network propagation and multi-factor attention mechanism. Extensive evaluations are conducted on three power system scenarios, including the IEEE 118-bus system, a realistic 300-bus system in China, and a large-scale European system with 9241 buses, where Powerformer demonstrates its superior performance over several baseline methods.
翻訳日:2024-01-31 18:17:17 公開日:2024-01-30
# HAAQI-Net: 補聴器の非侵襲的神経音楽品質評価モデル

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids ( http://arxiv.org/abs/2401.01145v2 )

ライセンス: Link先を確認
Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao(参考訳) 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。 Hearing Aid Audio Quality Index (HAAQI)のような従来の手法とは対照的に、HAAQI-Netは二方向長短期記憶(BLSTM)に注意を払っている。 評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。 このモデルは、音響特徴抽出のために、BEAT(Audio Transformer)から事前訓練された双方向エンコーダ表現を採用する。 HAAQI-Netは、予測されたスコアと地上の真実と比較すると、LCCの0.9368、SRCCの0.9486、平均正方形誤差(MSE)の0.0064を達成している。 ハイパフォーマンスは62.52秒(HAAQI)から2.54秒(HAAQI-Net)に短縮され、補聴器使用者の効率的な音楽品質評価モデルとして機能する。

This paper introduces HAAQI-Net, a non-intrusive deep learning model for music quality assessment tailored to hearing aid users. In contrast to traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It takes an assessed music sample and a hearing loss pattern as input, generating a predicted HAAQI score. The model employs the pre-trained Bidirectional Encoder representation from Audio Transformers (BEATs) for acoustic feature extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a Longitudinal Concordance Correlation (LCC) of 0.9368, Spearman's Rank Correlation Coefficient (SRCC) of 0.9486, and Mean Squared Error (MSE) of 0.0064. Notably, this high performance comes with a substantial reduction in inference time: from 62.52 seconds (by HAAQI) to 2.54 seconds (by HAAQI-Net), serving as an efficient music quality assessment model for hearing aid users.
翻訳日:2024-01-31 18:16:45 公開日:2024-01-30
# 芸術とは何か? マルチプロンプトLCM評価のためのコール

State of What Art? A Call for Multi-Prompt LLM Evaluation ( http://arxiv.org/abs/2401.00595v2 )

ライセンス: Link先を確認
Moran Mizrahi, Guy Kaplan, Dan Malkin, Rotem Dror, Dafna Shahaf, Gabriel Stanovsky(参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な評価ベンチマークの開発につながっている。 これらのベンチマークは通常、特定のタスクで全てのLSMを評価するための単一の命令テンプレートに依存している。 本稿では,3つのベンチマークから20の異なるLLMと39のタスクを含む6.5Mインスタンスを対象とした単発評価により得られた結果の脆さを包括的に解析する。 解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。 特定のユースケース(例えば、LLM開発者と、特定の下流タスクに関心のある開発者)に対する調整された評価基準について議論し、より信頼性が高く有意義なLLM機能の評価を保証する。 次に、これらの基準を実装し、複数のモデルの評価を行い、現在のLLMの真の強みと限界についての洞察を提供する。

Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific task. In this paper, we comprehensively analyze the brittleness of results obtained via single-prompt evaluations across 6.5M instances, involving 20 different LLMs and 39 tasks from 3 benchmarks. To improve robustness of the analysis, we propose to evaluate LLMs with a set of diverse prompts instead. We discuss tailored evaluation metrics for specific use cases (e.g., LLM developers vs. developers interested in a specific downstream task), ensuring a more reliable and meaningful assessment of LLM capabilities. We then implement these criteria and conduct evaluations of multiple models, providing insights into the true strengths and limitations of current LLMs.
翻訳日:2024-01-31 18:16:24 公開日:2024-01-30
# I2V-Adapter:拡散モデルのための一般画像から映像への適応器

I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models ( http://arxiv.org/abs/2312.16693v2 )

ライセンス: Link先を確認
Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Pengfei Wan, Di Zhang, Yufan Liu, Weiming Hu, Zhengjun Zha, Haibin Huang, Chongyang Ma(参考訳) i2v(text-guided image-to-video)生成は、入力画像のアイデンティティを保持し、意味的に入力プロンプトと整合するコヒーレントビデオの生成を目的としている。 既存の方法では、トレーニング済みのテキスト・トゥ・ビデオ(T2V)モデルを拡張して、モデルに入力される前に、画像とノイズ付きビデオフレームをチャンネルワイズに結合するか、あるいは、トレーニング済みの画像エンコーダによって生成された画像埋め込みをクロスアテンションモジュールに注入する。 しかしながら、前者のアプローチでは、事前訓練されたT2Vモデルの基本的な重みを変える必要がしばしばあり、これにより、オープンソースコミュニティ内のモデルの互換性が制限され、モデルの事前の知識が破壊される。 一方、後者は通常、入力画像のアイデンティティを保持することに失敗する。 このような制限を克服するために、I2V-Adapterを提案する。 I2V-Adapterは、予め訓練されたT2Vモデルを変更することなく、入力画像の同一性を保ちながら、後続のノイズフレームに適応的に伝播する。 特に、I2V-Adapterはトレーニング可能なパラメータをいくつか導入するだけで、トレーニングコストを大幅に軽減し、既存のコミュニティ主導のパーソナライズされたモデルとコントロールツールとの互換性を確保する。 さらに,2つの調整可能な制御係数による動画の動作振幅と安定性のバランスをとるために,新しいフレーム類似性を提案する。 実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。 このパフォーマンスと、その俊敏性と適応性は、特にパーソナライズされ制御可能なアプリケーションにおいて、I2Vの分野ではかなり進歩している。

Text-guided image-to-video (I2V) generation aims to generate a coherent video that preserves the identity of the input image and semantically aligns with the input prompt. Existing methods typically augment pretrained text-to-video (T2V) models by either concatenating the image with noised video frames channel-wise before being fed into the model or injecting the image embedding produced by pretrained image encoders in cross-attention modules. However, the former approach often necessitates altering the fundamental weights of pretrained T2V models, thus restricting the model's compatibility within the open-source communities and disrupting the model's prior knowledge. Meanwhile, the latter typically fails to preserve the identity of the input image. We present I2V-Adapter to overcome such limitations. I2V-Adapter adeptly propagates the unnoised input image to subsequent noised frames through a cross-frame attention mechanism, maintaining the identity of the input image without any changes to the pretrained T2V model. Notably, I2V-Adapter only introduces a few trainable parameters, significantly alleviating the training cost and also ensures compatibility with existing community-driven personalized models and control tools. Moreover, we propose a novel Frame Similarity Prior to balance the motion amplitude and the stability of generated videos through two adjustable control coefficients. Our experimental results demonstrate that I2V-Adapter is capable of producing high-quality videos. This performance, coupled with its agility and adaptability, represents a substantial advancement in the field of I2V, particularly for personalized and controllable applications.
翻訳日:2024-01-31 18:15:38 公開日:2024-01-30
# テキスト・画像拡散モデルのセマンティックガイダンスチューニング

Semantic Guidance Tuning for Text-To-Image Diffusion Models ( http://arxiv.org/abs/2312.15964v2 )

ライセンス: Link先を確認
Hyun Kang, Dohae Lee, Myungjin Shin, In-Kwon Lee(参考訳) テキスト・ツー・イメージ(t2i)拡散モデルの最近の進歩は、ゼロショット一般化機能を備えた高品質画像の生成において素晴らしい成功を収めている。 しかし、現在のモデルはプロンプトセマンティクスに密着するのに苦労しており、しばしば特定の属性を誤って表現したり、見落としたりしている。 そこで本研究では,推論中の拡散モデルの誘導方向を変調する簡易な学習自由アプローチを提案する。 まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。 私たちの重要な観察は、モデルがプロンプトセマンティクスに固執することの偏差は、これらの概念の1つまたは複数のガイダンスの相違と高い相関関係にあるということです。 この観察に基づいて,モデルが発散する任意の概念に対して,誘導方向を制御する手法を考案する。 広汎な実験により,拡散モデルにより生成された画像のセマンティックアライメントがプロンプトに応答して向上することが確認された。 プロジェクトページはhttps://korguy.github.io/。

Recent advancements in Text-to-Image (T2I) diffusion models have demonstrated impressive success in generating high-quality images with zero-shot generalization capabilities. Yet, current models struggle to closely adhere to prompt semantics, often misrepresenting or overlooking specific attributes. To address this, we propose a simple, training-free approach that modulates the guidance direction of diffusion models during inference. We first decompose the prompt semantics into a set of concepts, and monitor the guidance trajectory in relation to each concept. Our key observation is that deviations in model's adherence to prompt semantics are highly correlated with divergence of the guidance from one or more of these concepts. Based on this observation, we devise a technique to steer the guidance direction towards any concept from which the model diverges. Extensive experimentation validates that our method improves the semantic alignment of images generated by diffusion models in response to prompts. Project page is available at: https://korguy.github.io/
翻訳日:2024-01-31 18:15:05 公開日:2024-01-30
# 強化学習

Reinforcement Unlearning ( http://arxiv.org/abs/2312.15910v2 )

ライセンス: Link先を確認
Dayong Ye, Tianqing Zhu, Congcong Zhu, Derui Wang, Minhui Xue, Sheng Shen, Wanlei Zhou(参考訳) 機械学習とは、データ所有者からの削除要求に基づいて、特定のトレーニングデータの影響を緩和するプロセスを指す。 しかし、未学習の研究で見過ごされてきた重要な分野は強化学習である。 強化学習は、エージェントが累積報酬を最大化するために環境内で最適な決定を行うように訓練することに焦点を当てる。 訓練の間、エージェントは環境の特徴を記憶しがちであり、プライバシーに関する重大な懸念を引き起こす。 データ保護規則に従って、環境の所有者はエージェントのトレーニングデータへのアクセスを無効化する権利を有しており、それによって新しい研究分野である'emph{reinforcement unlearning} の開発が必要とされる。 強化アンラーニングは、個々のデータサンプルではなく、環境全体を無効にすることです。 この独特の特徴は3つの異なる課題をもたらす。 1)環境のための未学習スキームの提案方法 2) 残りの環境におけるエージェントの性能の低下を回避する方法 3)未学習の有効性を評価する方法。 これらの課題に取り組むため,我々は2つの強化アンラーニング手法を提案する。 第1の方法は、エージェントが以前獲得した知識を徐々に消去することを目的とした、デクリメント強化学習に基づいている。 第2の方法は、環境中毒攻撃を利用して、エージェントが学習環境を正しくなくすための新しい知識を学ぶように促す。 特に,第3の課題に取り組むために,「環境推論攻撃」の概念を導入し,未学習の結果を評価する。 ソースコードは \url{https://anonymous.4open.science/r/reinforcement-unlearning-d347} で入手できる。

Machine unlearning refers to the process of mitigating the influence of specific training data on machine learning models based on removal requests from data owners. However, one important area that has been largely overlooked in the research of unlearning is reinforcement learning. Reinforcement learning focuses on training an agent to make optimal decisions within an environment to maximize its cumulative rewards. During the training, the agent tends to memorize the features of the environment, which raises a significant concern about privacy. As per data protection regulations, the owner of the environment holds the right to revoke access to the agent's training data, thus necessitating the development of a novel and pressing research field, known as \emph{reinforcement unlearning}. Reinforcement unlearning focuses on revoking entire environments rather than individual data samples. This unique characteristic presents three distinct challenges: 1) how to propose unlearning schemes for environments; 2) how to avoid degrading the agent's performance in remaining environments; and 3) how to evaluate the effectiveness of unlearning. To tackle these challenges, we propose two reinforcement unlearning methods. The first method is based on decremental reinforcement learning, which aims to erase the agent's previously acquired knowledge gradually. The second method leverages environment poisoning attacks, which encourage the agent to learn new, albeit incorrect, knowledge to remove the unlearning environment. Particularly, to tackle the third challenge, we introduce the concept of ``environment inference attack'' to evaluate the unlearning outcomes. The source code is available at \url{https://anonymous.4open.science/r/Reinforcement-Unlearning-D347}.
翻訳日:2024-01-31 18:14:46 公開日:2024-01-30
# 価格の因果予測

Causal Forecasting for Pricing ( http://arxiv.org/abs/2312.15282v3 )

ライセンス: Link先を確認
Douglas Schultz, Johannes Stephan, Julian Sieber, Trudie Yeh, Manuel Kunz, Patrick Doupe, Tim Januschowski(参考訳) 本稿では,価格条件下での需要予測手法を提案する。 ここで、価格を需要に対する入力変数として因果関係のモデル化は、小売業者が下流意思決定問題において(営利的な)最適価格設定を目指すため、重要である。 提案手法は,因果推論のためのダブル機械学習手法と,最先端のトランスフォーマーに基づく予測モデルを組み合わせたものである。 広範にわたる実験実験において,本手法は人工的かつ現実的なデータを用いて,完全に制御された環境での因果効果を推定する。 一方,本手法がオフ・ポリシー・セッティング(つまり価格設定の変更がある場合)において予測手法を上回っており,オン・ポリシー・セッティングではわずかに遅れていることを実世界データで実証する。

This paper proposes a novel method for demand forecasting in a pricing context. Here, modeling the causal relationship between price as an input variable to demand is crucial because retailers aim to set prices in a (profit) optimal manner in a downstream decision making problem. Our methods bring together the Double Machine Learning methodology for causal inference and state-of-the-art transformer-based forecasting models. In extensive empirical experiments, we show on the one hand that our method estimates the causal effect better in a fully controlled setting via synthetic, yet realistic data. On the other hand, we demonstrate on real-world data that our method outperforms forecasting methods in off-policy settings (i.e., when there's a change in the pricing policy) while only slightly trailing in the on-policy setting.
翻訳日:2024-01-31 18:14:21 公開日:2024-01-30
# Auto311:非緊急呼び出しのための信頼誘導自動システム

Auto311: A Confidence-guided Automated System for Non-emergency Calls ( http://arxiv.org/abs/2312.14185v2 )

ライセンス: Link先を確認
Zirong Chen, Xutong Sun, Yuanhe Li, Meiyi Ma(参考訳) 緊急時及び非緊急時対応システムは、自治体が提供し、生活、環境、財産を保護するのに不可欠なサービスである。 非緊急呼び出しの効果的な処理は、公共の安全と幸福のために重要である。 非緊急呼び出し者による負担を軽減することで、911日までに支援を必要としている住民は、迅速かつ効果的な対応を受けることができる。 Collaborating with the Department of Emergency Communications (DEC) in Nashville, we analyzed 11,796 non-emergency call recordings and developed Auto311, the first automated system to handle 311 non-emergency calls, which (1) effectively and dynamically predicts ongoing non-emergency incident types to generate tailored case reports during the call; (2) itemizes essential information from dialogue contexts to complete the generated reports; and (3) strategically structures system-caller dialogues with optimized confidence. 実世界のデータを用いてシステムの有効性とデプロイ性を評価した。 実験の結果,本システムは平均f-1スコア92.54%のインシデントタイプを効果的に予測できることがわかった。 さらに,本システムでは,関連する文脈から重要情報を抽出して報告を完了し,基礎的事実と比較して平均一貫性スコア0.93を達成している。 さらにエミュレーションでは、発話サイズが大きくなるにつれて会話のターンを効果的に減らし、94.49%の平均精度で通話を分類している。

Emergency and non-emergency response systems are essential services provided by local governments and critical to protecting lives, the environment, and property. The effective handling of (non-)emergency calls is critical for public safety and well-being. By reducing the burden through non-emergency callers, residents in critical need of assistance through 911 will receive a fast and effective response. Collaborating with the Department of Emergency Communications (DEC) in Nashville, we analyzed 11,796 non-emergency call recordings and developed Auto311, the first automated system to handle 311 non-emergency calls, which (1) effectively and dynamically predicts ongoing non-emergency incident types to generate tailored case reports during the call; (2) itemizes essential information from dialogue contexts to complete the generated reports; and (3) strategically structures system-caller dialogues with optimized confidence. We used real-world data to evaluate the system's effectiveness and deployability. The experimental results indicate that the system effectively predicts incident type with an average F-1 score of 92.54%. Moreover, the system successfully itemizes critical information from relevant contexts to complete reports, evincing a 0.93 average consistency score compared to the ground truth. Additionally, emulations demonstrate that the system effectively decreases conversation turns as the utterance size gets more extensive and categorizes the ongoing call with 94.49% mean accuracy.
翻訳日:2024-01-31 18:14:08 公開日:2024-01-30
# 行列点過程と一般化体積サンプリングによる重み付き最小二乗近似

Weighted least-squares approximation with determinantal point processes and generalized volume sampling ( http://arxiv.org/abs/2312.14057v2 )

ライセンス: Link先を確認
Anthony Nouy and Bertrand Michel(参考訳) 我々は、与えられた$m$-次元空間の要素による$l^2$ から関数を近似する問題を、ランダム点 $x_1,\dots,x_n$ における関数の評価を用いて、いくつかの特徴写像 $\varphi$ に関連付ける問題を考える。 独立かつ同分布の点を用いた最適重み付き最小二乗法の結果を想起した後,射影行列点過程(dpp)や体積サンプリングを用いた重み付き最小二乗法を考える。 これらの分布は、選択された特徴の多様性を促進する点間の依存を導入する。 まず, サンプル数$n = O(m\log(m))$, つまり, 期待値$L^2$の誤差は, $L^2$の最良の近似誤差の一定倍に制限される。 また、関数がノルム付きベクトル空間 $h$ で連続的に $l^2$ に埋め込まれていると仮定すると、近似が $h$-norm で測定された最良近似誤差によってほぼ確実に有界であることをさらに証明する。 これは、$L^\infty$ あるいは再生カーネルヒルベルト空間からの函数のケースを含む。 最後に、プロジェクションDPP(またはボリュームサンプリング)の独立した繰り返しを用いて、すなわちボリュームサンプリングと同様の誤差境界を出力する代替戦略を提案するが、実際にはサンプル数ははるかに少ない。 数値実験は、異なる戦略のパフォーマンスを例証する。

We consider the problem of approximating a function from $L^2$ by an element of a given $m$-dimensional space $V_m$, associated with some feature map $\varphi$, using evaluations of the function at random points $x_1,\dots,x_n$. After recalling some results on optimal weighted least-squares using independent and identically distributed points, we consider weighted least-squares using projection determinantal point processes (DPP) or volume sampling. These distributions introduce dependence between the points that promotes diversity in the selected features $\varphi(x_i)$. We first provide a generalized version of volume-rescaled sampling yielding quasi-optimality results in expectation with a number of samples $n = O(m\log(m))$, that means that the expected $L^2$ error is bounded by a constant times the best approximation error in $L^2$. Also, further assuming that the function is in some normed vector space $H$ continuously embedded in $L^2$, we further prove that the approximation is almost surely bounded by the best approximation error measured in the $H$-norm. This includes the cases of functions from $L^\infty$ or reproducing kernel Hilbert spaces. Finally, we present an alternative strategy consisting in using independent repetitions of projection DPP (or volume sampling), yielding similar error bounds as with i.i.d. or volume sampling, but in practice with a much lower number of samples. Numerical experiments illustrate the performance of the different strategies.
翻訳日:2024-01-31 18:13:47 公開日:2024-01-30
# インコンテキスト言語学習: アーキテクチャとアルゴリズム

In-Context Language Learning: Architectures and Algorithms ( http://arxiv.org/abs/2401.12973v2 )

ライセンス: Link先を確認
Ekin Aky\"urek, Bailin Wang, Yoon Kim, Jacob Andreas(参考訳) 大規模ニューラルネットワークモデルは、インコンテキスト学習(ICL)において顕著な能力を示し、入力として提供されるデータセットから新しい関数を推論することができる。 現在のICLの理解のほとんどは、線形回帰や連想的リコールといった極めて単純な学習問題に基づいて訓練されたLMから来ています。 これらのモデル問題と、大きなテキストコーパスでトレーニングされたlmsによって提示された「本物の」iclの間には、大きなギャップが残っている。 本稿では、文脈言語学習(icll)におけるモデル問題の新たなファミリーのレンズを通して、iclについて検討する。 icllでは、lmsは形式言語からの文字列の集合で示され、同じ言語から追加文字列を生成する必要がある。 ランダム有限オートマトンによって生成される正規言語の文脈内学習に焦点をあてる。 我々は,通常のicllタスクにおける様々なニューラルネットワークモデル(複数のrnn,トランスフォーマー,状態空間モデルを含む)の評価を行い,(1)どのモデルクラスがicllを経験的に利用できるか,という3つの疑問に答えることを目的としている。 (2) 成功したモデルがicllを実行するために実装するアルゴリズム的ソリューションは何か? 3) パフォーマンスの低いモデルでicllを改善できるアーキテクチャ変更は何ですか? まず、トランスフォーマーがicllタスクで繰り返しあるいは畳み込み表現を持つニューラルネットワークモデルを大幅に上回ることを示す。 次に,入力条件次値分布を計算する特殊なn-gramヘッド (higher-order variants of induction head) にその能力が依存していることを示す。 最後に、これらのヘッドをニューラルネットワークモデルに切り換えることで、ICLLだけでなく、自然言語モデリング -- SlimPajamaデータセットで最大1.14ポイント(6.7%)まで340Mパラメータモデルの複雑度を改善する -- のパフォーマンスが向上することを示す。

Large-scale neural language models exhibit a remarkable capacity for in-context learning (ICL): they can infer novel functions from datasets provided as input. Most of our current understanding of when and how ICL arises comes from LMs trained on extremely simple learning problems like linear regression and associative recall. There remains a significant gap between these model problems and the "real" ICL exhibited by LMs trained on large text corpora, which involves not just retrieval and function approximation but free-form generation of language and other structured outputs. In this paper, we study ICL through the lens of a new family of model problems we term in context language learning (ICLL). In ICLL, LMs are presented with a set of strings from a formal language, and must generate additional strings from the same language. We focus on in-context learning of regular languages generated by random finite automata. We evaluate a diverse set of neural sequence models (including several RNNs, Transformers, and state-space model variants) on regular ICLL tasks, aiming to answer three questions: (1) Which model classes are empirically capable of ICLL? (2) What algorithmic solutions do successful models implement to perform ICLL? (3) What architectural changes can improve ICLL in less performant models? We first show that Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks. Next, we provide evidence that their ability to do so relies on specialized "n-gram heads" (higher-order variants of induction heads) that compute input-conditional next-token distributions. Finally, we show that hard-wiring these heads into neural models improves performance not just on ICLL, but natural language modeling -- improving the perplexity of 340M-parameter models by up to 1.14 points (6.7%) on the SlimPajama dataset.
翻訳日:2024-01-31 18:09:10 公開日:2024-01-30
# 標準ポリソノグラフィーデータと耳内EEG信号の比較分析:予備的検討

Comparison analysis between standard polysomnographic data and in-ear-EEG signals: A preliminary study ( http://arxiv.org/abs/2401.10107v3 )

ライセンス: Link先を確認
Gianpaolo Palo, Luigi Fiorillo, Giuliana Monachino, Michal Bechny, Mark Melnykowycz, Athina Tzovara, Valentina Agostini, and Francesca Dalia Faraci(参考訳) 研究目的: ポリソムノグラフィ(psg)は現在、睡眠障害の評価基準となっている。 その不快さ、家庭利用の非現実性、および睡眠品質評価におけるバイアスの導入は、より侵襲的で費用対効果の低いポータブルな代替品の探索を必要とする。 このセンサーは、快適さ、固定電極位置、電磁干渉に対する耐性、ユーザーフレンドリー性といった面で利点がある。 本研究は,耳内EEG信号と標準PSGの類似性を評価する手法を確立することを目的とする。 方法:PSGと初期EEG由来のハイドノグラムの一致を評価した。 時間領域と周波数領域の特徴をPSGとEEG内30秒のエポックから抽出する。 われわれはPSG-scorersとear-EEG-scorersが合意に達した時期についてのみ検討する。 我々はPSG導出と単一チャネル内EEGの類似性を定量化する手法を提案する。 このアプローチは、Jensen-Shannon Divergence Feature-based similarity Index (JSD-FSI)を介して、選択された機能(各睡眠段階に抽出され、PSGと内EEG信号の両方を対象とする)の分布の比較に依存する。 結果: 内耳波信号の評価において, スコアラーが有していた不確かさが主な原因と考えられた。 覚醒時のPSG信号と耳内EEG信号の類似度は高い(JSD-FSI: 0.61 +/0.06、NREMでは 0.60 +/- 0.07、REMでは 0.51 +/- 0.08)。 結論: In-ear-EEGは在宅睡眠モニタリングに有用なソリューションであるが、より大きく異質なデータセットによるさらなる研究が必要である。

Study Objectives: Polysomnography (PSG) currently serves as the benchmark for evaluating sleep disorders. Its discomfort, impracticality for home-use, and introduction of bias in sleep quality assessment necessitate the exploration of less invasive, cost-effective, and portable alternatives. One promising contender is the in-ear-EEG sensor, which offers advantages in terms of comfort, fixed electrode positions, resistance to electromagnetic interference, and user-friendliness. This study aims to establish a methodology to assess the similarity between the in-ear-EEG signal and standard PSG. Methods: We assess the agreement between the PSG and in-ear-EEG derived hypnograms. We extract features in the time- and frequency- domain from PSG and in-ear-EEG 30-second epochs. We only consider the epochs where the PSG-scorers and the in-ear-EEG-scorers were in agreement. We introduce a methodology to quantify the similarity between PSG derivations and the single-channel in-ear-EEG. The approach relies on a comparison of distributions of selected features -- extracted for each sleep stage and subject on both PSG and the in-ear-EEG signals -- via a Jensen-Shannon Divergence Feature-based Similarity Index (JSD-FSI). Results: We found a high intra-scorer variability, mainly due to the uncertainty the scorers had in evaluating the in-ear-EEG signals. We show that the similarity between PSG and in-ear-EEG signals is high (JSD-FSI: 0.61 +/- 0.06 in awake, 0.60 +/- 0.07 in NREM and 0.51 +/- 0.08 in REM), and in line with the similarity values computed independently on standard PSG-channel-combinations. Conclusions: In-ear-EEG is a valuable solution for home-based sleep monitoring, however further studies with a larger and more heterogeneous dataset are needed.
翻訳日:2024-01-31 18:08:40 公開日:2024-01-30
# メッセージから質問への再構成を用いた電子商取引バイヤーセラーメッセージングにおけるインスタント応答

Instant Answering in E-Commerce Buyer-Seller Messaging using Message-to-Question Reformulation ( http://arxiv.org/abs/2401.09785v2 )

ライセンス: Link先を確認
Besnik Fetahu, Tejas Mehta, Qun Song, Nikhita Vedula, Oleg Rokhlenko, Shervin Malmasi(参考訳) 電子商取引の顧客は、購入決定のための詳細な製品情報を求めることが多い。 この手動応答要求は追加のコストを課し、購入者のショッピング体験を乱し、応答時間は時間から日によって変動する。 我々は、ドメイン特化連合質問応答(qa)システムを用いて、大手電子商店の売り手に対する買い手問い合わせの自動化を目指す。 最大の課題は、単一質問用に設計された現在のQAシステムに、詳細な顧客クエリに対処することである。 我々は、低レイテンシ、シーケンシャル-to-sequenceアプローチ、message-to-question (m2q)でこれに対処する。 メッセージから最も健全な情報を識別して抽出することで、バイヤーメッセージを簡潔な質問に再構成する。 ベースラインに対する評価の結果,M2Qは質問理解において757%,回答率は1,746%の相対的な増加を示した。 ライブ配信では、自動回答は、販売者が年間数百万のメッセージに手動で応答するのを防ぐだけでなく、購入者が返信を待つ必要をなくすことで顧客の購入決定を加速する。

E-commerce customers frequently seek detailed product information for purchase decisions, commonly contacting sellers directly with extended queries. This manual response requirement imposes additional costs and disrupts buyer's shopping experience with response time fluctuations ranging from hours to days. We seek to automate buyer inquiries to sellers in a leading e-commerce store using a domain-specific federated Question Answering (QA) system. The main challenge is adapting current QA systems, designed for single questions, to address detailed customer queries. We address this with a low-latency, sequence-to-sequence approach, MESSAGE-TO-QUESTION ( M2Q ). It reformulates buyer messages into succinct questions by identifying and extracting the most salient information from a message. Evaluation against baselines shows that M2Q yields relative increases of 757% in question understanding, and 1,746% in answering rate from the federated QA system. Live deployment shows that automatic answering saves sellers from manually responding to millions of messages per year, and also accelerates customer purchase decisions by eliminating the need for buyers to wait for a reply
翻訳日:2024-01-31 18:08:06 公開日:2024-01-30
# 空間適応フィルタを用いたスペクトルグラフニューラルネットワークの再考

Rethinking Spectral Graph Neural Networks with Spatially Adaptive Filtering ( http://arxiv.org/abs/2401.09071v2 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Zixian Su, and Rui Zhang(参考訳) スペクトルグラフニューラルネットワーク (gnn) は理論的にスペクトル領域において十分に基礎づけられているが、多項式近似への実用的な依存は空間領域への深い結合を意味する。 これまでの研究では、空間的な観点からスペクトルgnnを調べることは滅多にないが、空間領域の解釈可能性は不明であり、例えば、空間領域内のスペクトルgnnによって本質的にエンコードされる情報は何か? 本稿では,スペクトルフィルタリングと空間アグリゲーションの理論的関係を確立し,スペクトルフィルタリングが空間アグリゲーションのために明示的に計算されたオリジナルのグラフを適応した新しいグラフに暗黙的に導く本質的な相互作用を明らかにする。 理論的および実証的研究の両方で、適応された新しいグラフは非局所性を示すだけでなく、ノード間のラベルの一貫性を反映する符号付きエッジウェイトも備えていることが明らかになった。 これらの結果は、空間領域におけるスペクトルGNNの解釈可能な役割を強調し、グローバル情報を無視した固定順序多項式以外のグラフスペクトルフィルタを再考するきっかけとなった。 理論的な知見に基づいて,最先端のスペクトルgnnを再検討し,補助的非局所アグリゲーションのためのスペクトルフィルタリングにより適応した新しいグラフを利用する空間適応フィルタ(saf)フレームワークを提案する。 特に,提案したSAFは,ノードの類似性と相似性の両方を大域的観点から包括的にモデル化し,長距離依存やグラフヘテロフィリーに関連するGNNの持続的欠陥を緩和する。 13個のノード分類ベンチマークを用いた広範な実験により,提案手法の最先端モデルに対する優位性が示された。

Whilst spectral Graph Neural Networks (GNNs) are theoretically well-founded in the spectral domain, their practical reliance on polynomial approximation implies a profound linkage to the spatial domain. As previous studies rarely examine spectral GNNs from the spatial perspective, their spatial-domain interpretability remains elusive, e.g., what information is essentially encoded by spectral GNNs in the spatial domain? In this paper, to answer this question, we establish a theoretical connection between spectral filtering and spatial aggregation, unveiling an intrinsic interaction that spectral filtering implicitly leads the original graph to an adapted new graph, explicitly computed for spatial aggregation. Both theoretical and empirical investigations reveal that the adapted new graph not only exhibits non-locality but also accommodates signed edge weights to reflect label consistency among nodes. These findings thus highlight the interpretable role of spectral GNNs in the spatial domain and inspire us to rethink graph spectral filters beyond the fixed-order polynomials, which neglect global information. Built upon the theoretical findings, we revisit the state-of-the-art spectral GNNs and propose a novel Spatially Adaptive Filtering (SAF) framework, which leverages the adapted new graph by spectral filtering for an auxiliary non-local aggregation. Notably, our proposed SAF comprehensively models both node similarity and dissimilarity from a global perspective, therefore alleviating persistent deficiencies of GNNs related to long-range dependencies and graph heterophily. Extensive experiments over 13 node classification benchmarks demonstrate the superiority of our proposed framework to the state-of-the-art models.
翻訳日:2024-01-31 18:07:46 公開日:2024-01-30
# 反復質問合成による数学語問題の拡張

Augmenting Math Word Problems via Iterative Question Composing ( http://arxiv.org/abs/2401.09003v3 )

ライセンス: Link先を確認
Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao(参考訳) 数学的推論のための大規模言語モデル(LLM)の進歩にもかかわらず、競合レベルの数学問題を解くことは大きな課題であり、特に外部ツールを持たないオープンソースLLMでは大きな問題である。 本稿では,基本言語モデルの数学的推論能力の向上を目的とした,処理されたWebデータと合成質問応答ペアを組み合わせたMMIQCデータセットを提案する。 MMIQCで微調整されたモデルは、様々なモデルサイズでMATHベンチマークのパフォーマンスにおいて、一貫してそのモデルを上回っている。 特に、Qwen-72B-MMIQCは45.0%の精度を達成し、2023年にリリースされた最初のバージョンであるGPT-4よりも8.2%上回った。 ハンガリー高校のファイナルにおける広範な評価結果から、このような改善は見えないデータに一般化できることが示唆されている。 MMIQCのアブレーション研究により, 改良の大部分は, LLMを用いて種子問題から新たな質問を反復的に合成し, 他のLPMを通して拒絶サンプリングを適用する, 新たな増補法Iterative Question Composing (IQC) によるものであることが明らかとなった。 MMIQCデータセットは、https://huggingface.co/datasets/Vivacem/MMIQCにあるHuggingFaceハブで利用可能である。 私たちのコードはhttps://github.com/iiis-ai/iterativequestioncocomposeで利用可能です。

Despite the advancements in large language models (LLMs) for mathematical reasoning, solving competition-level math problems remains a significant challenge, especially for open-source LLMs without external tools. We introduce the MMIQC dataset, comprising a mixture of processed web data and synthetic question-response pairs, aimed at enhancing the mathematical reasoning capabilities of base language models. Models fine-tuned on MMIQC consistently surpass their counterparts in performance on the MATH benchmark across various model sizes. Notably, Qwen-72B-MMIQC achieves a 45.0% accuracy, exceeding the previous open-source state-of-the-art by 8.2% and outperforming the initial version GPT-4 released in 2023. Extensive evaluation results on Hungarian high school finals suggest that such improvement can generalize to unseen data. Our ablation study on MMIQC reveals that a large part of the improvement can be attributed to our novel augmentation method, Iterative Question Composing (IQC), which involves iteratively composing new questions from seed problems using an LLM and applying rejection sampling through another LLM. The MMIQC dataset is available on the HuggingFace hub at https://huggingface.co/datasets/Vivacem/MMIQC. Our code is available at https://github.com/iiis-ai/IterativeQuestionComposing.
翻訳日:2024-01-31 18:07:16 公開日:2024-01-30
# AI適応画像ラベリングにおけるコンフォーマル予測セットの有用性の評価

Evaluating the Utility of Conformal Prediction Sets for AI-Advised Image Labeling ( http://arxiv.org/abs/2401.08876v2 )

ライセンス: Link先を確認
Dongping Zhang, Angelos Chatzimparmpas, Negar Kamali, and Jessica Hullman(参考訳) ディープニューラルネットワークは高スループット領域に一般的に展開されるため、その解釈可能性の欠如は不確実性定量化を難しくする。 共形予測セット$\unicode{x2013}$aの分布のない不確実性定量化$\unicode{x2013}$aの方法が、aiが助言する意思決定における不確実性を表現するために有効であることを検証した。 大規模なオンライン実験を通じて、共形予測セットの有用性を、AIが推奨する画像ラベリングのためのTop-$とTop-k$の表示と比較する。 予測セットの精度はタスクの難易度に応じて変化し,Top-1$およびTop-k$よりも精度が低いのに対して,予測セットは,特にセットサイズが小さい場合には,人間にアウト・オブ・ディストリビューション(OOD)画像のラベル付けを支援できる。 本研究は,共形予測セットの実際的課題を実証的に特定し,実世界の意思決定にどのように組み込むかを示す。

As deep neural networks are more commonly deployed in high-stakes domains, their lack of interpretability makes uncertainty quantification challenging. We investigate the effects of presenting conformal prediction sets$\unicode{x2013}$a method for generating valid confidence sets in distribution-free uncertainty quantification$\unicode{x2013}$to express uncertainty in AI-advised decision-making. Through a large online experiment, we compare the utility of conformal prediction sets to displays of Top-$1$ and Top-$k$ predictions for AI-advised image labeling. We find that the utility of prediction sets for accuracy varies with the difficulty of the task: while they result in accuracy on par with or less than Top-$1$ and Top-$k$ displays for easy images, prediction sets excel at assisting humans in labeling out-of-distribution (OOD) images especially when the set size is small. Our results empirically pinpoint the practical challenges of conformal prediction sets and provide implications on how to incorporate them for real-world decision-making.
翻訳日:2024-01-31 18:06:49 公開日:2024-01-30
# 人工包摂の錯覚

The illusion of artificial inclusion ( http://arxiv.org/abs/2401.08572v2 )

ライセンス: Link先を確認
William Agnew, A. Stevie Bergman, Jennifer Chien, Mark D\'iaz, Seliem El-Sayed, Jaylen Pittman, Shakir Mohamed, Kevin R. McKee(参考訳) 人間の参加者は、現代の人工知能(AI)技術の発展、心理学、ユーザー研究において中心的な役割を果たす。 生成AIの最近の進歩は、これらの領域における人間の参加者をAIサロゲートに置き換える可能性への関心が高まっている。 このような「代替提案」を調査し、近代的な生成AIによる人間の置換者に対する議論をより深く理解する。 調査・開発作業のコスト削減や収集データの多様性向上といった目標を掲げて,これらの提案の近年の波が示唆されている。 しかし、これらの提案は、表現、包含、理解という、人間と作業の基本的な価値を無視して、最終的に衝突する。 本稿では,人間参加の根底にある原則と目標を批判的に検討し,真に参加者を集中し,力づける将来の仕事の道筋を図解する。

Human participants play a central role in the development of modern artificial intelligence (AI) technology, in psychological science, and in user research. Recent advances in generative AI have attracted growing interest to the possibility of replacing human participants in these domains with AI surrogates. We survey several such "substitution proposals" to better understand the arguments for and against substituting human participants with modern generative AI. Our scoping review indicates that the recent wave of these proposals is motivated by goals such as reducing the costs of research and development work and increasing the diversity of collected data. However, these proposals ignore and ultimately conflict with foundational values of work with human participants: representation, inclusion, and understanding. This paper critically examines the principles and goals underlying human participation to help chart out paths for future work that truly centers and empowers participants.
翻訳日:2024-01-31 18:06:29 公開日:2024-01-30
# RAG対微調整:パイプライン、トレードオフおよび農業の事例研究

RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture ( http://arxiv.org/abs/2401.08406v3 )

ライセンス: Link先を確認
Angels Balaguer, Vinamra Benara, Renato Luiz de Freitas Cunha, Roberto de M. Estev\~ao Filho, Todd Hendry, Daniel Holstein, Jennifer Marsman, Nick Mecklenburg, Sara Malvar, Leonardo O. Nunes, Rafael Padilha, Morris Sharp, Bruno Silva, Swati Sharma, Vijay Aski, Ranveer Chandra(参考訳) 大きな言語モデル(llm)のアプリケーションを構築する際に、開発者がプロプライエタリなデータとドメイン固有のデータを組み込む一般的な方法が2つある。 RAGは外部データでプロンプトを強化し、 fine-Tuning はモデル自体に追加の知識を組み込む。 しかし、両方のアプローチの長所と短所はよく理解されていない。 本稿では、微調整とRAGのためのパイプラインを提案し、Llama2-13B、GPT-3.5、GPT-4を含む複数のLLMのトレードオフを示す。 我々のパイプラインは,PDFから情報を取り出す,質問や回答を生成する,微調整に使用する,GPT-4を利用して結果を評価する,など,複数の段階から構成される。 本稿では,RAGと微調整パイプラインの異なるステージの性能を評価する指標を提案する。 農業データセットに関する詳細な研究を行っている。 産業としての農業はAIの浸透をあまり見ていないが、潜在的に破壊的な応用について研究している。 本研究は,地理固有知識の獲得におけるデータセット生成パイプラインの有効性と,ragと微調整の定量的・質的効果を示す。 モデルを微調整すると精度が6時以上上昇し、RAGにより累積化され、さらに精度が5時まで向上する。 ある特定の実験では、微調整されたモデルが特定の質問に答えるために地理的に情報を活用することを実証し、回答の類似性は47%から72%に増加した。 全体として、LLMを使用して構築されたシステムは、特定の産業にとって重要な分野の知識に反応し、組み込むことができ、他の産業領域におけるLLMのさらなる応用の道を開くことができる。

There are two common ways in which developers are incorporating proprietary and domain-specific data when building applications of Large Language Models (LLMs): Retrieval-Augmented Generation (RAG) and Fine-Tuning. RAG augments the prompt with the external data, while fine-Tuning incorporates the additional knowledge into the model itself. However, the pros and cons of both approaches are not well understood. In this paper, we propose a pipeline for fine-tuning and RAG, and present the tradeoffs of both for multiple popular LLMs, including Llama2-13B, GPT-3.5, and GPT-4. Our pipeline consists of multiple stages, including extracting information from PDFs, generating questions and answers, using them for fine-tuning, and leveraging GPT-4 for evaluating the results. We propose metrics to assess the performance of different stages of the RAG and fine-Tuning pipeline. We conduct an in-depth study on an agricultural dataset. Agriculture as an industry has not seen much penetration of AI, and we study a potentially disruptive application - what if we could provide location-specific insights to a farmer? Our results show the effectiveness of our dataset generation pipeline in capturing geographic-specific knowledge, and the quantitative and qualitative benefits of RAG and fine-tuning. We see an accuracy increase of over 6 p.p. when fine-tuning the model and this is cumulative with RAG, which increases accuracy by 5 p.p. further. In one particular experiment, we also demonstrate that the fine-tuned model leverages information from across geographies to answer specific questions, increasing answer similarity from 47% to 72%. Overall, the results point to how systems built using LLMs can be adapted to respond and incorporate knowledge across a dimension that is critical for a specific industry, paving the way for further applications of LLMs in other industrial domains.
翻訳日:2024-01-31 18:06:14 公開日:2024-01-30
# 図形シンプレクティック代数

Graphical Symplectic Algebra ( http://arxiv.org/abs/2401.07914v2 )

ライセンス: Link先を確認
Robert I. Booth, Titouan Carette, Cole Comfort(参考訳) 任意の体上のアフィンラグランジアンおよび共等方関係のダガーコンパクトプロップに対して完全なプレゼンテーションを行う。 これは、親和性に制約された古典力学系と奇数素次元安定化器量子回路の両方に対して統一的なグラフィカル言語群を提供する。 この目的のために、無向有色グラフの特定のクラスによるアフィンラグランジアン関係を示す。 複合システムを考えるために,これらのグラフの頂点がグラフで色付けされるような,強力なスケーラブルな表記法を導入する。 スタビリサー量子力学の設定において、このスケーラブルな記法により、グラフ状態の非常に簡潔な記述が得られ、これは ‘`phased spider fusion' によって構成できる。 「'' 同様に、電気回路の古典的な機械的設定においては、相互ネットワークのインピーダンス行列は基本的に同じであることを示す。

We give complete presentations for the dagger-compact props of affine Lagrangian and coisotropic relations over an arbitrary field. This provides a unified family of graphical languages for both affinely constrained classical mechanical systems, as well as odd-prime-dimensional stabiliser quantum circuits. To this end, we present affine Lagrangian relations by a particular class of undirected coloured graphs. In order to reason about composite systems, we introduce a powerful scalable notation where the vertices of these graphs are themselves coloured by graphs. In the setting of stabiliser quantum mechanics, this scalable notation gives an extremely concise description of graph states, which can be composed via ``phased spider fusion.'' Likewise, in the classical mechanical setting of electrical circuits, we show that impedance matrices for reciprocal networks are presented in essentially the same way.
翻訳日:2024-01-31 18:05:42 公開日:2024-01-30
# 液晶からの絡み合った光子:波長可変量子光源の新しいパラダイム

Entangled photons from liquid crystals: a new paradigm of tunable quantum light sources ( http://arxiv.org/abs/2401.07362v2 )

ライセンス: Link先を確認
Vitaliy Sultanov, Alja\v{z} Kav\v{c}i\v{c}, Manolis Kokkinakis, Nerea Sebasti\'an, Natan Osterman, Maria V. Chekhova, and Matja\v{z} Humar(参考訳) 液晶が複雑な構造に自己集合する能力、電界に対する強い応答、複雑な光学系への積分性、そして最近は相当な2階の光学非線形性により、様々な線形および非線形光学デバイスの基礎となっている。 しかし、光の量子状態の源としての利用は、これまで研究されていない。 本稿では、強誘電性ネマティック液晶における自発的パラメトリックダウンコンバージョンに基づく、絡み合った光子の効率的な電場可変広帯域源を示す。 光子対の放出速度と偏光状態は、サンプルに沿って数ボルトを印加するか分子配向をねじり、ほぼどんな偏光状態も発生させることで劇的に変化させることができる。 ここで開発された概念は、複雑な位相構造や量子光を生成するマルチピクセルデバイスにまで拡張することができる。

Due to the ability of liquid crystals to self-assemble into complex structures, their strong response to the electric field, integrability into complex optical systems, and recently also considerable second-order optical nonlinearity, they are a base for various linear and nonlinear optical devices. However, their use as sources of quantum states of light has not been explored so far. Here, we demonstrate an efficient electric-field tunable broadband source of entangled photons based on spontaneous parametric down-conversion in a ferroelectric nematic liquid crystal. The emission rate and the polarization state of the photon pairs can be drastically altered by either applying a few volts or twisting the molecular orientation along the sample, enabling the generation of almost any polarization state. The concepts developed here could be extended to complex topological structures and multi-pixel devices generating quantum light.
翻訳日:2024-01-31 18:05:28 公開日:2024-01-30
# groundinggpt:言語拡張マルチモーダルグラウンドモデル

GroundingGPT:Language Enhanced Multi-modal Grounding Model ( http://arxiv.org/abs/2401.06071v4 )

ライセンス: Link先を確認
Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang(参考訳) マルチモーダルな大規模言語モデルは、様々なタスクにおいて異なるモーダルで印象的なパフォーマンスを示している。 しかし、既存のマルチモーダルモデルは、各モーダル内でのグローバルな情報の収集に重点を置いている。 したがって、これらのモデルは入力データの詳細な詳細を効果的に理解する能力がなく、より微妙な理解を必要とするタスクのパフォーマンスを制限している。 この制限に対処するためには、複数のモダリティをまたいできめ細かな理解を可能にし、幅広いタスクに適用性を高めるモデルを開発する必要がある。 本稿では,言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。 他のマルチモーダルモデルのようなグローバルな情報をキャプチャする以外に、提案モデルでは、入力内のローカル情報の詳細な理解を要求するタスクに優れています。 ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。 この目的を達成するために,多様なデータセット構築パイプラインを設計し,モデルトレーニングのためのマルチモーダル・マルチグラニュラ性データセットを作成する。 私たちのモデルのコード、データセット、デモは、https: //github.com/lzw-lzw/GroundingGPTにある。

Multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local information across modalities. Consequently, these models lack the ability to effectively understand the fine-grained details of input data, limiting their performance in tasks that require a more nuanced understanding. To address this limitation, there is a compelling need to develop models that enable fine-grained understanding across multiple modalities, thereby enhancing their applicability to a wide range of tasks. In this paper, we propose GroundingGPT, a language enhanced multi-modal grounding model. Beyond capturing global information like other multi-modal models, our proposed model excels at tasks demanding a detailed understanding of local information within the input. It demonstrates precise identification and localization of specific regions in images or moments in videos. To achieve this objective, we design a diversified dataset construction pipeline, resulting in a multi-modal, multi-granularity dataset for model training. The code, dataset, and demo of our model can be found at https: //github.com/lzw-lzw/GroundingGPT.
翻訳日:2024-01-31 18:05:14 公開日:2024-01-30
# GE-AdvGAN:勾配編集に基づく逆数生成モデルによる逆数サンプルの転送性の向上

GE-AdvGAN: Improving the transferability of adversarial samples by gradient editing-based adversarial generative model ( http://arxiv.org/abs/2401.06031v2 )

ライセンス: Link先を確認
Zhiyu Zhu, Huaming Chen, Xinyi Wang, Jiayu Zhang, Zhibo Jin, Kim-Kwang Raymond Choo, Jun Shen, Dong Yuan(参考訳) GAN(Generative Adversarial Networks)のような逆生成モデルは、画像、テキスト、オーディオなどの様々な種類のデータを生成するために広く応用されている。 そのため、その有望なパフォーマンスは、ホワイトボックスとブラックボックスの攻撃シナリオにおけるGANベースの敵攻撃手法につながった。 転送可能なブラックボックス攻撃の重要性は、さまざまなモデルや設定にまたがって効果的で、現実のアプリケーションとより緊密に連携できる能力にある。 しかし、そのような方法の移譲可能な逆例の観点で性能を維持することは依然として困難である。 一方,いくつかの改良された勾配に基づく移動可能な対向攻撃アルゴリズムは,対向サンプル生成に長時間を要する。 そこで本研究では,アルゴリズムの効率向上を図りながら,逆サンプルの転送性を向上させるため,ge-advganと呼ばれる新しいアルゴリズムを提案する。 主なアプローチは、ジェネレータパラメータのトレーニングプロセスを最適化することである。 機能的および特性的類似性解析により,新しい勾配編集 (ge) 機構を導入し,様々なモデル上で転送可能なサンプルを生成する際にその実現可能性を検証する。 さらに、周波数領域情報を探索して勾配編集方向を決定することにより、GE-AdvGANは、最先端の転送可能な敵攻撃アルゴリズムと比較して、実行時間を最小化しつつ、高い転送可能な対向サンプルを生成することができる。 GE-AdvGANの性能は、異なるデータセットの大規模実験により総合的に評価され、アルゴリズムの優位性を示す。 私たちのアルゴリズムのコードは、https://github.com/LMBTough/GE-advGANで利用可能です。

Adversarial generative models, such as Generative Adversarial Networks (GANs), are widely applied for generating various types of data, i.e., images, text, and audio. Accordingly, its promising performance has led to the GAN-based adversarial attack methods in the white-box and black-box attack scenarios. The importance of transferable black-box attacks lies in their ability to be effective across different models and settings, more closely aligning with real-world applications. However, it remains challenging to retain the performance in terms of transferable adversarial examples for such methods. Meanwhile, we observe that some enhanced gradient-based transferable adversarial attack algorithms require prolonged time for adversarial sample generation. Thus, in this work, we propose a novel algorithm named GE-AdvGAN to enhance the transferability of adversarial samples whilst improving the algorithm's efficiency. The main approach is via optimising the training process of the generator parameters. With the functional and characteristic similarity analysis, we introduce a novel gradient editing (GE) mechanism and verify its feasibility in generating transferable samples on various models. Moreover, by exploring the frequency domain information to determine the gradient editing direction, GE-AdvGAN can generate highly transferable adversarial samples while minimizing the execution time in comparison to the state-of-the-art transferable adversarial attack algorithms. The performance of GE-AdvGAN is comprehensively evaluated by large-scale experiments on different datasets, which results demonstrate the superiority of our algorithm. The code for our algorithm is available at: https://github.com/LMBTough/GE-advGAN
翻訳日:2024-01-31 18:04:53 公開日:2024-01-30
# cosseggaussians: コンパクトでスウィフトなシーンセグメンテーション 3d gaussians with dual feature fusion

CoSSegGaussians: Compact and Swift Scene Segmenting 3D Gaussians with Dual Feature Fusion ( http://arxiv.org/abs/2401.05925v3 )

ライセンス: Link先を確認
Bin Dou, Tianyu Zhang, Yongjia Ma, Zhaohui Wang, Zejian Yuan(参考訳) 我々は,RGB画像のみを入力した高速レンダリング速度で,コンパクトな3D一貫性シーンセグメンテーションを実現する手法であるCoSSegGaussiansとSwift Segmenting 3D Gaussiansを提案する。 これまでのNeRFベースのセグメンテーション手法は、時間を要するニューラルシーン最適化に依存していた。 最近の3次元ガウスのスプラッティングの速度は著しく向上したが、既存のガウスベースのセグメンテーション法はコンパクトマスク、特にゼロショットセグメンテーションの生成に苦労している。 この問題の原因は、学習可能なパラメータを各ガウスに簡単に割り当てることであり、クロスビューの不整合な2dマシン生成ラベルに対する堅牢性が欠如することにある。 本手法は,ガウスのセグメンテーション分野としてデュアル・フィーチャー・フュージョン・ネットワークを用いてこの問題に対処することを目的とする。 具体的には、まずRGB監督下で3Dガウスを最適化する。 Gaussian Locatingの後、画像から抽出したDINO特徴を明示的非投影により適用し、より効率的なポイントクラウド処理ネットワークから空間的特徴を付加する。 特徴集約は、コンパクトなセグメンテーション機能のためのグローバル-ローカル戦略でそれらを融合するために利用される。 実験結果から,本モデルが意味的および単眼的ゼロショットセグメンテーションタスクのベースラインを上回り,一方,NeRF法に比べて10%未満の推論時間を消費することがわかった。 コードやその他の結果はhttps://David-Dou.github.io/CoSSegGaussiansで公開される。

We propose Compact and Swift Segmenting 3D Gaussians(CoSSegGaussians), a method for compact 3D-consistent scene segmentation at fast rendering speed with only RGB images input. Previous NeRF-based segmentation methods have relied on time-consuming neural scene optimization. While recent 3D Gaussian Splatting has notably improved speed, existing Gaussian-based segmentation methods struggle to produce compact masks, especially in zero-shot segmentation. This issue probably stems from their straightforward assignment of learnable parameters to each Gaussian, resulting in a lack of robustness against cross-view inconsistent 2D machine-generated labels. Our method aims to address this problem by employing Dual Feature Fusion Network as Gaussians' segmentation field. Specifically, we first optimize 3D Gaussians under RGB supervision. After Gaussian Locating, DINO features extracted from images are applied through explicit unprojection, which are further incorporated with spatial features from the efficient point cloud processing network. Feature aggregation is utilized to fuse them in a global-to-local strategy for compact segmentation features. Experimental results show that our model outperforms baselines on both semantic and panoptic zero-shot segmentation task, meanwhile consumes less than 10% inference time compared to NeRF-based methods. Code and more results will be available at https://David-Dou.github.io/CoSSegGaussians
翻訳日:2024-01-31 18:04:07 公開日:2024-01-30
# 差動干渉計のための量子増強ヘテロダインリードアウト

Quantum enhanced balanced heterodyne readout for differential interferometry ( http://arxiv.org/abs/2401.04940v2 )

ライセンス: Link先を確認
Daniel W. Gould, Vaishali B. Adya, Sheon S. Y. Chua, Jonas Junker, Dennis Wilken, Terry G. McRae, Bram J. J. Slagmolen, Min Jet Yap, Robert L. Ward, Mich\`ele Heurs, David E. McClelland(参考訳) 従来のヘテロダイン読み出し方式は、3dB信号対雑音のペナルティを回避する技術の実現により再検討されている。 高周波、2モード圧縮状態の適用により、オーディオ帯域信号の読み出し感度をさらに向上させることができる。 本稿では,3dBヘテロダイン信号対雑音ペナルティを回避し,直接光信号の組み合わせによる空間的に異なる2つの干渉計の量子増幅ヘテロダイン読み出し実験を行った。 周波数,スペクトルエンタングル,2モードスクイーズ状態を適用し,3.5dbのインジェクション音声帯域信号のさらなる信号対雑音改善を示す。 この手法は量子制限された高精度の実験に適用でき、量子重力、重力波の検出、波長多重量子通信の探索に応用できる。

Conventional heterodyne readout schemes are now under reconsideration due to the realization of techniques to evade its inherent 3 dB signal-to-noise penalty. The application of high-frequency, spectrally entangled, two-mode squeezed states can further improve the readout sensitivity of audio-band signals. In this paper, we experimentally demonstrate quantum-enhanced heterodyne readout of two spatially distinct interferometers with direct optical signal combination, circumventing the 3 dB heterodyne signal-to-noise penalty. Applying a high-frequency, spectrally entangled, two-mode squeezed state, we show further signal-to-noise improvement of an injected audio band signal of 3.5 dB. This technique is applicable for quantum-limited high-precision experiments, with application to searches for quantum gravity, gravitational wave detection and wavelength-multiplexed quantum communication.
翻訳日:2024-01-31 18:02:49 公開日:2024-01-30
# TwinBooster: 分子特性予測のための大言語モデルのバローツインとグラディエントブースティング

TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction ( http://arxiv.org/abs/2401.04478v2 )

ライセンス: Link先を確認
Maximilian G. Schuh, Davide Boldini, Stephan A. Sieber(参考訳) 医薬品の発見と開発の成功は、分子活性と性質の正確な予測に依存する。 ケイ素の分子特性予測では顕著なポテンシャルが示されているが、その使用法は大量のデータが利用可能なアッセイに限られている。 本研究では,テキスト情報に基づく生物学的アッセイと,新たな自己教師型学習アプローチを用いたシームズニューラルネットワークであるBarlow Twinsを併用した,微調整された大規模言語モデルを用いた。 このアーキテクチャは、測定情報と分子指紋の両方を使って真の分子情報を抽出する。 TwinBoosterは最先端のゼロショット学習タスクを提供することで、目に見えないバイオアッセイや分子の性質の予測を可能にする。 注目すべきは、私たちの人工知能パイプラインがFS-Molベンチマークで優れたパフォーマンスを示していることです。 このブレークスルーは、データは通常不足している重要な特性予測タスクへのディープラーニングの適用を実証している。 薬物の発見および開発における活性分子の早期同定を促進させることにより、この方法は新規治療法の同定を合理化する可能性を秘めている。

The success of drug discovery and development relies on the precise prediction of molecular activities and properties. While in silico molecular property prediction has shown remarkable potential, its use has been limited so far to assays for which large amounts of data are available. In this study, we use a fine-tuned large language model to integrate biological assays based on their textual information, coupled with Barlow Twins, a Siamese neural network using a novel self-supervised learning approach. This architecture uses both assay information and molecular fingerprints to extract the true molecular information. TwinBooster enables the prediction of properties of unseen bioassays and molecules by providing state-of-the-art zero-shot learning tasks. Remarkably, our artificial intelligence pipeline shows excellent performance on the FS-Mol benchmark. This breakthrough demonstrates the application of deep learning to critical property prediction tasks where data is typically scarce. By accelerating the early identification of active molecules in drug discovery and development, this method has the potential to help streamline the identification of novel therapeutics.
翻訳日:2024-01-31 18:02:12 公開日:2024-01-30
# プロンプトデザインとエンジニアリング:序論と先進的手法

Prompt Design and Engineering: Introduction and Advanced Methods ( http://arxiv.org/abs/2401.14423v2 )

ライセンス: Link先を確認
Xavier Amatriain(参考訳) デザインとエンジニアリングの迅速化は、この数ヶ月で重要な分野になった。 本稿では,主な概念と設計アプローチについて紹介する。 また、LSMベースのエージェントを設計するために必要なものまで、より高度な技術を提供しています。 最後に、プロンプトエンジニアリングのための既存のツールのリストを提供することで締めくくります。

Prompt design and engineering has become an important discipline in just the past few months. In this paper, we provide an introduction to the main concepts and design approaches. We also provide more advanced techniques all the way to those needed to design LLM-based agents. We finish by providing a list of existing tools for prompt engineering.
翻訳日:2024-01-31 17:53:20 公開日:2024-01-30
# CreativeSynth:多モード拡散に基づく視覚芸術の創造的ブレンディングと合成

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion ( http://arxiv.org/abs/2401.14066v2 )

ライセンス: Link先を確認
Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu(参考訳) 大規模なテキストから画像への生成モデルは印象的な進歩を遂げ、高品質画像の膨大な配列を合成する能力を示している。 しかし、これらのモデルを芸術的な画像編集に適応させることには、2つの大きな課題がある。 まず、ユーザーは入力画像の視覚的要素を微妙に詳細化するテキストプロンプトを作成するのに苦労する。 第二に、一般的なモデルは、特定の領域で修正を施すとき、しばしば全体的な芸術様式を乱し、結束的で美学的に統一された芸術作品の達成を複雑にする。 これらの障害を克服するために,芸術的画像生成の分野におけるマルチモーダル入力とマルチタスクの協調が可能な拡散モデルに基づく,革新的な統一フレームワークcreativesynthを構築した。 カスタマイズされたアテンションメカニズムを備えたマルチモーダル機能を統合することで、CreativeSynthは、インバージョンとリアルタイムスタイルの転送を通じて、実世界のセマンティックコンテンツをアートドメインにインポートすることを容易にする。 これにより、元のモデルパラメータの整合性を保ちながら、画像スタイルと内容の正確な操作が可能になる。 厳密な質的、定量的な評価は、クリエイティブシントが芸術的イメージの忠実さを増進し、自然の美的本質を保っていることを強調している。 生成モデルと芸術的な微妙さのギャップを埋めることで、CreativeSynthはカスタムデジタルパレットになる。

Large-scale text-to-image generative models have made impressive strides, showcasing their ability to synthesize a vast array of high-quality images. However, adapting these models for artistic image editing presents two significant challenges. Firstly, users struggle to craft textual prompts that meticulously detail visual elements of the input image. Secondly, prevalent models, when effecting modifications in specific zones, frequently disrupt the overall artistic style, complicating the attainment of cohesive and aesthetically unified artworks. To surmount these obstacles, we build the innovative unified framework CreativeSynth, which is based on a diffusion model with the ability to coordinate multimodal inputs and multitask in the field of artistic image generation. By integrating multimodal features with customized attention mechanisms, CreativeSynth facilitates the importation of real-world semantic content into the domain of art through inversion and real-time style transfer. This allows for the precise manipulation of image style and content while maintaining the integrity of the original model parameters. Rigorous qualitative and quantitative evaluations underscore that CreativeSynth excels in enhancing artistic images' fidelity and preserves their innate aesthetic essence. By bridging the gap between generative models and artistic finesse, CreativeSynth becomes a custom digital palette.
翻訳日:2024-01-31 17:52:59 公開日:2024-01-30
# ホログラフィックエントロピー円錐のファセットの2つの無限族

Two infinite families of facets of the holographic entropy cone ( http://arxiv.org/abs/2401.13029v2 )

ライセンス: Link先を確認
Bartlomiej Czech, Yu Liu, Bo Yu(参考訳) 最近証明されたホログラフィックエントロピー不等式無限族は極端に密接であること、すなわちホログラフィックエントロピー円錐の面であることを確認する。 証明は技術的だが、ヒューリスティックな洞察を与える。 星グラフ上では、両方の不等式族は、サブシステムに作用する二面対称性に関して、情報の集中/拡散の程度を定量化する。 さらに、K-基底に見られるトーリック不等式は、四者と六者完全テンソルの間の興味深い相互作用を示す。

We verify that the recently proven infinite families of holographic entropy inequalities are maximally tight, i.e. they are facets of the holographic entropy cone. The proof is technical but it offers some heuristic insight. On star graphs, both families of inequalities quantify how concentrated / spread information is with respect to a dihedral symmetry acting on subsystems. In addition, toric inequalities viewed in the K-basis show an interesting interplay between four-party and six-party perfect tensors.
翻訳日:2024-01-31 17:52:36 公開日:2024-01-30
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v4 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang(参考訳) 本稿では,3次元形状スケルトン化の新規かつ効率的なアプローチであるカバレッジaxis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するために、coverture axis++は、様々な形状表現の計算強度を著しく軽減しながら、内側軸変換(mat)の高精度近似を提供する、骨格点を選択するヒューリスティックなアルゴリズムを提案する。 形状被覆と一様性の両方を考慮し, 単純かつ効果的な方略を導入し, 骨格点を導出する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からはコンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点数の指定、ハイパーパラメータの少ない、再現精度の向上による高効率な計算を可能にした。 幅広い3d形状の広範囲な実験は、カバレッジaxis++の効率と有効性を検証する。 論文が公開されたら、コードは公開される予定だ。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers both shape coverage and uniformity to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. The code will be publicly available once the paper is published.
翻訳日:2024-01-31 17:52:28 公開日:2024-01-30
# コントラスト学習による一貫性強化に基づくディープマルチビュークラスタリング

Consistency Enhancement-Based Deep Multiview Clustering via Contrastive Learning ( http://arxiv.org/abs/2401.12648v2 )

ライセンス: Link先を確認
Hao Yang, Hua Mao, Wai Lok Woo, Jie Chen and Xi Peng(参考訳) マルチビュークラスタリング(mvc)は、複数のビューにまたがる情報を合成することで、データサンプルを有意義なクラスタに分離する。 さらに、ディープラーニングベースのメソッドは、MVCシナリオで強力な機能学習能力を実証しています。 しかし、一貫性を維持しながら機能表現を効果的に一般化することは依然として難題である。 さらに、コントラスト学習に基づく既存の深層クラスタリング手法の多くは、クラスタリングプロセス中のクラスタリング表現の一貫性を見落としている。 本稿では、上記の問題を克服し、コントラスト学習(CCEC)による一貫した拡張に基づく深層MVC法を提案する。 具体的には、複数のビュー間の一貫性のある情報を保持するために、セマンティック接続ブロックを特徴表現に組み込む。 さらに、スペクトルクラスタリングによりクラスタリングの表現プロセスが強化され、複数のビュー間の一貫性が向上する。 5つのデータセットで行った実験は、最先端(SOTA)手法と比較して、本手法の有効性と優位性を示した。 このメソッドのコードはhttps://anonymous.4open.science/r/CCEC-E84E/でアクセスできる。

Multiview clustering (MVC) segregates data samples into meaningful clusters by synthesizing information across multiple views. Moreover, deep learning-based methods have demonstrated their strong feature learning capabilities in MVC scenarios. However, effectively generalizing feature representations while maintaining consistency is still an intractable problem. In addition, most existing deep clustering methods based on contrastive learning overlook the consistency of the clustering representations during the clustering process. In this paper, we show how the above problems can be overcome and propose a consistent enhancement-based deep MVC method via contrastive learning (CCEC). Specifically, semantic connection blocks are incorporated into a feature representation to preserve the consistent information among multiple views. Furthermore, the representation process for clustering is enhanced through spectral clustering, and the consistency across multiple views is improved. Experiments conducted on five datasets demonstrate the effectiveness and superiority of our method in comparison with the state-of-the-art (SOTA) methods. The code for this method can be accessed at https://anonymous.4open.science/r/CCEC-E84E/.
翻訳日:2024-01-31 17:52:06 公開日:2024-01-30
# SLANG: 大規模言語モデルの新たな概念理解

SLANG: New Concept Comprehension of Large Language Models ( http://arxiv.org/abs/2401.12585v2 )

ライセンス: Link先を確認
Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Xueqi Chen(参考訳) 言語の動的な性質は、特にインターネット上のスラングやミームの領域において顕著であり、大規模言語モデル(llm)の適応性に深刻な課題をもたらす。 伝統的に静的データセットに固定されているこれらのモデルは、しばしばオンラインコミュニティの急速な言語進化の特徴に追従するのに苦労する。 この研究は、インターネット上の進化する新しい概念に対するllmsの理解を深め、継続的な再訓練のコストを高くすることなく、このギャップを埋めることの必要性に対処している。 この問題に対処するために、新しいデータを自律的に統合してデータセットを最新に保ち、新興概念の理解におけるLLMの能力を評価できる新しいベンチマーク $\textbf{SLANG}$ と、因果推論を用いて LLM を拡張し、新しいフレーズとそれらの言葉コンテキストを理解するアプローチ $\textbf{FOCUS}$ を提案する。 このベンチマークとアプローチは、コンテキストビーコンとして機能する実際の言語シフトのインスタンスを消化して、新しく出現する表現とその意味の間のより正確で文脈的に関係のある関係を形成する。 実験分析により,我々の因果推論に基づくアプローチは,インターネットスラングとミームの解釈において,精度と関連性の観点から従来のモデルよりも優れていることが示された。

The dynamic nature of language, particularly evident in the realm of slang and memes on the Internet, poses serious challenges to the adaptability of large language models (LLMs). Traditionally anchored to static datasets, these models often struggle to keep up with the rapid linguistic evolution characteristic of online communities. This research addresses the critical need to bridge this gap, aiming to enhance LLMs' comprehension of the evolving new concepts on the internet, without the high cost of continual retraining. To address this issue, we propose a new benchmark $\textbf{SLANG}$, which can autonomously integrates novel data to stay dataset up-to-date, to assess LLMs' capability in comprehending emerging concepts and an approach $\textbf{FOCUS}$, which uses causal inference to enhance LLMs to understand new phrases and their colloquial context. This benchmark and approach involves digesting real-world instances of linguistic shifts, serving as contextual beacons, to form more precise and contextually relevant connections between newly emerging expressions and their intended meanings. The empirical analysis shows that our causal inference-based approach outperforms the traditional models in terms of precision and relevance in the interpretation of internet slang and memes.
翻訳日:2024-01-31 17:51:52 公開日:2024-01-30
# Patch2QL: 自動生成された静的分析ルールによるオープンソースソフトウェアサプライチェーンのコグネート欠陥発見

Patch2QL: Discover Cognate Defects in Open Source Software Supply Chain With Auto-generated Static Analysis Rules ( http://arxiv.org/abs/2401.12443v2 )

ライセンス: Link先を確認
Fuwei Wang, Yongzhi Liu, Zhiqiang Dong(参考訳) オープンソースソフトウェア(oss)エコシステムには複雑なソフトウェアサプライチェーンがあり、開発者は上流と下流に広くコードを借りて再利用する。 これにより、繰り返し発生する欠陥、修正の欠如、および伝播の問題が発生する。 これらは総じてコグネイト欠陥と呼ばれ、その規模と脅威は広範な注意と体系的な研究を受けていない。 ソフトウェア構成分析とコードクローン検出方法は、サプライチェーンのシナリオにおける様々なバリエーションの問題をカバーできないが、コード静的分析や静的アプリケーションセキュリティテスト(SAST)技術は、特定の欠陥を標的とするのに苦労している。 本稿では,sastルールの自動生成によりossのコグネイト欠陥を検出する新しい手法を提案する。 具体的には、構造的な比較と制御フローからデータフロー解析まで、パッチ後バージョンのコードからキー構文とセマンティック情報を抽出し、これらのキー要素にマッチするルールを生成する。 我々はPatch2QLというプロトタイプツールを実装し、それをC/C++の基本OSSに適用した。 実験では、最も人気のあるアップストリームソフトウェアにおいて、中~臨界重大性を備えた7つの新たな脆弱性と、潜在的なセキュリティ問題を発見しました。 サプライチェーンの下流プロジェクトを分析すると、かなりの数のコグネート欠陥が発見され、この問題による脅威を明らかにした。 さらに、汎用的なSASTやシグネチャベースのメカニズムと比較して、生成されたルールはコグネート欠陥のすべての変種を発見するのに優れている。

In the open source software (OSS) ecosystem, there exists a complex software supply chain, where developers upstream and downstream widely borrow and reuse code. This results in the widespread occurrence of recurring defects, missing fixes, and propagation issues. These are collectively referred to as cognate defects, and their scale and threats have not received extensive attention and systematic research. Software composition analysis and code clone detection methods are unable to cover the various variant issues in the supply chain scenario, while code static analysis, or static application security testing (SAST) techniques struggle to target specific defects. In this paper, we propose a novel technique for detecting cognate defects in OSS through the automatic generation of SAST rules. Specifically, it extracts key syntax and semantic information from pre- and post-patch versions of code through structural comparison and control flow to data flow analysis, and generates rules that matches these key elements. We have implemented a prototype tool called Patch2QL and applied it to fundamental OSS in C/C++. In experiments, we discovered 7 new vulnerabilities with medium to critical severity in the most popular upstream software, as well as numerous potential security issues. When analyzing downstream projects in the supply chain, we found a significant number of representative cognate defects, clarifying the threat posed by this issue. Additionally, compared to general-purpose SAST and signature-based mechanisms, the generated rules perform better at discover all variants of cognate defects.
翻訳日:2024-01-31 17:51:28 公開日:2024-01-30
# the great ban: redditの大規模な脱プラットフォーム操作の有効性と意図しない結果

The Great Ban: Efficacy and Unintended Consequences of a Massive Deplatforming Operation on Reddit ( http://arxiv.org/abs/2401.11254v2 )

ライセンス: Link先を確認
Lorenzo Cima, Amaury Trujillo, Marco Avvenuti, Stefano Cresci(参考訳) オンライン虐待や害の現場では、安全で包括的なオンライン空間を育むために効果的なコンテンツモデレーションが必要である。 しかし、多くのモデレーション介入の有効性はまだ不明である。 ここでは、Reddit上で2000近いコミュニティに影響を与えた大規模なデプラットフォーム運用であるThe Great Banの有効性を評価する。 14ヶ月の間に17万のユーザーが投稿した16万件のコメントを分析して、この禁止が望まれているか、その他のかたちで、詳細な結果を提供する。 主な発見は、影響を受けたユーザーの15.6%がRedditを離れ、その毒性を平均6.6%減らしたことである。 この禁止により5%のユーザーがプリバンレベルの70%以上の毒性を上昇させた。 しかし、こうした怒りに満ちたユーザーは、活動の低さと仲間からの支持がほとんどなかったため、Redditに限られた影響を及ぼした可能性が高い。 全体として、当社の多面的結果は、デプラットフォームの有効性に関する新たな洞察を与えてくれます。 本研究は,今後のモデレーション介入やオンラインプラットフォームの警察活動の進展を知らせるものである。

In the current landscape of online abuses and harms, effective content moderation is necessary to cultivate safe and inclusive online spaces. Yet, the effectiveness of many moderation interventions is still unclear. Here, we assess the effectiveness of The Great Ban, a massive deplatforming operation that affected nearly 2,000 communities on Reddit. By analyzing 16M comments posted by 17K users during 14 months, we provide nuanced results on the effects, both desired and otherwise, of the ban. Among our main findings is that 15.6% of the affected users left Reddit and that those who remained reduced their toxicity by 6.6% on average. The ban also caused 5% users to increase their toxicity by more than 70% of their pre-ban level. However, these resentful users likely had limited impact on Reddit due to low activity and little support by peers. Overall, our multifaceted results provide new insights into the efficacy of deplatforming. Our findings can inform the development of future moderation interventions and the policing of online platforms.
翻訳日:2024-01-31 17:51:01 公開日:2024-01-30
# 脳波復号のための深層学習によるユークリッドアライメントの体系的評価

A Systematic Evaluation of Euclidean Alignment with Deep Learning for EEG Decoding ( http://arxiv.org/abs/2401.10746v2 )

ライセンス: Link先を確認
Bruna Junqueira, Bruno Aristimunha, Sylvain Chevallier, Raphael Y. de Camargo(参考訳) 脳波(EEG)信号は脳-コンピュータインタフェース(BCI)タスクに頻繁に使用される。 ディープラーニング(DL)技術は有望な結果を示しているが、かなりのデータ要件によって妨げられている。 複数の被験者のデータを活用することで、転送学習はDLモデルのより効果的なトレーニングを可能にする。 普及しているテクニックは、使いやすさ、計算複雑性の低さ、ディープラーニングモデルとの互換性のため、ユークリッドアライメント(ea)である。 しかし、共有DLモデルと個別DLモデルのトレーニング性能に与える影響を評価する研究はほとんどない。 本研究では,BCI信号の復号化におけるEAとDLの併用効果を系統的に評価する。 EAを用いて複数の被験者のデータを共有モデルで学習し,新しい被験者への伝達性を評価した。 実験の結果,対象対象物の復号化を4.33%改善し,収束時間を70%以上短縮できることがわかった。 また,各被験者の個別モデルを,多数投票型アンサンブル分類器として使用するように訓練した。 このシナリオでは、3モデルアンサンブルの精度が3.7%向上した。 しかし、EAとの共有モデルと比較すると、アンサンブルの精度は3.62%低かった。

Electroencephalography (EEG) signals are frequently used for various Brain-Computer Interface (BCI) tasks. While Deep Learning (DL) techniques have shown promising results, they are hindered by the substantial data requirements. By leveraging data from multiple subjects, transfer learning enables more effective training of DL models. A technique that is gaining popularity is Euclidean Alignment (EA) due to its ease of use, low computational complexity, and compatibility with Deep Learning models. However, few studies evaluate its impact on the training performance of shared and individual DL models. In this work, we systematically evaluate the effect of EA combined with DL for decoding BCI signals. We used EA to train shared models with data from multiple subjects and evaluated its transferability to new subjects. Our experimental results show that it improves decoding in the target subject by 4.33% and decreases convergence time by more than 70%. We also trained individual models for each subject to use as a majority-voting ensemble classifier. In this scenario, using EA improved the 3-model ensemble accuracy by 3.7%. However, when compared to the shared model with EA, the ensemble accuracy was 3.62% lower.
翻訳日:2024-01-31 17:50:45 公開日:2024-01-30
# 低リソースセキュリティ攻撃パターン認識のためのノイズコントラスト推定に基づくマッチングフレームワーク

Noise Contrastive Estimation-based Matching Framework for Low-Resource Security Attack Pattern Recognition ( http://arxiv.org/abs/2401.10337v3 )

ライセンス: Link先を確認
Tu Nguyen, Nedim \v{S}rndi\'c, Alexander Neth(参考訳) TTP(Tactics, Techniques and Procedures)は、テキストの知識ベースで包括的に記述されたサイバーセキュリティドメインの高度な攻撃パターンを表す。 サイバーセキュリティの書き込みにおいてTTPを識別することは、しばしばTTPマッピングと呼ばれ、重要かつ困難なタスクである。 従来の学習アプローチでは、古典的なマルチクラスやマルチラベルの分類設定で問題に対処することが多い。 この設定は、多数のクラス(TTP)、ラベル分布の避けられない歪み、ラベル空間の複雑な階層構造によるモデルの学習能力を妨げている。 そこで,TTPラベルへのテキストの割り当ては,両者の直接的な意味的類似性によって決定されるため,大きなラベル空間にのみ競合することの難しさが軽減される。 そこで本研究では,資源制約に拘わらず,マッチングモデルの学習プロセスを容易にする,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。

Tactics, Techniques and Procedures (TTPs) represent sophisticated attack patterns in the cybersecurity domain, described encyclopedically in textual knowledge bases. Identifying TTPs in cybersecurity writing, often called TTP mapping, is an important and challenging task. Conventional learning approaches often target the problem in the classical multi-class or multilabel classification setting. This setting hinders the learning ability of the model due to a large number of classes (i.e., TTPs), the inevitable skewness of the label distribution and the complex hierarchical structure of the label space. We formulate the problem in a different learning paradigm, where the assignment of a text to a TTP label is decided by the direct semantic similarity between the two, thus reducing the complexity of competing solely over the large labeling space. To that end, we propose a neural matching architecture with an effective sampling-based learn-to-compare mechanism, facilitating the learning process of the matching model despite constrained resources.
翻訳日:2024-01-31 17:50:27 公開日:2024-01-30
# 効率的な報酬モデルアンサンブルによる人間フィードバックからの強化学習の改善

Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble ( http://arxiv.org/abs/2401.16635v1 )

ライセンス: Link先を確認
Shun Zhang, Zhenfang Chen, Sunli Chen, Yikang Shen, Zhiqing Sun, Chuang Gan(参考訳) 人的フィードバックからの強化学習(rlhf)は、大規模言語モデルと人間の価値を整合させるための広く採用されているアプローチである。 しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存しており、不正確な予測につながる可能性がある。 その結果、RLHFは人間の値と不一致な出力を生成することができる。 この問題を軽減するため,報奨モデルによりより正確な予測を行うことができる報奨アンサンブル手法を提案する。 大規模言語モデルに基づく報酬モデルのアンサンブルを用いた場合、線形層アンサンブルやLoRAベースのアンサンブルを含む効率的なアンサンブル手法を探索する。 経験的に、我々は報酬モデルで最良かつ近位政策最適化を実行し、このアンサンブル手法がrlhf出力のアライメント性能を改善するのに役立つことを検証した。

Reinforcement Learning from Human Feedback (RLHF) is a widely adopted approach for aligning large language models with human values. However, RLHF relies on a reward model that is trained with a limited amount of human preference data, which could lead to inaccurate predictions. As a result, RLHF may produce outputs that are misaligned with human values. To mitigate this issue, we contribute a reward ensemble method that allows the reward model to make more accurate predictions. As using an ensemble of large language model-based reward models can be computationally and resource-expensive, we explore efficient ensemble methods including linear-layer ensemble and LoRA-based ensemble. Empirically, we run Best-of-$n$ and Proximal Policy Optimization with our ensembled reward models, and verify that our ensemble methods help improve the alignment performance of RLHF outputs.
翻訳日:2024-01-31 16:56:42 公開日:2024-01-30
# 安全な自動運転のためのビッグデータ駆動3dオブジェクト検出におけるアクティブラーニングの利用の理由と方法:実証的探索

The Why, When, and How to Use Active Learning in Large-Data-Driven 3D Object Detection for Safe Autonomous Driving: An Empirical Exploration ( http://arxiv.org/abs/2401.16634v1 )

ライセンス: Link先を確認
Ross Greer, Bj{\o}rk Antoniussen, Mathias V. Andersen, Andreas M{\o}gelmose, and Mohan M. Trivedi(参考訳) 自動運転データセットにおける3次元オブジェクト検出のためのアクティブラーニング戦略は、データの不均衡、冗長性、高次元データの課題に対処するのに役立つかもしれない。 アノテーションコストの削減とモデル性能の向上を目的としたエントロピークエリの有効性を実証する。 BEVFusionモデルを用いて、nuScenesデータセット上での3次元オブジェクト検出実験を行い、アクティブラーニングとランダムサンプリングを比較し、ほとんどの場合においてエントロピークエリが優れていることを示す。 この方法は、多数派クラスと少数派クラスのパフォーマンスギャップを減らすのに特に効果的である。 クラス固有の分析は、限られたデータ予算に対して注釈付きリソースを効率的に割り当てることを示し、モデルトレーニングのために多様で情報的なデータを選択することの重要性を強調している。 以上より,エントロピークエリは,資源制約環境におけるモデル学習を促進するデータ選択に有望な戦略であることが示唆された。

Active learning strategies for 3D object detection in autonomous driving datasets may help to address challenges of data imbalance, redundancy, and high-dimensional data. We demonstrate the effectiveness of entropy querying to select informative samples, aiming to reduce annotation costs and improve model performance. We experiment using the BEVFusion model for 3D object detection on the nuScenes dataset, comparing active learning to random sampling and demonstrating that entropy querying outperforms in most cases. The method is particularly effective in reducing the performance gap between majority and minority classes. Class-specific analysis reveals efficient allocation of annotated resources for limited data budgets, emphasizing the importance of selecting diverse and informative data for model training. Our findings suggest that entropy querying is a promising strategy for selecting data that enhances model learning in resource-constrained environments.
翻訳日:2024-01-31 16:56:25 公開日:2024-01-30
# サイバー物理システムの安全性の保証について、いくつかの視点から見てきた。

I came, I saw, I certified: some perspectives on the safety assurance of cyber-physical systems ( http://arxiv.org/abs/2401.16633v1 )

ライセンス: Link先を確認
Mithila Sivakumar, Alvine B. Belle, Kimya Khakzad Shahandashti, Oluwafemi Odu, Hadi Hemmati, Segla Kpodjedo, Song Wang, Opeyemi O. Adesina(参考訳) サイバー物理システム(例えば、自律運転システム、無人航空機システム、ロボットシステム)の実行失敗は、生命の喪失、重傷、大規模な環境損傷、資産破壊、そして大きな経済的損失をもたらす可能性がある。 したがって、このようなシステムは通常、設計された重要な要件(例えば、安全性、セキュリティ、信頼性)を効果的にサポートするという強い正当性を必要とする。 したがって、規制機関がそのような制度を認証することを許すために、しばしば説得力のある保証ケースを開発することが義務付けられている。 このような文脈では、保証欠陥の検出、保証ケースの構造改善のパターンへの依存、既存の保証ケース表記の改善、および(半)保証ケースの生成の自動化が、魅力的な保証ケースの開発と消費者の受け入れを促進する鍵となる。 そこで我々は,このような保証イネーブラに関する課題を考察し,それに取り組むために検討できる可能性について概説する。

The execution failure of cyber-physical systems (e.g., autonomous driving systems, unmanned aerial systems, and robotic systems) could result in the loss of life, severe injuries, large-scale environmental damage, property destruction, and major economic loss. Hence, such systems usually require a strong justification that they will effectively support critical requirements (e.g., safety, security, and reliability) for which they were designed. Thus, it is often mandatory to develop compelling assurance cases to support that justification and allow regulatory bodies to certify such systems. In such contexts, detecting assurance deficits, relying on patterns to improve the structure of assurance cases, improving existing assurance case notations, and (semi-)automating the generation of assurance cases are key to develop compelling assurance cases and foster consumer acceptance. We therefore explore challenges related to such assurance enablers and outline some potential directions that could be explored to tackle them.
翻訳日:2024-01-31 16:56:07 公開日:2024-01-30
# ハイブリッド量子回路におけるノイズ誘起相転移

Noise-induced phase transitions in hybrid quantum circuits ( http://arxiv.org/abs/2401.16631v1 )

ライセンス: Link先を確認
Shuo Liu, Ming-Rui Li, Shi-Xin Zhang, Shao-Kai Jian, and Hong Yao(参考訳) 実物理系に固有の量子ノイズの存在は、局所ランダムユニタリとミッドサーキット測定を持つ量子ハイブリッド回路の物理学に大きな影響を与える。 例えば、無限小サイズ非依存ノイズ確率は、測定によって引き起こされる絡み合い位相遷移の消失と、単一の領域ロー位相の出現に繋がる。 このレターでは、サイズ依存確率を持つ量子ノイズの影響を、$\alpha$がスケーリング指数を表す$q=p/l^{\alpha}$で検証する。 我々は,体積法則からパワー(面積)法則への雑音誘起エンタングルメント相転移を,$\alpha=1.0$のときの$p$増加として同定した。 有効統計モデルの助けを借りて、この遷移は1次相転移であり、雑音による符号化遷移と同じ解析的理解を共有する。 また,位相遷移における大きさ依存ノイズと境界雑音の差についても検討する。 安定回路シミュレーションによる解析結果を用いて解析予測を検証した。

The presence of quantum noises inherent to real physical systems can strongly impact the physics in quantum hybrid circuits with local random unitaries and mid-circuit measurements. For example, an infinitesimal size-independent noise probability can lead to the disappearance of measurement-induced entanglement phase transition and the emergence of a single area-law phase. In this Letter, we investigate the effects of quantum noises with size-dependent probabilities $q=p/L^{\alpha}$ where $\alpha$ represents the scaling exponent. We have identified a noise-induced entanglement phase transition from a volume law to a power (area) law in the presence (absence) of measurements as $p$ increases when $\alpha=1.0$. With the help of an effective statistical model, we find that this transition is a first-order phase transition and shares the same analytical understanding as the noise-induced coding transition. We also discuss the differences between the effect of size-dependent noise and the boundary noise in the phase transitions. We validate our analytical predictions with extensive numerical results from stabilizer circuit simulations.
翻訳日:2024-01-31 16:55:48 公開日:2024-01-30
# スパースバイオデータのための高速デュアル正規化オートエンコーダ

Fast Dual-Regularized Autoencoder for Sparse Biological Data ( http://arxiv.org/abs/2401.16664v1 )

ライセンス: Link先を確認
Aleksandar Poleksic(参考訳) スパースデータからの相関推論は、製品レコメンデーションから薬物発見まで幅広い応用において重要な課題である。 最近提案されたスパース行列完備化の線形モデルでは、より洗練されたレコメンデータシステムアルゴリズムよりも高速で精度が高いことが示されている。 本稿では,線形モデルを拡張し,近傍正規化行列補完問題に対する浅層オートエンコーダを開発する。 我々は,既存の最先端技術に対するアプローチのスピードと精度の利点を,薬物・標的相互作用の予測と薬剤・病原体関連において示している。

Relationship inference from sparse data is an important task with applications ranging from product recommendation to drug discovery. A recently proposed linear model for sparse matrix completion has demonstrated surprising advantage in speed and accuracy over more sophisticated recommender systems algorithms. Here we extend the linear model to develop a shallow autoencoder for the dual neighborhood-regularized matrix completion problem. We demonstrate the speed and accuracy advantage of our approach over the existing state-of-the-art in predicting drug-target interactions and drug-disease associations.
翻訳日:2024-01-31 16:47:07 公開日:2024-01-30
# vr-gs:バーチャルリアリティにおける物理的ダイナミクスを認識可能なガウス型スプラッティングシステム

VR-GS: A Physical Dynamics-Aware Interactive Gaussian Splatting System in Virtual Reality ( http://arxiv.org/abs/2401.16663v1 )

ライセンス: Link先を確認
Ying Jiang, Chang Yu, Tianyi Xie, Xuan Li, Yutao Feng, Huamin Wang, Minchen Li, Henry Lau, Feng Gao, Yin Yang, Chenfanfu Jiang(参考訳) コンシューマー向けバーチャルリアリティ(VR)とMixed Reality(MR)技術が勢いを増すにつれ、3D仮想コンテンツによるエンゲージメントの開発に焦点が当てられている。 残念なことに、これらの仮想空間内のコンテンツ作成、編集、インタラクションのための伝統的な技術は困難に満ちている。 それらはエンジニアリング集約的なだけでなく、広範な専門知識を必要とする傾向があるため、仮想オブジェクト操作のフラストレーションと非効率性が増す。 提案するvr-gsシステムは,人間中心の3dコンテンツインタラクションにおいて飛躍的な進歩を示し,シームレスで直感的なユーザエクスペリエンスを提供する。 物理力学を意識した対話型ガウススプラッティングをバーチャルリアリティ環境で開発し、変形可能なボディシミュレーションと並行して高効率な2レベル埋め込み戦略を構築することにより、VR-GSは高リアルな動的応答でリアルタイム実行を保証する。 我々のバーチャルリアリティーシステムのコンポーネントは、詳細なシーン再構成とオブジェクトセグメンテーションから、マルチビュー画像のインペイント、インタラクティブな物理ベースの編集まで、高効率で効果的に設計されている。 このシステムにはリアルタイムな変形埋め込みと動的シャドウキャスティングが組み込まれており、包括的で魅力的な仮想体験が保証されている。

As consumer Virtual Reality (VR) and Mixed Reality (MR) technologies gain momentum, there's a growing focus on the development of engagements with 3D virtual content. Unfortunately, traditional techniques for content creation, editing, and interaction within these virtual spaces are fraught with difficulties. They tend to be not only engineering-intensive but also require extensive expertise, which adds to the frustration and inefficiency in virtual object manipulation. Our proposed VR-GS system represents a leap forward in human-centered 3D content interaction, offering a seamless and intuitive user experience. By developing a physical dynamics-aware interactive Gaussian Splatting in a Virtual Reality setting, and constructing a highly efficient two-level embedding strategy alongside deformable body simulations, VR-GS ensures real-time execution with highly realistic dynamic responses. The components of our Virtual Reality system are designed for high efficiency and effectiveness, starting from detailed scene reconstruction and object segmentation, advancing through multi-view image in-painting, and extending to interactive physics-based editing. The system also incorporates real-time deformation embedding and dynamic shadow casting, ensuring a comprehensive and engaging virtual experience.Our project page is available at: https://yingjiang96.github.io/VR-GS/.
翻訳日:2024-01-31 16:46:58 公開日:2024-01-30
# コンバウンディングを可能にするLiNGAMの一般化

Generalization of LiNGAM that allows confounding ( http://arxiv.org/abs/2401.16661v1 )

ライセンス: Link先を確認
Joe Suzuki and Tian-Le Yang(参考訳) lingamは加算ノイズモデルを用いて変数の順序を原因から効果まで決定するが、コンファウンディングの課題に直面している。 従来はLiNGAMの基本的な構造を維持していたが、コンバウンディングによって影響を受ける変数を特定し、対処しようとした。 その結果、これらの手法は、コンファウンディングの有無に関わらず、重要な計算資源を必要とし、全てのコンファウンド型の検出を確実にしなかった。 これとは対照的に,本論文では,KL分散を用いたコンバウンディングの大きさを定量化し,その影響を最小限に抑える方法であるLiNGAM-MMIを導入することでLiNGAMを強化する。 最短経路問題定式化を通じて、グローバル最適変数次数を効率良く達成する。 LiNGAM-MMIは、相反する状況に効果的に対応しつつも、相反しないシナリオで、従来のLiNGAMと同じくらい効率的にデータを処理します。 実験の結果,lingam-mmiはコンファウンディングの有無に関わらず,より正確に正しい変数順序を決定できることが示唆された。

LiNGAM determines the variable order from cause to effect using additive noise models, but it faces challenges with confounding. Previous methods maintained LiNGAM's fundamental structure while trying to identify and address variables affected by confounding. As a result, these methods required significant computational resources regardless of the presence of confounding, and they did not ensure the detection of all confounding types. In contrast, this paper enhances LiNGAM by introducing LiNGAM-MMI, a method that quantifies the magnitude of confounding using KL divergence and arranges the variables to minimize its impact. This method efficiently achieves a globally optimal variable order through the shortest path problem formulation. LiNGAM-MMI processes data as efficiently as traditional LiNGAM in scenarios without confounding while effectively addressing confounding situations. Our experimental results suggest that LiNGAM-MMI more accurately determines the correct variable order, both in the presence and absence of confounding.
翻訳日:2024-01-31 16:46:34 公開日:2024-01-30
# 歴史を意識した会話難読検索

History-Aware Conversational Dense Retrieval ( http://arxiv.org/abs/2401.16659v1 )

ライセンス: Link先を確認
Fengran Mo, Chen Qu, Kelong Mao, Tianyu Zhu, Zhan Su, Kaiyu Huang, Jian-Yun Nie(参考訳) 会話検索は,ユーザとシステム間のマルチターンインタラクションを可能にすることで,複雑な情報検索を容易にする。 このようなインタラクションをサポートするには、過去の情報に基づいて優れた検索クエリを定式化するために、会話入力の包括的な理解が必要である。 特に、検索クエリには、前の会話のターンから関連する情報を含めるべきである。 しかし,会話高密度検索への現在のアプローチは,会話検索セッション全体を用いて事前学習したアドホック検索を微調整することに大きく依存している。 さらに、既存のアプローチは、既存のデータセット内の手動の監視信号量によって制限される。 上記の課題に対処するため, 歴史的ターンの実際の影響に基づいて, 文脈決定型クエリ再構成と監視信号の自動マイニングという2つのアイデアを取り入れた, 歴史認識型会話用Dense Retrieval (HAConvDR) システムを提案する。 2つの公開対話型検索データセットに関する実験は、特にトピックシフトとの長い会話において、haconvdrの履歴モデリング能力の向上を示している。

Conversational search facilitates complex information retrieval by enabling multi-turn interactions between users and the system. Supporting such interactions requires a comprehensive understanding of the conversational inputs to formulate a good search query based on historical information. In particular, the search query should include the relevant information from the previous conversation turns. However, current approaches for conversational dense retrieval primarily rely on fine-tuning a pre-trained ad-hoc retriever using the whole conversational search session, which can be lengthy and noisy. Moreover, existing approaches are limited by the amount of manual supervision signals in the existing datasets. To address the aforementioned issues, we propose a History-Aware Conversational Dense Retrieval (HAConvDR) system, which incorporates two ideas: context-denoised query reformulation and automatic mining of supervision signals based on the actual impact of historical turns. Experiments on two public conversational search datasets demonstrate the improved history modeling capability of HAConvDR, in particular for long conversations with topic shifts.
翻訳日:2024-01-31 16:46:15 公開日:2024-01-30
# OWSM v3.1:E-Branchformerに基づくより良く高速なオープンウィスパースタイル音声モデル

OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer ( http://arxiv.org/abs/2401.16658v1 )

ライセンス: Link先を確認
Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe(参考訳) 近年の研究では、透明性とオープンサイエンスを促進するために完全にオープンな基礎モデルが提唱されている。 最初のステップとして、Open Whisperスタイルの音声モデル(OWSM)は、公開データとオープンソースツールキットを使用してOpenAIのWhisperを再現した。 Whisperを再現する目的で、以前のOWSM v1からv3モデルはまだTransformerをベースとしており、他の最先端の音声エンコーダに比べて性能が劣る可能性がある。 本研究では、追加のトレーニングデータなしでOWSMの性能と効率を向上させることを目的とする。 本稿では,E-Branchformerに基づくOWSM v3.1モデルを2つのスケール,すなわち100Mと1Bで提示する。 1bモデルは、一般公開されている最大のe-branchformerベースの音声モデルである。 これは以前のOWSM v3よりも多くの評価ベンチマークで優れており、最大25%高速な推論速度を示している。 データ準備スクリプト、事前トレーニングされたモデル、トレーニングログを公開します。

Recent studies have advocated for fully open foundation models to promote transparency and open science. As an initial step, the Open Whisper-style Speech Model (OWSM) reproduced OpenAI's Whisper using publicly available data and open-source toolkits. With the aim of reproducing Whisper, the previous OWSM v1 through v3 models were still based on Transformer, which might lead to inferior performance compared to other state-of-the-art speech encoders. In this work, we aim to improve the performance and efficiency of OWSM without extra training data. We present E-Branchformer based OWSM v3.1 models at two scales, i.e., 100M and 1B. The 1B model is the largest E-Branchformer based speech model that has been made publicly available. It outperforms the previous OWSM v3 in a vast majority of evaluation benchmarks, while demonstrating up to 25% faster inference speed. We publicly release the data preparation scripts, pre-trained models and training logs.
翻訳日:2024-01-31 16:45:56 公開日:2024-01-30
# Markov Chain Monte Carloによる大規模言語モデルからのメンタル表現の復元

Recovering Mental Representations from Large Language Models with Markov Chain Monte Carlo ( http://arxiv.org/abs/2401.16657v1 )

ライセンス: Link先を確認
Jian-Qiao Zhu and Haijiang Yan and Thomas L. Griffiths(参考訳) 人によるサンプリングアルゴリズムのシミュレーションは、心的表現を効率的に探索し理解するために有用な方法であることが証明されている。 そこで本稿では,Large Language Models (LLM) の表現について,同じ手法を用いて検討する。 人間の心的表現を内省的に開示することは常に直接的に行うことができるが,LLMをサンプリングアルゴリズムの要素として用いることで,効率の向上が可能であることを示す。 LLMが直接サンプリングとマルコフ連鎖モンテカルロ (MCMC) に尋問されるとき、どのように人間のような表現が復元されるかを探る。 MCMCに基づく適応サンプリングアルゴリズムを用いて,効率と性能を著しく向上させた。 また、ベイズ推論のより一般的な方法である「textit{with} LLM」を導出する手法の可能性も強調する。

Simulating sampling algorithms with people has proven a useful method for efficiently probing and understanding their mental representations. We propose that the same methods can be used to study the representations of Large Language Models (LLMs). While one can always directly prompt either humans or LLMs to disclose their mental representations introspectively, we show that increased efficiency can be achieved by using LLMs as elements of a sampling algorithm. We explore the extent to which we recover human-like representations when LLMs are interrogated with Direct Sampling and Markov chain Monte Carlo (MCMC). We found a significant increase in efficiency and performance using adaptive sampling algorithms based on MCMC. We also highlight the potential of our method to yield a more general method of conducting Bayesian inference \textit{with} LLMs.
翻訳日:2024-01-31 16:45:39 公開日:2024-01-30
# 勾配に基づく言語モデル red teaming

Gradient-Based Language Model Red Teaming ( http://arxiv.org/abs/2401.16656v1 )

ライセンス: Link先を確認
Nevan Wichers, Carson Denison, Ahmad Beirami(参考訳) 赤いチーム化は、生成言語モデル(LM)の弱点を特定する一般的な戦略であり、敵のプロンプトが生成され、LMが安全でない応答を生成する。 赤いチームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。 本稿では,lmが安全でない応答を出力させるおそれのある多彩なプロンプトを自動的に生成する赤のチーム編成手法であるgradient-based red teaming (gbrt)を提案する。 GBRTは、安全分類器でLM応答を評価し、凍結した安全分類器とLMをバックプロパゲーションしてプロンプトを更新することで訓練された即時学習の一形態である。 入力プロンプトのコヒーレンスを改善するために,リアリズム損失を付加する2つの変種を導入し,プロンプトを直接学習するのではなく,事前学習したモデルを用いてプロンプトを生成する。 私たちの実験では、gbrtは強化学習ベースのredチーム編成アプローチよりも、lmが安全でない応答を生成するプロンプトを見つけるのに効果的であり、lmがより安全なアウトプットを生成するように微調整されても成功しています。

Red teaming is a common strategy for identifying weaknesses in generative language models (LMs), where adversarial prompts are produced that trigger an LM to generate unsafe responses. Red teaming is instrumental for both model alignment and evaluation, but is labor-intensive and difficult to scale when done by humans. In this paper, we present Gradient-Based Red Teaming (GBRT), a red teaming method for automatically generating diverse prompts that are likely to cause an LM to output unsafe responses. GBRT is a form of prompt learning, trained by scoring an LM response with a safety classifier and then backpropagating through the frozen safety classifier and LM to update the prompt. To improve the coherence of input prompts, we introduce two variants that add a realism loss and fine-tune a pretrained model to generate the prompts instead of learning the prompts directly. Our experiments show that GBRT is more effective at finding prompts that trigger an LM to generate unsafe responses than a strong reinforcement learning-based red teaming approach, and succeeds even when the LM has been fine-tuned to produce safer outputs.
翻訳日:2024-01-31 16:45:25 公開日:2024-01-30
# Chen-Fliessシリーズによるニューラルオードのラダマッハ複雑性

Rademacher Complexity of Neural ODEs via Chen-Fliess Series ( http://arxiv.org/abs/2401.16655v1 )

ライセンス: Link先を確認
Joshua Hanson, Maxim Raginsky(参考訳) 本稿では, 非線形ODEに対するChen-Fliess級数展開を用いて, 連続深さのニューラルODEモデルを単一層無限幅ネットとしてフレーム化する方法を示す。このネットでは, 無限次元パスをテンソルの列として表現するためのツールである制御入力のシグネチャから出力''重み'を取り出す。 この'機能'は、制御されたODEモデルのベクトル場に対して出力関数のリー微分を反復化したものである。 この研究の主な結果は、初期条件とスカラー出力をある終点でマッピングするodeモデルのラデマッハ複雑性のコンパクト表現を導出するためにこのフレームワークを適用することである。 その結果、単層アーキテクチャで得られる素直な分析を利用する。 いくつかの特定のシステムのバウンダリをインスタンス化し、潜在的なフォローアップ作業について議論する。

We show how continuous-depth neural ODE models can be framed as single-layer, infinite-width nets using the Chen--Fliess series expansion for nonlinear ODEs. In this net, the output ''weights'' are taken from the signature of the control input -- a tool used to represent infinite-dimensional paths as a sequence of tensors -- which comprises iterated integrals of the control input over a simplex. The ''features'' are taken to be iterated Lie derivatives of the output function with respect to the vector fields in the controlled ODE model. The main result of this work applies this framework to derive compact expressions for the Rademacher complexity of ODE models that map an initial condition to a scalar output at some terminal time. The result leverages the straightforward analysis afforded by single-layer architectures. We conclude with some examples instantiating the bound for some specific systems and discuss potential follow-up work.
翻訳日:2024-01-31 16:44:52 公開日:2024-01-30
# 連続強化学習のための世界モデルにおけるリプレイ強化

Augmenting Replay in World Models for Continual Reinforcement Learning ( http://arxiv.org/abs/2401.16650v1 )

ライセンス: Link先を確認
Luke Yang, Levin Kuhlmann, Gideon Kowadlo(参考訳) 連続RLでは、強化学習剤(RL)の環境が変化する。 成功するシステムは、既に学習されたタスク、安定性、そして新しいタスク、可塑性を学習しながらエージェントのパフォーマンスを維持するという相反する要件を適切にバランスさせるべきである。 first-in-first-outバッファは、このような設定での学習を強化するために一般的に使用されるが、大きなメモリを必要とする。 メモリ制約を緩和するバッファへの拡張の適用について検討し、これを世界モデルモデルに基づく強化学習アルゴリズムで利用し、連続学習の促進効果を評価する。 本稿では, Procgen と Atari RL ベンチマークにおける本手法の有効性を評価し,潜在世界モデルにおけるリプレイバッファへの分布マッチングにより,計算オーバーヘッドを大幅に削減した破滅的忘れ込みを効果的に防止できることを示す。 しかし、このようなソリューションが完全に不可能ではないことや、プラスチック性が欠如し、新しいタスクを学習できないといった他の障害モードが、継続的学習システムの潜在的な限界であることも分かっています。

In continual RL, the environment of a reinforcement learning (RL) agent undergoes change. A successful system should appropriately balance the conflicting requirements of retaining agent performance on already learned tasks, stability, whilst learning new tasks, plasticity. The first-in-first-out buffer is commonly used to enhance learning in such settings but requires significant memory. We explore the application of an augmentation to this buffer which alleviates the memory constraints, and use it with a world model model-based reinforcement learning algorithm, to evaluate its effectiveness in facilitating continual learning. We evaluate the effectiveness of our method in Procgen and Atari RL benchmarks and show that the distribution matching augmentation to the replay-buffer used in the context of latent world models can successfully prevent catastrophic forgetting with significantly reduced computational overhead. Yet, we also find such a solution to not be entirely infallible, and other failure modes such as the opposite -- lacking plasticity and being unable to learn a new task -- to be a potential limitation in continual learning systems.
翻訳日:2024-01-31 16:44:22 公開日:2024-01-30
# 行動に基づく仮想現実(vr)認証における動作予測

Using Motion Forecasting for Behavior-Based Virtual Reality (VR) Authentication ( http://arxiv.org/abs/2401.16649v1 )

ライセンス: Link先を確認
Mingjun Li, Natasha Kholgade Banerjee, Sean Banerjee(参考訳) バーチャルリアリティ(VR)環境で対話するユーザのタスクベースの行動生体認証は、人の身体の運動軌跡のみをユニークなシグネチャとして使用することにより、シームレスな連続的な認証を可能にする。 深層学習に基づく行動バイオメトリクスのアプローチは、ユーザの軌道の完全あるいはほぼ完全な部分を使用する場合、高い精度を示すが、タスク開始時からより小さな部分を使用する場合、より低い性能を示す。 したがって、既存の技術で設計されたシステムは、将来のモーショントラジェクタのセグメントが利用可能になるのを待つ間、脆弱である。 そこで本研究では,トランスフォーマーに基づく予測と,予測軌道を用いてユーザ認証を行う第1の手法を提案する。 我々の研究は、タスクベース環境におけるユーザの現在の軌道を考えると、タスク目標達成を妨げてしまうため、ユーザの行動が劇的に変化する可能性が低いため、ユーザの将来の軌道を予測できるという考え方を活用する。 millerなどの41サブジェクトの投球データセットを使用して,予測データを使用する際のユーザ認証の改善を示す。 予測を行わない場合,認証等誤差率(EER)を平均23.85%,最大36.14%削減する。

Task-based behavioral biometric authentication of users interacting in virtual reality (VR) environments enables seamless continuous authentication by using only the motion trajectories of the person's body as a unique signature. Deep learning-based approaches for behavioral biometrics show high accuracy when using complete or near complete portions of the user trajectory, but show lower performance when using smaller segments from the start of the task. Thus, any systems designed with existing techniques are vulnerable while waiting for future segments of motion trajectories to become available. In this work, we present the first approach that predicts future user behavior using Transformer-based forecasting and using the forecasted trajectory to perform user authentication. Our work leverages the notion that given the current trajectory of a user in a task-based environment we can predict the future trajectory of the user as they are unlikely to dramatically shift their behavior since it would preclude the user from successfully completing their task goal. Using the publicly available 41-subject ball throwing dataset of Miller et al. we show improvement in user authentication when using forecasted data. When compared to no forecasting, our approach reduces the authentication equal error rate (EER) by an average of 23.85% and a maximum reduction of 36.14%.
翻訳日:2024-01-31 16:43:56 公開日:2024-01-30
# 大規模言語モデルにおける不整合確率判断

Incoherent Probability Judgments in Large Language Models ( http://arxiv.org/abs/2401.16646v1 )

ライセンス: Link先を確認
Jian-Qiao Zhu and Thomas L. Griffiths(参考訳) 副語予測のために訓練された自己回帰型大言語モデル(LLM)は、コヒーレントテキストの生成に顕著な習熟性を示した。 しかし、それらは等しくコヒーレントな確率判断を形成することに長けているのだろうか? 確率的アイデンティティと繰り返し判定を用いて,LLMによる確率判断の一貫性を評価する。 これらのモデルから得られる判断は、しばしば不整合であり、確率論の規則から人間のような体系的な逸脱を示す。 また、同じ事象を判断しようとすると、llmが生成する確率判断の平均分散関係は、ヒトに見られるような逆u型を示す。 自己回帰型LPMを暗黙のベイズ推定にリンクし,人間の確率判断のベイズ・サンプラーモデルと平行に描画することで,合理性からのこれらの偏差を説明できることを示す。

Autoregressive Large Language Models (LLMs) trained for next-word prediction have demonstrated remarkable proficiency at producing coherent text. But are they equally adept at forming coherent probability judgments? We use probabilistic identities and repeated judgments to assess the coherence of probability judgments made by LLMs. Our results show that the judgments produced by these models are often incoherent, displaying human-like systematic deviations from the rules of probability theory. Moreover, when prompted to judge the same event, the mean-variance relationship of probability judgments produced by LLMs shows an inverted-U-shaped like that seen in humans. We propose that these deviations from rationality can be explained by linking autoregressive LLMs to implicit Bayesian inference and drawing parallels with the Bayesian Sampler model of human probability judgments.
翻訳日:2024-01-31 16:43:17 公開日:2024-01-30
# 混合精度による科学機械学習の高速化とメモリ使用量の削減

Speeding up and reducing memory usage for scientific machine learning via mixed precision ( http://arxiv.org/abs/2401.16645v1 )

ライセンス: Link先を確認
Joel Hayford, Jacob Goldman-Wetzler, Eric Wang, and Lu Lu(参考訳) 科学機械学習(SciML)は、複雑な計算科学と工学の問題に対処するための汎用的なアプローチとして登場した。 この分野では、物理インフォームドニューラルネットワーク(PINN)とディープオペレータネットワーク(DeepONets)が、物理方程式と実験データの両方を組み込むことで偏微分方程式を解く主要な手法である。 しかし、PINNとDeepONetsのトレーニングには、長い計算時間や大量のメモリを含む重要な計算資源が必要である。 計算効率の追求において、従来のシングル(float32)やダブル(float64)よりも半精度(float16)を用いたニューラルネットワークのトレーニングは、計算時間とメモリ消費の削減という本質的な利点から、大きな関心を集めている。 しかし,SciML法では,トレーニング開始時の勾配のばらつき,重量更新がゼロとなること,局所最小値に収束できないことなどから,float16は適用できないことがわかった。 これらの制限を克服するために,float16とfloat32の数値形式を組み合わせてメモリ使用率を削減し,計算速度を向上する手法である混合精度について検討する。 実験の結果,混合精度トレーニングはトレーニング時間とメモリ要求を大幅に削減するだけでなく,モデル精度も維持することがわかった。 また、理論的分析により経験的観察を強化した。 この研究は様々な計算応用においてscimlに広く影響している。

Scientific machine learning (SciML) has emerged as a versatile approach to address complex computational science and engineering problems. Within this field, physics-informed neural networks (PINNs) and deep operator networks (DeepONets) stand out as the leading techniques for solving partial differential equations by incorporating both physical equations and experimental data. However, training PINNs and DeepONets requires significant computational resources, including long computational times and large amounts of memory. In search of computational efficiency, training neural networks using half precision (float16) rather than the conventional single (float32) or double (float64) precision has gained substantial interest, given the inherent benefits of reduced computational time and memory consumed. However, we find that float16 cannot be applied to SciML methods, because of gradient divergence at the start of training, weight updates going to zero, and the inability to converge to a local minima. To overcome these limitations, we explore mixed precision, which is an approach that combines the float16 and float32 numerical formats to reduce memory usage and increase computational speed. Our experiments showcase that mixed precision training not only substantially decreases training times and memory demands but also maintains model accuracy. We also reinforce our empirical observations with a theoretical analysis. The research has broad implications for SciML in various computational applications.
翻訳日:2024-01-31 16:42:27 公開日:2024-01-30
# TeenyTinyLlama: ブラジルでトレーニングされたオープンソースの小さな言語モデル

TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese ( http://arxiv.org/abs/2401.16640v1 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea, Sophia Falk, Shiza Fatimah, Aniket Sen, Nythamar de Oliveira(参考訳) 大規模言語モデル(llm)は、自然言語処理を著しく進歩させたが、その進歩は言語間で均等になっていない。 ほとんどのllmは英語のような高リソース言語で訓練されているが、多言語モデルは一般に単言語モデルより劣っている。 さらに、多言語基盤の側面は、計算要求やライセンス制度のような副産物を制限することもある。 本研究では,低リソース環境での利用に適したオープンソースモデルの開発,その限界,そのメリットについて述べる。 TeenyTinyLlamaペアはブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルである。 私たちはそれらをgithub上でapache 2.0ライセンスの下でリリースし、コミュニティの使用とさらなる開発のためにハグフェイスします。 https://github.com/Nkluge-correa/TeenyTinyLlamaを参照。

Large language models (LLMs) have significantly advanced natural language processing, but their progress has yet to be equal across languages. While most LLMs are trained in high-resource languages like English, multilingual models generally underperform monolingual ones. Additionally, aspects of their multilingual foundation sometimes restrict the byproducts they produce, like computational demands and licensing regimes. In this study, we document the development of open-foundation models tailored for use in low-resource settings, their limitations, and their benefits. This is the TeenyTinyLlama pair: two compact models for Brazilian Portuguese text generation. We release them under the permissive Apache 2.0 license on GitHub and Hugging Face for community use and further development. See https://github.com/Nkluge-correa/TeenyTinyLlama
翻訳日:2024-01-31 16:41:28 公開日:2024-01-30
# 自由変圧器モデルの破断:微調整済みLLMを使わずに一般化性の向上を約束するタスク特化コンテキスト属性

Breaking Free Transformer Models: Task-specific Context Attribution Promises Improved Generalizability Without Fine-tuning Pre-trained LLMs ( http://arxiv.org/abs/2401.16638v1 )

ライセンス: Link先を確認
Stepan Tytarenko, Mohammad Ruhul Amin(参考訳) 特定のデータセット上で訓練済みの大規模言語モデル(LLM)は、自然言語処理(NLP)分類タスクにおいて一般的に使用される戦略である。 しかし、このアプローチは通常、モデルの一般化可能性を失う。 本稿では,タスク固有のコンテキスト属性を利用して,一般化性を維持し,下流タスクの性能を向上させるフレームワークを提案する。 本稿では,タスク固有概念演算子を用いた任意の変換器モデルからのテキスト表現の線形変換が,文脈属性と呼ばれる潜在概念空間への投影をもたらすことを示す。 特定の概念演算子は、新規な損失関数を介して教師付き学習段階で最適化される。 提案フレームワークは,各タスク目的に対するテキスト表現の文脈帰属が識別関数の能力を向上させることにより,分類タスクの性能を向上させることを実証する。 hatexplain, imdb reviews, social media attributionの3つのデータセットにおける実験結果から,提案モデルが精度と一般化性に優れることが示された。 具体的には、HateXplainデータセット上の非微調整BERTに対して、精度8%の改善とF1スコア10%の改善を観察する。 IMDBデータセットとは対照的に、微調整された最先端のXLNetは、精度とF1スコアの両方で1%向上している。 さらに、ドメイン外のクロスデータセットテストでは、提案モデルと合わせてIMDBデータセットに微調整を行い、HateXplainデータセットのF1スコアを7%改善する。 youtubeコメントのソーシャルメディアアトリビューションデータセットでは、f1メトリクスの5.2%の増加が観察されている。 提案されたフレームワークはPyTorchで実装され、GitHubでオープンソースとして提供されている。

Fine-tuning large pre-trained language models (LLMs) on particular datasets is a commonly employed strategy in Natural Language Processing (NLP) classification tasks. However, this approach usually results in a loss of models generalizability. In this paper, we present a framework that allows for maintaining generalizability, and enhances the performance on the downstream task by utilizing task-specific context attribution. We show that a linear transformation of the text representation from any transformer model using the task-specific concept operator results in a projection onto the latent concept space, referred to as context attribution in this paper. The specific concept operator is optimized during the supervised learning stage via novel loss functions. The proposed framework demonstrates that context attribution of the text representation for each task objective can improve the capacity of the discriminator function and thus achieve better performance for the classification task. Experimental results on three datasets, namely HateXplain, IMDB reviews, and Social Media Attributions, illustrate that the proposed model attains superior accuracy and generalizability. Specifically, for the non-fine-tuned BERT on the HateXplain dataset, we observe 8% improvement in accuracy and 10% improvement in F1-score. Whereas for the IMDB dataset, fine-tuned state-of-the-art XLNet is outperformed by 1% for both accuracy and F1-score. Furthermore, in an out-of-domain cross-dataset test, DistilBERT fine-tuned on the IMDB dataset in conjunction with the proposed model improves the F1-score on the HateXplain dataset by 7%. For the Social Media Attributions dataset of YouTube comments, we observe 5.2% increase in F1-metric. The proposed framework is implemented with PyTorch and provided open-source on GitHub.
翻訳日:2024-01-31 16:41:15 公開日:2024-01-30
# IRCoCo: コード補完のための即時リワードガイドによる深層強化学習

IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code Completion ( http://arxiv.org/abs/2401.16637v1 )

ライセンス: Link先を確認
Bolun Li, Zhihong Sun, Tao Huang, Hongyu Zhang, Yao Wan, Ge Li, Zhi Jin, Chen Lyu(参考訳) コード補完は、現在のプログラミングコンテキストに基づいて潜在的なコードを予測することによって、プログラミング生産性を向上させることを目的としている。 近年,この分野では,事前学習型言語モデル (LM) が注目されている。 コード補完のためにsupervised fine-tuning (sft) 技術を用いてlmsを微調整する様々なアプローチが提案されている。 しかし、これらのモデルの固有の露出バイアスは、シーケンス完了の早い段階でエラーが蓄積し、その後の完了でさらにエラーが発生する可能性がある。 この問題に対処するために、深層強化学習(DRL)は、コード補完のための微調整LMの代替手法であり、一般化能力と全体的な性能を改善することができる。 それでも、DRLベースの戦略をコード補完に統合することは、2つの大きな課題に直面している。 1) コードコンテキストの動的な性質は、変更に迅速に適応するために完了モデルを必要とします。 2) 部分的コードの正確性を評価することは困難であり, 報酬再分配に基づく戦略はコード補完には適用できない。 これらの課題に対処するために、コード補完固有のDRLベースの微調整フレームワークIRCoCoを提案する。 このフレームワークは、コード補完中の継続的な編集に起因する動的コンテキスト変化を検出するフィードバックとして、即時報酬を提供するように設計されている。 即時フィードバックによって、微調整されたLMは現在の状況をより正確に理解し、LMを効果的に調整し、コード補完をより洗練された方法で最適化することができる。 実験により、IRCoCoを用いた微調整済みLMは、コード補完タスクを大幅に改善し、SFTベースおよび他のDRLベースラインを上回った。

Code completion aims to enhance programming productivity by predicting potential code based on the current programming context. Recently, pretrained language models (LMs) have become prominent in this field. Various approaches have been proposed to fine-tune LMs using supervised fine-tuning (SFT) techniques for code completion. However, the inherent exposure bias of these models can cause errors to accumulate early in the sequence completion, leading to even more errors in subsequent completions. To address this problem, deep reinforcement learning (DRL) is an alternative technique for fine-tuning LMs for code completion, which can improve the generalization capabilities and overall performance. Nevertheless, integrating DRL-based strategies into code completion faces two major challenges: 1) The dynamic nature of the code context requires the completion model to quickly adapt to changes, which poses difficulties for conventional DRL strategies that focus on delayed rewarding of the final code state. 2) It is difficult to evaluate the correctness of partial code, thus the reward redistribution-based strategies cannot be adapted to code completion. To tackle these challenges, we propose IRCoCo, a code completion-specific DRL-based fine-tuning framework. This framework is designed to provide immediate rewards as feedback for detecting dynamic context changes arising from continuous edits during code completion. With the aid of immediate feedback, the fine-tuned LM can gain a more precise understanding of the current context, thereby enabling effective adjustment of the LM and optimizing code completion in a more refined manner. Experimental results demonstrate that fine-tuning pretrained LMs with IRCoCo leads to significant improvements in the code completion task, outperforming both SFT-based and other DRL-based baselines.
翻訳日:2024-01-31 16:40:44 公開日:2024-01-30
# EdgeOL: エッジデバイス上でのオンライン学習の効率性

EdgeOL: Efficient in-situ Online Learning on Edge Devices ( http://arxiv.org/abs/2401.16694v1 )

ライセンス: Link先を確認
Sheng Li, Geng Yuan, Yawen Wu, Yue Dai, Chao Wu, Alex K. Jones, Jingtong Hu, Yanzhi Wang, Xulong Tang(参考訳) ロボット支援老人介護や物体認識といった新しい応用は、一般的にディープラーニングニューラルネットワーク(DNN)モデルを採用し、自然に要求される。 一 ストリーミングイン推論要求の処理及び ii) 可能な展開シナリオの変更に対応すること。 これらのニーズを満たすために、オンラインモデル微調整が広く採用されている。 しかし、微調整にはかなりのエネルギー消費が伴うため、エッジデバイスへのデプロイは困難である。 本稿では、エッジオンライン学習フレームワークedgeolを提案する。このフレームワークは、チューニング間最適化とチューニング内最適化の両方を通じて、推論精度、微調整実行時間、エネルギー効率を最適化する。 実験結果から,EdgeOLは全体の微調整実行時間を82%削減し,エネルギー消費量を74%削減し,オンライン学習戦略よりも平均推定精度を1.70%向上した。

Emerging applications, such as robot-assisted eldercare and object recognition, generally employ deep learning neural networks (DNNs) models and naturally require: i) handling streaming-in inference requests and ii) adapting to possible deployment scenario changes. Online model fine-tuning is widely adopted to satisfy these needs. However, fine-tuning involves significant energy consumption, making it challenging to deploy on edge devices. In this paper, we propose EdgeOL, an edge online learning framework that optimizes inference accuracy, fine-tuning execution time, and energy efficiency through both inter-tuning and intra-tuning optimizations. Experimental results show that, on average, EdgeOL reduces overall fine-tuning execution time by 82%, energy consumption by 74%, and improves average inference accuracy by 1.70% over the immediate online learning strategy.
翻訳日:2024-01-31 16:33:45 公開日:2024-01-30
# Calibration-then-Calculation:Deep Click-Through Rate予測モデルにおける可変化メトリックフレームワーク

Calibration-then-Calculation: A Variance Reduced Metric Framework in Deep Click-Through Rate Prediction Models ( http://arxiv.org/abs/2401.16692v1 )

ライセンス: Link先を確認
Yewen Fan, Nian Si, Xiangchen Song, Kun Zhang(参考訳) ディープラーニングはさまざまな分野に広く採用されているが、ディープラーニングパイプラインのパフォーマンス評価にはほとんど焦点が当てられていない。 大規模なデータセットと複雑なモデルの使用が増加し、トレーニングプロセスを一度だけ実行し、その結果を以前のベンチマークと比較することが一般的になった。 しかし、この手法はニューラルネットワーク評価指標のばらつきによる不正確な比較につながる可能性がある。 メトリック分散は、ディープラーニングパイプラインのトレーニングプロセスに固有のランダム性に由来する。 トレーニングプロセスを複数回実行するような従来のソリューションは、計算上の制限のため、ディープラーニングでは実現不可能である。 本稿では,バニラの分散を低減し,この問題に対処した新しいメトリックフレームワークであるキャリブレーションロスメトリックを提案する。 その結果、新しい測定基準は、効果的なモデリング改善を検出するための精度が高い。 提案手法は,Deep Click-Through Rate Prediction Modelの文脈における理論的正当化と広範な実験的検証によって支持される。

Deep learning has been widely adopted across various fields, but there has been little focus on evaluating the performance of deep learning pipelines. With the increased use of large datasets and complex models, it has become common to run the training process only once and compare the result to previous benchmarks. However, this procedure can lead to imprecise comparisons due to the variance in neural network evaluation metrics. The metric variance comes from the randomness inherent in the training process of deep learning pipelines. Traditional solutions such as running the training process multiple times are usually not feasible in deep learning due to computational limitations. In this paper, we propose a new metric framework, Calibrated Loss Metric, that addresses this issue by reducing the variance in its vanilla counterpart. As a result, the new metric has a higher accuracy to detect effective modeling improvement. Our approach is supported by theoretical justifications and extensive experimental validations in the context of Deep Click-Through Rate Prediction Models.
翻訳日:2024-01-31 16:33:29 公開日:2024-01-30
# ハードウェアアーチファクトがSPEC整数ベンチマーク性能に及ぼす影響の詳細な歴史的・統計的解析

A Detailed Historical and Statistical Analysis of the Influence of Hardware Artifacts on SPEC Integer Benchmark Performance ( http://arxiv.org/abs/2401.16690v1 )

ライセンス: Link先を確認
Yueyao Wang and Samuel Furman and Nicolas Hardy and Margaret Ellis and Godmar Back and Yili Hong and Kirk Cameron(参考訳) 標準性能評価コーポレーション(spec)のcpuベンチマークは、数十年間コンピューティング性能の尺度として広く用いられてきた。 SPECは業界標準のCPU集約ベンチマークスイートであり、総括データは世界規模のCPUとシステムパフォーマンスの歴史のプロキシを提供する。 過去の取り組みでは、SPECベンチマークスイートは、時間とともにどのように経験的に進化し、マイクロアーキテクチャアーティファクトがパフォーマンスに最も影響を与えたか、といった質問に対して、回答を提供したり提供したりしていない。 スイート内のマイクロベンチマークは、コードの結果や比較に大きく影響していますか? この質問に対する回答は,コンピュータシステムパフォーマンスの将来に対する洞察を与えてくれるだろうか? これらの疑問に答えるために、1995年以降のSPECベンチマークの性能について、特定のハードウェアアーティファクト(クロック周波数、コア数など)の歴史的・統計的分析を詳述する。 ベンチマークの進化を正規化するためのいくつかの方法を詳細に論じる。 各種ハードウェアアーティファクトの分離および集合感度解析を行い,性能に悪影響を及ぼすベンチマーク(libquantum)を1つ同定した。 また,SPECデータを用いて今後の性能を予測する。

The Standard Performance Evaluation Corporation (SPEC) CPU benchmark has been widely used as a measure of computing performance for decades. The SPEC is an industry-standardized, CPU-intensive benchmark suite and the collective data provide a proxy for the history of worldwide CPU and system performance. Past efforts have not provided or enabled answers to questions such as, how has the SPEC benchmark suite evolved empirically over time and what micro-architecture artifacts have had the most influence on performance? -- have any micro-benchmarks within the suite had undue influence on the results and comparisons among the codes? -- can the answers to these questions provide insights to the future of computer system performance? To answer these questions, we detail our historical and statistical analysis of specific hardware artifacts (clock frequencies, core counts, etc.) on the performance of the SPEC benchmarks since 1995. We discuss in detail several methods to normalize across benchmark evolutions. We perform both isolated and collective sensitivity analyses for various hardware artifacts and we identify one benchmark (libquantum) that had somewhat undue influence on performance outcomes. We also present the use of SPEC data to predict future performance.
翻訳日:2024-01-31 16:33:16 公開日:2024-01-30
# テンプレートマッチングとCNNを用いた接合と終端検出による磁気ラビリンチン構造のキャラクタリゼーション

Characterization of Magnetic Labyrinthine Structures through Junctions and Terminals Detection using Template Matching and CNN ( http://arxiv.org/abs/2401.16688v1 )

ライセンス: Link先を確認
Vin\'icius Yu Okubo, Kotaro Shimizu, B. S. Shivaram, Hae Yong Kim(参考訳) 物質科学において、周期構造中の欠陥を特徴づけることは、材料特性を理解する上で不可欠である。 磁性ラビリンチンパターンを特徴付けるには、接合点や端子を正確に識別する必要がある。 本研究では,画像中の多数の小物体を検出するtm-cnn(template matching-convolutional neural network)と呼ばれる新しい手法を導入する。 TM-CNNを用いて444枚の実験画像からこれらの構造を同定し, 磁気材料の理解を深めるために実験を行った。 初期検出で使用されるテンプレートマッチングと、誤った識別を排除するために使用される畳み込みニューラルネットワークを組み合わせた2段階検出アプローチを採用している。 CNN分類器を訓練するには、多数の訓練画像を作成する必要がある。 この困難は、多くの実用的な用途でcnnの使用を妨げている。 TM-CNNは、アノテーションのほとんどを自動で作成し、人間のレビュアーにわずかな修正しか残さず、トレーニング画像を作成するための手作業の負荷を大幅に削減する。 TM-CNNは、従来のテンプレートマッチングやCNNベースのオブジェクト検出アルゴリズムよりもはるかに優れています。

In material sciences, characterizing faults in periodic structures is vital for understanding material properties. To characterize magnetic labyrinthine patterns, it is necessary to accurately identify junctions and terminals, often featuring over a thousand closely packed defects per image. This study introduces a new technique called TM-CNN (Template Matching - Convolutional Neural Network) designed to detect a multitude of small objects in images, such as defects in magnetic labyrinthine patterns. TM-CNN was used to identify these structures in 444 experimental images, and the results were explored to deepen the understanding of magnetic materials. It employs a two-stage detection approach combining template matching, used in initial detection, with a convolutional neural network, used to eliminate incorrect identifications. To train a CNN classifier, it is necessary to create a large number of training images. This difficulty prevents the use of CNN in many practical applications. TM-CNN significantly reduces the manual workload for creating training images by automatically making most of the annotations and leaving only a small number of corrections to human reviewers. In testing, TM-CNN achieved an impressive F1 score of 0.988, far outperforming traditional template matching and CNN-based object detection algorithms.
翻訳日:2024-01-31 16:32:56 公開日:2024-01-30
# グラデーションプルーニングの再検討 - グラデーション攻撃に対する防御のための2重実現

Revisiting Gradient Pruning: A Dual Realization for Defending against Gradient Attacks ( http://arxiv.org/abs/2401.16687v1 )

ライセンス: Link先を確認
Lulu Xue, Shengshan Hu, Ruizhi Zhao, Leo Yu Zhang, Shengqing Hu, Lichao Sun, Dezhong Yao(参考訳) コラボレーション学習(Collaborative Learning, CL)は、ユーザのプライバシ保護を目的とした分散学習フレームワークである。 しかし、共有勾配からユーザーのトレーニングデータを復元するgradient inversion attack(gias)は、clに厳しいプライバシーの脅威を課している。 既存の防衛手法では、微分プライバシー、暗号、摂動防御など、giasに対して異なる手法が採用されている。 それでも、現在の防衛手法はすべて、プライバシ、ユーティリティ、効率のトレードオフに苦しめられている。 既存のソリューションの弱点を軽減するため,CLの実用性とプライバシを保ちつつ通信効率を向上させるため,グラデーションプルーニングに基づく新しいディフェンス手法DGPを提案する。 具体的には、DGPはより強力なプライバシー保証でグラデーションプルーニングをわずかに変更する。 またDGPはその収束と一般化の理論解析により通信効率を著しく向上させることができる。 我々の広範な実験により、DGPはモデルの有用性を犠牲にすることなく、最も強力なGIAに対して効果的に防御でき、通信コストを削減できることが示された。

Collaborative learning (CL) is a distributed learning framework that aims to protect user privacy by allowing users to jointly train a model by sharing their gradient updates only. However, gradient inversion attacks (GIAs), which recover users' training data from shared gradients, impose severe privacy threats to CL. Existing defense methods adopt different techniques, e.g., differential privacy, cryptography, and perturbation defenses, to defend against the GIAs. Nevertheless, all current defense methods suffer from a poor trade-off between privacy, utility, and efficiency. To mitigate the weaknesses of existing solutions, we propose a novel defense method, Dual Gradient Pruning (DGP), based on gradient pruning, which can improve communication efficiency while preserving the utility and privacy of CL. Specifically, DGP slightly changes gradient pruning with a stronger privacy guarantee. And DGP can also significantly improve communication efficiency with a theoretical analysis of its convergence and generalization. Our extensive experiments show that DGP can effectively defend against the most powerful GIAs and reduce the communication cost without sacrificing the model's utility.
翻訳日:2024-01-31 16:32:35 公開日:2024-01-30
# 任意のエネルギーレベルに対するポンププローブモデルの解法

Algorithm for solving a pump-probe model for an arbitrary number of energy levels ( http://arxiv.org/abs/2401.16686v1 )

ライセンス: Link先を確認
Zifan Zhou, Yael Sternfeld, Jacob Scheuer, Selim M. Shahriar(参考訳) 異なる周波数で振動する2つの場が、任意のエネルギーレベルを含む同じ原子遷移の組とポンプ-プローブ周波数差の調和の任意の次数を結合する場合、ポンプ-プローブスキームにおいて、密度行列方程式の定常解を評価するための一般化されたアルゴリズムについて述べる。 我々は,このアルゴリズムの数値的アプローチと記号的アプローチを開発した。 両手法がすべてのケースで同じ結果が得られるが,計算時間が異なることが確認できた。 結果は、2段階系の解析解を1次に比較することによってさらに検証される。 また,2段階,3段階,4段階の両モデルを用いて,ポンプ・プローブ周波数差の3次までの結果を生成する。 さらに, このモデルを用いて, 87rb原子のd1多様体内の16個のゼーマン準準準位を含む系において, 自己励起ラマンレーザーのゲインプロファイルを初めて正確に決定した。 また,このモデルを用いて単一励起スーパールミネラルレーザの挙動を解析した。 複数のレーザー場を多くのエネルギー準位を持つ原子に応用する多くの状況において、同じ遷移を結合する他の場が大きなデチューンを持つため、各場が1つの遷移のみを結合するという近似がしばしばなされる。 ここでのアルゴリズムの使用により、そのような近似を行う必要がなくなるため、そのようなスキームの数値計算の精度が向上する。

We describe a generalized algorithm for evaluating the steady-state solution of the density matrix equation of motion, for the pump-probe scheme, when two fields oscillating at different frequencies couple the same set of atomic transitions involving an arbitrary number of energy levels, to an arbitrary order of the harmonics of the pump-probe frequency difference. We developed a numerical approach and a symbolic approach for this algorithm. We have verified that both approaches yield the same result for all cases studied, but require different computation time. The results are further validated by comparing them with the analytical solution of a two-level system to first order. We have also used both models to produce results up to the third order in the pump-probe frequency difference, for two-, three- and four-level systems. In addition, we have used this model to determine accurately, for the first time, the gain profile for a self-pumped Raman laser, for a system involving 16 Zeeman sublevels in the D1 manifold of 87Rb atoms. We have also used this model to determine the behavior of a single-pumped superluminal laser. In many situations involving the applications of multiple laser fields to atoms with many energy levels, one often makes the approximation that each field couples only one transition, because of the difficulty encountered in accounting for the effect of another field coupling the same transition but with a large detuning. The use of the algorithm presented here would eliminate the need for making such approximations, thus improving the accuracy of numerical calculations for such schemes.
翻訳日:2024-01-31 16:32:14 公開日:2024-01-30
# コミュニケーション効率の高いマルチモーダル連合学習--共同モダリティとクライアント選択

Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection ( http://arxiv.org/abs/2401.16685v1 )

ライセンス: Link先を確認
Liangqi Yuan, Dong-Jun Han, Su Wang, Devesh Upadhyay, Christopher G. Brinton(参考訳) FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。 しかし、マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未解決のままである。 i) 各クライアントが収集したモダリティの集合は多様であり、 (ii) 通信制限は、クライアントがローカルに訓練されたモダリティモデルをサーバにアップロードすることを妨げている。 本稿では,マルチモーダル環境における上記の課題に取り組むための新しいfl手法である統合モダリティとクライアント選択(mmfedmc)を用いたマルチモーダルフェデレーション学習を提案する。 ジョイント選択アルゴリズムには2つの主成分が組み込まれている: (a)各クライアントに対するモダリティ選択方法論。 (i)Shapley値解析によって測定されたモダリティの影響 (ii)通信オーバーヘッドのゲージとしてのモダリティモデルサイズ 3) 一般化性を高めるため, モーダリティモデル更新の頻度, 即時性を示す。 (b)各クライアントにおけるモダリティモデルの局所的損失に基づくサーバのクライアント選択戦略。 5つの実世界のデータセットの実験では、mFedMCが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを20倍以上に削減できることを示した。 私たちの方法論のデモビデオはhttps://liangqiy.com/mmfedmc/で閲覧できます。

Multimodal federated learning (FL) aims to enrich model training in FL settings where clients are collecting measurements across multiple modalities. However, key challenges to multimodal FL remain unaddressed, particularly in heterogeneous network settings where: (i) the set of modalities collected by each client will be diverse, and (ii) communication limitations prevent clients from uploading all their locally trained modality models to the server. In this paper, we propose multimodal Federated learning with joint Modality and Client selection (mmFedMC), a new FL methodology that can tackle the above-mentioned challenges in multimodal settings. The joint selection algorithm incorporates two main components: (a) A modality selection methodology for each client, which weighs (i) the impact of the modality, gauged by Shapley value analysis, (ii) the modality model size as a gauge of communication overhead, against (iii) the frequency of modality model updates, denoted recency, to enhance generalizability. (b) A client selection strategy for the server based on the local loss of modality model at each client. Experiments on five real-world datasets demonstrate the ability of mmFedMC to achieve comparable accuracy to several baselines while reducing the communication overhead by over 20x. A demo video of our methodology is available at https://liangqiy.com/mmfedmc/.
翻訳日:2024-01-31 16:31:44 公開日:2024-01-30
# サロゲートモデリングと不確かさ定量のための主要測地線グラスマン部分多様体上の多項式カオス展開

Polynomial Chaos Expansions on Principal Geodesic Grassmannian Submanifolds for Surrogate Modeling and Uncertainty Quantification ( http://arxiv.org/abs/2401.16683v1 )

ライセンス: Link先を確認
Dimitris G. Giovanis, Dimitrios Loukrezis, Ioannis G. Kevrekidis, Michael D. Shields(参考訳) 本研究では,高次元確率システムにおける不確実性定量化のための多様体学習に基づくサロゲートモデリングフレームワークを提案する。 我々の最初の目標は、利用可能なシミュレーションデータでデータマイニングを行い、高次元計算モデルの応答を効率的にパラメータ化する一連の低次元(相対)ディスクリプタを特定することである。 この目的のために、反応のグラスマン多様体の主測地線解析を用いて、データの変化を捉える、おそらく異なる次元の非連結な主測地線部分多様体の集合を同定する。 グラスマン上の演算はデータに集中する必要があるので、リーマンK平均に基づく適応アルゴリズムと、グラスマン多様体上のサンプルフレシェ分散の最小化を提案し、パラメータ空間の異なるシステム挙動を表す「局所」主測地線部分多様体を同定する。 多項式カオス展開は、ランダムな入力パラメータとこれらの局所的な測地線部分多様体上の応答の射影の間のマッピングを構築するために使われる。 本手法は,超球面上の点を含むおもちゃの例,ロトカ・ボルテラ力学系,連続気流励起タンク反応器系,レイリー・ベナード対流問題を含む4つの試験事例で実証された。

In this work we introduce a manifold learning-based surrogate modeling framework for uncertainty quantification in high-dimensional stochastic systems. Our first goal is to perform data mining on the available simulation data to identify a set of low-dimensional (latent) descriptors that efficiently parameterize the response of the high-dimensional computational model. To this end, we employ Principal Geodesic Analysis on the Grassmann manifold of the response to identify a set of disjoint principal geodesic submanifolds, of possibly different dimension, that captures the variation in the data. Since operations on the Grassmann require the data to be concentrated, we propose an adaptive algorithm based on Riemanniann K-means and the minimization of the sample Frechet variance on the Grassmann manifold to identify "local" principal geodesic submanifolds that represent different system behavior across the parameter space. Polynomial chaos expansion is then used to construct a mapping between the random input parameters and the projection of the response on these local principal geodesic submanifolds. The method is demonstrated on four test cases, a toy-example that involves points on a hypersphere, a Lotka-Volterra dynamical system, a continuous-flow stirred-tank chemical reactor system, and a two-dimensional Rayleigh-Benard convection problem
翻訳日:2024-01-31 16:31:24 公開日:2024-01-30
# ダイニング暗号問題に対する新しいスケーラブル量子プロトコル

A Novel Scalable Quantum Protocol for the Dining Cryptographers Problem ( http://arxiv.org/abs/2401.16679v1 )

ライセンス: Link先を確認
Peristera Karananou and Theodore Andronikos(参考訳) 本稿では,Dining Cryptographers 問題に対処する革新的な絡み合いベースのプロトコルを提案し,その中核として $\ket{ GHZ_{n }$ tuples を用いる。 このプロトコルは、暗号化者数$n$と、各量子レジスタ内の量子ビット数$m$で表される匿名情報の量の両方の観点からスケーラビリティを提供することを目的としている。 このプロトコルは任意の数の暗号学者を$n$でサポートし、参加者数と送信された匿名情報のボリュームの両方でスケーラビリティを実現する。 オリジナルのDining Cryptographers Problemは1ビットの情報、すなわち、暗号学者が夕食に支払ったかどうかに焦点が当てられたが、提案されたプロトコルは、レジスタごとのキュービット数である$m$が任意の大きな正の整数となることを許している。 この柔軟性により、ディナーのコストやアレンジのタイミングなど、さまざまな情報の搬送が可能になる。 導入されたプロトコルのもう一つの注目すべき側面は、ダイニング暗号のローカライズバージョンと分散バージョンの両方を共用する汎用性である。 ローカライズされたシナリオは、レストランのような同じ場所に物理的に集まるすべての暗号学者が同時に集まることである。 対照的に、分散シナリオでは、異なる場所に位置する暗号学者が同時に仮想ディナーに従事している。 最後に、実装の観点から、このプロトコルは、全ての暗号学者に同一の量子回路を使用するように要求することで、均一性を保証する。 この設計は、全てのモジュールが同一である完全にモジュラーな量子系を確立する。 さらに、各プライベート量子回路は広く使われているアダマールとCNOT量子ゲートを専用に使用し、現代の量子コンピュータ上での簡単な実装を容易にする。

This paper presents an innovative entanglement-based protocol to address the Dining Cryptographers Problem, utilizing maximally entangled $\ket{ GHZ_{ n } }$ tuples as its core. This protocol aims to provide scalability in terms of both the number of cryptographers $n$ and the amount of anonymous information conveyed, represented by the number of qubits $m$ within each quantum register. The protocol supports an arbitrary number of cryptographers $n$, enabling scalability in both participant count and the volume of anonymous information transmitted. While the original Dining Cryptographers Problem focused on a single bit of information, i.e., whether a cryptographer paid for dinner, the proposed protocol allows $m$, the number of qubits in each register, to be any arbitrarily large positive integer. This flexibility permits the conveyance of various information, such as the cost of the dinner or the timing of the arrangement. Another noteworthy aspect of the introduced protocol is its versatility in accommodating both localized and distributed versions of the Dining Cryptographers problem. The localized scenario involves all cryptographers gathering physically at the same location, such as a restaurant, simultaneously. In contrast, the distributed scenario accommodates cryptographers situated in different places, engaging in a virtual dinner at the same time. Finally, in terms of implementation, the protocol ensures uniformity by requiring all cryptographers to utilize identical private quantum circuits. This design establishes a completely modular quantum system where all modules are identical. Furthermore, each private quantum circuit exclusively employs the widely used Hadamard and CNOT quantum gates, facilitating straightforward implementation on contemporary quantum computers.
翻訳日:2024-01-31 16:31:01 公開日:2024-01-30
# 架空の談話の検出と理解

The Detection and Understanding of Fictional Discourse ( http://arxiv.org/abs/2401.16678v1 )

ライセンス: Link先を確認
Andrew Piper, Haiqi Zhou(参考訳) 本稿では,架空の談話検出の課題に関連する様々な分類実験について述べる。 我々は,現代出版のフィクション,ハトヒ・トラストの歴史的フィクション,ファンフィクション,Redditの物語,民話,GPT生成の物語,およびアングロフォン世界文学など,さまざまなデータセットを活用している。 さらに,セマンティック・ジェネリゼーションの目標を実現するために,単語"supersenses"という機能セットを導入する。 フィクションの言説の検出は、我々の大きな文化遺産の知識を豊かにし、フィクションの物語の特質をより広く理解する過程を支援するのに役立つ。

In this paper, we present a variety of classification experiments related to the task of fictional discourse detection. We utilize a diverse array of datasets, including contemporary professionally published fiction, historical fiction from the Hathi Trust, fanfiction, stories from Reddit, folk tales, GPT-generated stories, and anglophone world literature. Additionally, we introduce a new feature set of word "supersenses" that facilitate the goal of semantic generalization. The detection of fictional discourse can help enrich our knowledge of large cultural heritage archives and assist with the process of understanding the distinctive qualities of fictional storytelling more broadly.
翻訳日:2024-01-31 16:30:31 公開日:2024-01-30
# t3: 計算と集合のきめ細かい重複に対する透過的トラッキングとトリガー

T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives ( http://arxiv.org/abs/2401.16677v1 )

ライセンス: Link先を確認
Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena and Matthew D. Sinclair(参考訳) 大規模言語モデルは、トレーニングと推論のために分散技術に依存している。 これらの技術はデバイス間の通信を必要とするため、デバイス数の増加に伴ってスケーリング効率が低下する可能性がある。 いくつかの分散技術は、この通信を独立した計算で隠すことができるが、Tensor Parallelism (TP)のような技術は本質的にモデル実行と通信をシリアライズする。 このシリアル化された通信を隠す一つのアプローチは、(通信されたデータの)プロデューサ操作とインターリーブすることである。 しかし,ソフトウェアにおけるコミュニケーションや計算の微粒化は困難である。 さらに、並列実行と同様に、計算リソースとメモリリソースを計算と通信の間で共有する必要があるため、リソース競合が発生し、重複効率が低下する。 これらの課題を克服するために,ハードウェア・ソフトウェア共同設計を適用したT3を提案する。 T3は、プロデューサの出力アドレス空間の単純な構成を通じて、後続の通信と透過的にプロデューサの操作を融合させる。 ハードウェアレベルでは、t3はプロデューサの計算と通信をオーケストレーションするための軽量なトラックとトリガー機構を追加する。 さらに、通信のアテンダント計算に計算強化メモリを使用する。 その結果、T3はリソース競合を低減し、シリアライズされた通信と計算を効率的に重畳する。 T-NLGのような重要なトランスフォーマーモデルでは、T3は通信重層を30%Geomean(最大47%)スピードアップし、データ移動を22%Geomean(最大36%)スピードアップする。 さらに、T3の利点はモデルスケールとして持続する:$\sim$500-billionパラメータモデル、PALMおよびMT-NLGのサブレイヤのジオ平均29%。

Large Language Models increasingly rely on distributed techniques for their training and inference. These techniques require communication across devices which can reduce scaling efficiency as the number of devices increases. While some distributed techniques can overlap, and thus, hide this communication with independent computations, techniques such as Tensor Parallelism (TP) inherently serialize communication with model execution. One approach to hide this serialized communication is to interleave it with the producer operation (of the communicated data) in a fine-grained manner. However, this fine-grained interleaving of communication and computation in software can be difficult. Furthermore, as with any concurrent execution, it requires compute and memory resources to be shared between computation and communication, causing resource contention that reduces overlapping efficacy. To overcome these challenges, we propose T3 which applies hardware-software co-design to transparently overlap serialized communication while minimizing resource contention with compute. T3 transparently fuses producer operations with the subsequent communication via a simple configuration of the producer's output address space and requires minor software changes. At the hardware level, T3 adds a lightweight track and trigger mechanism to orchestrate the producer's compute, and communication. It further uses compute-enhanced memories for communication's attendant compute. As a result, T3 reduces resource contention, and efficiently overlaps serialized communication with computation. For important Transformer models like T-NLG, T3 speeds up communication-heavy sublayers by 30% geomean (max 47%) and reduces data movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models scale: geomean 29% for sublayers in $\sim$500-billion parameter models, PALM and MT-NLG.
翻訳日:2024-01-31 16:30:19 公開日:2024-01-30
# AutoIE:科学文献からの情報抽出のための自動化フレームワーク

AutoIE: An Automated Framework for Information Extraction from Scientific Literature ( http://arxiv.org/abs/2401.16672v1 )

ライセンス: Link先を確認
Yangyang Liu, Shoubin Li(参考訳) 急速に発展する科学研究の分野では、急成長する科学論文から重要な情報を効率的に抽出することは、依然として困難な課題である。 本稿では,科学的なPDF文書から重要データの抽出を自動化し,研究者が今後の研究軌跡をより容易に把握することのできる,革新的なフレームワークを提案する。 AutoIEは,(1)PDF文書レイアウト解析のためのマルチセマンティックな特徴融合に基づくアプローチ,(2)科学的テキストにおける高度な機能的ブロック認識,(3)分子シーブ合成に関する情報の抽出と関連付けのための相乗的手法,(4)分子シーブ文献に適したオンライン学習パラダイム,の4つの新しい構成要素を統合する。 我々のSBERTモデルは、CoNLL04およびADEデータセット上で87.19と89.65の高いマルコF1スコアを達成する。 さらに, 石油化学分子シーブ合成ドメインにおけるAutoIEの実用的応用は, 78%の精度でその有効性を示す。 この研究は、分子シーブ合成におけるデータ管理と解釈の強化の道を開いた。 この専門分野の専門家や新参者にとって貴重な資産である。

In the rapidly evolving field of scientific research, efficiently extracting key information from the burgeoning volume of scientific papers remains a formidable challenge. This paper introduces an innovative framework designed to automate the extraction of vital data from scientific PDF documents, enabling researchers to discern future research trajectories more readily. AutoIE uniquely integrates four novel components: (1) A multi-semantic feature fusion-based approach for PDF document layout analysis; (2) Advanced functional block recognition in scientific texts; (3) A synergistic technique for extracting and correlating information on molecular sieve synthesis; (4) An online learning paradigm tailored for molecular sieve literature. Our SBERT model achieves high Marco F1 scores of 87.19 and 89.65 on CoNLL04 and ADE datasets. In addition, a practical application of AutoIE in the petrochemical molecular sieve synthesis domain demonstrates its efficacy, evidenced by an impressive 78\% accuracy rate. This research paves the way for enhanced data management and interpretation in molecular sieve synthesis. It is a valuable asset for seasoned experts and newcomers in this specialized field.
翻訳日:2024-01-31 16:29:43 公開日:2024-01-30
# 人工知能は第2次気象予報革命をもたらすか?

Is Artificial Intelligence Providing the Second Revolution for Weather Forecasting? ( http://arxiv.org/abs/2401.16669v1 )

ライセンス: Link先を確認
Fenghua Ling, Lin Ouyang, Boufeniza Redouane Larbi, Jing-Jia Luo, Tao Han, Xiaohui Zhong, Lei Bai(参考訳) 人工知能技術の急速な進歩、特に近年では、いくつかの大きなパラメーター人工知能の天気予報モデルが出現した。 これらのモデルは、従来の数値気象予測モデルの限界を克服し、気象予報に第2次革命をもたらす可能性を示している。 本研究は,これらの高度な人工知能予測モデルの進化を探求し,その共通点に基づいて,その発展のための「三大ルール」を提案する。 数値気象予測に革命をもたらす人工知能の可能性について論じ、この可能性の根底にある理由を概説する。 さらに,大規模人工知能天気予報モデルの今後の発展に向けて,数値予測プロセス全体を統合した重要な分野を探究する。 大規模人工知能モデルと海洋波予測を組み合わせる例を通じて,予測者が高度な人工知能モデルをどのように適用し,活用できるかを示す。 大規模人工知能予測モデルの高精度、計算効率、展開の容易さを認めながら、従来の数値予測の置き換え不能な値を強調した。 天気予報の最適な未来は、人工知能と従来の数値モデルのシームレスな統合の実現にあると考えています。 このような合成は、将来の天気予報により包括的で信頼性の高いアプローチを提供すると予想されている。

The rapid advancement of artificial intelligence technologies, particularly in recent years, has led to the emergence of several large parameter artificial intelligence weather forecast models. These models represent a significant breakthrough, overcoming the limitations of traditional numerical weather prediction models and indicating a potential second revolution for weather forecast. This study explores the evolution of these advanced artificial intelligence forecast models, and based on the identified commonalities, proposes the "Three Large Rules" for their development. We discuss the potential of artificial intelligence in revolutionizing numerical weather prediction, briefly outlining the underlying reasons for this potential. Additionally, we explore key areas for future development prospects for large artificial intelligence weather forecast models, integrating the entire numerical prediction process. Through an example that combines a large artificial intelligence model with ocean wave forecasting, we illustrate how forecasters can adapt and leverage the advanced artificial intelligence model. While acknowledging the high accuracy, computational efficiency, and ease of deployment of large artificial intelligence forecast models, we emphasize the irreplaceable values of traditional numerical forecasts. We believe that the optimal future of weather forecasting lies in achieving a seamless integration of artificial intelligence and traditional numerical models. Such a synthesis is anticipated to offer a more comprehensive and reliable approach for future weather forecasting.
翻訳日:2024-01-31 16:29:26 公開日:2024-01-30
# InteractOut: スマートフォンの過剰使用を減らすための入力操作戦略としてのインタラクションプロキシの活用

InteractOut: Leveraging Interaction Proxies as Input Manipulation Strategies for Reducing Smartphone Overuse ( http://arxiv.org/abs/2401.16668v1 )

ライセンス: Link先を確認
Tao Lu, Hongxiao Zheng, Tianying Zhang, Xuhai Xu, Anhong Guo(参考訳) スマートフォンの過剰使用は、人々の身体的および精神的な健康にリスクをもたらす。 しかし、現在の介入技術は、主にスクリーンコンテンツ(つまり出力)を明示的に変更することに焦点を当てており、過度に制限的または過フレキシブルであるため、スマートフォンの過剰使用を持続的に減らさないことが多い。 本稿では,インタラクションプロキシを活用した暗黙の入力操作技術であるinteractionoutの設計と実装を行い,モバイルデバイス上での一般的なユーザジェスチャの自然な実行を弱く抑制する。 入力操作のための設計空間を示し、入力操作のAndroid実装を8つ示す。 まず,これらの介入の有用性を評価するための実験(n=30)を行った。 その結果,実世界のシナリオでInteractOutを評価するために,5週間の内対象フィールド実験(N=42)を行った。 伝統的なタイムアウト技術と比較すると、InteractOutは参加者が選択したターゲットアプリで使用時間を15.0%と17.0%と大幅に短縮した。 InteractOutはユーザー受け入れ率も25.4%向上し、参加者の主観的フィードバックによるフラストレーションの低減とユーザエクスペリエンスの向上を実現した。 InteractOutは、スマートフォンの過剰使用介入のための新しい方向を示し、既存の手法を補完する強力な技術セットとして機能する。

Smartphone overuse poses risks to people's physical and mental health. However, current intervention techniques mainly focus on explicitly changing screen content (i.e., output) and often fail to persistently reduce smartphone overuse due to being over-restrictive or over-flexible. We present the design and implementation of InteractOut, a suite of implicit input manipulation techniques that leverage interaction proxies to weakly inhibit the natural execution of common user gestures on mobile devices. We present a design space for input manipulations and demonstrate 8 Android implementations of input interventions. We first conducted a pilot lab study (N=30) to evaluate the usability of these interventions. Based on the results, we then performed a 5-week within-subject field experiment (N=42) to evaluate InteractOut in real-world scenarios. Compared to the traditional and common timed lockout technique, InteractOut significantly reduced the usage time by an additional 15.0% and opening frequency by 17.0% on participant-selected target apps. InteractOut also achieved a 25.4% higher user acceptance rate, and resulted in less frustration and better user experience according to participants' subjective feedback. InteractOut demonstrates a new direction for smartphone overuse intervention and serves as a strong complementary set of techniques with existing methods.
翻訳日:2024-01-31 16:29:07 公開日:2024-01-30
# クビット占有の連続性に基づくクビットキャビティ系のラベル付け固有状態:高励起クビット状態への共鳴の検出

Labeling eigenstates of qubit-cavity systems based on the continuity of qubit occupancy: Detecting resonances to higher excited qubit states ( http://arxiv.org/abs/2401.16666v1 )

ライセンス: Link先を確認
Shimpei Goto and Kazuki Koshino(参考訳) 本稿では, キュービット占有率の連続性に基づく, キュービットキャビティシステムの固有状態のラベル付け手法を提案する。 ラベル付き固有状態は、キャビティ駆動下での量子状態の進化を大まかに推定する。 共振キャビティ周波数の光子数依存性はラベル付き固有エネルギーから推定でき、より高い励起量子状態への共鳴が依存領域で見ることができる。 提案手法は,既存の手法と比較してより広いパラメータ領域に適用可能である。 提案手法では, 共振のオフセット電荷依存性を高励起状態へ変換し, 計算結果から漏洩効果を誘導する。 その結果、漏れは10個の光子でしか起こらないことが示唆された。

We propose a new method for labeling the eigenstates of qubit-cavity systems based on the continuity of the qubit occupancy. The labeled eigenstates give a rough estimation of the evolution of a quantum state under cavity driving. The photon-number dependence of the resonant cavity frequency can be estimated from the labeled eigenenergies, and resonances to higher excited qubit states are visible in the dependence. Our proposed method can be applied to a broader parameter region compared to an existing method. With the proposed method, we investigate the offset charge dependence of the resonances to higher excited states that can induce leakage effects from the computational basis. The results imply that the leakage can occur with only around ten photons.
翻訳日:2024-01-31 16:28:43 公開日:2024-01-30
# MESA: すべてをセグメンテーションで一致させる

MESA: Matching Everything by Segmenting Anything ( http://arxiv.org/abs/2401.16741v1 )

ライセンス: Link先を確認
Yesheng Zhang and Xu Zhao(参考訳) 機能マッチングは、画像間の対応を見つけることを含むコンピュータビジョンの分野で重要なタスクである。 従来の研究では、学習に基づく特徴比較を用いて顕著な性能を達成している。 しかし、画像間の冗長性の一致が広まると、これらの手法では不必要かつエラーが発生し、精度に制限が生じる。 この問題に対処するため, 精度の高い領域(あるいは領域)マッチングを実現するための新しい手法であるMESAを提案する。 MESAはまず、画像セグメンテーションの最先端基盤モデルであるSAMの高度な画像理解機能を活用して、暗黙的な意味を持つ画像領域を得る。 次に,これらの領域の空間構造をモデル化し,そのスケール階層を構築するために,マルチリレーショナルグラフを提案する。 グラフから派生したグラフィカルモデルに基づいて、領域マッチングをエネルギー最小化タスクとして再構成し、効果的に解決する。 大規模な実験により、MESAは屋内および屋外の下流作業における複数の点マーカに対して、例えば屋内ポーズ推定におけるDKMの+13.61%の精度向上をもたらすことが示された。

Feature matching is a crucial task in the field of computer vision, which involves finding correspondences between images. Previous studies achieve remarkable performance using learning-based feature comparison. However, the pervasive presence of matching redundancy between images gives rise to unnecessary and error-prone computations in these methods, imposing limitations on their accuracy. To address this issue, we propose MESA, a novel approach to establish precise area (or region) matches for efficient matching redundancy reduction. MESA first leverages the advanced image understanding capability of SAM, a state-of-the-art foundation model for image segmentation, to obtain image areas with implicit semantic. Then, a multi-relational graph is proposed to model the spatial structure of these areas and construct their scale hierarchy. Based on graphical models derived from the graph, the area matching is reformulated as an energy minimization task and effectively resolved. Extensive experiments demonstrate that MESA yields substantial precision improvement for multiple point matchers in indoor and outdoor downstream tasks, e.g. +13.61% for DKM in indoor pose estimation.
翻訳日:2024-01-31 16:22:35 公開日:2024-01-30
# 大きな言語モデルをスクラッチから設計する

Engineering A Large Language Model From Scratch ( http://arxiv.org/abs/2401.16736v1 )

ライセンス: Link先を確認
Abiodun Finbarrs Oketunji(参考訳) 自然言語処理(NLP)における深層学習の普及は、卓越した熟練度で人間の言語を理解し、生成できる革新的な技術の開発とリリースにつながった。 トランスフォーマーベースのニューラルネットワークであるatinukeは、ユニークな構成を使用することで、さまざまな言語タスクのパフォーマンスを最適化する。 アーキテクチャは、入力と出力の間の有意義な親和性を引き出すために、注意メカニズムでシーケンシャルなデータを処理するための層を織り込む。 トポロジの設定とハイパーパラメータチューニングのため、特徴抽出と複雑なマッピングの学習によって、人間のような言語をエミュレートすることができる。 atinukeはモジュール化され、拡張性があり、既存の機械学習パイプラインとシームレスに統合できる。 ソフトマックス、埋め込み、マルチヘッドアテンションなどの高度なマトリックス操作は、テキスト、音響、視覚信号のニュアンス処理を可能にする。 ソフトウェア設計原則と数理理論と近代的なディープラーニング技術を統合することで、システムは解釈可能で堅牢なまま、自然言語タスクの最先端の結果を達成する。

The proliferation of deep learning in natural language processing (NLP) has led to the development and release of innovative technologies capable of understanding and generating human language with remarkable proficiency. Atinuke, a Transformer-based neural network, optimises performance across various language tasks by utilising a unique configuration. The architecture interweaves layers for processing sequential data with attention mechanisms to draw meaningful affinities between inputs and outputs. Due to the configuration of its topology and hyperparameter tuning, it can emulate human-like language by extracting features and learning complex mappings. Atinuke is modular, extensible, and integrates seamlessly with existing machine learning pipelines. Advanced matrix operations like softmax, embeddings, and multi-head attention enable nuanced handling of textual, acoustic, and visual signals. By unifying modern deep learning techniques with software design principles and mathematical theory, the system achieves state-of-the-art results on natural language tasks whilst remaining interpretable and robust.
翻訳日:2024-01-31 16:22:15 公開日:2024-01-30
# 言語モデルにおけるニューロンの情報的テキスト記述の生成に向けて

Towards Generating Informative Textual Description for Neurons in Language Models ( http://arxiv.org/abs/2401.16731v1 )

ライセンス: Link先を確認
Shrayani Mondal, Rishabh Garodia, Arbaaz Qureshi, Taesung Lee and Youngja Park(参考訳) 近年のトランスフォーマーベース言語モデルの発展により、限られたリソースで下流のタスクに適応できる幅広い世界の知識を捕捉できるようになった。 しかし、これらのモデルでどのような情報が理解されているかは不明であり、それらの同定におけるニューロンレベルの寄与はほとんど分かっていない。 ニューロン説明可能性の従来のアプローチは、定義済みの有限セットに依存するか、または一次モデルのニューロンを説明できる二次モデルのトレーニングに手動のアノテーションを必要とする。 本稿では、BERTを例として、これらの制約を取り除き、テキスト記述をニューロンに結び付ける新しいスケーラブルなフレームワークを提案する。 生成言語モデルの可能性を利用して、データセットに存在する人間の解釈可能な記述子を発見し、教師なしアプローチを用いて、これらの記述子でニューロンを説明する。 様々な質的,定量的な分析を通じて,これらの記述子をコードするニューロンの同定に人間的関与の少ない有用なデータ固有記述子を生成する上で,この枠組みの有効性を示す。 特に本実験では,提案手法が75%精度@2,50%リコール@2を達成していることを示す。

Recent developments in transformer-based language models have allowed them to capture a wide variety of world knowledge that can be adapted to downstream tasks with limited resources. However, what pieces of information are understood in these models is unclear, and neuron-level contributions in identifying them are largely unknown. Conventional approaches in neuron explainability either depend on a finite set of pre-defined descriptors or require manual annotations for training a secondary model that can then explain the neurons of the primary model. In this paper, we take BERT as an example and we try to remove these constraints and propose a novel and scalable framework that ties textual descriptions to neurons. We leverage the potential of generative language models to discover human-interpretable descriptors present in a dataset and use an unsupervised approach to explain neurons with these descriptors. Through various qualitative and quantitative analyses, we demonstrate the effectiveness of this framework in generating useful data-specific descriptors with little human involvement in identifying the neurons that encode these descriptors. In particular, our experiment shows that the proposed approach achieves 75% precision@2, and 50% recall@2
翻訳日:2024-01-31 16:22:02 公開日:2024-01-30
# 広線形マッチングフィルタ:複素数値CNNの解釈可能性へのリンチピン

Widely Linear Matched Filter: A Lynchpin towards the Interpretability of Complex-valued CNNs ( http://arxiv.org/abs/2401.16729v1 )

ライセンス: Link先を確認
Qingchen Wang, Zhe Li, Zdenka Babic, Wei Deng, Ljubi\v{s}a Stankovi\'c, Danilo P. Mandic(参考訳) 実数値畳み込みニューラルネットワーク(CNN)の解釈可能性に関する最近の研究は、マッチングされたフィルタを通してデータの特徴を見つけるタスクと直接的かつ物理的に意味のあるリンクを明らかにした。 しかし、このパラダイムを適用して複素値付きCNNの解釈可能性を照らし出すと、悲惨な障害にぶつかる: 整合フィルタの一般クラスへの拡張(ここでは、広く線形整合フィルタ(WLMF)と呼ぶ)は、文献でのみ暗黙的に行われている。 この目的のために、複素数値CNNの動作の解釈可能性を確立するために、汎用的なWLMFパラダイムを導入し、そのソリューションを提供し、その性能解析を行う。 厳密化のために、wlmf解はノイズの確率密度を仮定することなく導出される。 WLMFの標準線形対数(SLMF)に対する理論的優位性は、出力信号対雑音比(SNR)の観点で提供される。 さらに、WLMFのSNRゲインに対する下界は、この境界に達する条件とともに導出される。 このことは、複素数値CNNにおける畳み込み-アクティベーション-プール連鎖をマッチングフィルタリングのレンズを通して再検討し、WLMFが物理的解釈可能性を提供し、一般的な複素数値CNNの説明可能性を高める可能性を明らかにするのに役立つ。 シミュレーションは理論結果と数値結果の一致を実証する。

A recent study on the interpretability of real-valued convolutional neural networks (CNNs) \cite{Stankovic_Mandic_2023CNN} has revealed a direct and physically meaningful link with the task of finding features in data through matched filters. However, applying this paradigm to illuminate the interpretability of complex-valued CNNs meets a formidable obstacle: the extension of matched filtering to a general class of noncircular complex-valued data, referred to here as the widely linear matched filter (WLMF), has been only implicit in the literature. To this end, to establish the interpretability of the operation of complex-valued CNNs, we introduce a general WLMF paradigm, provide its solution and undertake analysis of its performance. For rigor, our WLMF solution is derived without imposing any assumption on the probability density of noise. The theoretical advantages of the WLMF over its standard strictly linear counterpart (SLMF) are provided in terms of their output signal-to-noise-ratios (SNRs), with WLMF consistently exhibiting enhanced SNR. Moreover, the lower bound on the SNR gain of WLMF is derived, together with condition to attain this bound. This serves to revisit the convolution-activation-pooling chain in complex-valued CNNs through the lens of matched filtering, which reveals the potential of WLMFs to provide physical interpretability and enhance explainability of general complex-valued CNNs. Simulations demonstrate the agreement between the theoretical and numerical results.
翻訳日:2024-01-31 16:21:42 公開日:2024-01-30
# ヘイトスピーチモデレーションの最近の進歩:マルチモーダリティと大規模モデルの役割

Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models ( http://arxiv.org/abs/2401.16727v1 )

ライセンス: Link先を確認
Ming Shan Hee, Shivam Sharma, Rui Cao, Palash Nandi, Preslav Nakov, Tanmoy Chakraborty, Roy Ka-Wei Lee(参考訳) オンラインコミュニケーションの進化する状況において、モデレーションヘイトスピーチ(HS)は、デジタルコンテンツのマルチモーダルな性質によって、複雑な課題を提示する。 この包括的調査は、HSモデレーションの最近の進歩を掘り下げ、大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を浮き彫りにした。 我々の調査は、現在の文献の徹底的な分析から始まり、HSの伝播におけるテキスト、視覚、聴覚要素間の微妙な相互作用を明らかにする。 HSが普及する複雑さと微妙さから,これらのモダリティの統合に向けた顕著な傾向が明らかとなった。 LLMとLMMは、検出とモデレーションの限界を再定義し始めている。 既存の研究のギャップ、特に低表現言語や文化の文脈、低リソース設定を扱うためのソリューションの必要性を特定します。 この調査は、新しいAI方法論の探索、モデレーションにおけるAIの倫理的ガバナンス、よりニュアンスでコンテキスト対応のシステムの開発など、将来の研究への潜在的な道筋を概観して、先見的な視点で締めくくっている。 この包括的概要は、デジタル時代のHSモデレーションに対するより洗練され、責任があり、人間中心のアプローチに向けた協力的な取り組みを促進することを目的としている。 \footnote{ \textcolor{red}{WARNING: 攻撃的な例を含む。

In the evolving landscape of online communication, moderating hate speech (HS) presents an intricate challenge, compounded by the multimodal nature of digital content. This comprehensive survey delves into the recent strides in HS moderation, spotlighting the burgeoning role of large language models (LLMs) and large multimodal models (LMMs). Our exploration begins with a thorough analysis of current literature, revealing the nuanced interplay between textual, visual, and auditory elements in propagating HS. We uncover a notable trend towards integrating these modalities, primarily due to the complexity and subtlety with which HS is disseminated. A significant emphasis is placed on the advances facilitated by LLMs and LMMs, which have begun to redefine the boundaries of detection and moderation capabilities. We identify existing gaps in research, particularly in the context of underrepresented languages and cultures, and the need for solutions to handle low-resource settings. The survey concludes with a forward-looking perspective, outlining potential avenues for future research, including the exploration of novel AI methodologies, the ethical governance of AI in moderation, and the development of more nuanced, context-aware systems. This comprehensive overview aims to catalyze further research and foster a collaborative effort towards more sophisticated, responsible, and human-centric approaches to HS moderation in the digital era.\footnote{ \textcolor{red}{WARNING: This paper contains offensive examples.
翻訳日:2024-01-31 16:21:12 公開日:2024-01-30
# フェースモーフィングアタックのための最適ランドマーク誘導画像ブレンド

Optimal-Landmark-Guided Image Blending for Face Morphing Attacks ( http://arxiv.org/abs/2401.16722v1 )

ライセンス: Link先を確認
Qiaoyun He, Zongyong Deng, Zuyuan He, Qijun Zhao(参考訳) 本稿では,最適なランドマーク誘導画像ブレンディングを用いた顔形態形成攻撃を行うための新しいアプローチを提案する。 現在の顔のモーフィング攻撃は、ランドマークベースとジェネレーションベースのアプローチに分類できる。 ランドマークベースの手法は、平均的なランドマークに従って顔領域をゆがめるために幾何学的変換を用いるが、視覚品質の悪い変形画像をしばしば生成する。 複数の顔画像をブレンドする生成モデルを用いる世代ベースの手法は、より良い視覚品質を達成することができるが、最先端の顔認識システム(frss)を効果的に回避できる形態的画像の生成に失敗した場合が多い。 提案手法は, ランドマークの最適化とグラフ畳み込みネットワーク(GCN)によるランドマークと外観特徴の組み合わせにより, 従来のアプローチの限界を克服する。 顔のランドマークを、完全に接続された二部グラフのノードとしてモデル化し、GCNを用いて空間的および構造的関係をシミュレートする。 目的は、顔の形状の変化を捉え、ワープ過程中に顔の特徴を正確に操作することであり、結果として、非常にリアルで視覚的に忠実な顔画像を形成することである。 2つの公開データセットの実験により,本手法は従来のランドマークベースおよび世代ベース手法の利点を継承し,高品質なモルヒド画像を生成することが証明された。

In this paper, we propose a novel approach for conducting face morphing attacks, which utilizes optimal-landmark-guided image blending. Current face morphing attacks can be categorized into landmark-based and generation-based approaches. Landmark-based methods use geometric transformations to warp facial regions according to averaged landmarks but often produce morphed images with poor visual quality. Generation-based methods, which employ generation models to blend multiple face images, can achieve better visual quality but are often unsuccessful in generating morphed images that can effectively evade state-of-the-art face recognition systems~(FRSs). Our proposed method overcomes the limitations of previous approaches by optimizing the morphing landmarks and using Graph Convolutional Networks (GCNs) to combine landmark and appearance features. We model facial landmarks as nodes in a bipartite graph that is fully connected and utilize GCNs to simulate their spatial and structural relationships. The aim is to capture variations in facial shape and enable accurate manipulation of facial appearance features during the warping process, resulting in morphed facial images that are highly realistic and visually faithful. Experiments on two public datasets prove that our method inherits the advantages of previous landmark-based and generation-based methods and generates morphed images with higher quality, posing a more significant threat to state-of-the-art FRSs.
翻訳日:2024-01-31 16:20:45 公開日:2024-01-30
# SmartFRZ: 注意ベースのレイヤ凍結を用いた効率的なトレーニングフレームワーク

SmartFRZ: An Efficient Training Framework using Attention-Based Layer Freezing ( http://arxiv.org/abs/2401.16720v1 )

ライセンス: Link先を確認
Sheng Li, Geng Yuan, Yue Dai, Youtao Zhang, Yanzhi Wang, Xulong Tang(参考訳) 人工知能アプリケーションの普及は、これらのアプリケーションに高品質なサービスを約束する上で、モデルトレーニングが鍵となる。 しかし、モデルトレーニングプロセスは時間集約的かつエネルギー集約的であり、アプリケーション効率に対するユーザの要求に必然的に影響を及ぼす。 効率的なモデルトレーニング手法である層凍結は、トレーニング効率を向上させるために提案されている。 既存の層凍結手法はモデルのトレーニングコストを削減する大きな可能性を示しているが、一般化可能性の欠如や精度の低下といった欠点は依然として残っている。 例えば、既存の層凍結法では、トレーニング前にフリーズ設定を手動で定義する必要があるが、異なるネットワークには適用されない。 したがって、トレーニングプロセス中に異なるネットワークに対して‘in-situation’層凍結を自動的に実行する、汎用的でスマートな層凍結方法が欠けている。 そこで本研究では,汎用的で効率的なトレーニングフレームワーク(SmartFRZ)を提案する。 SmartFRZの中核となる技術は、注意誘導層凍結であり、精度を損なうことなく、自動的に凍結する適切な層を選択することができる。 実験結果から,SmartFRZはトレーニングにおける計算量を効果的に削減し,トレーニングアクセラレーションの大幅な向上を実現し,最先端層凍結法よりも優れていた。

There has been a proliferation of artificial intelligence applications, where model training is key to promising high-quality services for these applications. However, the model training process is both time-intensive and energy-intensive, inevitably affecting the user's demand for application efficiency. Layer freezing, an efficient model training technique, has been proposed to improve training efficiency. Although existing layer freezing methods demonstrate the great potential to reduce model training costs, they still remain shortcomings such as lacking generalizability and compromised accuracy. For instance, existing layer freezing methods either require the freeze configurations to be manually defined before training, which does not apply to different networks, or use heuristic freezing criteria that is hard to guarantee decent accuracy in different scenarios. Therefore, there lacks a generic and smart layer freezing method that can automatically perform ``in-situation'' layer freezing for different networks during training processes. To this end, we propose a generic and efficient training framework (SmartFRZ). The core proposed technique in SmartFRZ is attention-guided layer freezing, which can automatically select the appropriate layers to freeze without compromising accuracy. Experimental results show that SmartFRZ effectively reduces the amount of computation in training and achieves significant training acceleration, and outperforms the state-of-the-art layer freezing approaches.
翻訳日:2024-01-31 16:20:18 公開日:2024-01-30
# OptiState: Transformer-based Vision と Kalman Filtering を用いた手指ロボットの状態推定

OptiState: State Estimation of Legged Robots using Gated Networks with Transformer-based Vision and Kalman Filtering ( http://arxiv.org/abs/2401.16719v1 )

ライセンス: Link先を確認
Alexander Schperberg, Yusuke Tanaka, Saviz Mowlavi, Feng Xu, Bharathan Balaji, Dennis Hong(参考訳) 脚のあるロボットの状態推定は、非常にダイナミックな動きとセンサーの精度による制限のために困難である。 カルマンフィルタリング,最適化,学習に基づくモダリティを統合することで,ロボットのトランクの状態推定のための固有受容情報と外的情報を組み合わせたハイブリッドソリューションを提案する。 共振器エンコーダとIMU測定を応用し,コンベックスモデル予測制御の最適化による接地力制御出力を組み込んだ単一剛体モデルにより,カルマンフィルタを改良した。 奥行き画像に適用した視覚トランスフォーマーオートエンコーダから意味的洞察とロボット高さを考慮したゲートリカレントユニットにより,推定をさらに洗練する。 このフレームワークは、不確実性評価を含む正確なロボット状態推定を行うだけでなく、センサ測定や学習によるモデルの単純化から生じる非線形誤差を最小限にすることができる。 提案手法は,様々な地形で四足歩行ロボットを用いてハードウェア上で評価され,VO SLAMベースラインと比較してルート平均角誤差が65%向上した。 コード例: https://github.com/alexs28/optistate

State estimation for legged robots is challenging due to their highly dynamic motion and limitations imposed by sensor accuracy. By integrating Kalman filtering, optimization, and learning-based modalities, we propose a hybrid solution that combines proprioception and exteroceptive information for estimating the state of the robot's trunk. Leveraging joint encoder and IMU measurements, our Kalman filter is enhanced through a single-rigid body model that incorporates ground reaction force control outputs from convex Model Predictive Control optimization. The estimation is further refined through Gated Recurrent Units, which also considers semantic insights and robot height from a Vision Transformer autoencoder applied on depth images. This framework not only furnishes accurate robot state estimates, including uncertainty evaluations, but can minimize the nonlinear errors that arise from sensor measurements and model simplifications through learning. The proposed methodology is evaluated in hardware using a quadruped robot on various terrains, yielding a 65% improvement on the Root Mean Squared Error compared to our VIO SLAM baseline. Code example: https://github.com/AlexS28/OptiState
翻訳日:2024-01-31 16:19:56 公開日:2024-01-30
# Going Viral: テストウェアの影響に関するケーススタディ

Going Viral: Case Studies on the Impact of Protestware ( http://arxiv.org/abs/2401.16715v1 )

ライセンス: Link先を確認
Youmei Fan, Dong Wang, Supatsara Wattanakriengkrai, Hathaichanok Damrongsiri, Christoph Treude, Hideaki Hata, Raula Gaikovina Kula(参考訳) 保守派は現在、政治的または経済的スタンスを取るために、自分たちの仕事を自己妨害している。 本ポスターでは,このような攻撃に関する談話がどのように広まり,コミュニティがどのように受け取り,開発者がその攻撃にタイムリーに反応するかを理解するためのアプローチを提案する。 我々は,2つの有名な抗議ウェア,Colors.js と es5-ext について,基本となるセキュリティ脆弱性,すなわち Ua-parser の議論との比較を行い,抗議ウェアについて議論する際に異なる物語を抽出するために2万件以上の抗議関連投稿をテーマ分析した。

Maintainers are now self-sabotaging their work in order to take political or economic stances, a practice referred to as "protestware". In this poster, we present our approach to understand how the discourse about such an attack went viral, how it is received by the community, and whether developers respond to the attack in a timely manner. We study two notable protestware cases, i.e., Colors.js and es5-ext, comparing with discussions of a typical security vulnerability as a baseline, i.e., Ua-parser, and perform a thematic analysis of more than two thousand protest-related posts to extract the different narratives when discussing protestware.
翻訳日:2024-01-31 16:19:34 公開日:2024-01-30
# 大規模言語モデルとシーブを用いた不整合検出の展望

Prospects for inconsistency detection using large language models and sheaves ( http://arxiv.org/abs/2401.16713v1 )

ライセンス: Link先を確認
Steve Huntsman, Michael Robinson, Ludmilla Huntsman(参考訳) 大規模言語モデルは,クレームの論理的一貫性を合理的に評価できることを示す。 また,そのような評価を法律,法学,ソーシャルメディアなどのハイパーテキストに引き上げ,その一貫性をグローバルに評価するための層理論に基づく数学的アプローチを概説する。 このアプローチは、政府の整合性を高めるとともに、誤報や偽情報や関連する病気と戦うための有望な道である。

We demonstrate that large language models can produce reasonable numerical ratings of the logical consistency of claims. We also outline a mathematical approach based on sheaf theory for lifting such ratings to hypertexts such as laws, jurisprudence, and social media and evaluating their consistency globally. This approach is a promising avenue to increasing consistency in and of government, as well as to combating mis- and disinformation and related ills.
翻訳日:2024-01-31 16:19:20 公開日:2024-01-30
# lf tracy:光電界カメラにおけるsalient object detectionのための単一管路の統一的アプローチ

LF Tracy: A Unified Single-Pipeline Approach for Salient Object Detection in Light Field Cameras ( http://arxiv.org/abs/2401.16712v1 )

ライセンス: Link先を確認
Fei Teng, Jiaming Zhang, Jiawei Liu, Kunyu Peng, Xina Cheng, Zhiyong Li, Kailun Yang(参考訳) light field (lf)カメラから抽出された豊富な情報を活用することは、密集した予測タスクに役立つ。 しかし、Salient Object Detection (SOD) を強化するために光電場データを適用することは、従来のRGB法に引き続き従い、コミュニティでは未探索のままである。 従来のアプローチでは、主に光界カメラ内の暗黙の角状特徴を発見するためにカスタムな2ストリーム設計を採用しており、異なるLF表現間で重要な情報分離をもたらしている。 本研究では,この制限に対処するための効率的なパラダイム(LF Tracy)を提案する。 従来の特殊な融合とデコーダのアーキテクチャを両ストリームバックボーンに設計し,単一パイプライン方式を採用する。 これはまず、異なるLF表現の下で空間、深さ、暗黙の角情報の接続をブリッジする、MixLDと呼ばれるシンプルで効果的なデータ拡張戦略を含む。 そして、非対称な特徴情報融合を促進するために、高効率な情報集約(IA)モジュールを導入する。 この革新的なアプローチにより、我々のモデルは既存の最先端の手法を超え、特に最新の大規模PKUデータセットの以前の結果よりも23%改善されたことを示す。 わずか28.9Mのパラメータしか利用せず、RGB画像を用いた場合に比べて3Mのパラメータを追加して10%の精度向上を実現し、LF画像を使用した場合の86%のバックボーンアップを実現している。 ソースコードはhttps://github.com/FeiBryantkit/LF-Tracyで公開されている。

Leveraging the rich information extracted from light field (LF) cameras is instrumental for dense prediction tasks. However, adapting light field data to enhance Salient Object Detection (SOD) still follows the traditional RGB methods and remains under-explored in the community. Previous approaches predominantly employ a custom two-stream design to discover the implicit angular feature within light field cameras, leading to significant information isolation between different LF representations. In this study, we propose an efficient paradigm (LF Tracy) to address this limitation. We eschew the conventional specialized fusion and decoder architecture for a dual-stream backbone in favor of a unified, single-pipeline approach. This comprises firstly a simple yet effective data augmentation strategy called MixLD to bridge the connection of spatial, depth, and implicit angular information under different LF representations. A highly efficient information aggregation (IA) module is then introduced to boost asymmetric feature-wise information fusion. Owing to this innovative approach, our model surpasses the existing state-of-the-art methods, particularly demonstrating a 23% improvement over previous results on the latest large-scale PKU dataset. By utilizing only 28.9M parameters, the model achieves a 10% increase in accuracy with 3M additional parameters compared to its backbone using RGB images and an 86% rise to its backbone using LF images. The source code will be made publicly available at https://github.com/FeiBryantkit/LF-Tracy.
翻訳日:2024-01-31 16:19:12 公開日:2024-01-30
# 多変量ベータ混合モデル:フレキシブルクラスタ形状を用いた確率的クラスタリング

Multivariate Beta Mixture Model: Probabilistic Clustering With Flexible Cluster Shapes ( http://arxiv.org/abs/2401.16708v1 )

ライセンス: Link先を確認
Yung-Peng Hsu, Hung-Hsuan Chen(参考訳) 本稿では,ソフトクラスタリングの新しい確率モデルである多変量ベータ混合モデル(MBMM)を紹介する。 MBMMは多変量ベータ分布の柔軟な確率密度関数のため、多様なクラスタ形状に適応する。 本稿では、mbmmの特性を紹介し、パラメータ学習手順を説明し、mbmmが合成および実データ集合に多様なクラスター形状に適合することを示す。 コードは匿名で \url{https://github.com/hhchen1105/mbmm/} でリリースされる。

This paper introduces the multivariate beta mixture model (MBMM), a new probabilistic model for soft clustering. MBMM adapts to diverse cluster shapes because of the flexible probability density function of the multivariate beta distribution. We introduce the properties of MBMM, describe the parameter learning procedure, and present the experimental results, showing that MBMM fits diverse cluster shapes on synthetic and real datasets. The code is released anonymously at \url{https://github.com/hhchen1105/mbmm/}.
翻訳日:2024-01-31 16:18:48 公開日:2024-01-30
# 長期雑音映像からの複数粒度対応学習

Multi-granularity Correspondence Learning from Long-term Noisy Videos ( http://arxiv.org/abs/2401.16702v1 )

ライセンス: Link先を確認
Yijie Lin, Jie Zhang, Zhenyu Huang, Jia Liu, Zujie Wen, Xi Peng(参考訳) 既存のビデオ言語の研究は、主に短いビデオクリップの学習に焦点を当てており、長いビデオのモデリングの計算コストが高すぎるため、長期間の時間依存がほとんど解決されない。 この問題に対処するためには、ビデオクリップとキャプションの対応を学習することが必要だが、それは必然的に多粒度雑音対応 (multi-granularity noise correspondence, mnc) の問題に直面する。 具体的に言えば、MNCはクリップキャプションのミスアライメント(粗い粒度)とフレームワードのミスアライメント(細い粒度)を指し、時間的学習とビデオ理解を妨げる。 本稿では,MNCを一貫した最適輸送(OT)フレームワークで処理するNOise Robust Temporal Optimal traNsport(Norton)を提案する。 簡単に言うと、norton氏はotに基づいた長期的な依存関係を捉えるために、ビデオパラグラフとクリップキャプチャのコントラスト損失を使用している。 ビデオパラグラフコントラストにおける粗い不一致に対処するため、ノートンは無関係なクリップとキャプションを調整可能なプロンプトバケットでフィルタリングし、移動距離に基づいて非同期のクリップ・キャプチャペアを再認識する。 細粒度のミスアライメントに対処するため、Nortonはソフトマックス演算子を組み込んで重要な単語とキーフレームを識別する。 さらにnorton氏は、アライメントターゲットとot割り当てを正し、正確な時間的モデリングを保証することで、クリップキャプチャコントラストの潜在的な欠点のある負のサンプルを活用している。 ビデオ検索,ビデオqa,アクションセグメンテーションに関する広範囲な実験を行い,本手法の有効性を確認した。 コードはhttps://lin-yijie.github.io/projects/norton.com/で入手できる。

Existing video-language studies mainly focus on learning short video clips, leaving long-term temporal dependencies rarely explored due to over-high computational cost of modeling long videos. To address this issue, one feasible solution is learning the correspondence between video clips and captions, which however inevitably encounters the multi-granularity noisy correspondence (MNC) problem. To be specific, MNC refers to the clip-caption misalignment (coarse-grained) and frame-word misalignment (fine-grained), hindering temporal learning and video understanding. In this paper, we propose NOise Robust Temporal Optimal traNsport (Norton) that addresses MNC in a unified optimal transport (OT) framework. In brief, Norton employs video-paragraph and clip-caption contrastive losses to capture long-term dependencies based on OT. To address coarse-grained misalignment in video-paragraph contrast, Norton filters out the irrelevant clips and captions through an alignable prompt bucket and realigns asynchronous clip-caption pairs based on transport distance. To address the fine-grained misalignment, Norton incorporates a soft-maximum operator to identify crucial words and key frames. Additionally, Norton exploits the potential faulty negative samples in clip-caption contrast by rectifying the alignment target with OT assignment to ensure precise temporal modeling. Extensive experiments on video retrieval, videoQA, and action segmentation verify the effectiveness of our method. Code is available at https://lin-yijie.github.io/projects/Norton.
翻訳日:2024-01-31 16:18:39 公開日:2024-01-30
# マルチパースペクティブな空間-時間関係変換器を用いた高精度3次元ポーズ推定法

Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers ( http://arxiv.org/abs/2401.16700v1 )

ライセンス: Link先を確認
Jianbin Jiao, Xina Cheng, Weijie Chen, Xiaoting Yin, Hao Shi, Kailun Yang(参考訳) 3次元人間のポーズ推定は、深度情報と物理的構造を保持しながら、3次元空間における人間の関節点をキャプチャする。 これは、人間とコンピュータのインタラクション、シーン理解、リハビリテーショントレーニングなど、正確なポーズ情報を必要とするアプリケーションに必須である。 データ収集の難しさから、3次元人物ポーズ推定のメインストリームデータセットは、主に実験環境で収集されたマルチビュービデオデータで構成されており、画像フレームの内容に加えて、リッチな空間-時間相関情報を含んでいる。 多視点ビデオデータセットから空間時間相関を捉えることができるトランスフォーマーの顕著な自己注意機構を考慮し,人間のポーズ検出のための多段階フレームワークを提案する。 まず、空間モジュールは、画像内コンテンツによる人間のポーズ特徴を表現し、フレーム画像関連モジュールは、多視点画像間の時間的関係と3次元空間的位置関係特徴を抽出する。 第2に、非人体部品からの干渉を排除し、演算資源を削減する自己注意機構を採用する。 本手法は,一般的な3次元ポーズ検出データセットであるhuman3.6mを用いて評価する。 実験により,本データセットの最先端性能が得られた。

3D human pose estimation captures the human joint points in three-dimensional space while keeping the depth information and physical structure. That is essential for applications that require precise pose information, such as human-computer interaction, scene understanding, and rehabilitation training. Due to the challenges in data collection, mainstream datasets of 3D human pose estimation are primarily composed of multi-view video data collected in laboratory environments, which contains rich spatial-temporal correlation information besides the image frame content. Given the remarkable self-attention mechanism of transformers, capable of capturing the spatial-temporal correlation from multi-view video datasets, we propose a multi-stage framework for 3D sequence-to-sequence (seq2seq) human pose detection. Firstly, the spatial module represents the human pose feature by intra-image content, while the frame-image relation module extracts temporal relationships and 3D spatial positional relationship features between the multi-perspective images. Secondly, the self-attention mechanism is adopted to eliminate the interference from non-human body parts and reduce computing resources. Our method is evaluated on Human3.6M, a popular 3D human pose detection dataset. Experimental results demonstrate that our approach achieves state-of-the-art performance on this dataset.
翻訳日:2024-01-31 16:17:47 公開日:2024-01-30
# 集積共振器光学のための懸濁集束Si$_3$N$_4$メタミラー

A suspended focusing Si$_3$N$_4$ metamirror for integrated cavity optomechanics ( http://arxiv.org/abs/2401.16695v1 )

ライセンス: Link先を確認
A. R. Agrawal, J. Manley, D. Allepuz-Requena, and D. J. Wilson(参考訳) 我々はSi$_3$N$_4$膜の非周期フォトニック結晶パターニングにより、懸濁した高反射率メタミラー(f\approx 10$ cm, $\mathcal{R} \approx 99\%$)を実現した。 この設計により、単一の平面誘電体エンドミラーを用いて、安定な(L$ = 30$\mu$m), High-finesse(\mathcal{F}>600$)膜キャビティ光学系を構築することができる。 本稿では,自由空間とキャビティを用いた透過測定による反射率のメタミラー設計,製造プロセス,キャラクタリゼーションについて述べる。 鏡の曲率の有効半径はキャビティの横モードスペクトルから推定される。 フォノニック・エンジニアリングとメタリゼーションを組み合わせることで、集束膜ミラーは高精度な力センシングからハイブリッド量子トランスダクションまで幅広い応用により、高コオペラビリティ、垂直統合型キャビティ光機械システムへの道を提供する。

We have realized a suspended, high-reflectivity focusing metamirror ($f\approx 10$ cm, $\mathcal{R} \approx 99\%$) by non-periodic photonic crystal patterning of a Si$_3$N$_4$ membrane. The design enables construction of a stable, short ($L$ = 30 $\mu$m), high-finesse ($\mathcal{F}>600$) membrane cavity optomechanical system using a single plano dielectric end-mirror. We present the metamirror design, fabrication process, and characterization of its reflectivity using both free space and cavity-based transmission measurements. The mirror's effective radius of curvature is inferred from the transverse mode spectrum of the cavity. In combination with phononic engineering and metallization, focusing membrane mirrors offer a route towards high-cooperativity, vertically-integrated cavity optomechanical systems with applications ranging from precision force sensing to hybrid quantum transduction.
翻訳日:2024-01-31 16:17:11 公開日:2024-01-30
# 集団干渉による量子相関の追跡

Tracing quantum correlations back to collective interferences ( http://arxiv.org/abs/2401.16769v1 )

ライセンス: Link先を確認
Ming Ji, Jonte R. Hance, and Holger F. Hofmann(参考訳) 本稿では、2つの量子系間の非古典的相関を、2つの系の集合状態間の量子干渉の観点から説明する。 本研究では, 2次元系の積ヒルベルト空間における異なる測定コンテキスト間の関係を, 単粒子干渉計における経路間の干渉の類似列にマッピングすることで, これを実現する。 異なる測定結果間のパラドックス的関係は、干渉計における確率電流の分布に遡ることができる。 本研究では, 確率電流と相関の関係を, 干渉計による連続条件(準)確率電流で表すことができ, 非文脈仮定の違反を負条件電流で表すことができることを示す。 負条件電流は測定値に対する負条件確率の割り当てに対応するため、これらの負確率電流の必要性は非文脈的局所実数論の失敗を表している。 この結果は、量子力学における非局所相関の意味を説明し、干渉が全ての量子現象の起源であるというファインマンの主張を支持するのに役立つ。

In this paper, we investigate the possibility of explaining nonclassical correlations between two quantum systems in terms of quantum interferences between collective states of the two systems. We achieve this by mapping the relations between different measurement contexts in the product Hilbert space of a pair of two-level systems onto an analogous sequence of interferences between paths in a single-particle interferometer. The paradoxical relations between different measurement outcomes can then be traced to the distribution of probability currents in the interferometer. We show that the relation between probability currents and correlations can be represented by continuous conditional (quasi)probability currents through the interferometer, given by weak values; the violation of the noncontextual assumption is expressed by negative conditional currents in some of the paths. Since negative conditional currents correspond to the assignment of negative conditional probabilities to measurements results in different measurement contexts, the necessity of such negative probability currents represents a failure of noncontextual local realism. Our results help to explain the meaning of nonlocal correlations in quantum mechanics, and support Feynman's claim that interference is the origin of all quantum phenomena.
翻訳日:2024-01-31 16:10:09 公開日:2024-01-30
# コントラスト学習に基づくディープ・ニューラルネットワーク・フォールト・インジェクション攻撃の検出と復旧

Detection and Recovery Against Deep Neural Network Fault Injection Attacks Based on Contrastive Learning ( http://arxiv.org/abs/2401.16766v1 )

ライセンス: Link先を確認
Chenan Wang, Pu Zhao, Siyue Wang, Xue Lin(参考訳) Deep Neural Network(DNN)は、推論エンジンとしてデバイスの実行に実装された場合、モデルパラメータを操作するフォールトインジェクションアタック(FIA)の影響を受け、破壊的なパフォーマンスで推論実行を妨害する。 この研究は、視覚表現のコントラシブラーニング(CL)、すなわち、深層学習訓練と推論パイプラインへの自己教師型学習アプローチを導入し、FIAの下で自己回復性のあるDNN推論エンジンを実装した。 提案するclベースfia検出・リカバリ(cfdr)フレームワークの特徴 (i)1回のテストデータのみによるリアルタイム検出と (II) 少量の未ラベルテストデータであっても, 高速回復が有効である。 CIFAR-10データセットを複数種類のFIA上で評価した結果,CFDRは検出と回復の有望性を示した。

Deep Neural Network (DNN) models when implemented on executing devices as the inference engines are susceptible to Fault Injection Attacks (FIAs) that manipulate model parameters to disrupt inference execution with disastrous performance. This work introduces Contrastive Learning (CL) of visual representations i.e., a self-supervised learning approach into the deep learning training and inference pipeline to implement DNN inference engines with self-resilience under FIAs. Our proposed CL based FIA Detection and Recovery (CFDR) framework features (i) real-time detection with only a single batch of testing data and (ii) fast recovery effective even with only a small amount of unlabeled testing data. Evaluated with the CIFAR-10 dataset on multiple types of FIAs, our CFDR shows promising detection and recovery effectiveness.
翻訳日:2024-01-31 16:09:52 公開日:2024-01-30
# 大規模言語モデルにおける脱獄事件のクロスランゲージ調査

A Cross-Language Investigation into Jailbreak Attacks in Large Language Models ( http://arxiv.org/abs/2401.16765v1 )

ライセンス: Link先を確認
Jie Li, Yi Liu, Chongyang Liu, Ling Shi, Xiaoning Ren, Yaowen Zheng, Yang Liu, Yinxing Xue(参考訳) 大規模言語モデル(llm)は、様々なドメインにわたる高度なテキスト生成機能で人気が高まっている。 しかし、他のソフトウェアと同様に、LLMを操作して禁止コンテンツを生成する'jailbreak'攻撃のリスクなど、セキュリティ上の課題に直面している。 特に未発見の領域はマルチリンガル・ジェイルブレイク攻撃であり、悪意のある質問が様々な言語に翻訳され、安全フィルタを避ける。 現在、この特定の脅威に対処する包括的な実証研究が欠けている。 この研究ギャップに対処するため,多言語ジェイルブレイク攻撃に関する広範な実証的研究を行った。 我々は,多言語ジェイルブレイクデータセットを作成するためのセマンティック保存アルゴリズムを開発し,GPT-4 や LLaMa など,広く使われているオープンソース LLM と商用 LLM の両方に対して徹底的な評価を行った。 さらに,多言語ジェイルブレイク攻撃のパターンを明らかにするための解釈可能性解析を行い,微調整法を実装した。 その結果, 緩和戦略はモデル防御を著しく向上させ, 攻撃成功率96.2%を低下させることがわかった。 本研究は多言語脱獄攻撃の理解と緩和に有用な知見を提供する。

Large Language Models (LLMs) have become increasingly popular for their advanced text generation capabilities across various domains. However, like any software, they face security challenges, including the risk of 'jailbreak' attacks that manipulate LLMs to produce prohibited content. A particularly underexplored area is the Multilingual Jailbreak attack, where malicious questions are translated into various languages to evade safety filters. Currently, there is a lack of comprehensive empirical studies addressing this specific threat. To address this research gap, we conducted an extensive empirical study on Multilingual Jailbreak attacks. We developed a novel semantic-preserving algorithm to create a multilingual jailbreak dataset and conducted an exhaustive evaluation on both widely-used open-source and commercial LLMs, including GPT-4 and LLaMa. Additionally, we performed interpretability analysis to uncover patterns in Multilingual Jailbreak attacks and implemented a fine-tuning mitigation method. Our findings reveal that our mitigation strategy significantly enhances model defense, reducing the attack success rate by 96.2%. This study provides valuable insights into understanding and mitigating Multilingual Jailbreak attacks.
翻訳日:2024-01-31 16:09:37 公開日:2024-01-30
# boostdream:マルチビュー拡散による高品質テキスト3d生成のための高効率化

BoostDream: Efficient Refining for High-Quality Text-to-3D Generation from Multi-View Diffusion ( http://arxiv.org/abs/2401.16764v1 )

ライセンス: Link先を確認
Yonghao Yu, Shunan Zhu, Huai Qin, Haorui Li(参考訳) テキストから画像への拡散モデルの進化を目撃し、テキストから3D生成において重要な進歩を遂げた。 現在、テキストから3Dへの2つの主要なパラダイムは、3D資産を迅速に生成できるフィードフォワード生成ソリューションと、高忠実度3D資産を遅いペースで生成することで知られるスコア蒸留サンプリング(SDS)ベースのソリューションである。 これらの手法の相乗的統合は、3次元生成技術の進歩に大きく貢献する。 本稿では,粗い3Dアセットを高品質に変換する高効率なプラグアンドプレイ3D精製法BoostDreamを提案する。 boostdreamフレームワークは,(1)フィードフォワード生成によって得られた3dアセットと微分可能な表現に適合する3dモデル蒸留を導入する。 2) 新たな多視点SDS損失を設計し, マルチビュー対応2次元拡散モデルを用いて3次元資産を改良する。 以上の結果から,従来のSDS法と比較して,BoostDreamがJanus問題を克服し,高品質な3Dアセットを迅速に生成する上で優れていることが明らかとなった。 このブレークスルーは、3D生成プロセスの効率性と品質の両面で大きな進歩を示している。

Witnessing the evolution of text-to-image diffusion models, significant strides have been made in text-to-3D generation. Currently, two primary paradigms dominate the field of text-to-3D: the feed-forward generation solutions, capable of swiftly producing 3D assets but often yielding coarse results, and the Score Distillation Sampling (SDS) based solutions, known for generating high-fidelity 3D assets albeit at a slower pace. The synergistic integration of these methods holds substantial promise for advancing 3D generation techniques. In this paper, we present BoostDream, a highly efficient plug-and-play 3D refining method designed to transform coarse 3D assets into high-quality. The BoostDream framework comprises three distinct processes: (1) We introduce 3D model distillation that fits differentiable representations from the 3D assets obtained through feed-forward generation. (2) A novel multi-view SDS loss is designed, which utilizes a multi-view aware 2D diffusion model to refine the 3D assets. (3) We propose to use prompt and multi-view consistent normal maps as guidance in refinement.Our extensive experiment is conducted on different differentiable 3D representations, revealing that BoostDream excels in generating high-quality 3D assets rapidly, overcoming the Janus problem compared to conventional SDS-based methods. This breakthrough signifies a substantial advancement in both the efficiency and quality of 3D generation processes.
翻訳日:2024-01-31 16:09:20 公開日:2024-01-30
# Pick-and-Draw:テキストと画像のパーソナライズのためのトレーニング不要なセマンティックガイダンス

Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization ( http://arxiv.org/abs/2401.16762v1 )

ライセンス: Link先を確認
Henglei Lv, Jiayu Xiao, Liang Li, Qingming Huang(参考訳) 拡散に基づくテキストから画像へのパーソナライズは、様々な文脈においてユーザによって特定された主題を生成することに大きな成功を収めている。 とはいえ、既存の微調整方式はモデルオーバーフィッティングに悩まされており、特に被写体画像が少ない場合には、生成的多様性を著しく損なう。 そこで本研究では,パーソナライズ手法におけるアイデンティティ一貫性と生成的多様性を高めるためのトレーニングフリーな意味指導手法である pick-and-draw を提案する。 私たちのアプローチは、外観選択ガイダンスとレイアウト図面ガイダンスという2つのコンポーネントで構成されています。 前者については、参照画像から視覚的特徴を持つ外観パレットを構築し、一貫した同一性を持つ特定対象を生成するための局所パターンを選択する。 レイアウト図面では,バニラ拡散モデルから生成テンプレートを参照して対象の輪郭を概説し,異なるテキスト条件に従って多様な文脈を合成する前に,強いイメージを継承する。 提案手法は,任意のパーソナライズされた拡散モデルに適用可能であり,単一の参照画像しか必要としない。 定性的かつ定量的な実験により、ピック・アンド・ドルーは恒常的にアイデンティティの整合性と生成的多様性を改善し、被験者の忠実さと画像テキストの忠実さのトレードオフを新しいパレートフロンティアに押し上げる。

Diffusion-based text-to-image personalization have achieved great success in generating subjects specified by users among various contexts. Even though, existing finetuning-based methods still suffer from model overfitting, which greatly harms the generative diversity, especially when given subject images are few. To this end, we propose Pick-and-Draw, a training-free semantic guidance approach to boost identity consistency and generative diversity for personalization methods. Our approach consists of two components: appearance picking guidance and layout drawing guidance. As for the former, we construct an appearance palette with visual features from the reference image, where we pick local patterns for generating the specified subject with consistent identity. As for layout drawing, we outline the subject's contour by referring to a generative template from the vanilla diffusion model, and inherit the strong image prior to synthesize diverse contexts according to different text conditions. The proposed approach can be applied to any personalized diffusion models and requires as few as a single reference image. Qualitative and quantitative experiments show that Pick-and-Draw consistently improves identity consistency and generative diversity, pushing the trade-off between subject fidelity and image-text fidelity to a new Pareto frontier.
翻訳日:2024-01-31 16:08:53 公開日:2024-01-30
# 量子メタフォトニクス:最近の進歩と展望

Quantum metaphotonics: recent advances and perspective ( http://arxiv.org/abs/2401.16761v1 )

ライセンス: Link先を確認
Jihua Zhang and Yuri Kivshar(参考訳) 量子メタフォトニクスは、サブ波長共振器とメタサーフェスのような平面構造を用いて量子状態を生成し、操作し、検出するメタ光学の最先端のサブフィールドとして出現した。 量子技術の様々な応用のためのオンチップ量子システムの設計を開発することで、現在のバルク量子光学素子の小型化に大きな可能性を秘めている。 過去数年間、この分野は興味深い理論のアイデア、画期的な実験、新しい応用提案の急増を目撃してきた。 本論は,近年の進歩を要約するとともに,この急速に発展する研究分野のさらなる進歩を展望することを目的としている。

Quantum metaphotonics has emerged as a cutting-edge subfield of meta-optics employing subwavelength resonators and their planar structures such as metasurfaces to generate, manipulate, and detect quantum states of light. It holds a great potential for the miniaturization of current bulky quantum optical elements by developing a design of on-chip quantum systems for various applications of quantum technologies. Over the past few years, this field has witnessed a surge of intriguing theoretical ideas, groundbreaking experiments, and novel application proposals. This perspective paper aims to summarize the most recent advancements and also provide a perspective on the further progress in this rapidly developing field of research.
翻訳日:2024-01-31 16:08:26 公開日:2024-01-30
# ワンステップフォワードとバックトラック:ロスアウェア量子化トレーニングにおけるジグザグの克服

One-Step Forward and Backtrack: Overcoming Zig-Zagging in Loss-Aware Quantization Training ( http://arxiv.org/abs/2401.16760v1 )

ライセンス: Link先を確認
Lianbo Ma, Yuee Zhou, Jianlun Ma, Guo Yu, Qing Li(参考訳) 重み量子化は、限られたリソースを持つエッジデバイスに展開するディープニューラルネットワークを圧縮する効果的な手法である。 従来の損失対応量子化法は、全精度勾配を置き換えるために量子化勾配を用いるのが一般的である。 しかし,勾配方向が急速に振動する勾配降下学習手順において,勾配誤差が予期せぬジグザグ問題を引き起こすことが判明し,そのような問題はモデル収束を著しく遅らせる。 そこで本論文では、損失認識量子化のための1ステップの前進とバックトラック方式を提案し、この問題を解消するためにより正確で安定した勾配方向を求める。 勾配降下学習では, 次のステップの試行勾配を求める一段階前方探索が設計され, 高速収束方向への電流ステップの勾配の調整に採用されている。 その後、現在のステップをバックトラックして、現在段階の勾配と試行段階の勾配を通じて、全精度と定量化された重みを更新します。 ベンチマークディープモデルに関する一連の理論的解析と実験により,提案手法の有効性と競争性を実証し,本手法は収束性能において他の手法よりも優れていることを示した。

Weight quantization is an effective technique to compress deep neural networks for their deployment on edge devices with limited resources. Traditional loss-aware quantization methods commonly use the quantized gradient to replace the full-precision gradient. However, we discover that the gradient error will lead to an unexpected zig-zagging-like issue in the gradient descent learning procedures, where the gradient directions rapidly oscillate or zig-zag, and such issue seriously slows down the model convergence. Accordingly, this paper proposes a one-step forward and backtrack way for loss-aware quantization to get more accurate and stable gradient direction to defy this issue. During the gradient descent learning, a one-step forward search is designed to find the trial gradient of the next-step, which is adopted to adjust the gradient of current step towards the direction of fast convergence. After that, we backtrack the current step to update the full-precision and quantized weights through the current-step gradient and the trial gradient. A series of theoretical analysis and experiments on benchmark deep models have demonstrated the effectiveness and competitiveness of the proposed method, and our method especially outperforms others on the convergence performance.
翻訳日:2024-01-31 16:08:14 公開日:2024-01-30
# SwapNet: メモリ予算を越えたエッジAIデバイス上でのDNN推論のための効率的なスワッピング

SwapNet: Efficient Swapping for DNN Inference on Edge AI Devices Beyond the Memory Budget ( http://arxiv.org/abs/2401.16757v1 )

ライセンス: Link先を確認
Kun Wang, Jiani Cao, Zimu Zhou and Zhenjiang Li(参考訳) エッジ人工知能(AI)デバイス上でのディープニューラルネットワーク(DNN)の実行は、さまざまな自律的なモバイルコンピューティングアプリケーションを可能にする。 しかし、エッジAIデバイスのメモリ予算は、そのようなアプリケーションで許されるDNNの数と複雑さを制限する。 モデル圧縮やクラウドオフロードといった既存のソリューションは、モデル精度や自律性の低下を犠牲にして、DNN推論のメモリフットプリントを削減する。 これらの欠点を回避するため、DNNをブロックに分割し、大きなDNNが小さなメモリ予算で実行できるように順番に入れ替える。 それでも、エッジAIデバイスへのナイーブスワップは、エッジAIデバイス用のDNN開発エコシステムにおける冗長なメモリ操作のために、大幅な遅延を引き起こす。 そこで我々は,エッジAIデバイス用のミドルウェアを交換する効率的なDNNブロックであるSwapNetを開発した。 エッジAIデバイスのディープラーニングフレームワーク、GPUバックエンド、ハードウェアアーキテクチャとの互換性を維持しながら、ブロックスワップ時の不要なメモリ操作を体系的に排除します。 さらに,マルチDNNスケジューリング方式によるSwapNetの有用性を示す。 3つのアプリケーションにおける11のDNN推論タスクの評価は、DNNが利用可能な予算を超える2.32倍から5.81倍のメモリを要求する場合でも、SwapNetが十分なメモリを持つ場合とほとんど同じレイテンシを実現することを示した。 SwapNetの設計はまた、将来エッジAIデバイスに大規模言語モデル(LLM)をデプロイするための、斬新で実現可能な洞察を提供する。

Executing deep neural networks (DNNs) on edge artificial intelligence (AI) devices enables various autonomous mobile computing applications. However, the memory budget of edge AI devices restricts the number and complexity of DNNs allowed in such applications. Existing solutions, such as model compression or cloud offloading, reduce the memory footprint of DNN inference at the cost of decreased model accuracy or autonomy. To avoid these drawbacks, we divide DNN into blocks and swap them in and out in order, such that large DNNs can execute within a small memory budget. Nevertheless, naive swapping on edge AI devices induces significant delays due to the redundant memory operations in the DNN development ecosystem for edge AI devices. To this end, we develop SwapNet, an efficient DNN block swapping middleware for edge AI devices. We systematically eliminate the unnecessary memory operations during block swapping while retaining compatible with the deep learning frameworks, GPU backends, and hardware architectures of edge AI devices. We further showcase the utility of SwapNet via a multi-DNN scheduling scheme. Evaluations on eleven DNN inference tasks in three applications demonstrate that SwapNet achieves almost the same latency as the case with sufficient memory even when DNNs demand 2.32x to 5.81x memory beyond the available budget. The design of SwapNet also provides novel and feasible insights for deploying large language models (LLMs) on edge AI devices in the future.
翻訳日:2024-01-31 16:07:51 公開日:2024-01-30
# 関係推論のための拡散モデル

Diffusion model for relational inference ( http://arxiv.org/abs/2401.16755v1 )

ライセンス: Link先を確認
Shuhan Zheng, Ziqiang Li, Kantaro Fujiwara, Gouhei Tanaka(参考訳) 脳活動、金銭的価格運動、物理的集団現象を含む複雑な相互作用系の動的挙動は、システムの構成要素間の基礎的な相互作用と関連している。 可観測力学を用いたそのような系の相互作用関係を明らかにする問題は、関係推論と呼ばれる。 本研究では、確率的時系列計算のための自己教師付き手法に着想を得た関係推論拡散モデル(DiffRI)を提案する。 diffriは条件付き拡散モデリングによってコンポーネント間の接続の存在確率を推測することを学ぶ。 シミュレーションと準実データの両方の実験により、DiffRIは他の最先端モデルと比較して、教師なしの方法で真実の相互作用を発見する能力が高いことが示された。 私たちのコードはもうすぐ公開されるでしょう。

Dynamical behaviors of complex interacting systems, including brain activities, financial price movements, and physical collective phenomena, are associated with underlying interactions between the system's components. The issue of uncovering interaction relations in such systems using observable dynamics is called relational inference. In this study, we propose a Diffusion model for Relational Inference (DiffRI), inspired by a self-supervised method for probabilistic time series imputation. DiffRI learns to infer the probability of the presence of connections between components through conditional diffusion modeling. Experiments on both simulated and quasi-real datasets show that DiffRI is highly competent compared with other state-of-the-art models in discovering ground truth interactions in an unsupervised manner. Our code will be made public soon.
翻訳日:2024-01-31 16:07:29 公開日:2024-01-30
# AIの監視と人間のミス - 中央裁判所による証拠

AI Oversight and Human Mistakes: Evidence from Centre Court ( http://arxiv.org/abs/2401.16754v1 )

ライセンス: Link先を確認
David Almog, Romain Gauriot, Lionel Page, Daniel Martin(参考訳) 機械学習アルゴリズムの予測能力の増大によって、人工知能(AI)システムは、多くの環境で人間のミスを克服するために使われ始めている。 我々は、このAIが人間の意思決定に影響を及ぼす心理的コストを負っていることを示す最初の現場証拠を提供する。 我々は、トップテニストーナメントにおける審判のHawk-Eyeレビューにおいて、AIが監視した最も高い視界設定の一つを調査した。 審判は、AIに圧倒される心理的コストを考慮し、合理的な不注意を伴って、ホークアイレビュー導入後の全体的な誤り率を下げた。 また, 審判員は, ボールの呼び出し頻度を増大させ, タイプIIのエラー(イン時にボールを呼び出す)からタイプIのエラー(アウト時にボールを呼び出す)へのシフトを引き起こした。 我々は、合理的な意図しない審判員のモデルを用いて、AIによって引き起こされる心理的コストを構造的に推定し、その結果、審判員はAI監督下でタイプIIのエラーについて2倍の注意を払っていたことを示唆した。

Powered by the increasing predictive capabilities of machine learning algorithms, artificial intelligence (AI) systems have begun to be used to overrule human mistakes in many settings. We provide the first field evidence this AI oversight carries psychological costs that can impact human decision-making. We investigate one of the highest visibility settings in which AI oversight has occurred: the Hawk-Eye review of umpires in top tennis tournaments. We find that umpires lowered their overall mistake rate after the introduction of Hawk-Eye review, in line with rational inattention given psychological costs of being overruled by AI. We also find that umpires increased the rate at which they called balls in, which produced a shift from making Type II errors (calling a ball out when in) to Type I errors (calling a ball in when out). We structurally estimate the psychological costs of being overruled by AI using a model of rational inattentive umpires, and our results suggest that because of these costs, umpires cared twice as much about Type II errors under AI oversight.
翻訳日:2024-01-31 16:07:19 公開日:2024-01-30
# MuSc:無ラベル画像の相互表示によるゼロショット産業異常分類とセグメンテーション

MuSc: Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images ( http://arxiv.org/abs/2401.16753v1 )

ライセンス: Link先を確認
Xurui Li, Ziming Huang, Feng Xue, Yu Zhou(参考訳) 本稿では,産業ビジョンにおけるゼロショット異常分類(AC)とセグメンテーション(AS)について検討する。 ラベルのないテスト画像に暗黙的に現れる異常な手がかりと異常な手がかりを,事前の手法では無視される異常判定に活用できることが判明した。 産業用製品のイメージでは、通常のイメージパッチは、他のラベルのないイメージに比較的多くの類似のパッチを見つけるが、異常なイメージは、いくつかの類似のパッチしか持たない。 このような識別特性を利用して、トレーニングやプロンプトを必要とせず、無ラベル画像の相互スコーリング(MuSc)による新しいゼロショットAC/AS法を設計する。 具体的には,様々な大きさの異常を表現できるパッチ特徴を得るために,多重度 (lnamd) の局所近傍アグリゲーションを行う。 次に,ラベルのないテスト画像を利用して互いに異常スコアを割り当てる相互得点機構(msm)を提案する。 さらに,画像レベルの異常分類のためのRe-scoring with Constrained Image-level Neighborhood (RsCIN)という最適化手法を提案する。 挑戦的なMVTec ADとVisAデータセットの優れたパフォーマンスは、我々のアプローチの有効性を示している。 最先端のゼロショットアプローチと比較して、MuScはMVTec AD上の$\textbf{21.1%}$ PRO絶対ゲイン(72.7%から93.8%)、$\textbf{19.4%}$ピクセルAPゲイン、$\textbf{14.7%}$ピクセルAUROCゲインを達成する。 さらに、ゼロショットアプローチは、いくつかのショットアプローチよりも優れており、いくつかのワンクラスのメソッドに匹敵する。 コードはhttps://github.com/xrli-U/MuSc.comで入手できる。

This paper studies zero-shot anomaly classification (AC) and segmentation (AS) in industrial vision. We reveal that the abundant normal and abnormal cues implicit in unlabeled test images can be exploited for anomaly determination, which is ignored by prior methods. Our key observation is that for the industrial product images, the normal image patches could find a relatively large number of similar patches in other unlabeled images, while the abnormal ones only have a few similar patches. We leverage such a discriminative characteristic to design a novel zero-shot AC/AS method by Mutual Scoring (MuSc) of the unlabeled images, which does not need any training or prompts. Specifically, we perform Local Neighborhood Aggregation with Multiple Degrees (LNAMD) to obtain the patch features that are capable of representing anomalies in varying sizes. Then we propose the Mutual Scoring Mechanism (MSM) to leverage the unlabeled test images to assign the anomaly score to each other. Furthermore, we present an optimization approach named Re-scoring with Constrained Image-level Neighborhood (RsCIN) for image-level anomaly classification to suppress the false positives caused by noises in normal images. The superior performance on the challenging MVTec AD and VisA datasets demonstrates the effectiveness of our approach. Compared with the state-of-the-art zero-shot approaches, MuSc achieves a $\textbf{21.1%}$ PRO absolute gain (from 72.7% to 93.8%) on MVTec AD, a $\textbf{19.4%}$ pixel-AP gain and a $\textbf{14.7%}$ pixel-AUROC gain on VisA. In addition, our zero-shot approach outperforms most of the few-shot approaches and is comparable to some one-class methods. Code is available at https://github.com/xrli-U/MuSc.
翻訳日:2024-01-31 16:07:00 公開日:2024-01-30
# ベンガル語におけるラシストテキストの検出 - アンサンブルディープラーニングフレームワーク

Detecting Racist Text in Bengali: An Ensemble Deep Learning Framework ( http://arxiv.org/abs/2401.16748v1 )

ライセンス: Link先を確認
S. S. Saruar, Nusrat, Sadia(参考訳) 人種差別は我々の国だけでなく世界中で危険な現象だ。 私たちは毎日、日々の生活と仮想生活に関する人種差別的なコメントを目にしています。 しかし、この人種差別を仮想生活(ソーシャルメディアなど)から根絶することができる。 本稿では,NLPおよびディープラーニング技術を用いた人種差別的コメントの検出を試みた。 私たちはベンガル語で新しいデータセットを構築しました。 さらに,データセットにアノテートを行い,データラベル検証を行った。 深層学習法を広範囲に活用した結果,アンサンブル法を用いて87.94\%の精度でテキスト検出に成功した。 BERT 埋め込みを用いて RNN と LSTM モデルを適用した。 しかし、MCNN-LSTMモデルはこれらのモデルの中で最も高い性能を示した。 最後に、アンサンブルアプローチは、全体的なパフォーマンスを向上させるためにすべてのモデル結果を統合するために従った。

Racism is an alarming phenomenon in our country as well as all over the world. Every day we have come across some racist comments in our daily life and virtual life. Though we can eradicate this racism from virtual life (such as Social Media). In this paper, we have tried to detect those racist comments with NLP and deep learning techniques. We have built a novel dataset in the Bengali Language. Further, we annotated the dataset and conducted data label validation. After extensive utilization of deep learning methodologies, we have successfully achieved text detection with an impressive accuracy rate of 87.94\% using the Ensemble approach. We have applied RNN and LSTM models using BERT Embeddings. However, the MCNN-LSTM model performed highest among all those models. Lastly, the Ensemble approach has been followed to combine all the model results to increase overall performance.
翻訳日:2024-01-31 16:06:19 公開日:2024-01-30
# MT-Eval:大規模言語モデルのためのマルチタスク能力評価ベンチマーク

MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models ( http://arxiv.org/abs/2401.16745v1 )

ライセンス: Link先を確認
Wai-Chung Kwan, Xingshan Zeng, Yuxin Jiang, Yufei Wang, Liangyou Li, Lifeng Shang, Xin Jiang, Qun Liu, Kam-Fai Wong(参考訳) 大規模言語モデル(llm)は、様々な現実世界アプリケーションにわたる複雑なマルチターン会話にますます依存している。 しかし、既存のベンチマークは主にシングルターン評価にフォーカスしており、マルチターンインタラクションにおけるモデルの能力を見渡している。 このギャップに対処するために,マルチターン対話能力の評価を目的とした総合ベンチマークMT-Evalを導入する。 人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 既存のデータセットを拡張したり,gpt-4で新しい例を作成してデータ漏洩を回避することで,各カテゴリのマルチターンクエリを構築する。 マルチターン能力に影響を与える要因を調べるために,1170個のマルチターンクエリのシングルターンバージョンを作成し,性能を比較する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて一部のオープンソースモデルはGPT-3.5-Turboを超えていることがわかった。 モデルの基本機能と相関しない,多くのモデルにおけるシングルターン設定と比較して,マルチターン設定の大幅な性能劣化を観察する。 さらに,複数ターン性能に影響を与える要因として,関連コンテンツへの距離と誤り伝播への感受性を同定する。 MT-Evalは、より堅牢な会話モデルに向けた将来の研究を促進するために、一般公開されている。

Large language models (LLMs) are increasingly relied upon for complex multi-turn conversations across diverse real-world applications. However, existing benchmarks predominantly focus on single-turn evaluations, overlooking the models' capabilities in multi-turn interactions. To address this gap, we introduce MT-Eval, a comprehensive benchmark designed to evaluate multi-turn conversational abilities. By analyzing human-LLM conversations, we categorize interaction patterns into four types: recollection, expansion, refinement, and follow-up. We construct multi-turn queries for each category either by augmenting existing datasets or by creating new examples with GPT-4 to avoid data leakage. To study the factors impacting multi-turn abilities, we create single-turn versions of the 1170 multi-turn queries and compare performance. Our evaluation of 11 well-known LLMs shows that while closed-source models generally surpass open-source ones, certain open-source models exceed GPT-3.5-Turbo in specific tasks. We observe significant performance degradation in multi-turn settings compared to single-turn settings in most models, which is not correlated with the models' fundamental capabilities. Moreover, we identify the distance to relevant content and susceptibility to error propagation as the key factors influencing multi-turn performance. MT-Eval is released publicly to encourage future research towards more robust conversational models.
翻訳日:2024-01-31 16:06:07 公開日:2024-01-30
# ShaRP: 共有価値でランクを説明する

ShaRP: Explaining Rankings with Shapley Values ( http://arxiv.org/abs/2401.16744v1 )

ライセンス: Link先を確認
Venetia Pliatsika and Joao Fonseca and Tilun Wang and Julia Stoyanovich(参考訳) 雇用、大学入学、貸付といった重要な分野におけるアルゴリズム的決定は、しばしばランキングに基づいている。 これらの決定が個人、組織、人口集団に影響を及ぼすため、それらを理解する必要がある: 決定が法律に従っているかどうかを知るため、個人がランクを上げるのを助けるため、より良いランク付け手順を設計するためである。 本稿では,評価結果の異なる側面に対する特徴の寄与を説明するフレームワークであるsharp(shapley for rankings and preferences)を提案する。 ShaRPを用いて,アルゴリズムのランク付けで用いられるスコアリング関数が線形である場合でも,各特徴の重みがShapley値の寄与と一致しないことを示す。 その代わりに、コントリビューションは、特徴分布と、スコアリング特徴間の微妙な局所的な相互作用に依存する。 ShaRPはQuantical Input Influenceフレームワーク上に構築されており、スコア、ランク、ペアワイドの好み、トップkなど、複数の関心の量のための機能のコントリビューションを計算することができる。 ランク付けのブラックボックスアクセスに依存するため、スコアベースと学習されたランキングモデルの両方を説明するためにShaRPを使用することができる。 実データと合成データを用いて,ShaRPの実験的検証を行い,定性解析に有用であることを示す。

Algorithmic decisions in critical domains such as hiring, college admissions, and lending are often based on rankings. Because of the impact these decisions have on individuals, organizations, and population groups, there is a need to understand them: to know whether the decisions are abiding by the law, to help individuals improve their rankings, and to design better ranking procedures. In this paper, we present ShaRP (Shapley for Rankings and Preferences), a framework that explains the contributions of features to different aspects of a ranked outcome, and is based on Shapley values. Using ShaRP, we show that even when the scoring function used by an algorithmic ranker is known and linear, the weight of each feature does not correspond to its Shapley value contribution. The contributions instead depend on the feature distributions, and on the subtle local interactions between the scoring features. ShaRP builds on the Quantitative Input Influence framework, and can compute the contributions of features for multiple Quantities of Interest, including score, rank, pair-wise preference, and top-k. Because it relies on black-box access to the ranker, ShaRP can be used to explain both score-based and learned ranking models. We show results of an extensive experimental validation of ShaRP using real and synthetic datasets, showcasing its usefulness for qualitative analysis.
翻訳日:2024-01-31 16:05:47 公開日:2024-01-30
# 生成AIに基づく閉ループfMRIシステム

Generative AI-based closed-loop fMRI system ( http://arxiv.org/abs/2401.16742v1 )

ライセンス: Link先を確認
Mikihiro Kasahara, Taiki Oka, Vincent Taschereau-Dumouchel, Mitsuo Kawato, Hiroki Takakura, Aurelio Cortese(参考訳) 現在、生成的AIは社会において広く有用であるが、例えば認知過程や意思決定に無意識に影響を及ぼす誤用の危険性がある。 これは認知領域のセキュリティ問題を引き起こすが、人間における悪意ある生成AIの影響に対抗する神経および計算機構に関する研究は行われていない。 本稿では, 生成的対立システムとニューラル強化モデルを組み合わせた新しいフレームワークであるDecNefGANを提案する。 より具体的には、DecNefGANは人間と生成するAIをクローズドループシステムにブリッジし、AIは特定の精神状態を引き起こす刺激を発生させ、神経活動に対する外部制御を実行する。 人間の目的は逆であり、正統的な精神状態と競い、到達することである。 このフレームワークは、人間の脳がどのように反応し、生成的AIの潜在的な影響に対処するかを解明するのに役立つ。

While generative AI is now widespread and useful in society, there are potential risks of misuse, e.g., unconsciously influencing cognitive processes or decision-making. Although this causes a security problem in the cognitive domain, there has been no research about neural and computational mechanisms counteracting the impact of malicious generative AI in humans. We propose DecNefGAN, a novel framework that combines a generative adversarial system and a neural reinforcement model. More specifically, DecNefGAN bridges human and generative AI in a closed-loop system, with the AI creating stimuli that induce specific mental states, thus exerting external control over neural activity. The objective of the human is the opposite, to compete and reach an orthogonal mental state. This framework can contribute to elucidating how the human brain responds to and counteracts the potential influence of generative AI.
翻訳日:2024-01-31 16:05:24 公開日:2024-01-30
# Pseudo-Imputationとしての学習型プロンプト : 下流臨床予測における従来のERHデータインプットの必要性の再評価

Learnable Prompt as Pseudo-Imputation: Reassessing the Necessity of Traditional EHR Data Imputation in Downstream Clinical Prediction ( http://arxiv.org/abs/2401.16796v1 )

ライセンス: Link先を確認
Weibin Liao, Yinghao Zhu, Zixiang Wang, Xu Chu, Yasha Wang, Liantao Ma(参考訳) 電子健康記録(EHR)に基づく患者の健康状態の分析は,医療情報学の基本的な研究課題である。 EHRに大きな欠落があるため、ディープニューラルネットワークは、EHRに基づいて患者の健康状態を直接モデル化することは困難である。 既存のディープラーニングトレーニングプロトコルでは、欠落した値を再構成するために統計情報やインプテーションモデルを使用する必要があるが、このプロトコルは下流のehr分析モデルに非現実的なデータを注入し、モデル性能を著しく制限する。 本稿では,Pseudo Imputation (PAI) を新たなトレーニングプロトコルとして紹介する。 PAIはもはやインプットデータを導入しないが、ダウンストリームモデルの暗黙の選好を欠落値としてモデル化するための学習可能なプロンプトを構築し、その結果、すべてのEHR分析モデルで大幅なパフォーマンス改善が達成される。 さらに,PAIはデータ不足や欠落率の高い状況において高い堅牢性を示すことを示した。 さらに重要なことは、ゼロショット評価を伴うクロスインスティカルなデータを含む現実世界のアプリケーションにおいて、PAIは非重複機能に対するより強力なモデル一般化能力を示す。

Analyzing the health status of patients based on Electronic Health Records (EHR) is a fundamental research problem in medical informatics. The presence of extensive missing values in EHR makes it challenging for deep neural networks to directly model the patient's health status based on EHR. Existing deep learning training protocols require the use of statistical information or imputation models to reconstruct missing values; however, the protocols inject non-realistic data into downstream EHR analysis models, significantly limiting model performance. This paper introduces Learnable Prompt as Pseudo Imputation (PAI) as a new training protocol. PAI no longer introduces any imputed data but constructs a learnable prompt to model the implicit preferences of the downstream model for missing values, resulting in a significant performance improvement for all EHR analysis models. Additionally, our experiments show that PAI exhibits higher robustness in situations of data insufficiency and high missing rates. More importantly, in a real-world application involving cross-institutional data with zero-shot evaluation, PAI demonstrates stronger model generalization capabilities for non-overlapping features.
翻訳日:2024-01-31 15:58:44 公開日:2024-01-30
# performance insightsベースのai駆動のサッカー転送手数料予測

Performance Insights-based AI-driven Football Transfer Fee Prediction ( http://arxiv.org/abs/2401.16795v1 )

ライセンス: Link先を確認
Daniil Sulimov(参考訳) サッカー選手の転校料を予測するための人工知能手法を開発した。 このモデルは、クラブがどのプレイヤーを購入、販売するかをよりよく決定するのに役立ち、パフォーマンスの向上とクラブ予算の増大につながる。 プレイヤーのパフォーマンス、転送手数料、プレイヤーの価値に影響するその他の要因に関するデータを収集し、このデータを使用して、プレイヤーがゲームに与える影響を正確に予測できる機械学習モデルをトレーニングしました。 さらに, 転送手数料の予測者にその特徴の1つとして, 得られた結果を渡した。 このモデルは、過小評価され、利益のために売られるプレイヤーを特定するのに役立つ。 また、クラブは選手への過払いを回避できる。 私たちのモデルはサッカークラブにとって貴重なツールだと信じています。 プレイヤーの募集や転職に関するより良い意思決定を助けることができる。

We developed an artificial intelligence approach to predict the transfer fee of a football player. This model can help clubs make better decisions about which players to buy and sell, which can lead to improved performance and increased club budgets. Having collected data on player performance, transfer fees, and other factors that might affect a player's value, we then used this data to train a machine learning model that can accurately predict a player's impact on the game. We further passed the obtained results as one of the features to the predictor of transfer fees. The model can help clubs identify players who are undervalued and who could be sold for a profit. It can also help clubs avoid overpaying for players. We believe that our model can be a valuable tool for football clubs. It can help them make better decisions about player recruitment and transfers.
翻訳日:2024-01-31 15:58:20 公開日:2024-01-30
# 人工知能のための加速クラウド(acai)

Accelerated Cloud for Artificial Intelligence (ACAI) ( http://arxiv.org/abs/2401.16791v1 )

ライセンス: Link先を確認
Dachi Chen, Weitian Ding, Chen Liang, Chang Xu, Junwei Zhang, Majd Sakr(参考訳) 効果的な機械学習(ML)モデルをトレーニングすることは、複数の次元に労力を要する反復的なプロセスである。 垂直的には、単一のパイプラインは通常、生データセットの初期ETL(Extract, Transform, Load)、モデルトレーニングステージ、モデルパフォーマンスの統計を取得する評価ステージを含む。 水平的に、そのようなパイプラインの多くは、モデル構成の検索空間内で最高のモデルを見つけるために必要となる。 多くの実践者は、手動でログをメンテナンスし、ワークフローを自動化するための単純なグルーコードを書く。 しかし、このプロセスをクラウド上で実行することは、リソースのプロビジョニング、データ管理、ジョブ履歴の簿記といった点で、成果の再現性を確保するための簡単な作業ではない。 我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるaccelerated cloud for ai(acai)を提案し、ml実践者の生産性を向上させる。 ACAIはこの目標を達成するために、インデックス付き、ラベル付き、検索可能なデータのクラウドベースのストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。 具体的には、(1)バージョン付きデータセットとそのメタデータを格納するデータレイク、(2)自動リソースプロビジョニング(自動プロビジョニング)、ロギング、プロファイランストラッキングを備えたクラウド上でMLジョブを実行する実行エンジンを提供する。 ACAIを評価するために,MNIST手書き桁分類タスクにおいて自動作成装置の有効性を検証し,実験とインタビューを用いてシステムの有用性について検討した。 自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。

Training an effective Machine learning (ML) model is an iterative process that requires effort in multiple dimensions. Vertically, a single pipeline typically includes an initial ETL (Extract, Transform, Load) of raw datasets, a model training stage, and an evaluation stage where the practitioners obtain statistics of the model performance. Horizontally, many such pipelines may be required to find the best model within a search space of model configurations. Many practitioners resort to maintaining logs manually and writing simple glue code to automate the workflow. However, carrying out this process on the cloud is not a trivial task in terms of resource provisioning, data management, and bookkeeping of job histories to make sure the results are reproducible. We propose an end-to-end cloud-based machine learning platform, Accelerated Cloud for AI (ACAI), to help improve the productivity of ML practitioners. ACAI achieves this goal by enabling cloud-based storage of indexed, labeled, and searchable data, as well as automatic resource provisioning, job scheduling, and experiment tracking. Specifically, ACAI provides practitioners (1) a data lake for storing versioned datasets and their corresponding metadata, and (2) an execution engine for executing ML jobs on the cloud with automatic resource provisioning (auto-provision), logging and provenance tracking. To evaluate ACAI, we test the efficacy of our auto-provisioner on the MNIST handwritten digit classification task, and we study the usability of our system using experiments and interviews. We show that our auto-provisioner produces a 1.7x speed-up and 39% cost reduction, and our system reduces experiment time for ML scientists by 20% on typical ML use cases.
翻訳日:2024-01-31 15:58:08 公開日:2024-01-30
# 非エルミート系におけるガウス波束の時間進化の解析

Analysis of Time-Evolution of Gaussian Wavepackets in Non-Hermitian Systems ( http://arxiv.org/abs/2401.16789v1 )

ライセンス: Link先を確認
Amartya Bose(参考訳) 量子非調和系の多次元ダイナミクスのシミュレーションと解析は難しい問題である。 ガウス波束力学は量子系の力学を解くための直感的な半古典的アプローチであることが証明されている。 ガウス波束アプローチは、複雑な古典的軌跡の観点で力学の透過的な解析を可能にするハタノ・ネルソンモデルへの連続空間拡張のために提案される。 初期条件を運動量座標を通じて適切に非ヘルミティシティを考慮し, 構成空間軌道を完全に現実にすることができる場合を示す。 しかし、一般に複素位相空間は避けられない。 軌道が現実である場合、有効力はポテンシャルエネルギー面と虚ベクトルポテンシャルによって分解することができる。 ウェーブパケットの軌道に対するベクトルポテンシャルの影響は、ベクター電位の強さとウェーブパケットの幅の両方に直接比例する。

Simulation and analysis of multidimensional dynamics of a quantum non-Hmeritian system is a challenging problem. Gaussian wavepacket dynamics has proven to be an intuitive semiclassical approach to approximately solving the dynamics of quantum systems. A Gaussian wavepacket approach is proposed for a continuous space extension to the Hatano-Nelson model that enables transparent analysis of the dynamics in terms of complex classical trajectories. We demonstrate certain cases where the configuration space trajectory can be made fully real by transforming the initial conditions to account for the non-Hermiticity appropriately through the momentum coordinates. However, in general the complex phase space is unavoidable. For the cases where the trajectory is real, the effective force can be decomposed into that due to the potential energy surface and that due to the imaginary vector potential. The impact of the vector potential on the trajectory of the wavepacket is directly proportional to both the strength of the vector potential and the width of the wavepacket.
翻訳日:2024-01-31 15:57:36 公開日:2024-01-30
# 大規模言語モデルは評価に信頼できるのか? エージェント・ディベートによるLCMのスケーラブルなメタ評価

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate ( http://arxiv.org/abs/2401.16788v1 )

ライセンス: Link先を確認
Steffi Chern, Ethan Chern, Graham Neubig, Pengfei Liu(参考訳) 幅広いタスクやシナリオにまたがるLLM(Large Language Models)の有用性にもかかわらず、さまざまなコンテキストにまたがるLSMを確実に評価する手法を開発することは、依然として困難である。 現代の評価手法は、LLMが生成した応答を評価するためにしばしばLLMを使用する。 しかしながら、これらのLCMの有効性を評価対象として評価するためのメタ評価は、通常、既存のベンチマークのカバレッジによって制約される。 これは、様々なタスクやシナリオ、特に潜在的に新しいユーザ定義シナリオにおいて、LCMのパフォーマンスを効果的に、確実に、かつ効率的に評価できるスケーラブルなメタ評価のためのメソッドの緊急性を強調します。 このギャップを埋めるために,複数のLLMエージェントの能力を活用する,エージェント記述型メタ評価フレームワークであるScaleEvalを提案する。 このフレームワークは、マルチラウンドの議論をサポートし、ヒトのアノテータが最も有能なLLMを評価対象とすることで、メタ評価中に大規模なアノテーションを必要とする場合の作業負荷を大幅に軽減する。 フレームワークのコードを公開しています。 \url{https://github.com/GAIR-NLP/scaleeval}。

Despite the utility of Large Language Models (LLMs) across a wide range of tasks and scenarios, developing a method for reliably evaluating LLMs across varied contexts continues to be challenging. Modern evaluation approaches often use LLMs to assess responses generated by LLMs. However, the meta-evaluation conducted to assess the effectiveness of these LLMs as evaluators is typically constrained by the coverage of existing benchmarks or requires extensive human annotation. This underscores the urgency of methods for scalable meta-evaluation that can effectively, reliably, and efficiently evaluate the performance of LLMs as evaluators across diverse tasks and scenarios, particularly in potentially new, user-defined scenarios. To fill this gap, we propose ScaleEval, an agent-debate-assisted meta-evaluation framework that leverages the capabilities of multiple communicative LLM agents. This framework supports multi-round discussions to assist human annotators in discerning the most capable LLMs as evaluators, which significantly eases their workload in cases that used to require large-scale annotations during meta-evaluation. We release the code for our framework, which is publicly available at: \url{https://github.com/GAIR-NLP/scaleeval}.
翻訳日:2024-01-31 15:57:18 公開日:2024-01-30
# ホークアイ損失を伴う支持ベクトル回帰における効率とロバスト性の向上

Enhancing Efficiency and Robustness in Support Vector Regression with HawkEye Loss ( http://arxiv.org/abs/2401.16785v1 )

ライセンス: Link先を確認
Mushir Akhtar, M. Tanveer, and Mohd. Arshad(参考訳) サポートベクター回帰(SVR)は、様々な分野にまたがる幅広い応用のために、過去20年間で大きな人気を集めてきた。 その汎用性にもかかわらず、SVRは、主に$\varepsilon$-insensitive loss関数を使用するために、外れ値とノイズに直面した時に課題に直面する。 この制限に対処するために、有界損失関数を持つsvrが魅力的な代替として登場し、一般化性能と堅牢性が向上した。 特に近年の進歩は、スムーズな特性を持つ有界損失関数の設計に焦点が当てられ、勾配に基づく最適化アルゴリズムが採用されている。 しかし、これらの有界かつ滑らかな損失関数は無感ゾーンを持たないことを強調することが重要である。 本稿では,HawkeEye損失関数という新しい対称損失関数を導入することで,上記の制約に対処する。 なお、HawkeEye損失関数は、SVR文学における最初の損失関数として有界かつ滑らかで同時に非感性ゾーンを持つものとして注目に値する。 このブレークスルーを活用して、HawkEye損失関数をSVRの最小2乗フレームワークに統合し、HE-LSSVRと呼ばれる新しい高速で堅牢なモデルを得る。 HE-LSSVRに固有の最適化問題は、適応的学習率と大規模問題処理の有効性で知られている適応的モーメント推定(Adam)アルゴリズムを活用することで解決される。 私たちの知る限り、Adam氏がSVR問題を解決するために雇われたのはこれが初めてです。 提案したHE-LSSVRモデルを実験的に評価するために,UCI,合成,時系列データセットを用いて評価を行った。 実験結果から, HE-LSSVRモデルの卓越した一般化性能と学習時間における効率性の両方が明らかとなった。

Support vector regression (SVR) has garnered significant popularity over the past two decades owing to its wide range of applications across various fields. Despite its versatility, SVR encounters challenges when confronted with outliers and noise, primarily due to the use of the $\varepsilon$-insensitive loss function. To address this limitation, SVR with bounded loss functions has emerged as an appealing alternative, offering enhanced generalization performance and robustness. Notably, recent developments focus on designing bounded loss functions with smooth characteristics, facilitating the adoption of gradient-based optimization algorithms. However, it's crucial to highlight that these bounded and smooth loss functions do not possess an insensitive zone. In this paper, we address the aforementioned constraints by introducing a novel symmetric loss function named the HawkEye loss function. It is worth noting that the HawkEye loss function stands out as the first loss function in SVR literature to be bounded, smooth, and simultaneously possess an insensitive zone. Leveraging this breakthrough, we integrate the HawkEye loss function into the least squares framework of SVR and yield a new fast and robust model termed HE-LSSVR. The optimization problem inherent to HE-LSSVR is addressed by harnessing the adaptive moment estimation (Adam) algorithm, known for its adaptive learning rate and efficacy in handling large-scale problems. To our knowledge, this is the first time Adam has been employed to solve an SVR problem. To empirically validate the proposed HE-LSSVR model, we evaluate it on UCI, synthetic, and time series datasets. The experimental outcomes unequivocally reveal the superiority of the HE-LSSVR model both in terms of its remarkable generalization performance and its efficiency in training time.
翻訳日:2024-01-31 15:56:56 公開日:2024-01-30
# 分布シフトによるグラフフェアネス学習

Graph Fairness Learning under Distribution Shifts ( http://arxiv.org/abs/2401.16784v1 )

ライセンス: Link先を確認
Yibo Li, Xiao Wang, Yujie Xing, Shaohua Fan, Ruijia Wang, Yaoqi Liu, and Chuan Shi(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データにおいて顕著なパフォーマンスを達成した。 しかし、GNNはトレーニングデータから偏見を継承し、性別や人種などのセンシティブな属性に基づいて差別予測を行う。 近年、GNNの公正性確保への関心が高まっているが、これらはすべて、トレーニングデータとテストデータが同じ分布下にある、すなわち、トレーニングデータとテストデータが同じグラフである、という仮定の下にある。 分布シフトによりグラフの公平性は低下するか? 分布シフトはグラフフェアネス学習にどのように影響するか? これらのオープンな質問は、理論的な観点からほとんど探索されていない。 これらの質問に答えるために、まずグラフ上のバイアスを決定する要因を理論的に同定する。 次に,テストグラフの公平性に影響を与える要因について検討し,トレーニンググラフとテストグラフの間の特定のグループの表現距離が注目される。 理論解析により,本フレームワークのFatraGNNを提案する。 具体的には,未知のテストグラフ上での公平性を保証するために,多数のグラフを生成するグラフ生成器を提案する。 そして、トレーニンググラフと生成されたグラフの間の各群に対する表現距離を最小化する。 これにより、大きなバイアスを持つ生成されたグラフでも高い分類と公平性を達成し、未知のテストグラフを効果的に処理できるのです。 実世界および半合成データセットの実験は、精度と公平性の両方の観点から、このモデルの有効性を示している。

Graph neural networks (GNNs) have achieved remarkable performance on graph-structured data. However, GNNs may inherit prejudice from the training data and make discriminatory predictions based on sensitive attributes, such as gender and race. Recently, there has been an increasing interest in ensuring fairness on GNNs, but all of them are under the assumption that the training and testing data are under the same distribution, i.e., training data and testing data are from the same graph. Will graph fairness performance decrease under distribution shifts? How does distribution shifts affect graph fairness learning? All these open questions are largely unexplored from a theoretical perspective. To answer these questions, we first theoretically identify the factors that determine bias on a graph. Subsequently, we explore the factors influencing fairness on testing graphs, with a noteworthy factor being the representation distances of certain groups between the training and testing graph. Motivated by our theoretical analysis, we propose our framework FatraGNN. Specifically, to guarantee fairness performance on unknown testing graphs, we propose a graph generator to produce numerous graphs with significant bias and under different distributions. Then we minimize the representation distances for each certain group between the training graph and generated graphs. This empowers our model to achieve high classification and fairness performance even on generated graphs with significant bias, thereby effectively handling unknown testing graphs. Experiments on real-world and semi-synthetic datasets demonstrate the effectiveness of our model in terms of both accuracy and fairness.
翻訳日:2024-01-31 15:56:24 公開日:2024-01-30
# MRIにおける胎児脳運動補正の文献的考察

A Literature Review on Fetus Brain Motion Correction in MRI ( http://arxiv.org/abs/2401.16782v1 )

ライセンス: Link先を確認
Haoran Zhang, Yun Wang(参考訳) 本稿では,MRIにおける胎児運動補正の最近の進歩を概観する。 我々はこれらの課題を克服するために、様々な現代的な方法論と技術進歩を探求する。 その中には、Slice to Volume Registration(SVR)のような従来の3DMRI補正方法、畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM) Networks、Transformers、Generative Adversarial Networks(GAN)といったディープラーニングベースのテクニック、最新の拡散モデルなどが含まれる。 この文献レビューから得られた知見は、MRI研究における胎児運動の技術的な複雑さと実践的意味の両方を深く理解し、潜在的な解決策とこの分野の今後の改善について合理的な視点を提供する。

This paper provides a comprehensive review of the latest advancements in fetal motion correction in MRI. We delve into various contemporary methodologies and technological advancements aimed at overcoming these challenges. It includes traditional 3D fetal MRI correction methods like Slice to Volume Registration (SVR), deep learning-based techniques such as Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTM) Networks, Transformers, Generative Adversarial Networks (GANs) and most recent advancements of Diffusion Models. The insights derived from this literature review reflect a thorough understanding of both the technical intricacies and practical implications of fetal motion in MRI studies, offering a reasoned perspective on potential solutions and future improvements in this field.
翻訳日:2024-01-31 15:56:05 公開日:2024-01-30
# GKP状態を用いたパッシブ環境支援量子トランスダクション

Passive environment-assisted quantum transduction with GKP states ( http://arxiv.org/abs/2401.16781v1 )

ライセンス: Link先を確認
Zhaoyou Wang, Liang Jiang(参考訳) 量子トランスデューサは物理システムのハイブリッドインタフェースを通じて、あるキャリアから別のキャリアへ量子信号を変換する。 2つのボゾンモード間の量子トランスデューサの場合、共有エンタングルメントや古典的な通信のない直接量子トランスデューサは0.5を超える変換効率を必要とする。 この厳密な要件を克服するために,受動的環境支援型量子トランスダクションを提案する。 内部の損失がなければ、量子トランスデューサは2つのモード間のビーム分割器をユニタリ化する。 モード1からモード2へのトランスダクションプロセスへの付加ノイズは、モード2の初期状態によって決定され、トランスダクション性能が向上する。 理想のGottesman-Kitaev-Preskill状態(GKP)を両モードの初期状態として選択することにより、完全量子トランスダクションを任意に低い変換効率で達成できることが分かる。 実際には、有限エネルギーの制約を考えることも重要であり、高忠実度量子トランスダクションはGKP状態が少数の光子レベルで達成可能である。

Quantum transducers convert quantum signals from one carrier to another through hybrid interfaces of physical systems. For a quantum transducer between two bosonic modes, direct quantum transduction without shared entanglement or classical communication typically requires a conversion efficiency exceeding 0.5 which is challenging for current experiments. We propose the passive environment-assisted quantum transduction to overcome this stringent requirement. Without internal losses, the quantum transducer realizes a beam splitter unitary between two modes. The added noises to the transduction process from mode 1 to mode 2 is determined by the initial state of mode 2, which can be engineered to enhance the transduction performance. We find that by choosing the ideal Gottesman-Kitaev-Preskill (GKP) states as the initial states of both modes, perfect quantum transduction can be achieved at arbitrarily low conversion efficiencies. In practice, it is crucial to also consider the finite energy constraints and high fidelity quantum transduction remains achievable with GKP states at the few-photon level.
翻訳日:2024-01-31 15:55:49 公開日:2024-01-30
# 回折プロセッサを用いた全光複合場イメージング

All-optical complex field imaging using diffractive processors ( http://arxiv.org/abs/2401.16779v1 )

ライセンス: Link先を確認
Jingxi Li, Yuhang Li, Tianyi Gan, Che-Yung Shen, Mona Jarrahi, Aydogan Ozcan(参考訳) 入力された光学場や物体の振幅と位相情報の両方を撮像する複素場イメージングは、吸収や屈折率分布などのサンプルに豊富な構造的洞察を与えることができる。 しかし、従来の画像センサは強度に基づいており、磁場の位相分布を直接測定する能力は本質的に欠如している。 この制限はインターフェロメトリ法やホログラフィ法で克服することができ、しばしば反復位相探索アルゴリズムによって補われ、ハードウェアの複雑さと計算要求が大幅に増大する。 本稿では,デジタル処理を伴わない強度センサアレイを用いて,入力フィールドの振幅および定量的位相情報のスナップショット化を可能にする複雑なフィールドイメージ設計を提案する。 本設計では,入力複素場を一括変調するように構成された連続的な深層学習最適化回折面を利用し,入力面と出力面間の振幅-振幅変換と位相-強度変換を行う2つの独立したイメージングチャネルを,軸方向に約100波長にまたがるコンパクト光学設計で形成する。 センサ面上の2つのチャネルの出力場の強度分布は、入力された複素場の振幅および定量的位相プロファイルと直接対応し、デジタル画像再構成アルゴリズムの必要性を排除している。 テラヘルツスペクトルで3次元プリントした試作機を用いて複素場回折画像の設計の有効性を実験的に検証し, 出力振幅と位相チャネル画像は数値シミュレーションと密接に一致した。 この複雑なフィールドイメージ装置は,セキュリティ,バイオメディカルイメージング,センシング,物質科学など,様々な応用が期待できる。

Complex field imaging, which captures both the amplitude and phase information of input optical fields or objects, can offer rich structural insights into samples, such as their absorption and refractive index distributions. However, conventional image sensors are intensity-based and inherently lack the capability to directly measure the phase distribution of a field. This limitation can be overcome using interferometric or holographic methods, often supplemented by iterative phase retrieval algorithms, leading to a considerable increase in hardware complexity and computational demand. Here, we present a complex field imager design that enables snapshot imaging of both the amplitude and quantitative phase information of input fields using an intensity-based sensor array without any digital processing. Our design utilizes successive deep learning-optimized diffractive surfaces that are structured to collectively modulate the input complex field, forming two independent imaging channels that perform amplitude-to-amplitude and phase-to-intensity transformations between the input and output planes within a compact optical design, axially spanning ~100 wavelengths. The intensity distributions of the output fields at these two channels on the sensor plane directly correspond to the amplitude and quantitative phase profiles of the input complex field, eliminating the need for any digital image reconstruction algorithms. We experimentally validated the efficacy of our complex field diffractive imager designs through 3D-printed prototypes operating at the terahertz spectrum, with the output amplitude and phase channel images closely aligning with our numerical simulations. We envision that this complex field imager will have various applications in security, biomedical imaging, sensing and material science, among others.
翻訳日:2024-01-31 15:55:33 公開日:2024-01-30
# インスタンス正規化フローを用いた時系列予測における分布シフトの解消

Addressing Distribution Shift in Time Series Forecasting with Instance Normalization Flows ( http://arxiv.org/abs/2401.16777v1 )

ライセンス: Link先を確認
Wei Fan, Shun Zheng, Pengyang Wang, Rui Xie, Jiang Bian, Yanjie Fu(参考訳) 時系列の非定常性のため、分布シフト問題は、主に時系列予測の性能を阻害する。 既存のソリューションは単純な統計以上のシフトに失敗するか、予測モデルとの互換性が限られている。 本稿では,時系列予測のための一般解法を提案し,一定の統計量に依存しず,予測アーキテクチャに制約をもたない。 次に,このような定式化を二段階最適化問題として定式化し,変換(外ループ)と予測(内ループ)の合同学習を可能にする。 さらに、変換に対する表現性と双方向性という特別な要求により、時系列変換のための新しい可逆ネットワークであるインスタンス正規化フロー (in-flow) を提案する動機付けとなった。 広範な実験により,本手法は合成データと実データの両方において最先端のベースラインを一貫して上回ることを示した。

Due to non-stationarity of time series, the distribution shift problem largely hinders the performance of time series forecasting. Existing solutions either fail for the shifts beyond simple statistics or the limited compatibility with forecasting models. In this paper, we propose a general decoupled formulation for time series forecasting, with no reliance on fixed statistics and no restriction on forecasting architectures. Then, we make such a formulation formalized into a bi-level optimization problem, to enable the joint learning of the transformation (outer loop) and forecasting (inner loop). Moreover, the special requirements of expressiveness and bi-direction for the transformation motivate us to propose instance normalization flows (IN-Flow), a novel invertible network for time series transformation. Extensive experiments demonstrate our method consistently outperforms state-of-the-art baselines on both synthetic and real-world data.
翻訳日:2024-01-31 15:55:03 公開日:2024-01-30
# Nested MLMC を用いた難治性症例の逐次神経後部評価

Leveraging Nested MLMC for Sequential Neural Posterior Estimation with Intractable Likelihoods ( http://arxiv.org/abs/2401.16776v1 )

ライセンス: Link先を確認
Xiliang Yang, Yifei Xiong, Zhijian He(参考訳) 逐次的神経後部推定(SNPE)技術は、難易度のあるシミュレーションベースモデルを扱うために最近提案されている。 それらはニューラルネットワークに基づく条件密度推定器を用いた適応的シミュレーションから後方を学習することに専念している。 SNPE法として、Greenbergらによって提案された自動後部変換(APT)法は、高次元データに対して顕著かつスケールする。 しかし、apt法は、難解な正規化定数、すなわちネストされた期待値の対数の期待値を計算できる。 原子APTは正規化定数を離散化することでこの問題を解決するために提案されたが、学習の収束を分析することは依然として困難である。 そこで本研究では,ネスト予測を推定するために,ネスト予測法を提案する。 これにより収束解析が確立される。 損失関数と勾配のネスト推定器は偏りがあるため,非偏りのマルチレベルモンテカルロ推定器(MLMC)を用いて偏りを推定する。 さらに,非バイアス推定器の過度なばらつきを軽減するために,バイアスと平均コストのトレードオフを考慮し,いくつかの乱れたMLMC推定器を開発する。 中等次元の多重モードで複雑な後部を近似するための数値実験が提供される。

Sequential neural posterior estimation (SNPE) techniques have been recently proposed for dealing with simulation-based models with intractable likelihoods. They are devoted to learning the posterior from adaptively proposed simulations using neural network-based conditional density estimators. As a SNPE technique, the automatic posterior transformation (APT) method proposed by Greenberg et al. (2019) performs notably and scales to high dimensional data. However, the APT method bears the computation of an expectation of the logarithm of an intractable normalizing constant, i.e., a nested expectation. Although atomic APT was proposed to solve this by discretizing the normalizing constant, it remains challenging to analyze the convergence of learning. In this paper, we propose a nested APT method to estimate the involved nested expectation instead. This facilitates establishing the convergence analysis. Since the nested estimators for the loss function and its gradient are biased, we make use of unbiased multi-level Monte Carlo (MLMC) estimators for debiasing. To further reduce the excessive variance of the unbiased estimators, this paper also develops some truncated MLMC estimators by taking account of the trade-off between the bias and the average cost. Numerical experiments for approximating complex posteriors with multimodal in moderate dimensions are provided.
翻訳日:2024-01-31 15:54:51 公開日:2024-01-30
# 大規模フェーディング, チャネル統計, ノイズばらつき, 活動確率が未知のセルフリーネットワークにおける大規模接続性の検出:ベイズ的アプローチ

Activity Detection for Massive Connectivity in Cell-free Networks with Unknown Large-scale Fading, Channel Statistics, Noise Variance, and Activity Probability: A Bayesian Approach ( http://arxiv.org/abs/2401.16775v1 )

ライセンス: Link先を確認
Hao Zhang, Qingfeng Lin, Yang Li, Lei Cheng, Yik-Chung Wu(参考訳) アクティビティ検出は、次世代のグラントフリーマルチアクセスにおいて重要なタスクである。 この目的のために設計された既存のアルゴリズムは数多く存在するが、それらは主に大規模フェージング係数、小規模フェディングチャネル統計、アクセスポイントにおけるノイズ分散、ユーザアクティビティ確率といったネットワークに関する正確な情報を必要とする。 これらの情報を取得するにはかなりのオーバーヘッドがかかり、その推定値は正確ではないかもしれない。 この問題は、セルフリーネットワークでは、取得すべきパラメータが多数存在するため、さらに深刻である。 そこで本稿では,上記の情報を用いずに活動検出問題を検討する。 多くの未知パラメータを扱うために、この論文はベイズ的手法を用いており、未知変数には正規化として効果的に作用する事前分布が与えられる。 確率関数とともに、最大後部推定器(MAP)と変分推論アルゴリズムを導出する。 広範なシミュレーションにより,提案手法は,システムパラメータの知識がなくても,共分散法や近似メッセージパッシング法といった既存の最先端手法よりも優れた性能を示す。

Activity detection is an important task in the next generation grant-free multiple access. While there are a number of existing algorithms designed for this purpose, they mostly require precise information about the network, such as large-scale fading coefficients, small-scale fading channel statistics, noise variance at the access points, and user activity probability. Acquiring these information would take a significant overhead and their estimated values might not be accurate. This problem is even more severe in cell-free networks as there are many of these parameters to be acquired. Therefore, this paper sets out to investigate the activity detection problem without the above-mentioned information. In order to handle so many unknown parameters, this paper employs the Bayesian approach, where the unknown variables are endowed with prior distributions which effectively act as regularizations. Together with the likelihood function, a maximum a posteriori (MAP) estimator and a variational inference algorithm are derived. Extensive simulations demonstrate that the proposed methods, even without the knowledge of these system parameters, perform better than existing state-of-the-art methods, such as covariance-based and approximate message passing methods.
翻訳日:2024-01-31 15:54:31 公開日:2024-01-30
# 判別器を用いたソフトq模倣学習

Extrinsicaly Rewarded Soft Q Imitation Learning with Discriminator ( http://arxiv.org/abs/2401.16772v1 )

ライセンス: Link先を確認
Ryoma Furuyama, Daiki Kuyoshi and Satoshi Yamane(参考訳) 報酬設計が困難な環境や報酬が希薄な環境での強化学習に加えて、模擬学習もしばしば用いられるが、少数の専門家データとサンプリングデータから未知の状態においてうまく模倣することは困難である。 行動クローニングのような教師あり学習法はサンプリングデータを必要としないが、分布シフトに苦しむことが多い。 逆強化学習やGAIL(Generative Adversarial mimicion Learning)のような強化学習に基づく手法は,少数の専門家データからのみ学習することができる。 しかし、彼らはしばしば環境と相互作用する必要がある。 ソフトQ模倣学習(SQIL)はこの問題に対処し,行動クローンとソフトQ学習を一定の報酬と組み合わせることで効率よく学習できることを示した。 分散シフトにロバストなアルゴリズムを実現するため,本手法では,逆強化学習に基づく報奨関数を付加することで,エージェントがデモと同じような状態の動作を行うことを報奨する手法を提案する。 本アルゴリズムを,DSQIL (Soft Q Imitation Learning) と呼ぶ。 MuJoCo環境で評価した。

Imitation learning is often used in addition to reinforcement learning in environments where reward design is difficult or where the reward is sparse, but it is difficult to be able to imitate well in unknown states from a small amount of expert data and sampling data. Supervised learning methods such as Behavioral Cloning do not require sampling data, but usually suffer from distribution shift. The methods based on reinforcement learning, such as inverse reinforcement learning and Generative Adversarial imitation learning (GAIL), can learn from only a few expert data. However, they often need to interact with the environment. Soft Q imitation learning (SQIL) addressed the problems, and it was shown that it could learn efficiently by combining Behavioral Cloning and soft Q-learning with constant rewards. In order to make this algorithm more robust to distribution shift, we propose more efficient and robust algorithm by adding to this method a reward function based on adversarial inverse reinforcement learning that rewards the agent for performing actions in status similar to the demo. We call this algorithm Discriminator Soft Q Imitation Learning (DSQIL). We evaluated it on MuJoCo environments.
翻訳日:2024-01-31 15:54:09 公開日:2024-01-30
# MolPLA: コアとRグループとそのリンカ関節を学習するための分子プレトレーニングフレームワーク

MolPLA: A Molecular Pretraining Framework for Learning Cores, R-Groups and their Linker Joints ( http://arxiv.org/abs/2401.16771v1 )

ライセンス: Link先を確認
Mogan Gim, Jueon Park, Soyon Park, Sanghoon Lee, Seungheun Baek, Junhyun Lee, Ngoc-Quang Nguyen, Jaewoo Kang(参考訳) 分子核構造とr-基は薬物開発において不可欠な概念である。 これらの概念と従来のグラフ事前学習アプローチの統合は、分子の深い理解を促進する。 本稿では,そのコア構造と周辺r群を包含する非可逆的部分を理解するために,マスク付きグラフコントラスト学習を用いた新しい事前学習フレームワークmolplaを提案する。 さらに、MollPLAに化学者が鉛最適化シナリオで置換可能なR-群を見つけるのに役立つ追加のフレームワークを定式化する。 分子特性予測実験の結果, MolPLA は現在の最先端モデルに匹敵する予測可能性を示した。 定性的分析は、molplaがコアとrグループのサブ構造を区別し、分子内の分解可能な領域を特定し、様々なクエリコアテンプレートを与えられたrグループ置換を合理的に提案することでリード最適化シナリオに寄与できることを示唆している。 MolPLAのコード実装と事前訓練されたモデルチェックポイントはhttps://github.com/dmis-lab/MolPLAで入手できる。

Molecular core structures and R-groups are essential concepts in drug development. Integration of these concepts with conventional graph pre-training approaches can promote deeper understanding in molecules. We propose MolPLA, a novel pre-training framework that employs masked graph contrastive learning in understanding the underlying decomposable parts inmolecules that implicate their core structure and peripheral R-groups. Furthermore, we formulate an additional framework that grants MolPLA the ability to help chemists find replaceable R-groups in lead optimization scenarios. Experimental results on molecular property prediction show that MolPLA exhibits predictability comparable to current state-of-the-art models. Qualitative analysis implicate that MolPLA is capable of distinguishing core and R-group sub-structures, identifying decomposable regions in molecules and contributing to lead optimization scenarios by rationally suggesting R-group replacements given various query core templates. The code implementation for MolPLA and its pre-trained model checkpoint is available at https://github.com/dmis-lab/MolPLA
翻訳日:2024-01-31 15:53:51 公開日:2024-01-30
# 弁別整合性データセット間のMLによる異常検出の評価 : 症例的検討

Evaluating ML-Based Anomaly Detection Across Datasets of Varied Integrity: A Case Study ( http://arxiv.org/abs/2401.16843v1 )

ライセンス: Link先を確認
Adrian Pekar and Richard Jozsa(参考訳) サイバーセキュリティはデジタル時代の重要な課題であり、ネットワークトラフィックの異常検出はサイバー脅威と戦う上で重要な手段である。 本研究では,異常検出のための機械学習(ML)モデルの開発に有効な,ネットワークトラフィックデータセットにおけるデータ整合性の問題に対処する。 NFStreamを用いたCICIDS-2017データセット, NFS-2023-nTE と NFS-2023-TE の2つの改良版を導入し, 組織学的に流れの消音とラベル付けを保証する。 我々の研究は、元のCICIDS-2017、改良されたWTMC-2021、CRiSIS-2022、およびNFStream生成データセットのバイナリおよびマルチクラス分類コンテキストにおけるランダムフォレスト(RF)アルゴリズムのパフォーマンスを比較した。 RFモデルは、データセットの品質に関わらず、一貫した高性能なメトリクスを達成し、データの完全性がMLの有効性に与える影響について批判的な議論を引き起こす。 本研究は,ネットワークセキュリティ研究におけるデータセット生成における継続的洗練と方法論的厳密さの重要性を裏付けるものである。 ネットワークの脅威の展望が発展するにつれて、それらを検出し分析するためのツールや技術が必要となる。

Cybersecurity remains a critical challenge in the digital age, with network traffic flow anomaly detection being a key pivotal instrument in the fight against cyber threats. In this study, we address the prevalent issue of data integrity in network traffic datasets, which are instrumental in developing machine learning (ML) models for anomaly detection. We introduce two refined versions of the CICIDS-2017 dataset, NFS-2023-nTE and NFS-2023-TE, processed using NFStream to ensure methodologically sound flow expiration and labeling. Our research contrasts the performance of the Random Forest (RF) algorithm across the original CICIDS-2017, its refined counterparts WTMC-2021 and CRiSIS-2022, and our NFStream-generated datasets, in both binary and multi-class classification contexts. We observe that the RF model exhibits exceptional robustness, achieving consistent high-performance metrics irrespective of the underlying dataset quality, which prompts a critical discussion on the actual impact of data integrity on ML efficacy. Our study underscores the importance of continual refinement and methodological rigor in dataset generation for network security research. As the landscape of network threats evolves, so must the tools and techniques used to detect and analyze them.
翻訳日:2024-01-31 15:46:00 公開日:2024-01-30
# jaxsnn: アナログニューロモーフィックハードウェアのためのイベント駆動型勾配推定

jaxsnn: Event-driven Gradient Estimation for Analog Neuromorphic Hardware ( http://arxiv.org/abs/2401.16841v1 )

ライセンス: Link先を確認
Eric M\"uller, Moritz Althaus, Elias Arnold, Philipp Spilger, Christian Pehle, Johannes Schemmel(参考訳) 従来のニューロモルフィックハードウェアアーキテクチャは、スパイクのようなイベントの非同期送信がシナプスやニューロン内の局所的な計算をトリガーするイベント駆動計算に依存している。 マシンラーニングフレームワークは勾配ベースのトレーニングに一般的に使用されるが、スパイクトレインのような非同期データを処理する上では、密集したデータ構造に重点を置くことが課題となる。 この問題は典型的なテンソルデータ構造では特に顕著である。 この文脈では、JAX上に構築された新しいライブラリ(jaxsnn)を提示します。これは、Autograd機能とコンポーザビリティを維持しながら、使用されるデータ構造と時間の処理に柔軟性を提供することによって、従来の機械学習フレームワークから離れます。 本ライブラリは,前部通過時のBrainScaleS-2システムなどの時間連続型ニューロモルフィックバックエンドとの互換性に着目し,スパイクニューラルネットワークと勾配推定のシミュレーションを容易にする。 このアプローチは、スパイクニューラルネットワークのより効率的で柔軟なトレーニングのための道を開き、従来のニューロモルフィックアーキテクチャと現代の機械学習フレームワークのギャップを埋める。

Traditional neuromorphic hardware architectures rely on event-driven computation, where the asynchronous transmission of events, such as spikes, triggers local computations within synapses and neurons. While machine learning frameworks are commonly used for gradient-based training, their emphasis on dense data structures poses challenges for processing asynchronous data such as spike trains. This problem is particularly pronounced for typical tensor data structures. In this context, we present a novel library (jaxsnn) built on top of JAX, that departs from conventional machine learning frameworks by providing flexibility in the data structures used and the handling of time, while maintaining Autograd functionality and composability. Our library facilitates the simulation of spiking neural networks and gradient estimation, with a focus on compatibility with time-continuous neuromorphic backends, such as the BrainScaleS-2 system, during the forward pass. This approach opens avenues for more efficient and flexible training of spiking neural networks, bridging the gap between traditional neuromorphic architectures and contemporary machine learning frameworks.
翻訳日:2024-01-31 15:44:43 公開日:2024-01-30
# アナログニューロモルフィックハードウェアの大規模ネットワークエミュレーションに向けて

Towards Large-scale Network Emulation on Analog Neuromorphic Hardware ( http://arxiv.org/abs/2401.16840v1 )

ライセンス: Link先を確認
Elias Arnold, Philipp Spilger, Jan V. Straub, Eric M\"uller, Dominik Dold, Gabriele Meoni, Johannes Schemmel(参考訳) 本稿では,分割された大規模スパイクニューラルネットワークのエミュレーションを容易にするbrainscales-2accelerated neuromorphic platformのための新しいソフトウェア機能を提案する。 このアプローチは多くのディープスパイクニューラルネットワークに適しており、基板上の最大のリカレントサブネットワークの制約やニューロンのファンインの制限は実際には制限されないことが多い。 単チップBrainScaleS-2システムの物理サイズ制約を超えるMNISTデータセットとEuroSATデータセットを用いた2つのディープスパイクニューラルネットワークモデルのトレーニングを実演する。 基板よりも大きなネットワークをエミュレートし、トレーニングする能力は、計画またはスケールされたシステムにおける正確なパフォーマンス評価のための経路を提供し、最終的には大規模モデルとニューロモルフィックコンピューティングアーキテクチャの開発と理解を促進する。

We present a novel software feature for the BrainScaleS-2 accelerated neuromorphic platform that facilitates the emulation of partitioned large-scale spiking neural networks. This approach is well suited for many deep spiking neural networks, where the constraint of the largest recurrent subnetwork fitting on the substrate or the limited fan-in of neurons is often not a limitation in practice. We demonstrate the training of two deep spiking neural network models, using the MNIST and EuroSAT datasets, that exceed the physical size constraints of a single-chip BrainScaleS-2 system. The ability to emulate and train networks larger than the substrate provides a pathway for accurate performance evaluation in planned or scaled systems, ultimately advancing the development and understanding of large-scale models and neuromorphic computing architectures.
翻訳日:2024-01-31 15:43:51 公開日:2024-01-30
# T-CUR分解による非負転位因子の分離

Coseparable Nonnegative Tensor Factorization With T-CUR Decomposition ( http://arxiv.org/abs/2401.16836v1 )

ライセンス: Link先を確認
Juefei Chen, Longxiu Huang, and Yimin Wei(参考訳) 非負行列因子化(NMF)はデータから意味のある特徴を抽出する重要な教師なし学習手法である。 多項式時間フレームワークにおけるNMF問題に対処するため、研究者は分離可能性の仮定を導入し、最近コセパビリティの概念へと進化した。 この進歩は、元のデータのより効率的なコア表現を提供する。 しかし、現実の世界では、データは画像やビデオのような多次元配列として表現される方が自然である。 NMFの高次元データへの応用にはベクトル化が関係しており、必須の多次元相関を失うリスクがある。 データに固有の相関を保持するために、我々はテンソル(多次元配列)に向きを変え、テンソル t-積を利用する。 このアプローチは、分離不能なNMFをテンソル設定に拡張し、分離不能な非負テンソル因子化(NTF)と呼ばれるものを作成する。 本研究では,コセパラブルコアを選択するための交互インデックス選択手法を提案する。 さらに, t-curサンプリング理論を検証し, テンソル離散経験補間法 (t-deim) と統合し, ランダム化インデックス選択法を提案する。 これらの手法は合成データと顔分析データセットの両方でテストされている。 その結果, 分離可能なNMFと比較して, 分離可能なNTFの有効性が示された。

Nonnegative Matrix Factorization (NMF) is an important unsupervised learning method to extract meaningful features from data. To address the NMF problem within a polynomial time framework, researchers have introduced a separability assumption, which has recently evolved into the concept of coseparability. This advancement offers a more efficient core representation for the original data. However, in the real world, the data is more natural to be represented as a multi-dimensional array, such as images or videos. The NMF's application to high-dimensional data involves vectorization, which risks losing essential multi-dimensional correlations. To retain these inherent correlations in the data, we turn to tensors (multidimensional arrays) and leverage the tensor t-product. This approach extends the coseparable NMF to the tensor setting, creating what we term coseparable Nonnegative Tensor Factorization (NTF). In this work, we provide an alternating index selection method to select the coseparable core. Furthermore, we validate the t-CUR sampling theory and integrate it with the tensor Discrete Empirical Interpolation Method (t-DEIM) to introduce an alternative, randomized index selection process. These methods have been tested on both synthetic and facial analysis datasets. The results demonstrate the efficiency of coseparable NTF when compared to coseparable NMF.
翻訳日:2024-01-31 15:43:36 公開日:2024-01-30
# 合成学生データを用いた知識追跡性能の解析

Analysis of Knowledge Tracing performance on synthesised student data ( http://arxiv.org/abs/2401.16832v1 )

ライセンス: Link先を確認
Panagiotis Pagonis and Kai Hartung and Di Wu and Munir Georges and S\"oren Gr\"ottrup(参考訳) 知識トレース(kt)は,知識状態の発達を追跡することで,学生の将来のパフォーマンスを予測することを目的とする。 この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。 1)データ保護上の懸念による実生活データへのアクセス制限 2)公開データセットの多様性の欠如。 3) 重複レコードなどのベンチマークデータセットのノイズ。 これらの問題を解決するために,公開データセットに基づく3つの統計戦略を用いて学生データをシミュレーションし,その性能を2つのKTベースラインで検証した。 追加の合成データによるマイナーなパフォーマンス改善のみを観察したが、トレーニングに合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示した。

Knowledge Tracing (KT) aims to predict the future performance of students by tracking the development of their knowledge states. Despite all the recent progress made in this field, the application of KT models in education systems is still restricted from the data perspectives: 1) limited access to real life data due to data protection concerns, 2) lack of diversity in public datasets, 3) noises in benchmark datasets such as duplicate records. To resolve these problems, we simulated student data with three statistical strategies based on public datasets and tested their performance on two KT baselines. While we observe only minor performance improvement with additional synthetic data, our work shows that using only synthetic data for training can lead to similar performance as real data.
翻訳日:2024-01-31 15:43:17 公開日:2024-01-30
# EarthGPT:リモートセンシング領域におけるマルチセンサ画像理解のための汎用マルチモーダル大言語モデル

EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain ( http://arxiv.org/abs/2401.16822v1 )

ライセンス: Link先を確認
Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao(参考訳) マルチモーダル大言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて顕著な成功を収めている。 自然画像とRS画像の相違により、リモートセンシング(RS)領域におけるMLLMの開発が妨げられる。 現在、様々な視覚タスクが可能な統一的で強力なMLLMは、まだ未定である。 このギャップを埋めるために、多様なマルチセンサRS解釈タスクを統一的に統合したユニバーサルRS画像理解のために、EarthGPTと呼ばれる先駆的なMLLMを提案する。 さらに、MMRSと呼ばれる大規模マルチセンサマルチモーダルRS命令追従データセットを慎重に構築し、34の既存のRSデータセットに基づいて1005.842kの画像テキストペアを構成し、光学、合成開口レーダ(SAR)、赤外線などのマルチセンサ画像を含む。 MMRSは、専門知識が欠けているMLLMの問題に対処し、RSドメインにおけるMMLMの開発を促進する。 大規模な実験は、他の専門モデルやMLLMと比較して、様々な視覚的解釈タスクにおいて、EarthGPTの優れた性能を示し、提案したEarthGPTの有効性を証明し、オープンセット推論タスクに汎用的なパラダイムを提供する。

Multi-modal large language models (MLLMs) have demonstrated remarkable success in vision and visual-language tasks within the natural image domain. Owing to the significant diversities between the natural image and RS image hinder the development of MLLMs in the remote sensing (RS) domain. Currently, the unified and powerful MLLM capable of various RS visual tasks is still under-explored. To fill the gap, a pioneer MLLM called EarthGPT is proposed for universal RS image comprehension, which integrates various multi-sensor RS interpretation tasks uniformly. More importantly, a large-scale multi-sensor multi-modal RS instruction-following dataset named MMRS is carefully constructed, which comprises 1005.842k image-text pairs based on 34 existing diverse RS datasets and includes multi-sensor images such as optical, synthetic aperture radar (SAR), and infrared. The MMRS addresses the issue of MLLMs lacking RS expert knowledge and stimulates the development of MMLMs in the RS domain. Extensive experiments demonstrate the EarthGPT's superior performance in various RS visual interpretation tasks compared with the other specialist models and MLLMs, which proves the effectiveness of the proposed EarthGPT and provides a versatile paradigm for open-set reasoning tasks.
翻訳日:2024-01-31 15:43:06 公開日:2024-01-30
# H2O-Danube-1.8B技術報告

H2O-Danube-1.8B Technical Report ( http://arxiv.org/abs/2401.16818v1 )

ライセンス: Link先を確認
Philipp Singer, Pascal Pfeiffer, Yauhen Babakhin, Maximilian Jeblick, Nischay Dhankhar, Gabor Fodor, Sri Satish Ambati(参考訳) H2O-Danube-1.8Bは、1Tトークンで訓練された1.8B言語モデルで、LLama 2とMistralのコア原則に従っている。 我々は、大規模言語モデルの事前学習に様々な技術を活用し、洗練する。 私たちのモデルは、同様のサイズの参照モデルと比較して、トータルトークンのトレーニングがかなり少ないが、多数のベンチマークで高い競争力を示す。 さらに、教師付き微調整で訓練されたチャットモデルもリリースし、直接選好最適化を行った。 我々は、h2o-danube-1.8bをapache 2.0ライセンスの下でオープンに利用可能にする。

We present H2O-Danube-1.8B, a 1.8B language model trained on 1T tokens following the core principles of LLama 2 and Mistral. We leverage and refine various techniques for pre-training large language models. Although our model is trained on significantly fewer total tokens compared to reference models of similar size, it exhibits highly competitive metrics across a multitude of benchmarks. We additionally release a chat model trained with supervised fine-tuning followed by direct preference optimization. We make H2O-Danube-1.8B openly available under Apache 2.0 license further democratizing LLMs to a wider audience economically.
翻訳日:2024-01-31 15:42:43 公開日:2024-01-30
# ロングテール学習のためのリバイバルアンサンプ

Reviving Undersampling for Long-Tailed Learning ( http://arxiv.org/abs/2401.16811v1 )

ライセンス: Link先を確認
Hao Yu, Yingxiao Du, Jianxin Wu(参考訳) ロングテール認識で使用されるトレーニングデータセットは非常に不均衡であり、クラス毎の精度がカテゴリによって大きく異なる。 これまでの作業では、アルゴリズムの評価に平均精度が使われていました。 本稿では,最もパフォーマンスの悪いカテゴリの精度を高め,高調波平均と幾何平均を用いてモデルの性能を評価することを目的とする。 私たちはこの目標を達成するためにバランスのとれたアンサンブルのアイデアを復活させます。 少数ショット学習では、バランスの取れた部分集合は少数ショットであり、確実に不適合であるため、現代のロングテール学習では使われない。 しかし、高調波平均精度と幾何平均精度がより高く、平均精度がより低いカテゴリ間で、より公平な精度分布を生成することが判明した。 さらに,従来のロングテール学習法と比較して,平均精度をほぼ一定に保ちつつ,余分なオーバーヘッドを伴わず,高調波平均と幾何平均を改良したモデルアンサンブル戦略を考案した。 提案手法の有効性を,長期学習のための広く利用されているベンチマークデータセットに検証する。 私たちのコードは \href{https://github.com/yuhao318/BTM/}{https://github.com/yuhao318/BTM/} にあります。

The training datasets used in long-tailed recognition are extremely unbalanced, resulting in significant variation in per-class accuracy across categories. Prior works mostly used average accuracy to evaluate their algorithms, which easily ignores those worst-performing categories. In this paper, we aim to enhance the accuracy of the worst-performing categories and utilize the harmonic mean and geometric mean to assess the model's performance. We revive the balanced undersampling idea to achieve this goal. In few-shot learning, balanced subsets are few-shot and will surely under-fit, hence it is not used in modern long-tailed learning. But, we find that it produces a more equitable distribution of accuracy across categories with much higher harmonic and geometric mean accuracy, and, but lower average accuracy. Moreover, we devise a straightforward model ensemble strategy, which does not result in any additional overhead and achieves improved harmonic and geometric mean while keeping the average accuracy almost intact when compared to state-of-the-art long-tailed learning methods. We validate the effectiveness of our approach on widely utilized benchmark datasets for long-tailed learning. Our code is at \href{https://github.com/yuhao318/BTM/}{https://github.com/yuhao318/BTM/}.
翻訳日:2024-01-31 15:42:33 公開日:2024-01-30
# 三次元表面再構成のための埋め込み型インシシットIUVD表現法

An Embeddable Implicit IUVD Representation for Part-based 3D Human Surface Reconstruction ( http://arxiv.org/abs/2401.16810v1 )

ライセンス: Link先を確認
Baoxing Li, Yong Deng, Yehui Yang, Xu Zhao(参考訳) 一つの画像から3次元の人体表面を再構築するには、人間のポーズ、形状、衣服の詳細を同時に考えることが重要である。 近年では、身体のポーズや形状を捉えるパラメトリックボディモデル(SMPLなど)と、柔軟な衣服の詳細を学習する神経暗黙の関数の組み合わせが、両方のアプローチの利点を統合するために使用されている。 しかし、結合表現は、3dボディ特徴抽出において符号付き距離計算のような追加の計算を導入し、暗黙のクエリ・アンド・推論プロセスの冗長性を悪化させ、基礎となるボディ形状を事前に保持できない。 これらの問題に対処するために、IUVD占有関数とフィードバッククエリアルゴリズムからなる新しいIUVD-Feedback表現を提案する。 この表現により、時間を要する符号付き距離計算は、SMPL UVマップを利用して、IUVD空間における単純な線形変換に置き換えられる。 さらに、クエリ・アンド・推論プロセスの冗長なクエリポイントは、フィードバック機構によって削減される。 これはより合理的な3Dボディ特徴とより効果的なクエリポイントをもたらし、パラメトリックボディを事前に保存することに成功した。 さらに、IUVD-Feedback表現は、トレーニングされたニューラルネットワークを変更することなく、既存の暗黙の人間の再構築パイプラインに組み込むことができる。 THuman2.0データセットの実験では、提案したIUVD-Feedback表現が結果の堅牢性を改善し、クエリ・アンド・インファー・プロセスの3倍の高速化を実現している。 さらに、この表現は、パラメトリックボディモデルから継承されたセマンティック情報を活用することによって、生成的応用に使用される可能性がある。

To reconstruct a 3D human surface from a single image, it is important to consider human pose, shape and clothing details simultaneously. In recent years, a combination of parametric body models (such as SMPL) that capture body pose and shape prior, and neural implicit functions that learn flexible clothing details, has been used to integrate the advantages of both approaches. However, the combined representation introduces additional computation, e.g. signed distance calculation, in 3D body feature extraction, which exacerbates the redundancy of the implicit query-and-infer process and fails to preserve the underlying body shape prior. To address these issues, we propose a novel IUVD-Feedback representation, which consists of an IUVD occupancy function and a feedback query algorithm. With this representation, the time-consuming signed distance calculation is replaced by a simple linear transformation in the IUVD space, leveraging the SMPL UV maps. Additionally, the redundant query points in the query-and-infer process are reduced through a feedback mechanism. This leads to more reasonable 3D body features and more effective query points, successfully preserving the parametric body prior. Moreover, the IUVD-Feedback representation can be embedded into any existing implicit human reconstruction pipelines without modifying the trained neural networks. Experiments on THuman2.0 dataset demonstrate that the proposed IUVD-Feedback representation improves result robustness and achieves three times faster acceleration in the query-and-infer process. Furthermore, this representation has the potential to be used in generative applications by leveraging its inherited semantic information from the parametric body model.
翻訳日:2024-01-31 15:42:11 公開日:2024-01-30
# ダフィング非線形性を利用した量子エンタングルメント伝達

Quantum entanglement transfer assisted via Duffing nonlinearity ( http://arxiv.org/abs/2401.16809v1 )

ライセンス: Link先を確認
D. R. Kenigoule Massembele, P. Djorw\'e, Amarendra K. Sarma, and S. G. Nana Engo(参考訳) そこで本稿では,ダッフィング非線形性に基づくオプティメカルシステムにおける量子エンタングルメント向上手法を提案する。 ベンチマークシステムは、機械的に結合した2つの機械共振器を駆動する電磁界からなる。 メカニカル共振器の1つはダフィング非線形項をサポートし、もう1つは自由である。 フォノンホッピングレートは、合成磁性を誘導する$\theta$-phase依存であり、システム内の例外点(EP)特異点を誘導する。 ダッフィング非線形項がなければ、電磁界と機械的共振器との絡み合いが生じる。 この絡み合いは突然の死と再生現象を特徴とし、ピークは$\theta=\frac{\pi}{2}$の倍である。 ダッフィング非線形性を考慮すると、非線形共振器を含む二部共振器の絡み合いはなくなる。 しかし、非線形項を支持する共振器から機械的に結合された共振器への絡み合い移動がある。 この非線形誘起絡み合いは、再び熱ゆらぎが強く、非線形項なしで生じるものよりも安定である。 この研究は、非線形資源を用いた量子絡み合いの生成への道を開き、複雑なシステムにおける量子情報処理、量子センシング、量子コンピューティングなどの量子技術を可能にする。

We propose a scheme to enhance quantum entanglement in optomechanical system that is based on Duffing nonlinearity. Our benchmark system consists of an electromagnetic field that is driving two mechanically coupled mechanical resonators. One of the mechanical resonators support a Duffing nonlinear term, while the other is free of it. The phonon hopping rate is $\theta$-phase-dependent that induces a synthetic magnetism, which triggers Exceptional Points (EPs) singularities in the system. Without the Duffing nonlinear term, the entanglement between the electromagnetic field and the mechanical resonators is generated. This entanglement features the sudden death and revival phenomenon, where the peaks happen at the multiple of $\theta=\frac{\pi}{2}$. As the Duffing nonlinearity is accounted, the bipartite entanglement involving the nonlinear resonator vanishes. However, there is an entanglement transfer from the resonator supporting the nonlinear term towards the one that is mechanically coupled to it. This nonlinearly induced entanglement is robust again thermal fluctuation, and more stable compared to what is generated without the nonlinear term. This work paves a way to a generation of quantum entanglement using nonlinear resources, enabling quantum technology such as quantum information processing, quantum sensing, and quantum computing in complex systems.
翻訳日:2024-01-31 15:41:40 公開日:2024-01-30
# 拡張表現による時間統計空間事前の符号化

Encoding Temporal Statistical-space Priors via Augmented Representation ( http://arxiv.org/abs/2401.16808v1 )

ライセンス: Link先を確認
Insu Choi, Woosung Koh, Gimin Kang, Yuntae Jang, Woo Chang Kim(参考訳) 時系列データのモデリングは、時間次元が多くの領域に固有のため、広範に問題となる。 時系列予測において大きな進歩があったにもかかわらず、高ノイズと信号比、非正規性、非定常性、データ不足は引き続き挑戦的な実践者である。 これに対して,これらの課題を克服するために,単純な表現拡張手法を活用する。 我々の拡張表現は、各時間ステップでエンコードされる統計空間として機能する。 そこで我々は,統計的空間拡張表現法 (SSAR) を考案した。 基礎となる高次元データ生成プロセスは、表現の強化を促します。 2つのダウンストリーム時間学習アルゴリズムを用いた2つのデータセットにおける経験的一般化性能を厳密に検討した。 私たちのアプローチは、最新の5つのベースラインを大きく上回っています。 さらに、このアプローチの高度にモジュール化された性質は、様々な設定に容易に適用できる。 最後に、完全に確立された理論的な視点は、明確で厳密な理解のために、執筆全体を通して利用可能である。

Modeling time series data remains a pervasive issue as the temporal dimension is inherent to numerous domains. Despite significant strides in time series forecasting, high noise-to-signal ratio, non-normality, non-stationarity, and lack of data continue challenging practitioners. In response, we leverage a simple representation augmentation technique to overcome these challenges. Our augmented representation acts as a statistical-space prior encoded at each time step. In response, we name our method Statistical-space Augmented Representation (SSAR). The underlying high-dimensional data-generating process inspires our representation augmentation. We rigorously examine the empirical generalization performance on two data sets with two downstream temporal learning algorithms. Our approach significantly beats all five up-to-date baselines. Moreover, the highly modular nature of our approach can easily be applied to various settings. Lastly, fully-fledged theoretical perspectives are available throughout the writing for a clear and rigorous understanding.
翻訳日:2024-01-31 15:41:22 公開日:2024-01-30
# 科学コミュニケーションにおけるllm支援文の検出:まだあるか?

Detecting LLM-Assisted Writing in Scientific Communication: Are We There Yet? ( http://arxiv.org/abs/2401.16807v1 )

ライセンス: Link先を確認
Teddy Lazebnik, Ariel Rosenfeld(参考訳) chatgptで例示される大言語モデル(llm)は、特に執筆支援の分野で、テキスト生成を大きく変えている。 倫理的考察は、特に科学的コミュニケーションにおいて、透過的にLLMの使用を認めることの重要性を浮き彫りにしているが、真の承認はまれである。 LLM支援文字の正確な認識を促進するための潜在的な手段は、自動検出器の使用である。 LLMの拡散前後の急激な書き込みスタイル変化を識別するために設計された単純なアドホック検出器と比較して,4つの最先端LCM生成テキスト検出器の評価を行った。 LLM支援文字検出専用の特殊検出器の開発が必要であると我々は主張する。 このような検出器は、科学コミュニケーションにおけるLSMのより正確な認識を促進する上で重要な役割を担い、認知の実践における現在の課題に対処する。

Large Language Models (LLMs), exemplified by ChatGPT, have significantly reshaped text generation, particularly in the realm of writing assistance. While ethical considerations underscore the importance of transparently acknowledging LLM use, especially in scientific communication, genuine acknowledgment remains infrequent. A potential avenue to encourage accurate acknowledging of LLM-assisted writing involves employing automated detectors. Our evaluation of four cutting-edge LLM-generated text detectors reveals their suboptimal performance compared to a simple ad-hoc detector designed to identify abrupt writing style changes around the time of LLM proliferation. We contend that the development of specialized detectors exclusively dedicated to LLM-assisted writing detection is necessary. Such detectors could play a crucial role in fostering more authentic recognition of LLM involvement in scientific communication, addressing the current challenges in acknowledgment practices.
翻訳日:2024-01-31 15:41:11 公開日:2024-01-30
# pbscsr:ピアノブートレッグスコア作曲家スタイル認識データセット

PBSCSR: The Piano Bootleg Score Composer Style Recognition Dataset ( http://arxiv.org/abs/2401.16803v1 )

ライセンス: Link先を確認
Arhan Jain, Alec Bunn, and TJ Tsai(参考訳) 本論文は、ピアノ楽譜の作曲スタイル認識を研究するためのPBSCSRデータセットを動機付け、記述し、提示する。 私たちの包括的な目標は、"MNISTと同じくらいアクセス可能で、ImageNetと同じくらい難しい"作曲家スタイルの認識を研究するデータセットを作ることでした。 この目的を達成するため,IMSLP上のピアノ楽譜から固定長ブートレグスコアの断片をサンプリングした。 データセットには、9ウェイ分類タスクの4万62x64ブートレグスコアイメージ、100ウェイ分類タスクの10万62x64ブートレグスコアイメージ、事前トレーニング用のラベル付き可変長ブートレグスコアイメージ29,310が含まれている。 ラベル付きデータはmnistイメージをミラーする形式で提示され、効率的な方法でモデルを可視化、操作、および訓練することが極めて容易になる。 さらに,IMSLP上の生シート音楽画像やその他の関連データにアクセスするための関連メタデータも含んでいる。 このデータセットで研究できるいくつかの研究課題について述べる。例えば、数ショットまたはゼロショットの設定における作曲家スタイルの認識のバリエーションなどである。 以前にモデルを提案したタスクについては、コードとベースライン結果をリリースして、比較します。 また,PBSCSRのデータが今後の研究における実りある探索の分野の研究に特に適しているというオープンな研究課題についても論じる。

This article motivates, describes, and presents the PBSCSR dataset for studying composer style recognition of piano sheet music. Our overarching goal was to create a dataset for studying composer style recognition that is "as accessible as MNIST and as challenging as ImageNet." To achieve this goal, we sample fixed-length bootleg score fragments from piano sheet music images on IMSLP. The dataset itself contains 40,000 62x64 bootleg score images for a 9-way classification task, 100,000 62x64 bootleg score images for a 100-way classification task, and 29,310 unlabeled variable-length bootleg score images for pretraining. The labeled data is presented in a form that mirrors MNIST images, in order to make it extremely easy to visualize, manipulate, and train models in an efficient manner. Additionally, we include relevant metadata to allow access to the underlying raw sheet music images and other related data on IMSLP. We describe several research tasks that could be studied with the dataset, including variations of composer style recognition in a few-shot or zero-shot setting. For tasks that have previously proposed models, we release code and baseline results for future works to compare against. We also discuss open research questions that the PBSCSR data is especially well suited to facilitate research on and areas of fruitful exploration in future work.
翻訳日:2024-01-31 15:40:56 公開日:2024-01-30
# 時間グラフにおけるノード特徴予測のためのオンラインアルゴリズム

Online Algorithm for Node Feature Forecasting in Temporal Graphs ( http://arxiv.org/abs/2401.16800v1 )

ライセンス: Link先を確認
Aniq Ur Rahman, Justin P. Coon(参考訳) 本稿では,各ノード間の空間的相互相関とノード内の時間的自己相関を包含し,時間的グラフのノード特徴を予測するオンラインアルゴリズム"mspace"を提案する。 このアルゴリズムは確率的および決定論的多段階予測の両方に使用することができ、推定および生成タスクに適用できる。 グラフニューラルネットワーク(GNN)ベースのモデルや古典的なカルマンフィルタなど、さまざまなベースラインに対する比較評価は、mspaceが最先端技術と同等に動作し、一部のデータセットではそれらを上回っていることを示している。 重要なことに、mspaceはトレーニングサイズが異なるデータセット間で一貫性のあるロバスト性を示しており、データの時空間的傾向を効果的に学習するために十分なトレーニングサンプルを必要とするGNNベースの手法よりも顕著なアドバンテージである。 したがって、トレーニングサンプルの可用性が制限されたシナリオでは、mspaceを使うことが有利である。 さらに、mspaceのマルチステップ予測誤差に関する理論的境界を確立し、$O(q)$ for $q$-step forecastとスケールすることを示す。

In this paper, we propose an online algorithm "mspace" for forecasting node features in temporal graphs, which adeptly captures spatial cross-correlation among different nodes as well as the temporal autocorrelation within a node. The algorithm can be used for both probabilistic and deterministic multi-step forecasting, making it applicable for estimation and generation tasks. Comparative evaluations against various baselines, including graph neural network (GNN) based models and classical Kalman filters, demonstrate that mspace performs at par with the state-of-the-art and even surpasses them on some datasets. Importantly, mspace demonstrates consistent robustness across datasets with varying training sizes, a notable advantage over GNN-based methods requiring abundant training samples to learn the spatiotemporal trends in the data effectively. Therefore, employing mspace is advantageous in scenarios where the training sample availability is limited. Additionally, we establish theoretical bounds on multi-step forecasting error of mspace and show that it scales as $O(q)$ for $q$-step forecast.
翻訳日:2024-01-31 15:40:30 公開日:2024-01-30
# 大規模言語モデルによるコンパイラ変換ロバスト性向上

Enhancing Compiler Transformation Robustness with Large Language Models ( http://arxiv.org/abs/2401.16797v1 )

ライセンス: Link先を確認
Yanzhao Wang, Fei Xie(参考訳) 本稿では,形式的検証ツールが不十分なLLVMコンパイラ変換を対象とし,言語モデル(LLM)を翻訳検証に統合するフレームワークを提案する。 まず,既存の形式的検証フレームワークを用いて翻訳検証を行う。 この作業では、llvmコンパイラ検証で有名なツールであるalive2を例として使用しています。 形式的検証フレームワークでは,変換の健全性が確認できない場合,予測には微調整されたllmを用いる。 これは、LLMによって予測される変換にファジィングを適用し、反例を見つけることを目的として、戻り値やメモリの不整合に起因する可能性がある。 他の理由や音のために変換が不正確である場合、あるいは反例が出現しない場合、フレームワークはさらなるファジィを伴わずにこれらの結果を直接報告する。 この方法論は、従来のツールが苦労するディープラーニングアクセラレータ設計のような複雑な領域で有効性を示している。

This paper presents a framework that integrates Large Language Models (LLMs) into translation validation, targeting LLVM compiler transformations where formal verification tools are insufficient. Our framework first utilizes existing formal verification frameworks for translation validation. In this work, we use Alive2, a well-known tool in LLVM compiler verification, as an example. When formal verification frameworks are unable to confirm a transformation's soundness, our framework employs fine-tuned LLMs for prediction. It applies fuzzing to transformations predicted as potentially unsound by the LLMs due to return value or memory inconsistencies, aiming to find counterexamples. In cases where transformations are unsound for other reasons or sound, or if no counterexamples emerge, the framework directly reports these outcomes without further fuzzing. This methodology has shown effectiveness in complex areas like deep-learning accelerator design, where traditional tools struggle.
翻訳日:2024-01-31 15:40:12 公開日:2024-01-30
# 垂直・動的・ロバストな二足歩行制御のための強化学習

Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control ( http://arxiv.org/abs/2401.16889v1 )

ライセンス: Link先を確認
Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath(参考訳) 本稿では,二足歩行ロボットのための動的ロコモーション制御系を作成するために,深層強化学習(rl)を用いた包括的研究を行う。 単一の歩行スキルに焦点を絞るだけでなく、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行スキルに使用できる汎用的な制御ソリューションを開発した。 ロボットの長期的・短期的な入出力(I/O)履歴を生かした,新しいデュアルヒストリーアーキテクチャをRLベースのコントローラに組み込んだ。 この制御アーキテクチャは,提案するエンド・ツー・エンドのrlアプローチによって訓練された場合,シミュレーションと実世界の両方において,他の手法よりも一貫して優れており,提案するrlシステムがロコモーションコントローラの開発に導入した適応性と頑健性にも焦点を当てている。 提案アーキテクチャは,ロボットのI/O履歴を効果的に利用することにより,時間不変のダイナミクスシフトと接触イベントなどの時間変動に適応できることを実証する。 さらに,タスクのランダム化をロバスト性の重要な源とし,タスクの一般化と外乱へのコンプライアンスを促進させる。 得られた制御ポリシーは、トルク制御された2足歩行ロボットであるcassieにうまく展開することができる。 この作業は,実世界の広範囲な実験を通じて,二足歩行ロボットのアジリティの限界を押し上げるものだ。 本研究では,400mのダッシュを実演して,ロコモーションスキルの多種多様さ,頑健な立位,多用途歩行,高速ランニング,立位長跳び,ハイジャンプといった多種多様なジャンプスキルを実演する。

This paper presents a comprehensive study on using deep reinforcement learning (RL) to create dynamic locomotion controllers for bipedal robots. Going beyond focusing on a single locomotion skill, we develop a general control solution that can be used for a range of dynamic bipedal skills, from periodic walking and running to aperiodic jumping and standing. Our RL-based controller incorporates a novel dual-history architecture, utilizing both a long-term and short-term input/output (I/O) history of the robot. This control architecture, when trained through the proposed end-to-end RL approach, consistently outperforms other methods across a diverse range of skills in both simulation and the real world.The study also delves into the adaptivity and robustness introduced by the proposed RL system in developing locomotion controllers. We demonstrate that the proposed architecture can adapt to both time-invariant dynamics shifts and time-variant changes, such as contact events, by effectively using the robot's I/O history. Additionally, we identify task randomization as another key source of robustness, fostering better task generalization and compliance to disturbances. The resulting control policies can be successfully deployed on Cassie, a torque-controlled human-sized bipedal robot. This work pushes the limits of agility for bipedal robots through extensive real-world experiments. We demonstrate a diverse range of locomotion skills, including: robust standing, versatile walking, fast running with a demonstration of a 400-meter dash, and a diverse set of jumping skills, such as standing long jumps and high jumps.
翻訳日:2024-01-31 15:34:07 公開日:2024-01-30
# CAFCT:肝腫瘍切除のための畳み込みニューラルネットワークとトランスフォーマの文脈的・意図的特徴融合

CAFCT: Contextual and Attentional Feature Fusions of Convolutional Neural Networks and Transformer for Liver Tumor Segmentation ( http://arxiv.org/abs/2401.16886v1 )

ライセンス: Link先を確認
Ming Kang, Chee-Ming Ting, Fung Fung Ting, Rapha\"el Phan(参考訳) 医用画像セマンティックセグメンテーション技術は、CTスキャンから腫瘍を自動的に識別するのに役立つ。 本稿では,肝腫瘍セグメント化のためのCNNとトランスフォーマーハイブリッドネットワーク(CAFCT)モデルを提案する。 提案モデルでは、注意特徴融合(aff)、deeplabv3のatrous spatial pyramid pooling(aspp)、および腫瘍境界に関する文脈情報を改善するアテンションゲート(ags)の3つのモジュールがネットワークアーキテクチャに導入されている。 実験結果から,提案するcafctは肝腫瘍分節ベンチマーク(lits)データセット上で,結合率90.38%,diceスコア86.78%の平均交点を達成し,アテンションu-net,pvtフォーマなど,純粋なcnnやトランスフォーマ法を上回った。

Medical image semantic segmentation techniques can help identify tumors automatically from computed tomography (CT) scans. In this paper, we propose a Contextual and Attentional feature Fusions enhanced Convolutional Neural Network (CNN) and Transformer hybrid network (CAFCT) model for liver tumor segmentation. In the proposed model, three other modules are introduced in the network architecture: Attentional Feature Fusion (AFF), Atrous Spatial Pyramid Pooling (ASPP) of DeepLabv3, and Attention Gates (AGs) to improve contextual information related to tumor boundaries for accurate segmentation. Experimental results show that the proposed CAFCT achieves a mean Intersection over Union (IoU) of 90.38% and Dice score of 86.78%, respectively, on the Liver Tumor Segmentation Benchmark (LiTS) dataset, outperforming pure CNN or Transformer methods, e.g., Attention U-Net, and PVTFormer.
翻訳日:2024-01-31 15:33:36 公開日:2024-01-30
# ロバストエラー蓄積抑制

Robust Error Accumulation Suppression ( http://arxiv.org/abs/2401.16884v1 )

ライセンス: Link先を確認
Tatsuki Odake, Philip Taranto, Nobuyuki Yoshioka, Toshinari Itoko, Kunal Sharma, Antonio Mezzacapo, and Mio Murao(参考訳) 本稿では,堅牢な誤り蓄積抑制 (REAS) を導出する先進的な量子誤り抑制手法を提案する。 この手法は、パウリ作用素に対して$e^{-i \sigma\theta }$と$\theta \in [0,\pi)$と表される単一または2量子のゲートからなる任意の回路における誤差の蓄積を低減する。 クロストークを含むコヒーレントエラーの場合、$O(L)$から$O(\sqrt{L})$への$L$depth回路におけるエラースケーリングの減少を示す。 重要なことは、REASはエラー抑制プロトコル自体の清潔さを前提とせず、それゆえに真に堅牢であり、新たに挿入されたゲートが無視できないコヒーレントノイズを持つ状況に適用できる。 さらに,REASは,いくつかのゲートをそのようなノイズに対して頑健に変形させることにより,ある種のデコヒーレンスノイズを抑制できることを示し,数値シミュレーションにおける誤差スケーリングの2次抑制の実証によって検証した。 そこで本研究では,誤り訂正と併用して,フォールトトレラント量子計算への有効な経路として,高度で堅牢な誤り抑制手法を提案する。

We present an advanced quantum error suppression technique, which we dub robust error accumulation suppression (REAS). Our method reduces the accumulation of errors in any circuit composed of single- or two-qubit gates expressed as $e^{-i \sigma\theta }$ for Pauli operators $\sigma$ and $\theta \in [0,\pi)$; since such gates form a universal gate set, our results apply to a strictly larger class of circuits than those comprising only Clifford gates, thereby generalizing previous results. In the case of coherent errors -- which include crosstalk -- we demonstrate a reduction of the error scaling in an $L$-depth circuit from $O(L)$ to $O(\sqrt{L})$. Crucially, REAS makes no assumption on the cleanness of the error-suppressing protocol itself and is, therefore, truly robust, applying to situations in which the newly inserted gates have non-negligible coherent noise. Furthermore, we show that REAS can also suppress certain types of decoherence noise by transforming some gates to be robust against such noise, which is verified by the demonstration of the quadratic suppression of error scaling in the numerical simulation. Our results, therefore, present an advanced, robust method of error suppression that can be used in conjunction with error correction as a viable path toward fault-tolerant quantum computation.
翻訳日:2024-01-31 15:33:11 公開日:2024-01-30
# 無限距離ペンソン・コルブ対機構としてのbardeen-cooper-schrieffer相互作用

Bardeen-Cooper-Schrieffer interaction as an infinite-range Penson-Kolb pairing mechanism ( http://arxiv.org/abs/2401.16877v1 )

ライセンス: Link先を確認
Francesco Romeo, Alfonso Maiellaro(参考訳) 実空間で考えると、よく知られた$(k\uparrow, -k\downarrow)$ Bardeen-Cooper-Schrieffer相互作用は、魅力的なハバード項と共存する無限範囲のペンソン・コルブペアリング機構と等価であることを示す。 この発見と導電特性の探索を目的として, リング状格子に閉じ込められたフェルミオン粒子の力学について検討した。 フェルミオンはペアリング相互作用とアハロノフ・ボーム電磁相によって同時に影響されると仮定し、これは非自明な方法でモデルに組み込まれている。 上記のモデルは、印加された磁束 $\Phi/\Phi_0$ の整数値と半整数値の両方に対するリチャードソン積分性を示し、真の多体問題の正確な解を可能にする。 二粒子系と多粒子系の基底状態特性について検討し, 魅力的なハバードモデルによる結果との比較を行った。 提案手法は, 正対角化, 密度行列再正規化群法, リチャードソン方程式の数値解を組み合わせたものである。 この包括的な分析により、システムの伝導度を相互作用強度の関数として含む様々な主要なメトリクスを研究できる。 このように、BCS-BEC遷移は連続的に研究され、超伝導ペアリングの基本的な側面に光を放つことができる。 以上の知見は, 凝縮物質文脈, あるいは, より高い制御レベルにおいて, textit{atomtronics} プラットフォームを用いて実験的に検証することができる。

We demonstrate that the well-known $(k\uparrow, -k\downarrow)$ Bardeen-Cooper-Schrieffer interaction, when considered in real space, is equivalent to an infinite-range Penson-Kolb pairing mechanism coexisting with an attractive Hubbard term. Driven by this discovery and aiming at exploring the conduction properties, we investigate the dynamics of fermionic particles confined in a ring-shaped lattice. We assume that fermions are simultaneously influenced by the pairing interaction and by an Aharonov-Bohm electromagnetic phase, which is incorporated into the model in a highly non-trivial manner. Remarkably, the aforementioned model shows Richardson integrability for both integer and half-integer values of the applied magnetic flux $\Phi/\Phi_0$, thus permitting the exact solution of a genuine many-body problem. We discuss the ground state properties of both two-particle and many-particle systems, drawing comparisons with results from the attractive Hubbard model. Our approach combines exact diagonalization, density matrix renormalization group techniques, and numerical solution of the Richardson equations. This comprehensive analysis allows us to study various key metrics, including the system's conductivity as a function of the interaction strength. In this way, the BCS-BEC transition is investigated in a continuous manner, thus permitting to shed light on fundamental aspects of superconducting pairing. Our findings can be experimentally tested in a condensed matter context or, with greater level of control, using \textit{atomtronics} platforms.
翻訳日:2024-01-31 15:32:43 公開日:2024-01-30
# 超次元計算によるゼロショット分類

Zero-shot Classification using Hyperdimensional Computing ( http://arxiv.org/abs/2401.16876v1 )

ライセンス: Link先を確認
Samuele Ruffino, Geethan Karunaratne, Michael Hersche, Luca Benini, Abu Sebastian and Abbas Rahimi(参考訳) Zero-shot Learning (ZSL) に基づいた分類は、モデルが以前にトレーニング例を見ていない新しいクラスに入力を分類する能力である。 ZSLに基づく分類に関わる新しいクラスを記述する属性の集合の形で補助的な記述子を提供することは、この課題を解決するための好ましいアプローチの1つである。 本研究は超次元コンピューティング(HDC)に触発され,属性エンコーダ内のシンボル様分散表現の定常バイナリコードブックを用いて,超次元計算ゼロショット分類器~(HDC-ZSC)を計算的にシンプルな訓練可能モデルにコンパクトに表現することを提案する。 トレーニング可能なイメージエンコーダと、hdcに基づく属性エンコーダと、類似性カーネルで構成されている。 hdc-zscは,まずゼロショット属性抽出タスクを実行し,その後,最小限のアーキテクチャ変更と最小限のモデルリトレーニングでゼロショット分類タスクに再利用できることを示した。 HDC-ZSCは、2660万のトレーニング可能なパラメータしか持たず、CUB-200データセット上の63.8%のトップ1分類精度でパレート最適結果を達成する。 他の2つの最先端の非生成的アプローチと比較して、HDC-ZSCは4.3%と9.9%の精度で、それぞれ1.85倍と1.72倍のパラメータを必要とする。

Classification based on Zero-shot Learning (ZSL) is the ability of a model to classify inputs into novel classes on which the model has not previously seen any training examples. Providing an auxiliary descriptor in the form of a set of attributes describing the new classes involved in the ZSL-based classification is one of the favored approaches to solving this challenging task. In this work, inspired by Hyperdimensional Computing (HDC), we propose the use of stationary binary codebooks of symbol-like distributed representations inside an attribute encoder to compactly represent a computationally simple end-to-end trainable model, which we name Hyperdimensional Computing Zero-shot Classifier~(HDC-ZSC). It consists of a trainable image encoder, an attribute encoder based on HDC, and a similarity kernel. We show that HDC-ZSC can be used to first perform zero-shot attribute extraction tasks and, can later be repurposed for Zero-shot Classification tasks with minimal architectural changes and minimal model retraining. HDC-ZSC achieves Pareto optimal results with a 63.8% top-1 classification accuracy on the CUB-200 dataset by having only 26.6 million trainable parameters. Compared to two other state-of-the-art non-generative approaches, HDC-ZSC achieves 4.3% and 9.9% better accuracy, while they require more than 1.85x and 1.72x parameters compared to HDC-ZSC, respectively.
翻訳日:2024-01-31 15:32:12 公開日:2024-01-30
# MZIを用いた集積フォトニクスにおけるユニバーサルおよびスケーラブルコンピューティングのための量子回路マッピング

Quantum Circuit Mapping for Universal and Scalable Computing in MZI-based Integrated Photonics ( http://arxiv.org/abs/2401.16875v1 )

ライセンス: Link先を確認
Yong Kwon, Alessio Baldazzi, Lorenzo Pavesi, Byung-Soo Choi(参考訳) 線形光学量子コンピューティング(loqc)は、ディヴィンチェンツォの基準に従って確立され堅牢な技術と柔軟な環境条件に基づいた量子計算パラダイムを提供する。 このフレームワーク内では、統合フォトニクスを利用して、ゲートベースの量子コンピューティング、パスエンコーディングによる量子ビットの定義、マッハ・ツェンダー干渉計(mzis)による量子ゲート、単一光子検出器による測定を行うことができる。 特に、普遍的な2ビットゲートは、選択後やシェラルディングと共にMZIの適切な構造によって達成できる。 最もリソース効率のよい選択は、選択後のCZゲートによって与えられる。 しかし、この実装は非正規構造でカスケードできない設計で特徴付けられる。 これにより、大規模なLOQCの実装が制限される。 これらの問題から,統合フォトニックプラットフォーム上での普遍的でスケーラブルなLOQCに向けたアプローチを提案する。 まず、選択後のczを普遍的な2量子ビットゲートとして選択し、パスエンコードされたデュアルレール量子ビットを補助導波路と2つの導波路からなる導波路の三重項に拡張する。 さらに,新しいパスエンコードキュービットの規則的にラベルされた構造を,ポスト選択されたczに必要な構造にマッピングするスワップフォトニックネットワークを導入する。 また、隣接経路符号化量子ビットの接続を可能にする光スワップゲートについても論じる。 このようにして、量子ビットの位置を決定論的に交換し、任意のパスエンコードされた量子ビット間で制御された量子ゲートを実行することができる。 次に、後選択されたCZの後、補助導波路を切断することにより、この光ゲートが1つの量子ビットしか共有しない異なるペアに作用するときにカスケードできることが分かる。

Linear optical quantum computing (LOQC) offers a quantum computation paradigm based on well-established and robust technology and flexible environmental conditions following DiVincenzo's criteria. Within this framework, integrated photonics can be utilized to achieve gate-based quantum computing, defining qubits by path-encoding, quantum gates through the use of Mach-Zehnder interferometers (MZIs) as fundamental building blocks, and measurements through single-photon detectors. In particular, universal two-qubit gates can be achieved by suitable structures of MZIs together with post-selection or heralding. The most resource-efficient choice is given by the post-selected CZ gate. However, this implementation is characterized by a design which has a non-regular structure and cannot be cascaded. This limits the implementation of large-scale LOQC. Starting from these issues, we suggest an approach to move toward a universal and scalable LOQC on the integrated photonic platform. First of all, choosing the post-selected CZ as universal two-qubit gate, we extend the path-encoded dual-rail qubit to a triplet of waveguides, composed of an auxiliary waveguide and the pair of waveguides corresponding to the qubit basis states. Additionally, we introduce a swap photonic network that maps the regularly-labeled structure of the new path-encoded qubits to the structure needed for the post-selected CZ. We also discuss the optical swap gate that allows the connection of non-nearest neighbor path-encoded qubits. In this way, we can deterministically exchange the locations of the qubits and execute controlled quantum gates between any path-encoded qubits. Next, by truncating the auxiliary waveguides after any post-selected CZ, we find that it is possible to cascade this optical gate when it acts on different pairs that share only one qubit.
翻訳日:2024-01-31 15:31:45 公開日:2024-01-30
# B-Spline-based vs. Mesh-based Multi-Objective Deformable Image Registration

A Tournament of Transformation Models: B-Spline-based vs. Mesh-based Multi-Objective Deformable Image Registration ( http://arxiv.org/abs/2401.16867v1 )

ライセンス: Link先を確認
Georgios Andreadis, Joas I. Mulder, Anton Bouter, Peter A. N. Bosman, Tanja Alderliesten(参考訳) 変換モデルは、任意の変形可能な画像登録アプローチの重要な構成要素である。 画像間の物理的変形の表現を提供し、それによって発見できる登録の範囲と現実性を定義する。 Bスプラインモデルとメッシュモデルという2種類のトランスフォーメーションモデルが人気である。 どちらのモデルも詳細に検討されているが、実際には全く異なる最適化手法を用いて最適化されているため、直接比較は行われていない。 b-スプラインモデルは主に勾配拡散法を用いて最適化されるが、メッシュモデルは通常有限要素法解法や進化アルゴリズムを用いて最適化される。 多様な高品質なトレードオフ登録を見つけることを目的とした多目的最適化手法は,変形可能な画像登録において重要視されつつある。 これらの手法は多様な登録の集合を探索するので、異なる変換モデルの能力のより完全な図を提供することができ、モデルの比較に適している。 本研究では,同一の最先端多目的最適化法であるmo-rv-gomea(multi-objective real-valued gene-pool optimal mixing evolution algorithm)を用いて,b-splineモデルとメッシュ変換モデルの直接比較を行った。 さらに、B-スプライン変換モデルの組み合わせは、新しいものである。 頸部癌患者の骨盤CTで得られた2つの異なる登録問題のモデルを比較し,大きな変形を特徴とした。 以上の結果から,子宮頸癌患者3例において,トランスフォーメーションモデルの選択が登録結果の多様性と品質に大きな影響を与える可能性が示唆された。

The transformation model is an essential component of any deformable image registration approach. It provides a representation of physical deformations between images, thereby defining the range and realism of registrations that can be found. Two types of transformation models have emerged as popular choices: B-spline models and mesh models. Although both models have been investigated in detail, a direct comparison has not yet been made, since the models are optimized using very different optimization methods in practice. B-spline models are predominantly optimized using gradient-descent methods, while mesh models are typically optimized using finite-element method solvers or evolutionary algorithms. Multi-objective optimization methods, which aim to find a diverse set of high-quality trade-off registrations, are increasingly acknowledged to be important in deformable image registration. Since these methods search for a diverse set of registrations, they can provide a more complete picture of the capabilities of different transformation models, making them suitable for a comparison of models. In this work, we conduct the first direct comparison between B-spline and mesh transformation models, by optimizing both models with the same state-of-the-art multi-objective optimization method, the Multi-Objective Real-Valued Gene-pool Optimal Mixing Evolutionary Algorithm (MO-RV-GOMEA). The combination with B-spline transformation models, moreover, is novel. We experimentally compare both models on two different registration problems that are both based on pelvic CT scans of cervical cancer patients, featuring large deformations. Our results, on three cervical cancer patients, indicate that the choice of transformation model can have a profound impact on the diversity and quality of achieved registration outcomes.
翻訳日:2024-01-31 15:31:11 公開日:2024-01-30
# Depends-Kotlin - Kotlin依存関係エクストラクタ

Depends-Kotlin: A Cross-Language Kotlin Dependency Extractor ( http://arxiv.org/abs/2401.16865v1 )

ライセンス: Link先を確認
Qiong Feng, Xiaotian Ma, Huan Ji, Peng Liang(参考訳) 2017年にgoogleがandroidアプリ開発の公式プログラミング言語としてkotlinを導入して以来、kotlinはandroid開発で広く採用されている。 しかしながら、Javaと比較して、ソフトウェア分析の基礎であるKotlinコード依存性分析は限定的だ。 このギャップを埋めるため、私たちは、Kotlinソースコード内のエンティティとその依存関係を抽出するDepends-Kotlinを開発しました。 Depends-KotlinはKotlinコードのエンティティの依存関係を抽出するだけでなく、KotlinとJava間の依存関係関係も抽出できる。 このような言語間の依存関係の抽出は、開発者がJavaからKotlinへのマイグレーションプロセスを理解するのに役立つ。 さらに、依存性が確認されたJavaプロジェクトをベンチマークとして使用して、KotlinのみとKotlinとJavaの組み合わせの2つのプロジェクトに変換しました。 これら2つのプロジェクトの依存関係は、ツールを使って抽出されます。 これら3つのプロジェクトの依存関係間の一貫性は、dependence-kotlinの正確性を確認する。 さらに、dependence-kotlinのパフォーマンスは、さまざまなサイズの別の3つのプロジェクトを使って評価された。 Depends-Kotlinのソースコードとこのデモ論文で使用されたデータセットがhttps://github.com/XYZboom/depends-kotlinにアップロードされた。 また、Depends-Kotlin https://youtu.be/daZuXOwn1Lsというスクリーンキャストも提供しました。

Since Google introduced Kotlin as an official programming language for developing Android apps in 2017, Kotlin has gained widespread adoption in Android development. However, compared to Java, there is limited support for Kotlin code dependency analysis, which is the foundation to software analysis. To bridge this gap, we developed Depends-Kotlin to extract entities and their dependencies in Kotlin source code. Not only does Depends-Kotlin support extracting entities' dependencies in Kotlin code, but it can also extract dependency relations between Kotlin and Java. The extraction of such cross-language dependencies can help developers understand the migration process from Java to Kotlin. Additionally, we used a Java project with confirmed dependencies as a benchmark and converted this project to two projects: Kotlin-only and a combination of Kotlin and Java. The dependencies in these two projects were then extracted using our tool. The consistency observed among dependency relations in all three projects confirms the accuracy of Depends-Kotlin. Furthermore, the performance of Depends-Kotlin was assessed using another three projects of varying sizes. The source code of Depends-Kotlin and the dataset used in this demo paper have been uploaded to https://github.com/XYZboom/depends-kotlin. We also provided a screencast presenting Depends-Kotlin https://youtu.be/daZuXOwn1Ls.
翻訳日:2024-01-31 15:30:44 公開日:2024-01-30
# デジタル民主復興の実現 : デジタル民主主義研究プログラム

Enabling the Digital Democratic Revival: A Research Program for Digital Democracy ( http://arxiv.org/abs/2401.16863v1 )

ライセンス: Link先を確認
Davide Grossi, Ulrike Hahn, Michael M\"as, Andreas Nitsche, Jan Behrens, Niclas Boehmer, Markus Brill, Ulle Endriss, Umberto Grandi, Adrian Haret, Jobst Heitzig, Nicolien Janssens, Catholijn M. Jonker, Marijn A. Keijzer, Axel Kistner, Martin Lackner, Alexandra Lieben, Anna Mikhaylovskaya, Pradeep K. Murukannaiah, Carlo Proietti, Manon Revel, \'Elise Roum\'eas, Ehud Shapiro, Gogulapati Sreedurga, Bj\"orn Swierczek, Nimrod Talmon, Paolo Turrini, Zoi Terzopoulou, Frederik Van De Putte(参考訳) この白書は、デジタル民主主義技術の発展に関する長期的な科学的ビジョンを概説する。 デジタル民主主義が我々の社会における参加的再生を可能にするという野心を満たすならば、長年にわたって、民主的原理、実証的、計算的インフォームドな方法でその発展を支援する包括的な多手法研究が求められていると我々は主張している。 この論文は、国際的かつ学際的な研究者チームによって共著され、ロレンツ・センターの'algorithmic technology for democracy' (leiden, october 2022) のワークショップから生まれた。

This white paper outlines a long-term scientific vision for the development of digital-democracy technology. We contend that if digital democracy is to meet the ambition of enabling a participatory renewal in our societies, then a comprehensive multi-methods research effort is required that could, over the years, support its development in a democratically principled, empirically and computationally informed way. The paper is co-authored by an international and interdisciplinary team of researchers and arose from the Lorentz Center Workshop on ``Algorithmic Technology for Democracy'' (Leiden, October 2022).
翻訳日:2024-01-31 15:30:26 公開日:2024-01-30
# 低リソース対話状態追跡のためのプロンプト学習と自己学習による状態値生成

State Value Generation with Prompt Learning and Self-Training for Low-Resource Dialogue State Tracking ( http://arxiv.org/abs/2401.16862v1 )

ライセンス: Link先を確認
Ming Gu, Yan Yang, Chengcai Chen, Zhou Yu(参考訳) 近年,低リソース対話状態追跡(DST)が注目されている。 まず、スロットタイプを生成するために値に基づいて状態値を取得することが、このタスクに大きな進歩をもたらした。 しかし、状態値の取得は未熟な問題である。 既存の抽出ベースのアプローチでは、コンテキストの理解を必要とし、一般化できない値をキャプチャできない。 これらの問題に対処するため、我々は、DSTを状態値生成とドメインスロット生成に分解する新しいステートVAlue Generation based framework (SVAG)を提案する。 具体的には,状態値の生成と自己学習による状態値生成のさらなる改善を提案する。 さらに,自己学習中の擬似ラベルデータ選択における不完全生成と誤生成を検出するための推定器を設計する。 マルチウォズ2.1データセットにおける実験結果から,1000億パラメータ以下のモデルに制限された場合,データ比設定では5%,10%,25%で最先端の性能が得られることがわかった。 1000億以上のパラメータを持つモデルと比較して、SVAGは依然として競合する結果に達している。

Recently, low-resource dialogue state tracking (DST) has received increasing attention. First obtaining state values then based on values to generate slot types has made great progress in this task. However, obtaining state values is still an under-studied problem. Existing extraction-based approaches cannot capture values that require the understanding of context and are not generalizable either. To address these issues, we propose a novel State VAlue Generation based framework (SVAG), decomposing DST into state value generation and domain slot generation. Specifically, we propose to generate state values and use self-training to further improve state value generation. Moreover, we design an estimator aiming at detecting incomplete generation and incorrect generation for pseudo-labeled data selection during self-training. Experimental results on the MultiWOZ 2.1 dataset show that our method which has only less than 1 billion parameters achieves state-of-the-art performance under the data ratio settings of 5%, 10%, and 25% when limited to models under 100 billion parameters. Compared to models with more than 100 billion parameters, SVAG still reaches competitive results.
翻訳日:2024-01-31 15:30:15 公開日:2024-01-30
# 画像内の主題の再配置

Repositioning the Subject within Image ( http://arxiv.org/abs/2401.16861v1 )

ライセンス: Link先を確認
Yikai Wang, Chenjie Cao, Qiaole Dong, Yifan Li, Yanwei Fu(参考訳) 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的操作に焦点を当てている。 本稿では,革新的動的操作タスクである主観的再配置を提案する。 このタスクは、画像の忠実性を維持しながら、ユーザ特定対象を所望の位置に移動させることである。 本研究は, 再配置対象が残した空隙を埋める, 未確認部分を再構築し, 周囲と整合性を持たせることを含む, 基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。 その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することができる。 さらに,前処理技術と後処理技術を統合し,対象再配置の品質をさらに向上させる。 これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。 対象再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の対象再配置データセットを組み立てる。 ReSの結果は, 再構成画像の画質を示すものである。

Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Our results on ReS demonstrate the quality of repositioned image generation.
翻訳日:2024-01-31 15:29:57 公開日:2024-01-30
# 自由膨張中のハードコアボソンの準凝縮とオフ対角長距離秩序

Quasicondensation and off-diagonal long-range order of hard-core bosons during a free expansion ( http://arxiv.org/abs/2401.16860v1 )

ライセンス: Link先を確認
A. Tak\'acs, S. Scopa, P. Calabrese, L. Vidmar and J. Dubail(参考訳) 1次元の準凝縮は、ゼロ温度でのハードコアボソン(HCB)の平衡系で起こることが知られている。 この現象は、一粒子密度行列 $g_1(x,y)\sim |x-y|^{-1/2}$~~- のパワー・ロー崩壊を特徴とする、基底状態の対角外長距離秩序によって生じる。 驚くべきことに、hcbは初期積状態(すなわち初期零相関によって特徴づけられる)から自由に展開できるとき、準凝縮を示し、非平衡ダイナミクス中に非対角的長距離秩序が出現することを示す。 この現象は2000年代初頭の数値的および実験的調査によって証明された。 本研究では,hcbの動的準凝縮について再検討し,問題を完全に解析的に処理する。 特に、量子一般化流体力学の枠組みからアイデアを借りて、等時間一粒子密度行列の正確な漸近公式を導出する。 本研究は, 時間進化の異なる段階で発生する準凝縮現象と動的フェルミオン化現象と, 両者の交叉現象を解明するものである。

Quasicondensation in one dimension is known to occur for equilibrium systems of hard-core bosons (HCBs) at zero temperature. This phenomenon arises due to the off-diagonal long-range order in the ground state, characterized by a power-law decay of the one-particle density matrix $g_1(x,y)\sim |x-y|^{-1/2}$~--~a well-known outcome of Luttinger liquid theory. Remarkably, HCBs, when allowed to freely expand from an initial product state (i.e., characterized by initial zero correlation), exhibit quasicondensation and demonstrate the emergence of off-diagonal long-range order during nonequilibrium dynamics. This phenomenon has been substantiated by numerical and experimental investigations in the early 2000s. In this work, we revisit the dynamical quasicondensation of HCBs, providing a fully analytical treatment of the issue. In particular, we derive an exact asymptotic formula for the equal-time one-particle density matrix by borrowing ideas from the framework of quantum Generalized Hydrodynamics. Our findings elucidate the phenomenology of quasicondensation and of dynamical fermionization occurring at different stages of the time evolution, as well as the crossover between the two.
翻訳日:2024-01-31 15:29:38 公開日:2024-01-30
# キャビティ磁気力学系のエントロピー生成速度と相関

Entropy production rate and correlations of cavity magnomechanical system ( http://arxiv.org/abs/2401.16857v1 )

ライセンス: Link先を確認
Collins O. Edet, Muhammad Asjad, Denys Dutykh, Norshamsuri Ali and Obinna Abah(参考訳) マイクロ波共振器内の直径数百マイクロメートルのイットリウム鉄ガーネット(yig)球体からなる定常キャビティマグノメカニカルシステムによって生じる非可逆性について述べる。 この系では、マグノン、すなわち球の集合スピン励起は磁気双極子相互作用を介してキャビティフォトンモードに結合し、フォノンモードは磁歪力(オプトメカニカル様)を介して結合される。 本研究では,エントロピー変化の量子位相空間定式化を行い,系の定常エントロピー生成速度と関連する量子相関を評価する。 キャビティ光子モードとフォノンモードとの間のエントロピー流れの挙動は、マグノン-光子カップリングとキャビティ光子散逸速度によって決定される。 興味深いことに、エントロピー生成速度は、マグノン-光子カップリングの強さとデチューニングパラメータに依存する。 さらに,マグノンモードとフォノンモードの相関量は,小さなマグノン光子カップリング系で発生する可逆性と関連していることを示した。 本研究は, 誘導型マグノン系ハイブリッド量子系における不可逆性を探索し, 量子熱応用に期待できる経路を開く可能性を示すものである。

We present the irreversibility generated by a stationary cavity magnomechanical system composed of a yttrium iron garnet (YIG) sphere with a diameter of a few hundred micrometers inside a microwave cavity. In this system, the magnons, i.e., collective spin excitations in the sphere, are coupled to the cavity photon mode via magnetic dipole interaction and to the phonon mode via magnetostrictive force (optomechanical-like). We employ the quantum phase space formulation of the entropy change to evaluate the steady-state entropy production rate and associated quantum correlation in the system. We find that the behavior of the entropy flow between the cavity photon mode and the phonon mode is determined by the magnon-photon coupling and the cavity photon dissipation rate. Interestingly, the entropy production rate can increase/decrease depending on the strength of the magnon-photon coupling and the detuning parameters. We further show that the amount of correlations between the magnon and phonon modes is linked to the irreversibility generated in the system for small magnon-photon coupling. Our results demonstrate the possibility of exploring irreversibility in driven magnon-based hybrid quantum systems and open a promising route for quantum thermal applications.
翻訳日:2024-01-31 15:29:15 公開日:2024-01-30
# チェスの改善のために、専門家とmctの混合を組み合わせる

Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess ( http://arxiv.org/abs/2401.16852v1 )

ライセンス: Link先を確認
Felix Helfenstein, Jannis Bl\"uml, Johannes Czech and Kristian Kersting(参考訳) 本稿では,Mixture of Experts (MoE) 法とMonte-Carlo Tree Search (MCTS) を用いて,ディープラーニングと計算チェスを統合した新しい手法を提案する。 本手法は,ゲームの入力データの変化に対応するように設計した,一連の特殊モデルを用いている。 この結果、わずかに活性化されたモデルを持つフレームワークが実現し、計算上の大きな利点をもたらす。 我々のフレームワークは,MoE法とMCTS法を組み合わせることで,チェスの戦略段階と整合し,従来の 'one-for-all' モデルから離脱する。 代わりに、異なるゲームフェーズ定義を使用して、複数のエキスパートニューラルネットワークに計算タスクを効果的に分配する。 私たちの経験的研究は、従来のシングルモデルフレームワークを抜いて、演奏力を大幅に改善したことを示している。 これは、我々の統合アプローチの有効性を検証し、ニューラルネットワーク設計に専門知識と戦略原則を組み込む可能性を強調します。 moeとmctsの融合は、機械学習アーキテクチャの進歩に有望な道を提供する。

This paper presents a new approach that integrates deep learning with computational chess, using both the Mixture of Experts (MoE) method and Monte-Carlo Tree Search (MCTS). Our methodology employs a suite of specialized models, each designed to respond to specific changes in the game's input data. This results in a framework with sparsely activated models, which provides significant computational benefits. Our framework combines the MoE method with MCTS, in order to align it with the strategic phases of chess, thus departing from the conventional ``one-for-all'' model. Instead, we utilize distinct game phase definitions to effectively distribute computational tasks across multiple expert neural networks. Our empirical research shows a substantial improvement in playing strength, surpassing the traditional single-model framework. This validates the efficacy of our integrated approach and highlights the potential of incorporating expert knowledge and strategic principles into neural network design. The fusion of MoE and MCTS offers a promising avenue for advancing machine learning architectures.
翻訳日:2024-01-31 15:28:55 公開日:2024-01-30
# 効率性と等価性のための混雑価格:サンフランシスコ湾地域における理論と応用

Congestion Pricing for Efficiency and Equity: Theory and Applications to the San Francisco Bay Area ( http://arxiv.org/abs/2401.16844v1 )

ライセンス: Link先を確認
Chinmay Maheshwari and Kshitij Kulkarni and Druv Pai and Jiarui Yang and Manxi Wu and Shankar Sastry(参考訳) 渋滞料金は、交通渋滞を軽減するために多くの都市で採用されているが、低所得旅行者への不均衡な影響により、社会経済的格差の拡大への懸念が高まっている。 本研究では,混雑レベルを最小化するだけでなく,支払意思の異なる旅行者の費用格差を減らすための公平性目標も取り入れた,新しい混雑料金体系を提案することで,この課題に対処した。 本分析は,異種旅行者による混雑ゲームモデルに基づく。 本稿では,様々なトラベラーに対する料金の課金や,ネットワークのエッジのサブセットのみを課金するオプションなど,実用上の考慮事項を考慮に入れた4つの料金体系を提案する。 サンフランシスコベイエリアの校正高速道路網における料金体系の評価を行った。 提案した渋滞価格体系は,現在の価格体系と比較して効率性(平均旅行時間の削減)とエクイティ(人口差による旅行コストの格差)の両方を向上することを示した。 さらに、当社の価格体系は、現在の価格体系に匹敵する総収益も生み出す。 以上の結果より,旅行費の均一な価格帯に比べて,支払意思の異なる旅行者集団に対して料金を課金する価格体系が,旅行費の公平な分配につながることが示唆された。

Congestion pricing, while adopted by many cities to alleviate traffic congestion, raises concerns about widening socioeconomic disparities due to its disproportionate impact on low-income travelers. In this study, we address this concern by proposing a new class of congestion pricing schemes that not only minimize congestion levels but also incorporate an equity objective to reduce cost disparities among travelers with different willingness-to-pay. Our analysis builds on a congestion game model with heterogeneous traveler populations. We present four pricing schemes that account for practical considerations, such as the ability to charge differentiated tolls to various traveler populations and the option to toll all or only a subset of edges in the network. We evaluate our pricing schemes in the calibrated freeway network of the San Francisco Bay Area. We demonstrate that the proposed congestion pricing schemes improve both efficiency (in terms of reduced average travel time) and equity (the disparities of travel costs experienced by different populations) compared to the current pricing scheme. Moreover, our pricing schemes also generate a total revenue comparable to the current pricing scheme. Our results further show that pricing schemes charging differentiated prices to traveler populations with varying willingness-to-pay lead to a more equitable distribution of travel costs compared to those that charge a homogeneous price to all.
翻訳日:2024-01-31 15:28:37 公開日:2024-01-30
# ディープラーニングを用いた多重利回り曲線モデリングと予測

Multiple Yield Curve Modeling and Forecasting using Deep Learning ( http://arxiv.org/abs/2401.16985v1 )

ライセンス: Link先を確認
Ronald Richman, Salvatore Scognamiglio(参考訳) 本書では,複数の降伏曲線のダイナミクスを同時に記述したディープラーニングモデルを紹介する。 我々は、金融市場のグローバリゼーションによって引き起こされる異なる利回り曲線間の依存構造を学習し、それを利用してより正確な予測を行う。 自己アテンション機構と非パラメトリック量子化回帰を組み合わせることで,将来の収率のポイントとインターバルの予測を生成できる。 このアーキテクチャは、複数の量子レグレッションモデルに影響を与える量子交差問題を避けるように設計されている。 2つの異なるデータセット上で行った数値実験により,本手法の有効性を確認した。 最後に,深層アンサンブル法と伝達学習機構を取り入れた潜在的拡張と拡張について検討する。

This manuscript introduces deep learning models that simultaneously describe the dynamics of several yield curves. We aim to learn the dependence structure among the different yield curves induced by the globalization of financial markets and exploit it to produce more accurate forecasts. By combining the self-attention mechanism and nonparametric quantile regression, our model generates both point and interval forecasts of future yields. The architecture is designed to avoid quantile crossing issues affecting multiple quantile regression models. Numerical experiments conducted on two different datasets confirm the effectiveness of our approach. Finally, we explore potential extensions and enhancements by incorporating deep ensemble methods and transfer learning mechanisms.
翻訳日:2024-01-31 15:22:42 公開日:2024-01-30
# 非定常顧客によるオンラインリソース割り当て

Online Resource Allocation with Non-Stationary Customers ( http://arxiv.org/abs/2401.16945v1 )

ライセンス: Link先を確認
Xiaoyue Zhang, Hanzhang Qin, Mabel C. Chou(参考訳) 非定常顧客到着率と未知クリックスルー率を持つオンラインリソース割り当てのための新しいアルゴリズムを提案する。 複数の顧客が非定常の確率的方法で到着し、各期間に未知の到着率を持ち、顧客のクリックスルー率は未知であり、オンラインでしか学べないと仮定する。 Knapsackによる確率的文脈的バンディットと、敵の到着とオンラインマッチングの結果を活用することで、非定常顧客に対してリソースを割り当てるオンラインスキームを開発する。 提案手法は, 利用者の到着がほぼ静止状態である場合に, サブリニアな後悔を伴い, 一般の(静止していない)顧客到着分布の下で最適な競争比率を享受する。 最後に,提案手法があらゆる顧客シナリオに最適に近い収益をもたらすことを示すために,広範な数値実験を行った。

We propose a novel algorithm for online resource allocation with non-stationary customer arrivals and unknown click-through rates. We assume multiple types of customers arrive in a nonstationary stochastic fashion, with unknown arrival rates in each period, and that customers' click-through rates are unknown and can only be learned online. By leveraging results from the stochastic contextual bandit with knapsack and online matching with adversarial arrivals, we develop an online scheme to allocate the resources to nonstationary customers. We prove that under mild conditions, our scheme achieves a ``best-of-both-world'' result: the scheme has a sublinear regret when the customer arrivals are near-stationary, and enjoys an optimal competitive ratio under general (non-stationary) customer arrival distributions. Finally, we conduct extensive numerical experiments to show our approach generates near-optimal revenues for all different customer scenarios.
翻訳日:2024-01-31 15:22:33 公開日:2024-01-30
# ベイズ推論による力学系同定・モデル選択・モデル不確かさの定量化

Dynamical System Identification, Model Selection and Model Uncertainty Quantification by Bayesian Inference ( http://arxiv.org/abs/2401.16943v1 )

ライセンス: Link先を確認
Robert K. Niven, Laurent Cordier, Ali Mohammad-Djafari, Markus Abel and Markus Quade(参考訳) 本研究では時系列データから動的システム同定のためのベイズ最大値 \textit{a~posteriori} (map) フレームワークを提案する。 これは一般化ゼロ階のチホノフ正則化と等価であることが示され、確率と先行分布の負の対数から、残留項と正則化項の選択をそれぞれ合理的に正当化する。 モデル係数の推定に加えて、ベイズ解釈は、モデルのランク付け、モデルの不確かさの定量化、未知(ニュアサンス)ハイパーパラメータの推定を含むベイズ推論の完全な装置へのアクセスを与える。 2つのベイズアルゴリズム、ジョイント最大値 \textit{a~posteriori} (JMAP) と変分ベイズ近似 (VBA) は、雑音を付加したいくつかの力学系に適用することにより、閾値最小二乗回帰に対する一般的なSINDyアルゴリズムと比較する。 多変量ガウス確率と先行分布について、ベイズ式はガウス的後続分布とエビデンス分布を与え、そこでは数値項はマハラノビス距離の項で表すことができ、例えば ``ガウス的ノルム'' $|\vy-\hat{\vy}||^2_{M^{-1}} = (\vy-\hat{\vy})^\top {M^{-1}} (\vy-\hat{\vy})$, ここで$\vy$はベクトル変数、$\hat{\vy}$は推定値、$M$は共分散行列である。 後ガウスノルムは定量的モデル選択のための堅牢な計量を提供する。

This study presents a Bayesian maximum \textit{a~posteriori} (MAP) framework for dynamical system identification from time-series data. This is shown to be equivalent to a generalized zeroth-order Tikhonov regularization, providing a rational justification for the choice of the residual and regularization terms, respectively, from the negative logarithms of the likelihood and prior distributions. In addition to the estimation of model coefficients, the Bayesian interpretation gives access to the full apparatus for Bayesian inference, including the ranking of models, the quantification of model uncertainties and the estimation of unknown (nuisance) hyperparameters. Two Bayesian algorithms, joint maximum \textit{a~posteriori} (JMAP) and variational Bayesian approximation (VBA), are compared to the popular SINDy algorithm for thresholded least-squares regression, by application to several dynamical systems with added noise. For multivariate Gaussian likelihood and prior distributions, the Bayesian formulation gives Gaussian posterior and evidence distributions, in which the numerator terms can be expressed in terms of the Mahalanobis distance or ``Gaussian norm'' $||\vy-\hat{\vy}||^2_{M^{-1}} = (\vy-\hat{\vy})^\top {M^{-1}} (\vy-\hat{\vy})$, where $\vy$ is a vector variable, $\hat{\vy}$ is its estimator and $M$ is the covariance matrix. The posterior Gaussian norm is shown to provide a robust metric for quantitative model selection.
翻訳日:2024-01-31 15:22:15 公開日:2024-01-30
# 深層学習によるマセラー繊維と血管のセグメンテーションとキャラクタリゼーション

Segmentation and Characterization of Macerated Fibers and Vessels Using Deep Learning ( http://arxiv.org/abs/2401.16937v1 )

ライセンス: Link先を確認
Saqib Qamar, Abu Imran Baba, St\'ephane Verger, Magnus Andersson(参考訳) 目的:木材は繊維や容器などの異なる細胞タイプからなり、その特性を定義する。 顕微鏡画像の形状、大きさ、配置を研究することは、木材サンプルを理解する上で重要である。 通常は、溶液中のサンプルを別の細胞にマッセレーション(浸漬)し、それをスライド上に広げて、広い範囲をカバーする顕微鏡で撮影し、数千個の細胞を捕獲する。 しかし、これらの細胞はしばしば画像に集合し重なり合い、標準的な画像処理手法でセグメンテーションを困難にし、時間がかかる。 結果: 本研究は, 1段階のyolov8モデルを用いて, 高速かつ高精度な繊維と血管のセグメンテーションと顕微鏡画像のキャラクタリゼーションを行う, ディープラーニングの自動セグメンテーション手法を開発した。 このモデルは32640 x 25920ピクセルの画像を分析し、有効な細胞検出とセグメンテーションを示し、mAP_0.5-0.95の78 %を達成する。 モデルの堅牢性を評価するため,より長い繊維で知られる遺伝子組換え木の繊維について検討した。 結果は以前の手動測定に匹敵するものだった。 さらに、画像解析のためのユーザフレンドリーなWebアプリケーションを作成し、Google Colabで使用するコードを提供しました。 結論: この研究は, YOLOv8の進歩を活用することで, 実用に適した木材細胞の効率的な定量化と解析を可能にする, ディープラーニングソリューションを提供する。

Purpose: Wood comprises different cell types, such as fibers and vessels, defining its properties. Studying their shape, size, and arrangement in microscopic images is crucial for understanding wood samples. Typically, this involves macerating (soaking) samples in a solution to separate cells, then spreading them on slides for imaging with a microscope that covers a wide area, capturing thousands of cells. However, these cells often cluster and overlap in images, making the segmentation difficult and time-consuming using standard image-processing methods. Results: In this work, we develop an automatic deep learning segmentation approach that utilizes the one-stage YOLOv8 model for fast and accurate fiber and vessel segmentation and characterization in microscopy images. The model can analyze 32640 x 25920 pixels images and demonstrate effective cell detection and segmentation, achieving a mAP_0.5-0.95 of 78 %. To assess the model's robustness, we examined fibers from a genetically modified tree line known for longer fibers. The outcomes were comparable to previous manual measurements. Additionally, we created a user-friendly web application for image analysis and provided the code for use on Google Colab. Conclusion: By leveraging YOLOv8's advances, this work provides a deep learning solution to enable efficient quantification and analysis of wood cells suitable for practical applications.
翻訳日:2024-01-31 15:21:30 公開日:2024-01-30
# 離散低次元データから連続気象パターンのクロスモーダル予測のためのマルチモーダル表現学習

Multi-modal Representation Learning for Cross-modal Prediction of Continuous Weather Patterns from Discrete Low-Dimensional Data ( http://arxiv.org/abs/2401.16936v1 )

ライセンス: Link先を確認
Alif Bin Abdul Qayyum, Xihaier Luo, Nathan M. Urban, Xiaoning Qian, Byung-Jun Yoon(参考訳) 世界は地球温暖化に寄与する温室効果ガス排出量を減らすため、環境を汚染しないクリーンで再生可能エネルギー源を探している。 風力エネルギーは温室効果ガスの排出を減少させるだけでなく、エネルギー需要の増加に対応する大きな可能性がある。 風力エネルギーの有効利用を実現するためには,以下の3つの課題に対処することが重要である。 まず、潜在的なエネルギー資源を評価するための情報の十分な供給を確保するために、様々な気候条件におけるデータ解像度を改善する。 第2に,センサ/シミュレーションから収集したデータの次元低減技術を実装し,大規模データセットの効率的な管理と保存を行う。 第3に、特にデータ取得が実用的でない場合や費用がかかる場合、風力データをある空間仕様から別の空間仕様へ推定する。 本研究では,不連続風データからのマルチモーダル連続解像風データ予測とデータ次元低減を実現するためのディープラーニング手法を提案する。

World is looking for clean and renewable energy sources that do not pollute the environment, in an attempt to reduce greenhouse gas emissions that contribute to global warming. Wind energy has significant potential to not only reduce greenhouse emission, but also meet the ever increasing demand for energy. To enable the effective utilization of wind energy, addressing the following three challenges in wind data analysis is crucial. Firstly, improving data resolution in various climate conditions to ensure an ample supply of information for assessing potential energy resources. Secondly, implementing dimensionality reduction techniques for data collected from sensors/simulations to efficiently manage and store large datasets. Thirdly, extrapolating wind data from one spatial specification to another, particularly in cases where data acquisition may be impractical or costly. We propose a deep learning based approach to achieve multi-modal continuous resolution wind data prediction from discontinuous wind data, along with data dimensionality reduction.
翻訳日:2024-01-31 15:21:06 公開日:2024-01-30
# 低ランク+スパース分解によるスムーズな正則化による動的MRI再構成

Dynamic MRI reconstruction using low-rank plus sparse decomposition with smoothness regularization ( http://arxiv.org/abs/2401.16928v1 )

ライセンス: Link先を確認
Chee-Ming Ting, Fuad Noman, Rapha\"el C.-W. Phan, Hernando Ombao(参考訳) 低ランク+スパース (L+S) 分解モデルにより,背景 (L) と動的 (S) 成分に分離した動的磁気共鳴イメージング (dMRI) の再現性が向上した。 しかし、低ランクの事前の使用だけでは、局所的なスケールでの背景部の緩やかな変動や滑らかさを完全に説明できないかもしれない。 本稿では,高度にアンサンプされたk-t空間データからDMRI再構成のためのスムーズネス規則化L+S(SR-L+S)モデルを提案する。 我々は,dMRIの背景成分の低ランク,スムーズな先行成分を併用し,その大域的および局所的な時間的相関構造をよりよく捉えた。 l+s の定式化を拡張して、低ランク性は核ノルムによって符号化され、l の柱の局所的な差に対する一般の \ell_{p}-ノルムペナルティによる滑らかさは、隣接するフレーム間の断片的な局所的一貫性を促進することができる。 ノイズやダイナミックな活動を滑らかにすることで、背景部分の正確な回復を可能にし、さらに堅牢なdMRI再構成を可能にする。 SR-L+Sモデルアウトプットの多コイル心・合成データに関する大規模実験

The low-rank plus sparse (L+S) decomposition model has enabled better reconstruction of dynamic magnetic resonance imaging (dMRI) with separation into background (L) and dynamic (S) component. However, use of low-rank prior alone may not fully explain the slow variations or smoothness of the background part at the local scale. In this paper, we propose a smoothness-regularized L+S (SR-L+S) model for dMRI reconstruction from highly undersampled k-t-space data. We exploit joint low-rank and smooth priors on the background component of dMRI to better capture both its global and local temporal correlated structures. Extending the L+S formulation, the low-rank property is encoded by the nuclear norm, while the smoothness by a general \ell_{p}-norm penalty on the local differences of the columns of L. The additional smoothness regularizer can promote piecewise local consistency between neighboring frames. By smoothing out the noise and dynamic activities, it allows accurate recovery of the background part, and subsequently more robust dMRI reconstruction. Extensive experiments on multi-coil cardiac and synthetic data shows that the SR-L+S model outp
翻訳日:2024-01-31 15:20:51 公開日:2024-01-30
# モダリティ不完全シーンセグメンテーションのためのフーリエプロンプトチューニング

Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation ( http://arxiv.org/abs/2401.16923v1 )

ライセンス: Link先を確認
Ruiping Liu, Jiaming Zhang, Kunyu Peng, Yufan Chen, Ke Cao, Junwei Zheng, M. Saquib Sarfraz, Kailun Yang, Rainer Stiefelhagen(参考訳) 複数のモードからの情報を統合することで、自動運転車におけるシーン認識システムの堅牢性が向上し、より包括的で信頼性の高い感覚フレームワークを提供する。 しかし、マルチモーダルセグメンテーションにおけるモダリティの不完全性は未検討のままである。 本研究では,MISS(Modality-Incomplete Scene Segmentation)と呼ばれる,システムレベルのモダリティ不在とセンサレベルのモダリティエラーの両方を含むタスクを確立する。 マルチモーダル核融合における主要なモダリティ依存を回避するため,MMS(Missing-Aware Modal Switch)戦略を導入する。 ビットレベルのバッチワイズサンプリングを利用することで、完全なテストシナリオと不完全なテストシナリオの両方において、モデルのパフォーマンスが向上する。 さらに,全てのMISシナリオに対して堅牢性を維持するために,代表的なスペクトル情報を限られた数の学習可能なプロンプトに組み込むFourier Prompt Tuning(FPT)手法を導入する。 微調整効果に似ているが、調整可能なパラメータは少ない(1.1%)。 拡張実験により提案手法の有効性が証明され, 従来よりも5.84% mIoUの改善が見られた。 ソースコードはhttps://github.com/RuipingL/MISSで公開されている。

Integrating information from multiple modalities enhances the robustness of scene perception systems in autonomous vehicles, providing a more comprehensive and reliable sensory framework. However, the modality incompleteness in multi-modal segmentation remains under-explored. In this work, we establish a task called Modality-Incomplete Scene Segmentation (MISS), which encompasses both system-level modality absence and sensor-level modality errors. To avoid the predominant modality reliance in multi-modal fusion, we introduce a Missing-aware Modal Switch (MMS) strategy to proactively manage missing modalities during training. Utilizing bit-level batch-wise sampling enhances the model's performance in both complete and incomplete testing scenarios. Furthermore, we introduce the Fourier Prompt Tuning (FPT) method to incorporate representative spectral information into a limited number of learnable prompts that maintain robustness against all MISS scenarios. Akin to fine-tuning effects but with fewer tunable parameters (1.1%). Extensive experiments prove the efficacy of our proposed approach, showcasing an improvement of 5.84% mIoU over the prior state-of-the-art parameter-efficient methods in modality missing. The source code will be publicly available at https://github.com/RuipingL/MISS.
翻訳日:2024-01-31 15:20:26 公開日:2024-01-30
# i.i.d.仮定を伴わない量子状態の学習特性

Learning Properties of Quantum States Without the I.I.D. Assumption ( http://arxiv.org/abs/2401.16922v1 )

ライセンス: Link先を確認
Omar Fawzi, Richard Kueng, Damian Markham, and Aadil Oufkir(参考訳) 我々は、独立かつ同一分散(i.i.d.)入力状態の仮定を超えた量子状態の学習のためのフレームワークを開発した。 任意の学習問題(合理的な仮定の下で)を考えると、i.i.d.入力状態向けに設計されたアルゴリズムは、多項式の複雑さの増大を犠牲にして、任意の性質の入力状態を処理するように適応できる。 さらに,非適応不整合測定を行うアルゴリズムを,同等の誤差確率を維持しつつ非i.i.d.入力状態を包含するように拡張できることを示す。 これにより、他の応用の中でも、ハン、クエン、プレスキルの古典的な影を、少ない効率の損失を犠牲にして非単位の設定に一般化することができる。 さらに、理想的な状態とは独立な方法でクリフォード測度を用いて任意の純粋な状態を検証することができる。 我々の主な手法は情報理論のツールによって支持されるde finettiスタイルの定理に基づいている。 特に、独立興味を持つことができる新しいランダム化された局所的デ・フィニッティの定理を証明できる。

We develop a framework for learning properties of quantum states beyond the assumption of independent and identically distributed (i.i.d.) input states. We prove that, given any learning problem (under reasonable assumptions), an algorithm designed for i.i.d. input states can be adapted to handle input states of any nature, albeit at the expense of a polynomial increase in copy complexity. Furthermore, we establish that algorithms which perform non-adaptive incoherent measurements can be extended to encompass non-i.i.d. input states while maintaining comparable error probabilities. This allows us, among others applications, to generalize the classical shadows of Huang, Kueng, and Preskill to the non-i.i.d. setting at the cost of a small loss in efficiency. Additionally, we can efficiently verify any pure state using Clifford measurements, in a way that is independent of the ideal state. Our main techniques are based on de Finetti-style theorems supported by tools from information theory. In particular, we prove a new randomized local de Finetti theorem that can be of independent interest.
翻訳日:2024-01-31 15:19:52 公開日:2024-01-30
# 2量子ビット系における繰り返し射影計測の効果

Effect of repeated projective measurements on a two-qubit system undergoing dephasing ( http://arxiv.org/abs/2401.16921v1 )

ライセンス: Link先を確認
Hammas Hussain Ali, Muhammad Abdullah Ijaz, Fariha Hassan, Diya Batool and Adam Zaman Chaudhry(参考訳) 完全に解ける純粋な復調モデルの絡み合い力学について研究した。 反復射影計測は2量子系で行われる。 システム環境相互作用により,各測定値間のシステム環境相関が確立される。 その結果、環境状態は進化し続ける。 この変化する環境状態が絡み合いダイナミクスに及ぼす影響について検討する。 特に,環境状態が繰り返しリセットされる場合と比較する。

The entanglement dynamics of an exactly solvable, pure dephasing model are studied. Repeated projective measurements are performed on the two-qubit system. Due to the system-environment interaction, system-environment correlations are established between each measurement. Consequently, the environment state keeps evolving. We investigate the effect of this changing environment state on the entanglement dynamics. In particular, we compare the dynamics with the case where the environment state is repeatedly reset.
翻訳日:2024-01-31 15:19:21 公開日:2024-01-30
# トポロジカルデータ分析に基づくクラスタリングによるスパースポートフォリオ選択

Sparse Portfolio Selection via Topological Data Analysis based Clustering ( http://arxiv.org/abs/2401.16920v1 )

ライセンス: Link先を確認
Anubha Goel, Damir Filipovi\'c, Puneet Pasricha(参考訳) 本稿では,トポロジカルデータ分析(tda)ツールを用いて,スパースポートフォリオ構築に適したデータ駆動クラスタリングに基づくストック選択戦略を提案する。 我々の資産選択戦略は、株式価格運動のトポロジカルな特徴を利用して、スパースインデックス追跡(Markowitz)ポートフォリオのためのトポロジカルに類似した(異なる)資産のサブセットを選択する。 時系列の時間成分を考慮した永続化図や風景の空間上で,クラスタリングアルゴリズムの入力として機能する新しい距離測度を導入する。 2009年から2020年までのs\&p指標の実証分析を行い,本手法のロバスト性を検証するためのcovid-19データについて検討した。 クラスタリングアルゴリズムとTDAを統合する戦略は,多様な市場シナリオにおいて,さまざまなパフォーマンス指標にまたがるスパースポートフォリオのパフォーマンスを著しく向上させた。

This paper uses topological data analysis (TDA) tools and introduces a data-driven clustering-based stock selection strategy tailored for sparse portfolio construction. Our asset selection strategy exploits the topological features of stock price movements to select a subset of topologically similar (different) assets for a sparse index tracking (Markowitz) portfolio. We introduce new distance measures, which serve as an input to the clustering algorithm, on the space of persistence diagrams and landscapes that consider the time component of a time series. We conduct an empirical analysis on the S\&P index from 2009 to 2020, including a study on the COVID-19 data to validate the robustness of our methodology. Our strategy to integrate TDA with the clustering algorithm significantly enhanced the performance of sparse portfolios across various performance measures in diverse market scenarios.
翻訳日:2024-01-31 15:19:16 公開日:2024-01-30
# 格子構造メタマテリアルの弾性に対するエネルギー保存同値gnn

Energy-conserving equivariant GNN for elasticity of lattice architected metamaterials ( http://arxiv.org/abs/2401.16914v1 )

ライセンス: Link先を確認
Ivan Grega, Ilyes Batatia, G\'abor Cs\'anyi, Sri Karlapati, Vikram S. Deshpande(参考訳) 格子は幾何学的設計に強く依存するメタマテリアルである。 格子とグラフの類似により、有限要素モデリングのような従来の手法に比べて高速な代理モデルとしてグラフニューラルネットワーク(GNN)が利用できる。 本研究では,周期的ストラット格子の4次剛性テンソルを予測するために,高次GNNモデルを提案する。 モデルの主な特徴は (i)SE(3)同値、及び (ii)エネルギー保存の熱力学的法則との整合性。 モデルと非同変モデルを比較し, 予測性能と学習条件の低減の観点から, 符号化等分散とエネルギー保存の利点を実証する。

Lattices are architected metamaterials whose properties strongly depend on their geometrical design. The analogy between lattices and graphs enables the use of graph neural networks (GNNs) as a faster surrogate model compared to traditional methods such as finite element modelling. In this work we present a higher-order GNN model trained to predict the fourth-order stiffness tensor of periodic strut-based lattices. The key features of the model are (i) SE(3) equivariance, and (ii) consistency with the thermodynamic law of conservation of energy. We compare the model to non-equivariant models based on a number of error metrics and demonstrate the benefits of the encoded equivariance and energy conservation in terms of predictive performance and reduced training requirements.
翻訳日:2024-01-31 15:19:00 公開日:2024-01-30
# XX-ハミルトニアンにより支配される均質閉鎖における一励起スピンダイナミクス

One-excitation spin dynamics in homogeneous closed chain governed by XX-Hamiltonian ( http://arxiv.org/abs/2401.16902v1 )

ライセンス: Link先を確認
E.B.Fel'dman, E.I.Kuznetsova, A.I.Zenchuk(参考訳) 鎖の任意の2つのスピン間の状態転移を記述する確率振幅の解析式を導出できるxxハミルトニアンの一励起ブロックの対角化により、一様閉スピン1/2鎖内の一励起スピンダイナミクスを解析的に研究する。 任意の初期状態を持つスピンダイナミクスの$m$-neighbor近似(m\ge 1$)を解析的に検討し、上記の確率振幅で定義される特殊積分特性を用いてその精度を解析する。 異なる長さの鎖に対する進化近似に必要な精度を提供する$M$が見つかる。

We analytically investigate the one-excitation spin dynamics in a homogeneous closed spin-1/2 chain via diagonalization of the one-excitation block of the XX-Hamiltonian, which allows to derive the analytical expressions for probability amplitudes describing state transfers between any two spins of a chain. We analytically investigate the $M$-neighbor approximation ($M\ge 1$) of spin dynamics with arbitrary initial state and analyze its accuracy using special integral characteristics defined in terms of the above probability amplitudes. We find $M$ providing the required accuracy of evolution approximation for chains of different lengths.
翻訳日:2024-01-31 15:18:44 公開日:2024-01-30
# 関連言語からの言語間移動:多言語コードスイッチングとしての低リソースマルタ処理

Cross-Lingual Transfer from Related Languages: Treating Low-Resource Maltese as Multilingual Code-Switching ( http://arxiv.org/abs/2401.16895v1 )

ライセンス: Link先を確認
Kurt Micallef, Nizar Habash, Claudia Borg, Fadhl Eryani, Houda Bouamor(参考訳) 多言語言語モデルは、未熟な言語で印象的な言語間転送能力を示すが、多言語モデルの事前学習データで使用される言語とスクリプトの相違がある場合、下流タスクのパフォーマンスは影響を受ける。 翻訳を使用することは、リソース豊富な言語のスクリプトをターゲット言語に整合させる、単純かつ効果的な手段を提供する。 しかし、混合言語では、言語の一部だけが言語間移動の恩恵を受け、残りは妨げられるため、このアプローチは準最適である。 この本では、アラビア語、イタリア語、英語から多大な影響を受け、特にラテン文字で書かれたセム語であるマルタ語に焦点を当てている。 単語レベルの語源を付加した新しいデータセットを提案する。 このデータセットを使用して分類器をトレーニングし、マルタ語における各トークンの適切な処理に関する情報決定を可能にする。 我々は、アラビア語起源の単語のみを翻訳する混合処理パイプラインと無差別な翻訳や翻訳を対比し、結果としてテキストとスクリプトの混合を生じさせる。 我々は,4つの下流タスクの処理データを微調整し,単語の語源に基づく条件翻訳が,非選択的パイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果をもたらすことを示す。

Although multilingual language models exhibit impressive cross-lingual transfer capabilities on unseen languages, the performance on downstream tasks is impacted when there is a script disparity with the languages used in the multilingual model's pre-training data. Using transliteration offers a straightforward yet effective means to align the script of a resource-rich language with a target language, thereby enhancing cross-lingual transfer capabilities. However, for mixed languages, this approach is suboptimal, since only a subset of the language benefits from the cross-lingual transfer while the remainder is impeded. In this work, we focus on Maltese, a Semitic language, with substantial influences from Arabic, Italian, and English, and notably written in Latin script. We present a novel dataset annotated with word-level etymology. We use this dataset to train a classifier that enables us to make informed decisions regarding the appropriate processing of each token in the Maltese language. We contrast indiscriminate transliteration or translation to mixing processing pipelines that only transliterate words of Arabic origin, thereby resulting in text with a mixture of scripts. We fine-tune the processed data on four downstream tasks and show that conditional transliteration based on word etymology yields the best results, surpassing fine-tuning with raw Maltese or Maltese processed with non-selective pipelines.
翻訳日:2024-01-31 15:18:02 公開日:2024-01-30
# 光ナノファイバー先端の導電モードへの量子ドットからの蛍光光子のチャネル化

Channeling of fluorescence photons from quantum dots into guided modes of an optical nanofiber tip ( http://arxiv.org/abs/2401.16891v1 )

ライセンス: Link先を確認
Resmi M, Elaganuru Bashaiah, and Ramachandrarao Yalla(参考訳) 我々は、量子ドット(QD)から光学ナノファイバー先端(ONFT)の誘導モードへの蛍光光子のチャネル化を実証する。 マイクロ/ナノ流体技術を用いてONFT上にQDを堆積する。 我々はONFTの誘導モードに流される蛍光光子の光子計数と発光スペクトルを測定した。 測定された放射スペクトルは、ONFT上のQDの沈着を確認する。 我々は,ONFTと単一双極子源(SDS)システムに対して,チャネル効率({\eta})を決定するための数値シミュレーションを行う。 OnFTの面の中心にある放射配向SDSでは,620nmの放射光に対するONFT半径0.71 {\mu}mに対応する7.16の繊維径パラメータで44%の値が得られた。 さらに,実験的曖昧性を維持するため,ONFTの面上の横方向のSDS位置依存性について検討した。 現在のファイバーインラインプラットフォームは、量子技術の新たな道を開くかもしれない。

We demonstrate the channeling of fluorescence photons from quantum dots (QDs) into guided modes of an optical nanofiber tip (ONFT). We deposit QDs on the ONFT using micro/nano fluidic technology. We measure the photon-counting and emission spectrum of fluorescence photons that are channeled into guided modes of the ONFT. The measured emission spectrum confirms the deposition of QDs on the ONFT. We perform numerical simulations to determine channeling efficiency ({\eta}) for the ONFT and a single dipole source (SDS) system. For the radially oriented SDS at the center of the facet of the ONFT, we found the maximum {\eta}-value of 44% at the fiber size parameter of 7.16, corresponding to the ONFT radius of 0.71 {\mu}m for the emission wavelength at 620 nm. Additionally, we investigate the SDS position dependence in transverse directions on the facet of the ONFT in view of keeping experimental ambiguities. The present fiber inline platform may open new avenues in quantum technologies.
翻訳日:2024-01-31 15:17:33 公開日:2024-01-30
# ブラックホールファイアウォールと量子力学

Black Hole Firewalls and Quantum Mechanics ( http://arxiv.org/abs/2401.16890v1 )

ライセンス: Link先を確認
Gerard t Hooft(参考訳) ブラックホールのファイアウォールは、一様進化法則とともに、時間反転不変性を示唆することによって理解し易い。 最善のアプローチは、ブラックホールの期間を短い期間に分割し、その間にファイアウォールをいかなるオブザーバーでも検出できないようにすることだ。 その後の期間をつなぐと、ファイアウォールが現れるように思えるが、それらは常に変換される。 ブラックホールから離れた粒子が無視されている限り、常に有限次元のヒルベルト空間が必要である。 我々の結論は、他の発見、特にStrauss と Whiting による最近の論文と矛盾する。 実際、ファイアウォール変換は、非常に初期と後期の粒子と外側の粒子の絡み合いを、極端に自明な方法で取り除く。

Firewalls in black holes are easiest to understand by imposing time reversal invariance, together with a unitary evolution law. The best approach seems to be to split up the time span of a black hole into short periods, during which no firewalls can be detected by any observer. Then, gluing together subsequent time periods, firewalls seem to appear, but they can always be transformed away. At all times we need a Hilbert space of a finite dimension, as long as particles far separated from the black hole are ignored. Our conclusion contradicts other findings, particularly a recent paper by Strauss and Whiting. Indeed, the firewall transformation removes the entanglement between very early and very late in- and out-particles, in a far-from-trivial way.
翻訳日:2024-01-31 15:16:44 公開日:2024-01-30
# 高分解能画像データセットの分類のための逆ロバスト性をもつ量子伝達学習

Quantum Transfer Learning with Adversarial Robustness for Classification of High-Resolution Image Datasets ( http://arxiv.org/abs/2401.17009v1 )

ライセンス: Link先を確認
Amena Khatun and Muhammad Usman(参考訳) 量子機械学習を大規模高解像度画像データセットに適用することは、量子ビット数の制限と、量子デバイスの現世代の比較的高いノイズのため、まだ不可能である。 本研究では、量子変動回路と、ImageNetデータセット上に事前トレーニングされた古典的機械学習ネットワークを統合する量子トランスファーラーニング(QTL)アーキテクチャを提案する。 我々は、Ants & Bees、CIFAR-10、Road Sign Detectionなどのさまざまな画像データセットに対するシステマティックなシミュレーションを通じて、転移学習を伴わずに古典的および量子機械学習に対するQTLアプローチの優れた性能を実証する。 さらに,QTL手法がデータ操作攻撃に対して逆向きに頑健であり,古典的手法よりも優れていたことを確認し,QTLアーキテクチャの対角的堅牢性を評価する。

The application of quantum machine learning to large-scale high-resolution image datasets is not yet possible due to the limited number of qubits and relatively high level of noise in the current generation of quantum devices. In this work, we address this challenge by proposing a quantum transfer learning (QTL) architecture that integrates quantum variational circuits with a classical machine learning network pre-trained on ImageNet dataset. Through a systematic set of simulations over a variety of image datasets such as Ants & Bees, CIFAR-10, and Road Sign Detection, we demonstrate the superior performance of our QTL approach over classical and quantum machine learning without involving transfer learning. Furthermore, we evaluate the adversarial robustness of QTL architecture with and without adversarial training, confirming that our QTL method is adversarially robust against data manipulation attacks and outperforms classical methods.
翻訳日:2024-01-31 15:08:58 公開日:2024-01-30
# チャープ電場における対生成に対する非対称パルス効果

Asymmetric pulse effects on pair production in chirped electric fields ( http://arxiv.org/abs/2401.17007v1 )

ライセンス: Link先を確認
Neng-Zhi Chen, Orkash Amat, Li-Na Hu, Hong-Hao Fan, and Bai-Song Xie(参考訳) 実時間dirac-heisenberg-wigner形式によるチャープフリー,小周波チャープ,大周波チャープフィールドの3つの異なる分野における電子-ポジトロン対生成に対する非対称パルス形状の影響について検討した。 その結果, パルス長が短い干渉効果の消失が明らかとなり, ピークは運動量スペクトルの左側に集中していることがわかった。 パルス長が長くなると、運動量スペクトルに不完全な多重リング構造が現れる。 粒子の数密度はパルスの非対称性に非常に敏感である。 長い降下パルスでは、特定の周波数チャープを使用する場合、数密度を4桁以上大きくすることができる。 これらの結果は, 効果的な動的補助機構と周波数チャープがペア生成に与える影響を明らかにする。

We investigate the effects of the asymmetric pulse shapes on electron-positron pair production in three distinct fields: chirp-free, small frequency chirp, and large frequency chirp fields via the real-time Dirac-Heisenberg-Wigner formalism. Our findings reveal the disappearance of interference effects with shorter falling pulse length, and the peak is concentrated on the left side of the momentum spectrum. As the falling pulse length extends, an incomplete multi-ring structure appears in the momentum spectrum. The number density of particles are very sensitive to the asymmetry of the pulse. With a long falling pulse, the number density can be significantly enhanced by over four orders of magnitude when certain frequency chirps are utilized. These results highlight the impact of the effective dynamically assisted mechanism and the frequency chirp on pair creation.
翻訳日:2024-01-31 15:08:42 公開日:2024-01-30
# 次元仮定による量子計算の古典的証明

Classical certification of quantum computation under the dimension assumption ( http://arxiv.org/abs/2401.17006v1 )

ライセンス: Link先を確認
Jan N\"oller, Nikolai Miklin, Martin Kliesch, Mariami Gachechiladze(参考訳) 量子コンピューティングコンポーネントの認証は、量子ハードウェアの改善と量子アルゴリズムの校正に不可欠である。 本研究では,黒箱シナリオにおける単一量子ビット量子計算を次元仮定で証明する効率的な手法を提案する。 本手法は、所定のゲート列に対する量子計算の決定論的結果をテストすることに基づく。 量子ゲートは入力-出力相関に基づいて認証され、補助システムは不要である。 単一量子普遍ゲート集合は、平均ゲート不忠実度$\varepsilon$に対してO($\varepsilon^{-1}$)として必要とされるサンプルの複雑さが増大するSゲートの詳細な証明と解析を行うことができることを示す。 我々のアプローチは、自己検証から証明の強い概念と、量子システムの特徴から実際に高い関連性を持つアプローチのギャップを埋める第一歩を踏み出す。

Certification of quantum computing components can be crucial for quantum hardware improvements and the calibration of quantum algorithms. In this work, we propose an efficient method for certifying single-qubit quantum computation in a black-box scenario under the dimension assumption. The method is based on testing deterministic outcomes of quantum computation for predetermined gate sequences. Quantum gates are certified based on input-output correlations, with no auxiliary systems required. We show that a single-qubit universal gate set can be certified and analyze in detail certification of the S gate, for which the required sample complexity grows as O($\varepsilon^{-1}$) with respect to the average gate infidelity $\varepsilon$. Our approach takes a first step in bridging the gap between strong notions of certification from self-testing and practically highly relevant approaches from quantum system characterization.
翻訳日:2024-01-31 15:08:29 公開日:2024-01-30
# カテゴリーワイドファインチューニング:部分ラベルを用いた複数ラベル画像分類における不正確な擬似ラベルの残留

Category-wise Fine-Tuning: Resisting Incorrect Pseudo-Labels in Multi-Label Image Classification with Partial Labels ( http://arxiv.org/abs/2401.16991v1 )

ライセンス: Link先を確認
Chak Fong Chong, Xinyi Fang, Jielong Guo, Yapeng Wang, Wei Ke, Chan-Tong Lam, Sio-Kei Im(参考訳) 大規模な画像データセットは部分的にラベル付けされることが多く、それぞれの画像についてカテゴリのラベルしか知られていない。 未知ラベルに擬似ラベルを割り当てて追加のトレーニング信号を取得することは、深層分類モデルのトレーニングに広く使われている。 しかし、いくつかの擬似ラベルは必然的に誤りであり、モデルの分類性能が著しく低下する。 本稿では,誤った擬似ラベルによるモデル不正確性を低減することを目的とした,カテゴリワイズ微調整(cft)と呼ばれる新しい手法を提案する。 特に、CFTは擬似ラベルのない既知のラベルを用いて、訓練されたモデルのロジスティック回帰を個別に微調整し、各カテゴリのモデル予測を校正する。 深層モデルのトレーニングにはほとんど使われない遺伝的アルゴリズムは、分類性能を直接最大化するためにCFTでも使用される。 CFTは、スクラッチからモデルを訓練する既存の方法とは異なり、よく訓練されたモデルに適用される。 したがって、CFTは様々な手法やスキームで訓練されたモデルと互換性があり、広範な実験を通じて実証されている。 CFTは、コンシューマグレードのGPUでキャリブレーションを行うために、各カテゴリに数秒しか必要としない。 3つのベンチマークデータセット(chexpert chest x-ray competition dataset (ensemble mauc 93.33%, single model 91.82%), 部分的にラベル付けされたms-coco (平均写像83.69%), open image v3 (マップ85.31%), それぞれ0.28%, 2.21%, 2.50%, 0.91%) を上回った。 CheXpertのシングルモデルは、競合サーバによって公式に評価され、結果の正確性を支持している。 卓越した結果と一般化可能性から, CFT は分類モデル開発に有効であることが示唆された。 コードは以下の通り。 https://github.com/maxium0526/category-wise-fine-tuning。

Large-scale image datasets are often partially labeled, where only a few categories' labels are known for each image. Assigning pseudo-labels to unknown labels to gain additional training signals has become prevalent for training deep classification models. However, some pseudo-labels are inevitably incorrect, leading to a notable decline in the model classification performance. In this paper, we propose a novel method called Category-wise Fine-Tuning (CFT), aiming to reduce model inaccuracies caused by the wrong pseudo-labels. In particular, CFT employs known labels without pseudo-labels to fine-tune the logistic regressions of trained models individually to calibrate each category's model predictions. Genetic Algorithm, seldom used for training deep models, is also utilized in CFT to maximize the classification performance directly. CFT is applied to well-trained models, unlike most existing methods that train models from scratch. Hence, CFT is general and compatible with models trained with different methods and schemes, as demonstrated through extensive experiments. CFT requires only a few seconds for each category for calibration with consumer-grade GPUs. We achieve state-of-the-art results on three benchmarking datasets, including the CheXpert chest X-ray competition dataset (ensemble mAUC 93.33%, single model 91.82%), partially labeled MS-COCO (average mAP 83.69%), and Open Image V3 (mAP 85.31%), outperforming the previous bests by 0.28%, 2.21%, 2.50%, and 0.91%, respectively. The single model on CheXpert has been officially evaluated by the competition server, endorsing the correctness of the result. The outstanding results and generalizability indicate that CFT could be substantial and prevalent for classification model development. Code is available at: https://github.com/maxium0526/category-wise-fine-tuning.
翻訳日:2024-01-31 15:08:12 公開日:2024-01-30
# 開発支援の費用対効果配分のための因果機械学習

Causal Machine Learning for Cost-Effective Allocation of Development Aid ( http://arxiv.org/abs/2401.16986v1 )

ライセンス: Link先を確認
Milan Kuzmanovic, Dennis Frauen, Tobias Hatt, Stefan Feuerriegel(参考訳) 国連の持続可能な開発目標(sdgs)は「誰も背後にいない」ことでより良い未来の青写真を提供し、2030年までには貧しい国は膨大な開発援助を必要としている。 そこで本稿では, 補助金の異種処理効果を予測し, 効果的な援助配分を知らせるための因果的機械学習フレームワークを開発した。 具体的には、3つのコンポーネントで構成されています。 一 処理選択バイアスに対処しつつ、表現学習を用いて高次元国の特徴を埋め込むバランスオートエンコーダ 二 小さなサンプルサイズの設定に対処するため、各種援助ボリュームの対実結果を算出する反実生成装置 (iii)不均質な処理-応答曲線の予測に用いられる推論モデル。 我々は,105か国でHIV/AIDSを終了するための公式な開発支援データを用いて,この枠組みの有効性を実証した。 そこで本研究では, 半合成データを用いた不均一処理応答曲線の計算に成功していることを示す。 そして、実世界のHIVデータを用いて、我々のフレームワークを実証する。 我々のフレームワークは、より効果的なエイズアロケーションのための大きな機会を示しており、現在のアロケーションプラクティスと比較して、新しいhiv感染の総数を最大3.3%(約50,000例)削減できることを示唆している。

The Sustainable Development Goals (SDGs) of the United Nations provide a blueprint of a better future by 'leaving no one behind', and, to achieve the SDGs by 2030, poor countries require immense volumes of development aid. In this paper, we develop a causal machine learning framework for predicting heterogeneous treatment effects of aid disbursements to inform effective aid allocation. Specifically, our framework comprises three components: (i) a balancing autoencoder that uses representation learning to embed high-dimensional country characteristics while addressing treatment selection bias; (ii) a counterfactual generator to compute counterfactual outcomes for varying aid volumes to address small sample-size settings; and (iii) an inference model that is used to predict heterogeneous treatment-response curves. We demonstrate the effectiveness of our framework using data with official development aid earmarked to end HIV/AIDS in 105 countries, amounting to more than USD 5.2 billion. For this, we first show that our framework successfully computes heterogeneous treatment-response curves using semi-synthetic data. Then, we demonstrate our framework using real-world HIV data. Our framework points to large opportunities for a more effective aid allocation, suggesting that the total number of new HIV infections could be reduced by up to 3.3% (~50,000 cases) compared to the current allocation practice.
翻訳日:2024-01-31 15:07:34 公開日:2024-01-30
# ActDroid: Androidマルウェア検出のためのアクティブな学習フレームワーク

ActDroid: An active learning framework for Android malware detection ( http://arxiv.org/abs/2401.16982v1 )

ライセンス: Link先を確認
Ali Muzaffar, Hani Ragab Hassen, Hind Zantout, Michael A Lones(参考訳) Androidの人気が高まっているため、新しいソフトウェアのリリースペースに追従できるマルウェア検出システムが必要である。 最近の研究によると、新しいマルウェアが12秒ごとにオンラインに現れる。 これに対処するために,我々は,androidのマルウェア検出をストリーミングデータ問題として扱い,アクティブオンライン学習を,タイムリーで費用対効果の高いアプリケーションラベリング問題を軽減する手段として利用することを検討する。 得られたフレームワークは、最大96 %の精度を実現し、ラベル付けするトレーニングデータの24 %しか必要とせず、アプリケーションのリリースとラベル付けの間に発生するコンセプトドリフトを補償します。 また,android マルウェア検出におけるオンライン学習のより広範な実用性を検討し,異なる静的,動的,ハイブリッド機能セットによるマルウェア分類のトレードオフを体系的に検討する。

The growing popularity of Android requires malware detection systems that can keep up with the pace of new software being released. According to a recent study, a new piece of malware appears online every 12 seconds. To address this, we treat Android malware detection as a streaming data problem and explore the use of active online learning as a means of mitigating the problem of labelling applications in a timely and cost-effective manner. Our resulting framework achieves accuracies of up to 96\%, requires as little of 24\% of the training data to be labelled, and compensates for concept drift that occurs between the release and labelling of an application. We also consider the broader practicalities of online learning within Android malware detection, and systematically explore the trade-offs between using different static, dynamic and hybrid feature sets to classify malware.
翻訳日:2024-01-31 15:07:10 公開日:2024-01-30
# 深層学習法を用いたIACT画像からのガンマ事象の選択

Selection of gamma events from IACT images with deep learning methods ( http://arxiv.org/abs/2401.16981v1 )

ライセンス: Link先を確認
E. O. Gres, A. P. Kryukov, A. P. Demichev, J. J. Dubenskaya, S. P. Polyakov, A. A. Vlaskina, D. P. Zhurov(参考訳) ガンマ線観測所TAIGAの大気チェレンコフ望遠鏡(IACTs)は、宇宙線やガンマ線が大気と相互作用することに由来するエクステニブ・エア・ショウア(EASs)を検出する。 これにより、望遠鏡はEASの画像を取得する。 ハドロン宇宙線背景からガンマ線画像を分離する能力は、この種の検出器の主な特徴の1つである。 しかし、実際のIACT観測では、背景とガンマ線源の同時観測が必要である。 この観察モード(ウォブリングと呼ばれる)は、ニューラルネットワークによる選択の質に影響を与えるイベントの画像を変更する。 そこで本研究では,TAIGA-IACTのモンテカルロ(MC)画像における画像分類タスクに対するニューラルネットワーク(NN)の適用結果について述べる。 編み込みモードは, 画像適応と合わせて, NNによる適切な解析を行う。 同時に,画像から直接,あるいは画像から抽出したヒラスパラメータを通じてイベントを分類する,複数のニューラルネットワーク構造を探索する。 また、nnsを用いて、必要な画像修正を考慮し、希少なガンマ事象の分離の品質を評価するためにmcシミュレーションデータを用いる。

Imaging Atmospheric Cherenkov Telescopes (IACTs) of gamma ray observatory TAIGA detect the Extesnive Air Showers (EASs) originating from the cosmic or gamma rays interactions with the atmosphere. Thereby, telescopes obtain images of the EASs. The ability to segregate gamma rays images from the hadronic cosmic ray background is one of the main features of this type of detectors. However, in actual IACT observations simultaneous observation of the background and the source of gamma ray is needed. This observation mode (called wobbling) modifies images of events, which affects the quality of selection by neural networks. Thus, in this work, the results of the application of neural networks (NN) for image classification task on Monte Carlo (MC) images of TAIGA-IACTs are presented. The wobbling mode is considered together with the image adaptation for adequate analysis by NNs. Simultaneously, we explore several neural network structures that classify events both directly from images or through Hillas parameters extracted from images. In addition, by employing NNs, MC simulation data are used to evaluate the quality of the segregation of rare gamma events with the account of all necessary image modifications.
翻訳日:2024-01-31 15:06:53 公開日:2024-01-30
# 左利きメタマテリアル伝送路における粒子生成

Particle creation in left-handed metamaterial transmission lines ( http://arxiv.org/abs/2401.16976v1 )

ライセンス: Link先を確認
Alessandro Ferreri and Frank K. Wilhelm(参考訳) 伝送線は量子場の量子シミュレータの優れた例である。 特定の回路素子を適切に駆動することにより、これらのデバイスは量子真空の非断熱刺激による粒子生成のような量子相対論的効果を再現することができる。 本稿では,左利きメタマテリアル伝送線路(LHTL)の粒子生成について検討する。 以上の結果から,LHTLにおける粒子生成は,通常の右利き伝送線(RHTL)に対して,より良好な条件で発生することが明らかとなった。

Transmission lines are excellent examples of quantum simulators of quantum fields. By properly driving specific circuit elements, these devices can reproduce quantum relativistic effects such as the particle creation due to the non-adiabatic stimulation of the quantum vacuum. In this letter, we investigate the particle creation in left-handed metamaterial transmission lines (LHTLs). Our results show that, due to the peculiar dispersion relations, the particle production in LHTLs occurs with much more favorable conditions with respect to the usual right-handed transmission lines (RHTL).
翻訳日:2024-01-31 15:06:36 公開日:2024-01-30
# CORE: 強化学習によるスケーラブルで効率的な因果発見を目指す

CORE: Towards Scalable and Efficient Causal Discovery with Reinforcement Learning ( http://arxiv.org/abs/2401.16974v1 )

ライセンス: Link先を確認
Andreas W.M. Sauter, Nicol\`o Botteghi, Erman Acar, Aske Plaat(参考訳) 因果発見は、データから因果構造を推測する難しいタスクである。 受動的観察だけでは因果関係と因果関係の区別が不十分であることを示すパールの因果階層(pch)に動機づけられた最近の研究は、機械学習研究に介入を組み込もうとしている。 強化学習は、このようなアクティブな学習アプローチのための便利なフレームワークを提供する。 本稿では、因果発見と介入計画のための深層強化学習に基づくアプローチであるCOREを提案する。 COREはデータから因果グラフを逐次再構築し、情報的介入を学習する。 その結果,COREは未知のグラフに一般化し,因果構造を効率的に発見できることがわかった。 さらに、COREは最大10変数のグラフにスケールし、構造推定精度とサンプル効率において既存のアプローチより優れている。 すべての関連コードと追加資料はhttps://github.com/sa-and/COREで確認できる。

Causal discovery is the challenging task of inferring causal structure from data. Motivated by Pearl's Causal Hierarchy (PCH), which tells us that passive observations alone are not enough to distinguish correlation from causation, there has been a recent push to incorporate interventions into machine learning research. Reinforcement learning provides a convenient framework for such an active approach to learning. This paper presents CORE, a deep reinforcement learning-based approach for causal discovery and intervention planning. CORE learns to sequentially reconstruct causal graphs from data while learning to perform informative interventions. Our results demonstrate that CORE generalizes to unseen graphs and efficiently uncovers causal structures. Furthermore, CORE scales to larger graphs with up to 10 variables and outperforms existing approaches in structure estimation accuracy and sample efficiency. All relevant code and supplementary material can be found at https://github.com/sa-and/CORE
翻訳日:2024-01-31 15:06:28 公開日:2024-01-30
# 光流超解像のための深部3次元世界モデル

Deep 3D World Models for Multi-Image Super-Resolution Beyond Optical Flow ( http://arxiv.org/abs/2401.16972v1 )

ライセンス: Link先を確認
Luca Savant Aira, Diego Valsesia, Andrea Bordone Molini, Giulia Fracastoro, Enrico Magli, Andrea Mirabile(参考訳) マルチイメージ・スーパーレゾリューション(MISR)は、シーンサンプリングにおけるサブピクセルオフセットの形で補完情報を運ぶ複数の画像を組み合わせることで、低解像度(LR)取得の空間分解能を高めることができ、シングルイメージよりもはるかに効果的である。 その主な難しさは、マルチイメージ情報の正確な登録と融合である。 現在研究されているバースト写真のような設定は、通常、LR画像間の小さな幾何学的差異を仮定し、画像登録に光学的フローに依存する。 任意かつ潜在的に異なるカメラ位置と向きで取得された画像の集合の分解能を向上させるMISR法について検討し、現在研究中のMISR設定を一般化する。 提案するモデルであるEpiMISRは、光学的フローから脱却し、取得プロセスのエピポーラ幾何学と、ラジアンス特徴場のトランスフォーマに基づく処理を併用して、LR画像に大きな相違がある場合の最先端MISR法を大幅に改善する。

Multi-image super-resolution (MISR) allows to increase the spatial resolution of a low-resolution (LR) acquisition by combining multiple images carrying complementary information in the form of sub-pixel offsets in the scene sampling, and can be significantly more effective than its single-image counterpart. Its main difficulty lies in accurately registering and fusing the multi-image information. Currently studied settings, such as burst photography, typically involve assumptions of small geometric disparity between the LR images and rely on optical flow for image registration. We study a MISR method that can increase the resolution of sets of images acquired with arbitrary, and potentially wildly different, camera positions and orientations, generalizing the currently studied MISR settings. Our proposed model, called EpiMISR, moves away from optical flow and explicitly uses the epipolar geometry of the acquisition process, together with transformer-based processing of radiance feature fields to substantially improve over state-of-the-art MISR methods in presence of large disparities in the LR images.
翻訳日:2024-01-31 15:06:15 公開日:2024-01-30
# 架空の声の識別:引用帰属のための著者性検証モデルの研究

Distinguishing Fictional Voices: a Study of Authorship Verification Models for Quotation Attribution ( http://arxiv.org/abs/2401.16968v1 )

ライセンス: Link先を確認
Gaspard Michel, Elena V. Epure, Romain Hennequin, Christophe Cerisara(参考訳) 近年, 直接発話の話者を自動的に検出する手法は, 実体の周囲の言及など, 文脈に現れる局所的な情報に有利な文字に関する一般情報を無視していることが多い。 そこで,本研究では,本書の引用文を英語小説のコーパス(プロジェクト対話主義小説コーパス)に予め学習した著者シップ検証モデルでエンコードすることで,文字のスタイル的表現を探索する。 以上の結果から,これらのモデルの一部で捉えたスタイリスティックな情報とトピック的な情報の組み合わせは,文字を正確に区別するが,引用の帰属時に意味のみのモデルよりも必ずしも改善されないことが示唆された。 しかし、これらの結果は小説によって異なっており、特に文体に合わせたスタイルモデルのさらなる調査や文字の研究が求められる。

Recent approaches to automatically detect the speaker of an utterance of direct speech often disregard general information about characters in favor of local information found in the context, such as surrounding mentions of entities. In this work, we explore stylistic representations of characters built by encoding their quotes with off-the-shelf pretrained Authorship Verification models in a large corpus of English novels (the Project Dialogism Novel Corpus). Results suggest that the combination of stylistic and topical information captured in some of these models accurately distinguish characters among each other, but does not necessarily improve over semantic-only models when attributing quotes. However, these results vary across novels and more investigation of stylometric models particularly tailored for literary texts and the study of characters should be conducted.
翻訳日:2024-01-31 15:05:52 公開日:2024-01-30
# 深層ハイブリッド古典量子貯留層計算による過去の量子特性の解明

Retrieving past quantum features with deep hybrid classical-quantum reservoir computing ( http://arxiv.org/abs/2401.16961v1 )

ライセンス: Link先を確認
Johannes Nokkala, Gian Luca Giorgi, and Roberta Zambrini(参考訳) 近年、機械学習技術は目覚ましい成果を上げており、量子物理学の力を利用する可能性も、古典的な学習方法の高速化に新たな有望な道を開く。 古典的および量子的アプローチを排他的な代替品として見るのではなく、変分量子アルゴリズム、量子回路学習、カーネル法など、ハイブリッド設計への統合が関心を集めている。 本稿では,例えば,過去の入力状態の絡み合いや純度といった情報を取り出すことができる量子状態の時間的処理のための,深いハイブリッド古典量子貯水池計算を提案する。 2つの貯水池をカスケードするハイブリッド設備は、両者の強度を継承するだけでなく、その部分の総和以上のものとなり、同等の非ハイブリッドな代替品よりも優れている。 量子層は最先端のマルチモード量子光学プラットフォームの範囲内にあり、古典層はシリコで実装できる。

Machine learning techniques have achieved impressive results in recent years and the possibility of harnessing the power of quantum physics opens new promising avenues to speed up classical learning methods. Rather than viewing classical and quantum approaches as exclusive alternatives, their integration into hybrid designs has gathered increasing interest, as seen in variational quantum algorithms, quantum circuit learning, and kernel methods. Here we introduce deep hybrid classical-quantum reservoir computing for temporal processing of quantum states where information about, for instance, the entanglement or the purity of past input states can be extracted via a single-step measurement. We find that the hybrid setup cascading two reservoirs not only inherits the strengths of both of its constituents but is even more than just the sum of its parts, outperforming comparable non-hybrid alternatives. The quantum layer is within reach of state-of-the-art multimode quantum optical platforms while the classical layer can be implemented in silico.
翻訳日:2024-01-31 15:05:36 公開日:2024-01-30
# 知識グラフとエンティティアライメントのための大規模言語モデルから知識を統合する2つの頭

Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment ( http://arxiv.org/abs/2401.16960v1 )

ライセンス: Link先を確認
Linyao Yang and Hongyang Chen and Xiao Wang and Jing Yang and Fei-Yue Wang and Han Liu(参考訳) エンティティアライメントは、より包括的な知識グラフ(kg)を作成するための前提条件であり、異なるkg間で同等のエンティティを特定できる。 エンティティアライメントのための現代の手法は、様々な類似性(構造的、リレーショナル、帰属的)をカプセル化したエンティティ埋め込みに知識埋め込みモデルを主に利用してきた。 これらの埋め込みは、注意に基づく情報融合機構を通じて統合される。 この進歩にもかかわらず、本質的に異質性のため、効果的に多面的情報を活用することは困難である。 さらに、LLM(Large Language Models)は、エンティティのセマンティクスを暗黙的にキャプチャすることで、さまざまな下流タスクにまたがる例外的なパフォーマンスを示したが、この暗黙の知識は、エンティティのアライメントにはまだ利用されていない。 本研究では,Large Language Model-enhanced Entity Alignment framework (LLMEA)を提案する。 具体的には、LLMEAは、あるエンティティの候補アライメントを、KG間でのエンティティ間の類似性を埋め込むことと、仮想等価エンティティへの編集距離の両方を考慮して特定する。 その後、LLMを反復的に実行し、複数の選択質問を行い、LLMの推論能力を引き出す。 等価実体の最終的な予測は LLM の出力から導かれる。 3つの公開データセットで実施された実験により、LLMEAが主要なベースラインモデルを上回ることが判明した。 追加のアブレーション研究は,提案フレームワークの有効性を裏付けるものである。

Entity alignment, which is a prerequisite for creating a more comprehensive Knowledge Graph (KG), involves pinpointing equivalent entities across disparate KGs. Contemporary methods for entity alignment have predominantly utilized knowledge embedding models to procure entity embeddings that encapsulate various similarities-structural, relational, and attributive. These embeddings are then integrated through attention-based information fusion mechanisms. Despite this progress, effectively harnessing multifaceted information remains challenging due to inherent heterogeneity. Moreover, while Large Language Models (LLMs) have exhibited exceptional performance across diverse downstream tasks by implicitly capturing entity semantics, this implicit knowledge has yet to be exploited for entity alignment. In this study, we propose a Large Language Model-enhanced Entity Alignment framework (LLMEA), integrating structural knowledge from KGs with semantic knowledge from LLMs to enhance entity alignment. Specifically, LLMEA identifies candidate alignments for a given entity by considering both embedding similarities between entities across KGs and edit distances to a virtual equivalent entity. It then engages an LLM iteratively, posing multiple multi-choice questions to draw upon the LLM's inference capability. The final prediction of the equivalent entity is derived from the LLM's output. Experiments conducted on three public datasets reveal that LLMEA surpasses leading baseline models. Additional ablation studies underscore the efficacy of our proposed framework.
翻訳日:2024-01-31 15:05:18 公開日:2024-01-30
# 重力場の影響による円筒体の弾性変形について

On elastic deformations of cylindrical bodies under the influence of the gravitational field ( http://arxiv.org/abs/2401.16949v1 )

ライセンス: Link先を確認
Hamed Barzegar, Piotr T. Chru\'sciel, Florian Steininger(参考訳) 様々な重力場における変位に起因する円筒弾性体の変形を解析した。

We analyse the deformations of a cylindrical elastic body resulting from displacements in a varying gravitational field.
翻訳日:2024-01-31 15:04:49 公開日:2024-01-30
# グレースフルインタラクションに向けた行動の取組み:指示明確化要求のモデル化における行動の効果

Taking Action Towards Graceful Interaction: The Effects of Performing Actions on Modelling Policies for Instruction Clarification Requests ( http://arxiv.org/abs/2401.17039v1 )

ライセンス: Link先を確認
Brielen Madureira, David Schlangen(参考訳) 明確化要求(Clarification request)は、指示追従相互作用におけるあいまいさや不明瞭さによるコミュニケーション問題の解決を支援するメカニズムである。 その重要性にもかかわらず、細やかなモデルでさえ、このような修理行為の生成や解釈に苦労している。 本研究は,iCR政策のモデル化における補助課題として,アクションテイクの効果に関する3つの仮説を検証した。 当初の期待に反して, icr政策の学習への貢献は限定的であるが, 予測の不確実性から抽出できる情報もあると結論づけた。 我々はさらに,動機づけのよいトランスフォーマーモデルでさえ,いつ命令crs(icrs)を問うかという適切な方針を学習できないこと,そして何を問うかを決定する作業がよりうまくモデル化できることを示す。 これらの結果から,メタコミュニケーション行為の学習におけるデータ駆動パラダイムの欠点について考察する。

Clarification requests are a mechanism to help solve communication problems, e.g. due to ambiguity or underspecification, in instruction-following interactions. Despite their importance, even skilful models struggle with producing or interpreting such repair acts. In this work, we test three hypotheses concerning the effects of action taking as an auxiliary task in modelling iCR policies. Contrary to initial expectations, we conclude that its contribution to learning an iCR policy is limited, but some information can still be extracted from prediction uncertainty. We present further evidence that even well-motivated, Transformer-based models fail to learn good policies for when to ask Instruction CRs (iCRs), while the task of determining what to ask about can be more successfully modelled. Considering the implications of these findings, we further discuss the shortcomings of the data-driven paradigm for learning meta-communication acts.
翻訳日:2024-01-31 14:57:55 公開日:2024-01-30
# SAR ATRの可逆性評価に向けて

Towards Assessing the Synthetic-to-Measured Adversarial Vulnerability of SAR ATR ( http://arxiv.org/abs/2401.17038v1 )

ライセンス: Link先を確認
Bowen Peng, Bo Peng, Jingyuan Xia, Tianpeng Liu, Yongxiang Liu, Li Liu(参考訳) 近年、ディープニューラルネットワーク(DNN)をベースとした合成開口レーダ(SAR)による敵攻撃に対する自動目標認識(ATR)の脆弱性に対する懸念が高まっている。 本稿では,合成データのみに基づいて攻撃者が敵対的摂動を生成し,測定データを用いて訓練した被害者モデルに伝達する合成-測定(s2m)伝達設定について検討する。 現在測定されているM2M転送設定と比較して,本手法では被害者モデルやSARデータに直接アクセスする必要がない。 また, この難易度の高いシナリオにおいて, 敵のリスクを明らかにするために, 転送可能性推定攻撃(TEA)を提案する。 TEAは、S2M転送可能性のブラインド推定と最適化のために、合成データと測定データペアの限られた類似性をフル活用し、犠牲者モデルとデータをマスターすることなく、サロゲートモデルの強化を可能にする。 SAMPLE(Synthetic and measured paired labeled experiment)データセットに基づく総合評価では、TAAは最先端の手法よりも優れており、コンピュータビジョンやリモートセンシングアプリケーションにおける様々な攻撃アルゴリズムを大幅に向上させることができる。 コードとデータはhttps://github.com/scenarri/s2m-teaで入手できる。

Recently, there has been increasing concern about the vulnerability of deep neural network (DNN)-based synthetic aperture radar (SAR) automatic target recognition (ATR) to adversarial attacks, where a DNN could be easily deceived by clean input with imperceptible but aggressive perturbations. This paper studies the synthetic-to-measured (S2M) transfer setting, where an attacker generates adversarial perturbation based solely on synthetic data and transfers it against victim models trained with measured data. Compared with the current measured-to-measured (M2M) transfer setting, our approach does not need direct access to the victim model or the measured SAR data. We also propose the transferability estimation attack (TEA) to uncover the adversarial risks in this more challenging and practical scenario. The TEA makes full use of the limited similarity between the synthetic and measured data pairs for blind estimation and optimization of S2M transferability, leading to feasible surrogate model enhancement without mastering the victim model and data. Comprehensive evaluations based on the publicly available synthetic and measured paired labeled experiment (SAMPLE) dataset demonstrate that the TEA outperforms state-of-the-art methods and can significantly enhance various attack algorithms in computer vision and remote sensing applications. Codes and data are available at https://github.com/scenarri/S2M-TEA.
翻訳日:2024-01-31 14:57:38 公開日:2024-01-30
# ノイズフリー観測によるベイズ最適化:ランダム探索によるレグレト境界の改善

Bayesian Optimization with Noise-Free Observations: Improved Regret Bounds via Random Exploration ( http://arxiv.org/abs/2401.17037v1 )

ライセンス: Link先を確認
Hwanwoo Kim and Daniel Sanz-Alonso(参考訳) 本稿では,ノイズのない観測によるベイズ最適化について述べる。 我々は,クエリポイントの補間距離がほぼ最適速度で減衰することを保証するために,ランダムな探索ステップに依存する分散データ近似に根ざした新しいアルゴリズムを導入する。 提案アルゴリズムは,従来のGP-UCBアルゴリズムの実装の容易さを保ち,arXiv:2002.05096の予測にほぼ一致する累積的後悔境界を満たす。 さらに,GP-UCBなどのベイズ最適化手法をいくつかの例で比較した。

This paper studies Bayesian optimization with noise-free observations. We introduce new algorithms rooted in scattered data approximation that rely on a random exploration step to ensure that the fill-distance of query points decays at a near-optimal rate. Our algorithms retain the ease of implementation of the classical GP-UCB algorithm and satisfy cumulative regret bounds that nearly match those conjectured in arXiv:2002.05096, hence solving a COLT open problem. Furthermore, the new algorithms outperform GP-UCB and other popular Bayesian optimization strategies in several examples.
翻訳日:2024-01-31 14:57:13 公開日:2024-01-30
# バイナリ分類性能における内在的データ制約と上限

Intrinsic Data Constraints and Upper Bounds in Binary Classification Performance ( http://arxiv.org/abs/2401.17036v1 )

ライセンス: Link先を確認
Fei Jing, Zi-Ke Zhang and Qingpeng Zhang(参考訳) データ組織の構造は、特に二分分類タスクにおいて、機械学習アルゴリズムの有効性に大きな影響を与えると広く認識されている。 我々の研究は、与えられたデータセット上のバイナリ分類器の最大ポテンシャルは、データ固有の性質に主に制約されていることを示唆する理論的枠組みを提供する。 理論的推論と経験的検証の両面で,2つの主要な結論に達するために,標準目的関数,評価指標,二項分類器を用いた。 まず,実際のデータセット上でのバイナリ分類性能の理論的上限を理論的に達成できることを示す。 この上界は、学習損失と評価基準の間の計算可能な平衡を表す。 第二に、一般的に使用される3つの評価指標の正確な上限を計算し、その上界がデータセットの特性と複雑に結びついており、使用中の分類器とは無関係である。 さらに、その後の分析により、二項分類データにおける性能上限とクラス重複レベルとの詳細な関係が明らかになった。 この関係は、機能工学で使用する最も効果的な機能サブセットを特定するのに役立ちます。

The structure of data organization is widely recognized as having a substantial influence on the efficacy of machine learning algorithms, particularly in binary classification tasks. Our research provides a theoretical framework suggesting that the maximum potential of binary classifiers on a given dataset is primarily constrained by the inherent qualities of the data. Through both theoretical reasoning and empirical examination, we employed standard objective functions, evaluative metrics, and binary classifiers to arrive at two principal conclusions. Firstly, we show that the theoretical upper bound of binary classification performance on actual datasets can be theoretically attained. This upper boundary represents a calculable equilibrium between the learning loss and the metric of evaluation. Secondly, we have computed the precise upper bounds for three commonly used evaluation metrics, uncovering a fundamental uniformity with our overarching thesis: the upper bound is intricately linked to the dataset's characteristics, independent of the classifier in use. Additionally, our subsequent analysis uncovers a detailed relationship between the upper limit of performance and the level of class overlap within the binary classification data. This relationship is instrumental for pinpointing the most effective feature subsets for use in feature engineering.
翻訳日:2024-01-31 14:57:03 公開日:2024-01-30
# ロバストなカーネルスパース部分空間クラスタリング

Robust Kernel Sparse Subspace Clustering ( http://arxiv.org/abs/2401.17035v1 )

ライセンス: Link先を確認
Ivica Kopriva(参考訳) カーネル法はサブスペースクラスタリング(sc)を含むパターン認識の多くの問題に適用される。 このように、入力データ空間における非線形問題は、写像された高次元特徴空間において線形となる。 これにより、カーネルトリックにより暗黙のマッピングにより計算可能な非線形アルゴリズムを可能にする。 しかし、線形アルゴリズムの核化は、誤差項の二乗法が関連する最適化問題で使われる場合にのみ可能である。 しかし、これは誤差の正規分布を意味する。 これは、-norm によってモデル化された粗末な腐敗のような非ガウス的誤りには適切ではない。 ここでは、我々の知る限り、粗大な乱れを伴うデータに対する堅牢なカーネルスパースSC(RKSSC)アルゴリズムを初めて提案する。 この概念は原則として他のscアルゴリズムにも適用でき、この種の腐敗の存在に対する堅牢性を達成することができる。 線形ロバストSSCアルゴリズムをベースラインモデルとした2つのよく知られたデータセットに対する提案手法を検証した。 Wilcoxonテストによると、RKSSCアルゴリズムで得られたクラスタリング性能は、ロバストSSCアルゴリズムで得られた対応する性能よりも統計的にかなり優れている。 提案されたRKSSCアルゴリズムのMATLABコードはhttps://github.com/ikopriva/RKSSCに掲載されている。

Kernel methods are applied to many problems in pattern recognition, including subspace clustering (SC). That way, nonlinear problems in the input data space become linear in mapped high-dimensional feature space. Thereby, computationally tractable nonlinear algorithms are enabled through implicit mapping by the virtue of kernel trick. However, kernelization of linear algorithms is possible only if square of the Froebenious norm of the error term is used in related optimization problem. That, however, implies normal distribution of the error. That is not appropriate for non-Gaussian errors such as gross sparse corruptions that are modeled by -norm. Herein, to the best of our knowledge, we propose for the first time robust kernel sparse SC (RKSSC) algorithm for data with gross sparse corruptions. The concept, in principle, can be applied to other SC algorithms to achieve robustness to the presence of such type of corruption. We validated proposed approach on two well-known datasets with linear robust SSC algorithm as a baseline model. According to Wilcoxon test, clustering performance obtained by the RKSSC algorithm is statistically significantly better than corresponding performance obtained by the robust SSC algorithm. MATLAB code of proposed RKSSC algorithm is posted on https://github.com/ikopriva/RKSSC.
翻訳日:2024-01-31 14:56:43 公開日:2024-01-30
# 多層グラフによる深部部分空間クラスタリング

Multilayer Graph Approach to Deep Subspace Clustering ( http://arxiv.org/abs/2401.17033v1 )

ライセンス: Link先を確認
Lovro Sindi\v{c}i\'c, Ivica Kopriva(参考訳) 自己表現型モデル学習表現行列に基づくディープサブスペースクラスタリング(DSC)ネットワークは、組み込み空間において完全に接続されたネットワークでしばしば実装される。 学習が完了すると、スペクトルクラスタリングモジュールによって、クラスタにラベルを割り当てるために表現行列が使用される。 しかし、この手法はエンコーダの他の層(入力データ自身を含む)に存在する相補的な情報を無視する。 本稿では,入力データを含むエンコーダネットワークの全レイヤで学習した表現から表現行列を学ぶために,選択線形部分空間クラスタリングアルゴリズムを適用する。 その後、多層グラフを多層的に学習し、すべての使用層からなるグラフラプラシアンからの情報を統合する。 これにより、選択したDSCネットワークの性能が向上する。 さらに,クラスタアウトオブサンプル/テストデータポイントへのアプローチの定式化も行う。 ベースラインモデルとして2つのDSCネットワークを持つ4つのよく知られたデータセットに対して,提案手法を検証した。 ほぼすべてのケースにおいて、提案手法は3つのパフォーマンス指標において統計的に有意に改善された。 提案アルゴリズムのMATLABコードはhttps://github.com/lovro-sinda/MLG-DSCに掲載されている。

Deep subspace clustering (DSC) networks based on self-expressive model learn representation matrix, often implemented in terms of fully connected network, in the embedded space. After the learning is finished, representation matrix is used by spectral clustering module to assign labels to clusters. However, such approach ignores complementary information that exist in other layers of the encoder (including the input data themselves). Herein, we apply selected linear subspace clustering algorithm to learn representation matrices from representations learned by all layers of encoder network including the input data. Afterward, we learn a multilayer graph that in a multi-view like manner integrates information from graph Laplacians of all used layers. That improves further performance of selected DSC network. Furthermore, we also provide formulation of our approach to cluster out-of-sample/test data points. We validate proposed approach on four well-known datasets with two DSC networks as baseline models. In almost all the cases, proposed approach achieved statistically significant improvement in three performance metrics. MATLAB code of proposed algorithm is posted on https://github.com/lovro-sinda/MLG-DSC.
翻訳日:2024-01-31 14:56:28 公開日:2024-01-30
# M2CURL:ロボットマニピュレーションのための自己監督型表現学習によるマルチモーダル強化学習

M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation ( http://arxiv.org/abs/2401.17032v1 )

ライセンス: Link先を確認
Fotios Lygerakis, Vedant Dave, Elmar Rueckert(参考訳) マルチモーダル強化学習(RL)の最も重要な側面の1つは、異なる観察モダリティの効果的な統合である。 これらのモダリティから導出されるロバストで正確な表現を持つことは、RLアルゴリズムの堅牢性とサンプル効率を高める鍵となる。 しかしながら、可視性データのrl設定における学習表現は、特にデータの高次元化と、視覚的および触覚的な入力とダイナミックな環境とタスクの目的を関連付けることに関わる複雑さのために、大きな課題となる。 これらの課題に対処するため、我々はM2CURL(Multimodal Contrastive Unsupervised Reinforcement Learning)を提案する。 提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。 提案手法はRLアルゴリズムに依存しないため,任意のRLアルゴリズムとの統合が可能となる。 Tactile Gym 2シミュレータ上でM2CURLを評価し、異なる操作タスクにおける学習効率を大幅に向上させることを示す。 これは、表現学習アプローチを使わずに標準のRLアルゴリズムと比較して、より高速な収束率とエピソード毎の累積報酬によって証明される。

One of the most critical aspects of multimodal Reinforcement Learning (RL) is the effective integration of different observation modalities. Having robust and accurate representations derived from these modalities is key to enhancing the robustness and sample efficiency of RL algorithms. However, learning representations in RL settings for visuotactile data poses significant challenges, particularly due to the high dimensionality of the data and the complexity involved in correlating visual and tactile inputs with the dynamic environment and task objectives. To address these challenges, we propose Multimodal Contrastive Unsupervised Reinforcement Learning (M2CURL). Our approach employs a novel multimodal self-supervised learning technique that learns efficient representations and contributes to faster convergence of RL algorithms. Our method is agnostic to the RL algorithm, thus enabling its integration with any available RL algorithm. We evaluate M2CURL on the Tactile Gym 2 simulator and we show that it significantly enhances the learning efficiency in different manipulation tasks. This is evidenced by faster convergence rates and higher cumulative rewards per episode, compared to standard RL algorithms without our representation learning approach.
翻訳日:2024-01-31 14:56:10 公開日:2024-01-30
# ラダー:深層学習アプローチによる宇宙距離ラダーの再検討とその応用の検討

LADDER: Revisiting the Cosmic Distance Ladder with Deep Learning Approaches and Exploring its Applications ( http://arxiv.org/abs/2401.17029v1 )

ライセンス: Link先を確認
Rahul Shah, Soumadeep Saha, Purba Mukherjee, Utpal Garain, Supratik Pal(参考訳) LADDER(Learning Algorithm for Deep Distance Estimation and Reconstruction)と呼ばれる新しいディープラーニングフレームワークを用いて、宇宙の「宇宙距離はしご」を再構築する可能性を検討する。 LADDERは、パンテオン型Ia超新星コンパイルの見かけの大きさデータに基づいて訓練され、データポイント間の完全な共分散情報を組み込んで、対応するエラーと共に予測を生成する。 多数のディープラーニングモデルを用いた検証テストを数回実施した後、最高のパフォーマンスとしてLADDERを選択します。 次に、バリオン音響振動などの他のデータセットの一貫性チェックのためのモデル非依存ツール、ガンマ線バーストのような高赤シフトデータセットのキャリブレーション、将来のプローブのためのモデル非依存モックカタログジェネレータとしての使用など、宇宙論的文脈におけるこの手法の応用例を示す。 私たちの分析は、これらのコンテキストにおける機械学習アプリケーションに関する興味深いが慎重な考察を提唱します。

We investigate the prospect of reconstructing the ``cosmic distance ladder'' of the Universe using a novel deep learning framework called LADDER - Learning Algorithm for Deep Distance Estimation and Reconstruction. LADDER is trained on the apparent magnitude data from the Pantheon Type Ia supernovae compilation, incorporating the full covariance information among data points, to produce predictions along with corresponding errors. After employing several validation tests with a number of deep learning models, we pick LADDER as the best performing one. We then demonstrate applications of our method in the cosmological context, that include serving as a model-independent tool for consistency checks for other datasets like baryon acoustic oscillations, calibration of high-redshift datasets such as gamma ray bursts, use as a model-independent mock catalog generator for future probes, etc. Our analysis advocates for interesting yet cautious consideration of machine learning applications in these contexts.
翻訳日:2024-01-31 14:55:49 公開日:2024-01-30
# オピオイド使用障害におけるパーソナライズ医療のためのサブポピュレーション同定による異種治療効果の推定

Heterogeneous treatment effect estimation with subpopulation identification for personalized medicine in opioid use disorder ( http://arxiv.org/abs/2401.17027v1 )

ライセンス: Link先を確認
Seungyeon Lee, Ruoqi Liu, Wenyu Song, Ping Zhang(参考訳) 深層学習モデルは治療効果(TEE)の推定において有望な結果を示した。 しかし、その多くは異なる特徴を持つサブグループ間の治療結果のばらつきを見落としている。 この制限は、特定のサブグループに対して正確な推定と治療の推奨を提供する能力を妨げる。 本研究では,サブグループ同定と治療効果推定を組み込んだ,ニューラルネットワークに基づく新しいフレームワークSubgroupTEを提案する。 サブグループTEは、様々なサブグループを特定し、各サブグループに対する治療効果を同時に推定し、治療応答の不均一性を考慮した治療効果推定を改善する。 合成データの比較実験により、SubgroupTEは治療効果推定において既存のモデルより優れていることが示された。 さらに,オピオイド使用障害(OUD)に関連する実世界のデータセットを用いて,OUD患者に対するパーソナライズされた治療勧告を強化するためのアプローチの可能性を示した。

Deep learning models have demonstrated promising results in estimating treatment effects (TEE). However, most of them overlook the variations in treatment outcomes among subgroups with distinct characteristics. This limitation hinders their ability to provide accurate estimations and treatment recommendations for specific subgroups. In this study, we introduce a novel neural network-based framework, named SubgroupTE, which incorporates subgroup identification and treatment effect estimation. SubgroupTE identifies diverse subgroups and simultaneously estimates treatment effects for each subgroup, improving the treatment effect estimation by considering the heterogeneity of treatment responses. Comparative experiments on synthetic data show that SubgroupTE outperforms existing models in treatment effect estimation. Furthermore, experiments on a real-world dataset related to opioid use disorder (OUD) demonstrate the potential of our approach to enhance personalized treatment recommendations for OUD patients.
翻訳日:2024-01-31 14:55:30 公開日:2024-01-30
# ベンガル及びデバナガリ信号の静的及び動的合成

Static and Dynamic Synthesis of Bengali and Devanagari Signatures ( http://arxiv.org/abs/2401.17026v1 )

ライセンス: Link先を確認
Miguel A. Ferrer, Sukalpa Chanda, Moises Diaz, Chayan Kr. Banerjee, Anirban Majumdar, Cristina Carmona-Duarte, Parikshit Acharya, Umapada Pal(参考訳) 自動署名検証システムの開発は困難であり,多数のトレーニングサンプルを必要とする。 これが合成手書き生成が文書画像解析の新たなトピックである理由である。 手書きシンセサイザーの中には、人間がどのように動きを成し遂げるかを分析する神経科学の確立された仮説である運動同値モデルを用いるものもある。 特に、運動等価モデルでは、人間の行動は2つのステップに分けられる。 1)認知レベル及び認知レベルにおけるフェクタ独立ステップ 2) モータレベルのエフェクタ依存ステップ。 実際、近年の研究では、この理論に基づく手書きシンセサイザーの西洋文字への適用が成功したことを報告している。 本稿では, ベンガル文字 (bangla) とデヴァナガリー文字 (hindi) の合成符号生成にこの方式を適用することを目的とした。 この目的のために、BengaliとDevanagariのシグネチャには、2つの異なるオンラインデータベースとオフラインデータベースを使用します。 本稿では,devanagari または bengali スクリプトで書かれた静的および動的シグネチャに対して有効なシンセサイザを提案する。 実際のシグネチャと実シグネチャを比較した結果, 外観や性能の面で人工的に生成されたシグネチャを用いた有望な結果が得られる。

Developing an automatic signature verification system is challenging and demands a large number of training samples. This is why synthetic handwriting generation is an emerging topic in document image analysis. Some handwriting synthesizers use the motor equivalence model, the well-established hypothesis from neuroscience, which analyses how a human being accomplishes movement. Specifically, a motor equivalence model divides human actions into two steps: 1) the effector independent step at cognitive level and 2) the effector dependent step at motor level. In fact, recent work reports the successful application to Western scripts of a handwriting synthesizer, based on this theory. This paper aims to adapt this scheme for the generation of synthetic signatures in two Indic scripts, Bengali (Bangla), and Devanagari (Hindi). For this purpose, we use two different online and offline databases for both Bengali and Devanagari signatures. This paper reports an effective synthesizer for static and dynamic signatures written in Devanagari or Bengali scripts. We obtain promising results with artificially generated signatures in terms of appearance and performance when we compare the results with those for real signatures.
翻訳日:2024-01-31 14:55:15 公開日:2024-01-30
# MF-MOS:移動物体セグメンテーションのための運動焦点モデル

MF-MOS: A Motion-Focused Model for Moving Object Segmentation ( http://arxiv.org/abs/2401.17023v1 )

ライセンス: Link先を確認
Jintao Cheng, Kang Zeng, Zhuoxu Huang, Xiaoyu Tang, Jin Wu, Chengxi Zhang, Xieyuanli Chen, Rui Fan(参考訳) 移動対象セグメンテーション(MOS)は、交通参加者を検出するための信頼性の高いソリューションを提供するため、自動運転分野に大きな関心がある。 動的キャプチャは常にMOS問題において重要である。 従来の手法では、距離画像から直接動作特徴をキャプチャする。 異なる点として、残余写像は動き情報に対してより大きなポテンシャルを与えるが、レンジ画像は豊かな意味指導を含む。 この直感に基づいて,LDAR移動物体セグメンテーションのための2分岐構造を持つ動き中心モデル MF-MOS を提案する。 新たに,静止地図からの移動を捉えることで空間時空間情報を分離し,移動枝の移動誘導として使用する範囲画像から意味的特徴を生成する。 当社の単純で独特なソリューションは、レンジイメージと残留マップの両方を最大限に活用できるため、lidarベースのmosタスクの性能が大幅に向上します。 注目すべきことに、我々のMF-MOSは、提出されたSemanticKITTIデータセットのMOSリーダーボードで76.7%のリードIoUを達成した。 MF-MOSの実装はhttps://github.com/SCNU-RISLAB/MF-MOSで公開された。

Moving object segmentation (MOS) provides a reliable solution for detecting traffic participants and thus is of great interest in the autonomous driving field. Dynamic capture is always critical in the MOS problem. Previous methods capture motion features from the range images directly. Differently, we argue that the residual maps provide greater potential for motion information, while range images contain rich semantic guidance. Based on this intuition, we propose MF-MOS, a novel motion-focused model with a dual-branch structure for LiDAR moving object segmentation. Novelly, we decouple the spatial-temporal information by capturing the motion from residual maps and generating semantic features from range images, which are used as movable object guidance for the motion branch. Our straightforward yet distinctive solution can make the most use of both range images and residual maps, thus greatly improving the performance of the LiDAR-based MOS task. Remarkably, our MF-MOS achieved a leading IoU of 76.7% on the MOS leaderboard of the SemanticKITTI dataset upon submission, demonstrating the current state-of-the-art performance. The implementation of our MF-MOS has been released at https://github.com/SCNU-RISLAB/MF-MOS.
翻訳日:2024-01-31 14:54:56 公開日:2024-01-30
# 相互作用光子を用いた分数量子ホール状態の実現

Realization of fractional quantum Hall state with interacting photons ( http://arxiv.org/abs/2401.17022v1 )

ライセンス: Link先を確認
Can Wang, Feng-Ming Liu, Ming-Cheng Chen, He Chen, Xian-He Zhao, Chong Ying, Zhong-Xia Shang, Jian-Wen Wang, Yong-Heng Huo, Cheng-Zhi Peng, Xiaobo Zhu, Chao-Yang Lu, Jian-Wei Pan(参考訳) フラクタル量子ホール(FQH)は、その強靭なトポロジカル秩序と非アベリア・エノンの出現で知られており、フォールトトレラント量子コンピューティングにおける魅力的な応用のために大きな関心を集めている。 エンジニアリングされた量子プラットフォームに対するボトムアップアプローチは、外部磁場なしでFQH状態を操作する機会を与え、これらのエキゾチックな状態の局所的かつコヒーレントな操作を強化する。 ここでは、光子遮断とエンジニアリングゲージ場に基づくプログラム可能なオンチッププラットフォームを用いた光子FQH状態の格子バージョンを、新しい2次元量子電磁力学(QED)システムで示す。 まず、FQH状態の前提条件である人工ゲージ場における有効光子ローレンツ力と蝶のスペクトルを観測する。 局所光子からの1/2充填係数のラウリンFQH波動関数の断熱的集合後,FQH光子間の強い密度相関とキラルトポロジカルフローを観察した。 次に, 準粒子生成の非圧縮性や分数量子ホール導電率のスモーキングガンシグネチャなど, 外部場に対するfqh状態のユニークな特徴を検証する。 我々の研究は、光子からなる新しい強相関位相量子物質のボトムアップ生成と操作において大きな進歩を示し、フォールトトレラント量子情報デバイスの可能性を開く。

Fractional quantum Hall (FQH) states, known for their robust topological order and the emergence of non-Abelian anyons, have captured significant interest due to the appealing applications in fault-tolerant quantum computing. Bottom-up approach on an engineered quantum platform will provide opportunities to operate FQH states without external magnetic field and enhance local and coherent manipulation of these exotic states. Here we demonstrate a lattice version of photon FQH state using a programmable on-chip platform based on photon blockade and engineering gauge fields on a novel two-dimensional circuit quantum electrodynamics (QED) system. We first observe the effective photon Lorentz force and butterfly spectrum in the artificial gauge field, a prerequisite for FQH states. After adiabatic assembly of Laughlin FQH wavefunction of 1/2 filling factor from localized photons, we observe strong density correlation and chiral topological flow among the FQH photons. We then verify the unique features of FQH states in response to external fields, including the incompressibility of generating quasiparticles and the smoking-gun signature of fractional quantum Hall conductivity. Our work represents a significant advance in the bottom-up creation and manipulation of novel strongly correlated topological quantum matter composed of photons and opens up possibilities for fault-tolerant quantum information devices.
翻訳日:2024-01-31 14:54:34 公開日:2024-01-30
# 大規模言語モデルを用いた実行可能変成関係の生成に向けて

Towards Generating Executable Metamorphic Relations Using Large Language Models ( http://arxiv.org/abs/2401.17019v1 )

ライセンス: Link先を確認
Seung Yeob Shin and Fabrizio Pastore and Domenico Bianculli and Alexandra Baicoianu(参考訳) メタモルフィックテスト(mt)は、テストの自動化とoracleの問題への対処に成功している。 しかし,手動でメタモルフィック関係(MR)を導出し,それを実行可能な形式に変換することが必要であり,これらのステップは時間を要するため,MTの採用を阻害する可能性があり,本稿では,大規模言語モデル(LLM)を用いた要件から,実行可能なMR(EMR)を自動的に導出するアプローチを提案する。 私たちのアプローチは、単にLLMにEMRの生成を依頼するのではなく、要件とAPI仕様を提供することで、MTプロセスでLLMにアクティビティを実行するように指示する、数発のプロンプト戦略に依存しています。 提案手法の有効性を評価するため,Siemens Industry Softwareと共同で質問紙調査を行い,その4つのソフトウェアアプリケーションに焦点を当てた。 さらに、Webアプリケーションの生成したEMRの精度を評価した。 本研究の結果は,テスト目的において理解可能かつ関連性の高いMRとEMRを生成するためのアプローチの能力を実証する上で,極めて有望なものである。

Metamorphic testing (MT) has proven to be a successful solution to automating testing and addressing the oracle problem. However, it entails manually deriving metamorphic relations (MRs) and converting them into an executable form; these steps are time-consuming and may prevent the adoption of MT. In this paper, we propose an approach for automatically deriving executable MRs (EMRs) from requirements using large language models (LLMs). Instead of merely asking the LLM to produce EMRs, our approach relies on a few-shot prompting strategy to instruct the LLM to perform activities in the MT process, by providing requirements and API specifications, as one would do with software engineers. To assess the feasibility of our approach, we conducted a questionnaire-based survey in collaboration with Siemens Industry Software, focusing on four of their software applications. Additionally, we evaluated the accuracy of the generated EMRs for a web application. The outcomes of our study are highly promising, as they demonstrate the capability of our approach to generate MRs and EMRs that are both comprehensible and pertinent for testing purposes.
翻訳日:2024-01-31 14:54:08 公開日:2024-01-30
# 自動運転データセットにおける分散検出性能の評価

Evaluation of Out-of-Distribution Detection Performance on Autonomous Driving Datasets ( http://arxiv.org/abs/2401.17013v1 )

ライセンス: Link先を確認
Jens Henriksson, Christian Berger, Stig Ursing, Markus Borg(参考訳) 安全対策は、ディープニューラルネットワーク(dnn)がクリティカルな応用のために意図した性能を評価する程度まで、システム的に調査する必要がある。 高次元DNNの検証方法が欠如しているため、許容された性能とアウト・オブ・ディストリビューション(OOD)サンプルの処理との間にトレードオフが必要である。 本研究は,予測されたクラスに対する最も予測可能なクラス条件ガウス分布に基づいて,マハラノビス距離(MD)を適用して意味分節DNNからの出力をOODスコアとして評価する。 評価は、cityscapesデータセットでトレーニングされ、4つの自動車データセットでテストされた3つのdnnに従って行われ、未発見のデータセットに適用された場合でも、ピクセルカバレッジのコストで分類リスクを劇的に低減できることがわかった。 本研究の適用性は,自動車認識におけるDNNの安全利用を主張する上で,安全対策の正当化と使用動機付けを支援する。

Safety measures need to be systemically investigated to what extent they evaluate the intended performance of Deep Neural Networks (DNNs) for critical applications. Due to a lack of verification methods for high-dimensional DNNs, a trade-off is needed between accepted performance and handling of out-of-distribution (OOD) samples. This work evaluates rejecting outputs from semantic segmentation DNNs by applying a Mahalanobis distance (MD) based on the most probable class-conditional Gaussian distribution for the predicted class as an OOD score. The evaluation follows three DNNs trained on the Cityscapes dataset and tested on four automotive datasets and finds that classification risk can drastically be reduced at the cost of pixel coverage, even when applied on unseen datasets. The applicability of our findings will support legitimizing safety measures and motivate their usage when arguing for safe usage of DNNs in automotive perception.
翻訳日:2024-01-31 14:53:48 公開日:2024-01-30
# 脆弱性検出のための大規模言語モデルの微調整

Finetuning Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.17010v1 )

ライセンス: Link先を確認
Alexey Shestov, Anton Cheshkov, Rodion Levichev, Ravil Mussabayev, Pavel Zadorozhny, Evgeny Maslov, Chibirev Vadim, Egor Bulychev(参考訳) 本稿では,ソースコードの脆弱性を検出するために,大規模言語モデル(LLM)の微調整を行った結果について述べる。 我々は、最新のLLM StarCoderの改良であるWizardCoderを活用し、さらなる微調整により脆弱性検出に適応する。 トレーニングを加速するために、WizardCoderのトレーニング手順を変更し、最適なトレーニング体制を調査する。 負の例が多い不均衡データセットに対しては、分類性能を改善するためのさまざまなテクニックも検討する。 この微調整ウィザードコーダモデルは、ソースコードの脆弱性検出に事前訓練されたllmを適用する効果を実証し、codebertライクなモデルに対するバランスと不均衡の脆弱性データセットに関するroc aucとf1の指標の改善を達成している。 主なコントリビューションは、最先端のコードLLMであるWizardCoderの微調整、パフォーマンスを損なわないトレーニング速度の向上、トレーニング手順とレシフィケーションの最適化、クラス不均衡の処理、困難な脆弱性検出データセットのパフォーマンス向上である。 これは、特定のソースコード解析タスクのために、大規模な事前訓練された言語モデルを微調整することで、転送学習の可能性を示す。

This paper presents the results of finetuning large language models (LLMs) for the task of detecting vulnerabilities in source code. We leverage WizardCoder, a recent improvement of the state-of-the-art LLM StarCoder, and adapt it for vulnerability detection through further finetuning. To accelerate training, we modify WizardCoder's training procedure, also we investigate optimal training regimes. For the imbalanced dataset with many more negative examples than positive, we also explore different techniques to improve classification performance. The finetuned WizardCoder model achieves improvement in ROC AUC and F1 measures on balanced and imbalanced vulnerability datasets over CodeBERT-like model, demonstrating the effectiveness of adapting pretrained LLMs for vulnerability detection in source code. The key contributions are finetuning the state-of-the-art code LLM, WizardCoder, increasing its training speed without the performance harm, optimizing the training procedure and regimes, handling class imbalance, and improving performance on difficult vulnerability detection datasets. This demonstrates the potential for transfer learning by finetuning large pretrained language models for specialized source code analysis tasks.
翻訳日:2024-01-31 14:53:24 公開日:2024-01-30
# イベントベースおよび深度データのセンサフュージョンによるスパイキング畳み込みネットワークの効率的なジェスチャー認識

Efficient Gesture Recognition on Spiking Convolutional Networks Through Sensor Fusion of Event-Based and Depth Data ( http://arxiv.org/abs/2401.17064v1 )

ライセンス: Link先を確認
Lea Steffen, Thomas Trapp, Arne Roennau, R\"udiger Dillmann(参考訳) 日常生活においてインテリジェントなシステムがますます重要になるにつれて、新たなインタラクション方法が求められます。 古典的なユーザーインターフェイスは身体障害者に問題を引き起こし、部分的には実用的でも便利でもない。 ジェスチャー認識は代替手段だが、従来のカメラでは十分に反応しないことが多い。 本研究は,ジェスチャー認識のためのイベントおよび深度データを処理するスパイキング畳み込みニューラルネットワークを提案する。 このネットワークは、オープンソースのニューロモルフィックコンピューティングフレームワークLAVAを用いて、組込みシステムのオフライントレーニングと評価を行う。 評価には3つのオープンソースデータセットを使用する。 これらは応用されたバイモダリティを表現していないため、イベントと深さデータを同期した新しいデータセットが記録された。 その結果,深度情報に対する時間的エンコーディングと,異なるエンコードされたデータに対するモダリティ融合は,ネットワーク性能と一般化能力に有益であることが示唆された。

As intelligent systems become increasingly important in our daily lives, new ways of interaction are needed. Classical user interfaces pose issues for the physically impaired and are partially not practical or convenient. Gesture recognition is an alternative, but often not reactive enough when conventional cameras are used. This work proposes a Spiking Convolutional Neural Network, processing event- and depth data for gesture recognition. The network is simulated using the open-source neuromorphic computing framework LAVA for offline training and evaluation on an embedded system. For the evaluation three open source data sets are used. Since these do not represent the applied bi-modality, a new data set with synchronized event- and depth data was recorded. The results show the viability of temporal encoding on depth information and modality fusion, even on differently encoded data, to be beneficial to network performance and generalization capabilities.
翻訳日:2024-01-31 14:44:54 公開日:2024-01-30
# SPViz: ソフトウェアプロジェクトの可視化ツールのためのDSL駆動アプローチ

SPViz: A DSL-Driven Approach for Software Project Visualization Tooling ( http://arxiv.org/abs/2401.17063v1 )

ライセンス: Link先を確認
Niklas Rentz, Reinhard von Hanxleden(参考訳) OSGiやSpringのようなほとんどのサービスアーキテクチャでは、アーキテクチャ固有のツールによって、ソフトウェア開発者やアーキテクトがプロジェクトファイルに隠された不明瞭な構成を可視化することができます。 このような視覚化ツールは、しばしばドキュメントの目的で使われ、ソースコードのみよりもプログラムをより理解するのに役立ちます。 しかし、そのようなツールはプロジェクト固有の特徴に対処しないことが多いし、あまり一般的でないアーキテクチャには存在せず、開発者は同じアーキテクチャ内で異なる可視化ツールと分析ツールを使用する必要がある。 さらに、多くの汎用モデリングツールとアーキテクチャ視覚化ツールは、ユーザが手動でモデルを作成し維持する必要がある。 本稿では、ソフトウェアアーキテクトが自身のプロジェクト可視化ツールを定義し、適応できるようにするDSL駆動のアプローチを提案する。 このアプローチはソフトウェアプロジェクトの可視化(SPViz)と呼ばれ、アーキテクチャ要素とその関係を記述するために2つのDSLを使用します。 SPVizは、プロジェクト固有の可視化ツールを自動で合成し、基礎となるプロジェクトの変更に自動的に適応できることを示す。 私たちはこのアプローチをオープンソースライブラリとして実装し、spvizとも呼ばれ、この概念に従う4つの異なるツールについて議論し、分析しました。

For most service architectures, such as OSGi and Spring, architecture-specific tools allow software developers and architects to visualize otherwise obscure configurations hidden in the project files. Such visualization tools are often used for documentation purposes and help to better understand programs than with source code alone. However, such tools often do not address project-specific peculiarities or do not exist at all for less common architectures, requiring developers to use different visualization and analysis tools within the same architecture. Furthermore, many generic modeling tools and architecture visualization tools require their users to create and maintain models manually. We here propose a DSL-driven approach that allows software architects to define and adapt their own project visualization tool. The approach, which we refer to as Software Project Visualization (SPViz), uses two DSLs, one to describe architectural elements and their relationships, and one to describe how these should be visualized. We demonstrate how SPViz can then automatically synthesize a customized, project-specific visualization tool that can adapt to changes in the underlying project automatically. We implemented our approach in an open-source library, also termed SPViz and discuss and analyze four different tools that follow this concept, including open-source projects and projects from an industrial partner in the railway domain.
翻訳日:2024-01-31 14:44:39 公開日:2024-01-30
# MLシステムのための独立系ブラックボックステストの概要

Outline of an Independent Systematic Blackbox Test for ML-based Systems ( http://arxiv.org/abs/2401.17062v1 )

ライセンス: Link先を確認
Hans-Werner Wiesbrock and J\"urgen Gro{\ss}mann(参考訳) 本稿では、実際のトレーニングプロセスとは無関係に、MLモデルとMLベースのシステムをテストするために使用できるテスト手順を提案する。 このようにして、これらのモデルとシステムの精度や精度などの典型的な品質ステートメントは、ブラックボックスのキャラクタと、MLモデルとそのトレーニングデータの重要な確率特性を考慮して独立に検証することができる。 本稿では,MLモデルとMLベースのシステムの確率的性質を反映したテスト手法の拡張を提案する。

This article proposes a test procedure that can be used to test ML models and ML-based systems independently of the actual training process. In this way, the typical quality statements such as accuracy and precision of these models and system can be verified independently, taking into account their black box character and the immanent stochastic properties of ML models and their training data. The article presents first results from a set of test experiments and suggest extensions to existing test methods reflecting the stochastic nature of ML models and ML-based systems.
翻訳日:2024-01-31 14:44:18 公開日:2024-01-30
# OmniSCV:コンピュータビジョンのための全方向合成画像生成装置

OmniSCV: An Omnidirectional Synthetic Image Generator for Computer Vision ( http://arxiv.org/abs/2401.17061v1 )

ライセンス: Link先を確認
Bruno Berenguel-Baeta and Jesus Bermudez-Cameo and Jose J. Guerrero(参考訳) 全方位および360{\deg}画像は、産業や消費者社会に広まり、全方位コンピュータビジョンが注目を集めている。 彼らの視野は広いため、画像だけから環境に関する情報を大量に集めることができる。 しかし、これらの画像の歪みは、その処理と解釈のための特定のアルゴリズムの開発を必要とする。 さらに,学習に基づくコンピュータビジョンアルゴリズムの正しいトレーニングには,多数の画像が不可欠である。 本稿では,全方位画像のデータセットを意味情報と深度情報で生成するツールを提案する。 これらの画像は、インターフェースプラグインを通じてUnreal Engine 4のリアルな仮想環境で取得される一連のキャプチャから合成される。 我々は, 等角および円筒パノラマ, 異なる魚眼レンズ, カタジオプティカルシステム, 経験モデルなど, 様々な有名な投影モデルを集めた。 さらに,本ツールでは,非中央パノラマ・非中央投射系として光リアリスティック非中央投射系を含む。 われわれの知る限りでは、このツールは文学における写真リアリスティックな非中央画像を生成する最初のツールだ。 さらに、全方位画像は事実上作成されるので、セマンティクスや深度に関する画素情報や、カメラの校正パラメータの完全な知識を提供する。 これにより、学習アルゴリズムのトレーニングと3d視覚アプローチのテストのために、ピクセル精度で地中情報を作成できる。 提案ツールを検証するために,2次元および3次元中心画像からの線抽出,等角パノラマを用いた3次元レイアウト回収,SLAM,非中央パノラマからの3次元再構成など,異なるコンピュータビジョンアルゴリズムを試験した。

Omnidirectional and 360{\deg} images are becoming widespread in industry and in consumer society, causing omnidirectional computer vision to gain attention. Their wide field of view allows the gathering of a great amount of information about the environment from only an image. However, the distortion of these images requires the development of specific algorithms for their treatment and interpretation. Moreover, a high number of images is essential for the correct training of computer vision algorithms based on learning. In this paper, we present a tool for generating datasets of omnidirectional images with semantic and depth information. These images are synthesized from a set of captures that are acquired in a realistic virtual environment for Unreal Engine 4 through an interface plugin. We gather a variety of well-known projection models such as equirectangular and cylindrical panoramas, different fish-eye lenses, catadioptric systems, and empiric models. Furthermore, we include in our tool photorealistic non-central-projection systems as non-central panoramas and non-central catadioptric systems. As far as we know, this is the first reported tool for generating photorealistic non-central images in the literature. Moreover, since the omnidirectional images are made virtually, we provide pixel-wise information about semantics and depth as well as perfect knowledge of the calibration parameters of the cameras. This allows the creation of ground-truth information with pixel precision for training learning algorithms and testing 3D vision approaches. To validate the proposed tool, different computer vision algorithms are tested as line extractions from dioptric and catadioptric central images, 3D Layout recovery and SLAM using equirectangular panoramas, and 3D reconstruction from non-central panoramas.
翻訳日:2024-01-31 14:44:09 公開日:2024-01-30
# 非中央パノラマからのアトランタのスケールドレイアウト

Atlanta Scaled layouts from non-central panoramas ( http://arxiv.org/abs/2401.17058v1 )

ライセンス: Link先を確認
Bruno Berenguel-Baeta and Jesus Bermudez-Cameo and Jose J. Guerrero(参考訳) 本研究では,非中央取得システムを用いた屋内環境の3次元レイアウト復元手法を提案する。 非中央パノラマから、フルおよびスケールされた3d線は幾何学的仮定もスケール的仮定もなしに幾何学的推論によって独立に復元することができる。 しかし、ノイズに対する感度と複雑な幾何学的モデリングにより、これらのパノラマはほとんど研究されていない。 新しいパイプラインは,屋内環境の構造線の境界をニューラルネットワークで抽出し,非中央投影システムの特性を新たな幾何学的処理で活用し,スケールした3dレイアウトを復元することを目的としている。 実験の結果,非中央プロジェクションシステムにおけるレイアウト再構成と線抽出の最先端手法の改善が示された。 マンハッタンとアトランタの環境では, 咬合を処理し, 余分な測定値なしで部屋のメートル法スケールを取得することで, 完全に解決した。 著者たちの知る限り、私たちのアプローチは、非中央パノラマ上でディープラーニングを使用して、単一のパノラマからスケールドレイアウトを回復する最初の作業です。

In this work we present a novel approach for 3D layout recovery of indoor environments using a non-central acquisition system. From a non-central panorama, full and scaled 3D lines can be independently recovered by geometry reasoning without geometric nor scale assumptions. However, their sensitivity to noise and complex geometric modeling has led these panoramas being little investigated. Our new pipeline aims to extract the boundaries of the structural lines of an indoor environment with a neural network and exploit the properties of non-central projection systems in a new geometrical processing to recover an scaled 3D layout. The results of our experiments show that we improve state-of-the-art methods for layout reconstruction and line extraction in non-central projection systems. We completely solve the problem in Manhattan and Atlanta environments, handling occlusions and retrieving the metric scale of the room without extra measurements. As far as the authors knowledge goes, our approach is the first work using deep learning on non-central panoramas and recovering scaled layouts from single panoramas.
翻訳日:2024-01-31 14:43:42 公開日:2024-01-30
# 視覚障害者誘導のための床の抽出とドア検出

Floor extraction and door detection for visually impaired guidance ( http://arxiv.org/abs/2401.17056v1 )

ライセンス: Link先を確認
Bruno Berenguel-Baeta, Manuel Guerrero-Viu, Alejandro de Nova, Jesus Bermudez-Cameo, Alejandro Perez-Yus, Jose J. Guerrero(参考訳) 未知の環境で障害物のない経路を見つけることは、視覚障害者や自律ロボットにとって大きなナビゲーション問題である。 従来の作業は障害物回避に重点を置いていたが、彼らが移動する環境の一般的な見方は持っていない。 コンピュータビジョンシステムに基づく新しいデバイスは、障害のある人々が安全な環境で未知の環境をナビゲートすることの難しさを克服するのに役立つ。 本研究では,視覚障害者のためのナビゲーションシステムを構築するためのセンサとアルゴリズムの組み合わせを提案する。 障害物回避のためにRGB-Dカメラを使用する従来のシステムに基づいて、魚眼カメラの情報を統合して、ユーザの環境をよりよく理解する。 この組み合わせは、システムに対して堅牢性と信頼性を与え、環境から多くの情報を得ることができる幅広い視野を提供する。 このセンサーの組み合わせは人間の視覚にインスパイアされ、網膜の中心(焦点)は、人間が広い視野を持つ周囲よりも正確な情報を提供する。 提案するシステムは,現場の障害物のないゾーンを提供するウェアラブルデバイスに搭載され,人案内のための軌跡の計画が可能となる。

Finding obstacle-free paths in unknown environments is a big navigation issue for visually impaired people and autonomous robots. Previous works focus on obstacle avoidance, however they do not have a general view of the environment they are moving in. New devices based on computer vision systems can help impaired people to overcome the difficulties of navigating in unknown environments in safe conditions. In this work it is proposed a combination of sensors and algorithms that can lead to the building of a navigation system for visually impaired people. Based on traditional systems that use RGB-D cameras for obstacle avoidance, it is included and combined the information of a fish-eye camera, which will give a better understanding of the user's surroundings. The combination gives robustness and reliability to the system as well as a wide field of view that allows to obtain many information from the environment. This combination of sensors is inspired by human vision where the center of the retina (fovea) provides more accurate information than the periphery, where humans have a wider field of view. The proposed system is mounted on a wearable device that provides the obstacle-free zones of the scene, allowing the planning of trajectories for people guidance.
翻訳日:2024-01-31 14:43:24 公開日:2024-01-30
# BlockFusion:潜伏三面体外挿による拡張可能な3次元シーン生成

BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation ( http://arxiv.org/abs/2401.17053v1 )

ライセンス: Link先を確認
Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang, Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, and Pan Ji(参考訳) 本稿では,3次元シーンを単位ブロックとして生成する拡散モデルであるBlockFusionについて述べる。 BlockFusionは、完全な3Dシーンメッシュからランダムにトリミングされた3Dブロックのデータセットを使用してトレーニングされる。 ブロックごとのフィッティングにより、全てのトレーニングブロックは、幾何学的特徴を含む三面体と、符号付き距離値を復号する多層パーセプトロン(MLP)のハイブリッドニューラルネットワークに変換される。 変分オートエンコーダを用いて、三平面を潜在三平面空間に圧縮し、その上で消音拡散処理を行う。 潜在表現に適用された拡散は、高品質で多様な3dシーン生成を可能にする。 シーンを生成中に拡大するには、現在のシーンと重なり合うために空のブロックを追加し、新しいブロックを投入するために既存の潜在トリプレーンを外挿するだけでよい。 補間は、重なり合う三面体の特徴サンプルをデノナイジングイテレーション中に生成プロセスに条件付けすることで行われる。 潜在三面外挿は、既存のシーンと調和して融合する意味論的および幾何学的に意味のある遷移を生み出す。 シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。 実験結果から,BlockFusionは屋内および屋外の両方のシナリオにおいて,前例のない高品質な形状の多様で幾何学的に整合性があり,非有界な大型3Dシーンを生成できることが示唆された。

We present BlockFusion, a diffusion-based model that generates 3D scenes as unit blocks and seamlessly incorporates new blocks to extend the scene. BlockFusion is trained using datasets of 3D blocks that are randomly cropped from complete 3D scene meshes. Through per-block fitting, all training blocks are converted into the hybrid neural fields: with a tri-plane containing the geometry features, followed by a Multi-layer Perceptron (MLP) for decoding the signed distance values. A variational auto-encoder is employed to compress the tri-planes into the latent tri-plane space, on which the denoising diffusion process is performed. Diffusion applied to the latent representations allows for high-quality and diverse 3D scene generation. To expand a scene during generation, one needs only to append empty blocks to overlap with the current scene and extrapolate existing latent tri-planes to populate new blocks. The extrapolation is done by conditioning the generation process with the feature samples from the overlapping tri-planes during the denoising iterations. Latent tri-plane extrapolation produces semantically and geometrically meaningful transitions that harmoniously blend with the existing scene. A 2D layout conditioning mechanism is used to control the placement and arrangement of scene elements. Experimental results indicate that BlockFusion is capable of generating diverse, geometrically consistent and unbounded large 3D scenes with unprecedented high-quality shapes in both indoor and outdoor scenarios.
翻訳日:2024-01-31 14:43:06 公開日:2024-01-30
# 表データにおけるパラメトリック異常検出の非パラメトリック化

Making Parametric Anomaly Detection on Tabular Data Non-Parametric Again ( http://arxiv.org/abs/2401.17052v1 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Li\^en Doan(参考訳) 近年,表形式のデータに対する深層学習が注目を集めているが,構造化データに対する深層モデルの採用は依然として困難である。 これらのモデルは非構造化データに優れているが、構造化データの有効性は限られている。 近年、このギャップに対処する検索強化モデルを導入し、分類や回帰といった教師付きタスクにおいて有望な結果を示した。 本研究では,検索拡張モデルを用いて表データの異常検出を行う。 本稿では,変圧器モデルを用いて<textit{normal} サンプルのマスク特徴を再構成する手法を提案する。 対象サンプルの再構成プロセスにおいて,KNNおよび注目型モジュールの有効性を検証し,関連サンプルの選択に役立てる。 31の表型データセットのベンチマーク実験により,検索モジュールによる非パラメトリック関係を用いたこの再構成型異常検出(ad)手法の強化により,性能が著しく向上する可能性が示唆された。

Deep learning for tabular data has garnered increasing attention in recent years, yet employing deep models for structured data remains challenging. While these models excel with unstructured data, their efficacy with structured data has been limited. Recent research has introduced retrieval-augmented models to address this gap, demonstrating promising results in supervised tasks such as classification and regression. In this work, we investigate using retrieval-augmented models for anomaly detection on tabular data. We propose a reconstruction-based approach in which a transformer model learns to reconstruct masked features of \textit{normal} samples. We test the effectiveness of KNN-based and attention-based modules to select relevant samples to help in the reconstruction process of the target sample. Our experiments on a benchmark of 31 tabular datasets reveal that augmenting this reconstruction-based anomaly detection (AD) method with non-parametric relationships via retrieval modules may significantly boost performance.
翻訳日:2024-01-31 14:42:42 公開日:2024-01-30
# ViTree: ステップワイズで解釈可能なきめ細かい視覚分類のための単一経路ニューラルツリー

ViTree: Single-path Neural Tree for Step-wise Interpretable Fine-grained Visual Categorization ( http://arxiv.org/abs/2401.17050v1 )

ライセンス: Link先を確認
Danning Lao, Qi Liu, Jiazi Bu, Junchi Yan, Wei Shen(参考訳) コンピュータビジョンが進歩し続け、様々な領域に広く応用されるようになるにつれ、ディープラーニングモデルにおける解釈可能性の必要性が最重要となる。 既存の手法では、意思決定プロセスを説明するためにポストホックな技術やプロトタイプを使うことが多い。 本研究では,視覚変換器を特徴抽出バックボーンとニューラル決定木を結合した,視覚的細粒度分類のための新しいアプローチであるViTreeを紹介する。 ツリーパスをトラバースすることで、ViTreeはトランスフォーマー処理された特徴からパッチを効果的に選択し、情報のあるローカルリージョンをハイライトし、ステップワイズで表現を洗練する。 ソフトな分布や経路のアンサンブルに依存する従来のツリーベースモデルとは異なり、ViTreeは単一のツリーパスを選択し、より明確でシンプルな意思決定プロセスを提供する。 このパッチとパスの選択性はViTreeのモデルの解釈可能性を高め、モデルの内部動作に関するより良い洞察を可能にする。 顕著な実験は、この合理化アプローチが様々な強力な競争相手を超え、マルチパースペクティブ手法によって証明される例外的解釈可能性を維持しつつ、最先端のパフォーマンスを達成することを証明している。 コードはhttps://github.com/sjtu-deepvisionlab/vitreeにある。

As computer vision continues to advance and finds widespread applications across various domains, the need for interpretability in deep learning models becomes paramount. Existing methods often resort to post-hoc techniques or prototypes to explain the decision-making process, which can be indirect and lack intrinsic illustration. In this research, we introduce ViTree, a novel approach for fine-grained visual categorization that combines the popular vision transformer as a feature extraction backbone with neural decision trees. By traversing the tree paths, ViTree effectively selects patches from transformer-processed features to highlight informative local regions, thereby refining representations in a step-wise manner. Unlike previous tree-based models that rely on soft distributions or ensembles of paths, ViTree selects a single tree path, offering a clearer and simpler decision-making process. This patch and path selectivity enhances model interpretability of ViTree, enabling better insights into the model's inner workings. Remarkably, extensive experimentation validates that this streamlined approach surpasses various strong competitors and achieves state-of-the-art performance while maintaining exceptional interpretability which is proved by multi-perspective methods. Code can be found at https://github.com/SJTU-DeepVisionLab/ViTree.
翻訳日:2024-01-31 14:42:26 公開日:2024-01-30
# 確率論理プログラミングにおける説明

Explaining Explanations in Probabilistic Logic Programming ( http://arxiv.org/abs/2401.17045v1 )

ライセンス: Link先を確認
Germ\'an Vidal(参考訳) 人工知能に基づくツールの出現は、人間によって理解可能な説明を作成する必要ももたらした。 いくつかのアプローチでは、システムは透明ではない(しばしば「ブラックボックス」と呼ばれる)ため、適切な説明を生成するのが困難である。 しかし,本研究では,論理プログラミング(知識表現)と確率(不確かさをモデル化する)の組み合わせである確率的論理プログラミングを考える。 この設定では、モデルは解釈可能であり、理解が容易であると言える。 しかしながら、特定の問合せが与えられた場合、「説明」の通常の概念は、モデルの各確率変数に対して1つずつ選択される。 残念ながら、この集合は因果構造を持たず、実際、いくつかの選択は実際は考慮されたクエリとは無関係である。 これらの欠点を克服するために,確率論理プログラムのためのクエリ駆動推論機構の定義に基づく説明を説明する手法を提案する。

The emergence of tools based on artificial intelligence has also led to the need of producing explanations which are understandable by a human being. In some approaches, the system is not transparent (often referred to as a "black box"), making it difficult to generate appropriate explanations. In this work, though, we consider probabilistic logic programming, a combination of logic programming (for knowledge representation) and probability (to model uncertainty). In this setting, one can say that models are interpretable, which eases its understanding. However, given a particular query, the usual notion of "explanation" is associated with a set of choices, one for each random variable of the model. Unfortunately, this set does not have a causal structure and, in fact, some of the choices are actually irrelevant to the considered query. In order to overcome these shortcomings, we present an approach to explaining explanations which is based on the definition of a query-driven inference mechanism for probabilistic logic programs.
翻訳日:2024-01-31 14:42:00 公開日:2024-01-30
# マルチエージェントパス探索のためのスケーラブルなメカニズム設計

Scalable Mechanism Design for Multi-Agent Path Finding ( http://arxiv.org/abs/2401.17044v1 )

ライセンス: Link先を確認
Paul Friedrich, Yulun Zhang, Michael Curry, Ludwig Dierks, Stephen McAleer, Jiaoyang Li, Tuomas Sandholm, Sven Seuken(参考訳) MAPF(Multi-Agent Path Finding)は、複数のエージェントが特定の目標地点に向かって共有領域を同時に移動するための経路を決定する。 この問題は計算的に複雑であり、特に多数のエージェントを扱う場合、自動運転車の協調のような現実的な応用でよく見られる。 最適解を見つけることはしばしば計算上不可能であり、近似アルゴリズムの使用が不可欠である。 この複雑さを加味すれば、エージェントは自己関心と戦略的な方法で行動し、MAPFアルゴリズムにその目標を誤った表現をする可能性がある。 機構設計の分野はインセンティブを調整するためのツールを提供しているが、注意を払わずにこれらのツールを使用することは、ほぼ最適な結果にしかアクセスできない場合に失敗する可能性がある。 スケーラブルMAPFアルゴリズムには近似が不可欠であるため、これは大きな課題となる。 本稿では,mapfのスケーラブルな機構設計の問題を紹介し,その2つが近似mapfアルゴリズムを用いた3つの戦略耐性メカニズムを提案する。 私たちは、数十から数百のエージェントによる問題サイズの現実的なmapfドメインでメカニズムをテストする。 以上の結果から,単純な基準を超えた福祉の改善が期待できる。

Multi-Agent Path Finding (MAPF) involves determining paths for multiple agents to travel simultaneously through a shared area toward particular goal locations. This problem is computationally complex, especially when dealing with large numbers of agents, as is common in realistic applications like autonomous vehicle coordination. Finding an optimal solution is often computationally infeasible, making the use of approximate algorithms essential. Adding to the complexity, agents might act in a self-interested and strategic way, possibly misrepresenting their goals to the MAPF algorithm if it benefits them. Although the field of mechanism design offers tools to align incentives, using these tools without careful consideration can fail when only having access to approximately optimal outcomes. Since approximations are crucial for scalable MAPF algorithms, this poses a significant challenge. In this work, we introduce the problem of scalable mechanism design for MAPF and propose three strategyproof mechanisms, two of which even use approximate MAPF algorithms. We test our mechanisms on realistic MAPF domains with problem sizes ranging from dozens to hundreds of agents. Our findings indicate that they improve welfare beyond a simple baseline.
翻訳日:2024-01-31 14:41:46 公開日:2024-01-30
# CRUD-RAG:大規模言語モデルの検索強化のための総合的な中国語ベンチマーク

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models ( http://arxiv.org/abs/2401.17043v1 )

ライセンス: Link先を確認
Yuanjie Lyu, Zhiyu Li, Simin Niu, Feiyu Xiong, Bo Tang, Wenjin Wang, Hao Wu, Huanyong Liu, Tong Xu, Enhong Chen(参考訳) Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。 この方法は、古い情報や不正確な「ハロゲン化」コンテンツを生成する傾向を含む、一般的なLCM制限に対処する。 しかしながら、既存のベンチマークはスコープと多様性に制限があるため、RAGシステムの評価は困難である。 現在のベンチマークのほとんどは質問応答アプリケーションを評価しており、ragが有利であることを証明できる幅広い状況を見渡している。 さらに,実験におけるragパイプラインのllmコンポーネントの性能評価のみを行い,検索コンポーネントと外部知識データベースの影響を無視した。 これらの課題に対処するため,大規模で包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。 具体的には、RAGアプリケーションの範囲を4つの異なるタイプ(Create、Read、Update、Delete(CRUD))に分類しました。 create"は、オリジナルで多様なコンテンツを生成する必要があるシナリオを指す。 読み」とは知識集約的な状況において複雑な質問に答えることである。 アップデート」は、既存のテキストにおける不正確さや矛盾の修正と修正に焦点を当てている。 『削除』は、広義のテキストをより簡潔な形式に要約する作業である。 これらのCRUDカテゴリごとに、RAGシステムの性能を評価するための包括的なデータセットを開発しました。 また,レトリバー,コンテキスト長,知識ベース構築,LLMなど,RAGシステムの様々な構成要素の影響も分析する。 最後に、rag技術をさまざまなシナリオに最適化するための有用な洞察を提供する。

Retrieval-Augmented Generation (RAG) is a technique that enhances the capabilities of large language models (LLMs) by incorporating external knowledge sources. This method addresses common LLM limitations, including outdated information and the tendency to produce inaccurate "hallucinated" content. However, the evaluation of RAG systems is challenging, as existing benchmarks are limited in scope and diversity. Most of the current benchmarks predominantly assess question-answering applications, overlooking the broader spectrum of situations where RAG could prove advantageous. Moreover, they only evaluate the performance of the LLM component of the RAG pipeline in the experiments, and neglect the influence of the retrieval component and the external knowledge database. To address these issues, this paper constructs a large-scale and more comprehensive benchmark, and evaluates all the components of RAG systems in various RAG application scenarios. Specifically, we have categorized the range of RAG applications into four distinct types-Create, Read, Update, and Delete (CRUD), each representing a unique use case. "Create" refers to scenarios requiring the generation of original, varied content. "Read" involves responding to intricate questions in knowledge-intensive situations. "Update" focuses on revising and rectifying inaccuracies or inconsistencies in pre-existing texts. "Delete" pertains to the task of summarizing extensive texts into more concise forms. For each of these CRUD categories, we have developed comprehensive datasets to evaluate the performance of RAG systems. We also analyze the effects of various components of the RAG system, such as the retriever, the context length, the knowledge base construction, and the LLM. Finally, we provide useful insights for optimizing the RAG technology for different scenarios.
翻訳日:2024-01-31 14:41:28 公開日:2024-01-30
# ベイズ深層学習によるvix予測

Forecasting VIX using Bayesian Deep Learning ( http://arxiv.org/abs/2401.17042v1 )

ライセンス: Link先を確認
H\'ector J. Hort\'ua and Andr\'es Mora-Valencia(参考訳) 近年、価格予測タスクの第一選択として、従来の統計モデルと機械学習モデルを徐々に置き換えている。 本稿では,確率的深層学習を利用してボラティリティ指数VIXを推定する。 我々は、wavenet、temporal convolutional network (tcn)、transformersの確率的対応式を採用する。 TCN は RMSE を 0.189 前後で上回る性能を示した。 さらに、現代のニューラルネットワークが不正確な不確実性推定を提供することはよく知られている。 この問題を解決するため,ネットワークのキャリブレーションには標準偏差スケーリングを用いる。 さらに,gaussian preperforms reparameterization trickとflipout modelを精度と不確かさの予測で上回るmnfがあることが判明した。 最後に,cauchy と loguniform の事前分布を持つ mnf は,vix 値を最もよく推定する tcn と wavenet ネットワークを十分に校正していると主張する。

Recently, deep learning techniques are gradually replacing traditional statistical and machine learning models as the first choice for price forecasting tasks. In this paper, we leverage probabilistic deep learning for inferring the volatility index VIX. We employ the probabilistic counterpart of WaveNet, Temporal Convolutional Network (TCN), and Transformers. We show that TCN outperforms all models with an RMSE around 0.189. In addition, it has been well known that modern neural networks provide inaccurate uncertainty estimates. For solving this problem, we use the standard deviation scaling to calibrate the networks. Furthermore, we found out that MNF with Gaussian prior outperforms Reparameterization Trick and Flipout models in terms of precision and uncertainty predictions. Finally, we claim that MNF with Cauchy and LogUniform prior distributions yield well calibrated TCN and WaveNet networks being the former that best infer the VIX values.
翻訳日:2024-01-31 14:41:05 公開日:2024-01-30
# 重量自動選択によるゴーワーの類似度係数

Gower's similarity coefficients with automatic weight selection ( http://arxiv.org/abs/2401.17041v1 )

ライセンス: Link先を確認
Marcello D'Orazio(参考訳) 近近距離法が統計学で人気を博し、統計学習において重要な役割を果たす。 最寄りの手法における重要な決定は、使用すべき変数(候補が多数存在する場合)と、ユニット間の相違を測定する方法に関するものである。 第1の決定はアプリケーションの範囲に依存し、第2の判断は変数の種類に依存します。 残念なことに、混合型変数を扱うオプションは比較的少なく、実際的なアプリケーションで頻繁に発生する状況である。 混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。 0 から 1 の範囲は、変数によって計算されるスケールした相違点の平均であり、欠落した値を処理し、相違点を平均化する際のユーザ定義の重み付けスキームを可能にするため、魅力的である。 重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。 この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に続くものである。 特に本論文では,変数の種類に応じて相関を測定するための異なるアプローチを提案する。 提案手法の性能は, 欠落した値の分類と計算に関するシミュレーション研究で評価された。

Nearest-neighbor methods have become popular in statistics and play a key role in statistical learning. Important decisions in nearest-neighbor methods concern the variables to use (when many potential candidates exist) and how to measure the dissimilarity between units. The first decision depends on the scope of the application while second depends mainly on the type of variables. Unfortunately, relatively few options permit to handle mixed-type variables, a situation frequently encountered in practical applications. The most popular dissimilarity for mixed-type variables is derived as the complement to one of the Gower's similarity coefficient. It is appealing because ranges between 0 and 1, being an average of the scaled dissimilarities calculated variable by variable, handles missing values and allows for a user-defined weighting scheme when averaging dissimilarities. The discussion on the weighting schemes is sometimes misleading since it often ignores that the unweighted "standard" setting hides an unbalanced contribution of the single variables to the overall dissimilarity. We address this drawback following the recent idea of introducing a weighting scheme that minimizes the differences in the correlation between each contributing dissimilarity and the resulting weighted Gower's dissimilarity. In particular, this note proposes different approaches for measuring the correlation depending on the type of variables. The performances of the proposed approaches are evaluated in simulation studies related to classification and imputation of missing values.
翻訳日:2024-01-31 14:40:52 公開日:2024-01-30
# 回転で分裂する凝縮物

Condensates Breaking Up Under Rotation ( http://arxiv.org/abs/2401.17040v1 )

ライセンス: Link先を確認
Sunayana Dutta, Axel U. J. Lode, and Ofir E. Alon(参考訳) 回転するボース・アインシュタイン凝縮体の2次元アンハーモニック-アニソトロピックポテンシャルに閉じ込められた基底状態は、無限個の粒子の極限で数値的に解析される。 密度は位置空間の$x$方向と運動量空間の$p_y$方向に沿って破られ、角運動量を取得する。 左右に並べると、x$ および y$ の方向に沿った多粒子位置分散と、p_y$ および $p_x$ の方向に沿った多粒子運動量分散の異方性は、多体および平均場理論のレベルで計算すると反対になる。 すべて、回転するボソンは、位置と運動量空間の両方において無限個の粒子の極限で一意的な相関を持つが、粒子当たりの多体および平均場エネルギーと粒子あたりの密度は一致し、凝縮率は100\%である。 含意は簡潔に議論される。

The ground state of a rotating Bose-Einstein condensate trapped in a two-dimensional anharmonic--anisotropic potential is analyzed numerically at the limit of an infinite number of particles. We find that the density breaks up along the $x$ direction in position space and along the $p_y$ direction in momentum space together with the acquisition of angular momentum. Side by side, the anisotropies of the many-particle position variances along the $x$ and $y$ directions and of the many-particle momentum variances along the $p_y$ and $p_x$ directions become opposite when computed at the many-body and mean-field levels of theory. All in all, the rotating bosons are found to possess unique correlations at the limit of an infinite number of particles, both in position and momentum spaces, although their many-body and mean-field energies per particle and densities per particle coincide and the condensate fraction is 100\%. Implications are briefly discussed.
翻訳日:2024-01-31 14:40:28 公開日:2024-01-30
# n次元非可換gup量子化とbianchi iモデルへの応用

n-dimensional non-commutative GUP quantization and application to the Bianchi I model ( http://arxiv.org/abs/2401.17113v1 )

ライセンス: Link先を確認
Sebastiano Segreto, Giovanni Montani(参考訳) 我々は、構成変数の非可換性によって特徴づけられるn次元一般化不確実性原理(GUP)量子化フレームワークを分析する。 まず、一つの方向のみに極端に局所化されている状態の集合を、他の全ての方向において局所化を減らして特定する。 その後、構成空間全体の局在化に関する情報を復元するために、適切な翻訳演算子を用いて、各方向に同時に最大局在化を示す理論の唯一の状態を用いて、満足のいく準位置表現を構築する。 結果として得られる量子フレームワークは、ビアンキi宇宙論の力学をモデル化するために適用される。 対応するホイーラー・デウィット方程式は、ヴィレンキンのシナリオに従って、宇宙の体積のような変数の WKB 表現を用いて、2つの異方性次数に対してシュリンガー力学に還元される。 構成された量子理論の宇宙論的実装の主な結果は、準位変数で表される構成空間のどこかの点で波動パケットのダイナミクスがいかにピークに達したかを示しており、通常の量子理論と比較すると、比較的長い時間、最も可能性の高い構成として好まれる。 この選好は、2つの量子理論における波束によって示される異なる振る舞いのダイナミクスから生じる。

We analyse a n-dimensional Generalized Uncertainty Principle (GUP) quantization framework, characterized by a non-commutative nature of the configurational variables. First, we identify a set of states which are maximally localized only along a single direction, at the expense of being less localized in all the other ones. Subsequently, in order to recover information about localization on the whole configuration space, we use the only state of the theory which exhibits maximal localization simultaneously in every direction to construct a satisfactory quasi-position representation, by virtue of a suitable translational operator. The resultant quantum framework is then applied to model the dynamics of the Bianchi I cosmology. The corresponding Wheeler-DeWitt equation is reduced to Schr\"odinger dynamics for the two anisotropy degrees of freedom, using a WKB representation for the volume-like variable of the Universe, in accordance with the Vilenkin scenario. The main result of our cosmological implementation of the constructed quantum theory demonstrates how the dynamics of a wave packet peaked at some point in the configuration space represented in the quasi-position variables, favours as the most probable configuration exactly the initial one for a relatively long time, if compared with the ordinary quantum theory. This preference arises from the distinct behavioral dynamics exhibited by wave packets in the two quantum theories.
翻訳日:2024-01-31 14:33:29 公開日:2024-01-30
# ニューラル・スタイル・トランスファーの評価 : 概観

Evaluation in Neural Style Transfer: A Review ( http://arxiv.org/abs/2401.17109v1 )

ライセンス: Link先を確認
Eleftherios Ioannou and Steve Maddock(参考訳) ニューラル・スタイル・トランスファー(NST)の分野は、芸術的、フォトリアリスティックなイメージと例外的な品質の動画を合成できるアプローチによって、ここ数年で顕著な進歩を遂げてきた。 これらの結果を評価するために、左右比較に基づく著者の意見、参加者の主観的判断を定量化する人的評価研究、アルゴリズムの性能の異なる側面を客観的に評価する数量的数値メトリクスなど、評価方法や指標の多様な景観が用いられる。 しかし、結果の信頼性を保証できる最も適切かつ効果的な評価手順については合意が得られていない。 本稿では,既存の評価手法を詳細に分析し,現在の評価手法の不整合と限界を特定し,標準化された評価手法の推奨を行う。 頑健な評価フレームワークの開発は,NST手法のより意味のある,より公平な比較を可能にするだけでなく,この分野における研究成果の理解と解釈を促進できると考えている。

The field of Neural Style Transfer (NST) has witnessed remarkable progress in the past few years, with approaches being able to synthesize artistic and photorealistic images and videos of exceptional quality. To evaluate such results, a diverse landscape of evaluation methods and metrics is used, including authors' opinions based on side-by-side comparisons, human evaluation studies that quantify the subjective judgements of participants, and a multitude of quantitative computational metrics which objectively assess the different aspects of an algorithm's performance. However, there is no consensus regarding the most suitable and effective evaluation procedure that can guarantee the reliability of the results. In this review, we provide an in-depth analysis of existing evaluation techniques, identify the inconsistencies and limitations of current evaluation methods, and give recommendations for standardized evaluation practices. We believe that the development of a robust evaluation framework will not only enable more meaningful and fairer comparisons among NST methods but will also enhance the comprehension and interpretation of research findings in the field.
翻訳日:2024-01-31 14:33:04 公開日:2024-01-30
# H-SynEx:視床下部領域分割のための合成画像と超高分解能生体外MRI

H-SynEx: Using synthetic images and ultra-high resolution ex vivo MRI for hypothalamus subregion segmentation ( http://arxiv.org/abs/2401.17104v1 )

ライセンス: Link先を確認
Livia Rodrigues, Martina Bocchetta, Oula Puonti, Douglas Greve, Ana Carolina Londe, Marcondes Fran\c{c}a, Simone Appenzeller, Juan Eugenio Iglesias, Leticia Rittner(参考訳) 目的: 超高分解能mri(ultra-high resolution ex vivo magnetic resonance image)による視床下部部分領域の自動分割法を開発すること。 材料と方法:我々は,超高解像度ex vivomriスキャンから作成したラベルマップから得られた合成画像を用いて,深層学習法h-synexを訓練した。 6つのデータセットと6つのmriシークエンスから1535個のin vivo画像を用いて、この振り返り調査を行った。 Dice Coefficient (DC) と Average Hausdorff distance (AVD) を用いた定量的評価を行った。 統計学的には, 対照群, アルツハイマー病群, 行動変異型前頭葉認知症群 (bvftd) の視床下部サブリージョン容積を, 曲線下領域 (auc) とウィルコクソンランクサムテストを用いて比較した。 結果: H-SynExは視床下部を様々なMRIシークエンスに区分し, FLAIRシークエンスを有意なスライス間隔(5mm)で含む。 t1w画像上の視床下部容積を用いてad患者とbvftd患者を区別し,それぞれ0.74および0.79のauc値を認めた。 さらにAUC=0.66は、コントロールと非患者の比較においてFLAIRスキャンの体積変化が認められた。 結論: H-SynExはT1w, T2w, PD, qT1, FA, FLAIRなどのMRI画像から, 超高分解能スキャンの情報をインビボで抽出することに成功した。 また,5mm間隔のFLAIR画像では,自動セグメンテーションによりコントロールの識別が可能であった。 H-SynExはhttps://github.com/liviamarodrigues/hsynex.comで公開されている。

Purpose: To develop a method for automated segmentation of hypothalamus subregions informed by ultra-high resolution ex vivo magnetic resonance images (MRI), which generalizes across MRI sequences and resolutions without retraining. Materials and Methods: We trained our deep learning method, H-synEx, with synthetic images derived from label maps built from ultra-high resolution ex vivo MRI scans, which enables finer-grained manual segmentation when compared with 1mm isometric in vivo images. We validated this retrospective study using 1535 in vivo images from six datasets and six MRI sequences. The quantitative evaluation used the Dice Coefficient (DC) and Average Hausdorff distance (AVD). Statistical analysis compared hypothalamic subregion volumes in controls, Alzheimer's disease (AD), and behavioral variant frontotemporal dementia (bvFTD) subjects using the area under the curve (AUC) and Wilcoxon rank sum test. Results: H-SynEx can segment the hypothalamus across various MRI sequences, encompassing FLAIR sequences with significant slice spacing (5mm). Using hypothalamic volumes on T1w images to distinguish control from AD and bvFTD patients, we observed AUC values of 0.74 and 0.79 respectively. Additionally, AUC=0.66 was found for volume variation on FLAIR scans when comparing control and non-patients. Conclusion: Our results show that H-SynEx successfully leverages information from ultra-high resolution scans to segment in vivo from different MRI sequences such as T1w, T2w, PD, qT1, FA, and FLAIR. We also found that our automated segmentation was able to discriminate controls versus patients on FLAIR images with 5mm spacing. H-SynEx is openly available at https://github.com/liviamarodrigues/hsynex.
翻訳日:2024-01-31 14:32:45 公開日:2024-01-30
# MT-Ranker: システム間ランキングによる参照不要機械翻訳の評価

MT-Ranker: Reference-free machine translation evaluation by inter-system ranking ( http://arxiv.org/abs/2401.17099v1 )

ライセンス: Link先を確認
Ibraheem Muhammad Moosa, Rui Zhang, Wenpeng Yin(参考訳) 伝統的に、機械翻訳(MT)評価は回帰問題として扱われ、絶対的な翻訳品質スコアを生み出している。 このアプローチには2つの制限があります 一 スコアが解釈性に乏しく、かつ、人間の注釈家が一貫したスコアを与えるのに苦しむこと。 二 ほとんどのスコアリング手法は(参照、翻訳)ペアに基づいており、参照がない現実のシナリオにおいて適用性を制限する。 実際に私たちは、新しいMTシステムが競合相手よりも良いのか悪いのかをよく気にしています。 さらに,基準のないMT評価はますます実用的かつ必要である。 残念ながら、これらの2つの実践的考察はいまだに共同で検討されていない。 本研究では,基準のないMT評価をペアランキング問題に定式化する。 原文と一対の翻訳を考えると、システムはどの翻訳が良いかを予測する。 この新しい定式化の提案に加えて, 自然言語推論からの間接的監督と, 合成データからの弱い監督によって, 人間の判断と優れた相関性を示すことができることを示した。 参照なし評価の文脈では、MT-Rankerは人間のアノテーションなしで訓練され、WMT Shared Metrics TaskベンチマークDARR20、MQM20、MQM21で最先端の結果を得る。 より難しいベンチマークでは、追加、省略、誤訳エラーなどのきめ細かい評価基準を含むACESで、MT-Rankerは参照なしおよび参照ベースラインに対して最先端をマークする。

Traditionally, Machine Translation (MT) Evaluation has been treated as a regression problem -- producing an absolute translation-quality score. This approach has two limitations: i) the scores lack interpretability, and human annotators struggle with giving consistent scores; ii) most scoring methods are based on (reference, translation) pairs, limiting their applicability in real-world scenarios where references are absent. In practice, we often care about whether a new MT system is better or worse than some competitors. In addition, reference-free MT evaluation is increasingly practical and necessary. Unfortunately, these two practical considerations have yet to be jointly explored. In this work, we formulate the reference-free MT evaluation into a pairwise ranking problem. Given the source sentence and a pair of translations, our system predicts which translation is better. In addition to proposing this new formulation, we further show that this new paradigm can demonstrate superior correlation with human judgments by merely using indirect supervision from natural language inference and weak supervision from our synthetic data. In the context of reference-free evaluation, MT-Ranker, trained without any human annotations, achieves state-of-the-art results on the WMT Shared Metrics Task benchmarks DARR20, MQM20, and MQM21. On a more challenging benchmark, ACES, which contains fine-grained evaluation criteria such as addition, omission, and mistranslation errors, MT-Ranker marks state-of-the-art against reference-free as well as reference-based baselines.
翻訳日:2024-01-31 14:32:09 公開日:2024-01-30
# charnet:高複雑度キャラクタ分類のための一般化アプローチ

CharNet: Generalized Approach for High-Complexity Character Classification ( http://arxiv.org/abs/2401.17098v1 )

ライセンス: Link先を確認
Boris Kriuk(参考訳) 手書き文字認識(HCR)は、機械学習研究者にとって難しい問題である。 印刷されたテキストデータとは異なり、手書き文字データセットは人為的バイアスによりよりバリエーションがある。 多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。 このようなデータセットの分類タスクでは、モデルが類似した特徴を持つ画像の複雑な詳細を学ぶ必要がある。 近年の計算資源の可用性の向上とコンピュータビジョン理論の開発により、一部の研究チームはこの問題に対処している。 高効率を達成することで知られているが、多くの一般的なアプローチはまだ一般化されておらず、より良い結果を得るためにデータセット固有のソリューションを使用する。 複雑な構造と高い計算要求のため、既存の手法はしばしばソリューションの人気を妨げている。 本稿では,文字画像の詳細な分類のための簡易で汎用的で高効率なアプローチ(CharNet)を提案し,その性能を既存手法と比較する。

Handwritten character recognition (HCR) is a challenging problem for machine learning researchers. Unlike printed text data, handwritten character datasets have more variation due to human-introduced bias. With numerous unique character classes present, some data, such as Logographic Scripts or Sino-Korean character sequences, bring new complications to the HCR problem. The classification task on such datasets requires the model to learn high-complexity details of the images that share similar features. With recent advances in computational resource availability and further computer vision theory development, some research teams have effectively addressed the arising challenges. Although known for achieving high efficiency, many common approaches are still not generalizable and use dataset-specific solutions to achieve better results. Due to complex structure and high computing demands, existing methods frequently prevent the solutions from gaining popularity. This paper proposes a straightforward, generalizable, and highly effective approach (CharNet) for detailed character image classification and compares its performance to that of existing approaches.
翻訳日:2024-01-31 14:31:45 公開日:2024-01-30
# データ駆動マクロモデルによる未観測ネットワーク位置のトラフィック推定

Traffic estimation in unobserved network locations using data-driven macroscopic models ( http://arxiv.org/abs/2401.17095v1 )

ライセンス: Link先を確認
Pablo Guarda, Sean Qian(参考訳) 本稿では,自動トラヒックカウンタおよびプローブ車両から収集したマクロモデルと多源時空間データを用いて,これらの測定が利用できないリンク内のトラヒックフローと走行時間を正確に推定する。 この問題は、センサカバレッジが低く、計画された介入がネットワーク全体に影響を及ぼす輸送計画アプリケーションにおいて重要である。 提案手法はマクロトラヒック推定器 (mate) と呼ばれ, 観測された測定値のセットのみを用いて, トラヒックフローとトラヒックタイムのネットワークワイド推定を行うことができる。 MaTEはマクロフロー理論に基礎を置いているため、全てのパラメータと変数は解釈可能である。 推定トラフィックフローは, 基本流量の制約を満たすとともに, 推定走行時間とモノトニックな関係を示す。 ルーティングフローの挙動の原理としてロジットベースの確率的トラフィック割り当てを用いることで、モデルはモデルパラメータに関して完全に微分可能である。 この性質は、膨大な時空間データからパラメータを学習するための計算グラフの応用を促進する。 また,リンクフロー相互作用をキャプチャし,トラヒックフローの移動時間へのマッピングを強化するために,ニューラルネットワークと多項式カーネル関数を統合する。 MaTEはまた、目的地選択モデルと、位置情報によって生成された旅行数に関する履歴データを使用する旅行生成モデルも追加する。 合成データを用いた実験により, サンプル外リンクの走行時間と交通流を正確に推定できることがわかった。 大規模輸送ネットワークから実世界のマルチソースデータを用いて得られた結果は,特に旅行時間推定において,MaTEがデータ駆動ベンチマークより優れていることを示唆している。 mateの推定パラメータは、交通網の交通需要と供給特性の時間的変化についても有益である。

This paper leverages macroscopic models and multi-source spatiotemporal data collected from automatic traffic counters and probe vehicles to accurately estimate traffic flow and travel time in links where these measurements are unavailable. This problem is critical in transportation planning applications where the sensor coverage is low and the planned interventions have network-wide impacts. The proposed model, named the Macroscopic Traffic Estimator (MaTE), can perform network-wide estimations of traffic flow and travel time only using the set of observed measurements of these quantities. Because MaTE is grounded in macroscopic flow theory, all parameters and variables are interpretable. The estimated traffic flow satisfies fundamental flow conservation constraints and exhibits an increasing monotonic relationship with the estimated travel time. Using logit-based stochastic traffic assignment as the principle for routing flow behavior makes the model fully differentiable with respect to the model parameters. This property facilitates the application of computational graphs to learn parameters from vast amounts of spatiotemporal data. We also integrate neural networks and polynomial kernel functions to capture link flow interactions and enrich the mapping of traffic flows into travel times. MaTE also adds a destination choice model and a trip generation model that uses historical data on the number of trips generated by location. Experiments on synthetic data show that the model can accurately estimate travel time and traffic flow in out-of-sample links. Results obtained using real-world multi-source data from a large-scale transportation network suggest that MaTE outperforms data-driven benchmarks, especially in travel time estimation. The estimated parameters of MaTE are also informative about the hourly change in travel demand and supply characteristics of the transportation network.
翻訳日:2024-01-31 14:31:30 公開日:2024-01-30
# StrokeNUWA:ベクトルグラフ合成のためのトークン化ストローク

StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis ( http://arxiv.org/abs/2401.17093v1 )

ライセンス: Link先を確認
Zecheng Tang, Chenfei Wu, Zekai Zhang, Mingheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan(参考訳) LLMを視覚合成に利用するために、従来の手法では、ラスター画像情報を特殊な視覚モジュールを通して離散グリッドトークンに変換するが、モデルが視覚シーンの真の意味表現をキャプチャする能力を損なう。 本稿では,画像情報のより自然なセグメンテーションとセマンティックなセグメンテーションを可能にすることにより,画像の代替表現であるベクトルグラフィックスが,この制限を効果的に克服できることを示す。 そこで我々は,ベクトルグラフィックス上でより優れた視覚表現「ストロークトークン」を探索する先駆的な研究であるStrokeNUWAを紹介した。 ストロークトークンを備えたStrokeNUWAは、ベクトルグラフィック生成タスクにおいて、様々なメトリクスにわたる従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。 さらに、 strokenuwaは以前のメソッドの速度よりも94倍のスピードアップを実現し、例外的なsvgコード圧縮比は6.9%である。

To leverage LLMs for visual synthesis, traditional methods convert raster image information into discrete grid tokens through specialized visual modules, while disrupting the model's ability to capture the true semantic representation of visual scenes. This paper posits that an alternative representation of images, vector graphics, can effectively surmount this limitation by enabling a more natural and semantically coherent segmentation of the image information. Thus, we introduce StrokeNUWA, a pioneering work exploring a better visual representation ''stroke tokens'' on vector graphics, which is inherently visual semantics rich, naturally compatible with LLMs, and highly compressed. Equipped with stroke tokens, StrokeNUWA can significantly surpass traditional LLM-based and optimization-based methods across various metrics in the vector graphic generation task. Besides, StrokeNUWA achieves up to a 94x speedup in inference over the speed of prior methods with an exceptional SVG code compression ratio of 6.9%.
翻訳日:2024-01-31 14:31:04 公開日:2024-01-30
# NNOSE:最寄りの職業スキル抽出

NNOSE: Nearest Neighbor Occupational Skill Extraction ( http://arxiv.org/abs/2401.17092v1 )

ライセンス: Link先を確認
Mike Zhang and Rob van der Goot and Min-Yen Kan and Barbara Plank(参考訳) 労働市場は急速に変化しており、テキストから職業スキルの自動抽出への関心が高まっている。 英語のベンチマークジョブ記述データセットの出現に伴い、多様性をうまく扱えるシステムが必要である。 作業用スキルデータセットタスクの複雑さ - 複数のデータセットを組み合わせてスキル抽出し、データセット内で稀に観察されるスキルを特定し、データセット間のスキル不足を克服する。 特に,類似したスキルをデータセット統一的に検索するために,外部データストアを用いた言語モデルの検索・拡張について検討する。 提案手法である \textbf{n}earest \textbf{n}eighbor \textbf{o}ccupational \textbf{s}kill \textbf{e}xtraction (nnose)は,データストア内の他のデータセットから隣り合うスキルを検索することによって,複数のデータセットを効果的に活用する。 これにより、スキル抽出 \emph{without} の微調整も改善される。 重要となるのは,不適切なパターンの予測におけるパフォーマンス向上であり,データ横断設定ではスパン-f1が最大30\%向上する点である。

The labor market is changing rapidly, prompting increased interest in the automatic extraction of occupational skills from text. With the advent of English benchmark job description datasets, there is a need for systems that handle their diversity well. We tackle the complexity in occupational skill datasets tasks -- combining and leveraging multiple datasets for skill extraction, to identify rarely observed skills within a dataset, and overcoming the scarcity of skills across datasets. In particular, we investigate the retrieval-augmentation of language models, employing an external datastore for retrieving similar skills in a dataset-unifying manner. Our proposed method, \textbf{N}earest \textbf{N}eighbor \textbf{O}ccupational \textbf{S}kill \textbf{E}xtraction (NNOSE) effectively leverages multiple datasets by retrieving neighboring skills from other datasets in the datastore. This improves skill extraction \emph{without} additional fine-tuning. Crucially, we observe a performance gain in predicting infrequent patterns, with substantial gains of up to 30\% span-F1 in cross-dataset settings.
翻訳日:2024-01-31 14:30:45 公開日:2024-01-30
# 独立針先端源からの自由空間における電子のハンベリー・ブラウンとtwiss干渉

Hanbury Brown and Twiss interference of electrons in free space from independent needle tip sources ( http://arxiv.org/abs/2401.17088v1 )

ライセンス: Link先を確認
Anton Classen, Raul Corr\^ea, Florian Fleischmann, Simon Semmler, Marc-Oliver Pleinert, Peter Hommelhoff, Joachim von Zanthier(参考訳) 2つのレーザートリガー針先端を独立した電子源として自由空間における2電子干渉を調べ,ハンベリー・ブラウンとtwiss干渉計のフェルミオン化を行った。 フェルミオンの性質と電子のスピン配置を考慮した量子パス形式における2電子干渉パターンを計算する。 また,半古典的アプローチにより,セットアップのクーロン反発を推定した。 反バンチングはパウリの排他原理とクーロン相互作用に起因する反発をはっきりと区別することができる。

We investigate two-electron interference in free space using two laser-triggered needle tips as independent electron sources, a fermionic realisation of the landmark Hanbury Brown and Twiss interferometer. We calculate the two-electron interference pattern in a quantum path formalism taking into account the fermionic nature and the spin configuration of the electrons. We also estimate the Coulomb repulsion in the setup in a semiclassical approach. We find that antibunching resulting from Pauli's exclusion principle and repulsion stemming from the Coulomb interaction can be clearly distinguished.
翻訳日:2024-01-31 14:30:21 公開日:2024-01-30
# 行動認識のためのヒト骨格のアクティブ生成ネットワーク

Active Generation Network of Human Skeleton for Action Recognition ( http://arxiv.org/abs/2401.17086v1 )

ライセンス: Link先を確認
Long Liu, Xin Wang, Fangming Li, Jiayu Chen(参考訳) データ生成は、骨格に基づく人間の行動認識の一般化能力を高めるためのデータ拡張技術である。 既存のデータ生成手法の多くは、動的情報の時間的一貫性を確保するための課題に直面している。 さらに、これらの方法によって生成されたデータは、少数のトレーニングサンプルしか利用できない場合、多様性を欠いている。 そこで本研究では,特定の動作に関するデータが1つのサンプルまたは数個のサンプルである場合に,動作スタイル転送によって適応的に様々なアクションカテゴリを学習し,新たなアクションを生成する新しいアクティブジェネレーティブネットワーク(agn)を提案する。 AGNはアクション生成ネットワークと不確実性メトリックネットワークで構成される。 前者はST-GCNをバックボーンとして、ソースアクションのカテゴリの特徴を保持しながら、ターゲットアクションの形態的特徴を暗黙的に学習することができる。 後者はアクションを生成する。 具体的には、アクション認識モデルが各アクションに対する予測ベクトルを生成し、不確実性メトリックを用いてスコア付けする。 最後に、UMNは生成されたアクションに対する不確実性サンプリングベースを提供する。

Data generation is a data augmentation technique for enhancing the generalization ability for skeleton-based human action recognition. Most existing data generation methods face challenges to ensure the temporal consistency of the dynamic information for action. In addition, the data generated by these methods lack diversity when only a few training samples are available. To solve those problems, We propose a novel active generative network (AGN), which can adaptively learn various action categories by motion style transfer to generate new actions when the data for a particular action is only a single sample or few samples. The AGN consists of an action generation network and an uncertainty metric network. The former, with ST-GCN as the Backbone, can implicitly learn the morphological features of the target action while preserving the category features of the source action. The latter guides generating actions. Specifically, an action recognition model generates prediction vectors for each action, which is then scored using an uncertainty metric. Finally, UMN provides the uncertainty sampling basis for the generated actions.
翻訳日:2024-01-31 14:30:11 公開日:2024-01-30
# adiabatic thouless pumpingへの近道

Shortcuts to adiabatic Thouless pumping ( http://arxiv.org/abs/2401.17081v1 )

ライセンス: Link先を確認
Wenjie Liu and Yongguan Ke and Chaohong Lee(参考訳) 循環的断熱進化における粒子の量子化輸送であるThouless pumpingは、遅い運転はコヒーレント時間を超え、速い運転は量子化を損なうという課題に直面している。 このジレンマに対処するために,ショートカットによるThoulessポンプの高速化を提案する。 逆ダイアバティック理論を用いて, 制御ハミルトニアンを解析的に導出した。 興味深いことに、我々の高速なトポロジカルポンプ法は、従来のThoulessポンプ法と比較して10$^{-11}$の順序でポンプ時間を大幅に短縮することができる。 さらに,中程度の騒音レベルに対するプロトコルのレジリエンスを実証する。 提案手法は, 断熱体制を超えて高速なトポロジカルポンピングを実現するための実用的で効率的な方法である。

Thouless pumping, the quantized transport of particles in a cyclic adiabatic evolution, faces a challenge: slow driving may exceed the coherent time, while fast driving may compromise quantization. To address this dilemma, we propose expediting Thouless pumping using shortcuts to adiabaticity. By using counterdiabatic theory, we analytically derive the controlled Hamiltonian for implementing Thouless pumping beyond the adiabatic regime. Remarkably, our fast topological pumping approach allows for a significant reduction in pumping time to orders of magnitude on the order of 10$^{-11}$ when compared to traditional Thouless pumping. Furthermore, we demonstrate the resilience of our protocols against moderate noise levels. Our proposed approach offers a practical and efficient method for achieving fast topological pumping beyond the adiabatic regime.
翻訳日:2024-01-31 14:29:56 公開日:2024-01-30
# 潜在状態制御による動的生存状態の解析

Dynamical Survival Analysis with Controlled Latent States ( http://arxiv.org/abs/2401.17077v1 )

ライセンス: Link先を確認
Linus Bleistein, Van-Tuan Nguyen, Adeline Fermanian, Agathe Guilloux(参考訳) 静的な変数と不規則にサンプリングされた時系列の集合から,各プロセスの個々固有のインテンシティを学習するタスクを考察する。 制御された微分方程式の解となる強度をモデル化する新しい手法を導入する。 まず、ニューラルネットワーク制御微分方程式に基づくニューラルネットワーク推定器を設計する。 2回目では, 十分な正則性条件下でシグネチャ空間においてモデルが線形化できることを示し, coxsig と呼ぶシグネチャに基づく推定器を生成する。 我々は,金融,予測保守,食品サプライチェーン管理から,シミュレーションおよび実世界の膨大なデータセット上で,モデルの性能を示す前に,両者の理論的学習保証を提供する。

We consider the task of learning individual-specific intensities of counting processes from a set of static variables and irregularly sampled time series. We introduce a novel modelization approach in which the intensity is the solution to a controlled differential equation. We first design a neural estimator by building on neural controlled differential equations. In a second time, we show that our model can be linearized in the signature space under sufficient regularity conditions, yielding a signature-based estimator which we call CoxSig. We provide theoretical learning guarantees for both estimators, before showcasing the performance of our models on a vast array of simulated and real-world datasets from finance, predictive maintenance and food supply chain management.
翻訳日:2024-01-31 14:29:45 公開日:2024-01-30
# 非中央パノラマ屋内データセット

Non-central panorama indoor dataset ( http://arxiv.org/abs/2401.17075v1 )

ライセンス: Link先を確認
Bruno Berenguel-Baeta, Jesus Bermudez-Cameo, Jose J. Guerrero(参考訳) Omnidirectional Imageは、学習に基づくシーン理解アルゴリズムの主要な情報源の1つである。 しかしながら、全方位画像の注釈付きデータセットは、これらの学習に基づくアルゴリズム開発のペースを維持することができない。 異なるパノラマや標準中心パノラマとは対照的に、非中央パノラマは画像の歪みの幾何学的情報を提供し、そこから環境の3D情報を取得することができる[2]。 しかし、商用の非中央デバイスが不足していたため、これまでこの種のパノラマのデータセットは存在しなかった。 本稿では,屋内シーン理解のための非中央パノラマのデータセットについて述べる。 データセットは、約650の異なる部屋から採取されたRGBの非中央パノラマによって構成される。 それぞれのパノラマは、奥行きマップとアノテーションを関連付けて、画像から構造エッジマップ、画像内のコーナーのリスト、部屋の3Dコーナー、カメラのポーズとして部屋のレイアウトを取得する。 画像はフォトリアリスティックな仮想環境から撮影され、ピクセル単位で自動的に注釈付けされる。

Omnidirectional images are one of the main sources of information for learning based scene understanding algorithms. However, annotated datasets of omnidirectional images cannot keep the pace of these learning based algorithms development. Among the different panoramas and in contrast to standard central ones, non-central panoramas provide geometrical information in the distortion of the image from which we can retrieve 3D information of the environment [2]. However, due to the lack of commercial non-central devices, up until now there was no dataset of these kinds of panoramas. In this data paper, we present the first dataset of non-central panoramas for indoor scene understanding. The dataset is composed by {\bf 2574} RGB non-central panoramas taken in around 650 different rooms. Each panorama has associated a depth map and annotations to obtain the layout of the room from the image as a structural edge map, list of corners in the image, the 3D corners of the room and the camera pose. The images are taken from photorealistic virtual environments and pixel-wise automatically annotated.
翻訳日:2024-01-31 14:29:35 公開日:2024-01-30
# SemScore:意味的テクスチャ類似性に基づく指導型LLMの自動評価

SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity ( http://arxiv.org/abs/2401.17072v1 )

ライセンス: Link先を確認
Ansar Aynetdinov, Alan Akbik(参考訳) 命令調整型大規模言語モデル(llms)は、最近、自然言語命令に適合した応答を生成する能力の顕著な進歩を見せている。 しかし、現在の多くの研究は、生成された応答の品質を判断するために手作業による評価に依存している。 このような手作業による評価は時間を要するため、複数のモデルやモデル変種の評価に容易にスケールできない。 本稿では,セムスコア(SemScore)という,モデル出力とゴールドターゲット応答を直接意味的テキスト類似度(STS)を用いて比較する手法を提案する。 テキスト生成のための8種類の評価指標を用いて12個の著名な命令調整llmのモデル出力の比較評価を行った。 提案したSemScore測定基準は,人間の評価と相関関係において,より複雑な評価指標よりも優れていることがわかった。 これらの結果から,提案手法の有効性が示唆された。

Instruction-tuned Large Language Models (LLMs) have recently showcased remarkable advancements in their ability to generate fitting responses to natural language instructions. However, many current works rely on manual evaluation to judge the quality of generated responses. Since such manual evaluation is time-consuming, it does not easily scale to the evaluation of multiple models and model variants. In this short paper, we propose a straightforward but remarkably effective evaluation metric called SemScore, in which we directly compare model outputs to gold target responses using semantic textual similarity (STS). We conduct a comparative evaluation of the model outputs of 12 prominent instruction-tuned LLMs using 8 widely-used evaluation metrics for text generation. We find that our proposed SemScore metric outperforms all other, in many cases more complex, evaluation metrics in terms of correlation to human evaluation. These findings indicate the utility of our proposed metric for the evaluation of instruction-tuned LLMs.
翻訳日:2024-01-31 14:29:18 公開日:2024-01-30
# 移動不純物の作用素ダイナミクスにおけるマルコフから非マルコフ相転移

Markovian to non-Markovian phase transition in the operator dynamics of a mobile impurity ( http://arxiv.org/abs/2401.17066v1 )

ライセンス: Link先を確認
Dominic Gribben, Jamir Marino, Shane P. Kelly(参考訳) カオス媒質中を移動する不純物のランダムユニタリ回路モデルについて検討した。 不純物の速度を変化させることにより、媒体内の情報伝達速度に対する$v_d$、媒体と不純物との間の情報の交換を制御する$v_b$。 超音速速度より上の$v_d> v_B$では、情報が媒体に移動した後に不純物に戻ることができず、結果として得られるダイナミクスはマルコビアンである。 超音速速度以下では、$v_d< v_B$、不純物と媒体のダイナミクスは非マルコフ的であり、不純物に情報を流すことができる。 この2つのレジームは連続相転移によって分離され, 媒質中の作用素の拡散と直接関係する指数を持つ。 これは、不純物が中間時間で置換されるシナリオにおいて、OTOC(Out-of-time-order correlator)を監視することで実証される。 マルコフ相の間、媒質からの情報は置換された不純物に転送できず、重要な演算子開発は見られない。 逆に、非マルコフ位相では、作用素が新しく導入された不純物のサポートを取得することが観察される。 また、コヒーレント情報を用いてダイナミクスを特徴付け、マルコフ情報フローと非マルコフ情報フローの遷移を効率的に探究できる2つのデコーダを提供する。 我々はマルコフ力学と非マルコフ力学を位相遷移で分離できることを示し、この遷移を観測するための効率的なプロトコルを提案する。

We study a random unitary circuit model of an impurity moving through a chaotic medium. By varying the velocity of the impurity, $v_d$, relative to the speed of information propagation within the medium, $v_B$, we control the exchange of information between the medium and impurity. Above supersonic velocities, $v_d> v_B$, information cannot flow back to the impurity after it has moved into the medium, and the resulting dynamics are Markovian. Below supersonic velocities, $v_d< v_B$, the dynamics of the impurity and medium are non-Markovian, and information is able to flow back onto the impurity. We show the two regimes are separated by a continuous phase transition with exponents directly related to the diffusive spreading of operators in the medium. This is demonstrated by monitoring an out-of-time-order correlator (OTOC) in a scenario where the impurity is substituted at an intermediate time. During the Markovian phase, information from the medium cannot transfer onto the replaced impurity, manifesting in no significant operator development. Conversely, in the non-Markovian phase, we observe that operators acquire support on the newly introduced impurity. We also characterize the dynamics using the coherent information and provide two decoders which can efficiently probe the transition between Markovian and non-Markovian information flow. Our work demonstrates that Markovian and non-Markovian dynamics can be separated by a phase transition, and we propose an efficient protocol for observing this transition.
翻訳日:2024-01-31 14:29:01 公開日:2024-01-30
# 静的プロファイルマッチング

Stale Profile Matching ( http://arxiv.org/abs/2401.17168v1 )

ライセンス: Link先を確認
Amir Ayupov and Maksim Panchenko and Sergey Pupyrev(参考訳) プロファイル誘導最適化は、最適化されたコードを生成するためにコンパイラを指示するプロファイルデータに依存する。 最大パフォーマンス向上を達成するためには、最適化されているバイナリの同じバージョンでプロファイルデータを収集する必要がある。 しかし実際には、一般的にプロファイルコレクションとリリースの間にはギャップがあり、プロファイルの一部が最適化のために無効になる。 この現象はプロファイルの安定性として知られており、コンパイラとバイナリオプティマイザの両方でデータセンターのワークロードに深刻な問題となる。 そこで本研究では,いくつかの修正版から構築したバイナリ上で収集したプロファイルを活用するための,最初の実用的なソリューションを提案する。 提案アルゴリズムは,主要なオープンソースポストリンクオプティマイザであるBOLTで開発,実装されている。 様々なスタンドアロンベンチマークとプロダクションサービスの広範な評価は、入力プロファイルデータの大半が不安定で、オプティマイザによって破棄されたとしても、新しい手法がBOLTの最大利益の最大0.8ドルまで回復することを示している。

Profile-guided optimizations rely on profile data for directing compilers to generate optimized code. To achieve the maximum performance boost, profile data needs to be collected on the same version of the binary that is being optimized. In practice however, there is typically a gap between the profile collection and the release, which makes a portion of the profile invalid for optimizations. This phenomenon is known as profile staleness, and it is a serious practical problem for data-center workloads both for compilers and binary optimizers. In this paper we thoroughly study the staleness problem and propose the first practical solution for utilizing profiles collected on binaries built from several revisions behind the release. Our algorithm is developed and implemented in a mainstream open-source post-link optimizer, BOLT. An extensive evaluation on a variety of standalone benchmarks and production services indicates that the new method recovers up to $0.8$ of the maximum BOLT benefit, even when most of the input profile data is stale and would have been discarded by the optimizer otherwise.
翻訳日:2024-01-31 14:21:58 公開日:2024-01-30
# 計画, 創造, 使用: 実世界の複合シナリオにおける総合ツール活用のためのLLMのベンチマーク

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios ( http://arxiv.org/abs/2401.17167v1 )

ライセンス: Link先を確認
Shijue Huang, Wanjun Zhong, Jianqiao Lu, Qi Zhu, Jiahui Gao, Weiwen Liu, Yutai Hou, Xingshan Zeng, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruifeng Xu, Qun Liu(参考訳) 現実世界のアプリケーションにおけるインテリジェントエージェントとしてLarge Language Models(LLM)を使用する最近のトレンドは、特に計画、作成、ツールの使用を含む複雑なシナリオにおいて、その能力の包括的な評価の必要性を強調している。 しかし、既存のベンチマークは通常、現実世界の複雑さを反映しない単純な合成クエリに焦点を合わせ、ツール利用の評価において限られた視点を提供する。 この問題に対処するために,現実シナリオにおけるツール利用におけるLLMの能力の向上と評価を目的とした,新しいベンチマークであるUltraToolを提案する。 UltraToolは、計画や作成から複雑なタスクに適用に至るまで、ツールを使用するプロセス全体に焦点を当てています。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価であり、中間ステップをマッピングしてタスク解決を単純化する。 したがって、以前の作業とは異なり、計画中の事前定義されたツールセットの制限をなくす。 様々なLSMに関する広範な実験を通じて、ツール利用におけるLSMの能力評価に関する新たな知見を提供し、この急速に発展する分野に新たな視点をもたらす。 ベンチマークはhttps://github.com/JoeYing1019/UltraTool.comで公開されている。

The recent trend of using Large Language Models (LLMs) as intelligent agents in real-world applications underscores the necessity for comprehensive evaluations of their capabilities, particularly in complex scenarios involving planning, creating, and using tools. However, existing benchmarks typically focus on simple synthesized queries that do not reflect real-world complexity, thereby offering limited perspectives in evaluating tool utilization. To address this issue, we present UltraTool, a novel benchmark designed to improve and evaluate LLMs' ability in tool utilization within real-world scenarios. UltraTool focuses on the entire process of using tools - from planning and creating to applying them in complex tasks. It emphasizes real-world complexities, demanding accurate, multi-step planning for effective problem-solving. A key feature of UltraTool is its independent evaluation of planning with natural language, which happens before tool usage and simplifies the task solving by mapping out the intermediate steps. Thus, unlike previous work, it eliminates the restriction of pre-defined toolset during planning. Through extensive experiments on various LLMs, we offer novel insights into the evaluation of capabilities of LLMs in tool utilization, thereby contributing a fresh perspective to this rapidly evolving field. The benchmark is publicly available at https://github.com/JoeYing1019/UltraTool.
翻訳日:2024-01-31 14:21:42 公開日:2024-01-30
# SMT戦略合成のための層状および段状モンテカルロ木探索

Layered and Staged Monte Carlo Tree Search for SMT Strategy Synthesis ( http://arxiv.org/abs/2401.17159v1 )

ライセンス: Link先を確認
Zhengyang Lu, Stefan Siemer, Piyush Jha, Joel Day, Florin Manea, Vijay Ganesh(参考訳) Z3のような現代のSMTソルバは、ユーザ制御可能な戦略を提供し、ユーザが独自のインスタンスセットをカスタマイズできるようにし、ユースケースにおけるソルバ性能を劇的に向上させる。 しかし、戦略カスタマイズのこのアプローチは大きな課題である: SMTインスタンスのクラスに対して最適化された戦略を手作りすることは、解決者開発者とユーザの両方にとって複雑で要求の多いタスクである。 本稿では,モンテカルロ木探索法(MCTS)を用いた自動SMT戦略合成の課題に対処する。 提案手法は,探索木が戦略空間に対応する逐次決定過程として戦略合成を扱い,MCTSを用いてこの広大な探索空間をナビゲートする。 コストを低く抑えながら,効果的な戦略を識別可能にする重要なイノベーションは,階層型および段階型mcts検索のアイデアである。 これらの新しいアプローチにより、戦略空間のより深い効率的な探索が可能となり、SOTA(State-of-the-art) SMTソルバのデフォルト戦略よりも効果的な戦略を合成できる。 z3smtソルバの一部としてz3alphaと呼ばれる手法を実装した。 Z3alphaは6つの重要なSMT論理の広範な評価を通じて、ほとんどのベンチマークにおいてデフォルトのZ3ソルバであるSOTA合成ツールであるFastSMTやCVC5ソルバよりも優れた性能を示す。 興味深いことに、難しいQF_BVベンチマークセットでは、Z3alphaはZ3 SMTソルバのデフォルト戦略よりも42.7%多くのインスタンスを解決している。

Modern SMT solvers, such as Z3, offer user-controllable strategies, enabling users to tailor them for their unique set of instances, thus dramatically enhancing solver performance for their use case. However, this approach of strategy customization presents a significant challenge: handcrafting an optimized strategy for a class of SMT instances remains a complex and demanding task for both solver developers and users alike. In this paper, we address this problem of automatic SMT strategy synthesis via a novel Monte Carlo Tree Search (MCTS) based method. Our method treats strategy synthesis as a sequential decision-making process, whose search tree corresponds to the strategy space, and employs MCTS to navigate this vast search space. The key innovations that enable our method to identify effective strategies, while keeping costs low, are the ideas of layered and staged MCTS search. These novel approaches allow for a deeper and more efficient exploration of the strategy space, enabling us to synthesize more effective strategies than the default ones in state-of-the-art (SOTA) SMT solvers. We implement our method, dubbed Z3alpha, as part of the Z3 SMT solver. Through extensive evaluations across 6 important SMT logics, Z3alpha demonstrates superior performance compared to the SOTA synthesis tool FastSMT, the default Z3 solver, and the CVC5 solver on most benchmarks. Remarkably, on a challenging QF_BV benchmark set, Z3alpha solves 42.7% more instances than the default strategy in the Z3 SMT solver.
翻訳日:2024-01-31 14:21:20 公開日:2024-01-30
# イベントベースビデオのためのオープンソフトウェアスイート

An Open Software Suite for Event-Based Video ( http://arxiv.org/abs/2401.17151v1 )

ライセンス: Link先を確認
Andrew C. Freeman(参考訳) 従来のビデオ表現は離散的な画像フレームを中心に構成されているが、イベントベースのビデオは画像フレームを完全に禁止する新しいパラダイムである。 むしろ、ピクセルサンプルは時間的に非同期であり、互いに独立している。 これまで研究者は、イベントベースのビデオの表現、圧縮、および応用を探索する凝集性ソフトウェアフレームワークを欠いていた。 私はこのギャップを埋めるためにAD$\Delta$ERソフトウェアスイートを提示します。 このフレームワークは、フレーム付きおよびマルチモーダルなイベントベースのビデオソースを共通の表現、レート制御機構、損失圧縮、アプリケーションサポート、およびトランスコーディングと再生のためのインタラクティブGUIに変換するユーティリティを含む。 本稿では,これらのソフトウェアコンポーネントとその利用について述べる。

While traditional video representations are organized around discrete image frames, event-based video is a new paradigm that forgoes image frames altogether. Rather, pixel samples are temporally asynchronous and independent of one another. Until now, researchers have lacked a cohesive software framework for exploring the representation, compression, and applications of event-based video. I present the AD$\Delta$ER software suite to fill this gap. This framework includes utilities for transcoding framed and multimodal event-based video sources to a common representation, rate control mechanisms, lossy compression, application support, and an interactive GUI for transcoding and playback. In this paper, I describe these various software components and their usage.
翻訳日:2024-01-31 14:20:55 公開日:2024-01-30
# GAISSALabel:MLモデルのエネルギーラベル付けツール

GAISSALabel: A tool for energy labeling of ML models ( http://arxiv.org/abs/2401.17150v1 )

ライセンス: Link先を確認
Pau Duran, Joel Casta\~no, Cristina G\'omez, Silverio Mart\'inez-Fern\'andez(参考訳) 背景: 情報技術,特に機械学習(ML)における環境影響の増大は,ソフトウェアエンジニアリングにおける持続可能なプラクティスの必要性を強調している。 MLモデルの複雑さの増大とエネルギー消費は、そのエネルギー効率を評価し改善するためのツールを必要とする。 Goal: 本稿では,MLモデルのエネルギー効率を評価し,評価するためのWebベースのツールであるGAISSALabelを紹介する。 方法:GAISSALabelはMLのエネルギー効率分類に関する以前の研究から得られた技術移転開発であり、パワードロー、モデルサイズ効率、CO2e排出などの様々な指標を考慮して、MLモデルのトレーニングと推論フェーズの両方を評価するための総合的なツールからなる。 結果:GAISSALabelは、消費者家電のラベルと同様、エネルギー効率のラベルシステムを提供しており、さまざまなバックグラウンドを持つML利害関係者にアクセスできる。 このツールの適応性は、提案されたラベルシステムのカスタマイズを可能にし、急速に進化するML分野におけるその関連性を保証する。 結論: GAISSALabelは持続可能なソフトウェアエンジニアリングにおける重要な一歩であり、高性能なMLモデルを環境への影響とバランスさせるソリューションを提供する。 このツールの有効性と市場関連性は、Technology Acceptance Modelを用いて計画された評価によってさらに評価される。

Background: The increasing environmental impact of Information Technologies, particularly in Machine Learning (ML), highlights the need for sustainable practices in software engineering. The escalating complexity and energy consumption of ML models need tools for assessing and improving their energy efficiency. Goal: This paper introduces GAISSALabel, a web-based tool designed to evaluate and label the energy efficiency of ML models. Method: GAISSALabel is a technology transfer development from a former research on energy efficiency classification of ML, consisting of a holistic tool for assessing both the training and inference phases of ML models, considering various metrics such as power draw, model size efficiency, CO2e emissions and more. Results: GAISSALabel offers a labeling system for energy efficiency, akin to labels on consumer appliances, making it accessible to ML stakeholders of varying backgrounds. The tool's adaptability allows for customization in the proposed labeling system, ensuring its relevance in the rapidly evolving ML field. Conclusions: GAISSALabel represents a significant step forward in sustainable software engineering, offering a solution for balancing high-performance ML models with environmental impacts. The tool's effectiveness and market relevance will be further assessed through planned evaluations using the Technology Acceptance Model.
翻訳日:2024-01-31 14:20:44 公開日:2024-01-30
# 行列エントロピーによる大規模言語モデルの評価

Large Language Model Evaluation via Matrix Entropy ( http://arxiv.org/abs/2401.17139v1 )

ライセンス: Link先を確認
Lai Wei, Zhiquan Tan, Chenghai Li, Jindong Wang, Weiran Huang(参考訳) 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、その強力な能力をマルチモーダルドメインに拡張した。 したがって, LLMの評価には適切な, 多様なメトリクスを定義することが不可欠である。 本稿では,情報理論と幾何学原理に根ざした新しい計量である行列エントロピーを導入し,llmにおけるデータ圧縮能力の定量化を行う。 モデルが関連する情報を抽出し、不要な要素を取り除く能力を反映し、言語モデルの本質的な能力に関する洞察を提供する。 具体的には、シングルモーダル(言語)とマルチモーダルの両方で適用性を示す。 言語モデルの場合,表現の行列エントロピーは,モデルがスケールアップした場合のスケーリング法則型の縮小に従っており,従来の損失スケーリング法を補完する役割を果たしている。 マルチモーダル設定のために,アライメント品質を評価するための行列エントロピーに基づく評価手法を提案するとともに,現代の大規模マルチモーダルモデルはアライメント性能に優れることを示す。

Large language models (LLMs) have revolutionized the field of natural language processing, extending their strong capabilities into multi-modal domains. Thus, it is vital to define proper and diversified metrics for the evaluation of LLMs. In this paper, we introduce matrix entropy, a novel metric rooted in information theory and geometry principles to quantify the data compression proficiency in LLMs. It reflects the model's ability to extract relevant information and eliminate unnecessary elements, thereby providing insight into the language model's intrinsic capability. Specifically, we demonstrate its applicability in both single-modal (language) and multi-modal settings. For language models, our findings reveal that the matrix entropy of representations follows a scaling law type reduction when the model scales up, serving as a complement to the traditional loss scaling law. For the multi-modal setting, we also propose an evaluation method based on matrix entropy for assessing alignment quality and we find that modern large multi-modal models exhibit great alignment performance.
翻訳日:2024-01-31 14:20:22 公開日:2024-01-30
# 量子コンピューティングによる核散乱

Nuclear scattering via quantum computing ( http://arxiv.org/abs/2401.17138v1 )

ライセンス: Link先を確認
Peiyan Wang, Weijie Du, Wei Zuo, and James P. Vary(参考訳) 未結合チャネルにおける2つの有界核の弾性散乱位相シフトを解くためのハイブリッド量子古典フレームワークを提案する。 この枠組みでは、2つの衝突核の連続的散乱状態が強度の異なる弱い外部調和振動子ポテンシャルによって制御される多体形式を発達させる。 そこで本研究では, 連接核の相対運動の低次散乱状態の固有エネルギーを, 閉じ込めポテンシャルの振動子強度の関数として計算する手法を提案する。 改良された有効範囲拡大を利用して、衝突核の弾性散乱位相シフトをこれらの固有エネルギーから外部ポテンシャルが消滅する限界まで外挿する。 我々のハイブリッドアプローチでは、量子コンピューティングの利点を利用して、多核ハミルトニアン固有値問題の集合からこれらの固有エネルギーを解く。 これらの固有エネルギーは、位相シフトを得るために古典コンピュータに入力される。 そこで我々は,IBM Qiskit量子シミュレータを用いて,関係する固有エネルギーを解くために,ロデオアルゴリズムを実装した。 スペクトルと弾性散乱相のシフトの結果は他の理論的結果とよく一致している。

We propose a hybrid quantum-classical framework to solve the elastic scattering phase shift of two well-bound nuclei in an uncoupled channel. Within this framework, we develop a many-body formalism in which the continuum scattering states of the two colliding nuclei are regulated by a weak external harmonic oscillator potential with varying strength. Based on our formalism, we propose an approach to compute the eigenenergies of the low-lying scattering states of the relative motion of the colliding nuclei as a function of the oscillator strength of the confining potential. Utilizing the modified effective range expansion, we extrapolate the elastic scattering phase shift of the colliding nuclei from these eigenenergies to the limit when the external potential vanishes. In our hybrid approach, we leverage the advantage of quantum computing to solve for these eigenenergies from a set of many-nucleon Hamiltonian eigenvalue problems. These eigenenergies are inputs to classical computers to obtain the phase shift. We demonstrate our framework with two simple problems, where we implement the rodeo algorithm to solve the relevant eigenenergies with the IBM Qiskit quantum simulator. The results of both the spectra and the elastic scattering phase shifts agree well with other theoretical results.
翻訳日:2024-01-31 14:20:03 公開日:2024-01-30
# ai/ml対応コネクテッド医療システムのセキュリティリスクの体系的評価

Systematically Assessing the Security Risks of AI/ML-enabled Connected Healthcare Systems ( http://arxiv.org/abs/2401.17136v1 )

ライセンス: Link先を確認
Mohammed Elnawawy, Mohammadreza Hallajiyan, Gargi Mitra, Shahrear Iqbal and Karthik Pattabiraman(参考訳) 医療分野における機械学習対応システムの採用が増加している。 医療におけるMLの利用にはいくつかの利点があるが、医療システムの脅威面も拡大している。 医療システムにおけるMLの使用,特にMLエンジンと複数の周辺機器を介する接続システムでは,対向的介入の際の患者の健康に致命的な被害をもたらす可能性のあるセキュリティリスクが指摘される。 これらの新たなリスクは、周辺機器と通信チャネルのセキュリティ上の脆弱性に起因する。 本稿では,ML対応血糖モニタリングシステムに対して,推論中に逆方向のデータポイントを導入して攻撃を行った事例を紹介する。 本稿では,グルコースメータとML対応アプリとを接続するBluetooth通信路の既知の脆弱性を利用して,敵がこれを実現できることを示す。 さらに,最先端のリスクアセスメント技術は,これらの新たなリスクを識別・評価するには不十分であることを示す。 本研究は,AI接続型医療機器のセキュリティを解析するためのリスク分析手法の必要性を強調した。

The adoption of machine-learning-enabled systems in the healthcare domain is on the rise. While the use of ML in healthcare has several benefits, it also expands the threat surface of medical systems. We show that the use of ML in medical systems, particularly connected systems that involve interfacing the ML engine with multiple peripheral devices, has security risks that might cause life-threatening damage to a patient's health in case of adversarial interventions. These new risks arise due to security vulnerabilities in the peripheral devices and communication channels. We present a case study where we demonstrate an attack on an ML-enabled blood glucose monitoring system by introducing adversarial data points during inference. We show that an adversary can achieve this by exploiting a known vulnerability in the Bluetooth communication channel connecting the glucose meter with the ML-enabled app. We further show that state-of-the-art risk assessment techniques are not adequate for identifying and assessing these new risks. Our study highlights the need for novel risk analysis methods for analyzing the security of AI-enabled connected health devices.
翻訳日:2024-01-31 14:19:46 公開日:2024-01-30
# 歌声変換による不規則歌唱カバーの能動的・二重防止機構

A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion ( http://arxiv.org/abs/2401.17133v1 )

ライセンス: Link先を確認
Guangke Chen, Yedi Zhang, Fu Song, Ting Wang, Xiaoning Du, Yang Liu(参考訳) 歌唱音声変換(SVC)は、ある歌手の歌声を元の歌詞とメロディで別の歌手の歌声に変換することで、歌のカバーを自動化する。 しかし、複数の団体に対する著作権侵害や公民権侵害に深刻な懸念を抱いている。 この研究はSongBsAbを提案し、これは無許可のSVCベースの違法な歌のカバーを緩和する最初の積極的なアプローチである。 SongBsAbは、リリース前に人間の知覚できない摂動を歌声に導入し、それらを使用すると、SVCの生成過程が阻害され、予期しない歌声が発生する。 SongBsAbは、(歌手の)アイデンティティ破壊と歌詞破壊の両方を引き起こす二重防止効果、すなわち、SVCがカバーする歌声は、ターゲットの歌手を模倣したり、オリジナル歌詞を保存したりしない。 摂動の不可避性を改善するために,バックトラックをマスカとして心理音響モデルに基づく損失を洗練し,通常の音声音声に比べて歌声に特有の伴奏要素とした。 転送性を高めるために,フレームレベルの相互作用低減に基づく損失を利用する。 本研究では,SongBsAbの3つのSVCモデルと2つのデータセットに対する客観的・人為的な主観的指標を用いた予防効果,有用性,堅牢性を示す。 我々の研究は、違法な自動カバーを緩和するための新たな研究の方向性を育んでいる。

Singing voice conversion (SVC) automates song covers by converting one singer's singing voice into another target singer's singing voice with the original lyrics and melody. However, it raises serious concerns about copyright and civil right infringements to multiple entities. This work proposes SongBsAb, the first proactive approach to mitigate unauthorized SVC-based illegal song covers. SongBsAb introduces human-imperceptible perturbations to singing voices before releasing them, so that when they are used, the generation process of SVC will be interfered, resulting in unexpected singing voices. SongBsAb features a dual prevention effect by causing both (singer) identity disruption and lyric disruption, namely, the SVC-covered singing voice neither imitates the target singer nor preserves the original lyrics. To improve the imperceptibility of perturbations, we refine a psychoacoustic model-based loss with the backing track as an additional masker, a unique accompanying element for singing voices compared to ordinary speech voices. To enhance the transferability, we propose to utilize a frame-level interaction reduction-based loss. We demonstrate the prevention effectiveness, utility, and robustness of SongBsAb on three SVC models and two datasets using both objective and human study-based subjective metrics. Our work fosters an emerging research direction for mitigating illegal automated song covers.
翻訳日:2024-01-31 14:19:31 公開日:2024-01-30
# リッジ回帰のための個人化微分プライバシー

Personalized Differential Privacy for Ridge Regression ( http://arxiv.org/abs/2401.17127v1 )

ライセンス: Link先を確認
Krishna Acharya, Franziska Boenisch, Rakshit Naidu, Juba Ziani(参考訳) センシティブなドメインにおける機械学習(ML)の適用の増加は、差分プライバシー(DP)などのプライバシーフレームワークを通じてトレーニングデータを保護する必要がある。 DPは、データセット全体の各データポイントが許容する最大プライバシー損失を表す、均一なプライバシレベル$\varepsilon$を指定する必要がある。 しかし実際には、異なるデータポイントにはしばしば異なるプライバシー要件がある。 1つの均一なプライバシレベルを設定するのは、通常は制限的過ぎるため、多くの場合、学習者が厳格なプライバシ要件を保証することを余儀なくされる。 この制限を克服するため,我々は,データポイント毎のプライバシレベルに応じたリッジ回帰モデルのトレーニングを可能にする,パーソナライズドdp出力摂動法(pdp-op)を提案する。 我々は、PDP-OPの厳密なプライバシー証明と、結果モデルの正確性を保証する。 この研究は、機械学習におけるパーソナライズされたDPに関して、そのような理論的精度を保証する最初のものである。 PDP-OPを合成および実データと多種多様なプライバシー分布で実証的に評価する。 それぞれのデータポイントが自身のプライバシ要件を指定できるようにすることで、DPのプライバシ・正確性トレードオフを大幅に改善できることを示す。 また,PDP-OPはJorgensenらによるパーソナライズされたプライバシー技術(2015年)よりも優れていた。

The increased application of machine learning (ML) in sensitive domains requires protecting the training data through privacy frameworks, such as differential privacy (DP). DP requires to specify a uniform privacy level $\varepsilon$ that expresses the maximum privacy loss that each data point in the entire dataset is willing to tolerate. Yet, in practice, different data points often have different privacy requirements. Having to set one uniform privacy level is usually too restrictive, often forcing a learner to guarantee the stringent privacy requirement, at a large cost to accuracy. To overcome this limitation, we introduce our novel Personalized-DP Output Perturbation method (PDP-OP) that enables to train Ridge regression models with individual per data point privacy levels. We provide rigorous privacy proofs for our PDP-OP as well as accuracy guarantees for the resulting model. This work is the first to provide such theoretical accuracy guarantees when it comes to personalized DP in machine learning, whereas previous work only provided empirical evaluations. We empirically evaluate PDP-OP on synthetic and real datasets and with diverse privacy distributions. We show that by enabling each data point to specify their own privacy requirement, we can significantly improve the privacy-accuracy trade-offs in DP. We also show that PDP-OP outperforms the personalized privacy techniques of Jorgensen et al. (2015).
翻訳日:2024-01-31 14:18:56 公開日:2024-01-30
# 専門家の混合による説明可能なデータ駆動モデリング:グレーとブラックボックスモデルの効果的なブレンディングに向けて

Explainable data-driven modeling via mixture of experts: towards effective blending of grey and black-box models ( http://arxiv.org/abs/2401.17118v1 )

ライセンス: Link先を確認
Jessica Leoni, Valentina Breschi, Simone Formentin, Mara Tanelli(参考訳) 第一原理に基づく伝統的なモデルは、システムの複雑さが増すにつれて精度に苦慮することが多い。 逆に、機械学習のアプローチは強力だが、解釈可能性や物理的制約の扱いにおいて課題に直面している。 これらのモデルを組み合わせる努力は、しばしば精度と複雑さのバランスを見つけるのに困難に悩まされる。 これらの課題に対処するため,我々は「専門家の混成」に基づく包括的枠組みを提案する。 このアプローチは、データに基づく様々なローカルモデルの融合を可能にし、第一原理に基づく事前の可能性を最大限活用する。 このソリューションは、機械学習とシステム識別の両方から技術を駆使して、専門家の独立したトレーニングを可能にし、協調的および競争的な学習パラダイムの両方をサポートする。 解釈性を高めるため、専門家の組合せの突然の変動を罰する。 実験結果は,対象現象によく似たモデルの解釈可能な組み合わせを作成できる手法の有効性を検証した。

Traditional models grounded in first principles often struggle with accuracy as the system's complexity increases. Conversely, machine learning approaches, while powerful, face challenges in interpretability and in handling physical constraints. Efforts to combine these models often often stumble upon difficulties in finding a balance between accuracy and complexity. To address these issues, we propose a comprehensive framework based on a "mixture of experts" rationale. This approach enables the data-based fusion of diverse local models, leveraging the full potential of first-principle-based priors. Our solution allows independent training of experts, drawing on techniques from both machine learning and system identification, and it supports both collaborative and competitive learning paradigms. To enhance interpretability, we penalize abrupt variations in the expert's combination. Experimental results validate the effectiveness of our approach in producing an interpretable combination of models closely resembling the target phenomena.
翻訳日:2024-01-31 14:17:43 公開日:2024-01-30
# Yang-Baxter方程式と人工ニューラルネットワークによる量子誤差の緩和と補正

Quantum error mitigation and correction mediated by Yang-Baxter equation and artificial neural network ( http://arxiv.org/abs/2401.17116v1 )

ライセンス: Link先を確認
Sahil Gulania, Yuri Alexeev, Stephen K. Gray, Bo Peng, Niranjan Govind(参考訳) 量子コンピューティングは大きな可能性を秘めているが、エラーは大きな課題となる。 本研究では,ニューラルネットワーク (ANN) とヤン・バクスター方程式 (YBE) を用いた量子誤差の緩和手法について検討した。 計算集約的な従来の誤り訂正法とは異なり, 人工的誤り軽減について検討する。 この原稿は量子エラー源の基礎を紹介し、古典的な計算をエラー緩和に利用する可能性を探っている。 ヤン・バクスター方程式は重要な役割を担い、時間力学シミュレーションを一定の深さの回路に圧縮することができる。 YBEを通して制御ノイズを導入することにより、エラー軽減のためのデータセットを強化する。 量子シミュレーションによる部分データに基づくannモデルをトレーニングし,時間発展する量子状態における誤差補正の有効性を示す。

Quantum computing shows great potential, but errors pose a significant challenge. This study explores new strategies for mitigating quantum errors using artificial neural networks (ANN) and the Yang-Baxter equation (YBE). Unlike traditional error correction methods, which are computationally intensive, we investigate artificial error mitigation. The manuscript introduces the basics of quantum error sources and explores the potential of using classical computation for error mitigation. The Yang-Baxter equation plays a crucial role, allowing us to compress time dynamics simulations into constant-depth circuits. By introducing controlled noise through the YBE, we enhance the dataset for error mitigation. We train an ANN model on partial data from quantum simulations, demonstrating its effectiveness in correcting errors in time-evolving quantum states.
翻訳日:2024-01-31 14:17:29 公開日:2024-01-30
# GazeGPT: スマートアイウェアのための注視コンテキストAIによる人間の能力向上

GazeGPT: Augmenting Human Capabilities using Gaze-contingent Contextual AI for Smart Eyewear ( http://arxiv.org/abs/2401.17217v1 )

ライセンス: Link先を確認
Robert Konrad, Nitish Padmanaban, J. Gabriel Buckmaster, Kevin C. Boyle, Gordon Wetzstein(参考訳) マルチモーダル大言語モデル(LMM)は、世界の知識と問題解決能力に優れる。 世界向けカメラとコンテキストAIを使うことで、新興のスマートアクセサリーは人間とLMM間のシームレスなインターフェースを提供することを目指している。 しかし、これらのウェアラブルコンピューティングシステムは、ユーザの注意を理解できない。 本稿では,文脈AIのための新しいユーザインタラクションパラダイムとしてGazeGPTを紹介する。 GazeGPTは視線追跡を利用して、LMMがユーザーが注意を払っている世界のカメラビューのどのオブジェクトかを理解するのを助ける。 広汎なユーザ評価を用いて、この視線一致機構は代替手段よりも高速で精度の高いポインティング機構であり、犬種分類タスクにおける精度を大幅に向上することで人間の能力を増強し、コンテキストAIの頭部や身体駆動の選択メカニズムよりも常に自然と位置づけられていることを示す。 さらに、将来のAI駆動のパーソナルアシスタントの一部として、GazeGPTがユーザにとって重要な価値を持つ可能性があることを示唆する、さまざまなアプリケーションシナリオをプロトタイプします。

Multimodal large language models (LMMs) excel in world knowledge and problem-solving abilities. Through the use of a world-facing camera and contextual AI, emerging smart accessories aim to provide a seamless interface between humans and LMMs. Yet, these wearable computing systems lack an understanding of the user's attention. We introduce GazeGPT as a new user interaction paradigm for contextual AI. GazeGPT uses eye tracking to help the LMM understand which object in the world-facing camera view a user is paying attention to. Using extensive user evaluations, we show that this gaze-contingent mechanism is a faster and more accurate pointing mechanism than alternatives; that it augments human capabilities by significantly improving their accuracy in a dog-breed classification task; and that it is consistently ranked as more natural than head- or body-driven selection mechanisms for contextual AI. Moreover, we prototype a variety of application scenarios that suggest GazeGPT could be of significant value to users as part of future AI-driven personal assistants.
翻訳日:2024-01-31 14:09:59 公開日:2024-01-30
# 強化学習による量子フィードバック制御の堅牢性向上

Improving robustness of quantum feedback control with reinforcement learning ( http://arxiv.org/abs/2401.17190v1 )

ライセンス: Link先を確認
Manuel Guatto, Gian Antonio Susto, Francesco Ticozzi(参考訳) 多くの量子技術の実用的な実装に向けた重要なステップであり、量子制御における主要なタスクの1つである。 本研究では,対象システムにおける所望状態の状態準備に関するフィードバック法を導出するために,異なる強化学習手法を用いる。 特に,様々な種類の雑音に対して,得られた戦略のロバスト性に着目した。 比較の結果, 学習した制御は, 最適人口移動に基づく単純なフィードバック戦略に関して, 未モデル化の摂動に対してより頑健であり, 実データで訓練したコントローラが提示するのと同じアドバンテージを持つことがわかった。 堅牢なコントローラの効果的なオフライントレーニングの可能性は、実用的な実装に対する大きな利点を期待できる。

Obtaining reliable state preparation protocols is a key step towards practical implementation of many quantum technologies, and one of the main tasks in quantum control. In this work, different reinforcement learning approaches are used to derive a feedback law for state preparation of a desired state in a target system. In particular, we focus on the robustness of the obtained strategies with respect to different types and amount of noise. Comparing the results indicates that the learned controls are more robust to unmodeled perturbations with respect to simple feedback strategy based on optimized population transfer, and that training on simulated nominal model retain the same advantages displayed by controllers trained on real data. The possibility of effective off-line training of robust controllers promises significant advantages towards practical implementation.
翻訳日:2024-01-31 14:09:39 公開日:2024-01-30
# スワンソン発振器のフェルミオン拡張のための例外点と基底状態絡み合いスペクトル

Exceptional points and ground-state entanglement spectrum for a fermionic extension of the Swanson oscillator ( http://arxiv.org/abs/2401.17189v1 )

ライセンス: Link先を確認
Akash Sinha, Aritra Ghosh, Bijan Bagchi(参考訳) 二次ハミルトニアンの一般表現からなる非エルミート量子系のよく知られた例であるスワンソン振動子の構造に動機づけられ、2つのフェルミオン振動子を含むそのようなスキームのフェルミオン拡大と、粒子数を保存しない双線型結合項を提案する。 固有値と固有ベクトルを決定し、固有状態の2つが自己直交関係を示す固有ベクトルと結合する例外点の出現を露出する。 このモデルは、基底状態の交差が存在するため、量子相転移を示す。 基底状態の絡み合いスペクトルと絡み合いエントロピーを計算する。

Motivated by the structure of the Swanson oscillator, which is a well-known example of a non-hermitian quantum system consisting of a general representation of a quadratic Hamiltonian, we propose a fermionic extension of such a scheme which incorporates two fermionic oscillators, together with bilinear-coupling terms that do not conserve particle number. We determine the eigenvalues and eigenvectors, and expose the appearance of exceptional points where two of the eigenstates coalesce with the corresponding eigenvectors exhibiting the self-orthogonality relation. The model exhibits a quantum phase transition due to the presence of a ground-state crossing. We compute the entanglement spectrum and entanglement entropy of the ground state.
翻訳日:2024-01-31 14:09:24 公開日:2024-01-30
# 変圧器による極性符号の入れ子構成

Nested Construction of Polar Codes via Transformers ( http://arxiv.org/abs/2401.17188v1 )

ライセンス: Link先を確認
Sravan Kumar Ankireddy, S Ashwin Hebbar, Heping Wan, Joonyoung Cho, Charlie Zhang(参考訳) 逐次キャンセルを超えて復号アルゴリズムのための極性コードの構築は、この分野において重要な関心事となっている。 しかし、極性符号の固有のネスト構造にもかかわらず、極性符号の構成におけるシーケンスモデルの使用は未検討である。 本研究では,様々なチャネル条件下で任意の長さとレートの極性コードを反復的に構築するためのシーケンスモデリングフレームワークを提案する。 シミュレーションにより, 変圧器を用いた逐次モデリングにより設計した極性符号は, AWGN と Rayleigh のファイディングチャネルにおいて, 5G-NR シーケンスおよび密度進化に基づくアプローチより優れていることが示された。

Tailoring polar code construction for decoding algorithms beyond successive cancellation has remained a topic of significant interest in the field. However, despite the inherent nested structure of polar codes, the use of sequence models in polar code construction is understudied. In this work, we propose using a sequence modeling framework to iteratively construct a polar code for any given length and rate under various channel conditions. Simulations show that polar codes designed via sequential modeling using transformers outperform both 5G-NR sequence and Density Evolution based approaches for both AWGN and Rayleigh fading channels.
翻訳日:2024-01-31 14:09:10 公開日:2024-01-30
# 不確かさ低減制御器の形式的合成

Formal Synthesis of Uncertainty Reduction Controllers ( http://arxiv.org/abs/2401.17187v1 )

ライセンス: Link先を確認
Marc Carwehl, Calum Imrie, Thomas Vogel, Gena\'ina Rodrigues, Radu Calinescu, Lars Grunske(参考訳) 自己適応システム(SAS)における不確実性に対処するアプローチを模索する中で、研究コミュニティは、不確実性に対応するSASアーキテクチャや行動に適応するソリューションを主に重視してきた。 対照的に、SASに影響を及ぼす不確実性(コンポーネントや環境のブランケットモニタリングを経由すること以外)を低減するソリューションは、まだ未調査のままである。 本稿では,よりニュアンスで適応的なSAS不確実性低減手法を提案する。 そこで本研究では,SAS適応ループ内での新たな情報の適応的取得を駆動する不確実性低減コントローラと,確率論的モデルチェックを用いてそのようなコントローラを合成するツール支援手法とを備えるSASアーキテクチャを提案する。 本手法により生成された制御器は,SASの不確実性低減効果と新たな情報取得コストとの間に最適なトレードオフをもたらす。 本稿では,移動ロボットナビゲーションとサーバインフラ管理SASにおけるアプローチの有効性について述べる。

In its quest for approaches to taming uncertainty in self-adaptive systems (SAS), the research community has largely focused on solutions that adapt the SAS architecture or behaviour in response to uncertainty. By comparison, solutions that reduce the uncertainty affecting SAS (other than through the blanket monitoring of their components and environment) remain underexplored. Our paper proposes a more nuanced, adaptive approach to SAS uncertainty reduction. To that end, we introduce a SAS architecture comprising an uncertainty reduction controller that drives the adaptive acquisition of new information within the SAS adaptation loop, and a tool-supported method that uses probabilistic model checking to synthesise such controllers. The controllers generated by our method deliver optimal trade-offs between SAS uncertainty reduction benefits and new information acquisition costs. We illustrate the use and evaluate the effectiveness of our approach for mobile robot navigation and server infrastructure management SAS.
翻訳日:2024-01-31 14:08:58 公開日:2024-01-30
# 連続言語学習によるCLIPにおける言語インクルーシティと多様性の受容

Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning ( http://arxiv.org/abs/2401.17186v1 )

ライセンス: Link先を確認
Bang Yang, Yong Dai, Xuxin Cheng, Yaowei Li, Asif Raza, Yuexian Zou(参考訳) 近年、視覚言語事前学習モデル (VL-PTM) は多モーダルな研究が進んでいるが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。 この目的のために、ジョイントラーニングによる多言語VLモデル開発への関心が高まっているが、コストとデータ可用性のために非現実的になる可能性がある。 本研究では,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。 CLL-CLIPは、画像と英語のテキストのアライメントを獲得したVL-PTMであるCLIPをベースにしたモデルである。 具体的には、CLL-CLIPは言語的差異を処理するために拡張可能なトークン埋め込み層を含んでいる。 メモリ安定性を向上させるためにトークン埋め込みをトレーニングし、画像と多言語テキストのアライメントを学ぶために、クロスモーダルとクロスランガルの目的の下で最適化されている。 さらに,共変量シフトと語彙重なりによるCFの増大を緩和するために,初期化時のトークン埋め込みの同一分布を保証し,トレーニング中のトークン埋め込み学習を規則化する手法を提案する。 我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。 大規模な実験によりCLL-CLIPの有効性が検証され,CLL-CLIP,例えばXM3600上でのテキスト対画像平均Recall@1が6.7%向上し,さまざまな最先端手法が一貫した改善が得られた。 私たちのコードとデータは、 \url{https://github.com/yangbang18/clfm}で利用可能です。

While vision-language pre-trained models (VL-PTMs) have advanced multimodal research in recent years, their mastery in a few languages like English restricts their applicability in broader communities. To this end, there is an increasing interest in developing multilingual VL models via a joint-learning setup, which, however, could be unrealistic due to expensive costs and data availability. In this work, we propose to extend VL-PTMs' language capacity by continual language learning (CLL), where a model needs to update its linguistic knowledge incrementally without suffering from catastrophic forgetting (CF). We begin our study by introducing a model dubbed CLL-CLIP, which builds upon CLIP, a prevailing VL-PTM that has acquired image-English text alignment. Specifically, CLL-CLIP contains an expandable token embedding layer to handle linguistic differences. It solely trains token embeddings to improve memory stability and is optimized under cross-modal and cross-lingual objectives to learn the alignment between images and multilingual texts. To alleviate CF raised by covariate shift and lexical overlap, we further propose a novel approach that ensures the identical distribution of all token embeddings during initialization and regularizes token embedding learning during training. We construct a CLL benchmark covering 36 languages based on MSCOCO and XM3600 datasets and then evaluate multilingual image-text retrieval performance. Extensive experiments verify the effectiveness of CLL-CLIP and show that our approach can boost CLL-CLIP, e.g., by 6.7% in text-to-image average Recall@1 on XM3600, and improve various state-of-the-art methods consistently. Our code and data are available at \url{https://github.com/yangbang18/CLFM}.
翻訳日:2024-01-31 14:08:42 公開日:2024-01-30
# 因子グラフと人間のポーズを用いたマルチカメラ非同期球位置推定と軌道予測

Multi-Camera Asynchronous Ball Localization and Trajectory Prediction with Factor Graphs and Human Poses ( http://arxiv.org/abs/2401.17185v1 )

ライセンス: Link先を確認
Qingyu Xiao, Zulfiqar Zaidi and Matthew Gombolay(参考訳) ボールの迅速かつ正確な位置決めと予測は、ボールスポーツ、特に高速球の動きと強力なスピンを特徴とするテニスのようなスポーツにおいて、アジャイルロボットを開発するために重要である。 スピンによって引き起こされるマグヌス効果は、飛行中の軌道予測と地上との接触時のバウンスダイナミクスに複雑さをもたらす。 本研究では,実時間および非同期3次元球体ローカライゼーションのための因子グラフとマルチカメラシステムを組み合わせた革新的なアプローチを提案する。 さらに,軌道予測のための速度やスピンなどの隠れ状態も推定する。 さらに,観測が限られている球の飛行の早い段階でスピン推定を向上するため,時間的畳み込みネットワーク(TCN)を用いて人間のポーズデータを統合し,因子グラフ内のスピン事前を計算する。 この改良は、因子グラフの開始時により正確なスピン優先を与え、予測のための初期段階の隠れ状態推論を改善する。 以上の結果から,訓練されたTCNは5.27HzのRMSEでスピン先行を予測できることがわかった。 TCNを因子グラフに統合すると、適応拡張カルマンフィルタを用いたベースライン法と比較して着陸位置の予測誤差が63.6%以上減少する。

The rapid and precise localization and prediction of a ball are critical for developing agile robots in ball sports, particularly in sports like tennis characterized by high-speed ball movements and powerful spins. The Magnus effect induced by spin adds complexity to trajectory prediction during flight and bounce dynamics upon contact with the ground. In this study, we introduce an innovative approach that combines a multi-camera system with factor graphs for real-time and asynchronous 3D tennis ball localization. Additionally, we estimate hidden states like velocity and spin for trajectory prediction. Furthermore, to enhance spin inference early in the ball's flight, where limited observations are available, we integrate human pose data using a temporal convolutional network (TCN) to compute spin priors within the factor graph. This refinement provides more accurate spin priors at the beginning of the factor graph, leading to improved early-stage hidden state inference for prediction. Our result shows the trained TCN can predict the spin priors with RMSE of 5.27 Hz. Integrating TCN into the factor graph reduces the prediction error of landing positions by over 63.6% compared to a baseline method that utilized an adaptive extended Kalman filter.
翻訳日:2024-01-31 14:08:11 公開日:2024-01-30
# HHLアルゴリズムの詳細な誤差解析

Detailed Error Analysis of the HHL Algorithm ( http://arxiv.org/abs/2401.17182v1 )

ライセンス: Link先を確認
Xinbo Li Christopher Phillips(参考訳) 本稿では,Harrow,Hassidim,Llyodによる量子行列方程式解法への寄与を,アルゴリズム記述と誤差解析の導出の詳細に重点を置いて再検討する。 さらに,量子位相推定の完了時における位相レジスタの振幅の挙動について検討した。 本研究は,アルゴリズム設定フェーズにおける位相レジスタサイズの選択とハミルトンシミュレーション期間との関係を理解する上で有用である。

We reiterate the contribution made by Harrow, Hassidim, and Llyod to the quantum matrix equation solver with the emphasis on the algorithm description and the error analysis derivation details. Moreover, the behavior of the amplitudes of the phase register on the completion of the Quantum Phase Estimation is studied. This study is beneficial for the comprehension of the choice of the phase register size and its interrelation with the Hamiltonian simulation duration in the algorithm setup phase.
翻訳日:2024-01-31 14:07:50 公開日:2024-01-30
# テキスト拡散モデルのための転送学習

Transfer Learning for Text Diffusion Models ( http://arxiv.org/abs/2401.17181v1 )

ライセンス: Link先を確認
Kehang Han, Kathleen Kenealy, Aditya Barua, Noah Fiedel, Noah Constant(参考訳) 本稿では,大規模言語モデル(LLM)の訓練と展開において,自己回帰(AR)デコーディングに代わるテキスト拡散の可能性を検討する。 特に,<AR2Diff''と呼ばれる軽量適応手法を用いて,事前学習したARモデルをテキスト拡散モデルに変換できるかどうかに興味がある。 まず,テキスト拡散モデルのトレーニングのための強力なベースライン設定を確立する。 複数のアーキテクチャと事前学習対象を比較したところ、複数のタスクでLM目標をプレフィックスしたデコーダのみのモデルのトレーニングが最善か最善かのどちらかであることが判明した。 この発見に基づいて,テキスト拡散モデルのための様々な伝達学習装置をテストする。 機械翻訳では、テキスト拡散が標準的なARアプローチを過小評価している。 しかし、コード合成と抽出QAにより、多くの場合、スクラッチのARモデルより訓練された拡散モデルが見つかる。 また、拡散復号化を使用するためにARモデルを適用するAR2Diffによる品質向上も観察します。 これらの結果は、テキスト拡散が比較的未熟であり、長いテキスト生成のためのarデコーディングよりもはるかに高速であることを考えると有望である。

In this report, we explore the potential for text diffusion to replace autoregressive (AR) decoding for the training and deployment of large language models (LLMs). We are particularly interested to see whether pretrained AR models can be transformed into text diffusion models through a lightweight adaptation procedure we call ``AR2Diff''. We begin by establishing a strong baseline setup for training text diffusion models. Comparing across multiple architectures and pretraining objectives, we find that training a decoder-only model with a prefix LM objective is best or near-best across several tasks. Building on this finding, we test various transfer learning setups for text diffusion models. On machine translation, we find that text diffusion underperforms the standard AR approach. However, on code synthesis and extractive QA, we find diffusion models trained from scratch outperform AR models in many cases. We also observe quality gains from AR2Diff -- adapting AR models to use diffusion decoding. These results are promising given that text diffusion is relatively underexplored and can be significantly faster than AR decoding for long text generation.
翻訳日:2024-01-31 14:07:44 公開日:2024-01-30
# GraphViz2Vec:GNNの分類を改善する構造認識機能生成モデル

GraphViz2Vec: A Structure-aware Feature Generation Model to Improve Classification in GNNs ( http://arxiv.org/abs/2401.17178v1 )

ライセンス: Link先を確認
Shraban Kumar Chatterjee, Suman Kundu(参考訳) GNNはノード分類やリンク予測など,さまざまなタスクの解決に広く利用されている。 GNNアーキテクチャのほとんどは、初期埋め込みはランダムまたは一般的な分布から生成されると仮定している。 これらの初期埋め込みは意味のある潜在表現に収束するために複数の変換層を必要とする。 レイヤの数がノードのより大きな近傍の蓄積を可能にする一方で、オーバースムーシングの問題も引き起こす。 さらに、GNNは構造情報を表現できない。 例えば、ノードの出力埋め込みは、その三角形の参加を捉えない。 本稿では,gnnモデルのための有意義な初期埋め込みを作成するために,ノードの局所的近傍の構造情報をキャプチャできる新しい特徴抽出手法であるgraphviz2vecを提案する。 これらの初期埋め込みは、既存のモデルが様々な分類タスクで最先端の結果を得るのに役立つ。 さらに、これらの初期埋め込みは、2つの層だけでモデルが望ましい結果を生成するのに役立つ。 ノードの初期符号化は、そのローカル近傍の複数のエネルギーダイアグラムで訓練された画像分類モデルから得られる。 これらのエネルギー図は、複数のランダムウォークによって横断されるノードの誘導サブグラフによって生成される。 生成されたエンコーディングは、分類タスクにおける既存のモデルのパフォーマンスを向上させる(ノードとリンクの分類タスクに対して平均4.65\%$と2.58\%$)。

GNNs are widely used to solve various tasks including node classification and link prediction. Most of the GNN architectures assume the initial embedding to be random or generated from popular distributions. These initial embeddings require multiple layers of transformation to converge into a meaningful latent representation. While number of layers allow accumulation of larger neighbourhood of a node it also introduce the problem of over-smoothing. In addition, GNNs are inept at representing structural information. For example, the output embedding of a node does not capture its triangles participation. In this paper, we presented a novel feature extraction methodology GraphViz2Vec that can capture the structural information of a node's local neighbourhood to create meaningful initial embeddings for a GNN model. These initial embeddings helps existing models achieve state-of-the-art results in various classification tasks. Further, these initial embeddings help the model to produce desired results with only two layers which in turn reduce the problem of over-smoothing. The initial encoding of a node is obtained from an image classification model trained on multiple energy diagrams of its local neighbourhood. These energy diagrams are generated with the induced sub-graph of the nodes traversed by multiple random walks. The generated encodings increase the performance of existing models on classification tasks (with a mean increase of $4.65\%$ and $2.58\%$ for the node and link classification tasks, respectively), with some models achieving state-of-the-art results.
翻訳日:2024-01-31 14:07:27 公開日:2024-01-30
# 随伴法によるPDEデータの探索

Data-Driven Discovery of PDEs via the Adjoint Method ( http://arxiv.org/abs/2401.17177v1 )

ライセンス: Link先を確認
Mohsen Sadr, Tony Tohme, Kamal Youcef-Toumi(参考訳) 本研究では, 与えられたデータに基づいて, 基礎となる制御偏微分方程式(PDE)を探索する。 この考え方は、パラメータ化されたPDEを一般的な形式で考慮し、データからPDE解の誤差を最小限に抑える最適化問題を定式化する。 変分法を用いてラグランジュ乗算器(随伴方程式)の進化方程式を求め、与えられたPDEのパラメータに対する目的関数の勾配を直接的に計算する。 特に、パラメータ化された非線形PDEの族に対して、対応する随伴方程式を導出する方法を示す。 ここでは,スムーズなデータセットが与えられた場合,提案手法は真のPDEを機械的精度まで復元できることを示す。 しかし、ノイズの存在下では、共役法の精度はPDE-FIND(Rudy et al., 2017)として知られる有名な非線形ダイナミクス法のPDE関数同定に匹敵する。 提案した随伴法は前方/後方の解法に依存するが,各PDEパラメータに対するコスト関数の勾配解析式により,大規模データセットに対してPDE-FINDより優れる。

In this work, we present an adjoint-based method for discovering the underlying governing partial differential equations (PDEs) given data. The idea is to consider a parameterized PDE in a general form, and formulate the optimization problem that minimizes the error of PDE solution from data. Using variational calculus, we obtain an evolution equation for the Lagrange multipliers (adjoint equations) allowing us to compute the gradient of the objective function with respect to the parameters of PDEs given data in a straightforward manner. In particular, for a family of parameterized and nonlinear PDEs, we show how the corresponding adjoint equations can be derived. Here, we show that given smooth data set, the proposed adjoint method can recover the true PDE up to machine accuracy. However, in the presence of noise, the accuracy of the adjoint method becomes comparable to the famous PDE Functional Identification of Nonlinear Dynamics method known as PDE-FIND (Rudy et al., 2017). Even though the presented adjoint method relies on forward/backward solvers, it outperforms PDE-FIND for large data sets thanks to the analytic expressions for gradients of the cost function with respect to each PDE parameter.
翻訳日:2024-01-31 14:07:04 公開日:2024-01-30
# 薬物標的相互作用のための大規模データセットキュレーションとベンチマーク

A large dataset curation and benchmark for drug target interaction ( http://arxiv.org/abs/2401.17174v1 )

ライセンス: Link先を確認
Alex Golts, Vadim Ratner, Yoel Shoshan, Moshe Raboh, Sagi Polaczek, Michal Ozery-Flato, Daniel Shats, Liam Hazan, Sivan Ravid, Efrat Hexter(参考訳) 生物活性データは、薬物の発見と再生産において重要な役割を担っている。 データ駆動型バイオケミカル研究の最近の進歩とともに、 \textit{in vitro} および \textit{in vivo} 実験の資源需要特性は、薬物標的相互作用(DTI)予測アプローチの重要性を強調している。 多くの公共の生物活性データソースが存在するが、この分野の研究は既存のデータリソースのより良い標準化の恩恵を受ける可能性がある。 現在、同様の目標を共有する異なる研究成果は、データソースの選択やトレーニング/検証/テストの分割戦略が異なるため、適切に比較することが難しいことが多い。 さらに、多くの作業は小さなデータサブセットに基づいており、結果と潜在的に限定的な妥当性の洞察をもたらしている。 本稿では,複数の公開ソースから収集した非常に大きなデータセットの標準化と表現を効率的に行い,異なる意味のある戦略に基づいてデータをトレインに分割し,検証とテストを行う手法を提案し,ベンチマークを実現するための具体的な評価プロトコルを提供する。 提案するデータキュレーションを解析し,その有用性を証明し,既存のニューラルネットワークモデルに基づく実験により,提案ベンチマークを検証する。

Bioactivity data plays a key role in drug discovery and repurposing. The resource-demanding nature of \textit{in vitro} and \textit{in vivo} experiments, as well as the recent advances in data-driven computational biochemistry research, highlight the importance of \textit{in silico} drug target interaction (DTI) prediction approaches. While numerous large public bioactivity data sources exist, research in the field could benefit from better standardization of existing data resources. At present, different research works that share similar goals are often difficult to compare properly because of different choices of data sources and train/validation/test split strategies. Additionally, many works are based on small data subsets, leading to results and insights of possible limited validity. In this paper we propose a way to standardize and represent efficiently a very large dataset curated from multiple public sources, split the data into train, validation and test sets based on different meaningful strategies, and provide a concrete evaluation protocol to accomplish a benchmark. We analyze the proposed data curation, prove its usefulness and validate the proposed benchmark through experimental studies based on an existing neural network model.
翻訳日:2024-01-31 14:06:43 公開日:2024-01-30
# 関数エンコーダによるゼロショット強化学習

Zero-Shot Reinforcement Learning via Function Encoders ( http://arxiv.org/abs/2401.17173v1 )

ライセンス: Link先を確認
Tyler Ingebrand, Amy Zhang, Ufuk Topcu(参考訳) 強化学習(RL)は多くの逐次決定問題を解くことができるが、関連するタスク間でゼロショット転送を実現することは依然として課題である。 その難しさは、エージェントがそれが以前見たタスクとどのように関係しているかを理解するために、現在のタスクのよい表現を見つけることである。 ゼロショット転送を実現するために,関数を学習された非線形基底関数の重み付け結合として表現する表現学習アルゴリズムである関数エンコーダを提案する。 関数エンコーダを用いて報酬関数または遷移関数を表現することにより、エージェントは、コヒーレントベクトル表現を介して、現在のタスクが以前見られたタスクとどのように関連しているかに関する情報を得る。 これにより、エージェントは、追加のトレーニングなしで、実行時に関連するタスク間の転送を達成できる。 基本RLアルゴリズムを関数エンコーダタスク表現で拡張することにより、3つのRLフィールドにおける最先端データ効率、漸近性能、およびトレーニング安定性を示す。

Although reinforcement learning (RL) can solve many challenging sequential decision making problems, achieving zero-shot transfer across related tasks remains a challenge. The difficulty lies in finding a good representation for the current task so that the agent understands how it relates to previously seen tasks. To achieve zero-shot transfer, we introduce the function encoder, a representation learning algorithm which represents a function as a weighted combination of learned, non-linear basis functions. By using a function encoder to represent the reward function or the transition function, the agent has information on how the current task relates to previously seen tasks via a coherent vector representation. Thus, the agent is able to achieve transfer between related tasks at run time with no additional training. We demonstrate state-of-the-art data efficiency, asymptotic performance, and training stability in three RL fields by augmenting basic RL algorithms with a function encoder task representation.
翻訳日:2024-01-31 14:06:24 公開日:2024-01-30
# 楕円偏微分方程式に対する領域独立グリーン関数の学習

Learning Domain-Independent Green's Function For Elliptic Partial Differential Equations ( http://arxiv.org/abs/2401.17172v1 )

ライセンス: Link先を確認
Pawan Negi, Maggie Cheng, Mahesh Krishnamurthy, Wenjun Ying, Shuwang Li(参考訳) グリーン関数は偏微分方程式(PDE)を特徴づけ、その解を全領域の積分として写像する。 グリーン関数の分析形式を見つけることは非自明な運動であり、特に複素領域上で定義された PDE や変数係数を持つ PDE に対してである。 本稿では,BIN-Gと呼ばれる領域に依存しないグリーン関数を学習するための境界積分ネットワークを提案する。 放射基底関数(RBF)カーネルベースニューラルネットワークを用いて,BIN-Gにおけるグリーン関数の評価を行った。 我々は、PDEの残差と、所定のテスト関数に対する境界積分方程式に対する解の平均2乗誤差を最小化して、BIN-Gを訓練する。 グリーン関数の対称性を活用し,グリーン関数の特異点に近いRBFカーネルの洗練を制御することにより,変数係数を持つPDEに対するグリーン関数の高速な訓練と正確な評価を可能にすることを示す。 学習されたグリーンの函数は、境界積分の定式化における境界条件と条件を強制する領域幾何学とは独立である。 数値実験により, 2次元ポアソン方程式とヘルムホルツ方程式の可変係数に対する所望の性質と期待精度が検証された。

Green's function characterizes a partial differential equation (PDE) and maps its solution in the entire domain as integrals. Finding the analytical form of Green's function is a non-trivial exercise, especially for a PDE defined on a complex domain or a PDE with variable coefficients. In this paper, we propose a novel boundary integral network to learn the domain-independent Green's function, referred to as BIN-G. We evaluate the Green's function in the BIN-G using a radial basis function (RBF) kernel-based neural network. We train the BIN-G by minimizing the residual of the PDE and the mean squared errors of the solutions to the boundary integral equations for prescribed test functions. By leveraging the symmetry of the Green's function and controlling refinements of the RBF kernel near the singularity of the Green function, we demonstrate that our numerical scheme enables fast training and accurate evaluation of the Green's function for PDEs with variable coefficients. The learned Green's function is independent of the domain geometries, forcing terms, and boundary conditions in the boundary integral formulation. Numerical experiments verify the desired properties of the method and the expected accuracy for the two-dimensional Poisson and Helmholtz equations with variable coefficients.
翻訳日:2024-01-31 14:06:07 公開日:2024-01-30
# 大規模言語モデルにおける条件とモーダル推論

Conditional and Modal Reasoning in Large Language Models ( http://arxiv.org/abs/2401.17169v1 )

ライセンス: Link先を確認
Wesley H. Holliday and Matthew Mandelkern(参考訳) 大規模言語モデル(LLM)の推論能力は、人工知能と認知科学における研究の活発化のトピックである。 本稿では、十数個のLLMが論理的に正しい推論と論理的に誤った推論を区別できる範囲を探索する。 我々は条件文(例えば、アンが女王ならば、ボブがジャックならば)とてんかん(例えば、アンがエースを持っているなら、ボブは王でなければならない)を含む推論パターンに焦点を当てる。 これらの推論パターンは、論理学者、哲学者、言語学者にとって特に関心があり、それらは人間の推論においておそらく中心的な役割を果たす。 したがって、これらの推論パターンに対するLLMの評価は、LLMの推論能力が人間のものとどの程度一致しているかという問題に大きく関係している。 我々がテストしたLSMのうち、GPT-4以外は条件付きで基本的なミスを犯すことが多い。 さらに、GPT-4でさえ、てんかんを含む推論パターンに論理的に矛盾する判断を示す。

The reasoning abilities of large language models (LLMs) are the topic of a growing body of research in artificial intelligence and cognitive science. In this paper, we probe the extent to which a dozen LLMs are able to distinguish logically correct inferences from logically fallacious ones. We focus on inference patterns involving conditionals (e.g., 'If Ann has a queen, then Bob has a jack') and epistemic modals (e.g., 'Ann might have an ace', 'Bob must have a king'). These inference patterns have been of special interest to logicians, philosophers, and linguists, since they plausibly play a central role in human reasoning. Assessing LLMs on these inference patterns is thus highly relevant to the question of how much the reasoning abilities of LLMs match those of humans. Among the LLMs we tested, all but GPT-4 often make basic mistakes with conditionals. Moreover, even GPT-4 displays logically inconsistent judgments across inference patterns involving epistemic modals.
翻訳日:2024-01-31 14:05:46 公開日:2024-01-30
# ReAlnet:人間の脳に似た視力を実現する

ReAlnet: Achieving More Human Brain-Like Vision via Human Neural Representational Alignment ( http://arxiv.org/abs/2401.17231v1 )

ライセンス: Link先を確認
Zitong Lu, Yile Wang and Julie D. Golomb(参考訳) 人工知能の進歩にもかかわらず、現在の物体認識モデルは人間の脳における視覚情報処理のメカニズムをエミュレートする上で遅れを取っている。 近年の研究は、脳の処理を模倣するために神経データを使うことの可能性を強調しているが、これらはしばしば非人間の被験者からの侵襲的神経記録に反応し、人間の視覚知覚とより人間の脳のような視覚モデルの発展に対する我々の理解に重大なギャップを残している。 このギャップに対処するために,我々は,非侵襲的脳波記録に基づく人間の脳活動と整合する視覚モデルであるre(presentational)al(ignment)netを初めて提示し,ヒトの脳表現とかなり高い類似性を示す。 我々の革新的な画像から脳への多重層符号化アライメントフレームワークは、モデルの複数のレイヤを最適化するだけでなく、ニューラルネットワークアライメントの大幅な飛躍を示すだけでなく、脳の視覚表現パターンをオブジェクトのカテゴリや異なるニューラルデータモダリティを効率的に学習し、模倣することができる。 さらに、人間の脳の表現との整合がモデルの敵対的ロバスト性を改善することを発見した。 realnetがこの分野に新しい先例を定め、人工視覚と人間の視覚のギャップを橋渡し、さらに脳のような人工知能システムへの道を開くことを示唆する。

Despite the remarkable strides made in artificial intelligence, current object recognition models still lag behind in emulating the mechanism of visual information processing in human brains. Recent studies have highlighted the potential of using neural data to mimic brain processing; however, these often reply on invasive neural recordings from non-human subjects, leaving a critical gap in our understanding of human visual perception and the development of more human brain-like vision models. Addressing this gap, we present, for the first time, "Re(presentational)Al(ignment)net", a vision model aligned with human brain activity based on non-invasive EEG recordings, demonstrating a significantly higher similarity to human brain representations. Our innovative image-to-brain multi-layer encoding alignment framework not only optimizes multiple layers of the model, marking a substantial leap in neural alignment, but also enables the model to efficiently learn and mimic human brain's visual representational patterns across object categories and different neural data modalities. Furthermore, we discover that alignment with human brain representations improves the model's adversarial robustness. Our findings suggest that ReAlnet sets a new precedent in the field, bridging the gap between artificial and human vision, and paving the way for more brain-like artificial intelligence systems.
翻訳日:2024-01-31 13:59:36 公開日:2024-01-30
# ESPnet-SPK:再現可能なレシピ、自己教師型フロントエンド、オフザシェルフモデルを備えたフルパイプライン話者埋め込みツールキット

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models ( http://arxiv.org/abs/2401.17230v1 )

ライセンス: Link先を確認
Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe(参考訳) 本稿では,話者埋め込み抽出器を訓練するためのツールキットであるESPnet-SPKを紹介する。 まず,音声認識コミュニティの研究者が無力にモデルを構築するためのオープンソースプラットフォームを提供する。 我々は、x-vectorから最近のSKA-TDNNまで、いくつかのモデルを提供している。 モジュール化されたアーキテクチャ設計により、変種は容易に開発できる。 また、開発モデルと他のドメインとの橋渡しも目指しており、幅広い研究コミュニティが最先端の埋め込み抽出器を積極的に組み込むことを容易にしています。 学習済みの埋め込み抽出器は既製の方法でアクセスでき,2つのタスクとの統合性を示すことでツールキットの汎用性を示す。 もうひとつの目標は、さまざまな自己監督型学習機能を統合することだ。 本稿では,ECAPA-TDNNを用いたWavLM-Largeを用いたVox1-O評価プロトコルにおいて,同じ誤差率で0.39%の再現可能なレシピをリリースする。

This paper introduces ESPnet-SPK, a toolkit designed with several objectives for training speaker embedding extractors. First, we provide an open-source platform for researchers in the speaker recognition community to effortlessly build models. We provide several models, ranging from x-vector to recent SKA-TDNN. Through the modularized architecture design, variants can be developed easily. We also aspire to bridge developed models with other domains, facilitating the broad research community to effortlessly incorporate state-of-the-art embedding extractors. Pre-trained embedding extractors can be accessed in an off-the-shelf manner and we demonstrate the toolkit's versatility by showcasing its integration with two tasks. Another goal is to integrate with diverse self-supervised learning features. We release a reproducible recipe that achieves an equal error rate of 0.39% on the Vox1-O evaluation protocol using WavLM-Large with ECAPA-TDNN.
翻訳日:2024-01-31 13:58:57 公開日:2024-01-30
# モラル性は非バイナリである:コントラスト学習を用いた多元主義的モラル文埋め込み空間の構築

Morality is Non-Binary: Building a Pluralist Moral Sentence Embedding Space using Contrastive Learning ( http://arxiv.org/abs/2401.17228v1 )

ライセンス: Link先を確認
Jeongwoo Park, Enrico Liscio, Pradeep K. Murukannaiah(参考訳) nlpの最近の進歩は、言語モデルがデオントロジー倫理とモラル規範において識別可能な知識レベルを保っていることを示している。 しかし、既存の著作はしばしば道徳を二元論として扱う。 この単純な見解は道徳的判断のニュアンスを捉えない。 複数の道徳哲学者は、道徳的判断の個人差を尊重し、人間の道徳性は有限の要素に分解できると主張している。 この観点から,最先端のコントラスト学習手法を用いて,多元的道徳文埋め込み空間を構築する。 本研究では,モラル要素間の関係の出現を定量的・質的に検討し,埋蔵空間を体系的に調査する。 以上より,モラルに対する多元主義的アプローチを埋め込み空間で捉えることができることを示した。 しかし、道徳的多元主義は自己スーパービジョンのみを通じて推測することが困難であり、人間のラベルと教師付きアプローチを必要とする。

Recent advances in NLP show that language models retain a discernible level of knowledge in deontological ethics and moral norms. However, existing works often treat morality as binary, ranging from right to wrong. This simplistic view does not capture the nuances of moral judgment. Pluralist moral philosophers argue that human morality can be deconstructed into a finite number of elements, respecting individual differences in moral judgment. In line with this view, we build a pluralist moral sentence embedding space via a state-of-the-art contrastive learning approach. We systematically investigate the embedding space by studying the emergence of relationships among moral elements, both quantitatively and qualitatively. Our results show that a pluralist approach to morality can be captured in an embedding space. However, moral pluralism is challenging to deduce via self-supervision alone and requires a supervised approach with human labels.
翻訳日:2024-01-31 13:58:32 公開日:2024-01-30
# 進化的エージェント: 分散進化コンピューティングのためのきめ細かなアプローチ: ピアツーピアコンピューティングのフロンティアへの歩み

Evolvable Agents, a Fine Grained Approach for Distributed Evolutionary Computing: Walking towards the Peer-to-Peer Computing Frontiers ( http://arxiv.org/abs/2401.17224v1 )

ライセンス: Link先を確認
Juan Luis Jim\'enez Laredo and Pedro A. Castillo and Antonio M. Mora and Juan Juli\'an Merelo(参考訳) 本研究では,分散進化計算のための自己適応的移行率を用いたきめ細かなアプローチを提案する。 我々の目標は、アルゴリズムがスケールする際のコミュニケーションによる影響について、いくつかの洞察を得ることである。 この目的のために,コミュニケーションと位相構造との間のアルゴリズム効果の重なりを避けるために,基本トポロジーの集合を考える。 本稿では,プロセッサ数の増加に伴う解の質とアルゴリズムの速度の変化を比較し,島のモデルに基づく実装と比較し,その実現可能性を分析する。 このような機能はピアツーピアシステムのような大規模並列アーキテクチャにおいて非常に重要です。 まず,この問題が最大8ノードまでスケールした場合のアルゴリズム的結果に注目し,島モデルに従う方法と比較した。 第2に,スケーリング時の計算時間の高速化について分析する。 最後に,リンクレイテンシと帯域幅に依存する自己適応的移行率ポリシを用いてネットワーク性能を分析する。 この実験的なセットアップにより,実験対象の3つのテスト関数の平均値に対して,島モデルよりも優れたスケーラビリティと同等の堅牢性を示した。

In this work we propose a fine grained approach with self-adaptive migration rate for distributed evolutionary computation. Our target is to gain some insights on the effects caused by communication when the algorithm scales. To this end, we consider a set of basic topologies in order to avoid the overlapping of algorithmic effects between communication and topological structures. We analyse the approach viability by comparing how solution quality and algorithm speed change when the number of processors increases and compare it with an Island model based implementation. A finer-grained approach implies a better chance of achieving a larger scalable system; such a feature is crucial concerning large-scale parallel architectures such as Peer-to-Peer systems. In order to check scalability, we perform a threefold experimental evaluation of this model: First, we concentrate on the algorithmic results when the problem scales up to eight nodes in comparison with how it does following the Island model. Second, we analyse the computing time speedup of the approach while scaling. Finally, we analyse the network performance with the proposed self-adaptive migration rate policy that depends on the link latency and bandwidth. With this experimental setup, our approach shows better scalability than the Island model and a equivalent robustness on the average of the three test functions under study.
翻訳日:2024-01-31 13:57:32 公開日:2024-01-30
# MouSi:多視点ビジョンランゲージモデル

MouSi: Poly-Visual-Expert Vision-Language Models ( http://arxiv.org/abs/2401.17221v1 )

ライセンス: Link先を確認
Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang(参考訳) 現在の大きな視覚言語モデル(VLM)は、単一の視覚コンポーネントの能力不足や、過度に長い視覚トークンといった問題に遭遇することが多い。 これらの問題は、複雑な視覚情報と過剰なコンテキスト情報を正確に解釈するモデルの有効性を制限する可能性がある。 これらの課題に対処することは、VLMの性能と適用性を高めるために重要である。 本稿では,画像テキストマッチングやOCR,画像セグメンテーションなど,個々の視覚エンコーダの能力を相乗化するためのアンサンブルエキスパート手法を提案する。 この技術は、画像エンコーダと事前学習されたLCM間のギャップを埋めながら、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。 また,長い画像特徴列による位置符号化の無駄を軽減し,位置オーバーフローや長さ制限の問題を効果的に解決するために,異なる位置符号化方式を検討する。 例えば,本実装では,SAM などのモデルにおける位置占有率を,実質的な 4096 からより効率的で管理可能な 64 へ,あるいは 1 まで大幅に低減する。 実験により、複数のエキスパートを持つVLMは、分離されたビジュアルエンコーダよりも一貫して優れた性能を示し、より多くの専門家が統合されるにつれて、大きなパフォーマンス向上を示すことが示された。 このレポートで使用されるトレーニングコードをオープンソースにしています。 これらのリソースはすべて、プロジェクトのWebサイトにある。

Current large vision-language models (VLMs) often encounter challenges such as insufficient capabilities of a single visual component and excessively long visual tokens. These issues can limit the model's effectiveness in accurately interpreting complex visual information and over-lengthy contextual information. Addressing these challenges is crucial for enhancing the performance and applicability of VLMs. This paper proposes the use of ensemble experts technique to synergizes the capabilities of individual visual encoders, including those skilled in image-text matching, OCR, image segmentation, etc. This technique introduces a fusion network to unify the processing of outputs from different visual experts, while bridging the gap between image encoders and pre-trained LLMs. In addition, we explore different positional encoding schemes to alleviate the waste of positional encoding caused by lengthy image feature sequences, effectively addressing the issue of position overflow and length limitations. For instance, in our implementation, this technique significantly reduces the positional occupancy in models like SAM, from a substantial 4096 to a more efficient and manageable 64 or even down to 1. Experimental results demonstrate that VLMs with multiple experts exhibit consistently superior performance over isolated visual encoders and mark a significant performance boost as more experts are integrated. We have open-sourced the training code used in this report. All of these resources can be found on our project website.
翻訳日:2024-01-31 13:56:40 公開日:2024-01-30
# ContactGen: コンタクトガイドによる対話型3Dヒューマンジェネレーション

ContactGen: Contact-Guided Interactive 3D Human Generation for Partners ( http://arxiv.org/abs/2401.17212v1 )

ライセンス: Link先を確認
Dongjun Gu, Jaehyeok Shim, Jaehoon Jang, Changwoo Kang, Kyungdon Joo(参考訳) 目の接触やジェスチャーなど、人間同士のさまざまな相互作用の中で、接触による物理的相互作用は人間の行動を理解する上で不可欠な瞬間となる。 この事実に触発されて、所望のインタラクションラベルを持つ3Dパートナーが、物理的接触の観点から3Dヒューマン生成の新たなタスクを導入する。 静的な物体やシーンと相互作用する以前の作品とは異なり、あるパートナーの人間は、相互作用の種類に応じて様々なポーズと異なる接触領域を持つことができる。 そこで本稿では,この課題に対処するために,誘導拡散フレームワークを用いた対話型3次元人間生成手法を提案する。 具体的には,対話ラベルに従って2人の入力人間間の潜在的接触領域を適応的に推定する接触予測モジュールを提案する。 推定された接触領域を相補的指導として使用することにより, 誘導拡散モデルにおいて, 接触遺伝子を動的に強制し, 相手人間の対話的3d人間を生成する。 CHI3Dデータセット上でContactGenを実演し、本手法は比較法と比較して物理的に妥当で多様なポーズを生成する。

Among various interactions between humans, such as eye contact and gestures, physical interactions by contact can act as an essential moment in understanding human behaviors. Inspired by this fact, given a 3D partner human with the desired interaction label, we introduce a new task of 3D human generation in terms of physical contact. Unlike previous works of interacting with static objects or scenes, a given partner human can have diverse poses and different contact regions according to the type of interaction. To handle this challenge, we propose a novel method of generating interactive 3D humans for a given partner human based on a guided diffusion framework. Specifically, we newly present a contact prediction module that adaptively estimates potential contact regions between two input humans according to the interaction label. Using the estimated potential contact regions as complementary guidances, we dynamically enforce ContactGen to generate interactive 3D humans for a given partner human within a guided diffusion model. We demonstrate ContactGen on the CHI3D dataset, where our method generates physically plausible and diverse poses compared to comparison methods.
翻訳日:2024-01-31 13:56:17 公開日:2024-01-30
# 3次元PLIにおける神経線維分布パターンの自己教師付き表現学習

Self-Supervised Representation Learning for Nerve Fiber Distribution Patterns in 3D-PLI ( http://arxiv.org/abs/2401.17207v1 )

ライセンス: Link先を確認
Alexander Oberstrass, Sascha E. A. Muenzing, Meiqi Niu, Nicola Palomero-Gallagher, Christian Schiffer, Markus Axer, Katrin Amunts, Timo Dickscheid(参考訳) 人間の脳における組織原理の包括的理解には、神経繊維アーキテクチャの十分な記述子が必要である。 3次元偏光イメージング(3D-PLI)は、高分解能の髄質神経線維の微細構造を観察できる顕微鏡イメージング技術である。 3D-PLIで観察されるファイバーアーキテクチャを特徴付ける記述子は、マルチモーダル相関研究、クラスタリング、マッピングなどの下流分析タスクを可能にする。 しかし、3D-PLIにおけるファイバーアーキテクチャの観察非依存的特徴付けのベストプラクティスはまだ提供されていない。 そこで本研究では,自己教師付き表現学習を用いた3D-PLI画像における神経線維構造を特徴付ける,完全なデータ駆動型アプローチを提案する。 本研究では,3次元再構成ボリュームの組織学的脳セクションにまたがるテクスチャサンプルの空間的近傍を利用した3次元コントラスト学習(cl-3d)の目的について紹介する。 我々はこのサンプリング戦略と特別に設計された画像拡張を組み合わせることで、3D-PLIパラメータマップの典型的なバリエーションに対して堅牢性を得る。 このアプローチは、頂点猿脳の3D再構成後頭葉に対して実証される。 抽出された特徴は神経線維の異なる構成に非常に敏感であるが, 組織学的処理による連続的な脳切片の変動には頑健である。 本稿では,同質繊維アーキテクチャのクラスタを検索し,u-fibers などの繊維アーキテクチャの特定のコンポーネントのテンプレートを対話的に選択するためのデータマイニングを行う上で,その実用性を示す。

A comprehensive understanding of the organizational principles in the human brain requires, among other factors, well-quantifiable descriptors of nerve fiber architecture. Three-dimensional polarized light imaging (3D-PLI) is a microscopic imaging technique that enables insights into the fine-grained organization of myelinated nerve fibers with high resolution. Descriptors characterizing the fiber architecture observed in 3D-PLI would enable downstream analysis tasks such as multimodal correlation studies, clustering, and mapping. However, best practices for observer-independent characterization of fiber architecture in 3D-PLI are not yet available. To this end, we propose the application of a fully data-driven approach to characterize nerve fiber architecture in 3D-PLI images using self-supervised representation learning. We introduce a 3D-Context Contrastive Learning (CL-3D) objective that utilizes the spatial neighborhood of texture examples across histological brain sections of a 3D reconstructed volume to sample positive pairs for contrastive learning. We combine this sampling strategy with specifically designed image augmentations to gain robustness to typical variations in 3D-PLI parameter maps. The approach is demonstrated for the 3D reconstructed occipital lobe of a vervet monkey brain. We show that extracted features are highly sensitive to different configurations of nerve fibers, yet robust to variations between consecutive brain sections arising from histological processing. We demonstrate their practical applicability for retrieving clusters of homogeneous fiber architecture and performing data mining for interactively selected templates of specific components of fiber architecture such as U-fibers.
翻訳日:2024-01-31 13:55:58 公開日:2024-01-30
# BanglaBERT Semantic Embeddings K-Means-Infused CRF Model を用いたGazetteer-Enhanced Bangla Named Entity Recognition

Gazetteer-Enhanced Bangla Named Entity Recognition with BanglaBERT Semantic Embeddings K-Means-Infused CRF Model ( http://arxiv.org/abs/2401.17206v1 )

ライセンス: Link先を確認
Niloy Farhan, Saman Sarker Joy, Tafseer Binte Mannan, Farig Sadeque(参考訳) 名前付きエンティティ認識(NER)は自然言語処理(NLP)のサブタスクであり、エンティティを未整理のテキストから事前定義された分類に区別する。 近年、多くの Bangla NLP サブタスクが注目されているが、Bangla の Named Entity Recognition はまだ遅れを取っている。 本研究では,バングラデシュにおけるエンティティ認識研究の現状について検討した。 私たちは、現在の技術とデータセットが直面する制限を解明しようとしました。 さらに,nerの性能を著しく向上させることのできるガゼッタを開発した。 また,従来の手法よりも優れた最先端のNLPツールを活用することで,新たなNERソリューションを提案する。

Named Entity Recognition (NER) is a sub-task of Natural Language Processing (NLP) that distinguishes entities from unorganized text into predefined categorization. In recent years, a lot of Bangla NLP subtasks have received quite a lot of attention; but Named Entity Recognition in Bangla still lags behind. In this research, we explored the existing state of research in Bangla Named Entity Recognition. We tried to figure out the limitations that current techniques and datasets face, and we would like to address these limitations in our research. Additionally, We developed a Gazetteer that has the ability to significantly boost the performance of NER. We also proposed a new NER solution by taking advantage of state-of-the-art NLP tools that outperform conventional techniques.
翻訳日:2024-01-31 13:55:30 公開日:2024-01-30
# 合成制御による適応実験設計

Adaptive Experiment Design with Synthetic Controls ( http://arxiv.org/abs/2401.17205v1 )

ライセンス: Link先を確認
Alihan H\"uy\"uk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 臨床試験は通常、特定の患者に新しい治療法が与える影響を理解するために行われる。 しかし、大人口の患者が同じ治療に反応することは滅多にない。 この患者反応の不均一性は、複数の亜集団に対する影響を調べるための臨床試験を必要とし、特に治療が全人口に限界があるか全く利益がないが、特定の亜集団に重大な利益がある場合である。 そこで本研究では,多くのサブポピュレーションにおいて肯定的な治療効果を有するサブポピュレーションを識別する探索的トライアル設計であるSyntaxを提案する。 構文はサンプルとして効率的です (i)順応して患者を募集し、割り当てる (II) 他のサブポピュレーションからの制御サンプルを組み合わせたサブポピュレーションごとに合成制御を形成することにより治療効果を推定する。 我々は構文の性能を検証し、実験を通じて従来の試行設計よりも有利な点について洞察を与える。

Clinical trials are typically run in order to understand the effects of a new treatment on a given population of patients. However, patients in large populations rarely respond the same way to the same treatment. This heterogeneity in patient responses necessitates trials that investigate effects on multiple subpopulations - especially when a treatment has marginal or no benefit for the overall population but might have significant benefit for a particular subpopulation. Motivated by this need, we propose Syntax, an exploratory trial design that identifies subpopulations with positive treatment effect among many subpopulations. Syntax is sample efficient as it (i) recruits and allocates patients adaptively and (ii) estimates treatment effects by forming synthetic controls for each subpopulation that combines control samples from other subpopulations. We validate the performance of Syntax and provide insights into when it might have an advantage over conventional trial designs through experiments.
翻訳日:2024-01-31 13:55:17 公開日:2024-01-30
# CPR++:単一粗点スーパービジョンによるオブジェクトローカライゼーション

CPR++: Object Localization via Single Coarse Point Supervision ( http://arxiv.org/abs/2401.17203v1 )

ライセンス: Link先を確認
Xuehui Yu, Pengfei Chen, Kuiran Wang, Xumeng Han, Guorong Li, Zhenjun Han, Qixiang Ye, Jianbin Jiao(参考訳) 低コストデータアノテーション下で高性能オブジェクトセンシングを追求するpoint-based object localization(pol)が注目されている。 しかし、ポイントアノテーションモードは、必然的に、注釈付きポイントの不一致による意味的分散を導入する。 既存のPOLは厳密なアノテーションルールに大きく依存しています。 本研究では,アルゴリズムの観点から意味的分散を緩和する最初の試みとして,最善の知識に対して粗点補正(cpr)を提案する。 CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。 さらに,各オブジェクトのサンプリング領域を動的に計算するサンプリング領域推定モジュールを設計し,カスケード構造を用いてエンドツーエンド最適化を行う。 さらに、予測スコアに集中するために分散正規化を構造に統合し、CPR++を得る。 我々は、CPR++がスケール情報を取得し、グローバル領域における意味的分散をさらに低減し、高性能なオブジェクトローカライゼーションを保証することを観察する。 4つの挑戦的なデータセットに関する大規模な実験は、CPRとCPR++の有効性を検証する。 我々の研究がpolのセマンティクス分散問題に対処するためのアノテーションルールではなく、アルゴリズム設計に関するさらなる研究を刺激できることを願っています。 データセットとコードはgithub.com/ucas-vg/PointTinyBenchmarkで公開される。

Point-based object localization (POL), which pursues high-performance object sensing under low-cost data annotation, has attracted increased attention. However, the point annotation mode inevitably introduces semantic variance due to the inconsistency of annotated points. Existing POL heavily rely on strict annotation rules, which are difficult to define and apply, to handle the problem. In this study, we propose coarse point refinement (CPR), which to our best knowledge is the first attempt to alleviate semantic variance from an algorithmic perspective. CPR reduces the semantic variance by selecting a semantic centre point in a neighbourhood region to replace the initial annotated point. Furthermore, We design a sampling region estimation module to dynamically compute a sampling region for each object and use a cascaded structure to achieve end-to-end optimization. We further integrate a variance regularization into the structure to concentrate the predicted scores, yielding CPR++. We observe that CPR++ can obtain scale information and further reduce the semantic variance in a global region, thus guaranteeing high-performance object localization. Extensive experiments on four challenging datasets validate the effectiveness of both CPR and CPR++. We hope our work can inspire more research on designing algorithms rather than annotation rules to address the semantic variance problem in POL. The dataset and code will be public at github.com/ucas-vg/PointTinyBenchmark.
翻訳日:2024-01-31 13:55:01 公開日:2024-01-30
# 協調の最適量子テレポーテーション

Optimal quantum teleportation of collaboration ( http://arxiv.org/abs/2401.17201v1 )

ライセンス: Link先を確認
Arkaprabha Ghosal, Jatin Ghai, Tanmay Saha, Mir Alimuddin, Sibasish Ghosh(参考訳) Alice-Bob と Bob-Charlie の2量子状態を持つ空間的に分離された3つの実験室のネットワークを考える。 我々はアリスとチャーリーの間の量子テレポーテーションチャネル(QTC)の最適かつ決定論的分布の問題に焦点をあてる。 これは、アリスとチャーリーの間に2ビットの絡み合った状態に最適化された完全絡み合った分数(FEF)を、古典的な境界を超える3つのサードパーティのトレース保存(TP)LOCCに分配することを含む。 しかし、QTCの最適分布は、一般に、絡み合いの最適分布と1対1の対応を持たない。 事前共有された2量子状態の特定のクラスに対して、QTCを最適に分配する十分なTP LOCC戦略のセットを特定する。 この文脈では、上記の集合は制限され、ボブは操作を開始し、その結果をアリスとチャーリーと共有する。 ボブの貢献とそれを捨てた後、アリスとチャーリーは局所的な後処理の自由を得る。 事前共有された絡み合った状態の一方が騒がしい場合、最適分布は必ずしも他方が最も資源的な状態、すなわち最大絡み合った状態(mes)である必要はないと思われる。 さらに、どちらもノイズの多い場合、効率的なBob補助プロトコル(一般的には古典的境界よりも大きいEFFのチャネルを分配する最適化プロトコル)が必然的にBobの関節測定を必要とする場合、部分的に絡み合った純状態の射影測定(PVM)を行うか、あるいはPOVMを実行する場合がある。 そこで本研究では,RPBESプロトコルがRefで導入されたことも明らかにした。 [[図93.260501]効率のよい絡み合い分布(場合によっては最適であっても)は、一般的には効率のよいプロトコルではありません。

We consider a network of three spatially separated labs of Alice, Bob, and Charlie, with a two-qubit state shared between Alice-Bob and Bob-Charlie, and all of them can collaborate through LOCC. We focus on the problem of optimal and deterministic distribution of a quantum teleportation channel (QTC) between Alice and Charlie. This involves distributing a two-qubit entangled state between Alice and Charlie with an optimized fully entangled fraction (FEF) over all three-party trace-preserving (TP) LOCC, exceeding the classical bound. However, we find that the optimal distribution of QTC generally has no one-to-one correspondence with the optimal distribution of entanglement. For some specific class of pre-shared two-qubit states, we identify the set of sufficient TP LOCC strategies that optimally distribute QTC. In this context, the mentioned set is restricted, with Bob initiating operations and subsequently sharing the outcomes with Alice and Charlie. Following Bob's contribution and after it is discarded, Alice and Charlie have the freedom of local post-processing. It seems that if one of the pre-shared entangled states is noisy, the optimal distribution may not necessarily require the other one to be most resourceful, i.e., a maximally entangled state (MES). Furthermore, when both of the pre-shared entangled states are noisy, there are instances where an efficient Bob-assisted protocol (generally a suboptimal protocol distributing a channel with FEF larger than the classical bound) necessarily requires Bob's joint measurement to be either performing projective measurement (PVM) in partially entangled pure states or performing POVM. In this regard, our study also reveals that the RPBES protocol introduced in Ref. [Phys. Rev. Lett. 93. 260501] for efficient entanglement distribution (even optimally for some cases), is not an efficient protocol in general.
翻訳日:2024-01-31 13:54:38 公開日:2024-01-30
# NormEnsembleXAI: XAI Ensemble Techniqueの強度と弱さを明らかにする

NormEnsembleXAI: Unveiling the Strengths and Weaknesses of XAI Ensemble Techniques ( http://arxiv.org/abs/2401.17200v1 )

ライセンス: Link先を確認
Weronika Hryniewska-Guzik, Bartosz Sawicki, Przemys{\l}aw Biecek(参考訳) 本稿では,説明可能な人工知能(XAI)の総合的な比較分析を行う。 私たちの研究は3つの重要な貢献をもたらす。 まず, 最小, 最大, 平均関数を活用し, 可読性を高めるための正規化手法を併用した, 新たなナンセンスリング手法, normensemblexaiを提案する。 第2に,XAIアンサンブル手法の長所と短所について考察する。 最後に,xai ensemblingの実用的な実装を容易にするライブラリを提供し,透明で解釈可能なディープラーニングモデルの採用を促進する。

This paper presents a comprehensive comparative analysis of explainable artificial intelligence (XAI) ensembling methods. Our research brings three significant contributions. Firstly, we introduce a novel ensembling method, NormEnsembleXAI, that leverages minimum, maximum, and average functions in conjunction with normalization techniques to enhance interpretability. Secondly, we offer insights into the strengths and weaknesses of XAI ensemble methods. Lastly, we provide a library, facilitating the practical implementation of XAI ensembling, thus promoting the adoption of transparent and interpretable deep learning models.
翻訳日:2024-01-31 13:54:01 公開日:2024-01-30
# テキスト分類器のアタックとディフェンスをデザインする「Single Word Change」

Single Word Change is All You Need: Designing Attacks and Defenses for Text Classifiers ( http://arxiv.org/abs/2401.17196v1 )

ライセンス: Link先を確認
Lei Xu, Sarah Alnegheimish, Laure Berti-Equille, Alfredo Cuesta-Infante, Kalyan Veeramachaneni(参考訳) テキスト分類では、逆例を作成することは、意味を変えずに文中のいくつかの単語を微妙に摂動することであり、分類器によって誤分類される。 既存の手法が生み出す敵の例のかなりの部分が1つの単語だけに変化している。 このシングルワードの摂動脆弱性は、悪意のあるユーザーが効果的に多くの敵の例を作成することができる分類器の重大な弱点である。 本稿では,この問題を考察し,(1)単一単語摂動に対する分類器の頑健さを定量的に評価する新しい指標であるr{ho}を導入する。 2)SP-Attackは,1ワードの摂動脆弱性を利用して,攻撃の成功率の向上,文の意味の保存を図り,また,最先端の敵法に比べて計算コストの低減を図る。 3) 学習にデータ拡張を適用することで, \r{ho}を改善することを目的としたsp防御を提案する。 4 つのデータセットと BERT と distilBERT 分類器の実験結果から、SP-Defense は \r{ho} を 14.6% と 13.9% 改善し、2 つの分類器でそれぞれ SP-Attack の攻撃成功率を 30.4% と 21.2% 削減し、複数ワードの摂動を含む既存の攻撃方法の攻撃成功率を低下させる。

In text classification, creating an adversarial example means subtly perturbing a few words in a sentence without changing its meaning, causing it to be misclassified by a classifier. A concerning observation is that a significant portion of adversarial examples generated by existing methods change only one word. This single-word perturbation vulnerability represents a significant weakness in classifiers, which malicious users can exploit to efficiently create a multitude of adversarial examples. This paper studies this problem and makes the following key contributions: (1) We introduce a novel metric \r{ho} to quantitatively assess a classifier's robustness against single-word perturbation. (2) We present the SP-Attack, designed to exploit the single-word perturbation vulnerability, achieving a higher attack success rate, better preserving sentence meaning, while reducing computation costs compared to state-of-the-art adversarial methods. (3) We propose SP-Defense, which aims to improve \r{ho} by applying data augmentation in learning. Experimental results on 4 datasets and BERT and distilBERT classifiers show that SP-Defense improves \r{ho} by 14.6% and 13.9% and decreases the attack success rate of SP-Attack by 30.4% and 21.2% on two classifiers respectively, and decreases the attack success rate of existing attack methods that involve multiple-word perturbations.
翻訳日:2024-01-31 13:53:51 公開日:2024-01-30
# 有限温度における期待値推定のための混合状態変分量子固有解法

Mixed State Variational Quantum Eigensolver for the Estimation of Expectation Values at Finite Temperature ( http://arxiv.org/abs/2401.17194v1 )

ライセンス: Link先を確認
Giuseppe Clemente(参考訳) 有限温度における量子システムの期待値の短期計算のための新しいハイブリッド量子古典アルゴリズムを提案する。 これは、2つの段階に基づいており、第1段階では、興味のある観測対象に対する期待値が計算された再重み付け段階が続く変分量子固有解法(VQE)技術により、フィデューシャル・トランケート密度行列を近似した混合状態が作成される。 これら2つのステージは、任意の精度を達成するために、異なるハイパーパラメータで繰り返すことができる。 アルゴリズムの資源と時間的拡張性は、短期的な視点で論じる。

We introduce a novel hybrid quantum-classical algorithm for the near-term computation of expectation values in quantum systems at finite temperatures. This is based on two stages: on the first one, a mixed state approximating a fiducial truncated density matrix is prepared through Variational Quantum Eigensolving (VQE) techniques; this is then followed by a reweighting stage where the expectation values for observables of interest are computed. These two stages can then be iterated again with different hyperparameters to achieve arbitrary accuracy. Resource and time scalability of the algorithm is discussed with a near-term perspective.
翻訳日:2024-01-31 13:53:17 公開日:2024-01-30
# xBDデータセットによる建物損傷検出のためのシンプルで強力なベースライン

A simple, strong baseline for building damage detection on the xBD dataset ( http://arxiv.org/abs/2401.17271v1 )

ライセンス: Link先を確認
Sebastian Gerard, Paul Borne-Pons, Josephine Sullivan(参考訳) 我々は,xView2コンペティションのハイエンジニアリングな勝利解から始めて,コンポーネントを徐々に取り除き,損傷検出を構築するための強力なベースライン手法を構築した。 これにより、十分な性能を維持しつつ、より簡単な方法が得られる。 単純化されたソリューションがより広く、容易に適用できることを期待しています。 この期待は、複雑さの低減と、他のデータセットに転送する単純なヒューリスティックスに基づいてハイパーパラメータを選択するという事実に基づいている。 次に、xView2データセットの分割を並べ替えて、トレーニング中にテストロケーションが見えないようにします。 この設定では、複素モデルと単純化モデルの両方が見えない場所に一般化できないことが分かる。 データセットの分析は、この一般化の失敗はモデルベースの問題だけでなく、イベント間の不平等なクラス分布にも影響される可能性があることを示している。 ベースラインモデルを含むコードはhttps://github.com/PaulBorneP/Xview2_Strong_Baselineで入手できる。

We construct a strong baseline method for building damage detection by starting with the highly-engineered winning solution of the xView2 competition, and gradually stripping away components. This way, we obtain a much simpler method, while retaining adequate performance. We expect the simplified solution to be more widely and easily applicable. This expectation is based on the reduced complexity, as well as the fact that we choose hyperparameters based on simple heuristics, that transfer to other datasets. We then re-arrange the xView2 dataset splits such that the test locations are not seen during training, contrary to the competition setup. In this setting, we find that both the complex and the simplified model fail to generalize to unseen locations. Analyzing the dataset indicates that this failure to generalize is not only a model-based problem, but that the difficulty might also be influenced by the unequal class distributions between events. Code, including the baseline model, is available under https://github.com/PaulBorneP/Xview2_Strong_Baseline
翻訳日:2024-01-31 13:45:29 公開日:2024-01-30
# YOLO-World: リアルタイムオープン語彙オブジェクト検出

YOLO-World: Real-Time Open-Vocabulary Object Detection ( http://arxiv.org/abs/2401.17270v1 )

ライセンス: Link先を確認
Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan(参考訳) You Only Look Once (YOLO)シリーズは、効率的で実用的なツールとして確立されている。 しかしながら、事前定義された、および訓練されたオブジェクトカテゴリへの依存は、オープンシナリオにおける適用性を制限している。 この制限に対処するため、大規模なデータセット上での視覚言語モデリングと事前学習を通じて、オープン語彙検出機能によりYOLOを強化する革新的なアプローチであるYOLO-Worldを導入する。 具体的には、視覚情報と言語情報の相互作用を容易にするために、新たにRe-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) とリージョンテキストコントラスト損失を提案する。 提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 挑戦的なLVISデータセットでは、YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。 さらに、細調整されたYOLO-Worldは、オブジェクト検出やオープン語彙のインスタンスセグメンテーションなど、いくつかの下流タスクで顕著なパフォーマンスを実現している。

The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
翻訳日:2024-01-31 13:45:12 公開日:2024-01-30
# 事例分析による学習モデルに及ぼす重み量子化の影響

Effect of Weight Quantization on Learning Models by Typical Case Analysis ( http://arxiv.org/abs/2401.17269v1 )

ライセンス: Link先を確認
Shuhei Kashiwamura, Ayaka Sakata, Masaaki Imaizumi(参考訳) 本稿では,大規模データ解析モデルにおける量子化手法とそのハイパーパラメータ選択について検討する。 最近のデータ分析スケールの急増は、計算リソースの要求を大幅に増加させた。 これに対処するため、モデル重み付けの定量化は、ディープラーニングのようなデータ分析アプリケーションで一般的なプラクティスとなっている。 量子化は、計算資源が限られているデバイスに大規模モデルをデプロイするのに特に不可欠である。 しかし、量子化ハイパーパラメータの選択(ビット数や重量量子化の値範囲など)は未調査領域のままである。 本研究では,統計物理学,特にレプリカ法による典型的なケース解析を用いて,ハイパーパラメータが単純な学習モデルの量子化に与える影響を探索する。 私たちの分析は3つの重要な発見を導き出します i) レプリカ対称性の破れとして知られる不安定なハイパーパラメータ位相は、少数のビットと大きな量子化幅で発生する。 (ii)誤差を最小限に抑える最適な量子化幅があり、 3) 量子化は過パラメータ化の開始を遅らせ、二重降下現象によって示されるオーバーフィッティングを緩和する。 また,非一様量子化は安定性を高めることを発見した。 さらに,理論結果を検証する近似メッセージパッシングアルゴリズムを開発した。

This paper examines the quantization methods used in large-scale data analysis models and their hyperparameter choices. The recent surge in data analysis scale has significantly increased computational resource requirements. To address this, quantizing model weights has become a prevalent practice in data analysis applications such as deep learning. Quantization is particularly vital for deploying large models on devices with limited computational resources. However, the selection of quantization hyperparameters, like the number of bits and value range for weight quantization, remains an underexplored area. In this study, we employ the typical case analysis from statistical physics, specifically the replica method, to explore the impact of hyperparameters on the quantization of simple learning models. Our analysis yields three key findings: (i) an unstable hyperparameter phase, known as replica symmetry breaking, occurs with a small number of bits and a large quantization width; (ii) there is an optimal quantization width that minimizes error; and (iii) quantization delays the onset of overparameterization, helping to mitigate overfitting as indicated by the double descent phenomenon. We also discover that non-uniform quantization can enhance stability. Additionally, we develop an approximate message-passing algorithm to validate our theoretical results.
翻訳日:2024-01-31 13:44:51 公開日:2024-01-30
# Weaver: 創造的記述のための基礎モデル

Weaver: Foundation Models for Creative Writing ( http://arxiv.org/abs/2401.17268v1 )

ライセンス: Link先を確認
Tiannan Wang, Jiamin Chen, Qingrui Jia, Shuai Wang, Ruoyu Fang, Huilin Wang, Zhaowei Gao, Chunzhao Xie, Chuou Xu, Jihong Dai, Yibin Liu, Jialong Wu, Shengwei Ding, Long Li, Zhiwei Huang, Xinle Deng, Teng Yu, Gangan Ma, Han Xiao, Zixin Chen, Danjun Xiang, Yunxia Wang, Yuanyuan Zhu, Yi Xiao, Jing Wang, Yiru Wang, Siran Ding, Jiayang Huang, Jiayi Xu, Yilihamu Tayier, Zhenyu Hu, Yuan Gao, Chengfeng Zheng, Yueshu Ye, Yihang Li, Lei Wan, Xinyue Jiang, Yujie Wang, Siyu Cheng, Zhule Song, Xiangru Tang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang, and Wangchunshu Zhou(参考訳) この作業では、コンテンツ生成専用の大規模言語モデル(LLM)の最初のファミリーであるWeaverを紹介します。 weaverは、大規模な言語モデルの書き込み能力の向上に焦点を当てた、慎重に選択されたコーパスで事前トレーニングされている。 次に、創造的かつ専門的な執筆目的でWeaverを微調整し、命令データ合成とLCMアライメントのための新しい方法のスーツを用いてプロのライターの好みに合わせることにより、より人間的なテキストを生成し、コンテンツ作成のためのより多様な指示に従うことができる。 WeaverファミリーはWeaver Mini (1.8B)、Weaver Base (6B)、Weaver Pro (14B)、Weaver Ultra (34B)のモデルで構成され、異なるアプリケーションに適している。 LLMの書き込み能力を評価するための厳格なベンチマークの評価は、すべてのサイズのWeaverモデルの方がジェネラリストLLMよりも数倍大きいことを示している。 特に、我々の最も有能なWeaver Ultraモデルは、様々な書き込みシナリオにおいて、最先端のジェネラリストLLMであるGPT-4を超越し、書き込み目的に特殊なLLMを訓練する利点を示している。 さらにWeaverは、検索拡張生成(RAG)と関数呼び出し(ツール使用)をネイティブにサポートする。 本稿では、外部知識ベース、ツール、apiの統合、パーソナライズドライティング支援など、ai支援ライティングシステムの改善のためのこれらの能力のさまざまなユースケースを紹介する。 さらに,事前学習とドメイン固有llmの微調整のためのガイドラインとベストプラクティスについて概説する。

This work introduces Weaver, our first family of large language models (LLMs) dedicated to content creation. Weaver is pre-trained on a carefully selected corpus that focuses on improving the writing capabilities of large language models. We then fine-tune Weaver for creative and professional writing purposes and align it to the preference of professional writers using a suit of novel methods for instruction data synthesis and LLM alignment, making it able to produce more human-like texts and follow more diverse instructions for content creation. The Weaver family consists of models of Weaver Mini (1.8B), Weaver Base (6B), Weaver Pro (14B), and Weaver Ultra (34B) sizes, suitable for different applications and can be dynamically dispatched by a routing agent according to query complexity to balance response quality and computation cost. Evaluation on a carefully curated benchmark for assessing the writing capabilities of LLMs shows Weaver models of all sizes outperform generalist LLMs several times larger than them. Notably, our most-capable Weaver Ultra model surpasses GPT-4, a state-of-the-art generalist LLM, on various writing scenarios, demonstrating the advantage of training specialized LLMs for writing purposes. Moreover, Weaver natively supports retrieval-augmented generation (RAG) and function calling (tool usage). We present various use cases of these abilities for improving AI-assisted writing systems, including integration of external knowledge bases, tools, or APIs, and providing personalized writing assistance. Furthermore, we discuss and summarize a guideline and best practices for pre-training and fine-tuning domain-specific LLMs.
翻訳日:2024-01-31 13:44:33 公開日:2024-01-30
# ReacLLaMA: 化学反応性AIモデルにおける化学情報とテキスト情報の融合

ReacLLaMA: Merging chemical and textual information in chemical reactivity AI models ( http://arxiv.org/abs/2401.17267v1 )

ライセンス: Link先を確認
Aline Hartgers, Ramil Nugmanov, Kostiantyn Chernichenko, Joerg Kurt Wegner(参考訳) 化学反応性モデルは、分類(成功/失敗)や回帰(製品収量)という形で化学反応の結果を予測するために開発された。 報告されたモデルの大部分は、反応物質、生成物、試薬、溶媒などの化学情報のみに基づいて訓練されているが、合成プロトコルの詳細には触れていない。 本稿では,graphormerの反応性モデルを強化し,精度を向上させることを目的とした手続きテキストの組み込みについて述べる。 GPT-2から派生したテキストプロシージャ(ReacLLaMA-Adapter)の潜在表現を備えたアダプタGraphormerモデルをトレーニングし、LLaMA 2モデルでデータセットのラベルのない部分をラベル付けし、拡張データセット(Zero-Shot Labeling ReacLLaMA)でGraphormerをトレーニングする。 どちらの手法も未熟な反応の識別を高め、特異性を改善したより正確なモデルを提供する。

Chemical reactivity models are developed to predict chemical reaction outcomes in the form of classification (success/failure) or regression (product yield) tasks. The vast majority of the reported models are trained solely on chemical information such as reactants, products, reagents, and solvents, but not on the details of a synthetic protocol. Herein incorporation of procedural text with the aim to augment the Graphormer reactivity model and improve its accuracy is presented. Two major approaches are used: training an adapter Graphormer model that is provided with a GPT-2-derived latent representation of the text procedure (ReacLLaMA-Adapter) and labeling an unlabeled part of a dataset with the LLaMA 2 model followed by training the Graphormer on an extended dataset (Zero-Shot Labeling ReacLLaMA). Both methodologies enhance the discernment of unpromising reactions, thereby providing more accurate models with improved specificity.
翻訳日:2024-01-31 13:44:04 公開日:2024-01-30
# 局所的透かしを用いた音声クローニングの能動的検出

Proactive Detection of Voice Cloning with Localized Watermarking ( http://arxiv.org/abs/2401.17264v1 )

ライセンス: Link先を確認
Robin San Roman, Pierre Fernandez, Alexandre D\'efossez, Teddy Furon, Tuan Tran, Hady Elsahar(参考訳) 音声生成モデルの急速に発展する分野では、音声のクローン化のリスクに対して、音声の信頼性を確保する必要がある。 我々はAI生成音声の局所検出に特化して設計された最初の音声透かし技術であるAudioSealを提案する。 AudioSealは、サンプルレベルまで局所的な透かし検出を可能にするために、ローカライズロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを採用し、聴覚マスキングにインスパイアされた新しい知覚損失により、AudioSealはより非知覚性を向上できる。 AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。 さらに、AudioSealは高速でシングルパスの検出器で設計されており、既存のモデルよりも高速で2桁高速な検出を実現し、大規模およびリアルタイムのアプリケーションに最適である。

In the rapidly evolving field of speech generative models, there is a pressing need to ensure audio authenticity against the risks of voice cloning. We present AudioSeal, the first audio watermarking technique designed specifically for localized detection of AI-generated speech. AudioSeal employs a generator/detector architecture trained jointly with a localization loss to enable localized watermark detection up to the sample level, and a novel perceptual loss inspired by auditory masking, that enables AudioSeal to achieve better imperceptibility. AudioSeal achieves state-of-the-art performance in terms of robustness to real life audio manipulations and imperceptibility based on automatic and human evaluation metrics. Additionally, AudioSeal is designed with a fast, single-pass detector, that significantly surpasses existing models in speed - achieving detection up to two orders of magnitude faster, making it ideal for large-scale and real-time applications.
翻訳日:2024-01-31 13:43:44 公開日:2024-01-30
# 脱獄攻撃に対する言語モデルのロバストプロンプト最適化

Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks ( http://arxiv.org/abs/2401.17263v1 )

ライセンス: Link先を確認
Andy Zhou and Bo Li and Haohan Wang(参考訳) AIアライメントの進歩にもかかわらず、言語モデル(LM)は敵の攻撃や脱獄に弱いままであり、敵が入力プロンプトを変更して有害な行動を引き起こす。 いくつかの防衛案が提案されているが、それらは狭義の脅威モデルに焦点を合わせており、我々は効果的で普遍的で実用的であるべきだと考えている。 そこで本研究では,LMをジェイルブレーキング攻撃から守るための最初の敵目標と,無害な出力を実行するために勾配に基づくトークン最適化を用いるロバストプロンプト最適化(RPO)を提案する。 これにより、最適化時に見られるジェイルブレイクと未知のジェイルブレイクの両方に対する堅牢性を著しく改善し、スターリング-7Bの攻撃成功率を20回のジェイルブレイクで84%から8.66%に下げる。 さらに, RPO は通常の LM の使用に小さな影響を与え, 適応攻撃下では成功し, ブラックボックスモデルへの移行が可能であり, GPT-4 に対する最強攻撃の成功率は 92% から 6% に低下することがわかった。

Despite advances in AI alignment, language models (LM) remain vulnerable to adversarial attacks or jailbreaking, in which adversaries modify input prompts to induce harmful behavior. While some defenses have been proposed, they focus on narrow threat models and fall short of a strong defense, which we posit should be effective, universal, and practical. To achieve this, we propose the first adversarial objective for defending LMs against jailbreaking attacks and an algorithm, robust prompt optimization (RPO), that uses gradient-based token optimization to enforce harmless outputs. This results in an easily accessible suffix that significantly improves robustness to both jailbreaks seen during optimization and unknown, held-out jailbreaks, reducing the attack success rate on Starling-7B from 84% to 8.66% across 20 jailbreaks. In addition, we find that RPO has a minor effect on normal LM use, is successful under adaptive attacks, and can transfer to black-box models, reducing the success rate of the strongest attack on GPT-4 from 92% to 6%.
翻訳日:2024-01-31 13:43:26 公開日:2024-01-30
# ダークマターはフォトニックチップで検索する

Dark Matter Searches on a Photonic Chip ( http://arxiv.org/abs/2401.17260v1 )

ライセンス: Link先を確認
Nikita Blinov, Christina Gao, Roni Harnik, Ryan Janish, Neil Sinclair(参考訳) 電子ボルト以下の秩序の質量を持つダークマター(DM)は、電磁磁気と非ゼロ結合を持つ。 これらのモデルでは、周囲dmはマクスウェル方程式の新しい古典的源として振る舞うことができ、実験室で検出可能な電磁場(em)を励起することができる。 統合フォトニクスを用いて0.1eVの質量を持つDM候補を探索する新しい提案について述べる。 このアプローチは、新しいエキサイティングな実験プログラムを可能にする共振器や導波路のような幅広い波長スケールのデバイスを提供する。 特に, グラウトや周期配置マイクロリング, パターンスラブなどの屈折率変調共振器が, DMと効率的に結合するEMモードをどのようにサポートするかを示す。 DMに興奮すると、これらのモードは共振器をマイクロスケールの単一光子検出器(ウルトラキーの電荷結合装置の1ピクセルや超伝導ナノワイヤなど)で終端する導波路に結合することで読み出すことができる。 次に、この実験概念の感度を、DMのアクシオン様粒子およびダークフォトンモデルという文脈で推定し、ナノフォトニクスのスケーリングと閉じ込めの利点が新しいDMパラメータ空間の探索を可能にすることを示した。

Dark matter (DM) with masses of order an electronvolt or below can have a non-zero coupling to electromagnetism. In these models, the ambient DM behaves as a new classical source in Maxwell's equations, which can excite potentially detectable electromagnetic (EM) fields in the laboratory. We describe a new proposal for using integrated photonics to search for such DM candidates with masses in the 0.1 eV - few eV range. This approach offers a wide range of wavelength-scale devices like resonators and waveguides that can enable a novel and exciting experimental program. In particular, we show how refractive index-modulated resonators, such as grooved or periodically-poled microrings, or patterned slabs, support EM modes with efficient coupling to DM. When excited by the DM, these modes can be read out by coupling the resonators to a waveguide that terminates on a micron-scale-sized single photon detector, such as a single pixel of an ultra-quiet charge-coupled device or a superconducting nanowire. We then estimate the sensitivity of this experimental concept in the context of axion-like particle and dark photon models of DM, showing that the scaling and confinement advantages of nanophotonics may enable exploration of new DM parameter space.
翻訳日:2024-01-31 13:43:04 公開日:2024-01-30
# 一つのステップしか必要としない: スケール蒸留による安定拡散による高速超解法

You Only Need One Step: Fast Super-Resolution with Stable Diffusion via Scale Distillation ( http://arxiv.org/abs/2401.17258v1 )

ライセンス: Link先を確認
Mehdi Noroozi, Isma Hadji, Brais Martinez, Adrian Bulat and Georgios Tzimiropoulos(参考訳) 本稿では,画像超解像のための新しい安定拡散法であるYONOS-SRについて紹介する。 SRモデルの学習のための新しいスケール蒸留手法を提案する。 興味のある尺度でSRモデルを直接訓練するのではなく、より小さな倍率スケールで教師モデルを訓練することで、教師にとってSR問題はより簡単になる。 そして,教師の予測を目標として,高倍率化のための学習モデルを構築した。 このプロセスは、最終モデルのターゲットスケールファクタに到達するまで反復的に繰り返されます。 スケール蒸留の背景にある理論的根拠は、教師が学生拡散モデルトレーニングを支援することである。 一 現在の騒音レベルに適合する目標を、すべての騒音レベルについて、地上の真実データから来る同じ目標を使用するのではなく、提供すること 二 教師がより簡単な課題を有するため、的確な目標を提供すること。 実験により, 蒸留モデルは, 高いスケールで直接訓練されたモデル, 特に, 推理中のわずかなステップを上回ることを示した。 1ステップしか必要としない強力な拡散モデルを持つことで、U-Netを凍結し、その上にデコーダを微調整することができます。 空間蒸留されたU-Netと微調整デコーダの組み合わせは, 単一ステップで200ステップ必要となる最先端の手法より優れていた。

In this paper, we introduce YONOS-SR, a novel stable diffusion-based approach for image super-resolution that yields state-of-the-art results using only a single DDIM step. We propose a novel scale distillation approach to train our SR model. Instead of directly training our SR model on the scale factor of interest, we start by training a teacher model on a smaller magnification scale, thereby making the SR problem simpler for the teacher. We then train a student model for a higher magnification scale, using the predictions of the teacher as a target during the training. This process is repeated iteratively until we reach the target scale factor of the final model. The rationale behind our scale distillation is that the teacher aids the student diffusion model training by i) providing a target adapted to the current noise level rather than using the same target coming from ground truth data for all noise levels and ii) providing an accurate target as the teacher has a simpler task to solve. We empirically show that the distilled model significantly outperforms the model trained for high scales directly, specifically with few steps during inference. Having a strong diffusion model that requires only one step allows us to freeze the U-Net and fine-tune the decoder on top of it. We show that the combination of spatially distilled U-Net and fine-tuned decoder outperforms state-of-the-art methods requiring 200 steps with only one single step.
翻訳日:2024-01-31 13:42:42 公開日:2024-01-30
# 大規模言語モデルによる弱強弱化脱獄

Weak-to-Strong Jailbreaking on Large Language Models ( http://arxiv.org/abs/2401.17256v1 )

ライセンス: Link先を確認
Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang(参考訳) 大規模な言語モデル(LLM)の整合性に多大な努力が注がれているが、リピート報告は、これらの慎重に整合したLSMは、敵のプロンプト、チューニング、デコードによってまだジェイルブレイクされる可能性があることを示唆している。 アライメントされたllmのジェイルブレイク脆弱性を調べると、アライメントモデルのデコード分布は初期世代でのみ異なることが観察された。 敵はより小さな非セーフでアライメントされたllm(例えば7b)を使用して、かなり大きなアライメントされたllm(例えば70b)に対するジェイルブレイクを導くことができる。 jailbreakでは、2つの小さなLCMを一度にデコードするだけでよい。 この攻撃の有効性は、3つの異なる組織から5つのモデルで行われた実験によって実証される。 我々の研究は、以前にも知られていなかったが効率的なジェイルブレイクの方法を明らかにし、LSMを整列させる際に考慮すべき緊急の安全問題を明らかにした。 最初の試みとして、このような攻撃から防御するための防衛戦略を提案するが、より高度な防御を創造することは依然として困難である。 このメソッドを複製するコードはhttps://github.com/xuandongzhao/weak-to-strongで入手できる。

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong
翻訳日:2024-01-31 13:42:20 公開日:2024-01-30
# 非マルコフ開量子力学の量子シミュレーションに向けて:普遍的かつコンパクトな理論

Towards Quantum Simulation of Non-Markovian Open Quantum Dynamics: A Universal and Compact Theory ( http://arxiv.org/abs/2401.17255v1 )

ライセンス: Link先を確認
Xiang Li, Su-Xiang Lyu, Yao Wang, Rui-Xue Xu, Xiao Zheng, YiJing Yan(参考訳) 量子技術の進歩に伴い、量子アルゴリズムを用いたオープン量子力学のシミュレーションが注目されている。 本稿では,非マルコフ開量子力学をシミュレーションするために,第2量子化(DQME-SQ)におけるディシパトン埋め込み量子マスター方程式という普遍的でコンパクトな理論を提案する。 DQME-SQ理論は、ガウス統計を満足するボソニック環境とフェルミオン環境の両方に対して不完全であるだけでなく、量子シミュレーションを促進するコンパクトな形式も持っている。 dqme-sq理論の実用性を示すために、スピンボーソンとアンダーソンの不純物モデルのデジタル量子シミュレーションを行い、重要な非マルコフ力学効果を強調する。 提案した理論的枠組みは、複雑なオープン量子系の正確かつ効率的なシミュレーションの基礎を確立する。

As quantum technologies continue to advance, the simulation of open quantum dynamics using quantum algorithms has garnered increasing attention. In this paper, we present a universal and compact theory, the dissipaton-embedded quantum master equation in second quantization (DQME-SQ), for simulating non-Markovian open quantum dynamics. The DQME-SQ theory is not only inprinciple exact for both bosonic and fermionic environments that satisfy Gaussian statistics, but also possesses a compact form that facilitates quantum simulations. To demonstrate the practicality of the DQME-SQ theory, we conduct digital quantum simulations of spin-boson and Anderson impurity models, highlighting the significant non-Markovian dynamical effects. The proposed theoretical framework establishes a solid foundation for the accurate and efficient simulation of complex open quantum systems.
翻訳日:2024-01-31 13:41:56 公開日:2024-01-30
# Quantum $X$-Secure $B$-Byzantine $T$-Colluding Private Information Retrieval

Quantum $X$-Secure $B$-Byzantine $T$-Colluding Private Information Retrieval ( http://arxiv.org/abs/2401.17252v1 )

ライセンス: Link先を確認
Mohamed Nomeir, Alptug Aytekin, Sennur Ulukus(参考訳) 本稿では,量子プライベート情報検索(qpir)におけるビザンチンサーバの存在から生じる問題点について考察する。 これは、Byzantineサーバの機能をQPIRコンテキストで正確に定義する最初の作業である。 量子エンコーディング手順によって生成される可能性から,量子ビザンチンサーバは従来のサーバよりも多くの能力を持つことを示す。 我々は、量子ビザンチンサーバに注目し、それぞれのquditに可逆演算を適用できる。 この場合、ビザンツのサーバは任意のエラーを発生させることができる。すなわち、これはビザンツのサーバがクォーディット上で行うことのできる単一のqudit操作をカバーしている。 このような操作にレジリエントなスキームを設計します。 すなわち、$r_q= \max \left\{0,\min\left\{1,2\left(1-\frac{x+t+2b}{n}\right)\right\}\right\}$である。

We consider the problems arising from the presence of Byzantine servers in a quantum private information retrieval (QPIR) setting. This is the first work to precisely define what the capabilities of Byzantine servers could be in a QPIR context. We show that quantum Byzantine servers have more capabilities than their classical counterparts due to the possibilities created by the quantum encoding procedure. We focus on quantum Byzantine servers that can apply any reversible operations on their individual qudits. In this case, the Byzantine servers can generate any error, i.e., this covers \emph{all} possible single qudit operations that can be done by the Byzantine servers on their qudits. We design a scheme that is resilient to these kinds of manipulations. We show that the scheme designed achieves superdense coding gain in all cases, i.e., $R_Q= \max \left\{0,\min\left\{1,2\left(1-\frac{X+T+2B}{N}\right)\right\}\right\}$.
翻訳日:2024-01-31 13:41:41 公開日:2024-01-30
# SLIC: 構造と色を用いた学習済みイメージコーデック

SLIC: A Learned Image Codec Using Structure and Color ( http://arxiv.org/abs/2401.17246v1 )

ライセンス: Link先を確認
Srivatsa Prativadibhayankaram, Mahadev Prasad Panda, Thomas Richter, Heiko Sparenberg, Siegfried F\"o{\ss}el, Andr\'e Kaup(参考訳) 本稿では,圧縮作業が輝度と彩度に分割される構造とカラーベース学習画像コーデック(slic)を提案する。 ディープラーニングモデルは、エンコーダ内のyチャネルとuvチャネルのための新しいマルチスケールアーキテクチャで構築されており、さまざまなステージの特徴を組み合わせて潜在表現を得る。 後進適応には自己回帰的文脈モデル、前方適応にはハイパープライアブロックが使用される。 提案したモデルの性能を解析し,他の画像コーデックと比較するために,様々な実験を行った。 また,チャネルインパルス応答,潜伏チャネル,および様々なアブレーション研究の可視化を通じて,本手法の利点を述べる。 このモデルは、他の最先端の参照コーデックに対して、ms-ssimとciede2000の指標で、bj{\o}ntegaardデルタビットレートが7.5%と4.66%向上する。

We propose the structure and color based learned image codec (SLIC) in which the task of compression is split into that of luminance and chrominance. The deep learning model is built with a novel multi-scale architecture for Y and UV channels in the encoder, where the features from various stages are combined to obtain the latent representation. An autoregressive context model is employed for backward adaptation and a hyperprior block for forward adaptation. Various experiments are carried out to study and analyze the performance of the proposed model, and to compare it with other image codecs. We also illustrate the advantages of our method through the visualization of channel impulse responses, latent channels and various ablation studies. The model achieves Bj{\o}ntegaard delta bitrate gains of 7.5% and 4.66% in terms of MS-SSIM and CIEDE2000 metrics with respect to other state-of-the-art reference codecs.
翻訳日:2024-01-31 13:41:23 公開日:2024-01-30
# LLaMP:高忠実度材料知識検索と蒸留のための大規模言語モデル

LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval and Distillation ( http://arxiv.org/abs/2401.17244v1 )

ライセンス: Link先を確認
Yuan Chiang, Chia-Hong Chou, Janosh Riebesell(参考訳) 大言語モデル(LLM)の幻覚の低減は再現性が不可欠である科学において必要不可欠である。 しかし、llmには本質的に長期記憶が欠如しており、ドメイン固有の文献やデータでそれらを微調整する非自明でアドホックで必然的に偏ったタスクとなっている。 本稿では,材料プロジェクト (mp) 上の計算および実験データと動的に相互作用する複数のデータ認識推論・実行 (react) エージェントのマルチモーダル検索型生成 (rag) フレームワークである llamp を紹介する。 微調整なしで、LLaMPは材料科学の概念の様々なモダリティを理解し統合し、関連するデータストアをフライで取得し、高次データ(結晶構造や弾性テンソルなど)を処理し、固体合成のための多段階の手順を要約する能力を示す。 LLaMPはGPT-3.5の内在的知識の誤りを効果的に補正し、頻繁に文書化されたバンドギャップでは5.21%のMAPEを減少させ、生成エネルギーでは1103.54%のMAPEを減少させる。 加えて、LLaMPはダイヤモンド立方体シリコン構造の幻覚体積ひずみを66.3%から0。 提案するフレームワークは,資料情報学を探求するための直感的かつほとんど幻覚のないアプローチを提供し,知識の蒸留と他の言語モデルの微調整のための経路を確立する。 我々は、このフレームワークを科学的仮説の貴重なコンポーネントとして想定し、複数のLLMエージェントがロボットと通信し協力し、人間の論理や介入をハードコードせずに物質合成と化学反応を駆動する未来の自律研究所の基盤となる。

Reducing hallucination of Large Language Models (LLMs) is imperative for use in the sciences where reproducibility is crucial. However, LLMs inherently lack long-term memory, making it a nontrivial, ad hoc, and inevitably biased task to fine-tune them on domain-specific literature and data. Here we introduce LLaMP, a multimodal retrieval-augmented generation (RAG) framework of multiple data-aware reasoning-and-acting (ReAct) agents that dynamically interact with computational and experimental data on Materials Project (MP). Without fine-tuning, LLaMP demonstrates an ability to comprehend and integrate various modalities of materials science concepts, fetch relevant data stores on the fly, process higher-order data (such as crystal structures and elastic tensors), and summarize multi-step procedures for solid-state synthesis. We show that LLaMP effectively corrects errors in GPT-3.5's intrinsic knowledge, reducing a 5.21% MAPE on frequently-documented bandgaps and a significant 1103.54% MAPE on formation energies -- errors that GPT-3.5 seems to derive from mixed data sources. Additionally, LLaMP substantially reduces the hallucinated volumetric strain in a diamond cubic silicon structure from 66.3% to 0. The proposed framework offers an intuitive and nearly hallucination-free approach to exploring materials informatics and establishes a pathway for knowledge distillation and fine-tuning other language models. We envision the framework as a valuable component for scientific hypotheses and a foundation for future autonomous laboratories where multiple LLM agents communicate and cooperate with robotics to drive material synthesis and chemical reactions without hard-coded human logic and intervention.
翻訳日:2024-01-31 13:41:08 公開日:2024-01-30
# JavascriptとJSONによる非同期分散遺伝的アルゴリズム

Asynchronous Distributed Genetic Algorithms with Javascript and JSON ( http://arxiv.org/abs/2401.17234v1 )

ライセンス: Link先を確認
Juan Juli\'an Merelo and Pedro A. Castillo and Juan Luis Jim\'enez Laredo and Antonio M. Mora and Alberto Prieto(参考訳) 接続された世界では、余分なCPUサイクルをつかむための準備が整っている。 本稿では,ユビキタスWebブラウザの計算機能を利用した分散進化計算システムを提案する。 Asynchronous JavascriptとJSON(Javascript Object Notation、シリアライズプロトコル)を使用することで、Webブラウザ(つまり、インターネットに接続されたほぼすべての人)を持つ誰でも、ほとんど努力せずに遺伝的アルゴリズム実験に参加できる。 この場合、計算は社会的活動となり、本質的に予測不能となるため、Royal Road関数のような単純な問題を解き、それがもたらすマシンの数や評価を分析することで、この種の仮想コンピュータの性能について検討する。 また、パフォーマンスボトルネックの可能性や、その解決方法についても検討し、最後に、このような実験をどのようにセットアップしてターンアウトを最大化し、パフォーマンスを最大化するかについてアドバイスします。

In a connected world, spare CPU cycles are up for grabs, if you only make its obtention easy enough. In this paper we present a distributed evolutionary computation system that uses the computational capabilities of the ubiquituous web browser. Using Asynchronous Javascript and JSON (Javascript Object Notation, a serialization protocol) allows anybody with a web browser (that is, mostly everybody connected to the Internet) to participate in a genetic algorithm experiment with little effort, or none at all. Since, in this case, computing becomes a social activity and is inherently impredictable, in this paper we will explore the performance of this kind of virtual computer by solving simple problems such as the Royal Road function and analyzing how many machines and evaluations it yields. We will also examine possible performance bottlenecks and how to solve them, and, finally, issue some advice on how to set up this kind of experiments to maximize turnout and, thus, performance.
翻訳日:2024-01-31 13:40:35 公開日:2024-01-30
# GPT誘導モンテカルロ木探索によるデータから数式を発見する

Discovering Mathematical Formulas from Data via GPT-guided Monte Carlo Tree Search ( http://arxiv.org/abs/2401.14424v3 )

ライセンス: Link先を確認
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Meilan Hao, Shu Wei, Yusong Deng(参考訳) それぞれの変数とデータ内の予測値の関係を正確に記述する簡潔で解釈可能な数学的公式を見つけることは、科学研究において重要なタスクであり、人工知能における重要な課題である。 この問題は記号回帰 (symbolic regression) と呼ばれ、np-hard問題である。 前年、モンテカルロ木探索(MCTS)を利用した新しい記号回帰手法が開発され、多様なデータセットに対して最先端の結果が得られた。 このアルゴリズムは,従来の手法に比べて目標表現の回復に著しく改善されているが,MCTSプロセス中のガイダンスの欠如は探索効率を著しく損なう。 近年,MCTSの探索を誘導する事前学習型ポリシーネットワークが追加されたアルゴリズムもあるが,事前学習型ポリシーネットワークの一般化は不十分である。 効率性と汎用性のトレードオフを最適化するために,モンテカルロ木探索(MCTS)とGPT(Generative Pre-Trained Transformer)を統合したシンボリック回帰アルゴリズムSR-GPTを導入する。 GPTを用いてMCTSを誘導することにより,MCTSの探索効率を大幅に向上する。 次に、MCTSの結果を利用してGPTをさらに洗練し、その能力を高め、MCTSのより正確なガイダンスを提供する。 MCTSとGPTは結合され、目標表現が決定されるまで最適化される。 SR-GPTを10以上の記号的回帰データセットから得られた222の式を用いて広範囲に評価した。 実験の結果、SR-GPTは既存の最先端アルゴリズムより優れており、雑音を伴わずともシンボル表現を正確に復元できることがわかった。

Finding a concise and interpretable mathematical formula that accurately describes the relationship between each variable and the predicted value in the data is a crucial task in scientific research, as well as a significant challenge in artificial intelligence. This problem is referred to as symbolic regression, which is an NP-hard problem. In the previous year, a novel symbolic regression methodology utilizing Monte Carlo Tree Search (MCTS) was advanced, achieving state-of-the-art results on a diverse range of datasets. although this algorithm has shown considerable improvement in recovering target expressions compared to previous methods, the lack of guidance during the MCTS process severely hampers its search efficiency. Recently, some algorithms have added a pre-trained policy network to guide the search of MCTS, but the pre-trained policy network generalizes poorly. To optimize the trade-off between efficiency and versatility, we introduce SR-GPT, a novel algorithm for symbolic regression that integrates Monte Carlo Tree Search (MCTS) with a Generative Pre-Trained Transformer (GPT). By using GPT to guide the MCTS, the search efficiency of MCTS is significantly improved. Next, we utilize the MCTS results to further refine the GPT, enhancing its capabilities and providing more accurate guidance for the MCTS. MCTS and GPT are coupled together and optimize each other until the target expression is successfully determined. We conducted extensive evaluations of SR-GPT using 222 expressions sourced from over 10 different symbolic regression datasets. The experimental results demonstrate that SR-GPT outperforms existing state-of-the-art algorithms in accurately recovering symbolic expressions both with and without added noise.
翻訳日:2024-01-31 11:55:03 公開日:2024-01-30
# 文字レベル言語モデルを用いたメロディからの音節レベルの歌詞生成

Syllable-level lyrics generation from melody exploiting character-level language model ( http://arxiv.org/abs/2310.00863v3 )

ライセンス: Link先を確認
Zhe Zhang, Karol Lasocki, Yi Yu, Atsuhiro Takasu(参考訳) メロディーと密接に結びついた歌詞の生成は、歌詞の音節と音節のマッピングを確立することを含む。 このプロセスは、音節レベル、単語レベル、文レベルの意味における音楽制約と意味パターンの深い理解を必要とする。 しかし、音節レベルで特別に設計された事前訓練された言語モデルは一般には利用できない。 これらの課題を解決するため,シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。 特に,本手法は,言語モデルの言語知識を,音節レベルトランスフォーマレータネットワークのビーム探索プロセスに組み込もうとするものである。 さらに,生成された歌詞に対するChatGPTに基づく評価と人間の主観的評価を併用して,提案手法が生成した歌詞の一貫性と正確性を高め,高価な新言語モデルを訓練する必要がなくなることを示した。

The generation of lyrics tightly connected to accompanying melodies involves establishing a mapping between musical notes and syllables of lyrics. This process requires a deep understanding of music constraints and semantic patterns at syllable-level, word-level, and sentence-level semantic meanings. However, pre-trained language models specifically designed at the syllable level are publicly unavailable. To solve these challenging issues, we propose to exploit fine-tuning character-level language models for syllable-level lyrics generation from symbolic melody. In particular, our method endeavors to incorporate linguistic knowledge of the language model into the beam search process of a syllable-level Transformer generator network. Additionally, by exploring ChatGPT-based evaluation for generated lyrics, along with human subjective evaluation, we demonstrate that our approach enhances the coherence and correctness of the generated lyrics, eliminating the need to train expensive new language models.
翻訳日:2024-01-31 11:54:35 公開日:2024-01-30
# 高次元線形回帰における統一伝達学習モデル

Unified Transfer Learning Models in High-Dimensional Linear Regression ( http://arxiv.org/abs/2307.00238v4 )

ライセンス: Link先を確認
Shuo Shuo Liu(参考訳) トランスファーラーニングは,(1)ターゲットデータが少ないが,ソースデータが十分である,(2)ソースとターゲットデータの分布が不均一である,といった現代データ解析において重要な役割を担っている。 本稿では,トランスファー可能な変数とソースデータの両方を検出可能な,UTransと呼ばれる解釈可能な統合トランスファー学習モデルを開発する。 具体的には、推定誤差境界を確立し、対象データのみを持つものよりも境界が低いことを示す。 また,非変換データを排除するための仮説検証に基づくソース検出アルゴリズムを提案する。 複数の実験において,UTransを既存のアルゴリズムと比較した。 UTransは,解釈可能性を維持しつつ,既存の手法よりもはるかに低い推定誤差と予測誤差が得られることを示す。 最終的に、米国の世代間移動データに適用し、提案したアルゴリズムを従来の機械学習アルゴリズムと比較する。

Transfer learning plays a key role in modern data analysis when: (1) the target data are scarce but the source data are sufficient; (2) the distributions of the source and target data are heterogeneous. This paper develops an interpretable unified transfer learning model, termed as UTrans, which can detect both transferable variables and source data. More specifically, we establish the estimation error bounds and prove that our bounds are lower than those with target data only. Besides, we propose a source detection algorithm based on hypothesis testing to exclude the nontransferable data. We evaluate and compare UTrans to the existing algorithms in multiple experiments. It is shown that UTrans attains much lower estimation and prediction errors than the existing methods, while preserving interpretability. We finally apply it to the US intergenerational mobility data and compare our proposed algorithms to the classical machine learning algorithms.
翻訳日:2024-01-31 11:54:20 公開日:2024-01-30
# 人間システムコラボレーションによるNLP問題の解決--議論に基づくアプローチ

Solving NLP Problems through Human-System Collaboration: A Discussion-based Approach ( http://arxiv.org/abs/2305.11789v3 )

ライセンス: Link先を確認
Masahiro Kaneko, Graham Neubig, Naoaki Okazaki(参考訳) 人間は共通の問題を解決するために協力し、議論し、説明し、同意し、同意する。 同様に、タスクの解決時にシステムが人間と議論できる場合、システムの性能と信頼性を改善することができる。 従来の説明可能性に関する研究では, 相互に意見交換を行うのではなく, システムが予測を行い, 人間が質問することしか不可能であった。 本研究では,対話による予測を議論・洗練するシステムのためのデータセットと計算フレームワークの構築を目的としている。 実験により,提案するシステムは,自然言語推論タスクにおいて,最大25ポイントの精度向上を図ることができることを示す。

Humans work together to solve common problems by having discussions, explaining, and agreeing or disagreeing with each other. Similarly, if a system can have discussions with humans when solving tasks, it can improve the system's performance and reliability. In previous research on explainability, it has only been possible for the system to make predictions and for humans to ask questions about them rather than having a mutual exchange of opinions. This research aims to create a dataset and computational framework for systems that discuss and refine their predictions through dialogue. Through experiments, we show that the proposed system can have beneficial discussions with humans improving the accuracy by up to 25 points in the natural language inference task.
翻訳日:2024-01-31 11:54:08 公開日:2024-01-30
# 外部知識を活用した大規模言語モデルによる言語境界を越えた臨床洞察の拡張

Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries ( http://arxiv.org/abs/2305.10163v4 )

ライセンス: Link先を確認
Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yingying Zhang, Yefeng Zheng, Changzheng Yuan and Jie Yang(参考訳) $\textbf{Objectives}$: ChatGPTやMed-PaLMのようなLarge Language Models (LLMs)は、様々な質問応答タスクに優れています。 しかし、これらの英語中心のモデルは、主に各言語における臨床知識が限られており、不均衡なトレーニングコーパスの結果、非英語の臨床設定において困難に直面する。 中国の医学的文脈でLLMを体系的に評価し、その性能を高めるための新しい文脈内学習フレームワークを開発する。 $\textbf{Materials and Methods}$: The latest China National Medical Licensing Examination (CNMLE-2022)がベンチマークとして使用された。 医療知識基盤と質問銀行を構築するため,53冊の医療書,381,149件の医療質問を収集した。 提案するKFE(Knowledge and Few-shot Enhancement In-context Learning)フレームワークは,LLMのコンテキスト内学習能力を活用して,多様な外部臨床知識ソースを統合する。 CNMLE-2022において、KFEをChatGPT(GPT3.5)、GPT4、Baichuan2(BC2)-7B、BC2-13Bで評価し、7つの観点からLSMを医学的に活用するための異なる経路の有効性を検討した。 $\textbf{Results}$: 直接ChatGPTを適用すると、スコア51でCNMLE-2022の資格が得られなかった。 KFEと協力し、様々な大きさのLLMは一貫性と大幅な改善をもたらした。 ChatGPTのパフォーマンスは70.04に上昇し、GPT-4は82.59で最高点を記録した。 これは資格閾値(60)を超え、平均的な人のスコア68.70を超えている。 また、より小さなBC2-13Bが試験に合格し、低リソース環境での大きな可能性を示した。 llmは、コンテキスト内学習を通じて医学知識をシナジーすることで、言語障壁を超えて臨床洞察を拡張でき、llmアプリケーションの言語関連格差を著しく低減し、医療におけるグローバルな利益を確保することができる。

$\textbf{Objectives}$: Large Language Models (LLMs) such as ChatGPT and Med-PaLM have excelled in various medical question-answering tasks. However, these English-centric models encounter challenges in non-English clinical settings, primarily due to limited clinical knowledge in respective languages, a consequence of imbalanced training corpora. We systematically evaluate LLMs in the Chinese medical context and develop a novel in-context learning framework to enhance their performance. $\textbf{Materials and Methods}$: The latest China National Medical Licensing Examination (CNMLE-2022) served as the benchmark. We collected 53 medical books and 381,149 medical questions to construct the medical knowledge base and question bank. The proposed Knowledge and Few-shot Enhancement In-context Learning (KFE) framework leverages the in-context learning ability of LLMs to integrate diverse external clinical knowledge sources. We evaluated KFE with ChatGPT(GPT3.5), GPT4, Baichuan2(BC2)-7B, and BC2-13B in CNMLE-2022 and investigated the effectiveness of different pathways for incorporating LLMs with medical knowledge from 7 perspectives. $\textbf{Results}$: Directly applying ChatGPT failed to qualify for the CNMLE-2022 at a score of 51. Cooperated with the KFE, the LLMs with varying sizes yielded consistent and significant improvements. The ChatGPT's performance surged to 70.04 and GPT-4 achieved the highest score of 82.59. This surpasses the qualification threshold (60) and exceeds the average human score of 68.70. It also enabled a smaller BC2-13B to pass the examination, showcasing the great potential in low-resource settings. $\textbf{Conclusion}$: By synergizing medical knowledge through in-context learning, LLM can extend clinical insight beyond language barriers, significantly reducing language-related disparities of LLM applications and ensuring global benefit in healthcare.
翻訳日:2024-01-31 11:53:58 公開日:2024-01-30
# 現実的な可変ハッシュテーブルの検証

Verifying a Realistic Mutable Hash Table ( http://arxiv.org/abs/2107.08824v6 )

ライセンス: Link先を確認
Samuel Chassot, Viktor Kun\v{c}ak(参考訳) 本研究では,Scala 標準ライブラリから変更可能な LongMap を検証し,単一配列内のオープンアドレスを用いたハッシュテーブルをステンレスプログラム検証器を用いて検証する。 参照実装として、タプルのリストに基づいて不変なマップを書きます。 次に、LongMapの操作がこのアソシエーションリストの操作に対応することを示す。 ハッシュテーブル配列のリサイズ化を表現するため,新しい参照スワップ構造をステンレスで導入する。 これにより、エイリアスを導入することなくデコレータパターンを適用することができます。 検証作業によって、大きなハッシュテーブルに現れるオリジナルの実装のバグを発見し、修正しました。 性能分析の結果、検証されたバージョンはオリジナルのデータ構造の1.5要素以内であることが判明した。

In this work, we verify the mutable LongMap from the Scala standard library, a hash table using open addressing within a single array, using the Stainless program verifier. As a reference implementation, we write an immutable map based on a list of tuples. We then show that LongMap's operations correspond to operations of this association list. To express the resizing of the hash table array, we introduce a new reference swapping construct in Stainless. This allows us to apply the decorator pattern without introducing aliasing. Our verification effort led us to find and fix a bug in the original implementation that manifests for large hash tables. Our performance analysis shows the verified version to be within a 1.5 factor of the original data structure.
翻訳日:2024-01-31 11:53:22 公開日:2024-01-30
# 財務における表データ分析のためのツール利用機能付き言語モデルの適用

Equipping Language Models with Tool Use Capability for Tabular Data Analysis in Finance ( http://arxiv.org/abs/2401.15328v2 )

ライセンス: Link先を確認
Adrian Theuma and Ehsan Shareghi(参考訳) 大規模言語モデル(LLM)は、様々な推論能力を示しているが、エラーの伝播や幻覚といった課題に直面している。 LLM固有の能力にのみ依存するのではなく、これらの制限を緩和し、タスクに適した外部ツールに特定の推論ステップをオフロードする、外部ツールによる言語モデル拡張の可能性を探る。 より具体的には、金融ドメインの質問応答データセットを使用して、llama-2 13bチャットモデルに教師付き微調整を適用し、"タスクルータ"と"タスクソルバ"の両方として動作させる。 タスクルータ」は、LLMの内部で答えるか、ツールセットから適切なツールを介して外部に答えるように動的に指示する。 ツール付きSFTモデルであるRavenは,ベースモデルとSFTのみのベースラインよりも35.2%,5.06%向上し,GPT-3.5と高い競争力を持つ。 私たちの知る限りでは、金融分野における言語モデルのツール拡張を調査するのは私たちの仕事が初めてです。

Large language models (LLMs) have exhibited an array of reasoning capabilities but face challenges like error propagation and hallucination, particularly in specialised areas like finance, where data is heterogeneous, and precision is paramount. We explore the potential of language model augmentation with external tools to mitigate these limitations and offload certain reasoning steps to external tools that are more suited for the task, instead of solely depending on the LLM's inherent abilities. More concretely, using financial domain question-answering datasets, we apply supervised fine-tuning on a LLaMA-2 13B Chat model to act both as a 'task router' and 'task solver'. The 'task router' dynamically directs a question to either be answered internally by the LLM or externally via the right tool from the tool set. Our tool-equipped SFT model, Raven, demonstrates an improvement of 35.2% and 5.06% over the base model and SFT-only baselines, respectively, and is highly competitive with strong GPT-3.5 results. To the best of our knowledge, our work is the first that investigates tool augmentation of language models for the finance domain.
翻訳日:2024-01-31 11:50:41 公開日:2024-01-30
# 可観測性解析によるse(2)におけるマルチロボット相対ポーズ推定:拡張カルマンフィルタとロバストポーズグラフ最適化の比較

Multi-Robot Relative Pose Estimation in SE(2) with Observability Analysis: A Comparison of Extended Kalman Filtering and Robust Pose Graph Optimization ( http://arxiv.org/abs/2401.15313v2 )

ライセンス: Link先を確認
Kihoon Shin, Hyunjae Sim, Seungwon Nam, Yonghee Kim, Jae Hu and Kwang-Ki K. Kim(参考訳) 本稿では,協調的局所化と相対的ポーズ推定の可観測性分析に着目したマルチロボットの局所化問題を考察する。 協調的ローカライゼーションには、通信ネットワークとメッセージパッシングを介して各ロボットに追加情報を提供する。 対象ロボットの計測データをエゴロボットに送信できる場合、両方の直線速度がゼロでない場合に、その相対的なポーズ推定の可観測性はレンジのみまたはベアリングのみの測定により達成できる。 対象ロボットのオドメトリデータが直接伝達されるのではなく、ego-robotによって推定される場合、相対的なポーズ推定の可観測性を保証するために、範囲と軸受の測定値の両方が必要である。 ROS/Gazebo シミュレーションでは,拡張カルマンフィルタ (EKF) とポーズグラフ最適化 (PGO) を異なるロバストな損失関数(スライディングウィンドウのバッチサイズが異なるフィルタリングと平滑化)で推定する4つの異なるセンシング・通信構造を推定精度で比較する。 ハードウェア実験では、実世界のロボット間相対ポーズ推定にUWBモジュールを備えた2つのTurtlebot3を使用し、EKFとPGOの両方を適用して比較する。

In this paper, we consider multi-robot localization problems with focus on cooperative localization and observability analysis of relative pose estimation. For cooperative localization, there is extra information available to each robot via communication network and message passing. If odometry data of a target robot can be transmitted to the ego-robot then the observability of their relative pose estimation can be achieved by range-only or bearing-only measurements provided both of their linear velocities are non-zero. If odometry data of a target robot is not directly transmitted but estimated by the ego-robot then there must be both range and bearing measurements to guarantee the observability of relative pose estimation. For ROS/Gazebo simulations, we consider four different sensing and communication structures in which extended Kalman filtering (EKF) and pose graph optimization (PGO) estimation with different robust loss functions (filtering and smoothing with different batch sizes of sliding window) are compared in terms of estimation accuracy. For hardware experiments, two Turtlebot3 equipped with UWB modules are used for real-world inter-robot relative pose estimation, in which both EKF and PGO are applied and compared.
翻訳日:2024-01-31 11:50:19 公開日:2024-01-30
# 構造損傷検出自動化のためのsam型インスタンスセグメンテーションモデル

SAM-based instance segmentation models for the automation of structural damage detection ( http://arxiv.org/abs/2401.15266v2 )

ライセンス: Link先を確認
Zehao Ye, Lucy Lovell, Asaad Faramarzi and Jelena Ninic(参考訳) 土木構造物の外観に基づく視覚検査の自動化は、現在、労働集約的かつ時間のかかる性質のために重要である。 自動検査の重要な側面は画像取得であり、近年のソフトウェアとハードウェアの両コンピューティングにおける広範な開発を考えると、迅速かつ費用対効果が高い。 以前の研究では、主にコンクリートとアスファルトに焦点が当てられ、石工の亀裂への注意は少なかった。 後者は、公開データセットも欠落している。 本稿では,まず,1,300点の注釈付き画像(640ピクセル×640ピクセル)をMCrack1300と命名し,ブロック,破砕レンガ,ひび割れをカバーしたサンプルセグメンテーション用データセットを提示する。 次に、最新の大規模モデルであるSAM(Segment Anything Model)など、ベンチマークのための主要なアルゴリズムをいくつかテストする。 ローランド適応(LoRA)を用いてエンコーダを微調整し,SAM実行を自動化する2つの新しい手法を提案する。 第1の方法はプロンプトエンコーダを捨て、SAMエンコーダを他のデコーダに接続することであり、第2の方法は学習可能な自己生成プロンプトを導入する。 samエンコーダセクションで提案された2つのメソッドをシームレスに統合するために,特徴抽出器を再設計した。 どちらの手法も最先端の性能を超え、すべてのクラスで3%、特にクラックでは6%のベンチマークを上回りました。 そこで本研究では,単眼カメラとハフライン変換を併用して,画像を自動的に直交投影マップに変換する手法を提案する。 れんが単位の既知実サイズを組み込むことにより, き裂寸法を正確に推定し, レーザ走査による結果と10%未満の精度で評価した。 全体として,自動き裂検出とサイズ推定における重要な研究ギャップに対処する。

Automating visual inspection for capturing defects based on civil structures appearance is crucial due to its currently labour-intensive and time-consuming nature. An important aspect of automated inspection is image acquisition, which is rapid and cost-effective considering the pervasive developments in both software and hardware computing in recent years. Previous studies largely focused on concrete and asphalt, with less attention to masonry cracks. The latter also lacks publicly available datasets. In this paper, we first present a corresponding data set for instance segmentation with 1,300 annotated images (640 pixels x 640 pixels), named as MCrack1300, covering bricks, broken bricks, and cracks. We then test several leading algorithms for benchmarking, including the latest large-scale model, the prompt-based Segment Anything Model (SAM). We fine-tune the encoder using Low-Rank Adaptation (LoRA) and proposed two novel methods for automation of SAM execution. The first method involves abandoning the prompt encoder and connecting the SAM encoder to other decoders, while the second method introduces a learnable self-generating prompter. In order to ensure the seamless integration of the two proposed methods with SAM encoder section, we redesign the feature extractor. Both proposed methods exceed state-of-the-art performance, surpassing the best benchmark by approximately 3% for all classes and around 6% for cracks specifically. Based on successful detection, we propose a method based on a monocular camera and the Hough Line Transform to automatically transform images into orthographic projection maps. By incorporating known real sizes of brick units, we accurately estimate crack dimensions, with the results differing by less than 10% from those obtained by laser scanning. Overall, we address important research gaps in automated masonry crack detection and size estimation.
翻訳日:2024-01-31 11:49:56 公開日:2024-01-30
# LYT-Net:低光画像強調のための軽量YUVトランスを用いたネットワーク

LYT-Net: Lightweight YUV Transformer-based Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2401.15204v2 )

ライセンス: Link先を確認
A. Brateanu, R. Balmez, A. Avram, C. Orhei(参考訳) 近年、深層学習に基づくソリューションは、画像強調の領域で成功している。 本稿では,低照度画像強調のための新しいアプローチとしてLYT-Net (Lightweight YUV Transformer-based Network)を提案する。 従来のretinexベースのモデルとは異なり、yuv色空間の輝度(y)と色(u,v)の自然な分離を利用して、画像内の光と色情報を分離する複雑なタスクを単純化した。 長距離依存関係をキャプチャする能力で知られるトランスフォーマーの強みを利用することで、LYT-Netはモデル複雑性の低減を維持しながら、画像の包括的なコンテキスト理解を保証する。 提案手法は,新しいハイブリッド損失関数を用いることにより,低光度画像強調データセットにおいて最先端の結果が得られる。 ソースコードと事前訓練されたモデルはhttps://github.com/albrateanu/LYT-Netで入手できる。

In recent years, deep learning-based solutions have proven successful in the domains of image enhancement. This paper introduces LYT-Net, or Lightweight YUV Transformer-based Network, as a novel approach for low-light image enhancement. The proposed architecture, distinct from conventional Retinex-based models, leverages the YUV color space's natural separation of luminance (Y) and chrominance (U and V) to simplify the intricate task of disentangling light and color information in images. By utilizing the strengths of transformers, known for their capability to capture long-range dependencies, LYT-Net ensures a comprehensive contextual understanding of the image while maintaining reduced model complexity. By employing a novel hybrid loss function, our proposed method achieves state-of-the-art results on low-light image enhancement datasets, all while being considerably more compact than its counterparts. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net
翻訳日:2024-01-31 11:49:23 公開日:2024-01-30
# スパース金融指標追跡のためのFDR制御ポートフォリオ最適化

FDR-Controlled Portfolio Optimization for Sparse Financial Index Tracking ( http://arxiv.org/abs/2401.15139v2 )

ライセンス: Link先を確認
Jasin Machkour, Daniel P. Palomar, Michael Muma(参考訳) 金融指標追跡や生物医学的応用といった高次元データ分析では、偽発見率(fdr)の制御を維持しながら、関連する変数を選択することが重要である。 これらのアプリケーションでは、強い依存が変数(例えばストックリターン)の間に存在し、モデル-Xノックオフ法やT-Rexセレクタのような既存のメソッドのFDR制御特性を損なうことがある。 この問題に対処するため、高相関変数の重なり合うグループに対応するためにT-Rexフレームワークを拡張した。 これは、最寄りのペナリゼーションメカニズムをフレームワークに統合することで実現され、ユーザ定義のターゲットレベルでfdrを確実に制御する。 スパース・インデックス・トラッキングの実際の例では、s&p500種株価指数を少数の株式に基づいて過去20年間に正確に追跡する手法が示されている。 オープンソース実装は、CRAN上のRパッケージTRexSelector内に提供される。

In high-dimensional data analysis, such as financial index tracking or biomedical applications, it is crucial to select the few relevant variables while maintaining control over the false discovery rate (FDR). In these applications, strong dependencies often exist among the variables (e.g., stock returns), which can undermine the FDR control property of existing methods like the model-X knockoff method or the T-Rex selector. To address this issue, we have expanded the T-Rex framework to accommodate overlapping groups of highly correlated variables. This is achieved by integrating a nearest neighbors penalization mechanism into the framework, which provably controls the FDR at the user-defined target level. A real-world example of sparse index tracking demonstrates the proposed method's ability to accurately track the S&P 500 index over the past 20 years based on a small number of stocks. An open-source implementation is provided within the R package TRexSelector on CRAN.
翻訳日:2024-01-31 11:48:29 公開日:2024-01-30
# 多体問題における対称性、その解析解を見つける方法、およびヘリウム原子スペクトル

Symmetries in the many-body problems, a method to find its analytical solution, and Helium atom spectrum ( http://arxiv.org/abs/2401.15019v2 )

ライセンス: Link先を確認
Siddhesh C. Ambhire(参考訳) この研究において、ユークリッド群$E\left(3\right)$の3体問題と、逆2乗距離粒子間力を持つ多体問題の拡張による対称性が示されている。 3体問題の対称性は群を成す: $so\left(4\times3,2\times3\right)/\left(c\left(3\times2\right)\right)$, ここで $c\left(n\right)$ は n 次元の平面変換群であり、スペクトル生成群を形成する。 これらの量の一部はハミルトニアンと通勤する。 これらの保存量の存在はヘリウム原子のエネルギースペクトルを計算することによって検証された。 この方法は、多体問題における対称性の発見や、化学におけるあらゆる可能な原子・分子系を含むより複雑な系のエネルギーレベルや波動関数の計算にも用いられる。

In this work it is shown that there are symmetries beyond the Euclidean group $E\left(3\right)$ in 3-body problem, and by extension in many-body problem, with inverse squared distance inter particle force. The symmetries in 3-body problem form a group: $SO\left(4\times3,2\times3\right)/\left(C\left(3\times2\right)\right)$, where $C\left(n\right)$ is the planar translation group in n dimensions, which forms its Spectrum-Generating group. Some of these quantities commute with the Hamiltonian. The existence of these conserved quantities was verified by calculating energy spectrum of the Helium atom. This method can also be used to find symmetries in many-body problem, and to calculate energy levels, and wave-functions of more complicated systems, which include every possible atomic and molecular systems in chemistry.
翻訳日:2024-01-31 11:47:57 公開日:2024-01-30
# 表面下:LLM生成データの実用性追跡

Under the Surface: Tracking the Artifactuality of LLM-Generated Data ( http://arxiv.org/abs/2401.14698v2 )

ライセンス: Link先を確認
Debarati Das, Karin De Langis, Anna Martin-Boyle, Jaehyung Kim, Minhwa Lee, Zae Myung Kim, Shirley Anugrah Hayati, Risako Owan, Bin Hu, Ritik Parkar, Ryan Koo, Jonginn Park, Aahan Tyagi, Libby Ferland, Sanjali Roy, Vincent Liu, and Dongyeop Kang(参考訳) この研究は、人工データの生成において、大きな言語モデル(LLM)の役割を拡大している。 LLMは、アノテーション、好み、命令プロンプト、シミュレートされた対話、自由テキストなど、様々なアウトプットを作成するためにますます使われている。 これらのLCM生成データはしばしばアプリケーションに交わるため、相互に影響を及ぼし、トレーニングサイクルに組み込まれた人工データの品質と多様性に関する重要な懸念を提起し、人工データエコシステムへと繋がる。 我々の知る限りでは、「タスクラベル」のようなより厳密に制約されたデータから、より軽量に制約された「フリーフォームテキスト」まで、様々な LLM 生成テキストデータを収集する最初の研究である。 次に、LLM生成人工データの品質と意味をテストし、既存のベンチマークで人的データと比較する。 人工データの人間のパフォーマンスにマッチする能力にもかかわらず、特にLLMが本質的な人為的コンテンツに対する微妙な理解を欠いている複雑なタスクにおいて、隠れた相違が顕著である。 本研究は, LLMの生成する多種多様なデータについて批判的に検討し, LLMを用いた場合の倫理的実践の必要性を強調した。 llmが生み出したコンテンツのバイアスやアーティファクトに対処することの重要性を強調し、人間の特性や行動の複製におけるllmの欠点を強調する。 すべてのデータとコードは、プロジェクトのページで利用可能です。

This work delves into the expanding role of large language models (LLMs) in generating artificial data. LLMs are increasingly employed to create a variety of outputs, including annotations, preferences, instruction prompts, simulated dialogues, and free text. As these forms of LLM-generated data often intersect in their application, they exert mutual influence on each other and raise significant concerns about the quality and diversity of the artificial data incorporated into training cycles, leading to an artificial data ecosystem. To the best of our knowledge, this is the first study to aggregate various types of LLM-generated text data, from more tightly constrained data like "task labels" to more lightly constrained "free-form text". We then stress test the quality and implications of LLM-generated artificial data, comparing it with human data across various existing benchmarks. Despite artificial data's capability to match human performance, this paper reveals significant hidden disparities, especially in complex tasks where LLMs often miss the nuanced understanding of intrinsic human-generated content. This study critically examines diverse LLM-generated data and emphasizes the need for ethical practices in data creation and when using LLMs. It highlights the LLMs' shortcomings in replicating human traits and behaviors, underscoring the importance of addressing biases and artifacts produced in LLM-generated content for future research and development. All data and code are available on our project page.
翻訳日:2024-01-31 11:47:36 公開日:2024-01-30
# コードクローン検出における大規模言語モデルの有効性の検討

Investigating the Efficacy of Large Language Models for Code Clone Detection ( http://arxiv.org/abs/2401.13802v3 )

ライセンス: Link先を確認
Mohamad Khajezade, Jie JW Wu, Fatemeh Hendijani Fard, Gema Rodr\'iguez-P\'erez, Mohamed Sami Shehata(参考訳) 大規模言語モデル(LLM)は、コード生成など様々な自然言語処理やソフトウェア工学タスクにおいて顕著な成功を収めている。 llmは主にプロンプトベースのzero/few-shotパラダイムで使われ、タスクの達成をモデルに導く。 GPTベースのモデルは、コードコメント生成やテスト生成といったタスクのために研究されている人気モデルの1つである。 これらのタスクは‘生成’タスクです。 しかし、プロンプトベースパラダイムを用いた分類のような「非生成的」なタスクにおけるLLMの使用に関する限定的な研究がある。 本研究では,非生成タスクであるコードクローン検出(ccd)におけるllmの適用性について検討した。 CodeNetから派生した単言語および多言語CCDデータセットを構築することにより、まずChatGPTを使用して、ゼロショット設定でJava-JavaとJava-RubyペアのType-4コードクローンを検出する2つの異なるプロンプトを調査した。 CCDにおけるChatGPTの長所と短所を理解するために分析を行った。 ChatGPTは、F1スコアが0.877に達し、F1スコアが0.878であるモノリンガルCCDの完全微調整モデルに匹敵する性能を達成する。 また,ChatGPTの性能には,問題のプロンプトや難易度が影響している。 最後に、初期分析に基づく洞察と今後の方向性を提供する。

Large Language Models (LLMs) have demonstrated remarkable success in various natural language processing and software engineering tasks, such as code generation. The LLMs are mainly utilized in the prompt-based zero/few-shot paradigm to guide the model in accomplishing the task. GPT-based models are one of the popular ones studied for tasks such as code comment generation or test generation. These tasks are `generative' tasks. However, there is limited research on the usage of LLMs for `non-generative' tasks such as classification using the prompt-based paradigm. In this preliminary exploratory study, we investigated the applicability of LLMs for Code Clone Detection (CCD), a non-generative task. By building a mono-lingual and cross-lingual CCD dataset derived from CodeNet, we first investigated two different prompts using ChatGPT to detect Type-4 code clones in Java-Java and Java-Ruby pairs in a zero-shot setting. We then conducted an analysis to understand the strengths and weaknesses of ChatGPT in CCD. ChatGPT surpasses the baselines in cross-language CCD attaining an F1-score of 0.877 and achieves comparable performance to fully fine-tuned models for mono-lingual CCD, with an F1-score of 0.878. Also, the prompt and the difficulty level of the problems has an impact on the performance of ChatGPT. Finally we provide insights and future directions based on our initial analysis
翻訳日:2024-01-31 11:46:57 公開日:2024-01-30
# PSAvatar:3次元ガウススプレイティングによるリアルタイム頭部アバターアニメーションのためのポイントベース形状モデル

PSAvatar: A Point-based Morphable Shape Model for Real-Time Head Avatar Animation with 3D Gaussian Splatting ( http://arxiv.org/abs/2401.12900v4 )

ライセンス: Link先を確認
Zhongyuan Zhao and Zhenyu Bao and Qing Li and Guoping Qiu and Kanglin Liu(参考訳) 多くの進歩にもかかわらず、リアルタイムの高精細なヘッドアバターアニメーションの実現は依然として困難であり、既存の手法ではスピードと品質のトレードオフが必要となる。 3DMMに基づく手法は、眼鏡やヘアスタイルのような非界面構造をモデル化するのに失敗することが多い。 3d gaussian は幾何学表現と放射場再構成に有望な能力を持つことが証明されているが、3d gaussian はポーズや表現の変化によって生じる頭部形状の変化をモデル化することが困難であるため、頭部アバター作成に3d gaussian を適用することは依然として大きな課題である。 本稿では,離散幾何学的プリミティブを用いてパラメトリックなモーファブル形状モデルを作成し,精細なディテール表現と高忠実度レンダリングに3dガウシアンを用いる,アニメーション可能な頭部アバター作成のための新しいフレームワークpsavatarを提案する。 パラメトリック形状モデル(Parametric morphable shape model)は、3次元表現のメッシュの代わりに点を用いて表現の柔軟性を向上するポイントベース形状モデル(PMSM)である。 PMSMは、最初にFLAMEメッシュを、表面のサンプリングとメッシュのオフによってポイントに変換し、表面のような構造だけでなく、眼鏡やヘアスタイルのような複雑な地形の再構築を可能にする。 これらの点を分析・合成方式で頭部形状と整合させることにより、pmsmは3次元ガウシアンを詳細な表現と外観のモデリングに活用し、高忠実なアバターを作成することができる。 psavatarは多種多様な被写体の高精細な頭部アバターを再現でき、アバターはリアルタイムでアニメーションできる(512$\times$ 512 の解像度で25 fps)。

Despite much progress, achieving real-time high-fidelity head avatar animation is still difficult and existing methods have to trade-off between speed and quality. 3DMM based methods often fail to model non-facial structures such as eyeglasses and hairstyles, while neural implicit models suffer from deformation inflexibility and rendering inefficiency. Although 3D Gaussian has been demonstrated to possess promising capability for geometry representation and radiance field reconstruction, applying 3D Gaussian in head avatar creation remains a major challenge since it is difficult for 3D Gaussian to model the head shape variations caused by changing poses and expressions. In this paper, we introduce PSAvatar, a novel framework for animatable head avatar creation that utilizes discrete geometric primitive to create a parametric morphable shape model and employs 3D Gaussian for fine detail representation and high fidelity rendering. The parametric morphable shape model is a Point-based Morphable Shape Model (PMSM) which uses points instead of meshes for 3D representation to achieve enhanced representation flexibility. The PMSM first converts the FLAME mesh to points by sampling on the surfaces as well as off the meshes to enable the reconstruction of not only surface-like structures but also complex geometries such as eyeglasses and hairstyles. By aligning these points with the head shape in an analysis-by-synthesis manner, the PMSM makes it possible to utilize 3D Gaussian for fine detail representation and appearance modeling, thus enabling the creation of high-fidelity avatars. We show that PSAvatar can reconstruct high-fidelity head avatars of a variety of subjects and the avatars can be animated in real-time ($\ge$ 25 fps at a resolution of 512 $\times$ 512 ).
翻訳日:2024-01-31 11:46:32 公開日:2024-01-30
# テンソルビュー位相グラフニューラルネットワーク

Tensor-view Topological Graph Neural Network ( http://arxiv.org/abs/2401.12007v3 )

ライセンス: Link先を確認
Tao Wen, Elynn Chen, Yuzhou Chen(参考訳) グラフ分類はグラフ構造化データにとって重要な学習課題である。 グラフニューラルネットワーク(gnns)は最近、グラフ学習で注目を集め、多くの重要なグラフ問題で大きな改善が見られた。 最先端のパフォーマンスにもかかわらず、既存のGNNは各ノード周辺の非常に限られたエリアからのローカル情報しか使用せず、マルチモーダル情報や過剰な計算のオーバーヘッドに悩まされている。 これらの問題に対処するために, 永続的ホモロジー, グラフ畳み込み, テンソル演算に基づいて構築された, 単純かつ効果的な位相深層学習のクラスである, テンソルビュートポロジカルグラフニューラルネットワーク(TTG-NN)を提案する。 この新しい方法はテンソル学習を取り入れ、テンソルビュートポロジー(tt)とテンソルビューグラフ(tg)の構造情報を局所的および大域的に同時に捉える。 グラフのトポロジーと構造を十分に活用するために,2つの柔軟なttおよびtg表現学習モジュールを提案し,特徴的テンソル凝集と変換を分離し,少ない計算量でマルチモーダル構造を保存することを学ぶ。 理論的には、提案したテンソル変換層(TTL)に対して、サンプル外およびサンプル内両方の2乗平均近似誤差に高い確率境界を導出する。 実データ実験により,提案したTTG-NNは,グラフベンチマークにおいて20の最先端手法より優れていた。

Graph classification is an important learning task for graph-structured data. Graph neural networks (GNNs) have recently gained growing attention in graph learning and have shown significant improvements in many important graph problems. Despite their state-of-the-art performances, existing GNNs only use local information from a very limited neighborhood around each node, suffering from loss of multi-modal information and overheads of excessive computation. To address these issues, we propose a novel Tensor-view Topological Graph Neural Network (TTG-NN), a class of simple yet effective topological deep learning built upon persistent homology, graph convolution, and tensor operations. This new method incorporates tensor learning to simultaneously capture Tensor-view Topological (TT), as well as Tensor-view Graph (TG) structural information on both local and global levels. Computationally, to fully exploit graph topology and structure, we propose two flexible TT and TG representation learning modules that disentangle feature tensor aggregation and transformation and learn to preserve multi-modal structure with less computation. Theoretically, we derive high probability bounds on both the out-of-sample and in-sample mean squared approximation errors for our proposed Tensor Transformation Layer (TTL). Real data experiments show that the proposed TTG-NN outperforms 20 state-of-the-art methods on various graph benchmarks.
翻訳日:2024-01-31 11:45:57 公開日:2024-01-30
# 知識グラフ推論のための位置感性埋め込み

Location Sensitive Embedding for Knowledge Graph Reasoning ( http://arxiv.org/abs/2401.10893v3 )

ライセンス: Link先を確認
Deepak Banerjee, Anjali Ishaan(参考訳) 埋め込み手法は知識グラフを連続した低次元空間に変換し、推論と完了作業を容易にする。 既存の手法は主に翻訳距離モデルと意味マッチングモデルという2つのタイプに分けられる。 翻訳距離モデルにおける重要な課題は、グラフ内の「ヘッド」と「テール」エンティティを効果的に区別できないことである。 この問題に対処するため,新しい位置感応型埋め込み法 (LSE) を開発した。 LSEは、関係特化写像を用いてヘッダーを革新的に修正し、関係を単なる翻訳ではなく線形変換として概念化する。 lseの表現能力や既存モデルとの接続を含む理論的基礎は徹底的に検討されている。 より合理化された変種 LSE-d も提案され、実際の効率を高めるために変換に対角行列を用いた。 リンク予測のための4つの大規模kgデータセットで実施された実験は、lsedが最先端の関連作品よりも優れているか、あるいは競合していることを示している。

Embedding methods transform the knowledge graph into a continuous, low-dimensional space, facilitating inference and completion tasks. Existing methods are mainly divided into two types: translational distance models and semantic matching models. A key challenge in translational distance models is their inability to effectively differentiate between 'head' and 'tail' entities in graphs. To address this problem, a novel location-sensitive embedding (LSE) method has been developed. LSE innovatively modifies the head entity using relation-specific mappings, conceptualizing relations as linear transformations rather than mere translations. The theoretical foundations of LSE, including its representational capabilities and its connections to existing models, have been thoroughly examined. A more streamlined variant, LSE-d, which employs a diagonal matrix for transformations to enhance practical efficiency, is also proposed. Experiments conducted on four large-scale KG datasets for link prediction show that LSEd either outperforms or is competitive with state-of-the-art related works.
翻訳日:2024-01-31 11:45:30 公開日:2024-01-30
# グラフ上でのマルチタスク事前学習とプロンプトのためのマルチgprompt

MultiGPrompt for Multi-Task Pre-Training and Prompting on Graphs ( http://arxiv.org/abs/2312.03731v4 )

ライセンス: Link先を確認
Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang(参考訳) グラフは本質的にWeb上の相互接続オブジェクトをモデル化することができ、Web分析やコンテントレコメンデーションといった一連のWebアプリケーションを容易にします。 近年,グラフ表現学習の主流技術としてグラフニューラルネットワーク(GNN)が登場している。 しかし、エンドツーエンドの監視フレームワークでの有効性は、タスク固有のラベルの可用性にかなり関係しています。 ラベリングコストを軽減し、数ショット設定で堅牢性を高めるため、自己指導型タスクの事前訓練が有望な方法として現れ、プリテキストと下流タスクの客観的ギャップをさらに狭めるためのプロンプトが提案されている。 グラフ上でのプロンプトベース学習の初期調査はあったが、それらは主に単一のプリテキストタスクを活用し、事前学習データから学べる一般的な知識のサブセットが限られている。 そこで本稿では,マルチタスク事前学習およびプロンプトフレームワークであるmultigpromptを提案する。 まず、事前学習において、複数のプリテキストタスクを相乗化するためのプリテキストトークンセットを設計する。 第2に,タスク固有の,グローバルな事前学習知識を活用するためのオープンプロンプトとオープンプロンプトから構成されたデュアルプロンプト機構を提案する。 最後に、MultiGPromptの評価と分析を行うために、6つの公開データセットに関する広範な実験を行う。

Graphs can inherently model interconnected objects on the Web, thereby facilitating a series of Web applications, such as web analyzing and content recommendation. Recently, Graph Neural Networks (GNNs) have emerged as a mainstream technique for graph representation learning. However, their efficacy within an end-to-end supervised framework is significantly tied to the availabilityof task-specific labels. To mitigate labeling costs and enhance robustness in few-shot settings, pre-training on self-supervised tasks has emerged as a promising method, while prompting has been proposed to further narrow the objective gap between pretext and downstream tasks. Although there has been some initial exploration of prompt-based learning on graphs, they primarily leverage a single pretext task, resulting in a limited subset of general knowledge that could be learned from the pre-training data. Hence, in this paper, we propose MultiGPrompt, a novel multi-task pre-training and prompting framework to exploit multiple pretext tasks for more comprehensive pre-trained knowledge. First, in pre-training, we design a set of pretext tokens to synergize multiple pretext tasks. Second, we propose a dual-prompt mechanism consisting of composed and open prompts to leverage task-specific and global pre-training knowledge, to guide downstream tasks in few-shot settings. Finally, we conduct extensive experiments on six public datasets to evaluate and analyze MultiGPrompt.
翻訳日:2024-01-31 11:45:13 公開日:2024-01-30
# 補助的相互モーダル相互作用を持つ関係時間グラフニューラルネットワークを用いた会話理解

Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction ( http://arxiv.org/abs/2311.04507v3 )

ライセンス: Link先を確認
Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le(参考訳) 感情認識は人間の会話理解にとって重要な課題である。 言語、音声、表情といったマルチモーダルデータの概念により、より困難になる。 典型的な解決策として、グローバルとローカルのコンテキスト情報は、対話中の各文、すなわち発話の感情ラベルを予測するために利用される。 特に、グローバル表現は、会話レベルでのモーダル間相互作用のモデリングによって取得できる。 話し手の時間的情報や感情の変化を用いて局所的に推測されることが多く、発話レベルの重要な要因を無視する。 さらに、既存のアプローチの多くは、モダリティ固有の表現を使わずに、統一入力における複数のモダリティの融合特徴を取り入れている。 これらの問題から,会話レベルの対話や発話レベルの時間的依存関係を,会話理解のためのモーダル特有の方法と効果的に捉えるニューラルネットワークフレームワークであるCORECT(Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction)を提案する。 大規模な実験では、マルチモーダルERCタスクのためのIEMOCAPとCMU-MOSEIデータセット上でCORECTの有効性を実証している。

Emotion recognition is a crucial task for human conversation understanding. It becomes more challenging with the notion of multimodal data, e.g., language, voice, and facial expressions. As a typical solution, the global- and the local context information are exploited to predict the emotional label for every single sentence, i.e., utterance, in the dialogue. Specifically, the global representation could be captured via modeling of cross-modal interactions at the conversation level. The local one is often inferred using the temporal information of speakers or emotional shifts, which neglects vital factors at the utterance level. Additionally, most existing approaches take fused features of multiple modalities in an unified input without leveraging modality-specific representations. Motivating from these problems, we propose the Relational Temporal Graph Neural Network with Auxiliary Cross-Modality Interaction (CORECT), an novel neural network framework that effectively captures conversation-level cross-modality interactions and utterance-level temporal dependencies with the modality-specific manner for conversation understanding. Extensive experiments demonstrate the effectiveness of CORECT via its state-of-the-art results on the IEMOCAP and CMU-MOSEI datasets for the multimodal ERC task.
翻訳日:2024-01-31 11:44:47 公開日:2024-01-30
# マルチアーム一般化によるレストレスバンディットの事前学習モデルに向けて

Towards a Pretrained Model for Restless Bandits via Multi-arm Generalization ( http://arxiv.org/abs/2310.14526v3 )

ライセンス: Link先を確認
Yunfan Zhao, Nikhil Behari, Edward Hughes, Edwin Zhang, Dheeraj Nagaraj, Karl Tuyls, Aparna Taneja, Milind Tambe(参考訳) レストレス・マルチアーム・バンディット (RMABs) は, 医療, オンライン広告, 密猟などの分野で広く応用されている資源配分問題のクラスであり, マルチエージェント強化学習の観点から最近研究されている。 RMAB以前の研究はいくつかの制限に悩まされており、例えば、連続状態に適切に対処できず、多くの現実世界で一般的な課題である腕のオプトインやオプトアウト時にスクラッチから再トレーニングする必要がある。 これらの制限に対処するために、ニューラルネットワークベースの事前訓練モデル(PreFeRMAB)を開発し、これまで見つからなかったRMABの幅広い範囲で、一般的なゼロショット能力を持ち、スクラッチからリトレーニングするよりも、よりサンプル効率の良い方法で特定のインスタンスで微調整できる。 このモデルは、一般的なマルチアクション設定や離散状態空間や連続状態空間も含む。 迅速な一般化を実現するために,特徴情報を活用し,武器のオプトイン・アウトを経時的に行う新しい単一政策ネットワークモデルを学習する。 理論的収束を保証する重要な$\lambda$-networkに対する新しい更新ルールを導き、いくつかの挑戦的で現実世界にインスパイアされた問題に対するアプローチの利点を実証的に示す。

Restless multi-arm bandits (RMABs), a class of resource allocation problems with broad application in areas such as healthcare, online advertising, and anti-poaching, have recently been studied from a multi-agent reinforcement learning perspective. Prior RMAB research suffers from several limitations, e.g., it fails to adequately address continuous states, and requires retraining from scratch when arms opt-in and opt-out over time, a common challenge in many real world applications. We address these limitations by developing a neural network-based pre-trained model (PreFeRMAB) that has general zero-shot ability on a wide range of previously unseen RMABs, and which can be fine-tuned on specific instances in a more sample-efficient way than retraining from scratch. Our model also accommodates general multi-action settings and discrete or continuous state spaces. To enable fast generalization, we learn a novel single policy network model that utilizes feature information and employs a training procedure in which arms opt-in and out over time. We derive a new update rule for a crucial $\lambda$-network with theoretical convergence guarantees and empirically demonstrate the advantages of our approach on several challenging, real-world inspired problems.
翻訳日:2024-01-31 11:44:27 公開日:2024-01-30
# 密度行列を密度パウリテンソルに分解する

Decomposing dense matrices into dense Pauli tensors ( http://arxiv.org/abs/2401.16378v2 )

ライセンス: Link先を確認
Tyson Jones(参考訳) 行列を重み付けされたパウリ弦の和に分解することは、指数的スケーリングによって容易には妨げられない量子コンピュータ科学者の共通の振舞いである。 しかし、注意してください、ナイーブ分解は必要以上に立方的に高価です! 本稿では,2^N-by-2^N複素行列とO(2^N)時間におけるN末端パウリテンソルの間の内積をグレイ符号を利用して計算する固定メモリ分岐アルゴリズムを導出する。 提案手法は, 行列を O(8^N) 時間で重み付けしたパウリ弦の和に変換することを許す。 我々はPythonでアルゴリズムを実装し、Githubでオープンソースでホストし、最近の最先端のメソッドである"PauliComposer"をベンチマークし、メモリオーバーヘッドが指数関数的に増加し、N < 8で1.5倍から5倍のスピードアップを実現した。 我々のスキームは、他の方法で最適化された処理が可能であるかもしれない入力行列のスパーシリティ、対角性、ハーミティティ、その他の性質を利用しない。 したがって、このアルゴリズムは、パウリ基底において密度の高い任意の複素行列の分解や、分解されたパウリテンソルが未定の先駆体であるような分解に適している。

Decomposing a matrix into a weighted sum of Pauli strings is a common chore of the quantum computer scientist, whom is not easily discouraged by exponential scaling. But beware, a naive decomposition can be cubically more expensive than necessary! In this manuscript, we derive a fixed-memory, branchless algorithm to compute the inner product between a 2^N-by-2^N complex matrix and an N-term Pauli tensor in O(2^N) time, by leveraging the Gray code. Our scheme permits the embarrassingly parallel decomposition of a matrix into a weighted sum of Pauli strings in O(8^N) time. We implement our algorithm in Python, hosted open-source on Github, and benchmark against a recent state-of-the-art method called the "PauliComposer" which has an exponentially growing memory overhead, achieving speedups in the range of 1.5x to 5x for N < 8. Note that our scheme does not leverage sparsity, diagonality, Hermitivity or other properties of the input matrix which might otherwise enable optimised treatment in other methods. As such, our algorithm is well-suited to decomposition of dense, arbitrary, complex matrices which are expected dense in the Pauli basis, or for which the decomposed Pauli tensors are a priori unknown.
翻訳日:2024-01-31 11:38:02 公開日:2024-01-30
# cDVGAN:マルチクラス重力波信号と格子生成のためのフレキシブルモデル

cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation ( http://arxiv.org/abs/2401.16356v2 )

ライセンス: Link先を確認
Tom Dooney, Lyana Curier, Daniel Tan, Melissa Lopez, Chris Van Den Broeck, Stefano Bromuri(参考訳) 重力波(GW)とGW検出器グリッチの現実的な時間領域観測のシミュレーションは、GWデータ解析の進歩に役立つ。 シミュレーションされたデータは、信号検索のためのデータセットの拡張、機械学習のためのデータセットのバランス、検出スキームの検証によって下流タスクで使用できる。 本研究では、重力波(GW)と検出器グリッチを表す複数の時間領域観測のクラスをシミュレートする、ジェネレーティブ・アドバーサリアル・ネットワーク・フレームワークにおける新しい条件モデルである条件微分型GAN(cDVGAN)を提案する。 cDVGANはまた、条件付きクラスベクトルの補間によってクラス間のばらつきにまたがる一般化されたハイブリッドサンプルを生成することもできる。 cDVGANは、GANの典型的な2人対戦ゲームに追加のプレイヤーを導入し、補助判別器が1次微分時間列を解析する。 その結果, 合成データの提供により, 元のデータの特徴をよりよく把握できることがわかった。 cDVGAN条件は3つのクラスで、LIGO blip と Tomte glitch の事象を観測3回目(O3)から2回、そして3回目は2回目(BBH)の融合を表す。 提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。 具体的には,cdvgan生成データを用いた学習畳み込みニューラルネットワーク(cnns)が,他の最先端ganモデルからの合成データを超えて,検出器ノイズに埋め込まれたサンプルの検出を改善していることを示す。 我々の最高の合成データセットは、ベースラインGANの合成データセットと比較して、AUCのパフォーマンスが4.2%向上する。 さらに,CNNをcDVGANのハイブリッドサンプルでトレーニングすることで,標準クラスのみをトレーニングし,LIGO検出器バックグラウンドに埋め込まれた実サンプルを同定する(cDVGANの4%のAUC改善)。

Simulating realistic time-domain observations of gravitational waves (GWs) and GW detector glitches can help in advancing GW data analysis. Simulated data can be used in downstream tasks by augmenting datasets for signal searches, balancing data sets for machine learning, and validating detection schemes. In this work, we present Conditional Derivative GAN (cDVGAN), a novel conditional model in the Generative Adversarial Network framework for simulating multiple classes of time-domain observations that represent gravitational waves (GWs) and detector glitches. cDVGAN can also generate generalized hybrid samples that span the variation between classes through interpolation in the conditioned class vector. cDVGAN introduces an additional player into the typical 2-player adversarial game of GANs, where an auxiliary discriminator analyzes the first-order derivative time-series. Our results show that this provides synthetic data that better captures the features of the original data. cDVGAN conditions on three classes, two denoised from LIGO blip and tomte glitch events from its 3rd observing run (O3), and the third representing binary black hole (BBH) mergers. Our proposed cDVGAN outperforms 4 different baseline GAN models in replicating the features of the three classes. Specifically, our experiments show that training convolutional neural networks (CNNs) with our cDVGAN-generated data improves the detection of samples embedded in detector noise beyond the synthetic data from other state-of-the-art GAN models. Our best synthetic dataset yields as much as a 4.2% increase in area-under-the-curve (AUC) performance compared to synthetic datasets from baseline GANs. Moreover, training the CNN with hybrid samples from our cDVGAN outperforms CNNs trained only on the standard classes, when identifying real samples embedded in LIGO detector background (4% AUC improvement for cDVGAN).
翻訳日:2024-01-31 11:37:37 公開日:2024-01-30
# NISQ装置におけるローカー・キベルソンはしごのシミュレーション

Simulation of a Rohksar-Kivelson ladder on a NISQ device ( http://arxiv.org/abs/2401.16326v2 )

ライセンス: Link先を確認
Sabhyata Gupta, Younes Javanmard, Tobias J. Osborne, Luis Santos(参考訳) NISQデバイス上でのRohksar-Kivelsonラグのダイナミクスを研究するための量子古典的アルゴリズムを提案する。 我々は、ゲージ不変性、追加対称性、およびラダー幾何学におけるリング交換に対してラケットがどのようにブロックされているかに関連する重要な性質により、複雑性が大幅に減少することを示した。 これにより、現在のNISQデバイスの性能によく適合する、少数のキュービットを持つサイズのラッパの効率的なシミュレーションが可能になる。 スケールされた量子ゲートを用いたIBM-Qマシンにおいて,最大8ドルの格子をシミュレーションしてはしごの手順を説明する。

We present a quantum-classical algorithm to study the dynamics of the Rohksar-Kivelson plaquette ladder on NISQ devices. We show that complexity is largely reduced using gauge invariance, additional symmetries, and a crucial property associated to how plaquettes are blocked against ring-exchange in the ladder geometry. This allows for an efficient simulation of sizable plaquette ladders with a small number of qubits, well suited for the capabilities of present NISQ devices. We illustrate the procedure for ladders with simulation of up to $8$ plaquettes in an IBM-Q machine, employing scaled quantum gates.
翻訳日:2024-01-31 11:37:02 公開日:2024-01-30
# 修正ランドウ・セプタ型低ノイズ量子チャネルの高次元分解性

Degradability of Modified Landau-Streater Type Low-Noise Quantum Channels in High Dimensions ( http://arxiv.org/abs/2401.16312v2 )

ライセンス: Link先を確認
Yun-Feng Lo, Yen-Chi Lee, Min-Hsiu Hsieh(参考訳) 本稿では,量子チャネルの劣化性に着目し,低雑音状態における量子ビット偏極チャネルの高次元拡張に着目した。 Sutter et al. と Leditzky et al. が確立した $\eta$-approximate degradable channel の基礎の上に構築し, 改良ランドウ・サトイヤー (MLS) チャネルの導入と検討を行う。 これらのチャネルは qubit の分極上に広がり、最近提案されたRoofeh と Karimipour による Werner-Holevo チャネルはより高次元のヒルベルト空間に拡張される(次元 $d=2j+1$,$j$ は正の半整数である)。 本研究は,$o(\varepsilon^2)$分解性パターンへの適合性に着目し,$d=2$の場合におけるleditzkyらの研究結果と整合し拡張する。 SU($2$) ジェネレータを SU($d$) に置き換えることで、一般化されたゲルマン行列を将来の研究に含める可能性を探ることができる。 その結果、低ノイズ領域における量子チャネルの超加法的理解が深まり、より広いスペクトルの量子チャネルにわたってo(\varepsilon^2)$分解可能性をもたらすような状態や構造への将来の探索の土台となった。

This paper delves into the degradability of quantum channels, with a specific focus on high-dimensional extensions of qubit depolarizing channels in low-noise regimes. We build upon the foundation of $\eta$-approximate degradable channels, as established by Sutter et al. and Leditzky et al., to introduce and examine the Modified Landau-Streater (MLS) channels. These channels expand upon the qubit depolarizing and the recently proposed modified Werner-Holevo channels by Roofeh and Karimipour, extending them to higher-dimensional Hilbert spaces (with dimension $d=2j+1$, where $j$ are positive half-integers). Our investigation centers on their conformity to the $O(\varepsilon^2)$ degradability pattern, aligning with and extending Leditzky et al.'s findings in the $d=2$ case. By replacing the SU($2$) generators with SU($d$) in our treatment, we may explore the potential inclusion of generalized Gell-Mann matrices in future research. Our results enhance the understanding of super-additivity in quantum channels within the low-noise regime and lay the groundwork for future explorations into conditions and structures that could lead to $O(\varepsilon^2)$ degradability across a broader spectrum of quantum channels.
翻訳日:2024-01-31 11:36:49 公開日:2024-01-30
# 記録レベルの個人化差分プライバシーを用いたクロスサイロフェデレーション学習

Cross-silo Federated Learning with Record-level Personalized Differential Privacy ( http://arxiv.org/abs/2401.16251v2 )

ライセンス: Link先を確認
Junxu Liu, Jian Lou, Li Xiong, Jinfei Liu, Xiaofeng Meng(参考訳) 差分プライバシによって強化されたフェデレーション学習は、トレーニングプロセス中にクライアントのコントリビューションを保護することによって、クライアント側データのプライバシ保護を改善するための一般的なアプローチとして現れている。 既存のソリューションは、通常、すべてのレコードに対して統一されたプライバシー予算を仮定し、各レコードのプライバシー要件を満たすのに適さない1サイズのソリューションを提供する。 本稿では,記録レベル差分プライバシーを持つクロスサイロFLの非チャージ領域について検討する。 本稿では,クライアントレベルサンプリングと非一様レコードレベルサンプリングの両方を併用した2段階ハイブリッドサンプリング手法を用いて,プライバシ要件を満たす新しいフレームワークrPDP-FLを提案する。 決定的かつ非自明な問題は、パーソナライズされたプライバシー予算(epsilon})を考えると、記録ごとのサンプリング確率 q を選択することである。 我々は,q と {\epsilon} の非線形相関に関する重要な知見を解明し,この問題に対処するためのエレガントな数学的モデルを導出する,Simulation-CurveFitting という多目的解を導入する。 評価の結果,プライバシ保護のパーソナライズを考慮しないベースラインに対して,我々のソリューションが大きなパフォーマンス向上をもたらすことが示された。

Federated learning enhanced by differential privacy has emerged as a popular approach to better safeguard the privacy of client-side data by protecting clients' contributions during the training process. Existing solutions typically assume a uniform privacy budget for all records and provide one-size-fits-all solutions that may not be adequate to meet each record's privacy requirement. In this paper, we explore the uncharted territory of cross-silo FL with record-level personalized differential privacy. We devise a novel framework named rPDP-FL, employing a two-stage hybrid sampling scheme with both client-level sampling and non-uniform record-level sampling to accommodate varying privacy requirements. A critical and non-trivial problem is to select the ideal per-record sampling probability q given the personalized privacy budget {\epsilon}. We introduce a versatile solution named Simulation-CurveFitting, allowing us to uncover a significant insight into the nonlinear correlation between q and {\epsilon} and derive an elegant mathematical model to tackle the problem. Our evaluation demonstrates that our solution can provide significant performance gains over the baselines that do not consider personalized privacy preservation.
翻訳日:2024-01-31 11:36:21 公開日:2024-01-30
# LLaVA-Mole: インストラクションファインタニングMLLMにおけるデータ衝突の軽減を目的としたLoRAエキスパートのスパースミックス

LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs ( http://arxiv.org/abs/2401.16160v2 )

ライセンス: Link先を確認
Shaoxiang Chen, Zequn Jie, Lin Ma(参考訳) 様々な画像テキスト・インストラクション・データに基づくインストラクション・ファインタニングは多機能なマルチモーダル言語モデル(MLLM)を得る鍵であり、命令データの異なる構成は異なる機能を持つ微調整モデルにつながる可能性がある。 しかし、異なるドメインから命令データを混合する場合、データ競合は避けられないことを発見し、それによって特定のドメインのタスクのパフォーマンスが低下する可能性がある。 この問題に対処するために,MLLMの命令微調整のためのLoRA Experts (MoLE) の疎混合である,効率的なMixture of Experts (MoE) 設計を提案する。 トランスフォーマー層内では、MLP層に特化したLoRA専門家セットを作成し、各トークンをルーティング関数に基づいてトップ-1エキスパートにルーティングすることで、一般的なローランド適応(LoRA)メソッドを拡張し、異なるドメインからのトークンの適応的な選択を可能にする。 LoRAの専門家はわずかに活性化されているため、トレーニングと推論のコストはオリジナルのLoRA法と比べてほぼ一定である。 LLaVA-1.5のプレーンロラをMoE設計に置き換えることで、最終モデルはLLaVA-MoLEと名付けられた。 大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットと様々な構成を混合する際のデータ競合問題を効果的に軽減し、強いプレーンなLoRAベースラインに対して一貫したパフォーマンス向上を実現することが証明された。 最も重要なことは、混合データセット上では、LLaVA-MoLEは2倍のサンプルでトレーニングされたプレーンなLoRAベースラインよりも優れています。

Instruction finetuning on a variety of image-text instruction data is the key to obtaining a versatile Multimodal Large Language Model (MLLM), and different configurations of the instruction data can lead to finetuned models with different capabilities. However, we have discovered that data conflicts are inevitable when mixing instruction data from distinct domains, which can result in performance drops for tasks of a specific domain. To address this issue, we propose to apply an efficient Mixture of Experts (MoE) design, which is a sparse Mixture of LoRA Experts (MoLE) for instruction finetuning MLLMs. Within the Transformer layers, we extend the popular Low-Rank Adaption (LoRA) method by creating a set of LoRA experts specifically for the MLP layer, and route each token to the top-1 expert based on a routing function, allowing adaptive choices for tokens from different domains. Since the LoRA experts are sparsely activated, the training and inference cost are kept roughly constant compared to the original LoRA method. By replacing the plain-LoRA of LLaVA-1.5 with our MoE design, our final model is named LLaVA-MoLE. Extensive experiments proved that LLaVA-MoLE effectively mitigates the data conflict issue when mixing multiple distinct instruction datasets with various configurations, and achieves consistent performance gains over the strong plain-LoRA baselines. Most importantly, on the mixed datasets, LLaVA-MoLE can even outperform the plain-LoRA baseline trained with twice the samples.
翻訳日:2024-01-31 11:35:55 公開日:2024-01-30
# イベント系列における自己監督型学習:生成モデルとコントラスト学習の比較研究とハイブリッドアプローチ

Self-Supervised Learning in Event Sequences: A Comparative Study and Hybrid Approach of Generative Modeling and Contrastive Learning ( http://arxiv.org/abs/2401.15935v2 )

ライセンス: Link先を確認
Viktor Moskvoretskii, Dmitry Osin, Egor Shvetsov, Igor Udovichenko, Maxim Zhelnin, Andrey Dukhovny, Anna Zhimerikina, Albert Efimov, Evgeny Burnaev(参考訳) 本研究では,イベントシーケンスの表現を得るために,自己教師付き学習手法を検討する。 これは様々なアプリケーションにおいて重要なモダリティであり、銀行、電子商取引、医療に限らない。 自己教師付き学習における生成的および対比的アプローチの包括的研究を行い,両者を独立に適用した。 最高の方法が一つもないことが分かる。 その結果、これらのアプローチを組み合わせることの潜在的な利点を探求する。 この目的を達成するために、現代マルチモーダル研究からインスピレーションを得て、生成的および対照的な埋め込みを異なるモダリティとして整列させる新しい手法を提案する。 生成的かつ対照的なアプローチは、しばしば相互排他的として扱われ、それらの組み合わせによる探索のギャップを残している。 我々の結果は、この整列モデルは、少なくとも既存のメソッドに匹敵し、様々なタスクでより普遍的であることを示す。 さらに,自己教師付き手法がデータセットの教師付き手法より一貫して優れていることを示す。

This study investigates self-supervised learning techniques to obtain representations of Event Sequences. It is a key modality in various applications, including but not limited to banking, e-commerce, and healthcare. We perform a comprehensive study of generative and contrastive approaches in self-supervised learning, applying them both independently. We find that there is no single supreme method. Consequently, we explore the potential benefits of combining these approaches. To achieve this goal, we introduce a novel method that aligns generative and contrastive embeddings as distinct modalities, drawing inspiration from contemporary multimodal research. Generative and contrastive approaches are often treated as mutually exclusive, leaving a gap for their combined exploration. Our results demonstrate that this aligned model performs at least on par with, and mostly surpasses, existing methods and is more universal across a variety of tasks. Furthermore, we demonstrate that self-supervised methods consistently outperform the supervised approach on our datasets.
翻訳日:2024-01-31 11:35:25 公開日:2024-01-30
# 分布一貫性構造因果モデル

Distribution-consistency Structural Causal Models ( http://arxiv.org/abs/2401.15911v2 )

ライセンス: Link先を確認
Heyang Gong, Chaochao Lu, Yu Zhang(参考訳) 因果モデリングの分野では、潜在的成果(PO)と構造因果モデル(SCM)が主要なフレームワークである。 しかしながら、これらのフレームワークは、潜在的成果の連立分布のパラメータとして形式化された、事実上の反事実をモデル化する際の顕著な課題に直面している。 特に、(Y(0), Y(1))$の合同値に基づいてパーソナライズされたインセンティブを求めるシナリオにおいて、対実的推論は、現代の意思決定プロセスにおいて最重要となる。 本稿では,POおよびSCMフレームワークをモデルとして検討することから始める。 分析を通じて,両フレームワークの基盤となる一貫性ルールから生じる,固有のモデルのキャパシティ制限を,‘degenerative counterfactual problem’という用語で識別する。 この制限に対処するために,新しい \textit{distribution-consistency} 仮定を導入し,それと並行して,反事実をモデル化するための機能拡張を提供する分散一貫性構造因果モデル(discoscms)を提案する。 拡張されたモデル容量を明らかにするために,discoscm単独で実用的意義を持つ新しい識別可能な因果パラメータ \textit{the probability of consistency} を導入し,パーソナライズされたインセンティブの例を示す。 さらに,DiscoSCMフレームワーク内の '`Ladder of Causation'' に関する理論的結果の包括的セットを提供する。 反事実モデリングの今後の研究のために新しい道を開き、究極的には因果関係とその実世界の応用に対する理解を深めることを願っている。

In the field of causal modeling, potential outcomes (PO) and structural causal models (SCMs) stand as the predominant frameworks. However, these frameworks face notable challenges in practically modeling counterfactuals, formalized as parameters of the joint distribution of potential outcomes. Counterfactual reasoning holds paramount importance in contemporary decision-making processes, especially in scenarios that demand personalized incentives based on the joint values of $(Y(0), Y(1))$. This paper begins with an investigation of the PO and SCM frameworks for modeling counterfactuals. Through the analysis, we identify an inherent model capacity limitation, termed as the ``degenerative counterfactual problem'', emerging from the consistency rule that is the cornerstone of both frameworks. To address this limitation, we introduce a novel \textit{distribution-consistency} assumption, and in alignment with it, we propose the Distribution-consistency Structural Causal Models (DiscoSCMs) offering enhanced capabilities to model counterfactuals. To concretely reveal the enhanced model capacity, we introduce a new identifiable causal parameter, \textit{the probability of consistency}, which holds practical significance within DiscoSCM alone, showcased with a personalized incentive example. Furthermore, we provide a comprehensive set of theoretical results about the ``Ladder of Causation'' within the DiscoSCM framework. We hope it opens new avenues for future research of counterfactual modeling, ultimately enhancing our understanding of causality and its real-world applications.
翻訳日:2024-01-31 11:35:08 公開日:2024-01-30
# GarchingSim:フォトリアリスティックシーンとミニマリストワークフローを備えた自律走行シミュレータ

GarchingSim: An Autonomous Driving Simulator with Photorealistic Scenes and Minimalist Workflow ( http://arxiv.org/abs/2401.15803v2 )

ライセンス: Link先を確認
Liguo Zhou, Yinglei Song, Yichao Gao, Zhou Yu, Michael Sodamin, Hongshen Liu, Liang Ma, Lian Liu, Hao Liu, Yang Liu, Haichuan Li, Guang Chen, Alois Knoll(参考訳) 自動運転アルゴリズムの実際の道路テストは、特に小さなスタートアップや研究機関にとって、高価で時には実用的ではない。 したがって、シミュレーションはこれらのアルゴリズムを評価する重要な方法となる。 しかし、フリーでオープンソースのシミュレータが利用できることは限られており、初心者や学際研究者にとってインストールと設定のプロセスは大変である。 ユーザフレンドリーなワークフローを維持しながら、フォトリアリスティックなシーンを備えた自動運転シミュレータを導入する。 シミュレータはROS2やSocket.IOを通じて外部のアルゴリズムと通信でき、既存のソフトウェアスタックと互換性がある。 さらに,車両の物理的効果の実現性を高めるため,シミュレータ内で高精度な車両動力学モデルを実装した。 シミュレータは、合成データの生成や機械学習ベースのアルゴリズムによる運転など、さまざまな機能を提供する。 さらに、デプロイプロセスの単純さを優先し、初心者が親しみやすく、ユーザフレンドリーであることを確認します。

Conducting real road testing for autonomous driving algorithms can be expensive and sometimes impractical, particularly for small startups and research institutes. Thus, simulation becomes an important method for evaluating these algorithms. However, the availability of free and open-source simulators is limited, and the installation and configuration process can be daunting for beginners and interdisciplinary researchers. We introduce an autonomous driving simulator with photorealistic scenes, meanwhile keeping a user-friendly workflow. The simulator is able to communicate with external algorithms through ROS2 or Socket.IO, making it compatible with existing software stacks. Furthermore, we implement a highly accurate vehicle dynamics model within the simulator to enhance the realism of the vehicle's physical effects. The simulator is able to serve various functions, including generating synthetic data and driving with machine learning-based algorithms. Moreover, we prioritize simplicity in the deployment process, ensuring that beginners find it approachable and user-friendly.
翻訳日:2024-01-31 11:34:38 公開日:2024-01-30
# 従属変数に対する高次元偽発見率制御

High-Dimensional False Discovery Rate Control for Dependent Variables ( http://arxiv.org/abs/2401.15796v2 )

ライセンス: Link先を確認
Jasin Machkour, Michael Muma, Daniel P. Palomar(参考訳) 大規模な高次元データからの再現可能な発見を保証するアルゴリズムは、多くの信号処理アプリケーションにおいて重要である。 近年,多変量偽発見率(fdr)制御手法が登場し,変数数がサンプル数を超える高次元の設定でも保証されている。 しかしながら、これらの手法は、ゲノミクスやファイナンスといった分野に共通する特徴である高依存性の可変群の存在下で、FDRを確実に制御できないことが多い。 この問題に取り組むため,我々は,一般的な依存関係構造を考慮した新しいフレームワークを提案する。 提案する依存性を考慮したT-Rexセレクタは,T-Rexフレームワーク内に階層的グラフィカルモデルを統合し,変数間の依存性構造を効果的に活用する。 マルティンゲール理論を用いて, 可変ペナリゼーション機構がfdr制御を保証することを証明した。 さらに,依存性をキャプチャするグラフィカルモデルと非グラフィックモデルの両方を設計する上で必要な明確な条件を述べ,証明することにより,fdr制御フレームワークをさらに一般化する。 さらに,選択した変数数を最大化しながらfdrを制御するように,グラフィカルモデルとt-rexフレームワークのパラメータを同時決定する完全統合最適キャリブレーションアルゴリズムを定式化する。 数値実験と乳癌生存率解析のユースケースは、fdrを制御し、以前に乳癌と同定された遺伝子を確実に検出する最先端のベンチマーク手法の中で、提案手法が唯一のものであることを示している。 オープンソース実装は、CRANのRパッケージTRexSelectorで利用可能である。

Algorithms that ensure reproducible findings from large-scale, high-dimensional data are pivotal in numerous signal processing applications. In recent years, multivariate false discovery rate (FDR) controlling methods have emerged, providing guarantees even in high-dimensional settings where the number of variables surpasses the number of samples. However, these methods often fail to reliably control the FDR in the presence of highly dependent variable groups, a common characteristic in fields such as genomics and finance. To tackle this critical issue, we introduce a novel framework that accounts for general dependency structures. Our proposed dependency-aware T-Rex selector integrates hierarchical graphical models within the T-Rex framework to effectively harness the dependency structure among variables. Leveraging martingale theory, we prove that our variable penalization mechanism ensures FDR control. We further generalize the FDR-controlling framework by stating and proving a clear condition necessary for designing both graphical and non-graphical models that capture dependencies. Additionally, we formulate a fully integrated optimal calibration algorithm that concurrently determines the parameters of the graphical model and the T-Rex framework, such that the FDR is controlled while maximizing the number of selected variables. Numerical experiments and a breast cancer survival analysis use-case demonstrate that the proposed method is the only one among the state-of-the-art benchmark methods that controls the FDR and reliably detects genes that have been previously identified to be related to breast cancer. An open-source implementation is available within the R package TRexSelector on CRAN.
翻訳日:2024-01-31 11:34:22 公開日:2024-01-30
# Bayesian Nonparametrics - データ駆動ロバスト最適化

Bayesian Nonparametrics Meets Data-Driven Robust Optimization ( http://arxiv.org/abs/2401.15771v2 )

ライセンス: Link先を確認
Nicola Bariletto, Nhat Ho(参考訳) 機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。 リスクは通常、経験的データ分布に関して計算されるが、分布の不確実性のために、貧弱で不安定なアウト・オブ・サンプル性能をもたらす可能性がある。 分布的ロバスト最適化の精神において、ベイズ非パラメトリック(すなわちディリクレ過程)理論と、滑らかな曖昧性逆選好の最近の決定論的モデルからの洞察を組み合わせることにより、新しいロバストな基準を提案する。 第一に,リッジとラッソ回帰を用いた標準正規化経験的リスク最小化手法との新たなつながりに注目した。 そこで,理論上,ロバスト最適化法の性能に関する良質な有限サンプルおよび漸近統計的保証の存在を実証する。 本研究は,ディリクレ過程表現に基づく基準の扱いやすい近似法を提案し,検討する。 また,基準の滑らかさが標準勾配に基づく数値最適化につながることを示した。 最後に,高次元スパース線形回帰およびロバストな位置パラメータ推定タスクに適用することにより,提案手法の動作に関する知見を提供する。

Training machine learning and statistical models often involves optimizing a data-driven risk criterion. The risk is usually computed with respect to the empirical data distribution, but this may result in poor and unstable out-of-sample performance due to distributional uncertainty. In the spirit of distributionally robust optimization, we propose a novel robust criterion by combining insights from Bayesian nonparametric (i.e., Dirichlet Process) theory and recent decision-theoretic models of smooth ambiguity-averse preferences. First, we highlight novel connections with standard regularized empirical risk minimization techniques, among which Ridge and LASSO regressions. Then, we theoretically demonstrate the existence of favorable finite-sample and asymptotic statistical guarantees on the performance of the robust optimization procedure. For practical implementation, we propose and study tractable approximations of the criterion based on well-known Dirichlet Process representations. We also show that the smoothness of the criterion naturally leads to standard gradient-based numerical optimization. Finally, we provide insights into the workings of our method by applying it to high-dimensional sparse linear regression and robust location parameter estimation tasks.
翻訳日:2024-01-31 11:33:55 公開日:2024-01-30
# ディバイドとコンカー: 合成テキスト・画像生成のための言語モデルの構築と自己補正

Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation ( http://arxiv.org/abs/2401.15688v2 )

ライセンス: Link先を確認
Zhenyu Wang, Enze Xie, Aoxue Li, Zhongdao Wang, Xihui Liu, Zhenguo Li(参考訳) 高品質な画像を生成するためのテキストから画像へのモデルの大幅な進歩にもかかわらず、これらの方法は、複雑なテキストプロンプトの文脈において、特にオブジェクト属性とリレーションシップを保持する場合において、画像よりもテキストプロンプトの制御可能性を保証するのに苦労している。 本稿では,大規模言語モデル (llm) エージェントをコアとする合成テキスト対画像生成のためのトレーニングフリー手法であるcompagentを提案する。 CompAgentの根底にある基本的な考え方は、分割・分散の方法論に基づいている。 オブジェクト、属性、および関係を含む複数の概念を含む複雑なテキストプロンプトが与えられると、llmエージェントは最初それを分解し、個々のオブジェクトの抽出、それらの関連属性、そしてコヒーレントなシーンレイアウトの予測を伴います。 これらの個々の物体は独立して征服される。 その後、エージェントはテキスト、計画を分析して推論を行い、これらの孤立したオブジェクトを構成するツールを使用する。 評価と人的フィードバックのメカニズムを最終的にエージェントに組み込んで、潜在的な属性エラーを補正し、生成した画像を精査する。 llmエージェントの指導により、概念合成のためのツールとして、チューニングフリーなマルチコンセプタカスタマイズモデルとレイアウト・ツー・イメージ生成モデル、検証のためにエージェントと対話するツールとしてローカル画像編集方法を提案する。 シーンレイアウトは、これらのツール間の画像生成プロセスを制御し、複数のオブジェクト間の混乱を防止する。 CompAgentは、オープンワールドコンポジションT2I生成の総合ベンチマークであるT2I-CompBenchに対して、10%以上の改善を実現しています。 関連タスクの拡張は、潜在的なアプリケーションに対するコンパレータの柔軟性も示しています。

Despite significant advancements in text-to-image models for generating high-quality images, these methods still struggle to ensure the controllability of text prompts over images in the context of complex text prompts, especially when it comes to retaining object attributes and relationships. In this paper, we propose CompAgent, a training-free approach for compositional text-to-image generation, with a large language model (LLM) agent as its core. The fundamental idea underlying CompAgent is premised on a divide-and-conquer methodology. Given a complex text prompt containing multiple concepts including objects, attributes, and relationships, the LLM agent initially decomposes it, which entails the extraction of individual objects, their associated attributes, and the prediction of a coherent scene layout. These individual objects can then be independently conquered. Subsequently, the agent performs reasoning by analyzing the text, plans and employs the tools to compose these isolated objects. The verification and human feedback mechanism is finally incorporated into our agent to further correct the potential attribute errors and refine the generated images. Guided by the LLM agent, we propose a tuning-free multi-concept customization model and a layout-to-image generation model as the tools for concept composition, and a local image editing method as the tool to interact with the agent for verification. The scene layout controls the image generation process among these tools to prevent confusion among multiple objects. Extensive experiments demonstrate the superiority of our approach for compositional text-to-image generation: CompAgent achieves more than 10\% improvement on T2I-CompBench, a comprehensive benchmark for open-world compositional T2I generation. The extension to various related tasks also illustrates the flexibility of our CompAgent for potential applications.
翻訳日:2024-01-31 11:33:34 公開日:2024-01-30
# media2face:マルチモダリティガイダンスによる顔アニメーション生成

Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance ( http://arxiv.org/abs/2401.15687v2 )

ライセンス: Link先を確認
Qingcheng Zhao, Pengyu Long, Qixuan Zhang, Dafei Qin, Han Liang, Longwen Zhang, Yingliang Zhang, Jingyi Yu, Lan Xu(参考訳) 音声からの3次元顔アニメーションの合成は注目されている。 高品質な4D顔データや豊富なマルチモダリティラベルが不足しているため、従来の手法は制限されたリアリズムとレキシブルコンディショニングの欠如に悩まされることが多い。 私たちはこの課題を三部作で解決する。 我々はまず,顔形状と画像の効率的な変分自動エンコーダである一般化ニューラルパラメトリック・ファシアル・アセット(GNPFA)を,高度に一般化された表現潜在空間にマッピングし,表現とアイデンティティを分離する。 そして、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。 M2F-Dデータセットは、大きく、多様性があり、スキャンレベルの3D顔アニメーションデータセットである。 最後に,音声,テキスト,画像からリッチなマルチモダリティ指導を受けながら,協調顔アニメーション生成のためのgnpfa潜在空間における拡散モデルであるmedia2faceを提案する。 広範な実験により, 顔アニメーション合成において高い忠実性を実現するだけでなく, 3次元顔アニメーションにおける表現性, スタイル適応性の範囲を広げることができた。

The synthesis of 3D facial animations from speech has garnered considerable attention. Due to the scarcity of high-quality 4D facial data and well-annotated abundant multi-modality labels, previous methods often suffer from limited realism and a lack of lexible conditioning. We address this challenge through a trilogy. We first introduce Generalized Neural Parametric Facial Asset (GNPFA), an efficient variational auto-encoder mapping facial geometry and images to a highly generalized expression latent space, decoupling expressions and identities. Then, we utilize GNPFA to extract high-quality expressions and accurate head poses from a large array of videos. This presents the M2F-D dataset, a large, diverse, and scan-level co-speech 3D facial animation dataset with well-annotated emotional and style labels. Finally, we propose Media2Face, a diffusion model in GNPFA latent space for co-speech facial animation generation, accepting rich multi-modality guidances from audio, text, and image. Extensive experiments demonstrate that our model not only achieves high fidelity in facial animation synthesis but also broadens the scope of expressiveness and style adaptability in 3D facial animation.
翻訳日:2024-01-31 11:32:59 公開日:2024-01-30
# DiffuserLite: リアルタイム拡散計画に向けて

DiffuserLite: Towards Real-time Diffusion Planning ( http://arxiv.org/abs/2401.15443v2 )

ライセンス: Link先を確認
Zibin Dong, Jianye Hao, Yifu Yuan, Fei Ni, Yitian Wang, Pengyi Li and Yan Zheng(参考訳) 拡散計画は様々な分野において効果的な意思決定パラダイムとして認識されている。 長距離軌道の高品質条件生成能力は、有望な研究方向となる。 しかし,既存の拡散計画手法では,反復サンプリングコストがかかるため,意思決定頻度が低くなっている。 この問題に対処するために、高速で軽量な拡散計画フレームワークであるDiffuserLiteを紹介します。 DiffuserLiteは計画改善プロセス(PRP)を用いて粗粒度軌道を生成し、冗長な情報のモデリングを大幅に削減し、意思決定頻度を顕著に向上させる。 我々の実験結果は、DiffuserLiteが以前のフレームワークと比較してランタイムコストの0.88\%しか必要とせず、平均決定周波数が122$Hzに達し、D4RLベンチマークで最先端のパフォーマンスに達することを示した。 さらに、我々のクリーンなDiffuserLiteフレームワークは、他の拡散計画アルゴリズムにおける決定頻度を高めるフレキシブルなプラグインとして機能し、将来の作業のための構造設計リファレンスを提供する。 詳細と可視化はプロジェクトのwebサイト(https://diffuserlite.github.io/)で確認できる。

Diffusion planning has been recognized as an effective decision-making paradigm in various domains. The high-quality conditional generation capability of long-horizon trajectories makes it a promising research direction. However, existing diffusion planning methods suffer from low decision-making frequencies because of the expensive iterative sampling cost. To address this issue, we introduce DiffuserLite, a fast and lightweight diffusion planning framework. DiffuserLite employs a planning refinement process (PRP) to generate coarse-to-fine-grained trajectories, significantly reducing the modeling of redundant information and leading to notable increases in decision-making frequency. Our experimental results demonstrate that DiffuserLite needs only $0.88\%$ of the runtime cost compared to previous frameworks, achieves an average decision-making frequency of $122$Hz, and reaches state-of-the-art performance on D4RL benchmarks. In addition, our clean DiffuserLite framework can serve as a flexible plugin to enhance decision frequency in other diffusion planning algorithms, providing a structural design reference for future works. More details and visualizations are available at [project website](https://diffuserlite.github.io/).
翻訳日:2024-01-31 11:32:36 公開日:2024-01-30
# RAGに基づくイスラム教理解のための質問応答システムの提案:MufassirQAS LLM

A RAG-based Question Answering System Proposal for Understanding Islam: MufassirQAS LLM ( http://arxiv.org/abs/2401.15378v2 )

ライセンス: Link先を確認
Ahmet Yusuf Alan, Enis Karaarslan, Omer Aydin(参考訳) 宗教の教義と教えの複雑さと深さの存在として、宗教の学習と理解に課題がある。 質問応答システムとしてのチャットボットは、これらの課題を解決するのに役立つ。 LLMチャットボットはNLP技術を用いてトピック間の接続を確立し、複雑な質問に正確に応答する。 これらの能力は、チャットボットに答える質問として宗教啓蒙に使用するのに最適である。 しかし、LSMは幻覚として知られる偽情報を生成する傾向がある。 チャットボットの反応には、個人的な宗教的信念を侮辱するコンテンツ、信仰間の対立、論争やセンシティブなトピックが含まれる。 ヘイトスピーチを宣伝したり、特定のグループやその信念を非難したりすることなく、そのような事件を避ける必要がある。 本研究は,LLMの精度と透明性を高めるために,ベクトルデータベースに基づくRetrieval Augmented Generation(RAG)アプローチを用いる。 質問応答システムは「MufassirQAS」と呼ばれる。 トルコのコンテキストを含むいくつかのオープンアクセスブックを備えたベクトルデータベースを作成しました。 これらはトルコ語訳であり、イスラム教の解釈である。 我々は,システムプロンプトの作成と,有害,攻撃的,あるいは無礼な反応を防止するための指示の提供に取り組んできた。 また, MufassirQAS と ChatGPT も検討した。 私たちはシステムの性能が良くなった。 研究と強化はまだ進行中である。 結果と今後の成果が示される。

There exist challenges in learning and understanding religions as the presence of complexity and depth of religious doctrines and teachings. Chatbots as question-answering systems can help in solving these challenges. LLM chatbots use NLP techniques to establish connections between topics and accurately respond to complex questions. These capabilities make it perfect to be used in enlightenment on religion as a question answering chatbot. However, LLMs also have a tendency to generate false information, known as hallucination. The responses of the chatbots can include content that insults personal religious beliefs, interfaith conflicts, and controversial or sensitive topics. It needs to avoid such cases without promoting hate speech or offending certain groups of people or their beliefs. This study uses a vector database-based Retrieval Augmented Generation (RAG) approach to enhance the accuracy and transparency of LLMs. Our question-answering system is called as "MufassirQAS". We created a vector database with several open-access books that include Turkish context. These are Turkish translations, and interpretations on Islam. We worked on creating system prompts with care, ensuring they provide instructions that prevent harmful, offensive, or disrespectful responses. We also tested the MufassirQAS and ChatGPT with sensitive questions. We got better performance with our system. Study and enhancements are still in progress. Results and future works are given.
翻訳日:2024-01-31 11:32:16 公開日:2024-01-30