このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231207となっている論文です。

PDF登録状況(公開日: 20231207)

TitleAuthorsAbstract論文公表日・翻訳日
# Shufflecake: Linux上の複数の隠れファイルシステムに対する可算性

Shufflecake: Plausible Deniability for Multiple Hidden Filesystems on Linux ( http://arxiv.org/abs/2310.04589v2 )

ライセンス: Link先を確認
Elia Anzuoni, Tommaso Gagliardoni, (参考訳) 本稿では,暗号化されたデータの存在を記憶媒体に隠蔽し,相手がそのようなデータの存在を証明するのを非常に困難にするための,新しい確実なデニビリティ設計であるShufflecakeを提案する。 ShufflecakeはTrueCryptやVeraCryptのようなツールの‘スピリチュアルな後継’と見なすことができるが、大幅に改善されている。 ORAMベースのソリューションと比較して、Shufflecakeは非常に高速でシンプルだが、マルチスナップショットの敵に対するネイティブな保護を提供していない。 しかし、アーキテクチャによって可能になったセキュリティ拡張について議論し、これらの拡張がより強力な敵を阻止するのに十分な理由を示す。 我々はShufflecakeをLinuxのカーネル内ツールとして実装し、便利な機能を追加した。 Shufflecakeは、抑圧的な当局や危険な犯罪組織によって表現の自由が脅かされている人々にとって有用なツールだと考えている。

We present Shufflecake, a new plausible deniability design to hide the existence of encrypted data on a storage medium making it very difficult for an adversary to prove the existence of such data. Shufflecake can be considered a ``spiritual successor'' of tools such as TrueCrypt and VeraCrypt, but vastly improved: it works natively on Linux, it supports any filesystem of choice, and can manage multiple volumes per device, so to make deniability of the existence of hidden partitions really plausible. Compared to ORAM-based solutions, Shufflecake is extremely fast and simpler but does not offer native protection against multi-snapshot adversaries. However, we discuss security extensions that are made possible by its architecture, and we show evidence why these extensions might be enough to thwart more powerful adversaries. We implemented Shufflecake as an in-kernel tool for Linux, adding useful features, and we benchmarked its performance showing only a minor slowdown compared to a base encrypted system. We believe Shufflecake represents a useful tool for people whose freedom of expression is threatened by repressive authorities or dangerous criminal organizations, in particular: whistleblowers, investigative journalists, and activists for human rights in oppressive regimes.
翻訳日:2024-03-19 03:02:24 公開日:2023-12-07
# ムーンライズ:ブロックチェーンシステムで構築された新しいカートゥーンの筆記システム

Moonrise: Novel and Cartoon Writing System Built Upon Blockchain Systems ( http://arxiv.org/abs/2311.08684v2 )

ライセンス: Link先を確認
Hao Wang, (参考訳) 小説を書くか、漫画を描くことは、想像力と多くの再考と書き直しを必要とする長くて興味深いプロセスである。 ブロックチェーンシステムには,システムの改ざんを許さない,非常に強力な機能があります。 新規な筆記/漫画図面のリビジョン履歴を維持するため,HyperLedgerなどのブロックチェーンシステムをこの問題に適用し,書き物の記録を保存し,著者の筆記性能を大幅に向上する新規な筆記/漫画イラストレーターシステムを構築する。

Writing novels or drawing cartoons is a prolonged and interesting process that needs imagination and a lot of rethinking and rewriting. Blockchain systems has a very strong feature that tampering is not allowed for the system. In order to keep the revision history of novel writing / cartoon drawing, we apply blockchain systems such as HyperLedger to the problem and create a novel writer / cartoon illustrator system that is capable of keeping record of what has been written and greatly enhancing the writing performance of the author.
翻訳日:2024-03-18 23:22:19 公開日:2023-12-07
# IEEE 802.15.4z HRP UWBによるセキュアランキング

Secure Ranging with IEEE 802.15.4z HRP UWB ( http://arxiv.org/abs/2312.03964v1 )

ライセンス: Link先を確認
Xiliang Luo, Cem Kalkanli, Hao Zhou, Pengcheng Zhan, Moche Cohen, (参考訳) セキュリティ範囲(Secure Range)とは、信頼性のある2つのデバイス間の実際の物理的距離を上界する能力である。 これは物理システムをアンロックするなど、様々なアプリケーションで必須である。 本研究では、IEEE 802.15.4z (a.k.a.4z) で規定されている超広帯域インパルス無線 (UWB-IR) の文脈における安全な範囲について検討する。 特に、スクランブルタイムスタンプシーケンス(STS)と呼ばれる暗号化波形は、4zでの動作の高速パルス繰り返し周波数(HRP)モードで定義される。 本研究は, 適切な受信機設計で実装した4z HRPのセキュリティ解析を実証し, STS波形が安全な範囲を確保可能であることを示す。 まず、以前の研究で採用されていたSTSレシーバーをレビューし、セキュリティ上の脆弱性を分析します。 次に,参照STS受信機を提案し,STS波形を4z HRPで使用することにより,セキュアなレンジを実現することができることを示す。 基準安全STS受信機の性能バウンダリも特徴付ける。 数値実験は解析を裏付け、STSレシーバーの安全性を実証する。

Secure ranging refers to the capability of upper-bounding the actual physical distance between two devices with reliability. This is essential in a variety of applications, including to unlock physical systems. In this work, we will look at secure ranging in the context of ultra-wideband impulse radio (UWB-IR) as specified in IEEE 802.15.4z (a.k.a. 4z). In particular, an encrypted waveform, i.e. the scrambled timestamp sequence (STS), is defined in the high rate pulse repetition frequency (HRP) mode of operation in 4z for secure ranging. This work demonstrates the security analysis of 4z HRP when implemented with an adequate receiver design and shows the STS waveform can enable secure ranging. We first review the STS receivers adopted in previous studies and analyze their security vulnerabilities. Then we present a reference STS receiver and prove that secure ranging can be achieved by employing the STS waveform in 4z HRP. The performance bounds of the reference secure STS receiver are also characterized. Numerical experiments corroborate the analyses and demonstrate the security of the reference STS receiver.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# 敵攻撃を伴うDNN加速器におけるML型パワーサイドチャネル攻撃に対する防御

Defense against ML-based Power Side-channel Attacks on DNN Accelerators with Adversarial Attacks ( http://arxiv.org/abs/2312.04035v1 )

ライセンス: Link先を確認
Xiaobei Yan, Chip Hong Chang, Tianwei Zhang, (参考訳) ディープラーニングアプリケーションの効率を高めるために、人工知能(AI)ハードウェアアクセラレータが広く採用されている。 しかし、彼らはまた、パワーサイドチャネルアタック(SCA)に対する脆弱性に関するセキュリティ上の懸念も提起している。 これらの攻撃において、敵は意図しない通信チャネルを利用して、アクセルによって処理された機密情報を推測し、モデルに重大なプライバシーと著作権のリスクを生じさせる。 高度な機械学習アルゴリズムは、サイドチャネル分析を容易にし、AIアクセラレーターのプライバシー問題を悪化させるためにさらに使用される。 従来の防衛戦略は、実行ノイズをAIモデルのランタイムに自然に注入し、必然的に大きなオーバーヘッドを発生させる。 本稿では、FPGAベースのAIアクセラレータを保護し、電力ベースのSCAによるモデル抽出脅威を軽減するための新しい防御手法であるIAShieldを提案する。 AIAShieldの重要な洞察は、機械学習コミュニティの卓越した敵攻撃技術を活用して繊細なノイズを発生させることである。 ハードウェアレベルでは、リング発振器をベースとした、きめ細かいノイズ発生を実現する新しいモジュールを設計する。 アルゴリズムレベルでは、ニューラルネットワークサーチを用いて敵の抽出結果を悪化させる。 Nvidia Deep Learning Accelerator(NVDLA)の大規模な実験は、AIAShieldが既存のソリューションよりも優れた転送性で優れていることを示した。

Artificial Intelligence (AI) hardware accelerators have been widely adopted to enhance the efficiency of deep learning applications. However, they also raise security concerns regarding their vulnerability to power side-channel attacks (SCA). In these attacks, the adversary exploits unintended communication channels to infer sensitive information processed by the accelerator, posing significant privacy and copyright risks to the models. Advanced machine learning algorithms are further employed to facilitate the side-channel analysis and exacerbate the privacy issue of AI accelerators. Traditional defense strategies naively inject execution noise to the runtime of AI models, which inevitably introduce large overheads. In this paper, we present AIAShield, a novel defense methodology to safeguard FPGA-based AI accelerators and mitigate model extraction threats via power-based SCAs. The key insight of AIAShield is to leverage the prominent adversarial attack technique from the machine learning community to craft delicate noise, which can significantly obfuscate the adversary's side-channel observation while incurring minimal overhead to the execution of the protected model. At the hardware level, we design a new module based on ring oscillators to achieve fine-grained noise generation. At the algorithm level, we repurpose Neural Architecture Search to worsen the adversary's extraction results. Extensive experiments on the Nvidia Deep Learning Accelerator (NVDLA) demonstrate that AIAShield outperforms existing solutions with excellent transferability.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# MediHunt:医療用IoTデバイスのためのネットワーク調査フレームワーク

MediHunt: A Network Forensics Framework for Medical IoT Devices ( http://arxiv.org/abs/2312.04096v1 )

ライセンス: Link先を確認
Ayushi Mishra, Tej Kiran Boppana, Priyanka Bagade, (参考訳) メディカル・インターネット・オブ・モノ(MIoT)は、小さなユビキタスな医療機器が相互に通信し、相互接続された医療提供を容易にすることを可能にした。 これらのデバイスはMQTT、Bluetooth、Wi-Fiといった通信プロトコルを使って対話する。 しかし、MIoTデバイスの普及に伴い、これらのネットワークデバイスはサイバー攻撃に弱い。 本稿では,MQTT(Message Queuing Telemetry and Transport)プロトコルに存在する脆弱性に焦点を当てる。 MQTTプロトコルは、システムの機能を傷つける可能性のあるサイバー攻撃の傾向があります。 メモリ制限されたMIoTデバイスは、網羅的なネットワーク調査に必要なすべてのデータログの保存に制限を課している。 本稿では,攻撃をリアルタイムに検出し,それに対応するログを保存し,提案するネットワークフォサイシクスフレームワークであるMediHuntを用いてさらなる分析を行うことにより,データログの可用性の課題を解決する。 機械学習(ML)技術は、サイバー攻撃に対する最も真の保護手段である。 しかしながら、これらのモデルには、トレーニングのためにMQTTベースのIoTシステムに対するさまざまな攻撃をカバーする、特定のデータセットが必要です。 現在利用可能なデータセットには、さまざまなアプリケーションやTCP層アタックが含まれていない。 この問題に対処するために、TCP/IP層とアプリケーション層アタックのためのフローデータを含むフローベースデータセットを使用した。 6つの異なるMLモデルを生成されたデータセットでトレーニングし、リアルタイム攻撃の検出におけるMediHuntフレームワークの有効性を評価する。 F1スコアと検出精度は、私たちのカスタムデータセットで提案されたMediHuntフレームワークの0.99を超えました。

The Medical Internet of Things (MIoT) has enabled small, ubiquitous medical devices to communicate with each other to facilitate interconnected healthcare delivery. These devices interact using communication protocols like MQTT, Bluetooth, and Wi-Fi. However, as MIoT devices proliferate, these networked devices are vulnerable to cyber-attacks. This paper focuses on the vulnerabilities present in the Message Queuing Telemetry and Transport (MQTT) protocol. The MQTT protocol is prone to cyber-attacks that can harm the system's functionality. The memory-constrained MIoT devices enforce a limitation on storing all data logs that are required for comprehensive network forensics. This paper solves the data log availability challenge by detecting the attack in real-time and storing the corresponding logs for further analysis with the proposed network forensics framework: MediHunt. Machine learning (ML) techniques are the most real safeguard against cyber-attacks. However, these models require a specific dataset that covers diverse attacks on the MQTT-based IoT system for training. The currently available datasets do not encompass a variety of applications and TCP layer attacks. To address this issue, we leveraged the usage of a flow-based dataset containing flow data for TCP/IP layer and application layer attacks. Six different ML models are trained with the generated dataset to evaluate the effectiveness of the MediHunt framework in detecting real-time attacks. F1 scores and detection accuracy exceeded 0.99 for the proposed MediHunt framework with our custom dataset.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# メール・エントランスの確保とフィッシング・インフォーメーション・アタックの軽減のための枠組み

A framework for securing email entrances and mitigating phishing impersonation attacks ( http://arxiv.org/abs/2312.04100v1 )

ライセンス: Link先を確認
Peace Nmachi Wosah, (参考訳) メールは毎日コミュニケーションに使われており、多くの国や組織が公式なコミュニケーションにメールを使っている。 日々のビジネスにおいて、秘密の会話やトランザクションに対して高く評価され、認識されています。 多くの場合、このチャンネルの利用と、それを運ぶ情報の質は、サイバー攻撃を惹きつけている。 メールに対する攻撃を緩和するテクニックは数多く存在するが、Eメールのコンテンツや動作に重点を置いており、メールボックス、構成、設定への入り口を確保できない。 この作業は、攻撃者がハッキングされたりハイジャックされたりしたときのアカウントの使用を防止し、被害者のメールアカウントを別のアカウントに転送するのを阻止するため、ユーザーのメール構成と設定を保護することを目的としている。 合成送信ボタンにセキュアなコードを適用してインサイダー偽装攻撃を抑える。 また、パブリックおよびプライベートデバイス上のオープンアプリケーションをセキュアにすること。

Emails are used every day for communication, and many countries and organisations mostly use email for official communications. It is highly valued and recognised for confidential conversations and transactions in day-to-day business. The Often use of this channel and the quality of information it carries attracted cyber attackers to it. There are many existing techniques to mitigate attacks on email, however, the systems are more focused on email content and behaviour and not securing entrances to email boxes, composition, and settings. This work intends to protect users' email composition and settings to prevent attackers from using an account when it gets hacked or hijacked and stop them from setting forwarding on the victim's email account to a different account which automatically stops the user from receiving emails. A secure code is applied to the composition send button to curtail insider impersonation attack. Also, to secure open applications on public and private devices.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# TI-DNS: ブロックチェーンに基づいた信頼性とインセンティブを備えたDNS解決アーキテクチャ

TI-DNS: A Trusted and Incentive DNS Resolution Architecture based on Blockchain ( http://arxiv.org/abs/2312.04114v1 )

ライセンス: Link先を確認
Yufan Fu, Jiuqi Wei, Ying Li, Botao Peng, Xiaodong Li, (参考訳) ドメイン名システム(DNS)は、ドメイン名をIPアドレスに変換する責任を負う、インターネットインフラの重要なコンポーネントである。 しかし、DNSは、攻撃的または違法なコンテンツを表示する悪意のあるウェブサイトにユーザーをリダイレクトするDNSキャッシュ中毒など、悪意のある攻撃に対して脆弱である。 既存の対策は、攻撃抵抗の弱さ、高いオーバーヘッド、あるいは複雑な実装の少なくとも1つの弱点に悩まされることが多い。 これらの課題に対処するために,ブロックチェーンベースのDNS解決アーキテクチャであるTI-DNSを提案する。 TI-DNSは、ブロックチェーン台帳上の検証済みレコードの信頼性を保証するために、マルチリゾルバのQuery Voteメカニズムと、十分な参加を促進するための持分ベースのインセンティブメカニズムを活用する。 重要な点として、TI-DNSは、現在のDNSインフラストラクチャのリゾルバ側にのみ変更を必要とするため、採用が容易である。 最後に,プロトタイプを開発し,代替ソリューションに対して評価する。 その結果、TI-DNSはDNSキャッシュ中毒を効果的かつ効率的に解決することを示した。

Domain Name System (DNS) is a critical component of the Internet infrastructure, responsible for translating domain names into IP addresses. However, DNS is vulnerable to some malicious attacks, including DNS cache poisoning, which redirects users to malicious websites displaying offensive or illegal content. Existing countermeasures often suffer from at least one of the following weakness: weak attack resistance, high overhead, or complex implementation. To address these challenges, this paper presents TI-DNS, a blockchain-based DNS resolution architecture designed to detect and correct the forged DNS records caused by the cache poisoning attacks in the DNS resolution process. TI-DNS leverages a multi-resolver Query Vote mechanism to ensure the credibility of verified records on the blockchain ledger and a stake-based incentive mechanism to promote well-behaved participation. Importantly, TI-DNS is easy to be adopted as it only requires modifications to the resolver side of current DNS infrastructure. Finally, we develop a prototype and evaluate it against alternative solutions. The result demonstrates that TI-DNS effectively and efficiently solves DNS cache poisoning.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# 電子メールを使用したコントラクトワレット

Contract Wallet Using Emails ( http://arxiv.org/abs/2312.04173v1 )

ライセンス: Link先を確認
Sora Suegami, Kyohei Shibano, (参考訳) 我々は、ユーザーが暗号資産を制御できるスマートコントラクトアプリケーションであるコントラクトウォレットの新たな構築を提案しました。 暗号化資産を操作できるのは、鍵を管理する必要なく、メールを送るだけでよい。 これらのメールは、DomainKeys Identified Mailに従って送信者ドメインサーバ(SDS)が生成するデジタル署名とともに、ゼロ知識証明(ZKP)を使用して検証される。 SDSが電子メールを偽造しない限り、暗号資産は提案されたシステムでは安全である。 さらに、既存のSDSは、必ずしも信頼されていないサードパーティに追加の作業をアウトソーシングすることで使用することができる。 このシステムは暗号資産を操作する様々な機能をサポートしている。 そこで我々は,ZKPスキルを使わずに新たな関数を構築できる可変Regex Mapping (VRM) ツールを開発した。 例えば、このツールを使って、ユーザーがUnixwap経由で暗号化資産をEメールでのみ交換できるデモアプリケーションを構築しました。 この論文はhttps://doi.org/10.1109/ICBC56567.2023.10174932で公開されている。

We proposed a new construction for contract wallets, smart contract applications that allow users to control their crypto assets. Users can manipulate their crypto assets by simply sending emails with no need to manage keys. These emails are verified using zero-knowledge proof (ZKP) along with their attached digital signatures that the sender domain server (SDS) generates according to DomainKeys Identified Mail. Unless the SDS forges the emails, the crypto assets remain secure in the proposed system. Moreover, the existing SDSs can be used as is by outsourcing additional work to a third party that is not necessarily trusted. The system supports various functions to manipulate crypto assets. We produced a tool for variable-regex mapping (VRM) that enables developers to build a new function without ZKP skills. For example, using the tool, we built a demo application where users can exchange crypto assets via Uniswap only with emails. The published version of this paper is available at https://doi.org/10.1109/ICBC56567.2023.10174932.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# DPI: 無限データストリーミングのための厳密な微分プライバシーを保証する

DPI: Ensuring Strict Differential Privacy for Infinite Data Streaming ( http://arxiv.org/abs/2312.04738v1 )

ライセンス: Link先を確認
Shuya Feng, Meisam Mohammady, Han Wang, Xiaochen Li, Zhan Qin, Yuan Hong, (参考訳) クラウドソーシング分析、行動研究、リアルタイム監視といったアプリケーションにとって重要なデータストリーミングは、個人にリンクされた大規模で多様なデータのために、プライバシー上の重大なリスクに直面している。 特に、データストリームをリリースするための最近の取り組みでは、厳格なプライバシー概念である差分プライバシー(DP)を使用して、無制限のプライバシー漏洩の問題に直面している。 この課題は、ユーザのすべてのレコードではなく、イベント('event'または$w$-event DP'')を保護するための、限られた時間スロット('finite data stream'')や緩和に限定する。 永続的な課題は、ユーザが多くのアクティビティに貢献し、データ分散が時間とともに進化する状況において、インプットに対する出力の感度を管理することである。 本稿では、無限のデータストリームにおいて、各ユーザのプライバシー漏洩を効果的に束縛し、正確なデータ収集と分析を可能にする、Infinite Disclosure (DPI)上での微分プライベートデータストリーミングのための新しい手法を提案する。 さらに, DPIの精度も, 新規なブースティング機構により最大化する。 最後に、さまざまなストリーミングアプリケーションと実際のデータセット(例えば、COVID-19、ネットワークトラフィック、USDA Production)にわたる広範な実験により、DPIは多様な設定で無限のデータストリームに対して高いユーティリティを維持していることが示された。 DPIのコードはhttps://github.com/ShuyaFeng/DPIで公開されている。

Streaming data, crucial for applications like crowdsourcing analytics, behavior studies, and real-time monitoring, faces significant privacy risks due to the large and diverse data linked to individuals. In particular, recent efforts to release data streams, using the rigorous privacy notion of differential privacy (DP), have encountered issues with unbounded privacy leakage. This challenge limits their applicability to only a finite number of time slots (''finite data stream'') or relaxation to protecting the events (''event or $w$-event DP'') rather than all the records of users. A persistent challenge is managing the sensitivity of outputs to inputs in situations where users contribute many activities and data distributions evolve over time. In this paper, we present a novel technique for Differentially Private data streaming over Infinite disclosure (DPI) that effectively bounds the total privacy leakage of each user in infinite data streams while enabling accurate data collection and analysis. Furthermore, we also maximize the accuracy of DPI via a novel boosting mechanism. Finally, extensive experiments across various streaming applications and real datasets (e.g., COVID-19, Network Traffic, and USDA Production), show that DPI maintains high utility for infinite data streams in diverse settings. Code for DPI is available at https://github.com/ShuyaFeng/DPI.
翻訳日:2024-03-18 12:56:06 公開日:2023-12-07
# 機能内の保留機能:暗黙の神経表現によるステガノグラフィー

Hiding Functions within Functions: Steganography by Implicit Neural Representations ( http://arxiv.org/abs/2312.04743v1 )

ライセンス: Link先を確認
Jia Liu, Peng Luo, Yan Ke, (参考訳) ディープステガノグラフィーは、ディープニューラルネットワークの強力な能力を利用してメッセージを埋め込み、抽出するが、追加のメッセージ抽出装置に依存しているため、ステガナライザーから引き起こされる疑いが増すため、その実用的利用は制限される。 本稿では,インプリシットニューラル表現(INR)を用いてステガノグラフィーを実装したStegaINRを提案する。 StegaINRはシークレット機能をステゴ関数に組み込み、メッセージ抽出器とステゴメディアの両方として機能し、パブリックチャネル上で安全な送信を行う。 シークレット関数からシークレット関数を復元するために共有キーのみを使用する必要があるため、シークレットメッセージを取得することができる。 当社のアプローチでは,さまざまなタイプのメッセージを処理可能な継続的関数を活用しています。 我々の知る限り、これは脳波をステガノグラフィーに導入する最初の試みである。 画像データと気候データを用いて,異なる展開状況下での手法の検証を行った。

Deep steganography utilizes the powerful capabilities of deep neural networks to embed and extract messages, but its reliance on an additional message extractor limits its practical use due to the added suspicion it can raise from steganalyzers. To address this problem, we propose StegaINR, which utilizes Implicit Neural Representation (INR) to implement steganography. StegaINR embeds a secret function into a stego function, which serves as both the message extractor and the stego media for secure transmission on a public channel. Recipients need only use a shared key to recover the secret function from the stego function, allowing them to obtain the secret message. Our approach makes use of continuous functions, enabling it to handle various types of messages. To our knowledge, this is the first work to introduce INR into steganography. We performed evaluations on image and climate data to test our method in different deployment contexts.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-07
# T-SchedulerによるFizzer Seed Scheedingのオッドの改善

Make out like a (Multi-Armed) Bandit: Improving the Odds of Fuzzer Seed Scheduling with T-Scheduler ( http://arxiv.org/abs/2312.04749v1 )

ライセンス: Link先を確認
Simon Luo, Adrian Herrera, Paul Quirk, Michael Chase, Damith C. Ranasinghe, Salil S. Kanhere, (参考訳) Fuzzingは高度にスケール可能なソフトウェアテスト技術であり、変更された入力で実行することでターゲットプログラムのバグを明らかにする。 ファジィングキャンペーンの生涯を通じて、ファジィザーは新たな興味深い標的行動を引き起こすインプットを蓄積し、これらのインプットからさらなる突然変異を誘発する。 これにより、選択するインプットの数が急速に増加し、突然変異に対して「最も有望」なインプットを迅速かつ正確に選択することが困難になる。 強化学習(Reinforcement Learning, RL)は、この「シードスケジューリング」問題に対する自然な解決策を提供する。 しかし、既存のRLアプローチはそうである。 (a)計算コスト(ファザスループットの低減)および/または b) ハイパーパラメータチューニング(ターゲットと入力タイプ間の一般化の低減)が必要である。 そこで本研究では,マルチアームバンディット理論に基づくシードスケジューラであるT-Schedulerを提案する。 ファジィリングの35 CPU yr 以上の T-Scheduler を評価し,11 の最先端スケジューラと比較した。 以上の結果から,T-Schedulerはバグフィンディングとカバレッジ拡張の両方で,これらの11のスケジューラを改善した。

Fuzzing is a highly-scalable software testing technique that uncovers bugs in a target program by executing it with mutated inputs. Over the life of a fuzzing campaign, the fuzzer accumulates inputs inducing new and interesting target behaviors, drawing from these inputs for further mutation. This rapidly results in a large number of inputs to select from, making it challenging to quickly and accurately select the "most promising" input for mutation. Reinforcement learning (RL) provides a natural solution to this "seed scheduling" problem: the fuzzer dynamically adapts its selection strategy by learning from past results. However, existing RL approaches are (a) computationally expensive (reducing fuzzer throughput) and/or (b) require hyperparameter tuning (reducing generality across targets and input types). To this end, we propose T-Scheduler, a seed scheduler built on multi-armed bandit theory that automatically adapts to the target without any hyperparameter tuning. We evaluate T-Scheduler over 35 CPU-yr of fuzzing, comparing it to 11 state-of-the-art schedulers. Our results show that T-Scheduler improves on these 11 schedulers on both bug-finding and coverage-expansion abilities.
翻訳日:2024-03-18 12:46:22 公開日:2023-12-07
# 拡散モデルの分解能クロマトグラフィー

Resolution Chromatography of Diffusion Models ( http://arxiv.org/abs/2401.10247v1 )

ライセンス: Link先を確認
Juno Hwang and Yong-Hyun Park and Junghyo Jo(参考訳) 拡散モデルは反復確率過程を通じて高解像度画像を生成する。 特に、デノージング法(denoising method)は、サンプルのノイズを予測し、各時間ステップごとにデノージングする最も一般的な手法の一つである。 生成したサンプルの分解能は時間とともに変化し、ぼやけて粗くなり、より鋭く微妙になるのが一般的である。 本稿では,各解像度の信号生成率を示す「分解能クロマトグラフィー」を紹介し,この粗大な振る舞いを生成過程で数学的に説明し,ノイズスケジュールの役割を理解し,時間依存変調を設計する上で非常に有用な概念である。 分解能クロマトグラフィーを用いて、特定の時間ステップでどの解像度レベルが支配的になるかを決定し、テキストから画像への拡散モデルを用いて実験的に理論を検証する。 事前学習したモデルを高分解能にスケールアップし,時間に依存したプロンプト構成を行う。 我々の理論は、画像生成を操作するための既存の多くの手法をよりよく理解するだけでなく、より優れたノイズスケジュールを設計する可能性も示唆する。

Diffusion models generate high-resolution images through iterative stochastic processes. In particular, the denoising method is one of the most popular approaches that predicts the noise in samples and denoises it at each time step. It has been commonly observed that the resolution of generated samples changes over time, starting off blurry and coarse, and becoming sharper and finer. In this paper, we introduce "resolution chromatography" that indicates the signal generation rate of each resolution, which is very helpful concept to mathematically explain this coarse-to-fine behavior in generation process, to understand the role of noise schedule, and to design time-dependent modulation. Using resolution chromatography, we determine which resolution level becomes dominant at a specific time step, and experimentally verify our theory with text-to-image diffusion models. We also propose some direct applications utilizing the concept: upscaling pre-trained models to higher resolutions and time-dependent prompt composing. Our theory not only enables a better understanding of numerous pre-existing techniques for manipulating image generation, but also suggests the potential for designing better noise schedules.
翻訳日:2024-02-11 17:48:53 公開日:2023-12-07
# ゲームと社会階層における競争のラッキー、スキル、深さ

Luck, skill, and depth of competition in games and social hierarchies ( http://arxiv.org/abs/2312.04711v1 )

ライセンス: Link先を確認
Maximilian Jerdee, M. E. J. Newman(参考訳) スポーツやゲーム、消費者研究、比較研究、人間と動物の社会階層といったペアワイズコンテストにおける勝利と損失のパターンは、一般に、競合の強さを定量化したり、将来のコンテストの結果を予測するための確率論的モデルを用いて分析される。 ここでは、この手法を一般化して、乱れや運の要素が勝敗につながること、ゲームや階層の複雑さを測定する「競争の深み」変数の2つの追加特徴を組み込む。 結果のモデルを大量のデータセットに合わせることで、ゲーム、スポーツ、社会状況のさまざまな範囲において、深さと運を見積もる。 一般に、社会的競争は「深い」傾向があること、すなわち、明確な階層を持ち、多くの異なるレベルを持つが、しばしば動揺した勝利の可能性がゼロではないこと、つまり支配的な挑戦は重要な下層集団によっても勝つことができる。 対照的に、スポーツやゲームにおける競争は浅い傾向にあり、たいていの場合、階層の浅さによって既に暗示されているものよりも、動揺した勝利の証拠はほとんどない。

Patterns of wins and losses in pairwise contests, such as occur in sports and games, consumer research and paired comparison studies, and human and animal social hierarchies, are commonly analyzed using probabilistic models that allow one to quantify the strength of competitors or predict the outcome of future contests. Here we generalize this approach to incorporate two additional features: an element of randomness or luck that leads to upset wins, and a "depth of competition" variable that measures the complexity of a game or hierarchy. Fitting the resulting model to a large collection of data sets we estimate depth and luck in a range of games, sports, and social situations. In general, we find that social competition tends to be "deep," meaning it has a pronounced hierarchy with many distinct levels, but also that there is often a nonzero chance of an upset victory, meaning that dominance challenges can be won even by significant underdogs. Competition in sports and games, by contrast, tends to be shallow and in most cases there is little evidence of upset wins, beyond those already implied by the shallowness of the hierarchy.
翻訳日:2024-01-15 14:59:29 公開日:2023-12-07
# Llama Guard: LLMベースのヒューマンAI会話のための入出力セーフガード

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations ( http://arxiv.org/abs/2312.06674v1 )

ライセンス: Link先を確認
Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa(参考訳) 我々は,人間-ai会話のユースケースを対象としたllmベースの入出力安全ガードモデルであるllama guardを紹介する。 LLMプロンプト(即時分類)の特定の安全リスクを分類するための貴重なツールである安全リスク分類法を,本モデルに組み込んだ。 この分類は、これらのプロンプトに対してllmsによって生成された応答を分類するのにも役立ちます。 プロンプト分類と応答分類の両方のために,我々は,高品質なデータセットを慎重に収集した。 Llama2-7bモデルであるLlama Guardは、収集したデータセットを命令でチューニングするが、ボリュームが低く、OpenAIモデレーション評価データセットやToxicChatといった既存のベンチマークで強力なパフォーマンスを示している。 Llama Guardは言語モデルとして機能し、多クラス分類を実行し、バイナリ決定スコアを生成する。 さらに、Llama Guardの命令の微調整により、タスクのカスタマイズと出力フォーマットの適応が可能になる。 この機能は、特定のユースケースに合わせて分類カテゴリーの調整を可能にすることや、入力時に多様な分類語でゼロショットまたは少数ショットを促すことなど、モデルの能力を高める。 私たちはLlama Guardモデルウェイトを利用可能にしており、AI安全のためのコミュニティの進化するニーズを満たすために、さらなる開発と適応を研究者に推奨しています。

We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.
翻訳日:2024-01-15 14:51:44 公開日:2023-12-07
# ブラックホールとド・ジッター時空に対する量子時空のコヒーレント状態

Coherent states of quantum spacetimes for black holes and de Sitter spacetime ( http://arxiv.org/abs/2312.06628v1 )

ライセンス: Link先を確認
Diego J. Cirilo-Lombardo (Keldysh Institute of the Russian Academy of Sciences and CONICET-UBA-INFINA), and Norma G. Sanchez (CNRS and The Chalonge - Hector de Vega International School of Astrophysics)(参考訳) 量子時空とその性質を記述するコヒーレント状態に対する群論的アプローチを提案する。 これは、ボソニック座標とフェルミオン座標、その連続状態と離散状態、および時空に対するある種の「量子光学」を持つリーマン空間の計量に対する相対論的枠組みを与える。 本論文の結果は以下のとおりである。 (i)時空はSL(2C) 群の完全被覆の物理的コヒーレント状態、例えばメタプレクティック群 Mp(n) として記述される。 (ii) (離散構造はその二つの既約から生じる: $\textit{even}$$(2n)$ and $\textit{odd}$(2n\;+\;1)\;$表現、$n = 1,\, 2, \,3\,...$ ) 完全なヒルベルト空間$\mathcal{H} = \mathcal{H}_{odd}\oplus \mathcal{H}_{even}$。 このような大域的あるいは複素完備な被覆は、CPT対称性とユニタリ性を保証する。 大きな$n$ は古典多様体と連続多様体をそのまま与える。 (iii)ブラックホールとド・ジッターの量子空間時間のコヒーレントかつスクイーズド状態とウィグナー関数 (iv) 量子空間-虚時(instantons)、特にブラックホールについて。 それらは半古典的時空挙動と高量子位相振動を包含し、特に古典量子重力双対性と超計画領域を考慮に入れる。 プランクスケールは一貫してコヒーレント状態固有値$\alpha = 0$(離散表現における$n = 0$レベル)に対応する。 連続体と離散時空の両方を記述する際、コヒーレント状態の力は顕著である。 量子時空記述は {\it regular} であり、ここではそうでなければならない時空特異性は存在しない。

We provide a group theory approach to coherent states describing quantum space-time and its properties. This provides a relativistic framework for the metric of a Riemmanian space with bosonic and fermionic coordinates, its continuum and discrete states, and a kind of {\it"quantum optics"} for the space-time. {\bf New} results of this paper are: (i) The space-time is described as a physical coherent state of the complete covering of the SL(2C) group, eg the Metaplectic group Mp(n). (ii) (The discrete structure arises from its two irreducible: $\textit{even}$ $(2n)$ and $\textit{odd}$ $(2n\;+\;1)\;$ representations, ($n = 1,\, 2, \,3\,...$ ), spanning the complete Hilbert space $\mathcal{H} = \mathcal{H}_{odd}\oplus \mathcal{H}_{even}$. Such a global or {\it complete} covering guarantees the CPT symmetry and unitarity. Large $n$ yields the classical and continuum manifold, as it must be. (iii) The coherent and squeezed states and Wigner functions of quantum-space-time for black holes and de Sitter, and (iv) for the quantum space-imaginary time (instantons), black holes in particular. They encompass the semiclassical space-time behaviour plus high quantum phase oscillations, and notably account for the classical-quantum gravity duality and trans-Planckian domain. The Planck scale consistently corresponds to the coherent state eigenvalue $\alpha = 0$ (and to the $n = 0$ level in the discrete representation). It is remarkable the power of coherent states in describing both continuum and discrete space-time. The quantum space-time description is {\it regular}, there is no any space-time singularity here, as it must be.
翻訳日:2024-01-15 14:49:25 公開日:2023-12-07
# 大規模マルチモーダルモデルにおけるハイジャックコンテキスト

Hijacking Context in Large Multi-modal Models ( http://arxiv.org/abs/2312.07553v1 )

ライセンス: Link先を確認
Joonhyun Jeong(参考訳) 近年,LMM (Large Multi-modal Models) は画像に関する指示から画像の視覚的内容を理解する能力を示した。 LMMはLarge Language Models (LLMs)に基づいて構築されており、入力プロンプトとして画像とテキストの一貫性のあるシーケンスが与えられるコンテキスト内学習のような能力や特徴を継承する。 しかし,本研究では,意図されたコンテキストではなく,ハイジャックされたコンテキストに関するバイアス出力のみを生成するために,少数の不整合画像やテキスト記述を誤解させるような,既製のLMMの新たな制限を特定する。 そこで本研究では,gpt-4vを介した無関係なコンテキストを,コンテキスト内の分布シフトに対するロバスト性に基づいて除去するプリフィルタ手法を提案する。 さらに,gpt-4vとテキスト・ツー・イメージモデルを用いて,ハイジャックされた視覚とテキストのコンテキストを関連づけたコンテキストに置き換えることにより,コヒーレントな応答が得られるかどうかについても検討する。

Recently, Large Multi-modal Models (LMMs) have demonstrated their ability to understand the visual contents of images given the instructions regarding the images. Built upon the Large Language Models (LLMs), LMMs also inherit their abilities and characteristics such as in-context learning where a coherent sequence of images and texts are given as the input prompt. However, we identify a new limitation of off-the-shelf LMMs where a small fraction of incoherent images or text descriptions mislead LMMs to only generate biased output about the hijacked context, not the originally intended context. To address this, we propose a pre-filtering method that removes irrelevant contexts via GPT-4V, based on its robustness towards distribution shift within the contexts. We further investigate whether replacing the hijacked visual and textual contexts with the correlated ones via GPT-4V and text-to-image models can help yield coherent responses.
翻訳日:2024-01-15 14:36:10 公開日:2023-12-07
# インテント駆動セッションレコメンデーションのための大規模言語モデル

Large Language Models for Intent-Driven Session Recommendations ( http://arxiv.org/abs/2312.07552v1 )

ライセンス: Link先を確認
Zhu Sun, Hongyang Liu, Xinghua Qu, Kaidong Feng, Yan Wang, Yew-Soon Ong(参考訳) インテントアウェアセッションレコメンデーション(isr)は、正確な予測のためにセッション内のユーザインテントを識別する上で重要である。 しかしながら、従来のアプローチでは、すべてのセッションで均一な数の意図が想定されているため、制限に直面しています。 この仮定はユーザセッションの動的性質を見落としており、インテントの数とタイプは著しく異なる可能性がある。 さらに,これらの手法は一般に潜在空間で動作するため,モデルの透明性を損なうため,大規模言語モデル(LLM)の高度な推論機能を活用した新しいISRアプローチを導入する。 まず、このアプローチは、ユーザセッションで現れるさまざまな意図に基づいて、セッション内の次の項目を予測するためにllmをガイドする最初のプロンプトを生成することから始まります。 そして、このプロセスを洗練するために、反復的に自己反射し、プロンプトを調整する革新的なプロンプト最適化機構を導入する。 さらに,LLMの広い適応性に基づいて構築されたプロンプト選択モジュールは,多様な領域にまたがる最も最適化されたプロンプトを迅速に選択する。 この新たなパラダイムは、LLMにさまざまなユーザ意図をセマンティックレベルで識別する権限を与え、より正確で解釈可能なセッションレコメンデーションをもたらす。 3つの実世界のデータセットに関する広範な実験により,本手法の有効性が証明された。

Intent-aware session recommendation (ISR) is pivotal in discerning user intents within sessions for precise predictions. Traditional approaches, however, face limitations due to their presumption of a uniform number of intents across all sessions. This assumption overlooks the dynamic nature of user sessions, where the number and type of intentions can significantly vary. In addition, these methods typically operate in latent spaces, thus hinder the model's transparency.Addressing these challenges, we introduce a novel ISR approach, utilizing the advanced reasoning capabilities of large language models (LLMs). First, this approach begins by generating an initial prompt that guides LLMs to predict the next item in a session, based on the varied intents manifested in user sessions. Then, to refine this process, we introduce an innovative prompt optimization mechanism that iteratively self-reflects and adjusts prompts. Furthermore, our prompt selection module, built upon the LLMs' broad adaptability, swiftly selects the most optimized prompts across diverse domains. This new paradigm empowers LLMs to discern diverse user intents at a semantic level, leading to more accurate and interpretable session recommendations. Our extensive experiments on three real-world datasets demonstrate the effectiveness of our method, marking a significant advancement in ISR systems.
翻訳日:2024-01-15 14:35:52 公開日:2023-12-07
# アレゲニー郡における公共アルゴリズム調査

The Public Algorithms Survey in Allegheny County ( http://arxiv.org/abs/2312.11497v1 )

ライセンス: Link先を確認
Yu-Ru Lin and Beth Schwanke and Rosta Farzan and Bonnie Fan and Motahhare Eslami and Hong Shen and Sarah Fox(参考訳) 本調査は、特にペンシルベニア州アレゲニー郡において、政府部門におけるアルゴリズム的意思決定の使用に関する世論に焦点を当てている。 アルゴリズムは、日常的かつ高い政府の機能を含む、様々な公共ドメインでますます普及している。 利用が増えているにもかかわらず、公衆の感情は相変わらず、プライバシーと正確性に関する懸念は、人間の意思決定と比べて公正さの認識に反する。 2021年4月、約1,500人の郡住民を対象に、これらのアルゴリズムに対する意識、経験、態度を調査する調査が行われた。 この研究は、人種、年齢、教育、性別、収入、都市や郊外の生活といった要因に影響される様々な視点を強調している。 結果は、アルゴリズムガバナンスに対する世論の複雑さを実証し、ポリシーと実装における曖昧な理解とアプローチの必要性を強調した。

This survey study focuses on public opinion regarding the use of algorithmic decision-making in government sectors, specifically in Allegheny County, Pennsylvania. Algorithms are becoming increasingly prevalent in various public domains, including both routine and high-stakes government functions. Despite their growing use, public sentiment remains divided, with concerns about privacy and accuracy juxtaposed against perceptions of fairness when compared to human decision-making. In April 2021, a survey was conducted among nearly 1,500 county residents to explore their awareness, experiences, and attitudes towards these algorithms. The study highlights diverse viewpoints influenced by factors such as race, age, education, gender, income, and urban or suburban living. The results demonstrate the complexity of public sentiment towards algorithmic governance and emphasize the need for a nuanced understanding and approach in policy and implementation.
翻訳日:2024-01-15 13:39:09 公開日:2023-12-07
# 極端検証レイテンシを用いたデータストリーム分類への集団アプローチ

An Evolving Population Approach to Data-Stream Classification with Extreme Verification Latency ( http://arxiv.org/abs/2312.14948v1 )

ライセンス: Link先を確認
Conor Fahy, Shengxiang Yang(参考訳) 非定常データストリームの変更に対する認識と対応は、難しい課題です。 この領域の研究の大多数は、入射点の真のクラスラベルが、ステップごとに、あるいは一部のレイテンシーで断続的に利用可能であると仮定している。 さらに悪いことに、このレイテンシは無限に近づき、最初のトレーニングセット以外にラベルがないと仮定できます。 変更が期待され、さらなるトレーニングラベルが提供されない場合、高い分類精度を維持するという課題は非常に大きい。 課題は、データストリームの根底にある変更に適応しつつ、いくつかのタイムステップを通じて、オリジナルのトレーニング情報を伝達することである。 本稿では,進化する人口ベースのアプローチを変化への適応のメカニズムとして用いることの有効性に関する初期研究を行う。 各クラスごとに1クラス分類器のアンサンブルが維持される。 各分類器はサブポピュレーションのエージェントと見なされ、特徴空間の興味深い領域を見つけるために選択圧力を受ける。 この選択圧力により、アンサンブルはデータストリームの基盤となる変化に対応せざるを得なくなる。

Recognising and reacting to change in non-stationary data-streams is a challenging task. The majority of research in this area assumes that the true class label of incoming points are available, either at each time step or intermittently with some latency. In the worse case this latency approaches infinity and we can assume that no labels are available beyond the initial training set. When change is expected and no further training labels are provided the challenge of maintaining a high classification accuracy is very great. The challenge is to propagate the original training information through several timesteps, possibly indefinitely, while adapting to underlying change in the data-stream. In this paper we conduct an initial study into the effectiveness of using an evolving, population-based approach as the mechanism for adapting to change. An ensemble of one-class-classifiers is maintained for each class. Each classifier is considered as an agent in the sub-population and is subject to selection pressure to find interesting areas of the feature space. This selection pressure forces the ensemble to adapt to the underlying change in the data-stream.
翻訳日:2024-01-15 13:02:19 公開日:2023-12-07
# データ拡張の有害クラスレベル効果の理解

Understanding the Detrimental Class-level Effects of Data Augmentation ( http://arxiv.org/abs/2401.01764v1 )

ライセンス: Link先を確認
Polina Kirichenko, Mark Ibrahim, Randall Balestriero, Diane Bouchacourt, Ramakrishna Vedantam, Hamed Firooz, Andrew Gordon Wilson(参考訳) データ拡張(DA)は不変性を符号化し、画像分類タスクにおけるモデルの性能に重要な暗黙の正規化を提供する。 しかし、DAは平均精度を向上する一方で、最近の研究では、その影響はクラス依存度が高いことが示されている: 最適な平均精度を達成するには、ImageNet上で最大20%の精度で個々のクラス精度を著しく損なうコストがかかる。 これらの効果の理解が限られているため、クラスレベルの精度低下の解消にはほとんど進展がなかった。 本稿では,daがクラスレベルの学習ダイナミクスとどのように相互作用するかを理解するためのフレームワークを提案する。 imagenet上で高品質なマルチラベルアノテーションを使用することで、影響のあるクラスを体系的に分類し、大半は本質的に曖昧、共起、または細かな区別を伴うことを発見し、一方daは関連するクラスの1つに対してモデルのバイアスを制御する。 これまで報告した性能低下の多くはマルチラベルアノテーションによって説明されているが、クラス混乱の解析は、他の精度低下の原因を明らかにしている。 提案手法により,単純なクラス条件強化戦略により,悪影響のあるクラスのパフォーマンスが向上することを示す。

Data augmentation (DA) encodes invariance and provides implicit regularization critical to a model's performance in image classification tasks. However, while DA improves average accuracy, recent studies have shown that its impact can be highly class dependent: achieving optimal average accuracy comes at the cost of significantly hurting individual class accuracy by as much as 20% on ImageNet. There has been little progress in resolving class-level accuracy drops due to a limited understanding of these effects. In this work, we present a framework for understanding how DA interacts with class-level learning dynamics. Using higher-quality multi-label annotations on ImageNet, we systematically categorize the affected classes and find that the majority are inherently ambiguous, co-occur, or involve fine-grained distinctions, while DA controls the model's bias towards one of the closely related classes. While many of the previously reported performance drops are explained by multi-label annotations, our analysis of class confusions reveals other sources of accuracy degradation. We show that simple class-conditional augmentation strategies informed by our framework improve performance on the negatively affected classes.
翻訳日:2024-01-15 09:54:56 公開日:2023-12-07
# 実験的検証による生体内抗体結合予測のためのゼロショットスコーディングの評価

Evaluating Zero-Shot Scoring for In Vitro Antibody Binding Prediction with Experimental Validation ( http://arxiv.org/abs/2312.05273v1 )

ライセンス: Link先を確認
Divya Nori and Simon V. Mathis and Amir Shanehsazzadeh(参考訳) 治療抗体の成功は、抗原を選択的に結合する能力に依存する。 AIベースの抗体設計プロトコルは、エピトープ特有の設計を生成することを約束している。 これらのプロトコルの多くは、バックボーン構造を与えられた多様なシーケンスを生成するために逆折り畳みステップを使用する。 阻害的なスクリーニングコストのため、in vitroで結合する候補配列を特定することが重要である。 本稿では,オープンソースモデルに基づく8つの共通スコアリングパラダイムの有効性を比較し,抗体設計をバインダーや非バインダーとして分類する。 5種類の抗原にまたがる新しい表面プラズモン共鳴(SPR)データセットを用いてこれらのアプローチを評価する。 以上の結果から,既存手法はバインダーの検出に苦慮しており,抗原間では高い変動がみられた。 柔軟にドッキングする抗体-抗原複合体上で計算された指標はより堅牢であり、アンサンブルスコアは個々の指標よりも一貫性がある。 本研究では,従来のスコアリング手法を実験的に分析し,ロバストなゼロショットフィルタの開発が重要な研究ギャップであることを示す。

The success of therapeutic antibodies relies on their ability to selectively bind antigens. AI-based antibody design protocols have shown promise in generating epitope-specific designs. Many of these protocols use an inverse folding step to generate diverse sequences given a backbone structure. Due to prohibitive screening costs, it is key to identify candidate sequences likely to bind in vitro. Here, we compare the efficacy of 8 common scoring paradigms based on open-source models to classify antibody designs as binders or non-binders. We evaluate these approaches on a novel surface plasmon resonance (SPR) dataset, spanning 5 antigens. Our results show that existing methods struggle to detect binders, and performance is highly variable across antigens. We find that metrics computed on flexibly docked antibody-antigen complexes are more robust, and ensembles scores are more consistent than individual metrics. We provide experimental insight to analyze current scoring techniques, highlighting that the development of robust, zero-shot filters is an important research gap.
翻訳日:2023-12-12 21:57:36 公開日:2023-12-07
# stableq: テキストから画像へのデータによるデータスカルス量子化の強化

StableQ: Enhancing Data-Scarce Quantization with Text-to-Image Data ( http://arxiv.org/abs/2312.05272v1 )

ライセンス: Link先を確認
Yuhang Li, Youngeun Kim, Donghyun Lee, Priyadarshini Panda(参考訳) 低ビット量子化はディープニューラルネットワークの効率的なストレージと推論を可能にするが、量子化エラーに対するレジリエンスを維持するためにトレーニングデータを使用する必要がある。 しかし、トレーニングデータはしばしばプライバシーや著作権の懸念にさらされる。 本稿では,トレーニングデータへのアクセスが極めて制限されたり,量子化目的に存在しないデータ化の課題に対処する。 従来のアプローチでは、ダミー画像を反転させるか、合成入力サンプルを生成するために共同で生成モデルを訓練する。 しかし、これらの手法はImageNetのような大規模データセットで複雑なオブジェクトを正確に再現するのに苦労している。 これらの限界を克服するために,高度なテキストから画像への拡散モデルを用いて高分解能なフォトリアリスティックな合成データを生成する新しい手法であるstableqを提案する。 生成したデータの品質を検証するため、2つの堅牢なフィルタリング機構を実装した。 これらのメカニズムは、実際のトレーニングデータの固有特性によく似た画像を選択するように設計されている。 さらに、限られたトレーニングデータが利用可能なシナリオでは、テキストエンコーダに埋め込まれた学習可能なトークンを反転させることで、これらのデータを使用して合成データ生成プロセスをガイドします。 広範な実験結果から,stbaleqはゼロショットと少数ショットの量子化の両方において新しいベンチマークを設定し,従来の手法よりも精度と効率において優れていた。

Though low-bit quantization enables efficient storage and inference of deep neural networks, it often requires the use of training data to maintain resilience against quantization errors. However, training data are frequently subject to privacy or copyright concerns. In this work, we address the challenge of Data-Scarce Quantization, where access to training data is severely limited or non-existent for quantization purposes. Conventional approaches typically rely on inverting dummy images or jointly training generative models to produce synthetic input samples. However, these methods struggle to accurately recreate complex objects in large-scale datasets like ImageNet. To overcome these limitations, we introduce StableQ, a novel method that utilizes an advanced text-to-image diffusion model to generate high-resolution, photo-realistic synthetic data. To verify the quality of the generated data, we implement two robust filtering mechanisms. These mechanisms are designed to select images that closely resemble the intrinsic characteristics of the actual training data. Furthermore, in scenarios where limited training data are available, we use these data to guide the synthetic data generation process by inverting a learnable token embedding in the text encoder. Our extensive experimental results demonstrate that StbaleQ sets a new benchmark in both zero-shot and few-shot quantization, outperforming existing methods in terms of accuracy and efficiency.
翻訳日:2023-12-12 21:57:18 公開日:2023-12-07
# 海上コンピュータビジョンのための画像およびaisデータ融合技術

Image and AIS Data Fusion Technique for Maritime Computer Vision Applications ( http://arxiv.org/abs/2312.05270v1 )

ライセンス: Link先を確認
Emre G\"ulsoylu, Paul Koch, Mert Y{\i}ld{\i}z, Manfred Constapel and Andr\'e Peter Kelm(参考訳) YOLOv5のような深層学習オブジェクト検出法は海洋船の識別に有効であるが、実用上重要な詳細な情報がないことが多い。 本稿では,画像に検出された容器と自動識別システム(ais)データを融合してデータセットを作成する手法を開発した。 この融合により、船舶の画像には船体、サイズ、速度、方向などのデータが含まれる。 提案手法は, 固定および周期的なパンニングカメラに適したホモグラフィー法を用いて, 距離と方位を推定することにより, 検出した船舶を対応するAISメッセージに関連付ける。 この技術は、水路交通管理、遭遇検知、監視のためのデータセットを作成するのに有用である。 各種気象条件で撮影した画像と対応するAISメッセージからなる新しいデータセットを提案する。 このデータセットは、船舶検出アルゴリズムと軌道予測モデルを精錬するための安定したベースラインを提供する。 提案手法の性能を評価するため,このデータセットの一部を手動で注釈付けした。 その結果、全体の関連精度は74.76 %となり、固定カメラの関連精度は85.06 %に達した。 これは、血管検出、ポーズ推定、自動ラベリングパイプラインのためのデータセットを作成する際のアプローチの可能性を示しています。

Deep learning object detection methods, like YOLOv5, are effective in identifying maritime vessels but often lack detailed information important for practical applications. In this paper, we addressed this problem by developing a technique that fuses Automatic Identification System (AIS) data with vessels detected in images to create datasets. This fusion enriches ship images with vessel-related data, such as type, size, speed, and direction. Our approach associates detected ships to their corresponding AIS messages by estimating distance and azimuth using a homography-based method suitable for both fixed and periodically panning cameras. This technique is useful for creating datasets for waterway traffic management, encounter detection, and surveillance. We introduce a novel dataset comprising of images taken in various weather conditions and their corresponding AIS messages. This dataset offers a stable baseline for refining vessel detection algorithms and trajectory prediction models. To assess our method's performance, we manually annotated a portion of this dataset. The results are showing an overall association accuracy of 74.76 %, with the association accuracy for fixed cameras reaching 85.06 %. This demonstrates the potential of our approach in creating datasets for vessel detection, pose estimation and auto-labelling pipelines.
翻訳日:2023-12-12 21:56:54 公開日:2023-12-07
# LifelongMemory:エゴセントリックなビデオの問合せにLLMを活用する

LifelongMemory: Leveraging LLMs for Answering Queries in Egocentric Videos ( http://arxiv.org/abs/2312.05269v1 )

ライセンス: Link先を確認
Ying Wang, Yanlai Yang, Mengye Ren(参考訳) エゴセントリックなビデオ自然言語クエリ(NLQ)タスクでは、パーソナライズされたAIアシスタントの構築に幅広い応用がある、ポーズ付きクエリに対する回答を提供する、エゴセントリックなビデオ内の時間ウィンドウをローカライズする。 このタスクの以前の方法は、ネットワークアーキテクチャの改善と、画像とビデオの機能強化のための事前トレーニングの活用に重点を置いていたが、長いビデオの長距離時間依存性のキャプチャや、面倒なエンドツーエンドトレーニングに苦労していた。 近年の大規模言語モデル(llm)と視覚言語モデルの発展に動機づけられ,複数の事前学習モデルを用いて,多岐にわたる自発的ビデオコンテンツからの問い合わせに答える新しいフレームワークであるlifelongmemoryを導入した。 トレーニング済みのキャプションモデルを用いて、ビデオの詳細な物語を作成することで、ユニークな課題に対処する。 これらの物語は、凍結したllmに粗い粒度の時間窓予測を促すために使われ、その後、事前訓練されたnlqモデルを用いて洗練される。 実験により,本手法は既存の教師付きエンドツーエンド学習手法と競合し,複数の事前学習された多モーダル大規模言語モデルを複雑な視覚言語タスクに統合する可能性を示す。 パイプラインにおける重要な設計決定とハイパーパラメータを包括的に分析し、洞察と実践的なガイドラインを提供します。

The egocentric video natural language query (NLQ) task involves localizing a temporal window in an egocentric video that provides an answer to a posed query, which has wide applications in building personalized AI assistants. Prior methods for this task have focused on improvements of network architecture and leveraging pre-training for enhanced image and video features, but have struggled with capturing long-range temporal dependencies in lengthy videos, and cumbersome end-to-end training. Motivated by recent advancements in Large Language Models (LLMs) and vision language models, we introduce LifelongMemory, a novel framework that utilizes multiple pre-trained models to answer queries from extensive egocentric video content. We address the unique challenge by employing a pre-trained captioning model to create detailed narratives of the videos. These narratives are then used to prompt a frozen LLM to generate coarse-grained temporal window predictions, which are subsequently refined using a pre-trained NLQ model. Empirical results demonstrate that our method achieves competitive performance against existing supervised end-to-end learning methods, underlining the potential of integrating multiple pre-trained multimodal large language models in complex vision-language tasks. We provide a comprehensive analysis of key design decisions and hyperparameters in our pipeline, offering insights and practical guidelines.
翻訳日:2023-12-12 21:56:34 公開日:2023-12-07
# 建設環境と誘導輸送CO2排出量:住宅自選を考慮した二重機械学習アプローチ

The built environment and induced transport CO2 emissions: A double machine learning approach to account for residential self-selection ( http://arxiv.org/abs/2312.06616v1 )

ライセンス: Link先を確認
Florian Nachtigall, Felix Wagner, Peter Berrill and Felix Creutzig(参考訳) 都市と郊外の住民の移動行動がなぜ異なるのかを理解することは、持続可能な都市計画の鍵である。 特に急速な都市成長に照らして、旅行需要を最小化しco2排出量を発生させる住宅地を特定することは、気候変動の緩和に不可欠である。 建設環境は重要な役割を担っているが、旅行行動に対する正確な影響は住宅の自己選択によって隠蔽される。 そこで本研究では, 住宅の自己選択を制御し, 建設環境が各地区のco2排出量に与える影響を非偏り空間的に推定する二重機械学習手法を提案する。 本研究では,社会デマトグラフィーと旅行関連態度が,建築環境の5次元にわたってどのように分解するかを検討する。 ベルリンのケーススタディと32,000人の住民の旅行日記から、建設された環境は、ベルリンの中央地区と郊外地区のほぼ2つの要因で家庭の旅行関連CO2排出量が異なることが判明した。 都市部における温暖化対策の実際的重要性を明らかにするため, 総輸送量CO2排出量の観点から, 64,000戸の新規住宅計画を評価する。 本研究は,輸送セクターを脱炭する空間的に分化したコンパクトな開発の重要性を浮き彫りにした。

Understanding why travel behavior differs between residents of urban centers and suburbs is key to sustainable urban planning. Especially in light of rapid urban growth, identifying housing locations that minimize travel demand and induced CO2 emissions is crucial to mitigate climate change. While the built environment plays an important role, the precise impact on travel behavior is obfuscated by residential self-selection. To address this issue, we propose a double machine learning approach to obtain unbiased, spatially-explicit estimates of the effect of the built environment on travel-related CO2 emissions for each neighborhood by controlling for residential self-selection. We examine how socio-demographics and travel-related attitudes moderate the effect and how it decomposes across the 5Ds of the built environment. Based on a case study for Berlin and the travel diaries of 32,000 residents, we find that the built environment causes household travel-related CO2 emissions to differ by a factor of almost two between central and suburban neighborhoods in Berlin. To highlight the practical importance for urban climate mitigation, we evaluate current plans for 64,000 new residential units in terms of total induced transport CO2 emissions. Our findings underscore the significance of spatially differentiated compact development to decarbonize the transport sector.
翻訳日:2023-12-12 14:18:14 公開日:2023-12-07
# 擬似付加モデルと構造化相互作用によるセンサスサーベイ応答率の予測

Predicting Census Survey Response Rates With Parsimonious Additive Models and Structured Interactions ( http://arxiv.org/abs/2108.11328v4 )

ライセンス: Link先を確認
Shibal Ibrahim, Peter Radchenko, Emanuel Ben-David, Rahul Mazumder(参考訳) 本稿では, フレキシブルかつ解釈可能な非パラメトリックモデル群を用いて, アンケート応答率の予測問題について考察する。 この研究は、米国国勢調査局のよく知られたroamアプリケーションによって動機付けられたもので、米国の国勢調査計画データベースデータに基づいてトレーニングされた線形回帰モデルを使用して、サーベイエリアを特定する。 10年ほど前に組織されたクラウドソーシングコンペ(erdman and bates, 2016)では、回帰木のアンサンブルに基づく機械学習手法が、調査応答率の予測に最適な結果をもたらしたが、ブラックボックスの性質のため、対応するモデルは対象とするアプリケーションに採用できなかった。 我々は、$\ell_0$-based penalization を用いて、主対相互作用効果の少ない非パラメトリック加法モデルを考える。 方法論的観点からは, 計算的側面と統計的側面の両方について検討し, 強い階層的相互作用を組み込んだ変種について考察する。 我々のアルゴリズム(githubでオープンソース化)は、我々が検討しているアプリケーションに関連するデータセットを処理できるように、スパース付加モデルのための既存のアルゴリズムの計算的フロンティアを拡張します。 本モデルから得られた知見について,米国国勢調査計画データベース上で議論し,解釈する。 解釈可能性の観点からの有用性に加えて、私たちのモデルは、勾配向上とフィードフォワードニューラルネットワークに基づく一般的なブラックボックス機械学習手法よりも優れていると思われる予測につながります。

In this paper we consider the problem of predicting survey response rates using a family of flexible and interpretable nonparametric models. The study is motivated by the US Census Bureau's well-known ROAM application which uses a linear regression model trained on the US Census Planning Database data to identify hard-to-survey areas. A crowdsourcing competition (Erdman and Bates, 2016) organized around ten years ago revealed that machine learning methods based on ensembles of regression trees led to the best performance in predicting survey response rates; however, the corresponding models could not be adopted for the intended application due to their black-box nature. We consider nonparametric additive models with small number of main and pairwise interaction effects using $\ell_0$-based penalization. From a methodological viewpoint, we study both computational and statistical aspects of our estimator; and discuss variants that incorporate strong hierarchical interactions. Our algorithms (opensourced on github) extend the computational frontiers of existing algorithms for sparse additive models, to be able to handle datasets relevant for the application we consider. We discuss and interpret findings from our model on the US Census Planning Database. In addition to being useful from an interpretability standpoint, our models lead to predictions that appear to be better than popular black-box machine learning methods based on gradient boosting and feedforward neural networks - suggesting that it is possible to have models that have the best of both worlds: good model accuracy and interpretability.
翻訳日:2023-12-11 19:46:36 公開日:2023-12-07
# 認知的注意ネットワークを用いた解釈可能な視覚理解

Interpretable Visual Understanding with Cognitive Attention Network ( http://arxiv.org/abs/2108.02924v3 )

ライセンス: Link先を確認
Xuejiao Tang, Wenbin Zhang, Yi Yu, Kea Turner, Tyler Derr, Mengyu Wang and Eirini Ntoutsi(参考訳) 認識レベルの画像理解は飛躍的な進歩を遂げているが、信頼性の高い視覚シーン理解には認識レベルでの総合的な画像理解が必要であるだけでなく、多元情報の活用を求める認知レベルも必要となる。 本稿では,視覚コモンセンス推論のための新しい認知的注意ネットワーク(can)を提案する。 具体的には,まず画像とテキストから情報を融合するイメージテキスト融合モジュールを導入する。 第二に、画像、クエリ、レスポンスのコモンセンスを符号化する新しい推論モジュールが設計されている。 大規模visual commonsense reasoning(vcr)ベンチマークデータセットに関する広範な実験により,本手法の有効性が示された。 実装はhttps://github.com/tanjatang/CANで公開されている。

While image understanding on recognition-level has achieved remarkable advancements, reliable visual scene understanding requires comprehensive image understanding on recognition-level but also cognition-level, which calls for exploiting the multi-source information as well as learning different levels of understanding and extensive commonsense knowledge. In this paper, we propose a novel Cognitive Attention Network (CAN) for visual commonsense reasoning to achieve interpretable visual understanding. Specifically, we first introduce an image-text fusion module to fuse information from images and text collectively. Second, a novel inference module is designed to encode commonsense among image, query and response. Extensive experiments on large-scale Visual Commonsense Reasoning (VCR) benchmark dataset demonstrate the effectiveness of our approach. The implementation is publicly available at https://github.com/tanjatang/CAN
翻訳日:2023-12-11 19:46:09 公開日:2023-12-07
# 動的作業記憶を用いた認知視覚コモンセンス推論

Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory ( http://arxiv.org/abs/2107.01671v4 )

ライセンス: Link先を確認
Xuejiao Tang, Xin Huang, Wenbin Zhang, Travers B. Child, Qiong Hu, Zhen Liu and Ji Zhang(参考訳) Visual Commonsense Reasoning (VCR) は、質問画像入力によって、対応する合理的な答えを予測する。 vcrは、視覚質問応答、自動車両システム、臨床判断サポートなど、幅広いアプリケーションを備えた、最近導入されたビジュアルシーン理解タスクである。 VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。 しかし、これらのアプローチは一般化可能性と事前知識の欠如に苦しむ。 本稿では,文間の累積コモンセンスを格納し,推論のための事前知識を提供する動的作業記憶型認知vcrネットワークを提案する。 広範な実験により、提案モデルがベンチマークvcrデータセットの既存の方法を大幅に改善できることが示されている。 さらに,提案モデルは視覚的コモンセンス推論の直感的な解釈を提供する。 私たちのメカニズムのPython実装はhttps://github.com/tanjatang/DMVCRで公開されています。

Visual Commonsense Reasoning (VCR) predicts an answer with corresponding rationale, given a question-image input. VCR is a recently introduced visual scene understanding task with a wide range of applications, including visual question answering, automated vehicle systems, and clinical decision support. Previous approaches to solving the VCR task generally rely on pre-training or exploiting memory with long dependency relationship encoded models. However, these approaches suffer from a lack of generalizability and prior knowledge. In this paper we propose a dynamic working memory based cognitive VCR network, which stores accumulated commonsense between sentences to provide prior knowledge for inference. Extensive experiments show that the proposed model yields significant improvements over existing methods on the benchmark VCR dataset. Moreover, the proposed model provides intuitive interpretation into visual commonsense reasoning. A Python implementation of our mechanism is publicly available at https://github.com/tanjatang/DMVCR
翻訳日:2023-12-11 19:45:56 公開日:2023-12-07
# 責任ネットワークによる責任管理

Responsibility Management through Responsibility Networks ( http://arxiv.org/abs/2102.07246v3 )

ライセンス: Link先を確認
Ruijun Chen, Jiong Qiu and Xuejiao Tang(参考訳) 安全管理は職場において極めて重要である。 残念ながら、非効率な監督、低い評価、不十分な認識といった責任の問題が適切に対処されていない。 そこで本稿では,責任管理のための責任のインターネット(internet of responsibility, ior)を展開する。 iorフレームワークの構築、階層的責任管理、あらゆるレベルでの自動責任評価、効率的な責任認識を実現している。 IoRシステムの実践的展開は、様々な職場で効果的な責任管理能力を示した。

The safety management is critically important in the workplace. Unfortunately, responsibility issues therein such as inefficient supervision, poor evaluation and inadequate perception have not been properly addressed. To this end, in this paper, we deploy the Internet of Responsibilities (IoR) for responsibility management. Through the building of IoR framework, hierarchical responsibility management, automated responsibility evaluation at all level and efficient responsibility perception are achieved. The practical deployment of IoR system showed its effective responsibility management capability in various workplaces.
翻訳日:2023-12-11 19:45:42 公開日:2023-12-07
# スキルの低い作業は高いプレッシャーに直面する

Low-skilled Occupations Face the Highest Upskilling Pressure ( http://arxiv.org/abs/2101.11505v4 )

ライセンス: Link先を確認
Di Tong (Massachusetts Institute of Technology), Lingfei Wu (University of Pittsburgh), James Allen Evans (University of Chicago)(参考訳) 実質的な奨学金は、仕事の自動化に対する感受性を推定しているが、仕事全体を排除するのではなく、必要なスキルをシフトさせ、タスクに代わる新しい技術として、情報時代における仕事の内容がどのように進化するかについてはほとんど調査されていない。 ここでは,職業スキルの変化のパターンと結果について検討し,職業と労働者を最も高い再スキルプレッシャーに特徴づける。 最近の研究によると、スキル要件の変更はSTEMの職業にとって最大である。 しかし、過去10年間で727人の職業をカバーしたオンライン求人数16700万件を分析したところ、スキル間の距離を考慮に入れた場合、スキル回復のプレッシャーが最も高いことが判明した。 さらに, 雇用者と市場規模, 社会集団間のスキル変化の違いについて検討し, これらの差異が経済格差を拡げる傾向がみられた。 大企業の雇用主や市場からの雇用は、小規模の雇用主や市場に比べて変化が少なく、非白人の低熟練労働者は人口統計学的に脆弱である。 我々は、スキル埋め込み空間を用いたマシン・インタフェース統合に向けたジョブ進化を正確に表すモデルの可能性を示す。

Substantial scholarship has estimated the susceptibility of jobs to automation, but little has examined how job contents evolve in the information age as new technologies substitute for tasks, shifting required skills rather than eliminating entire jobs. Here we explore patterns and consequences of changes in occupational skill and characterize occupations and workers subject to the greatest re-skilling pressure. Recent work found that changing skill requirements are greatest for STEM occupations. Nevertheless, analyzing 167 million online job posts covering 727 occupations over the last decade, we find that re-skilling pressure is greatest for low-skilled occupations when accounting for distance between skills. We further investigate the differences in skill change across employer and market size, as well as social demographic groups, and find that these differences tend to widen the economic divide. Jobs from large employers and markets experienced less change relative to small employers and markets, and non-white workers in low-skilled jobs are most demographically vulnerable. We conclude by showcasing our model's potential to precisely chart job evolution towards machine-interface integration using skill embedding spaces.
翻訳日:2023-12-11 19:45:37 公開日:2023-12-07
# 集中型およびローカル差分プライバシー下のデータストリームの継続的リリース

Continuous Release of Data Streams under both Centralized and Local Differential Privacy ( http://arxiv.org/abs/2005.11753v2 )

ライセンス: Link先を確認
Tianhao Wang, Joann Qiongna Chen, Zhikun Zhang, Dong Su, Yueqiang Cheng, Zhou Li, Ninghui Li, Somesh Jha(参考訳) 本稿では,差分プライバシ(DP)を満たす実数値データのストリームを公開する際の問題点について検討する。 1つの大きな課題は、最大可能な値は非常に大きいため、全てのデータに必要なノイズの量を減らすために、その上の数値が切り詰められるように閾値を推定する必要があることである。 見積もりはプライベートな方法でデータに基づいて行われなければならない。 我々は,低感度を維持しつつ,実用目的をよく近似する品質関数を備えた指数関数を用いた手法を開発した。 そこで本研究では,新たなオンライン階層化手法とポストプロセッシング手法を提案する。 これらのアイデアに基づいて、ストリームデータのプライベートパブリッシングのためのフレームワークへのステップを形式化します。 本フレームワークは,しきい値をプライベートに推定するしきい値オプティマイザ,ストリームに校正ノイズを付加する摂動器,後処理による結果を改善するスムーズなスムーズな3つのコンポーネントから構成される。 本フレームワークでは,ローカルDP(LDP)と呼ばれるDPのより厳密な設定を満たすアルゴリズムを設計する。 我々の知る限り、これはストリーミングデータをパブリッシュする最初の LDP アルゴリズムである。 4つの実世界のデータセットを用いて,本機構が実用性の観点から6~10桁の桁数で最先端を上回っていることを実証する(ランダムレンジクエリに応答する平均二乗誤差による)。

In this paper, we study the problem of publishing a stream of real-valued data satisfying differential privacy (DP). One major challenge is that the maximal possible value can be quite large; thus it is necessary to estimate a threshold so that numbers above it are truncated to reduce the amount of noise that is required to all the data. The estimation must be done based on the data in a private fashion. We develop such a method that uses the Exponential Mechanism with a quality function that approximates well the utility goal while maintaining a low sensitivity. Given the threshold, we then propose a novel online hierarchical method and several post-processing techniques. Building on these ideas, we formalize the steps into a framework for private publishing of stream data. Our framework consists of three components: a threshold optimizer that privately estimates the threshold, a perturber that adds calibrated noises to the stream, and a smoother that improves the result using post-processing. Within our framework, we design an algorithm satisfying the more stringent setting of DP called local DP (LDP). To our knowledge, this is the first LDP algorithm for publishing streaming data. Using four real-world datasets, we demonstrate that our mechanism outperforms the state-of-the-art by a factor of 6-10 orders of magnitude in terms of utility (measured by the mean squared error of answering a random range query).
翻訳日:2023-12-11 19:45:00 公開日:2023-12-07
# 量子制御のための物理インフォームドニューラルネットワーク

Physics-informed neural networks for quantum control ( http://arxiv.org/abs/2206.06287v2 )

ライセンス: Link先を確認
Ariel Norambuena, Marios Mattheakis, Francisco J. Gonz\'alez and Ra\'ul Coto(参考訳) 量子制御はユビキタスな研究分野であり、物理学者は量子システムのダイナミクスと特徴を掘り下げ、様々な原子、光学、機械、固体系に強力な応用を提供することができる。 近年,最適化プロセスに基づく従来の制御技術が,効率的な人工知能アルゴリズムに変換されている。 本稿では,物理インフォームドニューラルネットワーク(PINN)を用いた最適量子制御問題の計算手法を提案する。 我々は,高確率,短時間の進化,低エネルギー消費制御を用いた状態間移動問題を効率的に解き,量子システムを開放する手法を適用した。 さらに,ピンの柔軟性を,物理パラメータや初期条件の変化によって解決し,標準制御手法と比較した場合の利点を示す。

Quantum control is a ubiquitous research field that has enabled physicists to delve into the dynamics and features of quantum systems, delivering powerful applications for various atomic, optical, mechanical, and solid-state systems. In recent years, traditional control techniques based on optimization processes have been translated into efficient artificial intelligence algorithms. Here, we introduce a computational method for optimal quantum control problems via physics-informed neural networks (PINNs). We apply our methodology to open quantum systems by efficiently solving the state-to-state transfer problem with high probabilities, short-time evolution, and using low-energy consumption controls. Furthermore, we illustrate the flexibility of PINNs to solve the same problem under changes in physical parameters and initial conditions, showing advantages in comparison with standard control techniques.
翻訳日:2023-12-11 19:39:01 公開日:2023-12-07
# 熱力学的相関不等式

Thermodynamic correlation inequality ( http://arxiv.org/abs/2301.03060v4 )

ライセンス: Link先を確認
Yoshihiko Hasegawa(参考訳) トレードオフ関係は、物理システムが実行できる操作に基本的な制限を課す。 このレターはマルコフ過程において、システムの現在の状態と将来の状態の関係を測定する相関関数を束縛するトレードオフ関係を示す。 得られた境界は、熱力学的相関不等式と呼ばれ、相関関数の変化は、マルコフ過程の活性の熱力学的測度である力学活性からなる上界を有する。 さらに, 得られた関係を線形応答関数に適用することにより, 摂動の効果を動的活動によって上から境界づけることができることを示した。

Trade-off relations place fundamental limits on the operations that physical systems can perform. This Letter presents a trade-off relation that bounds the correlation function, which measures the relationship between a system's current and future states, in Markov processes. The obtained bound, referred to as the thermodynamic correlation inequality, states that the change in the correlation function has an upper bound comprising the dynamical activity, a thermodynamic measure of the activity of a Markov process. Moreover, by applying the obtained relation to the linear response function, it is demonstrated that the effect of perturbation can be bounded from above by the dynamical activity.
翻訳日:2023-12-11 19:28:05 公開日:2023-12-07
# テトラジフフュージョン:3次元形状生成のための四面体拡散モデル

TetraDiffusion: Tetrahedral Diffusion Models for 3D Shape Generation ( http://arxiv.org/abs/2211.13220v2 )

ライセンス: Link先を確認
Nikolai Kalischek, Torben Peters, Jan D. Wegner, Konrad Schindler(参考訳) 確率的退化拡散モデル (DDM) は2次元画像生成の新しい標準を定めている。 3次元コンテンツ作成のためのDDMの拡張は、研究の活発な分野である。 本稿では, 3次元空間を四面体分割した拡散モデルTetraDiffusionを提案し, 効率よく高分解能な3次元形状生成を実現する。 本モデルは,四面体分割に直接作用する畳み込みおよび畳み込み演算子を導入し,色などの付加属性をシームレスに含む。 驚くべきことに、tetradiffusionは、前例のない解像度で、ほぼリアルタイムで詳細な3dオブジェクトを素早くサンプリングできる。 また、2D画像に条件付けされた3D形状の生成にも適しています。 既存の3dメッシュ拡散技術と比較して,推定速度は最大200倍高速で,標準的なコンシューマハードウェア上で動作し,優れた結果が得られる。

Probabilistic denoising diffusion models (DDMs) have set a new standard for 2D image generation. Extending DDMs for 3D content creation is an active field of research. Here, we propose TetraDiffusion, a diffusion model that operates on a tetrahedral partitioning of 3D space to enable efficient, high-resolution 3D shape generation. Our model introduces operators for convolution and transpose convolution that act directly on the tetrahedral partition, and seamlessly includes additional attributes such as color. Remarkably, TetraDiffusion enables rapid sampling of detailed 3D objects in nearly real-time with unprecedented resolution. It's also adaptable for generating 3D shapes conditioned on 2D images. Compared to existing 3D mesh diffusion techniques, our method is up to 200 times faster in inference speed, works on standard consumer hardware, and delivers superior results.
翻訳日:2023-12-11 19:27:04 公開日:2023-12-07
# 人工知能の公正性とバイアス:情報源、影響、緩和戦略の簡単な調査

Fairness And Bias in Artificial Intelligence: A Brief Survey of Sources, Impacts, And Mitigation Strategies ( http://arxiv.org/abs/2304.07683v2 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) 人工知能(AI)を医療の意思決定、診断、その他の領域に適用する大きな進歩は、AIシステムの公平性と偏見を同時に懸念している。 これは、医療、雇用、刑事司法、信用スコアリングなどの分野において特に重要であり、さらに、合成メディアを生成する生成AIモデル(GenAI)においても重要である。 このようなシステムは不公平な結果をもたらし、合成データ中の個人の表現に影響を与える生成バイアスを含む既存の不平等を永続させる。 この調査論文は、AIにおける公正さと偏見の簡潔で包括的な概要を提供し、そのソース、影響、緩和戦略に対処する。 データ、アルゴリズム、人間の決定バイアスといったバイアスの源泉をレビューし、モデルが社会的ステレオタイプを再現し増幅する生成AIバイアスの創発的な問題を強調します。 我々は偏りのあるAIシステムの社会的影響を評価し、不平等の不平等の永続性と有害なステレオタイプの強化に焦点を当てた。 我々は,様々な緩和戦略を検討し,その実施の倫理的考察を議論し,効果的性を確保するための学際的連携の必要性を強調する。 複数の学術分野にまたがる体系的な文献レビューを通じて、生成的AIバイアスの詳細な考察を含む、AIバイアスとその種類の定義を示す。 我々は、AIバイアスが個人や社会に与える影響について論じ、データ前処理、モデル選択、後処理を含む、AIバイアスを軽減する現在のアプローチの概要を提供する。 我々は、生成AIモデルによって提示されるユニークな課題と、これらに対処するための戦略の重要性を強調します。

The significant advancements in applying Artificial Intelligence (AI) to healthcare decision-making, medical diagnosis, and other domains have simultaneously raised concerns about the fairness and bias of AI systems. This is particularly critical in areas like healthcare, employment, criminal justice, credit scoring, and increasingly, in generative AI models (GenAI) that produce synthetic media. Such systems can lead to unfair outcomes and perpetuate existing inequalities, including generative biases that affect the representation of individuals in synthetic data. This survey paper offers a succinct, comprehensive overview of fairness and bias in AI, addressing their sources, impacts, and mitigation strategies. We review sources of bias, such as data, algorithm, and human decision biases - highlighting the emergent issue of generative AI bias where models may reproduce and amplify societal stereotypes. We assess the societal impact of biased AI systems, focusing on the perpetuation of inequalities and the reinforcement of harmful stereotypes, especially as generative AI becomes more prevalent in creating content that influences public perception. We explore various proposed mitigation strategies, discussing the ethical considerations of their implementation and emphasizing the need for interdisciplinary collaboration to ensure effectiveness. Through a systematic literature review spanning multiple academic disciplines, we present definitions of AI bias and its different types, including a detailed look at generative AI bias. We discuss the negative impacts of AI bias on individuals and society and provide an overview of current approaches to mitigate AI bias, including data pre-processing, model selection, and post-processing. We emphasize the unique challenges presented by generative AI models and the importance of strategies specifically tailored to address these.
翻訳日:2023-12-11 19:15:53 公開日:2023-12-07
# 量子球面符号

Quantum spherical codes ( http://arxiv.org/abs/2302.11593v2 )

ライセンス: Link先を確認
Shubham P. Jain and Joseph T. Iosue and Alexander Barg and Victor V. Albert(参考訳) 球面上で定義された量子コードを構築するためのフレームワークを,古典的な球面符号の量子類似体として再キャストする。 我々はこの枠組みをボソニック符号化に適用し、同様のオーバーヘッドを伴いながら、以前の構成より優れている猫符号のマルチモード拡張を得る。 ポリトープをベースとする猫符号は,大きな分離点を持つ点の集合からなり,同時に球面設計として知られる平均集合を形成する。 私たちはまた、cssコードと猫コードとの結合を量子球面符号として再キャストし、ノイズの強調から自律的に保護する新しい方法を明らかにしました。

We introduce a framework for constructing quantum codes defined on spheres by recasting such codes as quantum analogues of the classical spherical codes. We apply this framework to bosonic coding, obtaining multimode extensions of the cat codes that can outperform previous constructions while requiring a similar type of overhead. Our polytope-based cat codes consist of sets of points with large separation that at the same time form averaging sets known as spherical designs. We also recast concatenations of CSS codes with cat codes as quantum spherical codes, revealing a new way to autonomously protect against dephasing noise.
翻訳日:2023-12-11 19:12:36 公開日:2023-12-07
# LLMは社会的知識を理解するか? SocKETベンチマークによる大規模言語モデルの妥当性評価

Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark ( http://arxiv.org/abs/2305.14938v2 )

ライセンス: Link先を確認
Minje Choi, Jiaxin Pei, Sagar Kumar, Chang Shu and David Jurgens(参考訳) 大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。 LLMは、人間と対話する会話エージェントを含む多くの形式で展開されているが、LLMがいかにしてtextit{social}言語を理解するかを測定するための基礎的なベンチマークは欠如している。 ここでは,社会知識をテストする58のnlpタスクを含む新たな理論駆動ベンチマークsocketを紹介し,ユーモアと皮肉,攻撃性,感情と感情,信頼性の5つのカテゴリに分類した。 ベンチマークテストでは、現在のモデルが適度な性能しか得られず、理論から予測された様々なタスクの種類やカテゴリ間のタスク転送の可能性を示す。 ゼロショット評価を通じて,事前トレーニングされたモデルには,ソーシャル言語理解と1つのタスクでのトレーニングが,ゼロショットテストの他に対する改善に役立つことを示す。 我々のベンチマークは、言語の重要な次元でモデルパフォーマンスを解析する体系的な方法を提供し、より社会的に認識されたLLMを構築するための改善の余地を指摘する。 関連するリソースはhttps://github.com/minjechoi/SOCKETで公開されている。

Large language models (LLMs) have been shown to perform well at a variety of syntactic, discourse, and reasoning tasks. While LLMs are increasingly deployed in many forms including conversational agents that interact with humans, we lack a grounded benchmark to measure how well LLMs understand \textit{social} language. Here, we introduce a new theory-driven benchmark, SocKET, that contains 58 NLP tasks testing social knowledge which we group into five categories: humor & sarcasm, offensiveness, sentiment & emotion, and trustworthiness. In tests on the benchmark, we demonstrate that current models attain only moderate performance but reveal significant potential for task transfer among different types and categories of tasks, which were predicted from theory. Through zero-shot evaluations, we show that pretrained models already possess some innate but limited capabilities of social language understanding and training on one category of tasks can improve zero-shot testing on others. Our benchmark provides a systematic way to analyze model performance on an important dimension of language and points to clear room for improvement to build more socially-aware LLMs. The associated resources are released at https://github.com/minjechoi/SOCKET.
翻訳日:2023-12-11 19:04:34 公開日:2023-12-07
# マルチドメイン対話システムのためのドメインプライベートトランスフォーマー

Domain Private Transformers for Multi-Domain Dialog Systems ( http://arxiv.org/abs/2305.14208v2 )

ライセンス: Link先を確認
Anmol Kabra, Ethan R. Elenberg(参考訳) 大規模で汎用的な言語モデルは、多くの異なる会話ドメインで印象的なパフォーマンスを示している。 マルチドメイン言語モデルは全体的なパープレキシティが低いが、その出力は入力プロンプトのドメイン内に留まることは保証されていない。 本稿では、条件付き言語モデルがドメイン間でリークする確率を定量化する新しい方法として、ドメインプライバシを提案する。 また,トークンレベルのドメイン分類に基づくポリシ関数を開発し,トレーニングモデルのドメインプライバシを改善するための効率的な微調整手法を提案する。 メンバシップ推論攻撃の実験により,提案手法は,微分プライベート言語モデルにおける最近の文献から適応した手法と同等の弾力性を有することが示された。

Large, general purpose language models have demonstrated impressive performance across many different conversational domains. While multi-domain language models achieve low overall perplexity, their outputs are not guaranteed to stay within the domain of a given input prompt. This paper proposes domain privacy as a novel way to quantify how likely a conditional language model will leak across domains. We also develop policy functions based on token-level domain classification, and propose an efficient fine-tuning method to improve the trained model's domain privacy. Experiments on membership inference attacks show that our proposed method has comparable resiliency to methods adapted from recent literature on differentially private language models.
翻訳日:2023-12-11 19:03:22 公開日:2023-12-07
# 増分一般化カテゴリー発見

Incremental Generalized Category Discovery ( http://arxiv.org/abs/2304.14310v3 )

ライセンス: Link先を確認
Bingchen Zhao, Oisin Mac Aodha(参考訳) 本稿では,Incrmental Generalized Category Discovery (IGCD)の問題点を考察する。 これは難解なカテゴリインクリメンタル学習設定であり、これまで見てきたカテゴリから画像を正しく分類できるモデルを開発することを目的としている。 学習は、モデルが新しいラベル付きおよびラベル付きデータを取得し、各イテレーションで古いデータを破棄する一連の時間ステップで実行される。 この問題の難しさは、ラベルのないデータが以前に観測されたかもしれない、あるいはなかったかもしれないカテゴリの画像を含むことができるため、一般化された設定で複合化される。 本稿では,非パラメトリック分類と効率的な画像サンプリングを組み合わせたIGCDの新しい手法を提案する。 性能を定量化するために,実世界の細粒度視覚分類タスクを動機とするinatigcdというベンチマークデータセットを提案する。 私たちの実験では、既存の関連する方法よりも優れています

We explore the problem of Incremental Generalized Category Discovery (IGCD). This is a challenging category incremental learning setting where the goal is to develop models that can correctly categorize images from previously seen categories, in addition to discovering novel ones. Learning is performed over a series of time steps where the model obtains new labeled and unlabeled data, and discards old data, at each iteration. The difficulty of the problem is compounded in our generalized setting as the unlabeled data can contain images from categories that may or may not have been observed before. We present a new method for IGCD which combines non-parametric categorization with efficient image sampling to mitigate catastrophic forgetting. To quantify performance, we propose a new benchmark dataset named iNatIGCD that is motivated by a real-world fine-grained visual categorization task. In our experiments we outperform existing related methods
翻訳日:2023-12-11 19:00:24 公開日:2023-12-07
# 二項投票の歪みは期待を裏切る

The Distortion of Binomial Voting Defies Expectation ( http://arxiv.org/abs/2306.15657v2 )

ライセンス: Link先を確認
Yannai A. Gonczarowski, Gregory Kehne, Ariel D. Procaccia, Ben Schiffer, Shirley Zhang(参考訳) 計算社会選択において、投票規則の歪みは、制限された選好情報を克服して社会的に望ましい結果を選択する程度を定量化する。 この概念は広く研究されてきたが、最悪のケースレンズでのみ研究されている。 代わりに、投票者ユーティリティーに対する基礎的な分布に関する投票規則の歪曲について検討する。 我々の主な貢献は、期待される歪みと期待される福祉の両方に対して、強い分布非依存の保証を提供する、新規で直感的なルールである二項投票の設計と分析である。

In computational social choice, the distortion of a voting rule quantifies the degree to which the rule overcomes limited preference information to select a socially desirable outcome. This concept has been investigated extensively, but only through a worst-case lens. Instead, we study the expected distortion of voting rules with respect to an underlying distribution over voter utilities. Our main contribution is the design and analysis of a novel and intuitive rule, binomial voting, which provides strong distribution-independent guarantees for both expected distortion and expected welfare.
翻訳日:2023-12-11 18:55:10 公開日:2023-12-07
# サイクル一貫性駆動オブジェクト発見

Cycle Consistency Driven Object Discovery ( http://arxiv.org/abs/2306.02204v2 )

ライセンス: Link先を確認
Aniket Didolkar, Anirudh Goyal, Yoshua Bengio(参考訳) 人間の認知に似た、オブジェクト中心の表現を効果的に学習するディープラーニングモデルの開発は、依然として困難な課題である。 既存のアプローチでは、オブジェクトを `slots'' または ``object files'' と呼ばれる固定サイズのベクトルとして表現することでオブジェクト発見を促進する。 これらのアプローチは特定のシナリオで有望だが、まだ一定の制限がある。 まず、信頼できないアーキテクチャ上の前提に依存し、通常は正しいオブジェクトを特定するのに精巧なエンジニアリングが必要です。 第二に、下流タスクにおけるこれらの表現の実用性について調査する際、顕著なギャップがあった。 最初の制限に対処するため,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。 我々は,本質的に循環する一貫性目標を導入することで,この制約を定式化する。 これらの一貫性を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。 これらの拡張は、合成シーンと実世界のシーンの両方で一貫して真であり、提案手法の有効性と適応性を強調している。 第2の制限に取り組むために,提案手法から学習したオブジェクト中心表現を2つの下流強化学習タスクに適用し,従来のスロットベースおよびモノリシック表現学習手法と比較して相当な性能向上を示した。 提案手法はオブジェクト発見を改善するだけでなく,下流タスクに対してよりリッチな機能を提供する。

Developing deep learning models that effectively learn object-centric representations, akin to human cognition, remains a challenging task. Existing approaches facilitate object discovery by representing objects as fixed-size vectors, called ``slots'' or ``object files''. While these approaches have shown promise in certain scenarios, they still exhibit certain limitations. First, they rely on architectural priors which can be unreliable and usually require meticulous engineering to identify the correct objects. Second, there has been a notable gap in investigating the practical utility of these representations in downstream tasks. To address the first limitation, we introduce a method that explicitly optimizes the constraint that each object in a scene should be associated with a distinct slot. We formalize this constraint by introducing consistency objectives which are cyclic in nature. By integrating these consistency objectives into various existing slot-based object-centric methods, we showcase substantial improvements in object-discovery performance. These enhancements consistently hold true across both synthetic and real-world scenes, underscoring the effectiveness and adaptability of the proposed approach. To tackle the second limitation, we apply the learned object-centric representations from the proposed method to two downstream reinforcement learning tasks, demonstrating considerable performance enhancements compared to conventional slot-based and monolithic representation learning methods. Our results suggest that the proposed approach not only improves object discovery, but also provides richer features for downstream tasks.
翻訳日:2023-12-11 18:50:08 公開日:2023-12-07
# CS4ML:Christoffel関数に基づく任意のデータによるアクティブラーニングのための汎用フレームワーク

CS4ML: A general framework for active learning with arbitrary data based on Christoffel functions ( http://arxiv.org/abs/2306.00945v2 )

ライセンス: Link先を確認
Ben Adcock, Juan M. Cardenas, Nick Dexter(参考訳) 回帰問題における能動的学習のための一般的なフレームワークを紹介する。 我々のフレームワークは、単に対象関数のポイントワイズサンプルではなく、一般的なタイプのデータを可能にすることで、標準設定を拡張します。 この一般化は、変換領域で取得されたデータ(例えばフーリエデータ)、ベクトル値のデータ(例えば勾配増加データ)、連続曲線に沿って取得されたデータ、マルチモーダルデータ(例えば、異なる種類の測定の組み合わせ)など、多くの実践的なケースをカバーする。 本フレームワークは,有限個のサンプリング測度と任意の非線形近似空間(モデルクラス)に基づいてランダムサンプリングを検討する。 本稿では,一般化したクリストッフェル関数の概念を紹介し,サンプリング測度の最適化法を示す。 これは様々な重要なケースにおいて、最適に近いサンプルの複雑さをもたらすことが証明される。 本稿では,データ生成には通常費用がかかるため,能動的学習が望ましい科学計算の応用に焦点を当てる。 本研究では,多項式を用いた勾配強調学習,生成モデルを用いた磁気共鳴イメージング(MRI),物理情報ニューラルネットワーク(PINN)を用いたPDEのアダプティブサンプリングの有効性を示す。

We introduce a general framework for active learning in regression problems. Our framework extends the standard setup by allowing for general types of data, rather than merely pointwise samples of the target function. This generalization covers many cases of practical interest, such as data acquired in transform domains (e.g., Fourier data), vector-valued data (e.g., gradient-augmented data), data acquired along continuous curves, and, multimodal data (i.e., combinations of different types of measurements). Our framework considers random sampling according to a finite number of sampling measures and arbitrary nonlinear approximation spaces (model classes). We introduce the concept of generalized Christoffel functions and show how these can be used to optimize the sampling measures. We prove that this leads to near-optimal sample complexity in various important cases. This paper focuses on applications in scientific computing, where active learning is often desirable, since it is usually expensive to generate data. We demonstrate the efficacy of our framework for gradient-augmented learning with polynomials, Magnetic Resonance Imaging (MRI) using generative models and adaptive sampling for solving PDEs using Physics-Informed Neural Networks (PINNs).
翻訳日:2023-12-11 18:49:42 公開日:2023-12-07
# 量子プロセッサによる宇宙源からのミューオンの通過をタグ付けする2層シリコン画素検出器の概念的研究

Conceptual study of a two-layer silicon pixel detector to tag the passage of muons from cosmic sources through quantum processors ( http://arxiv.org/abs/2310.00577v2 )

ライセンス: Link先を確認
Ulascan Sarica(参考訳) 量子コンピューティングの最近の研究により、多くの物理量子ビットを持つ量子誤差補正は高エネルギー粒子からの電離放射線によって制限されていることが示されている。 量子プロセッサの物理的設定により、宇宙源からのミューオンの寄与はこれらの相互作用のかなりの部分を構成することができる。 これらのミューオンのほとんどは停止が難しいため、2層シリコン画素検出器の概念的な研究を行い、代わりに固体量子プロセッサにヒットをタグ付けする。 典型的な希釈冷凍機幾何モデルでは,少なくとも1つの層が冷凍機の深部 ((<1K) フランジで操作されている場合,50%以上の効率が達成される可能性が最も高い。 この発見に続いて、量子誤差補正アルゴリズムの入力を提供するのに十分な速さで、極低温で動作でき、消費電力が非常に少ないシリコン画素検出器の開発を可能にする、新たな研究プログラムを提案する。

Recent studies in quantum computing have shown that quantum error correction with large numbers of physical qubits are limited by ionizing radiation from high-energy particles. Depending on the physical setup of the quantum processor, the contribution of muons from cosmic sources can constitute a significant fraction of these interactions. As most of these muons are difficult to stop, we perform a conceptual study of a two-layer silicon pixel detector to tag their hits on a solid-state quantum processor instead. With a typical dilution refrigerator geometry model, we find that efficiencies greater than 50% are most likely to be achieved if at least one of the layers is operated at the deep-cryogenic (<1 K) flanges of the refrigerator. Following this finding, we further propose a novel research program that could allow the development of silicon pixel detectors that are fast enough to provide input to quantum error correction algorithms, can operate at deep-cryogenic temperatures, and have very low power consumption.
翻訳日:2023-12-11 18:31:36 公開日:2023-12-07
# ロバスト配向LDMによる配向遮断攻撃に対する防御

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM ( http://arxiv.org/abs/2309.14348v2 )

ライセンス: Link先を確認
Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen(参考訳) 近年、大規模言語モデル(llm)は大きな進歩を遂げ、現在様々なドメインで広く使われている。 残念ながら、LSMが有害または悪意のあるコンテンツを生成するために誤用されるのではないかという懸念が高まっている。 LLMを人間の価値観と整合させ、それらが不適切なコンテンツを生み出すのを防ぐことに焦点を当てた研究のラインもあるが、そのようなアライメントは通常脆弱であり、逆向きに最適化されたり、手作りのジェイルブレイクプロンプトによってアライメントを破ることによってバイパスすることができる。 本研究では,アライメントを破る可能性のある攻撃に対して,ロバストに適応したLLM(RA-LLM)を導入する。 RA-LLMは、従来のLLMの高価な再トレーニングや微調整を必要とすることなく、ロバストなアライメントチェック機能を備えた既存のLCM上に直接構築することができる。 さらに,RA-LLMのアライメント破壊攻撃に対する防御効果を検証するための理論的解析を行った。 オープンソースの大規模言語モデルに関する実世界実験を通じて,ra-llmは攻撃成功率を100%近くから約10%以下に下げることで,最先端の敵意と一般的な手作りのジェイルブレイクプロンプトの両方に対して効果的に防御できることを実証する。

Recently, Large Language Models (LLMs) have made significant advancements and are now widely used across various domains. Unfortunately, there has been a rising concern that LLMs can be misused to generate harmful or malicious content. Though a line of research has focused on aligning LLMs with human values and preventing them from producing inappropriate content, such alignments are usually vulnerable and can be bypassed by alignment-breaking attacks via adversarially optimized or handcrafted jailbreaking prompts. In this work, we introduce a Robustly Aligned LLM (RA-LLM) to defend against potential alignment-breaking attacks. RA-LLM can be directly constructed upon an existing aligned LLM with a robust alignment checking function, without requiring any expensive retraining or fine-tuning process of the original LLM. Furthermore, we also provide a theoretical analysis for RA-LLM to verify its effectiveness in defending against alignment-breaking attacks. Through real-world experiments on open-source large language models, we demonstrate that RA-LLM can successfully defend against both state-of-the-art adversarial prompts and popular handcrafted jailbreaking prompts by reducing their attack success rates from nearly 100% to around 10% or less.
翻訳日:2023-12-11 18:29:35 公開日:2023-12-07
# Few-Shot Class-Incremental Learningのための画像オブジェクト特異的プロンプト学習

Image-Object-Specific Prompt Learning for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2309.02833v2 )

ライセンス: Link先を確認
In-Ug Yoon, Tae-Min Choi, Sun-Kyung Lee, Young-Min Kim, Jong-Hwan Kim(参考訳) 多くのFSCIL研究が実施されているが、特にインクリメンタルセッションにおいて、満足なパフォーマンスを達成することは依然として困難である。 注目すべき課題のひとつは、十分なベースセッショントレーニングセットでトレーニングされたエンコーダが、インクリメンタルセッションではパフォーマンスが劣っていることだ。 本研究では,CLIP(Contrastive Language- Image Pre-Training)モデルのクラスに対する一般化性を活かした,FSCILの新しいトレーニングフレームワークを提案する。 入力画像に対する画像オブジェクト固有(IOS)分類器を定式化する。 ここでは、IOS分類器は画像の背景ではなく、クラスオブジェクトの特定の属性(翼や車輪など)をターゲットにしている。 これらのIOS分類器を作成するために、特別に設計されたモジュールを使ってバイアスプロンプトを分類器にエンコードし、キーとプロンプトのペアを使って各セッションでクラスのIOS機能をピンポイントする。 fscilの立場から考えると、私たちのフレームワークは以前の知識を保ち、新しいセッションに素早く適応するように構成されています。 これは各セッションにおけるモジュールのアップカビリティと、高速収束のために実証的なトリックを考慮したものである。 提案手法は,MiniImageNet,CIFAR100,CUB200データセットを対象とする最先端手法と比較して,優れた性能を示す。 さらに、IOS分類器を実現するための学習モデルの能力を検証するための追加実験も提供する。 また、アーキテクチャ内の各モジュールの影響を分析するためのアブレーション研究も行います。

While many FSCIL studies have been undertaken, achieving satisfactory performance, especially during incremental sessions, has remained challenging. One prominent challenge is that the encoder, trained with an ample base session training set, often underperforms in incremental sessions. In this study, we introduce a novel training framework for FSCIL, capitalizing on the generalizability of the Contrastive Language-Image Pre-training (CLIP) model to unseen classes. We achieve this by formulating image-object-specific (IOS) classifiers for the input images. Here, an IOS classifier refers to one that targets specific attributes (like wings or wheels) of class objects rather than the image's background. To create these IOS classifiers, we encode a bias prompt into the classifiers using our specially designed module, which harnesses key-prompt pairs to pinpoint the IOS features of classes in each session. From an FSCIL standpoint, our framework is structured to retain previous knowledge and swiftly adapt to new sessions without forgetting or overfitting. This considers the updatability of modules in each session and some tricks empirically found for fast convergence. Our approach consistently demonstrates superior performance compared to state-of-the-art methods across the miniImageNet, CIFAR100, and CUB200 datasets. Further, we provide additional experiments to validate our learned model's ability to achieve IOS classifiers. We also conduct ablation studies to analyze the impact of each module within the architecture.
翻訳日:2023-12-11 18:26:08 公開日:2023-12-07
# AIフィードバックによる品質多様性

Quality-Diversity through AI Feedback ( http://arxiv.org/abs/2310.13032v4 )

ライセンス: Link先を確認
Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer, Marco Bellagente, Jeff Clune, Kenneth Stanley, Gr\'egory Schott, Joel Lehman(参考訳) 多くのテキスト生成問題では、ユーザーは単一の応答だけでなく、選択すべき高品質な出力の多様さを好む。 品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化させることにより、このような結果を目指している。 しかしながら、クリエイティビティライティングのような質的ドメインへのqdの適用性は、品質と多様性の指標をアルゴリズムで指定する困難さによって制限されている。 興味深いことに、近年の言語モデル(LM)の発展により、AIフィードバックによるガイド検索が可能となり、テキストの質的な側面を評価するために自然言語でLMが促される。 この開発を活用して、AIフィードバック(QDAIF)による品質多様性を導入し、進化的アルゴリズムでは、変動を生成し、候補テキストの品質と多様性を評価する。 クリエイティブなライティングドメインで評価すると、qdaifは非qdコントロールよりも質の高いサンプルで指定された検索スペースをカバーできる。 さらに、QDAIFによる創造的テキストの人間評価は、AIと人間評価の合理的な一致を検証する。 これにより、AIフィードバックが創造的でオリジナルなソリューションをオープンに検索する可能性を強調し、多くのドメインやモダリティに一般化したレシピを提供する。 このようにして、QDAIFは、人間社会のイノベーション能力の根底にある中核的なスキルである、独立して探索、多様化、評価、改善が可能なAIシステムへのステップである。

In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like creative writing, has been limited by the difficulty of algorithmically specifying measures of quality and diversity. Interestingly, recent developments in language models (LMs) have enabled guiding search through AI feedback, wherein LMs are prompted in natural language to evaluate qualitative aspects of text. Leveraging this development, we introduce Quality-Diversity through AI Feedback (QDAIF), wherein an evolutionary algorithm applies LMs to both generate variation and evaluate the quality and diversity of candidate text. When assessed on creative writing domains, QDAIF covers more of a specified search space with high-quality samples than do non-QD controls. Further, human evaluation of QDAIF-generated creative texts validates reasonable agreement between AI and human evaluation. Our results thus highlight the potential of AI feedback to guide open-ended search for creative and original solutions, providing a recipe that seemingly generalizes to many domains and modalities. In this way, QDAIF is a step towards AI systems that can independently search, diversify, evaluate, and improve, which are among the core skills underlying human society's capacity for innovation.
翻訳日:2023-12-11 18:18:19 公開日:2023-12-07
# SCGANの類似性制約の改善とより良い遠交表現の学習

Improving SCGAN's Similarity Constraint and Learning a Better Disentangled Representation ( http://arxiv.org/abs/2310.12262v2 )

ライセンス: Link先を確認
Iman Yazdanpanah and Ali Eslamian(参考訳) SCGANは生成した画像と条件の類似性制約を生成的敵ネットワーク上の正規化用語として追加する。 類似性制約は、生成ネットワークに条件に基づいた表現の違いを理解するよう指示するチュータとして機能する。 SCGANがより深いレベルでどのように機能するかを理解する。 この理解により、対比損失関数のような類似性制約関数が認識される。 高い理解と知性を持つモデルは、人間のように、その構造と高レベルの特徴に基づいて画像間の類似性を測定する。 修正モデルを作成するためにSCGANに適用した2つの大きな変更は、画像間の類似性を測定するためにSSIMを使用し、類似性制約に対照的な損失原理を適用することである。 修正されたモデルはfidとfactorvaeメトリクスを使ってより良く機能する。 修正されたモデルは、他のモデルと比べてより汎用性が高い。 キーワード生成逆ネット,教師なし学習,異方性表現学習,コントラスト的異方性,ssim

SCGAN adds a similarity constraint between generated images and conditions as a regularization term on generative adversarial networks. Similarity constraint works as a tutor to instruct the generator network to comprehend the difference of representations based on conditions. We understand how SCGAN works on a deeper level. This understanding makes us realize that the similarity constraint functions like the contrastive loss function. We believe that a model with high understanding and intelligence measures the similarity between images based on their structure and high level features, just like humans do. Two major changes we applied to SCGAN in order to make a modified model are using SSIM to measure similarity between images and applying contrastive loss principles to the similarity constraint. The modified model performs better using FID and FactorVAE metrics. The modified model also has better generalisability compared to other models. Keywords Generative Adversarial Nets, Unsupervised Learning, Disentangled Representation Learning, Contrastive Disentanglement, SSIM
翻訳日:2023-12-11 18:17:35 公開日:2023-12-07
# DynVideo-E: 大規模モーションとビューチェンジ人間中心映像編集のための高調波動的NeRF

DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing ( http://arxiv.org/abs/2310.10624v2 )

ライセンス: Link先を確認
Jia-Wei Liu, Yan-Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou(参考訳) 拡散型ビデオ編集の進歩にもかかわらず、既存の手法は長距離一貫性とフレームワイズ編集の矛盾のため、短いビデオに限られている。 従来のビデオ2D表現の導入は、大規模なモーション・アンド・ビュー・チェンジビデオ、特に人間中心のシナリオにおいて重大な困難に直面していた。 そこで本研究では,3次元空間で編集を行い,変形場を介して映像全体に伝播する,革新的な映像表現として,動的ニューラルネットワーク放射場(nerf)を導入することを提案する。 画像ベースのビデオNeRF編集パイプラインにおいて,2次元個別拡散前と3次元拡散前の両方からの多視点多目的スコア蒸留サンプリング(SDS),再構成損失,テキスト誘導局所部分超解像,スタイル転送などの革新的な設計を提案する。 大規模な実験により,我々の手法はDynVideo-Eと呼ばれ,人間の嗜好に対して50%~95%の差でSOTAアプローチを2つの挑戦的データセットで大幅に上回った。 コードはhttps://showlab.github.io/DynVideo-E/でリリースされる。

Despite recent progress in diffusion-based video editing, existing methods are limited to short-length videos due to the contradiction between long-range consistency and frame-wise editing. Prior attempts to address this challenge by introducing video-2D representations encounter significant difficulties with large-scale motion- and view-change videos, especially in human-centric scenarios. To overcome this, we propose to introduce the dynamic Neural Radiance Fields (NeRF) as the innovative video representation, where the editing can be performed in the 3D spaces and propagated to the entire video via the deformation field. To provide consistent and controllable editing, we propose the image-based video-NeRF editing pipeline with a set of innovative designs, including multi-view multi-pose Score Distillation Sampling (SDS) from both the 2D personalized diffusion prior and 3D diffusion prior, reconstruction losses, text-guided local parts super-resolution, and style transfer. Extensive experiments demonstrate that our method, dubbed as DynVideo-E, significantly outperforms SOTA approaches on two challenging datasets by a large margin of 50% ~ 95% for human preference. Code will be released at https://showlab.github.io/DynVideo-E/.
翻訳日:2023-12-11 18:16:45 公開日:2023-12-07
# PAC-ベイズ理論を用いた変分オートエンコーダの統計的保証

Statistical Guarantees for Variational Autoencoders using PAC-Bayesian Theory ( http://arxiv.org/abs/2310.04935v3 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain(参考訳) その誕生以来、変分オートエンコーダ(VAE)は機械学習の中心となっている。 広く使われているにもかかわらず、理論上の性質について多くの疑問が残る。 PAC-ベイジアン理論を用いて、この研究はVAEの統計的保証を発展させる。 まず、データ生成分布から個々のサンプルに条件付き後続分布に対する最初のPAC-Bayesian境界を導出する。 そして,この結果を用いて,vaeの復元損失に対する一般化保証と,入力と再生分布との間の距離の上限を定式化する。 さらに重要なことは、入力分布とVAEの生成モデルで定義される分布の間のワッサーシュタイン距離の上限を与えることである。

Since their inception, Variational Autoencoders (VAEs) have become central in machine learning. Despite their widespread use, numerous questions regarding their theoretical properties remain open. Using PAC-Bayesian theory, this work develops statistical guarantees for VAEs. First, we derive the first PAC-Bayesian bound for posterior distributions conditioned on individual samples from the data-generating distribution. Then, we utilize this result to develop generalization guarantees for the VAE's reconstruction loss, as well as upper bounds on the distance between the input and the regenerated distributions. More importantly, we provide upper bounds on the Wasserstein distance between the input distribution and the distribution defined by the VAE's generative model.
翻訳日:2023-12-11 18:16:05 公開日:2023-12-07
# 社会的表現における実用性と認知コストのバランス

Balancing utility and cognitive cost in social representation ( http://arxiv.org/abs/2310.04852v2 )

ライセンス: Link先を確認
Max Taylor-Davies and Christopher G. Lucas(参考訳) その環境をうまくナビゲートするには、エージェントが遭遇する他のエージェントの表現を構築し維持する必要がある。 このような表現は多くのタスクで役に立ちますが、コストはかかりません。 結果として、エージェントは、エージェントの環境にどれだけの情報を格納するかを決定する必要がある。 選択型ソーシャルラーニングを例題として,下流ユーティリティと情報コストのトレードオフを最適に行うエージェント表現を見つけることの課題を提起し,資源制約型ソーシャル表現の2つの例を示した。

To successfully navigate its environment, an agent must construct and maintain representations of the other agents that it encounters. Such representations are useful for many tasks, but they are not without cost. As a result, agents must make decisions regarding how much information they choose to store about the agents in their environment. Using selective social learning as an example task, we motivate the problem of finding agent representations that optimally trade off between downstream utility and information cost, and illustrate two example approaches to resource-constrained social representation.
翻訳日:2023-12-11 18:15:55 公開日:2023-12-07
# 会話型健康エージェント:パーソナライズされたLLMエージェントフレームワーク

Conversational Health Agents: A Personalized LLM-Powered Agent Framework ( http://arxiv.org/abs/2310.02374v3 )

ライセンス: Link先を確認
Mahyar Abbasian, Iman Azimi, Amir M. Rahmani, Ramesh Jain(参考訳) 会話型ヘルスエージェント(chas)は、援助、自己認識、診断などの医療サービスを提供する対話型システムである。 現在のCHA、特にLLM(Large Language Models)を利用するものは、主に会話の側面に焦点を当てています。 しかし、マルチステップ問題解決、共感的会話、マルチモーダルデータ分析を特に欠くエージェント能力は限られている。 私たちの目標はこれらの制限を克服することです。 本稿では,chasがユーザの医療クエリに対してパーソナライズされた応答を生成するための,llmを活用したフレームワークを提案する。 このフレームワークは、医療データソースの統合、多言語およびマルチモーダル会話の実現、およびさまざまなユーザデータ分析ツールとのインタラクションにより、批判的思考、知識獲得、問題解決能力を提供する。 ストレスレベル推定を事例として,複雑な医療タスクの処理におけるフレームワークの習熟度を示し,エージェントの認知的・操作的能力を示す。 私たちのフレームワークによって、ユーザがストレスレベルを問うとき、chaは適切なレスポンスを提供することができます。 これを実現するために、光胸腺画像信号を収集し、心拍変動に変換し、ストレスレベルの指標として解釈する。

Conversational Health Agents (CHAs) are interactive systems that provide healthcare services, such as assistance, self-awareness, and diagnosis. Current CHAs, especially those utilizing Large Language Models (LLMs), primarily focus on conversation aspects. However, they offer limited agent capabilities specifically lacking multi-step problem-solving, empathetic conversations, and multimodal data analysis. Our aim is to overcome these limitations. In this paper, we propose an LLM-powered framework to empower CHAs to generate a personalized response for users' healthcare queries. This framework provides critical thinking, knowledge acquisition, and problem-solving abilities by integrating healthcare data sources, enabling multilingual and multimodal conversations, and interacting with various user data analysis tools. We illustrate the framework's proficiency in handling complex healthcare tasks via a case study on stress level estimation, showcasing the agent's cognitive and operational capabilities. Powered by our framework, the CHA can provide appropriate responses, when the user inquires about their stress level. To achieve this, it learns to collect photoplethysmogram signals, converts them into heart rate variability, and interprets them as indicators of stress levels.
翻訳日:2023-12-11 18:15:13 公開日:2023-12-07
# 拡散型編集モデルに対する幾分ロバストな画像ウォーターマーク

A Somewhat Robust Image Watermark against Diffusion-based Editing Models ( http://arxiv.org/abs/2311.13713v2 )

ライセンス: Link先を確認
Mingtian Tan, Tianhao Wang, Somesh Jha(参考訳) 近年,拡散モデル(dms)が画像合成の最先端手法となっている。 dmsに基づく編集モデルは、高い忠実性と精度で知られており、画像著作権侵害と悪意のある編集に関する新たな課題を不注意に導入している。 私たちの仕事は、この問題を形式化し、対処する最初のものです。 従来の画像透かし手法を評価・強化した後、この新たなコンテキストにおける限界を認識します。 そこで本研究では, 対角法を利用した透かしを埋め込む新しい手法RIW(Robust Invisible Watermarking)を開発した。 本手法は, 従来手法で提供されていた$0\%$に比べて, 編集後の透かしに対して$96\%$の高い抽出精度を保証する。 私たちはhttps://github.com/BennyTMT/RIWでコードにアクセスしています。

Recently, diffusion models (DMs) have become the state-of-the-art method for image synthesis. Editing models based on DMs, known for their high fidelity and precision, have inadvertently introduced new challenges related to image copyright infringement and malicious editing. Our work is the first to formalize and address this issue. After assessing and attempting to enhance traditional image watermarking techniques, we recognize their limitations in this emerging context. In response, we develop a novel technique, RIW (Robust Invisible Watermarking), to embed invisible watermarks leveraging adversarial example techniques. Our technique ensures a high extraction accuracy of $96\%$ for the invisible watermark after editing, compared to the $0\%$ offered by conventional methods. We provide access to our code at https://github.com/BennyTMT/RIW.
翻訳日:2023-12-11 18:06:06 公開日:2023-12-07
# 生成モデリングと意思決定のためのガイドフロー

Guided Flows for Generative Modeling and Decision Making ( http://arxiv.org/abs/2311.13443v2 )

ライセンス: Link先を確認
Qinqing Zheng, Matt Le, Neta Shaul, Yaron Lipman, Aditya Grover, Ricky T. Q. Chen(参考訳) クラシファイアフリーガイダンスは、様々なタスクにまたがる条件付き生成モデルの性能を高めるための重要な要素である。 従来, 試料品質の顕著な改善が見られたが, 拡散モデルにのみ採用されている。 本稿では,回帰ベクトル場に基づいて連続正規化フロー(cnfs)を訓練する代替シミュレーションフリー手法であるフローマッチング(fm)モデルに分類器フリーガイダンスを統合する。 様々なダウンストリームアプリケーションに \emph{Guided Flows} を用いることについて検討する。 その結果,ガイドフローは条件付き画像生成およびゼロショット音声合成におけるサンプル品質を著しく改善し,最先端性能を誇った。 特に、オフライン強化学習環境における計画生成にフローモデルを適用し、比較性能を維持しながら拡散モデルと比較して計算の10倍の高速化を示す。

Classifier-free guidance is a key component for enhancing the performance of conditional generative models across diverse tasks. While it has previously demonstrated remarkable improvements for the sample quality, it has only been exclusively employed for diffusion models. In this paper, we integrate classifier-free guidance into Flow Matching (FM) models, an alternative simulation-free approach that trains Continuous Normalizing Flows (CNFs) based on regressing vector fields. We explore the usage of \emph{Guided Flows} for a variety of downstream applications. We show that Guided Flows significantly improves the sample quality in conditional image generation and zero-shot text-to-speech synthesis, boasting state-of-the-art performance. Notably, we are the first to apply flow models for plan generation in the offline reinforcement learning setting, showcasing a 10x speedup in computation compared to diffusion models while maintaining comparable performance.
翻訳日:2023-12-11 18:05:34 公開日:2023-12-07
# ニューラルエミュレータを用いたサブグリッドスケールダイナミックスのグラディエントフリーオンライン学習

Gradient-free online learning of subgrid-scale dynamics with neural emulators ( http://arxiv.org/abs/2310.19385v3 )

ライセンス: Link先を確認
Hugo Frezat, Ronan Fablet, Guillaume Balarac, Julien Le Sommer(参考訳) 本稿では,機械学習に基づくサブグリッドパラメトリゼーションをオンライン上で学習する汎用アルゴリズムを提案する。 提案手法はニューラルエミュレータを用いて減らされた状態空間解法を近似し、時間積分ステップによる勾配伝播を可能にする。 本研究では, この手法を, オフライン戦略による500回程度の時間反復で高度に不安定な地形を持つ単一層準地栄養系に適用する。 アルゴリズムを用いて、元の解法の勾配を計算することなく、オンライン戦略の利点のほとんどを回復するパラメトリゼーションを訓練することができる。 近似バイアスの伝播を最小化するために,異なる損失量で神経エミュレータとパラメトリゼーション成分を別々に訓練する必要があることを実証した。 複雑度が異なるエミュレータアーキテクチャの実験も、正確なパラメトリゼーションを学習するためにエミュレータの性能が重要であることを示している。 この研究は、現実的な気候モデルのためのオンライン戦略でパラメトリゼーションを学ぶためのステップである。

In this paper, we propose a generic algorithm to train machine learning-based subgrid parametrizations online, i.e., with a posteriori loss functions, but for non-differentiable numerical solvers. The proposed approach leverages a neural emulator to approximate the reduced state-space solver, which is then used to allow gradient propagation through temporal integration steps. We apply this methodology on a single layer quasi-geostrophic system with topography, known to be highly unstable in around 500 temporal iterations with offline strategies. Using our algorithm, we are able to train a parametrization that recovers most of the benefits of online strategies without having to compute the gradient of the original solver. It is demonstrated that training the neural emulator and parametrization components separately with different loss quantities is necessary in order to minimize the propagation of approximation biases. Experiments on emulator architectures with different complexities also indicates that emulator performance is key in order to learn an accurate parametrization. This work is a step towards learning parametrization with online strategies for realistic climate models.
翻訳日:2023-12-11 18:02:58 公開日:2023-12-07
# dreamo: 単一のカジュアルビデオから3d再構成する

DreaMo: Articulated 3D Reconstruction From A Single Casual Video ( http://arxiv.org/abs/2312.02617v2 )

ライセンス: Link先を確認
Tao Tu, Ming-Feng Li, Chieh Hubert Lin, Yen-Chi Cheng, Min Sun, Ming-Hsuan Yang(参考訳) articulated 3d reconstructionは様々な領域で有用な用途があるが、コストがかかり、ドメインの専門家からの集中的な作業を要求する。 テンプレートフリー学習手法の最近の進歩は単眼ビデオで有望な結果を示している。 それにもかかわらず、これらのアプローチは、入力ビデオにおける対象のすべての視点を包括的にカバーする必要があるため、オンラインソースからカジュアルにキャプチャされたビデオに適用可能である。 本研究では,被写体の視野範囲が不完全である単眼映像とカジュアル映像の3次元形状復元について検討した。 そこで本稿では,複数の調整済み正則化を前もって,難解な低被覆領域を解決しつつ,形状再構成を共同で行うドリーモを提案する。 さらに、学習した神経骨と皮膚重量から人間の解釈可能な骨格を作成するための骨格生成戦略を導入する。 我々は,不完全なビューカバレッジを特徴とする自己収集型インターネットビデオコレクションに関する研究を行っている。 DreaMoは、ノベルビューレンダリング、詳細な形状復元、骨格生成において有望な品質を示している。 広範囲な質的定量的研究は各成分の有効性を検証し、既存の手法では不完全な視野範囲のため正確な幾何学を解決できないことを示した。

Articulated 3D reconstruction has valuable applications in various domains, yet it remains costly and demands intensive work from domain experts. Recent advancements in template-free learning methods show promising results with monocular videos. Nevertheless, these approaches necessitate a comprehensive coverage of all viewpoints of the subject in the input video, thus limiting their applicability to casually captured videos from online sources. In this work, we study articulated 3D shape reconstruction from a single and casually captured internet video, where the subject's view coverage is incomplete. We propose DreaMo that jointly performs shape reconstruction while solving the challenging low-coverage regions with view-conditioned diffusion prior and several tailored regularizations. In addition, we introduce a skeleton generation strategy to create human-interpretable skeletons from the learned neural bones and skinning weights. We conduct our study on a self-collected internet video collection characterized by incomplete view coverage. DreaMo shows promising quality in novel-view rendering, detailed articulated shape reconstruction, and skeleton generation. Extensive qualitative and quantitative studies validate the efficacy of each proposed component, and show existing methods are unable to solve correct geometry due to the incomplete view coverage.
翻訳日:2023-12-11 17:56:16 公開日:2023-12-07
# 医用画像解析のための汎用視覚基盤モデルに向けて--ラジオロジーベンチマークによるdinov2の実験的検討

Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks ( http://arxiv.org/abs/2312.02366v2 )

ライセンス: Link先を確認
Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Abdulrhman Aljouie, Wei Peng(参考訳) 深層学習システムの医療分野への統合は、データアノテーションの資源集約的なプロセスと、これらのシステムが様々なデータ分布に一般化できないことによって妨げられている。 大規模なデータセットで事前トレーニングされたモデルである基盤モデルは、注釈付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。 オープンソースのファウンデーションモデルであるDINOv2は、1億4200万のキュレートされた自然画像に対する自己教師型学習を事前訓練した。 それでも、DINOv2の放射線画像への適応性について重要な疑問が残ることはなく、その特徴が放射線画像解析に有効であるかどうかについては、まだ明らかになっていない。 そこで本研究では,放射線学におけるDINOv2を総合的に評価し,X線,CT,MRIなど多種多様な実験を100以上行った。 課題には、DINOv2特徴埋め込みの有効性と一般化性を測定するために、2D画像と3D画像の両方の臓器の分類、kNN、少数ショット学習、線形プロービング、エンドツーエンドの微調整、パラメータ効率の良い微調整などの異なる設定で評価される。 セグメンテーションのための医用画像解析モデル、U-NetとTransUnet、セグメンテーションのためのCNNとViTモデルとの比較分析により、セグメンテーションタスクにおけるDINOv2の優れたパフォーマンスと疾患分類の競争結果が明らかとなった。 本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割について,医療画像のトレーニング前戦略を最適化し,より広範に理解するための潜在的手段への洞察に寄与する。

The integration of deep learning systems into the medical domain has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2, an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images, excels in extracting general-purpose visual representations, exhibiting promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2's adaptability to radiological imaging, and the clarity on whether its features are sufficiently general to benefit radiology image analysis is yet to be established. Therefore, this study comprehensively evaluates DINOv2 for radiology, conducting over 100 experiments across diverse modalities (X-ray, CT, and MRI). Tasks include disease classification and organ segmentation on both 2D and 3D images, evaluated under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning, to measure the effectiveness and generalizability of the DINOv2 feature embeddings. Comparative analyses with established medical image analysis models, U-Net and TransUnet for segmentation, and CNN and ViT models pre-trained via supervised, weakly supervised, and self-supervised learning for classification, reveal DINOv2's superior performance in segmentation tasks and competitive results in disease classification. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2's role in bridging the gap between natural and radiological image analysis.
翻訳日:2023-12-11 17:55:34 公開日:2023-12-07
# スペクトル時間的コントラスト学習

Spectral Temporal Contrastive Learning ( http://arxiv.org/abs/2312.00966v2 )

ライセンス: Link先を確認
Sacha Morin, Somjit Nath, Samira Ebrahimi Kahou and Guy Wolf(参考訳) ラベルなしで有用なデータ表現を学ぶことは、現代のディープラーニングの基盤である。 自己教師付き学習手法、特にコントラスト学習(CL)は、データ拡張を利用して正のペアを定義することで成功している。 この成功は、clをよりよく理解し、下流線形プローブタスクの理論的境界を調べるための多くの理論的研究を促した。 この研究は、データのシーケンシャルな構造を用いて、より一般的にRLやロボティクスの文脈で使用される正のペアを定義する、時間的コントラスト学習(TCL)の設定に関係している。 本稿では,スペクトルclに関する最近の研究を,スペクトル時間コントラスト学習(stcl)に応用する。 我々は,一様定常分布を持つ時間均一可逆マルコフ連鎖から得られる状態グラフに基づく人口減少について論じる。 STCLの損失により、線形探索性能をグラフのスペクトル特性に結びつけることができ、事前に観測されたデータ列をMCMC連鎖のアンサンブルとして考慮して推定することができる。

Learning useful data representations without requiring labels is a cornerstone of modern deep learning. Self-supervised learning methods, particularly contrastive learning (CL), have proven successful by leveraging data augmentations to define positive pairs. This success has prompted a number of theoretical studies to better understand CL and investigate theoretical bounds for downstream linear probing tasks. This work is concerned with the temporal contrastive learning (TCL) setting where the sequential structure of the data is used instead to define positive pairs, which is more commonly used in RL and robotics contexts. In this paper, we adapt recent work on Spectral CL to formulate Spectral Temporal Contrastive Learning (STCL). We discuss a population loss based on a state graph derived from a time-homogeneous reversible Markov chain with uniform stationary distribution. The STCL loss enables to connect the linear probing performance to the spectral properties of the graph, and can be estimated by considering previously observed data sequences as an ensemble of MCMC chains.
翻訳日:2023-12-11 17:54:37 公開日:2023-12-07
# DeepCache: 無償で拡散モデルを高速化

DeepCache: Accelerating Diffusion Models for Free ( http://arxiv.org/abs/2312.00858v2 )

ライセンス: Link先を確認
Xinyin Ma, Gongfan Fang, Xinchao Wang(参考訳) 拡散モデルは最近、その顕著な生成能力のために画像合成の分野で前例のない注目を集めている。 それらの長所にもかかわらず、これらのモデルはしばしばかなりの計算コストを発生させ、主にシーケンシャルなデノナイジングプロセスと面倒なモデルサイズに起因する。 拡散モデルを圧縮する伝統的な方法は、通常、コストと実現可能性の課題を提示する広範囲な再訓練を含む。 本稿では,モデルアーキテクチャの観点から拡散モデルを高速化する新しいトレーニングフリーパラダイムであるDeepCacheを紹介する。 DeepCacheは、拡散モデルの逐次denoisingステップで観測される固有の時間的冗長性を利用して、隣のdenoisingステージにまたがって機能をキャッシュし、検索することで、冗長な計算を削減します。 u-netの特性を利用して,低レベルの機能を極めて安価に更新しながら,高レベルの機能を再利用する。 この革新的な戦略により、安定拡散 v1.5 のスピードアップ係数 2.3$\times$ が CLIP Score で 0.05 しか減少せず、4.1$\times$ が LDM-4-G で、ImageNet では 0.22 の FID がわずかに減少している。 また,本実験では,再学習を必要とする既存のプルーニング法や蒸留法よりもDeepCacheの方が優れていることを示す。 さらに、同じスループットで、DeepCacheはDDIMやPLMSと同等あるいは極端に改善された結果が得られることが分かりました。 コードはhttps://github.com/horseee/DeepCacheで入手できる。

Diffusion models have recently gained unprecedented attention in the field of image synthesis due to their remarkable generative capabilities. Notwithstanding their prowess, these models often incur substantial computational costs, primarily attributed to the sequential denoising process and cumbersome model size. Traditional methods for compressing diffusion models typically involve extensive retraining, presenting cost and feasibility challenges. In this paper, we introduce DeepCache, a novel training-free paradigm that accelerates diffusion models from the perspective of model architecture. DeepCache capitalizes on the inherent temporal redundancy observed in the sequential denoising steps of diffusion models, which caches and retrieves features across adjacent denoising stages, thereby curtailing redundant computations. Utilizing the property of the U-Net, we reuse the high-level features while updating the low-level features in a very cheap way. This innovative strategy, in turn, enables a speedup factor of 2.3$\times$ for Stable Diffusion v1.5 with only a 0.05 decline in CLIP Score, and 4.1$\times$ for LDM-4-G with a slight decrease of 0.22 in FID on ImageNet. Our experiments also demonstrate DeepCache's superiority over existing pruning and distillation methods that necessitate retraining and its compatibility with current sampling techniques. Furthermore, we find that under the same throughput, DeepCache effectively achieves comparable or even marginally improved results with DDIM or PLMS. The code is available at https://github.com/horseee/DeepCache
翻訳日:2023-12-11 17:54:19 公開日:2023-12-07
# lightgaussian: 15倍縮小200fpsの非有界3次元ガウス圧縮

LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS ( http://arxiv.org/abs/2311.17245v3 )

ライセンス: Link先を確認
Zhiwen Fan, Kevin Wang, Kairun Wen, Zehao Zhu, Dejia Xu, Zhangyang Wang(参考訳) ポイントベース技術を用いたリアルタイムニューラルレンダリングの最近の進歩は、3D表現の普及の道を開いた。 しかし、3D Gaussian Splattingのような基本的なアプローチは、SfMポイントを数百万に拡大し、単一の無制限シーンに対してギガバイトレベルのディスクスペースを必要とすることがあり、大きなスケーラビリティ上の課題を生じさせ、スティング効率を妨げている。 この課題に対処するために、我々は3Dガウスをより効率的でコンパクトなフォーマットに変換するために設計された新しい方法であるLightGaussianを紹介する。 ネットワークプルーニングの概念からインスピレーションを得て、lightgaussianはシーンの再構築に寄与しないガウス人を特定し、プルーニングとリカバリのプロセスを採用し、視覚効果を保ちながらガウス数における冗長性を効果的に削減した。 さらに、LightGaussianは、蒸留と擬似ビュー拡張を使用して球面調和を低い程度に蒸留し、反射性を維持しながらよりコンパクトな表現への知識伝達を可能にする。 さらに,全ての属性を量子化するハイブリッド方式であるVecTree Quantizationを提案する。 要約すると、LightGaussian は FPS を 139 から 215 に向上させ、Mip-NeRF 360, Tank と Temple のデータセット上の複雑なシーンの効率的な表現を可能にした。 プロジェクトウェブサイト: https://lightgaussian.github.io/

Recent advancements in real-time neural rendering using point-based techniques have paved the way for the widespread adoption of 3D representations. However, foundational approaches like 3D Gaussian Splatting come with a substantial storage overhead caused by growing the SfM points to millions, often demanding gigabyte-level disk space for a single unbounded scene, posing significant scalability challenges and hindering the splatting efficiency. To address this challenge, we introduce LightGaussian, a novel method designed to transform 3D Gaussians into a more efficient and compact format. Drawing inspiration from the concept of Network Pruning, LightGaussian identifies Gaussians that are insignificant in contributing to the scene reconstruction and adopts a pruning and recovery process, effectively reducing redundancy in Gaussian counts while preserving visual effects. Additionally, LightGaussian employs distillation and pseudo-view augmentation to distill spherical harmonics to a lower degree, allowing knowledge transfer to more compact representations while maintaining reflectance. Furthermore, we propose a hybrid scheme, VecTree Quantization, to quantize all attributes, resulting in lower bitwidth representations with minimal accuracy losses. In summary, LightGaussian achieves an averaged compression rate over 15x while boosting the FPS from 139 to 215, enabling an efficient representation of complex scenes on Mip-NeRF 360, Tank and Temple datasets. Project website: https://lightgaussian.github.io/
翻訳日:2023-12-11 17:53:03 公開日:2023-12-07
# Animate Anyone:文字アニメーションのための一貫性と制御可能な画像間合成

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation ( http://arxiv.org/abs/2311.17117v2 )

ライセンス: Link先を確認
Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo(参考訳) キャラクタアニメーションは、運転信号を通じて静止画像からキャラクタビデオを生成することを目的としている。 現在、拡散モデルは、その堅牢な生成能力のため、視覚発生研究の主流となっている。 しかし、画像対ビデオの領域、特にキャラクタアニメーションでは、キャラクタからの詳細な情報との一貫性を時間的に維持することが問題となっている。 本稿では,拡散モデルのパワーを活用し,キャラクタアニメーションに適した新しいフレームワークを提案する。 参照画像から複雑な外観特徴の整合性を維持するため、空間的注意による詳細特徴のマージを行うためにReferenceNetを設計する。 制御性と連続性を確保するため,映像フレーム間のスムーズなフレーム間遷移を確保するために,キャラクタの動きを指示するための効率的なポーズ案内器を導入する。 学習データを拡大することで任意の文字をアニメーション化でき、他の画像から動画への手法と比較して文字アニメーションの優れた結果が得られる。 さらに,ファッションビデオと人間のダンス合成のベンチマークによる評価を行い,最新の結果を得た。

Character Animation aims to generating character videos from still images through driving signals. Currently, diffusion models have become the mainstream in visual generation research, owing to their robust generative capabilities. However, challenges persist in the realm of image-to-video, especially in character animation, where temporally maintaining consistency with detailed information from character remains a formidable problem. In this paper, we leverage the power of diffusion models and propose a novel framework tailored for character animation. To preserve consistency of intricate appearance features from reference image, we design ReferenceNet to merge detail features via spatial attention. To ensure controllability and continuity, we introduce an efficient pose guider to direct character's movements and employ an effective temporal modeling approach to ensure smooth inter-frame transitions between video frames. By expanding the training data, our approach can animate arbitrary characters, yielding superior results in character animation compared to other image-to-video methods. Furthermore, we evaluate our method on benchmarks for fashion video and human dance synthesis, achieving state-of-the-art results.
翻訳日:2023-12-11 17:52:31 公開日:2023-12-07
# DyRA: スケールロバスト物体検出のための動的分解能調整

DyRA: Dynamic Resolution Adjustment for Scale-robust Object Detection ( http://arxiv.org/abs/2311.17098v2 )

ライセンス: Link先を確認
Daeun Seo, Hoeseok Yang, Hyungshin Kim(参考訳) 物体検出において,物体の大きさの変動により一定精度を達成することは困難である。 この問題の1つの可能な解決策は、マルチレゾリューション戦略として知られる入力解像度を最適化することである。 解決を最適化するための従来のアプローチは、しばしば事前定義された解決や動的ニューラルネットワークに基づいているが、既存のアーキテクチャに対する実行時の解決最適化に関する研究は不足している。 本稿では,既存の検出器に対する畳み込みとトランスフォーマーエンコーダブロックを含むDyRAと呼ばれる適応分解能スケーリングネットワークを提案する。 我々のDyRAは、インスタンス固有のスケーリングを可能にする入力イメージからスケールファクターを返します。 このネットワークは、パレートスケールロス(paretoscaleloss)とバランスロス( balanceloss)という特別な設計の損失関数を持つ検出器と共同で訓練されている。 ParetoScaleLossは画像から適応的なスケールファクタを生成し、Ba BalanceLossはデータセットのローカライゼーションパワーに応じてスケールファクタを最適化する。 損失関数は、小物体と大物体の対比目的の精度低下を最小限に抑えるように設計されている。 COCO, RetinaNet, Faster-RCNN, FCOS, Mask-RCNNで行った実験は, 解像度調整のみによる多解像度ベースラインよりも1.3%, 1.1%, 1.3%, 0.8%の精度向上を実現した。 コードはhttps://github.com/DaEunFullGrace/DyRA.gitで入手できる。

In object detection, achieving constant accuracy is challenging due to the variability of object sizes. One possible solution to this problem is to optimize the input resolution, known as a multi-resolution strategy. Previous approaches for optimizing resolution are often based on pre-defined resolutions or a dynamic neural network, but there is a lack of study for run-time resolution optimization for existing architecture. In this paper, we propose an adaptive resolution scaling network called DyRA, which comprises convolutions and transformer encoder blocks, for existing detectors. Our DyRA returns a scale factor from an input image, which enables instance-specific scaling. This network is jointly trained with detectors with specially designed loss functions, namely ParetoScaleLoss and BalanceLoss. The ParetoScaleLoss produces an adaptive scale factor from the image, while the BalanceLoss optimizes the scale factor according to localization power for the dataset. The loss function is designed to minimize accuracy drop about the contrasting objective of small and large objects. Our experiments on COCO, RetinaNet, Faster-RCNN, FCOS, and Mask-RCNN achieved 1.3%, 1.1%, 1.3%, and 0.8% accuracy improvement than a multi-resolution baseline with solely resolution adjustment. The code is available at https://github.com/DaEunFullGrace/DyRA.git.
翻訳日:2023-12-11 17:52:10 公開日:2023-12-07
# DGR:デコードグラフ再重み付けによる量子誤差補正におけるドリフトと相関ノイズの対応

DGR: Tackling Drifted and Correlated Noise in Quantum Error Correction via Decoding Graph Re-weighting ( http://arxiv.org/abs/2311.16214v2 )

ライセンス: Link先を確認
Hanrui Wang and Pengyu Liu and Yilian Liu and Jiaqi Gu and Jonathan Baker and Frederic T. Chong and Song Han(参考訳) 量子ハードウェアは高いエラー率とノイズに悩まされており、直接動作するアプリケーションは非効率である。 qec(quantum error correction)は、複数のデータキュービットに分散して量子情報をエンコードし、シンドロームキュービットを使用してパリティをチェックする、フォールトトレランスに向けた重要な技術である。 MWPM(Minimum-Weight-Perfect-Matching)は、QECデコーダとして人気があり、シンドロームを入力とし、エラーを推測するシンドローム間のマッチングを見つける。 しかし、MWPMデコーダには2つの最重要課題がある。 第一に、実際の量子システムのノイズは時間とともに漂うことができるため、デコードグラフの初期重み付けと潜在的な不一致があり、論理的エラー率の深刻な性能低下に繋がる。 第二に、MWPMデコーダは独立したエラーに対処するが、2Qデポラライズチャネルのような実際のハードウェアで典型的な相関エラーに遭遇すると不足する。 量子オーバーヘッドのない効率的なデコードグラフエッジ再重み付け戦略であるDGRを提案する。 復号反復におけるマッチングの統計は、実際の量子ハードウェア上のエラーに関する豊富な情報を提供するという洞察を利用する。 デコードされたマッチングにおけるエッジとエッジペアの発生をカウントすることにより、各エッジの最新の確率とそれらの相関関係を統計的に推定することができる。 再重み付けプロセスは、アライメント再重み付けと相関再重み付けの2つの重要なステップを含む。 前者は実際の雑音に合わせて統計に基づいてmwpm重みを更新し、後者はエッジ相関を考慮した重みを調整する。 様々な条件下でのサーフェスコードとハニカムコードに対する広範囲な評価は、DGRが最悪のケースミスマッチで5000倍改善した平均ケースノイズミスマッチにおいて論理誤差率を3.6倍に削減していることを示している。

Quantum hardware suffers from high error rates and noise, which makes directly running applications on them ineffective. Quantum Error Correction (QEC) is a critical technique towards fault tolerance which encodes the quantum information distributively in multiple data qubits and uses syndrome qubits to check parity. Minimum-Weight-Perfect-Matching (MWPM) is a popular QEC decoder that takes the syndromes as input and finds the matchings between syndromes that infer the errors. However, there are two paramount challenges for MWPM decoders. First, as noise in real quantum systems can drift over time, there is a potential misalignment with the decoding graph's initial weights, leading to a severe performance degradation in the logical error rates. Second, while the MWPM decoder addresses independent errors, it falls short when encountering correlated errors typical on real hardware, such as those in the 2Q depolarizing channel. We propose DGR, an efficient decoding graph edge re-weighting strategy with no quantum overhead. It leverages the insight that the statistics of matchings across decoding iterations offer rich information about errors on real quantum hardware. By counting the occurrences of edges and edge pairs in decoded matchings, we can statistically estimate the up-to-date probabilities of each edge and the correlations between them. The reweighting process includes two vital steps: alignment re-weighting and correlation re-weighting. The former updates the MWPM weights based on statistics to align with actual noise, and the latter adjusts the weight considering edge correlations. Extensive evaluations on surface code and honeycomb code under various settings show that DGR reduces the logical error rate by 3.6x on average-case noise mismatch with exceeding 5000x improvement under worst-case mismatch.
翻訳日:2023-12-11 17:51:45 公開日:2023-12-07
# 物理GREにおけるLCM性能試験:いくつかの観察

Testing LLM performance on the Physics GRE: some observations ( http://arxiv.org/abs/2312.04613v1 )

ライセンス: Link先を確認
Pranav Gupta(参考訳) 大規模言語モデル(LLMs)の最近の発展と、オープンソースモデルや/または低コストAPIによる広範囲な利用により、いくつかのエキサイティングな製品やアプリケーションが登場し、その多くがK-12や大学生のためのSTEM教育技術分野にある。 リスクや制限を理解するために、これらの強力な言語モデルをいくつかのベンチマークで評価する必要がある。 本稿では,Google が提供している LLM ベースの会話サービス Bard の性能を標準化された物理 GRE 試験で要約し,解析する。

With the recent developments in large language models (LLMs) and their widespread availability through open source models and/or low-cost APIs, several exciting products and applications are emerging, many of which are in the field of STEM educational technology for K-12 and university students. There is a need to evaluate these powerful language models on several benchmarks, in order to understand their risks and limitations. In this short paper, we summarize and analyze the performance of Bard, a popular LLM-based conversational service made available by Google, on the standardized Physics GRE examination.
翻訳日:2023-12-11 17:44:43 公開日:2023-12-07
# 異常運転行動検出のためのサロゲート安全対策を用いたデータ駆動半教師付き機械学習

Data-driven Semi-supervised Machine Learning with Surrogate Safety Measures for Abnormal Driving Behavior Detection ( http://arxiv.org/abs/2312.04610v1 )

ライセンス: Link先を確認
Lanxin Zhang, Yongqi Dong, Haneen Farah, Arkady Zgonnikov, Bart van Arem(参考訳) 道路交通の安全と運転者の行動評価には異常運転行動の検出が重要である。 機械学習(ML)アルゴリズムの進歩と自然主義駆動データの蓄積により、多くのMLモデルが異常運転行動検出に採用されている。 既存のMLベースの検出器の多くは(完全に)教師付きML法に依存しており、かなりのラベル付きデータを必要とする。 しかし、地上の真理ラベルは必ずしも現実世界で利用できておらず、大量のデータをラベル付けするのは面倒である。 したがって、異常検出プロセスをより実現可能かつ効率的にするために、教師なしまたは半教師なしの方法を検討する必要がある。 このギャップを埋めるために,本研究では,いくつかの異常運転行動(例えば,急激な加速,高速車線変更)を明らかにする大規模実世界のデータを解析し,部分ラベル付きデータを用いて階層的エクストリーム学習マシン(HELM)に基づく半教師付きML法を開発し,その異常運転動作を正確に検出する。 さらに,従来のmlベースアプローチでは,車体運動の基本特性(速度や加速度など)を,異常走行行動のラベル付けや検出に主に活用する一方で,ssms(surrogate safety measures)をmlモデルの入力機能として導入し,検出性能の向上を図る。 実験結果から,提案した半教師付きMLモデルの有効性を示すとともに,SSMが重要な特徴であることを示す。 提案した半教師付きML法は、様々な指標(例えば、99.58%で最高の精度、0.9913で最高のF-1測定値)に関して、他のベースラインの半教師付きあるいは教師なしの手法よりも優れている。 アブレーション研究は,検出性能向上におけるssmの意義をさらに強調する。

Detecting abnormal driving behavior is critical for road traffic safety and the evaluation of drivers' behavior. With the advancement of machine learning (ML) algorithms and the accumulation of naturalistic driving data, many ML models have been adopted for abnormal driving behavior detection. Most existing ML-based detectors rely on (fully) supervised ML methods, which require substantial labeled data. However, ground truth labels are not always available in the real world, and labeling large amounts of data is tedious. Thus, there is a need to explore unsupervised or semi-supervised methods to make the anomaly detection process more feasible and efficient. To fill this research gap, this study analyzes large-scale real-world data revealing several abnormal driving behaviors (e.g., sudden acceleration, rapid lane-changing) and develops a Hierarchical Extreme Learning Machines (HELM) based semi-supervised ML method using partly labeled data to accurately detect the identified abnormal driving behaviors. Moreover, previous ML-based approaches predominantly utilize basic vehicle motion features (such as velocity and acceleration) to label and detect abnormal driving behaviors, while this study seeks to introduce Surrogate Safety Measures (SSMs) as the input features for ML models to improve the detection performance. Results from extensive experiments demonstrate the effectiveness of the proposed semi-supervised ML model with the introduced SSMs serving as important features. The proposed semi-supervised ML method outperforms other baseline semi-supervised or unsupervised methods regarding various metrics, e.g., delivering the best accuracy at 99.58% and the best F-1 measure at 0.9913. The ablation study further highlights the significance of SSMs for advancing detection performance.
翻訳日:2023-12-11 17:44:32 公開日:2023-12-07
# AI-Truckを用いた建設廃棄物輸送活動の短期予測

Short-term prediction of construction waste transport activities using AI-Truck ( http://arxiv.org/abs/2312.04609v1 )

ライセンス: Link先を確認
Meng Xu, Ke Han(参考訳) 建設廃棄物運搬用トラック(またはスラグトラック)は、都市部でよく見られる重荷車の一つであり、NOxやPMの排出量を多く生み出すだけでなく、道路や現場の逃亡ダストの主要な原因でもある。 スラグトラックは、地域交通と環境政策によって、一連の空間的および時間的アクセス制限を受ける。 本稿では, 環境法執行機関が局所トラック収集に対して, 時間的かつ積極的に対応できるように, 都市規模でスラグトラック活動を予測するという現実的な課題に対処する。 BI-LSTM, TCN, STGCN, PDFormerをベース分類器として利用し, 成都の193 km$^2$エリアにおいて, 1km$\times$1kmのスラグトラック活動のレベルを予測する, 深層アンサンブル学習フレームワーク (Coined AI-Truck) が設計されている。 分類器として、AI-Truckは、0.5hと1hの予測で80\%に近いマクロf1を得る。

Construction waste hauling trucks (or `slag trucks') are among the most commonly seen heavy-duty vehicles in urban streets, which not only produce significant NOx and PM emissions but are also a major source of on-road and on-site fugitive dust. Slag trucks are subject to a series of spatial and temporal access restrictions by local traffic and environmental policies. This paper addresses the practical problem of predicting slag truck activity at a city scale during heavy pollution episodes, such that environmental law enforcement units can take timely and proactive measures against localized truck aggregation. A deep ensemble learning framework (coined AI-Truck) is designed, which employs a soft vote integrator that utilizes BI-LSTM, TCN, STGCN, and PDFormer as base classifiers to predict the level of slag truck activities at a resolution of 1km$\times$1km, in a 193 km$^2$ area in Chengdu, China. As a classifier, AI-Truck yields a Macro f1 close to 80\% for 0.5h- and 1h-prediction.
翻訳日:2023-12-11 17:44:00 公開日:2023-12-07
# 注意融合による都市域表現学習

Urban Region Representation Learning with Attentive Fusion ( http://arxiv.org/abs/2312.04606v1 )

ライセンス: Link先を確認
Fengze Sun, Jianzhong Qi, Yanchuan Chang, Xiaoliang Fan, Shanika Karunasekera, Egemen Tanin(参考訳) 関連する都市データソースの増加により、都市部の表現、すなわち埋め込みを学ぶ新たな機会が生まれている。 埋め込みは、都市部の潜在特性を記述し、都市計画への応用に類似した地域を発見することができる。 既存手法では,各種類の地域特徴データを用いて領域の埋め込みを学習し,学習したすべての領域の埋め込みを融合させて統一された領域埋め込みを生成する。 しかし、これらの研究はしばしば核融合過程の意義を見落としている。 典型的な融合法は、和や結合のような単純な集合に依存し、融合領域の埋め込み内での相関を無視する。 この制限に対処するため,HAFusion という新しいモデルを提案する。 我々のモデルはDAFusionという名前の二重機能減衰核融合モジュールを用いており、これは異なる領域特徴からの埋め込みを融合させ、各領域の特徴と異なるタイプの領域特徴の間の高次相関を学習する。 DAFusionはジェネリックです - 既存のモデルに統合して、融合プロセスを強化することができます。 さらに,注意モジュールの有効融合能力に動機づけられたHALearningというハイブリッド注意機能学習モジュールを提案し,各タイプの地域特徴からの埋め込み学習を強化する。 3つの実世界のデータセットに対する大規模な実験は、我々のモデルHAFusionが3つの異なる予測タスクで最先端の手法より優れていることを示した。 学習した領域の埋め込みを使用することで、予測精度が最大31%向上する。

An increasing number of related urban data sources have brought forth novel opportunities for learning urban region representations, i.e., embeddings. The embeddings describe latent features of urban regions and enable discovering similar regions for urban planning applications. Existing methods learn an embedding for a region using every different type of region feature data, and subsequently fuse all learned embeddings of a region to generate a unified region embedding. However, these studies often overlook the significance of the fusion process. The typical fusion methods rely on simple aggregation, such as summation and concatenation, thereby disregarding correlations within the fused region embeddings. To address this limitation, we propose a novel model named HAFusion. Our model is powered by a dual-feature attentive fusion module named DAFusion, which fuses embeddings from different region features to learn higher-order correlations between the regions as well as between the different types of region features. DAFusion is generic - it can be integrated into existing models to enhance their fusion process. Further, motivated by the effective fusion capability of an attentive module, we propose a hybrid attentive feature learning module named HALearning to enhance the embedding learning from each individual type of region features. Extensive experiments on three real-world datasets demonstrate that our model HAFusion outperforms state-of-the-art methods across three different prediction tasks. Using our learned region embedding leads to consistent and up to 31% improvements in the prediction accuracy.
翻訳日:2023-12-11 17:43:39 公開日:2023-12-07
# 有界不確実性を持つ転送可能候補の提案

Transferable Candidate Proposal with Bounded Uncertainty ( http://arxiv.org/abs/2312.04604v1 )

ライセンス: Link先を確認
Kyeongryeol Go, Kye-Hyeon Kim(参考訳) 経験的観点では、アクティブラーニングによって選択されたサブセットは、他のモデルに転送された場合のランダムサンプリングよりも優位性を保証することはできない。 転送可能性の検証の重要性を強調する一方で、以前の研究による実験的な設計では、データサブセットのインフォメーション性がモデル構成よりも変更可能であることをしばしば無視していた。 この問題に対処するために、我々はCandidate Proposalと呼ばれる新しい実験設計を導入し、アクティブな学習アルゴリズムが情報サブセットを選択するトランスファー可能なデータ候補を見つける。 そして、不確実性推定に基づいて、おそらく冗長なデータポイントをフィルタリングすることにより、転送可能なデータ候補のプールを制限する、有界不確実性を持つ転送可能候補提案(tbu)を提案する。 CIFAR-10/100やSVHNなどの画像分類におけるTBUの有効性を検証した。 異なるモデル構成に移行すると、TBU一貫性は既存のアクティブ学習アルゴリズムのパフォーマンスを向上させる。 私たちのコードはhttps://github.com/gokyeongryeol/tbuで利用可能です。

From an empirical perspective, the subset chosen through active learning cannot guarantee an advantage over random sampling when transferred to another model. While it underscores the significance of verifying transferability, experimental design from previous works often neglected that the informativeness of a data subset can change over model configurations. To tackle this issue, we introduce a new experimental design, coined as Candidate Proposal, to find transferable data candidates from which active learning algorithms choose the informative subset. Correspondingly, a data selection algorithm is proposed, namely Transferable candidate proposal with Bounded Uncertainty (TBU), which constrains the pool of transferable data candidates by filtering out the presumably redundant data points based on uncertainty estimation. We verified the validity of TBU in image classification benchmarks, including CIFAR-10/100 and SVHN. When transferred to different model configurations, TBU consistency improves performance in existing active learning algorithms. Our code is available at https://github.com/gokyeongryeol/TBU.
翻訳日:2023-12-11 17:43:17 公開日:2023-12-07
# プログラム的弱監督を検証するためのfr\'echet境界の推定

Estimating Fr\'echet bounds for validating programmatic weak supervision ( http://arxiv.org/abs/2312.04601v1 )

ライセンス: Link先を確認
Felipe Maia Polo, Mikhail Yurochkin, Moulinath Banerjee, Subha Maity, Yuekai Sun(参考訳) 我々は、ある変数が連続評価される(おそらく高次元)分布クラス上のFr\echet境界を推定する方法を開発する。 プログラム弱監督(PWS)を用いて訓練された機械学習(ML)モデルの性能を評価することにより,限界制約の不確実性の下で計算された境界の統計的正当性を確立し,アルゴリズムの有用性を示す。 PWSは、弱い監督インプット(例えば、クラウドソースされたラベル、知識ベース、関連するタスクに関する事前訓練されたモデルなど)からの原則的学習のフレームワークであり、科学と工学の多くの分野で大きな成功を収めた。 残念ながら、ラベル付きデータがないため、PWSでトレーニングされたMLモデルの性能を検証することは一般的に困難である。 我々のアルゴリズムは、精度/リコール/精度/F1スコアなどのパフォーマンス指標の急激な下限と上限を推定することでこの問題に対処する。

We develop methods for estimating Fr\'echet bounds on (possibly high-dimensional) distribution classes in which some variables are continuous-valued. We establish the statistical correctness of the computed bounds under uncertainty in the marginal constraints and demonstrate the usefulness of our algorithms by evaluating the performance of machine learning (ML) models trained with programmatic weak supervision (PWS). PWS is a framework for principled learning from weak supervision inputs (e.g., crowdsourced labels, knowledge bases, pre-trained models on related tasks, etc), and it has achieved remarkable success in many areas of science and engineering. Unfortunately, it is generally difficult to validate the performance of ML models trained with PWS due to the absence of labeled data. Our algorithms address this issue by estimating sharp lower and upper bounds for performance metrics such as accuracy/recall/precision/F1 score.
翻訳日:2023-12-11 17:43:01 公開日:2023-12-07
# 数ショット分類のための効率的な微調整によるドメイン内分散合成

Diversified in-domain synthesis with efficient fine-tuning for few-shot classification ( http://arxiv.org/abs/2312.03046v2 )

ライセンス: Link先を確認
Victor G. Turrisi da Costa, Nicola Dall'Asen, Yiming Wang, Nicu Sebe, Elisa Ricci(参考訳) 画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。 少数ショット分類器の改良に向けた最近の研究の方向性は、最新のテキスト対画像生成モデルによって作成された合成画像でラベル付きサンプルを増強することである。 この傾向に従い、合成データを用いた数ショット学習における一般化課題に対処する新しいアプローチであるDISEF(Diversified In-domain Synthesis with Efficient Fine-tuning)を提案する。 DISEFは2つの主要コンポーネントから構成される。 まず,高度なキャプションモデルから得られる実サンプルとそのリッチセマンティクスを活用することで,ドメイン内サンプルの多様性を促進し,より一般化する新しいテキストから画像への拡張パイプラインを提案する。 次に,視覚言語モデルにおけるテキストと画像エンコーダの協調適応のための低ランク適応(lora)の利用を提案する。 提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端技術を確立する。 コードはhttps://github.com/vturrisi/disefで入手できる。

Few-shot image classification aims to learn an image classifier using only a small set of labeled examples per class. A recent research direction for improving few-shot classifiers involves augmenting the labelled samples with synthetic images created by state-of-the-art text-to-image generation models. Following this trend, we propose Diversified In-domain Synthesis with Efficient Fine-tuning (DISEF), a novel approach which addresses the generalization challenge in few-shot learning using synthetic data. DISEF consists of two main components. First, we propose a novel text-to-image augmentation pipeline that, by leveraging the real samples and their rich semantics coming from an advanced captioning model, promotes in-domain sample diversity for better generalization. Second, we emphasize the importance of effective model fine-tuning in few-shot recognition, proposing to use Low-Rank Adaptation (LoRA) for joint adaptation of the text and image encoders in a Vision Language Model. We validate our method in ten different benchmarks, consistently outperforming baselines and establishing a new state-of-the-art for few-shot classification. Code is available at https://github.com/vturrisi/disef.
翻訳日:2023-12-11 17:39:48 公開日:2023-12-07
# NeuSD:多視点テキスト・画像拡散による表面処理

NeuSD: Surface Completion with Multi-View Text-to-Image Diffusion ( http://arxiv.org/abs/2312.04654v1 )

ライセンス: Link先を確認
Savva Ignatyev, Daniil Selikhanovych, Oleg Voynov, Yiqun Wang, Peter Wonka, Stamatios Lefkimmiatis, Evgeny Burnaev(参考訳) 本稿では,対象物の一部のみを捉えた複数の画像から3次元表面再構成を行う手法を提案する。 提案手法は, 表面の可視部分の再構成に神経放射場を用いた表面再構成法と, SDS (Score Distillation Sampling) 方式で事前学習した2次元拡散モデルを用いて, 可観測領域の形状を再現する手法である。 3つのコンポーネントを紹介します。 まず、外観情報に絡み合った色レンダリングの代わりに、SDSの純幾何学的表現として正規写像を用いることを提案する。 第2に、トレーニング中のSDSノイズの凍結を導入し、よりコヒーレントな勾配とより良い収束をもたらす。 第3に,表面の非可観測部分の生成を微調整したり,基礎となる2次元安定拡散モデルを変更したりすることなく条件付ける方法として,マルチビューSDSを提案する。 blendedmvsデータセットに対するアプローチを評価し,競合する手法に対して有意な質的・定量的改善を示す。

We present a novel method for 3D surface reconstruction from multiple images where only a part of the object of interest is captured. Our approach builds on two recent developments: surface reconstruction using neural radiance fields for the reconstruction of the visible parts of the surface, and guidance of pre-trained 2D diffusion models in the form of Score Distillation Sampling (SDS) to complete the shape in unobserved regions in a plausible manner. We introduce three components. First, we suggest employing normal maps as a pure geometric representation for SDS instead of color renderings which are entangled with the appearance information. Second, we introduce the freezing of the SDS noise during training which results in more coherent gradients and better convergence. Third, we propose Multi-View SDS as a way to condition the generation of the non-observable part of the surface without fine-tuning or making changes to the underlying 2D Stable Diffusion model. We evaluate our approach on the BlendedMVS dataset demonstrating significant qualitative and quantitative improvements over competing methods.
翻訳日:2023-12-11 17:33:24 公開日:2023-12-07
# 潜在値と検閲フィードバックを用いた学習閾値

Learning Thresholds with Latent Values and Censored Feedback ( http://arxiv.org/abs/2312.04653v1 )

ライセンス: Link先を確認
Jiahao Zhang, Tao Lin, Weiqiang Zheng, Zhe Feng, Yifeng Teng, Xiaotie Deng(参考訳) 本稿では、未知の報酬$g(\gamma, v)$が提案された閾値$\gamma$および潜在値$v$に依存し、その閾値が未知の潜在値よりも低い場合のみ$$$となるような潜在空間における閾値を積極的に学習する問題について検討する。 この問題は、オンラインオークションにおける予約価格の最適化、クラウドソーシングにおけるオンラインタスクの割り当て、雇用におけるリクルートバーの設定など、実用的なシナリオにおける幅広い応用がある。 まず、最適値よりも小さい$\epsilon$で閾値を学習するクエリの複雑さを特徴付け、もし$g(\gamma, v)$が$\gamma$と$v$の両方に関して単調であっても、必要なクエリ数が無限に大きくなることを証明します。 正の面では、$g$が単調で値分布のCDFがリプシッツであるとき、厳密なクエリ複雑性$\tilde{\Theta}(1/\epsilon^3)$を提供する。 さらに、厳密な$\tilde{\Theta}(1/\epsilon^3)$クエリの複雑さは、片側リプシッツ性を満たす$g$で達成でき、この問題の完全な特徴づけを提供する。 最後に、このモデルをオンライン学習環境に拡張し、前述のクエリ複雑性結果と連続アームバンディット技術を用いて、厳密な$\Theta(T^{2/3})$ regret boundを示す。

In this paper, we investigate a problem of actively learning threshold in latent space, where the unknown reward $g(\gamma, v)$ depends on the proposed threshold $\gamma$ and latent value $v$ and it can be $only$ achieved if the threshold is lower than or equal to the unknown latent value. This problem has broad applications in practical scenarios, e.g., reserve price optimization in online auctions, online task assignments in crowdsourcing, setting recruiting bars in hiring, etc. We first characterize the query complexity of learning a threshold with the expected reward at most $\epsilon$ smaller than the optimum and prove that the number of queries needed can be infinitely large even when $g(\gamma, v)$ is monotone with respect to both $\gamma$ and $v$. On the positive side, we provide a tight query complexity $\tilde{\Theta}(1/\epsilon^3)$ when $g$ is monotone and the CDF of value distribution is Lipschitz. Moreover, we show a tight $\tilde{\Theta}(1/\epsilon^3)$ query complexity can be achieved as long as $g$ satisfies one-sided Lipschitzness, which provides a complete characterization for this problem. Finally, we extend this model to an online learning setting and demonstrate a tight $\Theta(T^{2/3})$ regret bound using continuous-arm bandit techniques and the aforementioned query complexity results.
翻訳日:2023-12-11 17:33:06 公開日:2023-12-07
# VOODOO 3D : ワンショット3Dヘッド再生のためのボリュームポートレート・アンタングルメント

VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head Reenactment ( http://arxiv.org/abs/2312.04651v1 )

ライセンス: Link先を確認
Phong Tran, Egor Zakharov, Long-Nhat Ho, Anh Tuan Tran, Liwen Hu, Hao Li(参考訳) 本稿では,音源の出現とドライバ表現のための全容積型ニューラル・ディスタングルメント・フレームワークに基づく3次元認識型ワンショット頭部再現法を提案する。 提案手法はリアルタイムであり,ホログラフィックディスプレイに基づく3次元遠隔会議システムに適した高忠実・高精細な出力を実現する。 既存の切削エッジ3dウェア再現法は、しばしば神経放射野や3dメッシュを使用してビュー一貫性のある外観エンコーディングを生成するが、同時に3dmmのような線形顔モデルに依存し、表情との絡み合いを達成する。 その結果、その再現結果はしばしば運転者から身元を漏らしたり、不自然な表現をしたりする。 そこで本研究では,ソース画像とドライバ映像の両方を3次元平面に基づく共有3次元ボリューム表現へ持ち上げる神経自己教師付き不等角化手法を提案する。 この表現は、駆動画像から抽出された表現三面体で自由に操作でき、ニューラル放射場を用いて任意のビューから描画できる。 我々は,大規模な映像データセットを用いた自己教師型学習により,この歪みを実現する。 さらに,同じ実世界データを用いた3次元昇降の一般化性を向上させるため,高精度な微調整手法を提案する。 幅広いデータセットで最先端のパフォーマンスを示すとともに,非正面頭部ポーズやソースとドライバの両方の複雑な表現を含む,高度に挑戦的で多様な被験者に対する高品質な3d認識頭部再現例を示す。

We present a 3D-aware one-shot head reenactment method based on a fully volumetric neural disentanglement framework for source appearance and driver expressions. Our method is real-time and produces high-fidelity and view-consistent output, suitable for 3D teleconferencing systems based on holographic displays. Existing cutting-edge 3D-aware reenactment methods often use neural radiance fields or 3D meshes to produce view-consistent appearance encoding, but, at the same time, they rely on linear face models, such as 3DMM, to achieve its disentanglement with facial expressions. As a result, their reenactment results often exhibit identity leakage from the driver or have unnatural expressions. To address these problems, we propose a neural self-supervised disentanglement approach that lifts both the source image and driver video frame into a shared 3D volumetric representation based on tri-planes. This representation can then be freely manipulated with expression tri-planes extracted from the driving images and rendered from an arbitrary view using neural radiance fields. We achieve this disentanglement via self-supervised learning on a large in-the-wild video dataset. We further introduce a highly effective fine-tuning approach to improve the generalizability of the 3D lifting using the same real-world data. We demonstrate state-of-the-art performance on a wide range of datasets, and also showcase high-quality 3D-aware head reenactment on highly challenging and diverse subjects, including non-frontal head poses and complex expressions for both source and driver.
翻訳日:2023-12-11 17:32:34 公開日:2023-12-07
# PyThaiNLP: Pythonのタイ語自然言語処理

PyThaiNLP: Thai Natural Language Processing in Python ( http://arxiv.org/abs/2312.04649v1 )

ライセンス: Link先を確認
Wannaphong Phatthiyaphaibun, Korakot Chaovavanich, Charin Polpanumas, Arthit Suriyawongkul, Lalita Lowphansirikul, Pattarawat Chormai, Peerat Limkonchotiwat, Thanathip Suntorntip, Can Udomcharoenchaikit(参考訳) PyThaiNLPはPythonで実装されたタイ語のためのオープンソース自然言語処理(NLP)ライブラリである。 タイ語向けの幅広いソフトウェア、モデル、データセットを提供する。 まず,pythainlp開発に先立って,タイ語ツールに関する簡単な歴史的文脈について述べる。 次に、提供される機能やデータセット、事前学習された言語モデルを概説します。 その後、開発マイルストーンをまとめ、開発における私たちの経験について論じます。 我々は,産業・研究コミュニティがPyThaiNLPをどのように活用しているかを実証することによって結論付けた。 ライブラリはhttps://github.com/pythainlp/pythainlpで無料で利用できる。

We present PyThaiNLP, a free and open-source natural language processing (NLP) library for Thai language implemented in Python. It provides a wide range of software, models, and datasets for Thai language. We first provide a brief historical context of tools for Thai language prior to the development of PyThaiNLP. We then outline the functionalities it provided as well as datasets and pre-trained language models. We later summarize its development milestones and discuss our experience during its development. We conclude by demonstrating how industrial and research communities utilize PyThaiNLP in their work. The library is freely available at https://github.com/pythainlp/pythainlp.
翻訳日:2023-12-11 17:32:07 公開日:2023-12-07
# 新しい確率的移動学習戦略を用いた多項カオス拡張に基づくサロゲートモデリングの強化

Enhancing Polynomial Chaos Expansion Based Surrogate Modeling using a Novel Probabilistic Transfer Learning Strategy ( http://arxiv.org/abs/2312.04648v1 )

ライセンス: Link先を確認
Wyatt Bridgman, Uma Balakrishnan, Reese Jones, Jiefu Chen, Xuqing Wu, Cosmin Safta, Yueqin Huang, Mohammad Khalil(参考訳) 代用サロゲートモデリングの分野では、多項式カオス展開(PCE)により、高価なフォワードモデルシミュレーションの代わりに安価で正確な代用サロゲートを構築することができる。 ブラックボックスシミュレーションでは、非侵入型PCEは一連のシミュレーション応答評価を用いてこれらのサロゲートを構築することができる。 この文脈では、pce係数は線形回帰を用いて得られるが、これはポイントコロケーションや確率応答曲面としても知られている。 回帰は優れたスケーラビリティを示し、プロジェクションのような他の非侵襲的なアプローチとは対照的にノイズの多い関数評価を処理できる。 しかしながら、オーバーサンプリングは一般に線形回帰アプローチに推奨されるため、高価な前方モデルではシミュレーション要求は禁止される。 そこで本研究では,同様のpceサロゲート構築タスク(ソースドメイン)を通じて得られる知識を,限られたフォワードモデルシミュレーション(トレーニングデータ)を持つ新しいサロゲート構築タスク(ターゲットドメイン)に転送するトランスファー学習の活用を提案する。 提案する転送学習戦略は,ベイズモデリングとデータ同化に触発された新しい手法を用いて,転送する情報量を決定する。 この戦略は数値的な調査によって精査され、石油・ガス産業の工学的問題に適用される。

In the field of surrogate modeling, polynomial chaos expansion (PCE) allows practitioners to construct inexpensive yet accurate surrogates to be used in place of the expensive forward model simulations. For black-box simulations, non-intrusive PCE allows the construction of these surrogates using a set of simulation response evaluations. In this context, the PCE coefficients can be obtained using linear regression, which is also known as point collocation or stochastic response surfaces. Regression exhibits better scalability and can handle noisy function evaluations in contrast to other non-intrusive approaches, such as projection. However, since over-sampling is generally advisable for the linear regression approach, the simulation requirements become prohibitive for expensive forward models. We propose to leverage transfer learning whereby knowledge gained through similar PCE surrogate construction tasks (source domains) is transferred to a new surrogate-construction task (target domain) which has a limited number of forward model simulations (training data). The proposed transfer learning strategy determines how much, if any, information to transfer using new techniques inspired by Bayesian modeling and data assimilation. The strategy is scrutinized using numerical investigations and applied to an engineering problem from the oil and gas industry.
翻訳日:2023-12-11 17:31:59 公開日:2023-12-07
# OpenAI GPTモデルによるサルカスム検出について

On Sarcasm Detection with OpenAI GPT-based Models ( http://arxiv.org/abs/2312.04642v1 )

ライセンス: Link先を確認
Montgomery Gole and Williams-Paul Nwadiugwu and Andriy Miranskyy(参考訳) 皮肉(英: sarcasm)は、読者やリスナーが文脈や社会的手がかりを考慮して意図した意味を解釈することを要求する皮肉の一形態である。 機械学習の分類モデルは、社会的複雑さと矛盾する性質のため、長い間サルカズムの検出に苦労してきた。 本稿では, GPT-3, InstructGPT, GPT-3.5, GPT-4 などの生成事前学習型トランスフォーマ(GPT)モデルを用いて, 自然言語の皮肉を検出する。 サイズやリリースの微調整とゼロショットモデルをテストする。 GPTモデルは、人気のSelf-Annotated Reddit Corpus (SARC 2.0) sarcasmデータセットの政治的およびバランスの取れた部分(pol-bal)でテストされた。 微調整の場合、最大の微調整GPT-3モデルは精度と0.81ドルのF_1$スコアを達成する。 ゼロショットの場合、GPT-4モデルの1つは精度0.70で、F_1$スコア0.75である。 他のモデルは低い。 さらに、モデルの性能はリリース毎に改善または悪化し、リリース後のパフォーマンスの再評価の必要性を強調します。

Sarcasm is a form of irony that requires readers or listeners to interpret its intended meaning by considering context and social cues. Machine learning classification models have long had difficulty detecting sarcasm due to its social complexity and contradictory nature. This paper explores the applications of the Generative Pretrained Transformer (GPT) models, including GPT-3, InstructGPT, GPT-3.5, and GPT-4, in detecting sarcasm in natural language. It tests fine-tuned and zero-shot models of different sizes and releases. The GPT models were tested on the political and balanced (pol-bal) portion of the popular Self-Annotated Reddit Corpus (SARC 2.0) sarcasm dataset. In the fine-tuning case, the largest fine-tuned GPT-3 model achieves accuracy and $F_1$-score of 0.81, outperforming prior models. In the zero-shot case, one of GPT-4 models yields an accuracy of 0.70 and $F_1$-score of 0.75. Other models score lower. Additionally, a model's performance may improve or deteriorate with each release, highlighting the need to reassess performance after each release.
翻訳日:2023-12-11 17:31:37 公開日:2023-12-07
# ラベル付き補間器の自動エンコーディング、画像からのパラメータ推定、パラメータからのイメージ

Autoencoding Labeled Interpolator, Inferring Parameters From Image, And Image From Parameters ( http://arxiv.org/abs/2312.04640v1 )

ライセンス: Link先を確認
Ali SaraerToosi and Avery Broderick(参考訳) イベント・ホライズン望遠鏡(eht)は、ブラックホールの降着流を事象ホライゾンスケールで研究するための道筋を提供する。 EHT観測に半解析モデルを適用するには、計算コストのかかる合成画像を構築する必要がある。 本研究では,可変オートエンコーダの能力を拡張した生成型機械学習モデルを用いて画像生成ツールを提案する。 このツールは、画像のトレーニングセット間を迅速かつ連続的に補間することができ、それらの画像の定義パラメータを取得することができる。 合成ブラックホールの画像で訓練されたこのツールは、ブラックホールの画像と関連する物理パラメータを補間することに成功した。 画像生成の計算コストを削減することにより、ブラックホール系の観測のためのパラメータ推定とモデル検証を容易にする。

The Event Horizon Telescope (EHT) provides an avenue to study black hole accretion flows on event-horizon scales. Fitting a semi-analytical model to EHT observations requires the construction of synthetic images, which is computationally expensive. This study presents an image generation tool in the form of a generative machine learning model, which extends the capabilities of a variational autoencoder. This tool can rapidly and continuously interpolate between a training set of images and can retrieve the defining parameters of those images. Trained on a set of synthetic black hole images, our tool showcases success in both interpolating black hole images and their associated physical parameters. By reducing the computational cost of generating an image, this tool facilitates parameter estimation and model validation for observations of black hole system.
翻訳日:2023-12-11 17:31:17 公開日:2023-12-07
# フォトニックフュージョンネットワークにおけるパーコレーションの効率的なシミュレーションアルゴリズム

Efficient algorithms for simulating percolation in photonic fusion networks ( http://arxiv.org/abs/2312.04639v1 )

ライセンス: Link先を確認
Matthias C. L\"obl, Stefano Paesani, Anders S. S{\o}rensen(参考訳) パーコレーション現象の研究は自然科学に様々な応用があるため、それに対応するパーコレーション閾値を推定する効率的なアルゴリズムが開発されている。 例えば、これはNewman-Ziffアルゴリズムが効率的なシミュレーションを可能にする広く使われている結合部位パーコレーションモデルに適用できる。 本稿では,グラフ状態を用いた計測に基づくフォトニック量子コンピューティングに適用可能な,非標準パーコレーションモデルについて考察する。 我々は、多数の小さなリソース状態を接続する融合ネットワークによって大規模なグラフ状態が生成される顕著なアーキテクチャに焦点を当てる。 このようなシステムにおける光子損失に対する耐性を推定するパーコレーションモデルを調査し,ニューマン・ジフ法を改良して解析する効率的なアルゴリズムを開発した。 我々は,すべての融合が同時に行われる非適応型核融合ネットワークと,前回の核融合の試みの結果に基づいて核融合が繰り返される適応型核融合ネットワークを考える。 我々は,これらのアルゴリズムを用いて複数の融合ネットワークを特徴付け,対応するソースコードを提供する。

The study of percolation phenomena has various applications in natural sciences and, therefore, efficient algorithms have been developed to estimate the corresponding percolation thresholds. For instance, this applies to the widely-used bond-site percolation model for which the Newman-Ziff algorithm enables an efficient simulation. Here, we consider several non-standard percolation models that have applications in measurement-based photonic quantum computing with graph states. We focus on prominent architectures where large-scale graph states are created by fusion networks connecting many small resource states. We investigate percolation models that provide an estimate of the tolerance to photon loss in such systems and we develop efficient algorithms to analyze them through modifications of the Newman-Ziff algorithm. We consider non-adaptive fusion networks with all fusions being performed at once, and adaptive ones where fusions are repeated conditioned on the outcome of previous fusion attempts. We demonstrate our algorithms by using them to characterize several fusion networks and provide the corresponding source code.
翻訳日:2023-12-11 17:31:04 公開日:2023-12-07
# Ancilla Anyon 貯留層によるデコヒーレンス

Decoherence through Ancilla Anyon Reservoirs ( http://arxiv.org/abs/2312.04638v1 )

ライセンス: Link先を確認
Nayan Myerson-Jain, Taylor L. Hughes, Cenke Xu(参考訳) 我々は「アンシラ・アノン」のバルク貯留層との相互作用を通して、位相秩序の隙間のない/臨界境界のデコヒーレンスを探求する。 例として、$2d$ toricコードのクリティカルバウンダリを取り上げます。 アノンの固有非局所性は、通常のデコヒーレンス問題に対する強い対称性と弱い対称性条件を、強または弱ゲージ不変条件に拡張することを要求する。 我々は、$\textit{doubled}$ Hilbert 空間において、境界の分割関数が 2d$Critical Ising モデルの2つの層に写像されることを示した。 ボソニック$e$と$m$エノンのトンネルに付随する直線欠陥は関係があり、その結果、二重ヒルベルト空間の境界上でそれぞれ$e$または$m$エノンの長距離相関が生じる。 対照的に、$f$anyon の欠陥は極端であり、有効中心電荷が変化する固定点の列と、連続的にスケール次元が変化するパワー-ロー相関をもたらす。 また,マヨラナゼロモードのデコヒーレンス・アナローグは,関連するe$およびm$ anyonデコヒーレンスチャネルの空間的インターフェースに局在しており,境界のr\'enyiエントロピーの普遍的対数的スケーリングに繋がることを示した。

We explore the decoherence of the gapless/critical boundary of a topological order, through interactions with the bulk reservoir of "ancilla anyons." We take the critical boundary of the $2d$ toric code as an example. The intrinsic nonlocal nature of the anyons demands the strong and weak symmetry condition for the ordinary decoherence problem be extended to the strong or weak gauge invariance conditions. We demonstrate that in the $\textit{doubled}$ Hilbert space, the partition function of the boundary is mapped to two layers of the $2d$ critical Ising model with an inter-layer line defect that depends on the species of the anyons causing the decoherence. The line defects associated with the tunneling of bosonic $e$ and $m$ anyons are relevant, and result in long-range correlations for either the $e$ or $m$ anyon respectively on the boundary in the doubled Hilbert space. In contrast, the defect of the $f$ anyon is marginal and leads to a line of fixed points with varying effective central charges, and power-law correlations having continuously varying scaling dimensions. We also demonstrate that decoherence-analogues of Majorana zero modes are localized at the spatial interface of the relevant $e$ and $m$ anyon decoherence channels, which leads to a universal logarithmic scaling of the R\'enyi entropy of the boundary.
翻訳日:2023-12-11 17:30:48 公開日:2023-12-07
# スピン軌道相互作用を介する量子ドットアレイにおける量子情報伝達と量子演算

Simultaneous Quantum Information Transfer and Quantum Operations in Quantum Dot Arrays Mediated by Spin-Orbit Interaction ( http://arxiv.org/abs/2312.04631v1 )

ライセンス: Link先を確認
D. Fern\'andez-Fern\'andez, Yue Ban, Gloria Platero(参考訳) 量子情報転送は、あらゆる潜在的プラットフォームとアーキテクチャにおけるスケーラブルな量子コンピューティングの基盤である。 ホールスピン量子ビットは、固有のスピン軌道相互作用(SOI)により、量子ゲートの実装に基本となる高速量子演算を約束する。 しかし、量子転送プロトコルにおけるSOIの影響は未解決のままである。 本稿では,アダイアバティリティへの近道,ホールスピン状態の長距離移動,半導体量子ドットアレイ内の絡み合う対の量子分布について検討する。 我々は、電場操作がSOIの動的制御を可能にし、転送中に量子ゲートの同時実装を可能にし、量子アルゴリズムを著しく高速化する可能性を実証した。 転送と平行に量子ゲートを実行する能力を利用することで、スピン状態に焦点を合わせ保存するために動的デカップリング方式を用いて、転送忠実度を高める。

Quantum information transfer is fundamental for scalable quantum computing in any potential platform and architecture. Hole spin qubits, owing to their intrinsic spin-orbit interaction (SOI), promise fast quantum operations which are fundamental for the implementation of quantum gates. Yet, the influence of SOI in quantum transfer protocols remains an open question. Here, we investigate, using Shortcuts to Adiabaticity, the long-range transfer of hole spin states and quantum distribution of entangled pairs in a semiconductor quantum dot array. We demonstrate that electric field manipulation allows dynamical control of the SOI, enabling simultaneous implementation of quantum gates during the transfer, with the potential to significantly accelerate quantum algorithms. By harnessing the ability to perform quantum gates in parallel with the transfer, we employ dynamical decoupling schemes to focus and preserve the spin state, leading to higher transfer fidelity.
翻訳日:2023-12-11 17:30:15 公開日:2023-12-07
# ホログラフィックレニーエントロピーのための修正型宇宙ブレインの提案

A Modified Cosmic Brane Proposal for Holographic Renyi Entropy ( http://arxiv.org/abs/2312.04625v1 )

ライセンス: Link先を確認
Xi Dong, Jonah Kudler-Flam and Pratik Rath(参考訳) 本稿では,複数の極端面の存在下でのホログラフィックレニーエントロピーを計算するための新しい公式を提案する。 本提案は,固定領域状態に基づく波動関数の計算と,renyiエントロピーの対角近似を仮定することに基づく。 Renyi index $n\geq1$ に対して、我々の提案はホログラフィック Renyi entropy に対する既存の宇宙ブレインの提案と一致する。 しかし、n<1$ に対して、この提案は、エンタングルメント相転移やバルク量子補正が重要でない場合でさえも、宇宙ブレーンの提案に先行する(ニュートンの定数 $g$ で)新しい位相を予測している。 固定領域状態に対する最適化の観点からは、この2つの提案の違いは最適化の順序から理解することができる:$n<1$の場合、宇宙ブレイン提案は最小限の処方令であるのに対して、我々の提案は最大限の処方令である。 実例を用いて,このような先行順序補正の存在を実証する。 特に,本提案では,PSSYモデルと高エネルギー固有状態の文献における既存の結果を再現し,前述した先行順序補正を$n<1$ Renyiエントロピーに普遍的に説明する。

We propose a new formula for computing holographic Renyi entropies in the presence of multiple extremal surfaces. Our proposal is based on computing the wave function in the basis of fixed-area states and assuming a diagonal approximation for the Renyi entropy. For Renyi index $n\geq1$, our proposal agrees with the existing cosmic brane proposal for holographic Renyi entropy. For $n<1$, however, our proposal predicts a new phase with leading order (in Newton's constant $G$) corrections to the cosmic brane proposal, even far from entanglement phase transitions and when bulk quantum corrections are unimportant. Recast in terms of optimization over fixed-area states, the difference between the two proposals can be understood to come from the order of optimization: for $n<1$, the cosmic brane proposal is a minimax prescription whereas our proposal is a maximin prescription. We demonstrate the presence of such leading order corrections using illustrative examples. In particular, our proposal reproduces existing results in the literature for the PSSY model and high-energy eigenstates, providing a universal explanation for previously found leading order corrections to the $n<1$ Renyi entropies.
翻訳日:2023-12-11 17:29:58 公開日:2023-12-07
# プロセスツリー:複雑な長距離メモリを持つ量子プロセスの効率的な表現

Process Tree: Efficient Representation of Quantum Processes with Complex Long-Range Memory ( http://arxiv.org/abs/2312.04624v1 )

ライセンス: Link先を確認
Neil Dowling and Kavan Modi and Roberto N. Mu\~noz and Sukhbinder Singh and Gregory A. L. White(参考訳) プロセスツリーと呼ばれる量子非マルコフ過程のクラスを導入し、多項式的に減衰する時間相関と時間スケールに分散したメモリを示す。 このプロセスのクラスは、(1) {causality-serving} map (superprocesses) と (2) {locality-serving} のスケール変換の時間的変化からなる木のような幾何を持つテンソルネットワークによって記述される。 このプロセスにおける長距離相関は、ほぼ完全にメモリ効果に由来する傾向にあり、真の量子パワーロー相関を時間内に満たすことが示されている。 重要なことに、このクラスはマルチ時間相関関数の効率的な計算を可能にする。 物理モデルの数値シミュレーションにおけるこのモデル非依存クラスの有用性を示すために、任意のマルチタイム特徴量の観点から、パラダイム的スピン-ボソンモデルの強いメモリダイナミクスを近似する方法を示す。 等価にコストのかかる行列積作用素(mpo)の表現とは対照的に、アンサッツは関連する物理学のfiducial characterizationを生成する。 我々の研究は、強く相互作用するオープン量子系の分野におけるより効率的な数値的手法の開発と、時間的再正規化群スキームの理論的発展の基礎を築いた。

We introduce a class of quantum non-Markovian processes -- dubbed process trees -- that exhibit polynomially decaying temporal correlations and memory distributed across time scales. This class of processes is described by a tensor network with tree-like geometry whose component tensors are (1) {causality-preserving} maps (superprocesses) and (2) {locality-preserving} temporal change of scale transformations. We show that the long-range correlations in this class of processes tends to originate almost entirely from memory effects, and can accommodate genuinely quantum power-law correlations in time. Importantly, this class allows efficient computation of multi-time correlation functions. To showcase the potential utility of this model-agnostic class for numerical simulation of physical models, we show how it can approximate the strong memory dynamics of the paradigmatic spin-boson model, in term of arbitrary multitime features. In contrast to an equivalently costly matrix product operator (MPO) representation, the ansatz produces a fiducial characterization of the relevant physics. Our work lays the foundation for the development of more efficient numerical techniques in the field of strongly interacting open quantum systems, as well as the theoretical development of a temporal renormalization group scheme.
翻訳日:2023-12-11 17:29:36 公開日:2023-12-07
# 位相安定化符号のホログラフィックビュー

A holographic view of topological stabilizer codes ( http://arxiv.org/abs/2312.04617v1 )

ライセンス: Link先を確認
Thomas Schuster, Nathanan Tantivasadakarn, Ashvin Vishwanath, Norman Y. Yao(参考訳) バルク境界対応は、物質のトポロジカルな位相の特徴である。 それにもかかわらず、我々の対応の理解は、内在的な位相次数を持つ相に対して不完全であり、フラクトンのようなよりエキゾチックな相にはほとんど完全に欠けている。 前者にとって興味深いことに、最近の研究は、バルク位相次数は境界ヒルベルト空間内の非局所構造に現れることを示唆している。 ここでは,ポーリ位相安定化符号のバルク境界対応を理解するための明示的かつ一般的な枠組みを提案する。 任意の2次元位相安定化符号の境界終端について、境界ヒルベルト空間は局所自由度で実現できないことを、バルク位相秩序の任意のオンデータによって正確に決定する。 有限体上の多項式へのよく知られた写像を用いて、この「障害物」を計算する簡単な方法を提案する。 このマッピングを利用して、X-CubeモデルとHaahのコードの両方を含む3次元のフラクトンモデルにフレームワークを一般化する。 以上の結果から,位相相の境界は非現実的な微調整度なしでは達成できない創発的対称性を示すことができることがわかった。 例えば、線形およびフラクタル部分系対称性がフラクトン相の境界で自然に生じることを示す。

The bulk-boundary correspondence is a hallmark feature of topological phases of matter. Nonetheless, our understanding of the correspondence remains incomplete for phases with intrinsic topological order, and is nearly entirely lacking for more exotic phases, such as fractons. Intriguingly, for the former, recent work suggests that bulk topological order manifests in a non-local structure in the boundary Hilbert space; however, a concrete understanding of how and where this perspective applies remains limited. Here, we provide an explicit and general framework for understanding the bulk-boundary correspondence in Pauli topological stabilizer codes. We show -- for any boundary termination of any two-dimensional topological stabilizer code -- that the boundary Hilbert space cannot be realized via local degrees of freedom, in a manner precisely determined by the anyon data of the bulk topological order. We provide a simple method to compute this "obstruction" using a well-known mapping to polynomials over finite fields. Leveraging this mapping, we generalize our framework to fracton models in three-dimensions, including both the X-Cube model and Haah's code. An important consequence of our results is that the boundaries of topological phases can exhibit emergent symmetries that are impossible to otherwise achieve without an unrealistic degree of fine tuning. For instance, we show how linear and fractal subsystem symmetries naturally arise at the boundaries of fracton phases.
翻訳日:2023-12-11 17:29:12 公開日:2023-12-07
# 明らかな傍観者は明確な結果を形成することができるか? グローバル・サウス・ネイションズと世界大惨事的リスク中心の人工知能ガバナンス

Can apparent bystanders distinctively shape an outcome? Global south countries and global catastrophic risk-focused governance of artificial intelligence ( http://arxiv.org/abs/2312.04616v1 )

ライセンス: Link先を確認
Cecil Abungu, Michelle Malonza and Sumaya Nur Adan(参考訳) 計算能力とデータの永続的なスケールアップを通じて、現在のディープラーニング技術は、人間の価値観にマッチしない方法で目標を追求する能力の高い人工知能を創造する、という懸念がますます高まっている。 逆に、このようなaiは、人間の健康に深刻な世界規模のダメージを与えるシナリオにつながる可能性がある。 こうした背景から、多くの研究者や公共政策の専門家が、AIを世界的大惨事に繋がる可能性を減らす方法で統治する方法のアイデアを開発してきた。 彼らの評価の大多数の管轄的焦点は、米国、中国、ヨーロッパである。 グローバルな南欧諸国は、世界的な破滅的なリスク-焦点の視点からAI開発を管理する試みにおいて、限界的な役割しか持たない。 私たちの論文は、この仮定を台無しにする。 私たちは、インドやシンガポールのような世界各国(そして特定の連立)は、aiの世界的な破滅的なリスクに焦点を当てた統治において、かなり適していると論じています。 私たちは4つの重要な主張を使って立場を支持します。 先進的な基本的AIモデルの構築と使用の現在の方法から、グローバルな南方諸国や連立政権が歴史的に多国間ルールや機関の設計と利用に果たした戦略的役割に基づいて構築されている。 それぞれの主張が詳しく述べられているように、我々はまた、グローバルな南欧諸国がグローバルな破滅的なリスクに焦点を当てたAIガバナンスを設計、強化、運用する上で、ポジティブな役割を果たすいくつかの方法を提案する。

Increasingly, there is well-grounded concern that through perpetual scaling-up of computation power and data, current deep learning techniques will create highly capable artificial intelligence that could pursue goals in a manner that is not aligned with human values. In turn, such AI could have the potential of leading to a scenario in which there is serious global-scale damage to human wellbeing. Against this backdrop, a number of researchers and public policy professionals have been developing ideas about how to govern AI in a manner that reduces the chances that it could lead to a global catastrophe. The jurisdictional focus of a vast majority of their assessments so far has been the United States, China, and Europe. That preference seems to reveal an assumption underlying most of the work in this field: That global south countries can only have a marginal role in attempts to govern AI development from a global catastrophic risk -focused perspective. Our paper sets out to undermine this assumption. We argue that global south countries like India and Singapore (and specific coalitions) could in fact be fairly consequential in the global catastrophic risk-focused governance of AI. We support our position using 4 key claims. 3 are constructed out of the current ways in which advanced foundational AI models are built and used while one is constructed on the strategic roles that global south countries and coalitions have historically played in the design and use of multilateral rules and institutions. As each claim is elaborated, we also suggest some ways through which global south countries can play a positive role in designing, strengthening and operationalizing global catastrophic risk-focused AI governance.
翻訳日:2023-12-11 17:28:48 公開日:2023-12-07
# リレーショナルディープラーニング:リレーショナルデータベース上でのグラフ表現学習

Relational Deep Learning: Graph Representation Learning on Relational Databases ( http://arxiv.org/abs/2312.04615v1 )

ライセンス: Link先を確認
Matthias Fey, Weihua Hu, Kexin Huang, Jan Eric Lenssen, Rishabh Ranjan, Joshua Robinson, Rex Ying, Jiaxuan You, Jure Leskovec(参考訳) 世界で最も価値の高いデータはリレーショナルデータベースやデータウェアハウスに格納され、そこではデータは一次外部のキー関係によって接続された多くのテーブルに整理される。 しかし、このデータを使って機械学習モデルを構築することは困難かつ時間を要する。 中心となる問題は、プライマリ・フォアグンキーリレーションによって相互接続された複数のテーブル上で機械学習方法が学習できないことである。 現在のメソッドは単一のテーブルからのみ学習できるので、まずデータを手動で結合し、単一のトレーニングテーブルに集約する必要があります。 機能エンジニアリングは遅く、エラーが多く、最適以下のモデルにつながる。 ここでは、複数のテーブルに配置されたデータを直接学習するエンドツーエンドの深層表現学習手法を紹介する。 我々はRDL(Relational Deep Learning)と呼ぶ。 中心となる考え方は、リレーショナルデータベースを、各テーブルの各行のノードと、プライマリ外部キーリンクによって指定されたエッジを備えた、一時的で異質なグラフとして見ることである。 メッセージパッシング グラフニューラルネットワークは自動的にグラフを学習し、手動の機能エンジニアリングなしですべての入力データを活用する表現を抽出する。 リレーショナルディープラーニングは、はるかに高速に構築可能な、より正確なモデルにつながる。 この領域の研究を容易にするために,ベンチマークデータセットのセットと関係深層学習の実装であるRelBenchを開発した。 データはStack Exchangeに関する議論から、Amazon Product Catalogに関する書籍レビューまで、幅広い範囲をカバーする。 全体として、グラフ機械学習を一般化し、幅広いAIユースケースに適用性を広げる新しい研究領域を定義します。

Much of the world's most valued data is stored in relational databases and data warehouses, where the data is organized into many tables connected by primary-foreign key relations. However, building machine learning models using this data is both challenging and time consuming. The core problem is that no machine learning method is capable of learning on multiple tables interconnected by primary-foreign key relations. Current methods can only learn from a single table, so the data must first be manually joined and aggregated into a single training table, the process known as feature engineering. Feature engineering is slow, error prone and leads to suboptimal models. Here we introduce an end-to-end deep representation learning approach to directly learn on data laid out across multiple tables. We name our approach Relational Deep Learning (RDL). The core idea is to view relational databases as a temporal, heterogeneous graph, with a node for each row in each table, and edges specified by primary-foreign key links. Message Passing Graph Neural Networks can then automatically learn across the graph to extract representations that leverage all input data, without any manual feature engineering. Relational Deep Learning leads to more accurate models that can be built much faster. To facilitate research in this area, we develop RelBench, a set of benchmark datasets and an implementation of Relational Deep Learning. The data covers a wide spectrum, from discussions on Stack Exchange to book reviews on the Amazon Product Catalog. Overall, we define a new research area that generalizes graph machine learning and broadens its applicability to a wide set of AI use cases.
翻訳日:2023-12-11 17:28:18 公開日:2023-12-07
# synthscribe: 合成音声の検索と探索のための深層マルチモーダルツール

SynthScribe: Deep Multimodal Tools for Synthesizer Sound Retrieval and Exploration ( http://arxiv.org/abs/2312.04690v1 )

ライセンス: Link先を確認
Stephen Brade, Bryan Wang, Mauricio Sousa, Gregory Lee Newsome, Sageev Oore, Tovi Grossman(参考訳) シンセサイザーは、ミュージシャンがダイナミックでオリジナルなサウンドを作れる強力なツールだ。 既存のシンセサイザーの商用インターフェースは、ミュージシャンが複雑な低レベルパラメータと相互作用したり、プリメイド音の大きなライブラリを管理する必要がある。 これらの課題に対処するために、私たちはSynthScribeという、マルチモーダルなディープラーニングを使用して、ユーザが意図をはるかに高いレベルで表現できるフルスタックシステムを実装しています。 我々は多くの困難に対処できる機能、すなわち 1)既存の音を検索する。 2)全く新しい音を作り出す。 3)ある音に意味のある修正を加えること。 これは、大規模なシンセサイザー音のライブラリーのためのマルチモーダル検索エンジン、ユーザの好みに応じて完全に新しい音を作成・選択できるユーザ中心の遺伝的アルゴリズム、テキストまたは音声ベースのクエリに関するキー制御パラメータの例をハイライトし提示する音声編集支援機能、の3つの主要な特徴によって達成される。 ユーザスタディの結果によると、SynthScribeは音を確実に検索し、修正できるだけでなく、ミュージシャンの創造性を拡大する全く新しい音を作り出すことができる。

Synthesizers are powerful tools that allow musicians to create dynamic and original sounds. Existing commercial interfaces for synthesizers typically require musicians to interact with complex low-level parameters or to manage large libraries of premade sounds. To address these challenges, we implement SynthScribe -- a fullstack system that uses multimodal deep learning to let users express their intentions at a much higher level. We implement features which address a number of difficulties, namely 1) searching through existing sounds, 2) creating completely new sounds, 3) making meaningful modifications to a given sound. This is achieved with three main features: a multimodal search engine for a large library of synthesizer sounds; a user centered genetic algorithm by which completely new sounds can be created and selected given the users preferences; a sound editing support feature which highlights and gives examples for key control parameters with respect to a text or audio based query. The results of our user studies show SynthScribe is capable of reliably retrieving and modifying sounds while also affording the ability to create completely new sounds that expand a musicians creative horizon.
翻訳日:2023-12-11 17:11:27 公開日:2023-12-07
# 6gのための連合学習:パラダイム,分類学,最近の進歩と洞察

Federated Learning for 6G: Paradigms, Taxonomy, Recent Advances and Insights ( http://arxiv.org/abs/2312.04688v1 )

ライセンス: Link先を確認
Maryam Ben Driss, Essaid Sabir, Halima Elbiaze, Walid Saad(参考訳) 人工知能(AI)は次世代の無線システム、例えば第6世代(6G)モバイルネットワークにおいて重要な役割を果たすことが期待されている。 しかし、大量のデータ、エネルギー消費、トレーニングの複雑さ、無線システムの機密データ保護は、AIモデルをトレーニングし、分散デバイスからインテリジェンスと知識を集めるために対処する必要がある重要な課題である。 Federated Learning(FL)は、複数の学習エージェントが生データを共有せずに正確で堅牢な機械学習モデルを構築するための有望なアプローチとして、最近登場したフレームワークである。 モバイル端末やデバイスが、トレーニングデータの明示的な共有なしにグローバルなモデルを共同学習できるようにすることで、flは高いプライバシーと効率的なスペクトル利用を示す。 6GプライバシーのFLパラダイムとユーザビリティを調査する調査論文は数多くあるが、FLがプロトコルスタックと無線操作を改善するためにどのように使えるかを明確には言及していない。 この調査の主な目標は、モバイルサービスを強化するためのflユーザビリティに関する包括的な概要を提供し、スマートエコシステムが新たなユースケースをサポートすることにある。 本稿では、プロトコルスタックの全レベルにわたってflを実装する付加価値について検討する。 さらに、重要なFLアプリケーションを示し、ホットトピックに対処し、将来の研究と開発のための貴重な洞察と明示的なガイダンスを提供する。 我々の結論は、flと将来の6gの相乗効果を生かしつつ、flがワイヤレス産業に革命を起こし、最先端のモバイルサービスの開発を継続する可能性を強調することにある。

Artificial Intelligence (AI) is expected to play an instrumental role in the next generation of wireless systems, such as sixth-generation (6G) mobile network. However, massive data, energy consumption, training complexity, and sensitive data protection in wireless systems are all crucial challenges that must be addressed for training AI models and gathering intelligence and knowledge from distributed devices. Federated Learning (FL) is a recent framework that has emerged as a promising approach for multiple learning agents to build an accurate and robust machine learning models without sharing raw data. By allowing mobile handsets and devices to collaboratively learn a global model without explicit sharing of training data, FL exhibits high privacy and efficient spectrum utilization. While there are a lot of survey papers exploring FL paradigms and usability in 6G privacy, none of them has clearly addressed how FL can be used to improve the protocol stack and wireless operations. The main goal of this survey is to provide a comprehensive overview on FL usability to enhance mobile services and enable smart ecosystems to support novel use-cases. This paper examines the added-value of implementing FL throughout all levels of the protocol stack. Furthermore, it presents important FL applications, addresses hot topics, provides valuable insights and explicits guidance for future research and developments. Our concluding remarks aim to leverage the synergy between FL and future 6G, while highlighting FL's potential to revolutionize wireless industry and sustain the development of cutting-edge mobile services.
翻訳日:2023-12-11 17:11:06 公開日:2023-12-07
# LLM4TDD: 大きな言語モデルを用いたテスト駆動開発のためのベストプラクティス

LLM4TDD: Best Practices for Test Driven Development Using Large Language Models ( http://arxiv.org/abs/2312.04687v1 )

ライセンス: Link先を確認
Sanyogita Piya and Allison Sullivan(参考訳) 今日の社会では、私たちはますますソフトウェアシステムに依存しています。 しかし、バギーソフトウェアのネガティブな影響を常に目撃しています。 プログラム合成は、期待される振る舞いの概要を与えられたプログラムを自動生成することで、ソフトウェア正当性を改善することを目的としている。 プログラム合成は、何十年にもわたって活発な研究分野であり、コード生成に大規模言語モデルを導入しようとしている最近のアプローチがある。 本稿では,LLM4TDDの概念を考察し,テスト駆動開発手法を用いて大規模言語モデルを用いてコードを反復的に生成する手法を提案する。 llm4tddの有効性に対する異なるテスト,プロンプト,問題属性の影響を検討するため,chatgptとleetcodeによるコーディング問題を用いた経験的評価を行った。

In today's society, we are becoming increasingly dependent on software systems. However, we also constantly witness the negative impacts of buggy software. Program synthesis aims to improve software correctness by automatically generating the program given an outline of the expected behavior. For decades, program synthesis has been an active research field, with recent approaches looking to incorporate Large Language Models to help generate code. This paper explores the concept of LLM4TDD, where we guide Large Language Models to generate code iteratively using a test-driven development methodology. We conduct an empirical evaluation using ChatGPT and coding problems from LeetCode to investigate the impact of different test, prompt and problem attributes on the efficacy of LLM4TDD.
翻訳日:2023-12-11 17:10:39 公開日:2023-12-07
# 思考連鎖推論のための潜在スキル発見

Latent Skill Discovery for Chain-of-Thought Reasoning ( http://arxiv.org/abs/2312.04684v1 )

ライセンス: Link先を確認
Zifan Xu, Haozhu Wang, Dmitriy Bespalov, Peter Stone, Yanjun Qi(参考訳) 近年のLarge Language Models (LLMs) の進歩は、質問と回答の間の中間的合理的なステップを追加し、プロンプトを構成するために、チェーン・オブ・シークレット(CoT)プロンプトの創発的な能力をもたらす。 これらのプロンプトを条件に、LLMは文脈で効果的に学習し、同じ質問に直接答える時よりもより正確な答えをもたらす有理性を生成する。 LLMプロンプトを設計するには、デモ選択と呼ばれる重要な設定が、サンプルバンクからデモを選択することを検討する。 既存の手法はこの選択に様々なヒューリスティックスを用いるが、CoTのプロンプトには独自の理性を含むため、CoTの理性が必要とする本質的なスキル、例えば算術語問題の追加や減算のスキルに基づいて選択を行うことが不可欠である。 この要件に対処するために、教師なし学習を用いて、推論スキルと呼ばれる有理数の潜在空間表現を作成する、Reasoning Skill Discovery (RSD) という新しいアプローチを導入する。 同時に、RSDは、ある質問に必要な推論スキルを決定するための推論ポリシーを学ぶ。 これにより、必要な推論スキルを示すサンプルの選択をガイドすることができる。 提案手法は,(1)理論的基盤化,(2)サンプル効率,LSM推論や手動プロンプト設計の不要,(3)LSM非依存など,いくつかの望ましい特性を提供する。 経験的に、rsdは複数の推論タスクにわたる答えの正確さの点で、既存のメソッドを最大6%上回っている。

Recent advances in Large Language Models (LLMs) have led to an emergent ability of chain-of-thought (CoT) prompting, a prompt reasoning strategy that adds intermediate rationale steps between questions and answers to construct prompts. Conditioned on these prompts, LLMs can effectively learn in context to generate rationales that lead to more accurate answers than when answering the same question directly. To design LLM prompts, one important setting, called demonstration selection, considers selecting demonstrations from an example bank. Existing methods use various heuristics for this selection, but for CoT prompting, which involves unique rationales, it is essential to base the selection upon the intrinsic skills that CoT rationales need, for instance, the skills of addition or subtraction for math word problems. To address this requirement, we introduce a novel approach named Reasoning Skill Discovery (RSD) that use unsupervised learning to create a latent space representation of rationales, called a reasoning skill. Simultaneously, RSD learns a reasoning policy to determine the required reasoning skill for a given question. This can then guide the selection of examples that demonstrate the required reasoning skills. Our approach offers several desirable properties: it is (1) theoretically grounded, (2) sample-efficient, requiring no LLM inference or manual prompt design, and (3) LLM-agnostic. Empirically, RSD outperforms existing methods by up to 6% in terms of the answer accuracy across multiple reasoning tasks.
翻訳日:2023-12-11 17:10:27 公開日:2023-12-07
# ConVRT:ニューラルビデオ表現のテスト時間最適化による乱流による連続的ビデオ再生

ConVRT: Consistent Video Restoration Through Turbulence with Test-time Optimization of Neural Video Representations ( http://arxiv.org/abs/2312.04679v1 )

ライセンス: Link先を確認
Haoming Cai, Jingxi Chen, Brandon Y. Feng, Weiyun Jiang, Mingyang Xie, Kevin Zhang, Ashok Veeraraghavan, Christopher Metzler(参考訳) tmospheric turbulenceは長距離撮影において重要な課題である。 現在の復元アルゴリズムは、時間的矛盾や、訓練データとは異なる乱流レベルやシーン内容の一般化能力の制限に苦しむことが多い。 このような問題に対処するために,我々は,時間的整合性を高めるように設計されたニューラルビデオ表現を備えたテスト時間最適化手法であるConVRT(Consistent Video Restoration through Turbulence)を導入する。 ConVRTの重要な革新は、セマンティック指向の監視のための事前訓練された視覚言語モデル(CLIP)の統合である。 さらに,知覚指標との統計的相関に基づいて,テキストプロンプトの原理的選択戦略を考案する。 ConVRTのテストタイム最適化により、シミュレーションデータ上で事前訓練されたモデルから得られた知見を効果的に活用し、幅広い現実世界の乱流条件に適応することができる。 ConVRTは、ダイナミックビデオにおける現実世界の乱流を緩和するための、包括的で効果的なソリューションを提供する。

tmospheric turbulence presents a significant challenge in long-range imaging. Current restoration algorithms often struggle with temporal inconsistency, as well as limited generalization ability across varying turbulence levels and scene content different than the training data. To tackle these issues, we introduce a self-supervised method, Consistent Video Restoration through Turbulence (ConVRT) a test-time optimization method featuring a neural video representation designed to enhance temporal consistency in restoration. A key innovation of ConVRT is the integration of a pretrained vision-language model (CLIP) for semantic-oriented supervision, which steers the restoration towards sharp, photorealistic images in the CLIP latent space. We further develop a principled selection strategy of text prompts, based on their statistical correlation with a perceptual metric. ConVRT's test-time optimization allows it to adapt to a wide range of real-world turbulence conditions, effectively leveraging the insights gained from pre-trained models on simulated data. ConVRT offers a comprehensive and effective solution for mitigating real-world turbulence in dynamic videos.
翻訳日:2023-12-11 17:09:54 公開日:2023-12-07
# Reverse Engineering Deep ReLU Networks : 最適化に基づくアルゴリズム

Reverse Engineering Deep ReLU Networks An Optimization-based Algorithm ( http://arxiv.org/abs/2312.04675v1 )

ライセンス: Link先を確認
Mehrab Hamidi(参考訳) ディープリルーネットワークのリバースエンジニアリングは、ニューラルネットワークの複雑な振る舞いと解釈可能性を理解する上で重要な問題である。 本研究では,凸最適化手法とサンプリングに基づくアプローチを利用して,深部ReLUネットワークを再構築する手法を提案する。 本手法は,入力空間内の点をサンプリングし,ブラックボックスモデルに照会して対応する超平面を得る。 次に、その凸性を保証するために、慎重に選択された制約と条件で凸最適化問題を定義する。 目的関数は、再構成されたネットワーク出力とターゲットモデル出力との差を最小限に抑えるように設計されている。 目的関数を最適化するために勾配降下法を用い、スパースあるいは滑らかな解を促進するためにL1またはL2正則化を必要に応じて取り入れる。 我々の研究は、リバースエンジニアリングの深いReLUネットワークへの取り組みに寄与し、ニューラルネットワークの解釈可能性とセキュリティの新たな進歩の道を開く。

Reverse engineering deep ReLU networks is a critical problem in understanding the complex behavior and interpretability of neural networks. In this research, we present a novel method for reconstructing deep ReLU networks by leveraging convex optimization techniques and a sampling-based approach. Our method begins by sampling points in the input space and querying the black box model to obtain the corresponding hyperplanes. We then define a convex optimization problem with carefully chosen constraints and conditions to guarantee its convexity. The objective function is designed to minimize the discrepancy between the reconstructed networks output and the target models output, subject to the constraints. We employ gradient descent to optimize the objective function, incorporating L1 or L2 regularization as needed to encourage sparse or smooth solutions. Our research contributes to the growing body of work on reverse engineering deep ReLU networks and paves the way for new advancements in neural network interpretability and security.
翻訳日:2023-12-11 17:09:35 公開日:2023-12-07
# ピエゾ-オプトメカニクス系における量子伝達の最適化原理

Principles for Optimizing Quantum Transduction in Piezo-Optomechanical Systems ( http://arxiv.org/abs/2312.04673v1 )

ライセンス: Link先を確認
James Schneeloch, Erin Sheridan, A. Matthew Smith, Christopher C. Tison, Daniel L. Campbell, Matthew D. LaHaye, Michael L. Fanto, and Paul M. Alsing(参考訳) 双方向マイクロ波光量子トランスダクションは、遠方の超伝導量子ビットを光ファイバーで接続し、大規模に量子ネットワークを実現するために必須の能力である。 bl\'esin, tian, bhave, and kippenberg の論文 "`quantum coherent microwave-optical transduction using high overtone bulk acoustic resonances" (phys) で言及されている。 A, 104, 052601 (2021) は、マイクロ波光子をGHzスケールのフォノンに変換するための圧電相互作用と、隣接するテレコムバンドのトーンにセットされたポンプレーザーを用いてこれらのフォノンをテレコムバンド光子に変換する光学的相互作用を組み合わせた量子トランスダクションシステムを構築した。 そこで本研究では,新しいプラットフォームのトランスダクション効率を決定する上で,デバイスパラメータがもっとも重要であることを発見するため,第1原理からこれらのカップリング相互作用を考察し,近単位系トランスダクション効率のシステム最適化戦略と,ノイズがトランスダクションプロセスにどのように影響するかについて議論する。 さらに, 入力光の単一光子を数ghz離れた古典的明るいポンプから分離するポストトランスダクション課題に対処し, 応力誘起非線形性によるフォノン光子とフォノン光子4波混合を用いた新しい光機械的結合機構と, 高次電歪への熱力学的接続を提案する。 このプロセスは、個々のポンプ光子の代わりにペアを消費することでトランスダクションを駆動するので、トランスダクションプロセスを駆動する古典的な明るいポンプからトランスダクション光をきれいに分離することができる。

Two-way microwave-optical quantum transduction is an essential capability to connect distant superconducting qubits via optical fiber, and to enable quantum networking at a large scale. In Bl\'esin, Tian, Bhave, and Kippenberg's article, ``Quantum coherent microwave-optical transduction using high overtone bulk acoustic resonances" (Phys. Rev. A, 104, 052601 (2021)), they lay out a quantum transduction system that accomplishes this by combining a piezoelectric interaction to convert microwave photons to GHz-scale phonons, and an optomechanical interaction to up-convert those phonons into telecom-band photons using a pump laser set to an adjacent telecom-band tone. In this work, we discuss these coupling interactions from first principles in order to discover what device parameters matter most in determining the transduction efficiency of this new platform, and to discuss strategies toward system optimization for near-unity transduction efficiency, as well as how noise impacts the transduction process. In addition, we address the post-transduction challenge of separating single photons of the transduced light from a classically bright pump only a few GHz away in frequency by proposing a novel optomechanical coupling mechanism using phonon-photon four-wave mixing via stress-induced optical nonlinearity and its thermodynamic connection to higher-orders of electrostriction. Where this process drives transduction by consuming pairs instead of individual pump photons, it will allow a clean separation of the transduced light from the classically bright pump driving the transduction process.
翻訳日:2023-12-11 17:09:17 公開日:2023-12-07
# 超音波ガイド用硬膜外注射における材質解剖の自動検出

The automatic detection of lumber anatomy in epidural injections for ultrasound guidance ( http://arxiv.org/abs/2312.04671v1 )

ライセンス: Link先を確認
Farhad Piri, Sima Sobhiyeh, Amir H. Rezaie, Faramarz Mosaffa(参考訳) 本研究の目的は, 麻酔科医が自動的に硬膜外深度を見つけるのを手助けし, 骨で詰まった状態で患者の身体に針の経路を進入し, 患者の背中の周囲に穿刺を生じさせないようにすることである。 本稿では, 形態素に基づく骨の強化と検出を行い, 続いてRamer-Douglas-PeuckerアルゴリズムとHough変換を提案する。 提案アルゴリズムは, 人工骨と実骨の超音波画像に対して試験を行い, テンプレートマッチングに基づくLigamentum Flavum (LF) 検出法と比較した。 以上の結果から, 提案手法は層状骨の対角形状とその硬膜外深を高速に検出できることが示唆された。 さらに, 硬膜外針挿入を行いながら, 麻酔科医にリアルタイム情報を提供できる信頼性の高い方法を提案する。 超音波画像を使うことは麻酔科医がブラインドインジェクションを行うのに役立ち、超音波画像に基づく方法に多くの誤りが生じたため、これらの方法が組織圧ベースの方法を完全に置き換えることができないことに注意する必要がある。 そして最終的に、針が領域(Dura空間)に注入されると、組織抵抗の程度にしか信頼できない。 本研究で利用可能なトレーニングデータはかなり限られているが, LF法と比較して, 超音波検査における腰椎骨の分節速度と硬膜外深度を有意な精度で改善した。

The purpose of this paper is to help the anesthesiologist to find the epidural depth automatically to make the first attempt to enter the path of the needle into the patient's body while it is clogged with bone and avoid causing a puncture in the surrounding areas of the patient`s back. In this regard, a morphology-based bone enhancement and detection followed by a Ramer-Douglas-Peucker algorithm and Hough transform is proposed. The proposed algorithm is tested on synthetic and real ultrasound images of laminar bone, and the results are compared with the template matching based Ligamentum Flavum (LF) detection method. Results indicate that the proposed method can faster detect the diagonal shape of the laminar bone and its corresponding epidural depth. Furthermore, the proposed method is reliable enough providing anesthesiologists with real-time information while an epidural needle insertion is performed. It has to be noted that using the ultrasound images is to help anesthesiologists to perform the blind injection, and due to quite a lot of errors occurred in ultrasound-imaging-based methods, these methods can not completely replace the tissue pressure-based method. And in the end, when the needle is injected into the area (dura space) measurements can only be trusted to the extent of tissue resistance. Despite the fairly limited amount of training data available in this study, a significant improvement of the segmentation speed of lumbar bones and epidural depth in ultrasound scans with a rational accuracy compared to the LF-based detection method was found.
翻訳日:2023-12-11 17:08:39 公開日:2023-12-07
# ロボットマニピュレータアームの高速モータ適応

Rapid Motor Adaptation for Robotic Manipulator Arms ( http://arxiv.org/abs/2312.04670v1 )

ライセンス: Link先を確認
Yichao Liang, Kevin Ellis, Jo\~ao Henriques(参考訳) 汎用的な操作スキルの開発は、AIの具体化における中核的な課題である。 これには、さまざまなタスク構成の一般化、物体形状、密度、摩擦係数、ロボットに適用される力などの外的外乱などが含まれる。 Rapid Motor Adaptation (RMA)はこの課題に対して有望な解決策を提供する。 オブジェクトの質量や形状といったエージェントのタスクパフォーマンスに影響を与える必須の隠れた変数は、エージェントの作用や固有的履歴から効果的に推測できると仮定する。 ローコモーションや手動回転におけるRMAからのインスピレーションを得て,様々な操作タスクにおいて,迅速な運動適応に適したエージェントを開発する。 Maniskill2ベンチマークから,YCBおよびEGADデータセットから数百のオブジェクトをピックアップ・アンド・プレース操作,正確な位置と向きのペグ挿入,さまざまなファセットとハンドルの操作,環境のカスタマイズなど,4つの課題に対してエージェントを評価した。 経験的な結果から,エージェントは自動ドメインランダム化や視覚に基づくポリシといった最先端の手法を上回っており,よりよい一般化性能とサンプル効率を得ることができた。

Developing generalizable manipulation skills is a core challenge in embodied AI. This includes generalization across diverse task configurations, encompassing variations in object shape, density, friction coefficient, and external disturbances such as forces applied to the robot. Rapid Motor Adaptation (RMA) offers a promising solution to this challenge. It posits that essential hidden variables influencing an agent's task performance, such as object mass and shape, can be effectively inferred from the agent's action and proprioceptive history. Drawing inspiration from RMA in locomotion and in-hand rotation, we use depth perception to develop agents tailored for rapid motor adaptation in a variety of manipulation tasks. We evaluated our agents on four challenging tasks from the Maniskill2 benchmark, namely pick-and-place operations with hundreds of objects from the YCB and EGAD datasets, peg insertion with precise position and orientation, and operating a variety of faucets and handles, with customized environment variations. Empirical results demonstrate that our agents surpass state-of-the-art methods like automatic domain randomization and vision-based policies, obtaining better generalization performance and sample efficiency.
翻訳日:2023-12-11 17:08:13 公開日:2023-12-07
# TOD-Flow:タスク指向対話の構造モデリング

TOD-Flow: Modeling the Structure of Task-Oriented Dialogues ( http://arxiv.org/abs/2312.04668v1 )

ライセンス: Link先を確認
Sungryull Sohn, Yiwei Lyu, Anthony Liu, Lajanugen Logeswaran, Dong-Ki Kim, Dongsub Shim, Honglak Lee(参考訳) タスク指向対話(TOD)システムは、対話型人工知能アプリケーションにおいて重要なコンポーネントとなっている。 近年の進歩は、事前訓練された言語モデル(PLM)に重きを置いているが、透明性と可制御性に関する制限が示されている。 これらの課題に対処するために,対話行動に注釈が付された対話データからtodフローグラフを推測し,その基礎となるタスク構造をグラフ形式で明らかにすることに焦点を当てた新しいアプローチを提案する。 推定されたtodフローグラフは任意の対話モデルと容易に統合でき、予測性能、透明性、制御性が向上する。 提案するTOD-Flowグラフは,モデルにできること,すべきこと,すべきでないことを学習し,探索空間を効果的に削減し,モデルの予測に根拠を与える。 提案するtod-flowグラフは,従来のアプローチよりも人間の注釈付きグラフによく似ている。 さらに,複数の対話ポリシーとエンドツーエンド対話モデルを組み合わせることで,MultiWOZおよびSGDベンチマークにおける対話行為分類とエンドツーエンド応答生成性能を大幅に向上することを示す。 コード提供: https://github.com/srsohn/tod-flow

Task-Oriented Dialogue (TOD) systems have become crucial components in interactive artificial intelligence applications. While recent advances have capitalized on pre-trained language models (PLMs), they exhibit limitations regarding transparency and controllability. To address these challenges, we propose a novel approach focusing on inferring the TOD-Flow graph from dialogue data annotated with dialog acts, uncovering the underlying task structure in the form of a graph. The inferred TOD-Flow graph can be easily integrated with any dialogue model to improve its prediction performance, transparency, and controllability. Our TOD-Flow graph learns what a model can, should, and should not predict, effectively reducing the search space and providing a rationale for the model's prediction. We show that the proposed TOD-Flow graph better resembles human-annotated graphs compared to prior approaches. Furthermore, when combined with several dialogue policies and end-to-end dialogue models, we demonstrate that our approach significantly improves dialog act classification and end-to-end response generation performance in the MultiWOZ and SGD benchmarks. Code available at: https://github.com/srsohn/TOD-Flow
翻訳日:2023-12-11 17:07:51 公開日:2023-12-07
# 医療用IoT用医薬品のモデルベースデジタルツイン

Model-based Digital Twins of Medicine Dispensers for Healthcare IoT Applications ( http://arxiv.org/abs/2312.04662v1 )

ライセンス: Link先を確認
Hassan Sartaj, Shaukat Ali, Tao Yue, Kjetil Moberg(参考訳) IoT(Internet of Things)を備えたヘルスケアアプリケーションは、多くの場合、安全に重要なので、広範なテストが必要です。 このようなアプリケーションは、さまざまなベンダーのスマート医療機器に接続されることが多い。 このようなアプリケーションのシステムレベルのテストには、医療機器を物理的に統合するテストインフラストラクチャが必要である。 さらに、新しいデバイスやユーザの導入やソフトウェアのアップデートなど、アプリケーションは継続的に進化します。 それでも、少数のデバイスでテストを可能にするテストインフラストラクチャは、医療用IoTシステムをテストするには不十分であるため、信頼性を損なうことになる。 本稿では,iotアプリケーションの大規模自動テストを支援する物理機器の代替として,医薬品ディスペンサーのデジタルツイン(dts)の作成と運用を行うためのモデルベースアプローチを提案する。 我々は、オスロ市とその産業パートナーの文脈で医療提供者による産業用IoTシステムによるアプローチを評価し、住民に医療サービスを提供する。 本研究では,DTと身体的類似性(薬用ディスペンサー)について検討した。 その結果,DTは薬品ディスペンサーと92%以上の動作を示し,ディスペンサーを忠実に置き換えた。

Healthcare applications with the Internet of Things (IoT) are often safety-critical, thus, require extensive testing. Such applications are often connected to smart medical devices from various vendors. System-level testing of such applications requires test infrastructures physically integrating medical devices, which is time and monetary-wise expensive. Moreover, applications continuously evolve, e.g., introducing new devices and users and updating software. Nevertheless, a test infrastructure enabling testing with a few devices is insufficient for testing healthcare IoT systems, hence compromising their dependability. In this paper, we propose a model-based approach for the creation and operation of digital twins (DTs) of medicine dispensers as a replacement for physical devices to support the automated testing of IoT applications at scale. We evaluate our approach with an industrial IoT system with medicine dispensers in the context of Oslo City and its industrial partners, providing healthcare services to its residents. We study the fidelity of DTs in terms of their functional similarities with their physical counterparts: medicine dispensers. Results show that the DTs behave more than 92% similar to the physical medicine dispensers, providing a faithful replacement for the dispenser.
翻訳日:2023-12-11 17:07:31 公開日:2023-12-07
# 宇宙不均質系における凝集速度の高速予測への機械学習の適用

Application of machine learning technique for a fast forecast of aggregation kinetics in space-inhomogeneous systems ( http://arxiv.org/abs/2312.04660v1 )

ライセンス: Link先を確認
M.A. Larchenko, R.R. Zagidullin, V.V. Palyulin, N.V. Brilliantov(参考訳) 複雑な凝集方程式 -- smoluchowski方程式は粒子伝播の計算とともに各空間点で解く必要があるため、空間不均質系における凝集過程のモデル化は極めて難しい。 集約カーネルの低階近似は、Smoluchowski方程式の解を著しく高速化するが、粒子の伝播は並列に行うことができる。 しかし、多数の集約サイズを持つシミュレーションは、非常にリソースオンデマンドである。 本稿では,現代の機械学習(ML)技術を用いて,直接計算量を削減する方法について検討する。 すなわち,Smoluchowki方程式の実際の数値解を,条件付き正規化流を用いて学習した各密度変換に置き換えることを提案する。 本研究では,集合体の空間分布とそのサイズ分布に対するml予測は計算時間を大幅に削減し,直接数値シミュレーションの結果とよく一致することを示す。 このような空間依存粒子径分布の迅速な予測の機会は、特に汚染プロセスのオンライン予測と可視化において重要であり、予測精度と計算時間の間に合理的なトレードオフを持つツールを提供する。

Modeling of aggregation processes in space-inhomogeneous systems is extremely numerically challenging since complicated aggregation equations -- Smoluchowski equations are to be solved at each space point along with the computation of particle propagation. Low rank approximation for the aggregation kernels can significantly speed up the solution of Smoluchowski equations, while particle propagation could be done in parallel. Yet the simulations with many aggregate sizes remain quite resource-demanding. Here, we explore the way to reduce the amount of direct computations with the use of modern machine learning (ML) techniques. Namely, we propose to replace the actual numerical solution of the Smoluchowki equations with the respective density transformations learned with the application of the conditional normalising flow. We demonstrate that the ML predictions for the space distribution of aggregates and their size distribution requires drastically less computation time and agrees fairly well with the results of direct numerical simulations. Such an opportunity of a quick forecast of space-dependent particle size distribution could be important in practice, especially for the online prediction and visualisation of pollution processes, providing a tool with a reasonable tradeoff between the prediction accuracy and the computational time.
翻訳日:2023-12-11 17:07:12 公開日:2023-12-07
# 学習インダクティブ共形予測のためのpac-bayes一般化証明書

PAC-Bayes Generalization Certificates for Learned Inductive Conformal Prediction ( http://arxiv.org/abs/2312.04658v1 )

ライセンス: Link先を確認
Apoorva Sharma, Sushant Veer, Asher Hancock, Heng Yang, Marco Pavone, Anirudha Majumdar(参考訳) Inductive Conformal Prediction (ICP) は、基底真理を高い確率で含むことが保証される集合値予測の形で、不確実性推定を伴うディープラーニングモデルを実現するための実用的で効果的なアプローチを提供する。 このカバレッジ保証の魅力にもかかわらず、これらのセットは効率的ではないかもしれない:予測セットのサイズと内容は直接制御されておらず、代わりに、基礎となるモデルとスコア関数の選択に依存する。 これを解決するために、最近の研究は、ICP予測セットの効率を直接最適化するためにデータを用いた学習モデルと関数パラメータのスコアリングを提案している。 経験的効率の直接的な最適化は、テストデータではもはや効率的でない予測セットを得るか、テストデータで必要となるカバレッジを得ることができない。 本研究では、pac-bayes理論を用いて、テストカバレッジを満足しながら効率を最大化するために直接最適化できる集合値予測器のカバレッジと効率の両方の一般化限界を得る。 従来の作業とは対照的に,我々のフレームワークでは,テスト時間カバレッジ保証を得るために別個のホールドアウトセットを必要とせず,キャリブレーションデータセット全体のモデルパラメータとスコア関数の学習を可能にする。 これらの理論結果を活用し、キャリブレーションデータを用いてモデルのパラメータとスコア関数を同時に微調整し、結果の予測セットの試験時間カバレッジと効率を保証できる実用的なアルゴリズムを提供する。 回帰および分類タスクに対するアプローチの評価を行い,特に低データ体制において,Hueffding 境界ベース PAC 保証を用いて評価した。

Inductive Conformal Prediction (ICP) provides a practical and effective approach for equipping deep learning models with uncertainty estimates in the form of set-valued predictions which are guaranteed to contain the ground truth with high probability. Despite the appeal of this coverage guarantee, these sets may not be efficient: the size and contents of the prediction sets are not directly controlled, and instead depend on the underlying model and choice of score function. To remedy this, recent work has proposed learning model and score function parameters using data to directly optimize the efficiency of the ICP prediction sets. While appealing, the generalization theory for such an approach is lacking: direct optimization of empirical efficiency may yield prediction sets that are either no longer efficient on test data, or no longer obtain the required coverage on test data. In this work, we use PAC-Bayes theory to obtain generalization bounds on both the coverage and the efficiency of set-valued predictors which can be directly optimized to maximize efficiency while satisfying a desired test coverage. In contrast to prior work, our framework allows us to utilize the entire calibration dataset to learn the parameters of the model and score function, instead of requiring a separate hold-out set for obtaining test-time coverage guarantees. We leverage these theoretical results to provide a practical algorithm for using calibration data to simultaneously fine-tune the parameters of a model and score function while guaranteeing test-time coverage and efficiency of the resulting prediction sets. We evaluate the approach on regression and classification tasks, and outperform baselines calibrated using a Hoeffding bound-based PAC guarantee on ICP, especially in the low-data regime.
翻訳日:2023-12-11 17:06:54 公開日:2023-12-07
# 自己教師付き行動クローントランスフォーマーはテキストゲームのためのパスクローラである

Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text Games ( http://arxiv.org/abs/2312.04657v1 )

ライセンス: Link先を確認
Ruoyao Wang, Peter Jansen(参考訳) 本稿では,仮想環境におけるマルチステップ推論のベンチマークに挑戦する,テキストゲーム用自己教師付き行動クローニングトランスフォーマを提案する。 伝統的に、Behavior Cloning Transformerはそのようなタスクをエクササイズするが、教師付きトレーニングデータに依存している。 本手法は,ゲーム内における報酬につながる軌道(共通マクロ・アクション・シーケンスによって定義される)を探索することで,トレーニングデータを自動生成すると同時に,これらの軌道の汎用性と有用性を決定する。 経験的分析により,本手法は一般化可能なトレーニングデータを明らかにし,3つのベンチマークテキストゲームで約90%の教師付きシステムの性能を実現する。

In this work, we introduce a self-supervised behavior cloning transformer for text games, which are challenging benchmarks for multi-step reasoning in virtual environments. Traditionally, Behavior Cloning Transformers excel in such tasks but rely on supervised training data. Our approach auto-generates training data by exploring trajectories (defined by common macro-action sequences) that lead to reward within the games, while determining the generality and utility of these trajectories by rapidly training small models then evaluating their performance on unseen development games. Through empirical analysis, we show our method consistently uncovers generalizable training data, achieving about 90\% performance of supervised systems across three benchmark text games.
翻訳日:2023-12-11 17:06:23 公開日:2023-12-07
# ECLIPSE: 画像生成のためのリソース効率の良いテキストから画像への優先

ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations ( http://arxiv.org/abs/2312.04655v1 )

ライセンス: Link先を確認
Maitreya Patel and Changhoon Kim and Sheng Cheng and Chitta Baral and Yezhou Yang(参考訳) テキスト・トゥ・イメージ(T2I)拡散モデル、特にunCLIPモデル(例えばDALL-E-2)は、様々な構成的T2Iベンチマークにおいて、重要な計算資源を犠牲にして、最先端(SOTA)のパフォーマンスを達成する。 unCLIPスタックは、T2I先行及び拡散画像デコーダを含む。 t2iの事前モデルは10億のパラメータを潜在拡散モデルと比較し、計算量と高品質のデータ要求を増加させる。 ECLIPSEは,パラメータとデータ効率を両立する新しいコントラスト学習手法である。 ECLIPSEは事前訓練された視覚言語モデル(例えばCLIP)を利用して知識を事前のモデルに抽出する。 ECLIPSEが予めトレーニングされたパラメータはわずか3.3%で、わずか2.8%のデータでトレーニングされたデータだけで、リソース制限された設定で平均71.6%の選好スコアでベースラインのT2Iを上回ります。 また、SOTAのビッグモデルと同等のパフォーマンスを達成し、テキスト合成に追従する能力で平均63.36%の選好スコアを達成している。 2つのunCLIP拡散画像デコーダ(KaloとKandinsky)の広範囲な実験により、ECLIPSEはリソース依存を著しく低減しつつ、常に高い性能を提供することを確認した。

Text-to-image (T2I) diffusion models, notably the unCLIP models (e.g., DALL-E-2), achieve state-of-the-art (SOTA) performance on various compositional T2I benchmarks, at the cost of significant computational resources. The unCLIP stack comprises T2I prior and diffusion image decoder. The T2I prior model alone adds a billion parameters compared to the Latent Diffusion Models, which increases the computational and high-quality data requirements. We introduce ECLIPSE, a novel contrastive learning method that is both parameter and data-efficient. ECLIPSE leverages pre-trained vision-language models (e.g., CLIP) to distill the knowledge into the prior model. We demonstrate that the ECLIPSE trained prior, with only 3.3% of the parameters and trained on a mere 2.8% of the data, surpasses the baseline T2I priors with an average of 71.6% preference score under resource-limited setting. It also attains performance on par with SOTA big models, achieving an average of 63.36% preference score in terms of the ability to follow the text compositions. Extensive experiments on two unCLIP diffusion image decoders, Karlo and Kandinsky, affirm that ECLIPSE priors consistently deliver high performance while significantly reducing resource dependency.
翻訳日:2023-12-11 17:06:08 公開日:2023-12-07
# インクリメンタル学習を用いた動的オンライン変調認識

Dynamic Online Modulation Recognition using Incremental Learning ( http://arxiv.org/abs/2312.04718v1 )

ライセンス: Link先を確認
Ali Owfi, Ali Abbasi, Fatemeh Afghah, Jonathan Ashdown, Kurt Turck(参考訳) 変調認識は、信頼できる信号処理には変調スキームの正確な同定、共存通信技術における干渉緩和、ネットワーク最適化が不可欠であるため、通信システムにおける基本的なタスクである。 ディープラーニング(DL)モデルを変調認識に組み込むことにより,様々なシナリオにおいて有望な結果が得られた。 しかし、従来のDLモデルは、特にオンラインデプロイメント中に新しい変調スキームに遭遇するクラスインクリメンタルシナリオにおいて、オンライン動的コンテキストにおいて不足することが多い。 これらのモデルを以前見たすべての変調方式でリトレーニングすることは、時間を要するだけでなく、ストレージの制限のために実現不可能な場合もある。 一方で、新しい変調スキームのみのトレーニングは、しばしば過去の学習したクラスを壊滅的に忘れてしまう。 通信システムの動的な性質は、新しい変調方式への効果的な適応性を必要とするため、dlベースの変調認識モデルは現実のシナリオでは適用できない。 本稿では,複数のインクリメンタルラーニング(IL)アルゴリズムの性能を動的変調認識のシナリオで評価し,従来のDLに基づく変調認識と比較する。 その結果、ILに基づく変調認識フレームワークは破滅的な忘れ込みを効果的に防ぎ、モデルが動的シナリオで堅牢に動作できることが示されている。

Modulation recognition is a fundamental task in communication systems as the accurate identification of modulation schemes is essential for reliable signal processing, interference mitigation for coexistent communication technologies, and network optimization. Incorporating deep learning (DL) models into modulation recognition has demonstrated promising results in various scenarios. However, conventional DL models often fall short in online dynamic contexts, particularly in class incremental scenarios where new modulation schemes are encountered during online deployment. Retraining these models on all previously seen modulation schemes is not only time-consuming but may also not be feasible due to storage limitations. On the other hand, training solely on new modulation schemes often results in catastrophic forgetting of previously learned classes. This issue renders DL-based modulation recognition models inapplicable in real-world scenarios because the dynamic nature of communication systems necessitate the effective adaptability to new modulation schemes. This paper addresses this challenge by evaluating the performance of multiple Incremental Learning (IL) algorithms in dynamic modulation recognition scenarios, comparing them against conventional DL-based modulation recognition. Our results demonstrate that modulation recognition frameworks based on IL effectively prevent catastrophic forgetting, enabling models to perform robustly in dynamic scenarios.
翻訳日:2023-12-11 17:01:07 公開日:2023-12-07
# 金ナノ粒子ネットワークにおけるブール論理関数の速度論的モンテカルロアプローチ

A kinetic Monte Carlo Approach for Boolean Logic Functionality in Gold Nanoparticle Networks ( http://arxiv.org/abs/2312.04717v1 )

ライセンス: Link先を確認
Jonas Mensing, Wilfred G. van der Wiel, Andreas Heuer(参考訳) 絶縁性有機分子で結合したナノ粒子は低温で非線形にスイッチング挙動を示す。 これらのスイッチをネットワークに組み立て、周囲の電極を介して電荷輸送ダイナミクスを操作することで、ネットワークは任意のブール論理ゲートとして機能するように再構成可能となる。 本研究は,単一電子回路の確立した原理を応用し,ナノ粒子ネットワークにおける電荷輸送ダイナミクスをモデル化する速度論的モンテカルロシミュレーションツールを提案する。 ナノ粒子ネットワークをブール論理ゲートとして機能化し, 適合度関数を用いてその品質を評価する。 適合度の定義に基づいて、負の微分抵抗や非線形分離性を含むネットワークの基本非線形特性を定量化する新しい指標を導出する。 これらの非線形特性は、ブール論理ゲートとしてネットワークを機能させるだけでなく、将来脳に触発されたコンピューティングアプリケーションのためにネットワークが機能化される場合にも重要である。 本稿では,システムサイズ,周辺電極数,電極位置に対する適合性と非線形特性の依存性に関する基礎的な疑問について述べる。 我々は、より多くの電極を持つという全体的な利点を主張し、ネットワークの出力に近いことは機能と非線形性にとって重要なものである。 さらに, 最適システムサイズを実証し, 電極位置の対称性の破れを論じ, 非線形特性を優先する。

Nanoparticles interconnected by insulating organic molecules exhibit nonlinear switching behavior at low temperatures. By assembling these switches into a network and manipulating charge transport dynamics through surrounding electrodes, the network can be reconfigurably functionalized to act as any Boolean logic gate. This work introduces a kinetic Monte Carlo-based simulation tool, applying established principles of single electronics to model charge transport dynamics in nanoparticle networks. We functionalize nanoparticle networks as Boolean logic gates and assess their quality using a fitness function. Based on the definition of fitness, we derive new metrics to quantify essential nonlinear properties of the network, including negative differential resistance and nonlinear separability. These nonlinear properties are crucial not only for functionalizing the network as Boolean logic gates but also when our networks are functionalized for brain-inspired computing applications in the future. We address fundamental questions about the dependence of fitness and nonlinear properties on system size, number of surrounding electrodes, and electrode positioning. We assert the overall benefit of having more electrodes, with proximity to the network's output being pivotal for functionality and nonlinearity. Additionally, we demonstrate a optimal system size and argue for breaking symmetry in electrode positioning to favor nonlinear properties.
翻訳日:2023-12-11 17:00:45 公開日:2023-12-07
# 言語間の深い感情:多言語ワードネットにおける感性伝播の新しいアプローチ

Deep Emotions Across Languages: A Novel Approach for Sentiment Propagation in Multilingual WordNets ( http://arxiv.org/abs/2312.04715v1 )

ライセンス: Link先を確認
Jan Koco\'n(参考訳) 感情分析には、貴重なリソースである感情メタデータが豊富なWordNetを使用する。 しかし、手動のアノテーションは時間と費用がかかるため、いくつかのWordNet Lexical Unitがアノテートされている。 本稿では,部分注釈付きwordnetからその全体,および別の言語でwordnetへ感情アノテーションを自動伝達する2つの新しい手法,多言語構造的シンセット埋め込み (msse) と言語間深層神経感情伝達 (cldns) を提案する。 言語間関係の大きい Princeton WordNet と Polish WordNet を用いて,提案した MSSE+CLDNS 手法を広く評価した。 以上の結果から,MSSE+CLDNS法は既存の伝搬法よりも優れており,複数の言語にまたがる感情的メタデータを用いたWordNetの強化の有効性が示唆された。 本研究は,大規模多言語感情分析のための強固な基盤を提供し,学術研究や実践的応用に有用である。

Sentiment analysis involves using WordNets enriched with emotional metadata, which are valuable resources. However, manual annotation is time-consuming and expensive, resulting in only a few WordNet Lexical Units being annotated. This paper introduces two new techniques for automatically propagating sentiment annotations from a partially annotated WordNet to its entirety and to a WordNet in a different language: Multilingual Structured Synset Embeddings (MSSE) and Cross-Lingual Deep Neural Sentiment Propagation (CLDNS). We evaluated the proposed MSSE+CLDNS method extensively using Princeton WordNet and Polish WordNet, which have many inter-lingual relations. Our results show that the MSSE+CLDNS method outperforms existing propagation methods, indicating its effectiveness in enriching WordNets with emotional metadata across multiple languages. This work provides a solid foundation for large-scale, multilingual sentiment analysis and is valuable for academic research and practical applications.
翻訳日:2023-12-11 17:00:26 公開日:2023-12-07
# aiイノベーションが米国の職業に及ぼす影響

The Impact of AI Innovations on U.S. Occupations ( http://arxiv.org/abs/2312.04714v1 )

ライセンス: Link先を確認
Ali Akbar Septiandri, Marios Constantinides, Daniele Quercia(参考訳) AIの影響は伝統的に職業の観点から評価されてきた。 しかし、職業は相互接続されたタスクで構成されており、AIの影響を受けているのは職業自身ではなく、これらのタスクである。 タスクがどう影響するかを評価するために、従来のアプローチでは主観的な手動アノテーションや特許との粗い粒度のマッチングを利用した。 機械学習の最近の進歩を利用して、粗粒度マッチングをより正確なディープラーニングアプローチに置き換える。 AI Impact(AII)測定の導入では、Deep Learning Natural Language Processingを使用して、さまざまな作業タスクに影響を及ぼすAI特許を自動的に識別する。 我々の方法論は、2015年から2020年にかけて米国特許商標庁(USPTO)に提出された12,984件のAI特許の分析を通じて、19,498件のタスク記述の包括的なデータセットに依存し、AIの影響を定量化する。 我々の観察によると、AIが職業に与える影響は、タスクの複雑さに基づく単純な分類に反し、基本的なスキルと高度なスキルの二分法だけでAIの効果が説明できるという従来の信念に異議を唱えている。 その代わり、影響は、特定のタスクに関連する基本的なスキルや高度なスキルに複雑に結びついている。 例えば、アイテムをスキャンするといった基本的なスキルが影響を受けるかもしれないが、料理のようなスキルは影響しない。 同様に、放射線学における画像解析のようなある種の高度な技術は影響を受けうるが、対人関係に関わるスキルは影響を受けない。 さらに、AIの影響は知識中心の領域を超えて広がる。 経済不平等や経済の多様化の欠如によってしばしば特徴づけられる、AIの変化に強く依存する米国の地域は、顕著なAIの影響を経験する。

AI's impact has traditionally been assessed in terms of occupations. However, an occupation is comprised of interconnected tasks, and it is these tasks, not occupations themselves, that are affected by AI. To evaluate how tasks may be impacted, previous approaches utilized subjective manual annotations or coarse-grained matching with patents. Leveraging recent advancements in machine learning, we replace coarse-grained matching with more precise deep learning approaches. Introducing the AI Impact (AII) measure, we employ Deep Learning Natural Language Processing to automatically identify AI patents that impact various occupational tasks at scale. Our methodology relies on a comprehensive dataset of 19,498 task descriptions and quantifies AI's impact through analysis of 12,984 AI patents filed with the United States Patent and Trademark Office (USPTO) between 2015 and 2020. Our observations reveal that the impact of AI on occupations defies simplistic categorizations based on task complexity, challenging the conventional belief that the dichotomy between basic and advanced skills alone explains the effects of AI. Instead, the impact is intricately linked to specific skills, whether basic or advanced, associated with particular tasks. For instance, while basic skills like scanning items may be affected, others like cooking may not. Similarly, certain advanced skills, such as image analysis in radiology, may face impact, while skills involving interpersonal relationships may remain unaffected. Furthermore, the influence of AI extends beyond knowledge-centric regions. Regions in the U.S. that heavily rely on industries susceptible to AI changes, often characterized by economic inequality or a lack of economic diversification, will experience notable AI impact.
翻訳日:2023-12-11 17:00:09 公開日:2023-12-07
# gcdlseg:バイナリセマンティクスセグメンテーションのためのグラフカットをディープラーニングに統合する

gcDLSeg: Integrating Graph-cut into Deep Learning for Binary Semantic Segmentation ( http://arxiv.org/abs/2312.04713v1 )

ライセンス: Link先を確認
Hui Xie and Weiyu Xu and Ya Xing Wang and John Buatti and Xiaodong Wu(参考訳) コンピュータビジョンにおけるバイナリセマンティックセグメンテーションは根本的な問題である。 モデルに基づくセグメンテーション法として、グラフカットアプローチは、解のグローバル最適性の保証と実用的な多項式時間複雑性のおかげで、最も成功したバイナリセグメンテーション手法の1つであった。 近年,多くのディープラーニング(DL)に基づく手法が開発され,性能が著しく向上し,この分野のパラダイムシフトがもたらされている。 本稿では,両手法の強みを組み合わせるために,エンドツーエンド学習のための深層学習ネットワークにグラフカットアプローチを統合することを提案する。 残念ながら、dlネットワークのグラフカットモジュールを経由する後方伝播は、グラフカットアルゴリズムの組合せ的性質のため困難である。 そこで本研究では,グラフカットセグメンテーションモデルによる効果的な特徴学習のために,残差グラフカットロスの勾配の後方伝播を可能にする,新しい残差グラフカット損失と準再現接続を提案する。 推論フェーズでは、DLネットワークから学習した最適化画像の特徴に基づいて定義されたグラフカットエネルギーに対して、グローバルな最適セグメンテーションが達成される。 医用セグメンテーションデカトロン(MSD)から得られたAZH慢性創傷データセットと膵臓癌データセットの実験は,有望なセグメンテーション精度を示し,対人攻撃に対する堅牢性を改善した。

Binary semantic segmentation in computer vision is a fundamental problem. As a model-based segmentation method, the graph-cut approach was one of the most successful binary segmentation methods thanks to its global optimality guarantee of the solutions and its practical polynomial-time complexity. Recently, many deep learning (DL) based methods have been developed for this task and yielded remarkable performance, resulting in a paradigm shift in this field. To combine the strengths of both approaches, we propose in this study to integrate the graph-cut approach into a deep learning network for end-to-end learning. Unfortunately, backward propagation through the graph-cut module in the DL network is challenging due to the combinatorial nature of the graph-cut algorithm. To tackle this challenge, we propose a novel residual graph-cut loss and a quasi-residual connection, enabling the backward propagation of the gradients of the residual graph-cut loss for effective feature learning guided by the graph-cut segmentation model. In the inference phase, globally optimal segmentation is achieved with respect to the graph-cut energy defined on the optimized image features learned from DL networks. Experiments on the public AZH chronic wound data set and the pancreas cancer data set from the medical segmentation decathlon (MSD) demonstrated promising segmentation accuracy, and improved robustness against adversarial attacks.
翻訳日:2023-12-11 16:59:39 公開日:2023-12-07
# クラスタリングインフルエントによるエラー検出

Error Discovery by Clustering Influence Embeddings ( http://arxiv.org/abs/2312.04712v1 )

ライセンス: Link先を確認
Fulton Wang, Julius Adebayo, Sarah Tan, Diego Garcia-Olano, Narine Kokhlikyan(参考訳) そこで本研究では,現在スライス発見と呼ばれる課題であるモデルアンダーパフォーマンスの試験例群(スライス)を同定する手法を提案する。 我々は、スライス発見メソッドが満たすべき重要な特性として、コヒーレンス(コヒーレンス) -- スライス内の誤った予測が同じ理由で間違っているという要件を定式化します。 次に、インフルエンス関数を用いて新しいスライス探索法InfEmbedを導出し、トレーニングデータに類似した影響を受けているスライスを返却することでコヒーレンスを満たす。 InfEmbed は単純で、K-Means クラスタリングを新しい表現に適用することで構成される。 2つのベンチマークで現在の最先端メソッドを上回っており、いくつかのケーススタディでモデルのデバッグに有効である。

We present a method for identifying groups of test examples -- slices -- on which a model under-performs, a task now known as slice discovery. We formalize coherence -- a requirement that erroneous predictions, within a slice, should be wrong for the same reason -- as a key property that any slice discovery method should satisfy. We then use influence functions to derive a new slice discovery method, InfEmbed, which satisfies coherence by returning slices whose examples are influenced similarly by the training data. InfEmbed is simple, and consists of applying K-Means clustering to a novel representation we deem influence embeddings. We show InfEmbed outperforms current state-of-the-art methods on 2 benchmarks, and is effective for model debugging across several case studies.
翻訳日:2023-12-11 16:59:15 公開日:2023-12-07
# 1次元サイクルドライバハミルトニアンを用いたフェルミオンQAOAの実験実証

Experimental Demonstration of Fermionic QAOA with One-Dimensional Cyclic Driver Hamiltonian ( http://arxiv.org/abs/2312.04710v1 )

ライセンス: Link先を確認
Takuya Yoshioka, Keita Sasada, Yuichiro Nakano, Keisuke Fujii(参考訳) 量子近似最適化アルゴリズム (QAOA) は組合せ最適化問題を効率的に解くことのできるアルゴリズムとして注目されている。 中でも,制約付き最適化問題を解決するためのフェルミイオンqaoa (fqaoa) が開発されている(吉岡, 佐田, 中野, 藤井, phys. rev. research vol. 5, 023071, 2023)。 このアルゴリズムでは、制約は本質的に任意の近似レベルでフェルミオン数保存として課される。 ポートフォリオ最適化問題を応用例として,一次元巡回格子上での新しいドライバハミルトニアンを提案する。 新しいドライバハミルトニアンのfqaoaは、量子回路におけるゲート操作の数を削減します。 Amazon Braket上の16量子ビットを用いた閉じ込められたイオン量子コンピュータの実験では、提案されたドライバーは以前のFQAOAと比較してノイズ効果を効果的に抑制することを示した。

Quantum approximate optimization algorithm (QAOA) has attracted much attention as an algorithm that has the potential to efficiently solve combinatorial optimization problems. Among them, a fermionic QAOA (FQAOA) for solving constrained optimization problems has been developed [Yoshioka, Sasada, Nakano, and Fujii, Phys. Rev. Research vol. 5, 023071, 2023]. In this algorithm, the constraints are essentially imposed as fermion number conservation at arbitrary approximation level. We take the portfolio optimization problem as an application example and propose a new driver Hamiltonian on an one-dimensional cyclic lattice. Our FQAOA with the new driver Hamiltonian reduce the number of gate operations in quantum circuits. Experiments on a trapped-ion quantum computer using 16 qubits on Amazon Braket demonstrates that the proposed driver Hamiltonian effectively suppresses noise effects compared to the previous FQAOA.
翻訳日:2023-12-11 16:58:53 公開日:2023-12-07
# 勾配を推測する方法

How to guess a gradient ( http://arxiv.org/abs/2312.04709v1 )

ライセンス: Link先を確認
Utkarsh Singhal, Brian Cheung, Kartik Chandra, Jonathan Ragan-Kelley, Joshua B. Tenenbaum, Tomaso A. Poggio, Stella X. Yu(参考訳) 損失を計算したりラベルを知ったりすることなく、ニューラルネットワークの勾配についてどれくらい言えるだろうか? これは奇妙な質問に聞こえるかもしれない:確かに答えは「とても小さい」。 しかし,本稿では,従来考えられていたよりも勾配がより構造化されていることを示す。 勾配は、ネットワークアーキテクチャと入ってくる機能に依存する予測可能な低次元部分空間にある。 この構造をエクスプロイトすることで、おもちゃのデータセットで訓練された小さなネットワークを超えてスケールするのに苦労した指向性デリバティブに基づく勾配のない最適化スキームを大幅に改善することができる。 本研究では,正確な勾配を計算する手法と方向微分を用いる手法との最適化性能の差を狭める方法について検討する。 さらに,厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。

How much can you say about the gradient of a neural network without computing a loss or knowing the label? This may sound like a strange question: surely the answer is "very little." However, in this paper, we show that gradients are more structured than previously thought. Gradients lie in a predictable low-dimensional subspace which depends on the network architecture and incoming features. Exploiting this structure can significantly improve gradient-free optimization schemes based on directional derivatives, which have struggled to scale beyond small networks trained on toy datasets. We study how to narrow the gap in optimization performance between methods that calculate exact gradients and those that use directional derivatives. Furthermore, we highlight new challenges in overcoming the large gap between optimizing with exact gradients and guessing the gradients.
翻訳日:2023-12-11 16:58:26 公開日:2023-12-07
# マイクロ波ボソニック量子情報処理におけるフォールトトレラント・ワンウェイノイズレス増幅

Fault-tolerant one-way noiseless amplification for microwave bosonic quantum information processing ( http://arxiv.org/abs/2312.04707v1 )

ライセンス: Link先を確認
Hany Khalifa, Riku J\"antti, Gheorghe Sorin Paraoanu(参考訳) マイクロ波量子情報ネットワークは、損失チャネル上の単一光子伝播モードの信頼できる伝送を必要とする。 本稿では、振幅減衰チャネル(ADC)を通した飛行光子による損失を回避するのに適したマイクロ波ノイズレス線形増幅器(NLA)を提案する。 提案モデルは,単純な1次元4ノードクラスタ状態を用いて構成する。 量子ハサミ(QS)に基づく従来のNLAとは対照的に、単一光子増幅は光子数分解検出器(PNRD)を必要としない。 デバイスのクラスタを構成するノード間の絡み合いは、制御相ゲート(CPHASE)により達成される。 さらに、光子測定は量子非分解検出器(QND)によって実装され、現在は回路量子電磁力学(cQED)ツールボックスの一部として利用可能である。 我々は,検出の非効率性と暗カウントの確率を考慮し,装置の性能を実際に分析する。 さらに、低消費電力量子センシングアプリケーションやリモートシークレットキー生成(SKG)におけるデバイスの可能性について検討する。 具体的には、損失のないリソースをオフラインで作成するデバイスの能力と、SKGのリピータレスバウンダリを克服する能力を示す。 上述のアプリケーションに対するQS-NLAの性能を比較し、このデバイスがQS-NLAを上回る動作条件を明確に示す。 提案装置は光学領域への応用にも適している。

Microwave quantum information networks require reliable transmission of single photon propagating modes over lossy channels. In this article we propose a microwave noise-less linear amplifier (NLA) suitable to circumvent the losses incurred by a flying photon undergoing an amplitude damping channel (ADC). The proposed model is constructed by engineering a simple one-dimensional four node cluster state. Contrary to conventional NLAs based on quantum scissors (QS), single photon amplification is realized without the need for photon number resolving detectors (PNRDs). Entanglement between nodes comprising the device's cluster is achieved by means of a controlled phase gate (CPHASE). Furthermore, photon measurements are implemented by quantum non demolition detectors (QNDs), which are currently available as a part of circuit quantum electrodynamics (cQED) toolbox. We analyze the performance of our device practically by considering detection inefficiency and dark count probability. We further examine the potential usage of our device in low power quantum sensing applications and remote secret key generation (SKG). Specifically, we demonstrate the device's ability to prepare loss-free resources offline, and its capacity to overcome the repeater-less bound of SKG. We compare the performance of our device against a QS-NLA for the aforementioned applications, and highlight explicitly the operating conditions under which our device can outperform a QS-NLA. The proposed device is also suitable for applications in the optical domain.
翻訳日:2023-12-11 16:58:07 公開日:2023-12-07
# Reactor ModelとLingua Francaによる分散強化学習の最適化

Optimizing Distributed Reinforcement Learning with Reactor Model and Lingua Franca ( http://arxiv.org/abs/2312.04704v1 )

ライセンス: Link先を確認
Jacky Kwok, Marten Lohstroh, Edward A. Lee(参考訳) 分散強化学習(rl)フレームワークは、rlワークロードを複数の計算リソースにマッピングするために必須であり、サンプルの生成、値の推定、ポリシーの改善を可能にする。 これらの計算パラダイムは、トレーニング、サービス、シミュレーションワークロードのシームレスな統合を必要とします。 rayのような既存のフレームワークはこのオーケストレーションを効率的に管理していない。 本研究では,アクタのセットに固定的な通信パターンを強制するReactor Modelを実装したソリューションを提案する。 これによりスケジューラは、アクター毎のロックの取得とリリース、調整関連のメッセージの送受信など、同期に必要な作業を排除することができる。 当社のフレームワークであるLingua Franca(LF)は、Reactor Modelをベースにしたコーディネーション言語で、ユーザが分散RL用のデータフローグラフを自動的に生成できる統一インターフェースも提供しています。 LFはOpenAI GymおよびAtari環境からのサンプル生成において平均1.21倍、11.62倍、同期並列Q-ラーニングの平均トレーニング時間を31.2%、マルチエージェントRL推論を5.12倍に向上させた。

Distributed Reinforcement Learning (RL) frameworks are essential for mapping RL workloads to multiple computational resources, allowing for faster generation of samples, estimation of values, and policy improvement. These computational paradigms require a seamless integration of training, serving, and simulation workloads. Existing frameworks, such as Ray, are not managing this orchestration efficiently. In this study, we've proposed a solution implementing Reactor Model, which enforces a set of actors to have a fixed communication pattern. This allows the scheduler to eliminate works needed for synchronization, such as acquiring and releasing locks for each actor or sending and processing coordination-related messages. Our framework, Lingua Franca (LF), a coordination language based on the Reactor Model, also provides a unified interface that allows users to automatically generate dataflow graphs for distributed RL. On average, LF outperformed Ray in generating samples from OpenAI Gym and Atari environments by 1.21x and 11.62x, reduced the average training time of synchronized parallel Q-learning by 31.2%, and accelerated Multi-Agent RL inference by 5.12x.
翻訳日:2023-12-11 16:57:27 公開日:2023-12-07
# 2つの量子ビットを持つ量子コンピュータを用いたリプキンモデルの解法 : ジェネレータ座標法に基づくハイブリッド量子古典的手法

Solving the Lipkin model using quantum computers with two qubits only with a hybrid quantum-classical technique based on the Generator Coordinate Method ( http://arxiv.org/abs/2312.04703v1 )

ライセンス: Link先を確認
Yann Beaujeault-Taudiere and Denis Lacroix(参考訳) 量子資源を削減したハイブリッド量子古典アルゴリズムを用いたジェネレータ座標法(GCM)の可能性について論じる。 基礎状態を作成し、gcmに関連する様々なカーネルを計算するタスクを量子コンピュータに割り当てる一方、多体問題の固有値を求めるなどの残りのタスクは、生成されたカーネルを後処理するために古典コンピュータに委譲される。 この戦略は、量子多体問題を扱うために必要な量子資源を減らす。 この手法をリプキンモデルに適用する。 ハミルトニアンの置換対称性を用いて、最終的に2つの量子ビットだけが粒子数に関係なく問題を解くのに十分であることを示す。 完全エネルギースペクトルにつながる古典的な計算後処理は、ヒル・ウィーラー方程式を対角化することにより、標準的な一般化固有値技術を用いて行うことができる。 この手法の代替として、量子状態デフレ法がGCM問題にどのように適応できるかについても検討した。 この方法では、変分原理はエネルギーを増やして異なる励起状態にアクセスするように反復的に設計される。 ここで提案する手法は、量子レジスタの最小サイズが2キュービットのリプキンモデルに適用可能である。 有限個の測定値と量子デバイスノイズによって引き起こされる統計ノイズに対する2つの古典的後処理手法の性能を解析した。 ノイズ補正技術を採用すると、全エネルギースペクトルに対して極めて良好な結果が得られる。

The possibility of using the generator coordinate method (GCM) using hybrid quantum-classical algorithms with reduced quantum resources is discussed. The task of preparing the basis states and calculating the various kernels involved in the GCM is assigned to the quantum computer, while the remaining tasks, such as finding the eigenvalues of a many-body problem, are delegated to classical computers for post-processing the generated kernels. This strategy reduces the quantum resources required to treat a quantum many-body problem. We apply the method to the Lipkin model. Using the permutation symmetry of the Hamiltonian, we show that, ultimately, only two qubits is enough to solve the problem regardless of the particle number. The classical computing post-processing leading to the full energy spectrum can be made using standard generalized eigenvalues techniques by diagonalizing the so-called Hill-Wheeler equation. As an alternative to this technique, we also explored how the quantum state deflation method can be adapted to the GCM problem. In this method, variational principles are iteratively designed to access the different excited states with increasing energies. The methodology proposed here is successfully applied to the Lipkin model with a minimal size of two qubits for the quantum register. The performances of the two classical post-processing approaches with respect to the statistical noise induced by the finite number of measurements and quantum devices noise are analyzed. Very satisfactory results for the full energy spectra are obtained once noise correction techniques are employed.
翻訳日:2023-12-11 16:56:33 公開日:2023-12-07
# 量子力学のシュレーディンガー像における局所性

Locality in the Schroedinger Picture of Quantum Mechanics ( http://arxiv.org/abs/2312.04701v1 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) いわゆるアインシュタイン局所性は、量子力学のシュリンガー図においてどのように理解されるかを説明する。 この概念は、絡み合った状態によって示されるベル非局所性と完全に一致する。 量子力学が不完全であるという説とは対照的に、その過剰完全性は量子物理学の異なる画像で示されるように、同じ基礎的な現実を示している。

We explain how the so-called Einstein locality is to be understood in the Schr\"odinger picture of quantum mechanics. This notion is perfectly compatible with the Bell non-locality exhibited by entangled states. Contrary to some beliefs that quantum mechanics is incomplete, it is, in fact, its overcompleteness as exemplified by different pictures of quantum physics, that points to the same underlying reality.
翻訳日:2023-12-11 16:55:39 公開日:2023-12-07
# GraphMETRO: 専門家の混在によるGNNの複雑な分散シフトの緩和

GraphMETRO: Mitigating Complex Distribution Shifts in GNNs via Mixture of Aligned Experts ( http://arxiv.org/abs/2312.04693v1 )

ライセンス: Link先を確認
Shirley Wu, Kaidi Cao, Bruno Ribeiro, James Zou, Jure Leskovec(参考訳) 複雑な分散を一般化するグラフニューラルネットワーク(GNN)の能力は、現実世界のアプリケーションにとって不可欠である。 しかし、以前の研究は、グラフサイズを大きくしたり、構築されたデータ環境から推定されたシフトなど、特定の種類の分散シフトに重点を置いてきた。 例えば、ソーシャルグラフでは、ユーザノードはインタラクションやコンテンツの変更の増加を経験し、他のユーザノードは異なるシフトに遭遇する。 そのような複雑さを無視することは一般化を著しく阻害する。 そこで我々は,ノードレベルのタスクとグラフレベルのタスクの両方において,複雑な分散シフトの下でGNNの一般化を促進する新しいフレームワークであるGraphMETROを提案する。 提案手法では,共有表現空間に並んだゲーティングモデルとエキスパートモデルとを併用したMoEアーキテクチャを用いる。 ゲーティングモデルは、分散シフトを管理する鍵混合成分を特定し、各専門家は混合成分の不変表現を生成する。 最後に、GraphMETROは複数の専門家の表現を集約し、最終的な不変表現を生成する。 合成および実世界のデータセットに関する実験は、GraphMETROの優位性と解釈可能性を示している。 GraphMETROは、GOODベンチマークから4つの実世界のデータセットの最先端のパフォーマンスを達成し、WebKBとTwitchデータセットのベースラインをそれぞれ67%と4.2%で上回っている。

Graph Neural Networks' (GNNs) ability to generalize across complex distributions is crucial for real-world applications. However, prior research has primarily focused on specific types of distribution shifts, such as larger graph size, or inferred shifts from constructed data environments, which is highly limited when confronted with multiple and nuanced distribution shifts. For instance, in a social graph, a user node might experience increased interactions and content alterations, while other user nodes encounter distinct shifts. Neglecting such complexities significantly impedes generalization. To address it, we present GraphMETRO, a novel framework that enhances GNN generalization under complex distribution shifts in both node and graph-level tasks. Our approach employs a mixture-of-experts (MoE) architecture with a gating model and expert models aligned in a shared representation space. The gating model identifies key mixture components governing distribution shifts, while each expert generates invariant representations w.r.t. a mixture component. Finally, GraphMETRO aggregates representations from multiple experts to generate the final invariant representation. Our experiments on synthetic and realworld datasets demonstrate GraphMETRO's superiority and interpretability. To highlight, GraphMETRO achieves state-of-the-art performances on four real-world datasets from GOOD benchmark, outperforming the best baselines on WebKB and Twitch datasets by 67% and 4.2%, respectively.
翻訳日:2023-12-11 16:55:32 公開日:2023-12-07
# diffence: 拡散モデルによるメンバシッププライバシのフェンシング

Diffence: Fencing Membership Privacy With Diffusion Models ( http://arxiv.org/abs/2312.04692v1 )

ライセンス: Link先を確認
Yuefeng Peng, Ali Naseh, Amir Houmansadr(参考訳) ディープラーニングモデルは、さまざまなタスクで顕著なパフォーマンスを達成する一方で、メンバ推論攻撃に対して脆弱であり、特定のデータポイントがモデルのトレーニングセットの一部であるかどうかを敵が特定する。 この感受性は、特にモデルがセンシティブなデータセットでトレーニングされている場合、重要なプライバシー上の懸念を引き起こす。 現在の防衛方法は、モデルユーティリティを傷つけることなく堅牢な保護を提供するのに苦労することが多く、モデルの再訓練や余分なデータの使用を必要とすることが多い。 本稿では,生成モデルを活用することで,会員攻撃に対する新たな防御枠組みを提案する。 我々の防衛における重要な直感は、ターゲットモデルに入力する前に入力サンプルを再生成することで、メンバーと非メンバーの入力の違いを取り除くことである。 したがって、我々の防御は、トレーニング時間(モデルを変更する)か、モデルのアウトプットを変更する後(モデルのアウトプットを変更する)のどちらかである以前の防御とは異なり、 \emph{pre-inference} である。 私たちの防御のユニークな特徴は、ターゲットモデルのトレーニングや推論フェーズを変更することなく、入力サンプルのみで動作することです。 したがって、実験を通じて示すように、他の防御機構とカスケードすることができる。 広範な実験を通じて,本手法は,ベースラインと防御設定の両方においてモデルユーティリティを損なうことなく,メンバシッププライバシを向上し,堅牢なプラグ・n・プレイ防御機構として機能することを示す。 例えば,近年の最先端防衛の有効性を高め,攻撃精度を3つのデータセットで平均5.7\%から12.4\%に低減し,モデルの精度に何の影響も与えない。 本手法を先行防衛と統合することにより,プライバシ・ユーティリティ・トレードオフにおける最先端の新たなパフォーマンスを実現する。

Deep learning models, while achieving remarkable performance across various tasks, are vulnerable to member inference attacks, wherein adversaries identify if a specific data point was part of a model's training set. This susceptibility raises substantial privacy concerns, especially when models are trained on sensitive datasets. Current defense methods often struggle to provide robust protection without hurting model utility, and they often require retraining the model or using extra data. In this work, we introduce a novel defense framework against membership attacks by leveraging generative models. The key intuition of our defense is to remove the differences between member and non-member inputs which can be used to perform membership attacks, by re-generating input samples before feeding them to the target model. Therefore, our defense works \emph{pre-inference}, which is unlike prior defenses that are either training-time (modify the model) or post-inference time (modify the model's output). A unique feature of our defense is that it works on input samples only, without modifying the training or inference phase of the target model. Therefore, it can be cascaded with other defense mechanisms as we demonstrate through experiments. Through extensive experimentation, we show that our approach can serve as a robust plug-n-play defense mechanism, enhancing membership privacy without compromising model utility in both baseline and defended settings. For example, our method enhanced the effectiveness of recent state-of-the-art defenses, reducing attack accuracy by an average of 5.7\% to 12.4\% across three datasets, without any impact on the model's accuracy. By integrating our method with prior defenses, we achieve new state-of-the-art performance in the privacy-utility trade-off.
翻訳日:2023-12-11 16:55:05 公開日:2023-12-07
# Simul-LLM:大規模言語モデルを用いた高品質同時翻訳のためのフレームワーク

Simul-LLM: A Framework for Exploring High-Quality Simultaneous Translation with Large Language Models ( http://arxiv.org/abs/2312.04691v1 )

ライセンス: Link先を確認
Victor Agostinelli, Max Wild, Matthew Raffel, Kazi Asif Fuad, Lizhong Chen(参考訳) 数十億のパラメータを持つ大規模言語モデル(llm)が、大量のデータに事前トレーニングされ、ダウンストリームのさまざまな自然言語処理タスクにおける最先端のパフォーマンスにほぼあるいはそれ以上の能力を持つようになりました。 ニューラルマシン翻訳(NMT)は、LLMが大きな成功を収めたタスクの一つである。 しかし、LLMをNMTのより難しいサブセットである同時翻訳(SimulMT)に適用することに注力する研究はほとんどない。 本稿では,従来のSimulMTのコンセプトと実践をLLMの文脈で検証し,NMTで微調整されたLCMをSimulMTのタスクに適応させる,Simul-LLMを紹介し,SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークであるSimul-LLMを紹介する。

Large language models (LLMs) with billions of parameters and pretrained on massive amounts of data are now capable of near or better than state-of-the-art performance in a variety of downstream natural language processing tasks. Neural machine translation (NMT) is one such task that LLMs have been applied to with great success. However, little research has focused on applying LLMs to the more difficult subset of NMT called simultaneous translation (SimulMT), where translation begins before the entire source context is available to the model. In this paper, we address key challenges facing LLMs fine-tuned for SimulMT, validate classical SimulMT concepts and practices in the context of LLMs, explore adapting LLMs that are fine-tuned for NMT to the task of SimulMT, and introduce Simul-LLM, the first open-source fine-tuning and evaluation pipeline development framework for LLMs focused on SimulMT.
翻訳日:2023-12-11 16:54:36 公開日:2023-12-07
# フェアネス監査のためのサンプルサイズ計算に関する簡単なチュートリアル

A Brief Tutorial on Sample Size Calculations for Fairness Audits ( http://arxiv.org/abs/2312.04745v1 )

ライセンス: Link先を確認
Harvineet Singh, Fan Xia, Mi-Ok Kim, Romain Pirracchio, Rumi Chunara, Jean Feng(参考訳) 公正監査において、標準的な目的は、与えられたアルゴリズムがサブグループ間で実質的に異なる動作をするかどうかを検出することである。 このような監査の統計的分析を適切に行うことは、不公平を検知する高い確率を確保するため、情報的公正性評価を得るためには不可欠である。 しかしながら、フェアネス監査に必要なデータ量に関する限定的なガイダンスがあり、一般的に使用されるフェアネスメトリクスに関する直接的な適用結果が欠落している。 さらに、不等な部分群のサンプルサイズも考慮されていない。 本チュートリアルでは,不公平性を検出するための仮説テストの統計的パワーを最大化するために,必要なサブグループサンプルサイズを決定するためのガイダンスを提供することで,これらの課題に対処する。 本研究は,2値分類モデルと混同行列の要約として導出された多重公平度指標の監査に適用できる。 さらに,監査結果の信頼性を高める監査研究設計の他の側面についても考察する。

In fairness audits, a standard objective is to detect whether a given algorithm performs substantially differently between subgroups. Properly powering the statistical analysis of such audits is crucial for obtaining informative fairness assessments, as it ensures a high probability of detecting unfairness when it exists. However, limited guidance is available on the amount of data necessary for a fairness audit, lacking directly applicable results concerning commonly used fairness metrics. Additionally, the consideration of unequal subgroup sample sizes is also missing. In this tutorial, we address these issues by providing guidance on how to determine the required subgroup sample sizes to maximize the statistical power of hypothesis tests for detecting unfairness. Our findings are applicable to audits of binary classification models and multiple fairness metrics derived as summaries of the confusion matrix. Furthermore, we discuss other aspects of audit study designs that can increase the reliability of audit results.
翻訳日:2023-12-11 16:47:43 公開日:2023-12-07
# コネクティビティとセグメンテーションの合同学習による道路網の細粒度抽出

Fine-Grained Extraction of Road Networks via Joint Learning of Connectivity and Segmentation ( http://arxiv.org/abs/2312.04744v1 )

ライセンス: Link先を確認
Yijia Xu, Liqiang Zhang, Wuming Zhang, Suhong Liu, Jingwen Li, Xingang Li, Yuebin Wang, and Yang Li(参考訳) 衛星画像からの道路ネットワーク抽出は、インテリジェントな交通管理と自動運転分野に広く応用されている。 高解像度のリモートセンシング画像は複雑な道路エリアと背景を逸脱させ,道路抽出の課題となっている。 本研究では,接続の正確性を保ちながら,エンドツーエンドのセグメンテーション道路を対象としたマルチタスクネットワークを提案する。 ネットワークでは、画素レベルの道路特徴表現を強化し、オーバーヘッド画像から背景の邪魔をなくすためにグローバルアウェアモジュールを導入し、道路指向関連接続タスクを追加して、ネットワークが道路セグメントのグラフレベルの関係を保つことを保証する。 また,接続学習とセグメンテーション学習の相互情報を協調的に学習し,効果的に活用するマルチヘッド構造を構築した。 本研究では,3つのリモートセンシングデータセットにおける提案ネットワークの性能評価を行った。 実験の結果,ネットワークは道路区分精度と接続維持率で最先端手法を上回っていることがわかった。

Road network extraction from satellite images is widely applicated in intelligent traffic management and autonomous driving fields. The high-resolution remote sensing images contain complex road areas and distracted background, which make it a challenge for road extraction. In this study, we present a stacked multitask network for end-to-end segmenting roads while preserving connectivity correctness. In the network, a global-aware module is introduced to enhance pixel-level road feature representation and eliminate background distraction from overhead images; a road-direction-related connectivity task is added to ensure that the network preserves the graph-level relationships of the road segments. We also develop a stacked multihead structure to jointly learn and effectively utilize the mutual information between connectivity learning and segmentation learning. We evaluate the performance of the proposed network on three public remote sensing datasets. The experimental results demonstrate that the network outperforms the state-of-the-art methods in terms of road segmentation accuracy and connectivity maintenance.
翻訳日:2023-12-11 16:47:29 公開日:2023-12-07
# train 'n trade: foundations of parameter markets

Train 'n Trade: Foundations of Parameter Markets ( http://arxiv.org/abs/2312.04740v1 )

ライセンス: Link先を確認
Tzu-Heng Huang, Harit Vishwakarma, Frederic Sala(参考訳) 組織は通常,大規模モデルを個別にトレーニングする。 これはコストがかかり、特に大規模基礎モデルでは時間がかかります。 このような垂直生産は最適でないことが知られている。 この経済的な洞察に触発されて、モデルを構成する部分、すなわち重みのセットを市場商品のように取引することで、他人の専門知識を活用できるかどうかを問う。 近年のアライメントと補間モデルの発展は、それが可能であることを示唆しているが、実行可能なパラメータ市場を作るためには、いくつかの根本的な疑問に答えなければならない。 本稿では,これらの基本的な問題に対処し,市場運営に必要なインフラストラクチャを含むフレームワークを提案し,パラメータ交換のための戦略を考察し,エージェントがパラメータを収益化するための手段を提供する。 サイロ化されたモデルをゼロからトレーニングするエージェントと比較すると,競争環境においても,市場の利用によって相互に利益を得ることができることを示す。 このことは,パラメータマーケットの概念が将来,大規模なモデルトレーニングを改善する上で有用なパラダイムであることを示している。

Organizations typically train large models individually. This is costly and time-consuming, particularly for large-scale foundation models. Such vertical production is known to be suboptimal. Inspired by this economic insight, we ask whether it is possible to leverage others' expertise by trading the constituent parts in models, i.e., sets of weights, as if they were market commodities. While recent advances in aligning and interpolating models suggest that doing so may be possible, a number of fundamental questions must be answered to create viable parameter markets. In this work, we address these basic questions, propose a framework containing the infrastructure necessary for market operations to take place, study strategies for exchanging parameters, and offer means for agents to monetize parameters. Excitingly, compared to agents who train siloed models from scratch, we show that it is possible to mutually gain by using the market, even in competitive settings. This suggests that the notion of parameter markets may be a useful paradigm for improving large-scale model training in the future.
翻訳日:2023-12-11 16:47:14 公開日:2023-12-07
# 機械学習における不自然なアルゴリズム

Unnatural Algorithms in Machine Learning ( http://arxiv.org/abs/2312.04739v1 )

ライセンス: Link先を確認
Christian Goodbrake(参考訳) 自然勾配降下は、学習速度の制限が小さい場合、ネットワーク再パラメータ化に対する不変性を示し、高い共変ネットワークパラメータ化においても堅牢なトレーニング行動をもたらすという驚くべき特性を持つ。 この性質を持つ最適化アルゴリズムは、その構成多様体が微分同相群であれば、オプティマイザの状態空間を決定づける関手から、この群から状態空間の接束を決定する関手まで、自然変換の離散近似と見なすことができる。 この特性を持つアルゴリズムは、ネットワークの進化がネットワーク再パラメータ化にほぼ不変であるため、低パラメータ化ネットワークのトレーニングに使用する場合、より効率がよい。 より具体的には、学習速度が消えるにつれて、これらのアルゴリズムによって生成されたフローは滑らかなパラメータ化の下で不変であり、各パラメータのフローは等変写像によって決定される。 この性質を自然な変換とすることで、群作用に関して同値を超える一般化が可能になる; このフレームワークは射影のような非可逆写像を説明でき、非同型ネットワークアーキテクチャ間でのトレーニング行動の直接比較のための枠組みを作成し、これらの射影の逆極限を考慮し、ネットワークサイズが増加するにつれて制限行動の形式的検証を行う。 我々は、この自然性を導入する簡単な方法を導入し、多くの一般的な機械学習トレーニングアルゴリズムを調べ、その多くが不自然なものであることを発見した。

Natural gradient descent has a remarkable property that in the small learning rate limit, it displays an invariance with respect to network reparameterizations, leading to robust training behavior even for highly covariant network parameterizations. We show that optimization algorithms with this property can be viewed as discrete approximations of natural transformations from the functor determining an optimizer's state space from the diffeomorphism group if its configuration manifold, to the functor determining that state space's tangent bundle from this group. Algorithms with this property enjoy greater efficiency when used to train poorly parameterized networks, as the network evolution they generate is approximately invariant to network reparameterizations. More specifically, the flow generated by these algorithms in the limit as the learning rate vanishes is invariant under smooth reparameterizations, the respective flows of the parameters being determined by equivariant maps. By casting this property a natural transformation, we allow for generalizations beyond equivariance with respect to group actions; this framework can account for non-invertible maps such as projections, creating a framework for the direct comparison of training behavior across non-isomorphic network architectures, and the formal examination of limiting behavior as network size increases by considering inverse limits of these projections, should they exist. We introduce a simple method of introducing this naturality more generally and examine a number of popular machine learning training algorithms, finding that most are unnatural.
翻訳日:2023-12-11 16:46:58 公開日:2023-12-07
# グラフを微調整する効率的な大規模言語モデル

Efficient Large Language Models Fine-Tuning On Graphs ( http://arxiv.org/abs/2312.04737v1 )

ライセンス: Link先を確認
Rui Xue, Xipeng Shen, Ruozhou Yu, Xiaorui Liu(参考訳) Text-Attributed Graphs (TAGs) からの学習は、その幅広い現実世界のアプリケーションのために大きな注目を集めている。 大規模言語モデル(llms)の急速な進化は、テキストデータを処理する方法に革命をもたらし、グラフニューラルネットワーク(gnns)で一般的に使用される浅いテキスト埋め込みを置き換える強力な可能性を示している。 しかし、グラフ内のテキスト情報を利用する既存のLLMアプローチは、計算量やデータ効率が劣る。 本研究では,TAGにおけるLarge Language Models (LLM) のエンド・ツー・エンドファインタニングのための新しい,効率的なアプローチを提案する。 提案手法は計算コストとメモリオーバーヘッドをLLMのグラフレス微調整と同等に維持する。 さらに,LLMにおけるリック知識を,半教師付き学習において限定ラベル付きデータで効率的に下流グラフ学習タスクに転送する。 その優れた計算とデータ効率は包括的な実験を通じて実証され、タグ上の幅広いllmとグラフ学習タスクに有望なソリューションを提供する。

Learning from Text-Attributed Graphs (TAGs) has attracted significant attention due to its wide range of real-world applications. The rapid evolution of large language models (LLMs) has revolutionized the way we process textual data, which indicates a strong potential to replace shallow text embedding generally used in Graph Neural Networks (GNNs). However, we find that existing LLM approaches that exploit text information in graphs suffer from inferior computation and data efficiency. In this work, we introduce a novel and efficient approach for the end-to-end fine-tuning of Large Language Models (LLMs) on TAGs, named LEADING. The proposed approach maintains computation cost and memory overhead comparable to the graph-less fine-tuning of LLMs. Moreover, it transfers the rick knowledge in LLMs to downstream graph learning tasks effectively with limited labeled data in semi-supervised learning. Its superior computation and data efficiency are demonstrated through comprehensive experiments, offering a promising solution for a wide range of LLMs and graph learning tasks on TAGs.
翻訳日:2023-12-11 16:46:33 公開日:2023-12-07
# フィードバックは必要か? 目標条件強化学習における自然言語フィードバックの活用

Is Feedback All You Need? Leveraging Natural Language Feedback in Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2312.04736v1 )

ライセンス: Link先を確認
Sabrina McCallum, Max Taylor-Davies, Stefano V. Albrecht, Alessandro Suglia(参考訳) 多くの成功にもかかわらず、強化学習(RL)の分野は、人間の行動学習の印象的な一般化力に匹敵するものではない。 このギャップを埋める1つの方法は、自然言語で表現されたよりリッチで人間的なフィードバックをRLエージェントに提供することである。 このアイデアを検討するために,まずbabyaiを拡張して,環境ダイナミクスと目標条件の成功から言語フィードバックを自動的に生成する。 そして、この付加信号を利用するために、決定変換器アーキテクチャを変更する。 言語フィードバックによるトレーニングは,再帰や目標記述に代えて,エージェントの一般化パフォーマンスを向上させると同時に,トレーニング中にのみ使用可能な場合でも推論を行わなくても,エージェントがフィードバックの恩恵を受けることができることが分かりました。

Despite numerous successes, the field of reinforcement learning (RL) remains far from matching the impressive generalisation power of human behaviour learning. One possible way to help bridge this gap be to provide RL agents with richer, more human-like feedback expressed in natural language. To investigate this idea, we first extend BabyAI to automatically generate language feedback from the environment dynamics and goal condition success. Then, we modify the Decision Transformer architecture to take advantage of this additional signal. We find that training with language feedback either in place of or in addition to the return-to-go or goal descriptions improves agents' generalisation performance, and that agents can benefit from feedback even when this is only available during training, but not at inference.
翻訳日:2023-12-11 16:46:15 公開日:2023-12-07
# 単粒子トンネルにおける転化誤差の影響

Influence of Trotterization error on single-particle tunneling ( http://arxiv.org/abs/2312.04735v1 )

ライセンス: Link先を確認
Anton V. Khvalyuk, Kostyantyn Kechedzhi, Vadim S. Smelyansky, Lev. B Ioffe(参考訳) スズキ・トロッター近似(STA)を用いた単粒子トンネル問題のシミュレーションを行った。 いくつかの局所的なミニマを持つスムーズな位置依存電位プロファイルの存在下で、異なるミニマにおける局所化された状態間のトンネル問題を配置する粒子ホッピングである。 STAエラーは3つの方法で現れる。 一 摂動エネルギーシフト 二 トンネル率の非摂動的再正規化、及び 三 他の国に対する総確率の摂動的漏洩 一般に、トンネル共鳴の変形を指数的に小さなトンネル速度と比較する必要があるため、最初のタイプの誤差が最も重要である。 脱調(例えば共鳴が対称性によって保護されている場合)がない場合、STAはトンネルの速度を指数関数的に向上させる。 最後のタイプのエラーは、波動関数の全体的な欠陥を分類し、STAによる波動関数の十分に弱い歪みの領域を列挙する。 実験により,適用可能性の素質的基準である$\max\{T,P\}\ll\delta t^{-1}$(それぞれ$T,P$)を確認し,システムパラメータによる誤差の構造と挙動を明らかにする。 また、大きなトロッターステップの場合の分析も行われ、主な結果は、2/pi/\delta t$に近いエネルギー差を持つ状態間のカップリングによる低エネルギースペクトルの再構成である。 得られた結果とSTA誤差の厳密な上限との接続について論じ、特にこれらの厳密な境界が常に飽和していない理由を強調した。 また,提案した問題を既存の量子デバイス [arXiv:2012.00921] に直接実装可能であることも指摘した。 特に、説明された物理学を実証する実験設計の詳細な説明を与える。

Simulation of the single-particle tunneling problem by means of the Suzuki-Trotter approximation (STA) is analyzed. Considered is a particle hopping across a chain of sites in presence of a smooth position-dependent potential profile with several local minima that arrange a tunneling problem between the localized states in different minima. The STA error is found to manifest itself in three ways: i) perturbative energy shifts, ii) nonperturbartive renormalization of the tunneling rates, and iii) perturbative leakage of the total probability to other states. Generally, the first type of error is the most essential, as detuning of the tunneling resonance has to be compared with exponentially small tunneling rates. In absence of detuning (e.g. if the resonance is protected by symmetry), STA leads to exponential enhancement of the tunneling rates. The last type of error classifies the overall defect in the wave function and delineates the region of sufficiently weak distortion of the wave function due to STA. The conducted analysis confirms the naive criteria of applicability $\max\{T,P\}\ll\delta t^{-1}$ (with $T,P$ being the typical scales of kinetic and potential terms, respectively), while also revealing the structure of error and its behavior with system parameters. Analysis of the case of large Trotter step is also performed, with the main result being the reconstruction of low-energy spectrum due to coupling between states with energy difference close to $2\pi/\delta t$. The connection of the obtained results with rigorous upper error bounds on the STA error is discussed, with particular emphasis on why these rigorous bounds are not always saturated. We also point out that the proposed problem can be directly implemented on existing quantum devices [arXiv:2012.00921]. In particular, we give a detailed description of an experimental design that demonstrates the described physics.
翻訳日:2023-12-11 16:46:01 公開日:2023-12-07
# STraceBERT:セマンティックアプリケーショントレースを用いたソースコード検索

STraceBERT: Source Code Retrieval using Semantic Application Traces ( http://arxiv.org/abs/2312.04731v1 )

ライセンス: Link先を確認
Claudio Spiess(参考訳) ソフトウェアリバースエンジニアリングは、ソフトウェアエンジニアリングとセキュリティにおいて不可欠なタスクですが、特に敵のアーティファクトにとって、難しいプロセスです。 この課題に対処するために、Javaの動的解析ツールを利用した新しいアプローチSTraceBERTを提案する。これは、コアJavaライブラリへの呼び出しを記録し、記録されたアプリケーショントレース上でBERTスタイルのモデルを事前訓練し、候補セットから有効なメソッドソースコードを検索する。 本実験は,既存のアプローチと比較してソースコードの検索におけるSTraceBERTの有効性を示す。 提案手法は,ソフトウェアリバースエンジニアリングにおけるコード検索問題に対する有望な解決策を提供し,さらなる研究のための新たな道を開く。

Software reverse engineering is an essential task in software engineering and security, but it can be a challenging process, especially for adversarial artifacts. To address this challenge, we present STraceBERT, a novel approach that utilizes a Java dynamic analysis tool to record calls to core Java libraries, and pretrain a BERT-style model on the recorded application traces for effective method source code retrieval from a candidate set. Our experiments demonstrate the effectiveness of STraceBERT in retrieving the source code compared to existing approaches. Our proposed approach offers a promising solution to the problem of code retrieval in software reverse engineering and opens up new avenues for further research in this area.
翻訳日:2023-12-11 16:45:30 公開日:2023-12-07
# deceptprompt: 逆自然言語命令によるllm駆動コード生成の活用

DeceptPrompt: Exploiting LLM-driven Code Generation via Adversarial Natural Language Instructions ( http://arxiv.org/abs/2312.04730v1 )

ライセンス: Link先を確認
Fangzhou Wu, Xiaogeng Liu, Chaowei Xiao(参考訳) LLM(Large Language Models)の進歩により、LLMは自然言語をプログラミング言語に変換するコード生成に大きな進歩を遂げた。 これらのコードLLMは、大規模なユーザや組織によって広く受け入れられている。 しかし、致命的な脆弱性が存在するコードの中に危険な性質が隠されている。 一部のLLMプロバイダは、人間のガイダンスに合わせることでこれらの問題に対処しようとしているが、これらの取り組みは、Code LLMを実用的で堅牢なものにしない。 実際に最悪の場合、LLMの性能を深く理解しなければ、それらを様々な現実世界のアプリケーションに適用することは問題となるだろう。 既存のコードLLMは、脆弱性のあるコードを生成することに免疫していますか? もしそうでなければ、実際のデプロイメントシナリオにおいて、この問題の最大の深刻度は何でしょう? 本稿では,新しいアルゴリズムであるdeceptpromptについて紹介する。このアルゴリズムは,悪意のある自然言語命令を生成して,脆弱性のある正確なコードを生成するためのコードllmを駆動する。 deceptpromptは、微細な粒度損失設計を持つシステマティック進化に基づくアルゴリズムによって達成される。 deceptpromptのユニークな利点は、完全に良質で非指向的な意味を持つ自然な接頭辞や接尾辞を見つけることを可能にします。 この機能は、ユーザーが自然言語を使用している実際のシナリオで、これらのllm上でほぼワーストケースのレッドチームを行うことができます。 deceptpromptに関する広範な実験と分析は、我々のアプローチの有効性を検証するだけでなく、コード生成タスクにおけるllmの大きな弱点にも光を当てました。 最適化プレフィックス/サフィックスを適用する場合、アタック成功率(ASR)はプレフィックス/サフィックスを適用せずに平均50%向上する。

With the advancement of Large Language Models (LLMs), significant progress has been made in code generation, enabling LLMs to transform natural language into programming code. These Code LLMs have been widely accepted by massive users and organizations. However, a dangerous nature is hidden in the code, which is the existence of fatal vulnerabilities. While some LLM providers have attempted to address these issues by aligning with human guidance, these efforts fall short of making Code LLMs practical and robust. Without a deep understanding of the performance of the LLMs under the practical worst cases, it would be concerning to apply them to various real-world applications. In this paper, we answer the critical issue: Are existing Code LLMs immune to generating vulnerable code? If not, what is the possible maximum severity of this issue in practical deployment scenarios? In this paper, we introduce DeceptPrompt, a novel algorithm that can generate adversarial natural language instructions that drive the Code LLMs to generate functionality correct code with vulnerabilities. DeceptPrompt is achieved through a systematic evolution-based algorithm with a fine grain loss design. The unique advantage of DeceptPrompt enables us to find natural prefix/suffix with totally benign and non-directional semantic meaning, meanwhile, having great power in inducing the Code LLMs to generate vulnerable code. This feature can enable us to conduct the almost-worstcase red-teaming on these LLMs in a real scenario, where users are using natural language. Our extensive experiments and analyses on DeceptPrompt not only validate the effectiveness of our approach but also shed light on the huge weakness of LLMs in the code generation task. When applying the optimized prefix/suffix, the attack success rate (ASR) will improve by average 50% compared with no prefix/suffix applying.
翻訳日:2023-12-11 16:45:17 公開日:2023-12-07
# ビッグデータとブロックチェーンによる人的責任のインターネット接続

The Internet of Responsibilities-Connecting Human Responsibilities using Big Data and Blockchain ( http://arxiv.org/abs/2312.04729v1 )

ライセンス: Link先を確認
Xuejiao Tang, Jiong Qiu, Wenbin Zhang, Ibrahim Toure, Mingli Zhang, Enza Messina, Xueping Xie, Xuebing Wang, Sheng Yu(参考訳) 職場でのアカウンタビリティは極めて重要であり、特に職場の安全管理に関して、依然として困難な問題である。 本稿では,アカウンタビリティ管理のための新しい概念であるInternet of Responsibilitiesを紹介する。 我々の方法は危険な位置に関する責任のリストを分類する。 これらの位置は、組織内の責任階層を示す有向非循環グラフ(DAG)を使用して相互接続される。 さらに、システムは責任を検知して収集し、責任ノードの位置の観点からリスク領域を表現します。 最後に、自動リマインダーと割り当てシステムを使用して、人間の介入なしに厳格な責任制御を行う。 ブロックチェーン技術を使用することで、責任データの保存、復元、暗号化が可能なシステムをさらに拡張します。 ビッグデータによって駆動されるインターネット・オブ・レスポンシビリティー・ネットワーク・モデルの適用により、企業や政府機関が高度に安全で安全な職場を実現できることを示す。 したがって、このモデルは、従業員の保護と組織の成功に不可欠である、相互責任、説明責任、監視、安全性の組み合わせを提供する。

Accountability in the workplace is critically important and remains a challenging problem, especially with respect to workplace safety management. In this paper, we introduce a novel notion, the Internet of Responsibilities, for accountability management. Our method sorts through the list of responsibilities with respect to hazardous positions. The positions are interconnected using directed acyclic graphs (DAGs) indicating the hierarchy of responsibilities in the organization. In addition, the system detects and collects responsibilities, and represents risk areas in terms of the positions of the responsibility nodes. Finally, an automatic reminder and assignment system is used to enforce a strict responsibility control without human intervention. Using blockchain technology, we further extend our system with the capability to store, recover and encrypt responsibility data. We show that through the application of the Internet of Responsibility network model driven by Big Data, enterprise and government agencies can attain a highly secured and safe workplace. Therefore, our model offers a combination of interconnected responsibilities, accountability, monitoring, and safety which is crucial for the protection of employees and the success of organizations.
翻訳日:2023-12-11 16:44:47 公開日:2023-12-07
# E2ENet: 正確な3次元医用画像分割のためのダイナミックスパース機能融合

E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D Medical Image Segmentation ( http://arxiv.org/abs/2312.04727v1 )

ライセンス: Link先を確認
Boqian Wu, Qiao Xiao, Shiwei Liu, Lu Yin, Mykola Pechenizkiy, Decebal Constantin Mocanu, Maurice Van Keulen and Elena Mocanu(参考訳) ディープニューラルネットワークは、3D画像セグメンテーションの主要なアプローチとして進化してきた。 しかし、深層ニューラルネットワークのモデルサイズと計算コストの増大は、実世界のリソース制限されたハードウェアにそれらをデプロイするための主要な障壁となっている。 本稿では,2つのパラメトリックかつ計算効率の高い設計を組み込んだ3次元医用画像セグメンテーションモデルである efficient to efficient network (e2enet)を提案する。 私は... 動的スパース機能融合(DSFF: Dynamic Sparse Feature fusion)機構: 冗長性を低減しつつ情報的マルチスケール特徴の融合を適応的に学習する。 私は... 3次元畳み込みにおける制限された深さシフト: 2次元法としてモデルと計算複雑性を維持しながら、3次元空間情報を活用する。 我々はBTCV,AMOS-CT,Brain tumor Segmentation Challengeの広範な実験を行い,E2ENetは様々な資源制約にまたがる先行技術よりも精度と効率のトレードオフを一貫して達成していることを示した。 E2ENet は AMOS-CT の大規模課題に対して,68 % 以上のパラメータカウントと29 % FLOP を推論フェーズで保存し,精度を比較検討した。 私たちのコードは、https://github.com/boqian333/e2enet-medicalで利用可能です。

Deep neural networks have evolved as the leading approach in 3D medical image segmentation due to their outstanding performance. However, the ever-increasing model size and computation cost of deep neural networks have become the primary barrier to deploying them on real-world resource-limited hardware. In pursuit of improving performance and efficiency, we propose a 3D medical image segmentation model, named Efficient to Efficient Network (E2ENet), incorporating two parametrically and computationally efficient designs. i. Dynamic sparse feature fusion (DSFF) mechanism: it adaptively learns to fuse informative multi-scale features while reducing redundancy. ii. Restricted depth-shift in 3D convolution: it leverages the 3D spatial information while keeping the model and computational complexity as 2D-based methods. We conduct extensive experiments on BTCV, AMOS-CT and Brain Tumor Segmentation Challenge, demonstrating that E2ENet consistently achieves a superior trade-off between accuracy and efficiency than prior arts across various resource constraints. E2ENet achieves comparable accuracy on the large-scale challenge AMOS-CT, while saving over 68\% parameter count and 29\% FLOPs in the inference phase, compared with the previous best-performing method. Our code has been made available at: https://github.com/boqian333/E2ENet-Medical.
翻訳日:2023-12-11 16:44:32 公開日:2023-12-07
# Purple Llama CyberSecEval: 言語モデルのセキュアコーディングベンチマーク

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models ( http://arxiv.org/abs/2312.04724v1 )

ライセンス: Link先を確認
Manish Bhatt, Sahana Chennabasappa, Cyrus Nikolaidis, Shengye Wan, Ivan Evtimov, Dominik Gabi, Daniel Song, Faizan Ahmad, Cornelius Aschermann, Lorenzo Fontana, Sasha Frolov, Ravi Prakash Giri, Dhaval Kapil, Yiannis Kozyrakis, David LeBlanc, James Milazzo, Aleksandar Straumann, Gabriel Synnaeve, Varun Vontimitta, Spencer Whitman, Joshua Saxe(参考訳) 本稿では,大規模言語モデル(llms)の暗号アシスタントとしてのサイバーセキュリティ強化を目的とした総合ベンチマークであるcybersecevalを提案する。 当社がこれまでに最も広範な統合サイバーセキュリティセキュリティベンチマークであると信じているcybersecevalは、2つの重要なセキュリティドメインにおけるllmの徹底的な評価を提供する。 Llama 2、Code Llama、OpenAI GPTの大言語モデルファミリーの7つのモデルに関するケーススタディを通じて、CyberSecEvalは、重要なサイバーセキュリティリスクを効果的に特定した。 さらに重要なのは、これらのモデルを洗練するための実践的な洞察を提供することだ。 この研究から有意な観察は、より高度なモデルが安全でないコードを提案する傾向にあり、高度なllmの開発においてセキュリティ上の考慮事項を統合する必要性が強調された。 CyberSecEvalは、テストケースの自動生成と評価パイプラインで幅広い範囲をカバーし、LLMの設計者や研究者にLLMのサイバーセキュリティ安全性を広く測定し、強化するツールを提供し、よりセキュアなAIシステムの開発に寄与している。

This paper presents CyberSecEval, a comprehensive benchmark developed to help bolster the cybersecurity of Large Language Models (LLMs) employed as coding assistants. As what we believe to be the most extensive unified cybersecurity safety benchmark to date, CyberSecEval provides a thorough evaluation of LLMs in two crucial security domains: their propensity to generate insecure code and their level of compliance when asked to assist in cyberattacks. Through a case study involving seven models from the Llama 2, Code Llama, and OpenAI GPT large language model families, CyberSecEval effectively pinpointed key cybersecurity risks. More importantly, it offered practical insights for refining these models. A significant observation from the study was the tendency of more advanced models to suggest insecure code, highlighting the critical need for integrating security considerations in the development of sophisticated LLMs. CyberSecEval, with its automated test case generation and evaluation pipeline covers a broad scope and equips LLM designers and researchers with a tool to broadly measure and enhance the cybersecurity safety properties of LLMs, contributing to the development of more secure AI systems.
翻訳日:2023-12-11 16:44:06 公開日:2023-12-07
# 離散破壊ネットワークシミュレーションにおける固有確率性の有無の感度解析

Sensitivity Analysis in the Presence of Intrinsic Stochasticity for Discrete Fracture Network Simulations ( http://arxiv.org/abs/2312.04722v1 )

ライセンス: Link先を確認
Alexander C. Murph, Justin D. Strait, Kelly R. Moran, Jeffrey D. Hyman, Hari S. Viswanathan, and Philip H. Stauffer(参考訳) 大規模離散破壊ネットワーク (dfn) シミュレータは, 実世界の地下破壊ネットワークの直接観測は一般的に不可能であるため, 粒子の地下輸送に関わる研究の標準的な方法である。 これらのシミュレータは、いくつかのエンジニアリングアプリケーションで多くの成功を収めているが、システムの端に到達する粒子のブレークスルー時間(qoi)の推定は、2つの異なるタイプの不確実性に苦しんでいる。 dfnシミュレータの実行には、破壊の配置や大きさ、破壊の密度、システムの全体的な透過性を規定するいくつかのパラメータ値が必要となる。 さらに、DFNシミュレータはフラクチャーの配置とフローの制御に確率的プロセスに依存するため、このランダム性がQoIにどのように影響するかを理解するには、異なるランダムシードでのシミュレータの実行がいくつか必要となる。 QoIにおける不確実性は、同じランダムな過程の異なる実現(すなわち異なる種)によって、2つ目の不確実性をもたらす。 本稿では,qoiで観測された不確かさを,各入力パラメータの認識的不確実性とアレエータ的不確実性とを直接区別する感度解析を行う。 我々は,dfnシミュレータにおいて観測されたヘテロケクタスティック性を扱うために,様々な入力に対してアレータティックな不確実性が変化する設計法をいくつか選択する。 DFNシミュレータにおいて,入力変数が不確実性に最も影響する特定の特徴に加えて,不確実性を示すDFNフローシミュレーションにおける不確かさを特徴付ける統計的に厳密なワークフローの導入も大きな貢献である。

Large-scale discrete fracture network (DFN) simulators are standard fare for studies involving the sub-surface transport of particles since direct observation of real world underground fracture networks is generally infeasible. While these simulators have seen numerous successes over several engineering applications, estimations on quantities of interest (QoI) - such as breakthrough time of particles reaching the edge of the system - suffer from a two distinct types of uncertainty. A run of a DFN simulator requires several parameter values to be set that dictate the placement and size of fractures, the density of fractures, and the overall permeability of the system; uncertainty on the proper parameter choices will lead to some amount of uncertainty in the QoI, called epistemic uncertainty. Furthermore, since DFN simulators rely on stochastic processes to place fractures and govern flow, understanding how this randomness affects the QoI requires several runs of the simulator at distinct random seeds. The uncertainty in the QoI attributed to different realizations (i.e. different seeds) of the same random process leads to a second type of uncertainty, called aleatoric uncertainty. In this paper, we perform a Sensitivity Analysis, which directly attributes the uncertainty observed in the QoI to the epistemic uncertainty from each input parameter and to the aleatoric uncertainty. We make several design choices to handle an observed heteroskedasticity in DFN simulators, where the aleatoric uncertainty changes for different inputs, since the quality makes several standard statistical methods inadmissible. Beyond the specific takeaways on which input variables affect uncertainty the most for DFN simulators, a major contribution of this paper is the introduction of a statistically rigorous workflow for characterizing the uncertainty in DFN flow simulations that exhibit heteroskedasticity.
翻訳日:2023-12-11 16:43:43 公開日:2023-12-07
# 全てを失うことなく大きなものから小さなものへ:効率的な感性分析のためのChatGPTによるテキスト強化

From Big to Small Without Losing It All: Text Augmentation with ChatGPT for Efficient Sentiment Analysis ( http://arxiv.org/abs/2312.04720v1 )

ライセンス: Link先を確認
Stanis{\l}aw Wo\'zniak, Jan Koco\'n(参考訳) 人工知能の時代、データは金だがアノテートには費用がかかる。 本稿では、感情分析におけるテキスト増強にChatGPTを用いて、このジレンマに対する画期的な解決策を示す。 私たちは、chatgptのジェネレーティブな能力を活用して、より小さなモデルのパフォーマンスを著しく向上させ、より大きなモデルと競合し、あるいはパフォーマンスを上回らせるような、総合的なトレーニングデータを作成しました。 この革新により、モデルは効率的かつ効果的であり、品質を損なうことなく計算コスト、推論時間、メモリ使用量を削減できる。 私たちの研究は、ロバストな感情分析モデルのコスト効率の高い開発と展開における重要な進歩を示しています。

In the era of artificial intelligence, data is gold but costly to annotate. The paper demonstrates a groundbreaking solution to this dilemma using ChatGPT for text augmentation in sentiment analysis. We leverage ChatGPT's generative capabilities to create synthetic training data that significantly improves the performance of smaller models, making them competitive with, or even outperforming, their larger counterparts. This innovation enables models to be both efficient and effective, thereby reducing computational cost, inference time, and memory usage without compromising on quality. Our work marks a key advancement in the cost-effective development and deployment of robust sentiment analysis models.
翻訳日:2023-12-11 16:43:11 公開日:2023-12-07
# カーネル化マルチアームバンドによる分散最適化

Distributed Optimization via Kernelized Multi-armed Bandits ( http://arxiv.org/abs/2312.04719v1 )

ライセンス: Link先を確認
Ayush Rai and Shaoshuai Mou(参考訳) マルチアームバンディットアルゴリズムは、環境と対話して学習を行うシーケンシャルな意思決定のためのソリューションを提供する。 本研究では,分散最適化問題を,異種報酬設定のマルチエージェントマルチアームバンディット問題としてモデル化する。 この設定では、エージェントは協調して、局所目的関数の平均であるグローバル目的関数を最大化することを目指している。 エージェントは、カーネルヒルベルト空間(RKHS)の再生において、関連する未知の局所関数から得られる帯域フィードバックのみにアクセスすることができる。 本稿では,マルチエージェント IGP-UCB (MA-IGP-UCB) の完全分散アルゴリズムを提案する。 エージェントが自分の行動、報酬、あるいはローカル機能の見積もりを共有する必要はない。 提案手法では,個々の局所関数を,実行中のコンセンサスを利用してグローバル関数に拘束される高い信頼度を推定することにより,ネットワーク全体に利益をもたらす方法でサンプリングする。 さらに,Multi-agent Delayed IGP-UCB (MAD-IGP-UCB)アルゴリズムを提案する。 より多くの通信コストで推定更新ステップの遅延を利用して、性能を向上させる。

Multi-armed bandit algorithms provide solutions for sequential decision-making where learning takes place by interacting with the environment. In this work, we model a distributed optimization problem as a multi-agent kernelized multi-armed bandit problem with a heterogeneous reward setting. In this setup, the agents collaboratively aim to maximize a global objective function which is an average of local objective functions. The agents can access only bandit feedback (noisy reward) obtained from the associated unknown local function with a small norm in reproducing kernel Hilbert space (RKHS). We present a fully decentralized algorithm, Multi-agent IGP-UCB (MA-IGP-UCB), which achieves a sub-linear regret bound for popular classes for kernels while preserving privacy. It does not necessitate the agents to share their actions, rewards, or estimates of their local function. In the proposed approach, the agents sample their individual local functions in a way that benefits the whole network by utilizing a running consensus to estimate the upper confidence bound on the global function. Furthermore, we propose an extension, Multi-agent Delayed IGP-UCB (MAD-IGP-UCB) algorithm, which reduces the dependence of the regret bound on the number of agents in the network. It provides improved performance by utilizing a delay in the estimation update step at the cost of more communication.
翻訳日:2023-12-11 16:42:57 公開日:2023-12-07
# 畳み込みニューラルネットワークによる物理逆問題の再パラメータ化のためのテスト時間学習手法

A Test-Time Learning Approach to Reparameterize the Geophysical Inverse Problem with a Convolutional Neural Network ( http://arxiv.org/abs/2312.04752v1 )

ライセンス: Link先を確認
Anran Xu and Lindsey J. Heagy(参考訳) 正規化は、不適切な物理反転問題の解決に重要である。 明示的な正規化はよく用いられるが、ニューラルネットワーク構造から内在する暗黙の正規化効果を探索する機会がある。 コンピュータビジョン(CV)の研究者たちは、畳み込みニューラルネットワーク(CNN)アーキテクチャが本質的に、ノイズ除去や塗装を含む多様なCV逆問題に対処する上で有利な正規化を強制していることを発見した。 本研究では,この暗黙的正則化の地学逆転への適用性を検討した。 CNNは任意のベクトルをモデル空間(例えばシミュレーションメッシュ上の対数伝導率)にマッピングする。 予測された地下モデルは、予測された測定値を生成するために前方の数値シミュレーションプロセスに供給される。 その後、予測した測定値と観測された測定値とを比較して、目的関数値を算出する。 逆プロパゲーションアルゴリズムは、インバージョン中にCNNのトレーニング可能なパラメータを更新するために使用される。 提案手法におけるCNNは,逆転前のトレーニングを必要としないが,逆転アルゴリズムではCNN重みが推定されるので,これはテスト時間学習(TTL)アプローチである。 その結果,CNNによる暗黙の正則化は直流比抵抗反転に有用であることが示唆された。 また,この暗黙の正則化の潜在的原因に関する詳細な議論と,提案手法を他の物理シナリオに適用するための実践的ガイドを提供する。 逆問題を再パラメータ化するための提案手法は、他のティホノフ型物理反転にも適用できる。

Regularization is critical in solving the ill-posed geo-physical inversion problems. Explicit regularization is often used, but there are opportunities to explore the implicit regularization effect inherently from a Neural Network structure. Researchers in Computer Vision (CV) have discovered that the Convolutional Neural Network (CNN) architecture inherently enforces a regularization that is advantageous for addressing diverse CV inverse problems, including de-noising and in-painting. In this study, we examine the applicability of this implicit regularization to geophysical inversions. The CNN maps an arbitrary vector to the model space (e.g. log-conductivity on the simulation mesh). The predicted subsurface model is then fed into a forward numerical simulation process to generate corresponding predicted measurements. Subsequently, the objective function value is computed by comparing these predicted measurements with the observed field measurements. The backpropagation algorithm is employed to update the trainable parameters of the CNN during the inversion. Note that the CNN in our proposed method does not require training before the inversion, rather, the CNN weights are estimated in the inversion algorithm, hence this is a test-time learning (TTL) approach. The results demonstrate that the implicit regularization provided by the CNN can be useful in DC resistivity inversions. We also provide a detailed discussion of the potential sources of this implicit regularization and some practical guides for applying the proposed method to other geophysical scenarios. The proposed approach for reparameterizing the inverse problem can be adapted to other Tikhonov-style geophysical inversions.
翻訳日:2023-12-11 16:33:19 公開日:2023-12-07
# 生成モデルの退化を強制する:データ中毒攻撃の力

Forcing Generative Models to Degenerate Ones: The Power of Data Poisoning Attacks ( http://arxiv.org/abs/2312.04748v1 )

ライセンス: Link先を確認
Shuli Jiang, Swanand Ravindra Kadhe, Yi Zhou, Ling Cai, Nathalie Baracaldo(参考訳) 第三者によって訓練された大規模言語モデル(LLM)の応用が成長すると、LLMのセキュリティ脆弱性に対する深刻な懸念が持ち上がり、悪意のあるアクターが望ましくない出力を生成することを目的とした中毒攻撃によってLLMの脆弱性を秘密裏に悪用できることが示されている。 毒性攻撃は画像領域(例えばオブジェクト検出)や分類タスクにおいて大きな注目を集めているが、生成モデル、特に自然言語生成(NLG)タスクの領域におけるそれらの意味は理解されていない。 このギャップを埋めるために、我々は様々な毒の技術を網羅的に探究し、その効果を様々な生成タスクで評価する。 さらに,nlgタスクに特化した中毒攻撃の成功とステルスネスを定量化する指標についても紹介する。 複数のNLGタスク、LLM、データセットの広範な実験を通して、全チューニングデータサンプルの1倍の量で、微調整期間中にLSMに毒を盛ることが可能であることを示す。 本稿では,幅広いトリガと攻撃設定を考慮したnlgタスクを標的とした毒物攻撃を理解するための最初の体系的アプローチを提案する。 我々の発見は、AIセキュリティコミュニティがこのような脅威に対する適切な防御を考案するのを支援してくれることを期待しています。

Growing applications of large language models (LLMs) trained by a third party raise serious concerns on the security vulnerability of LLMs.It has been demonstrated that malicious actors can covertly exploit these vulnerabilities in LLMs through poisoning attacks aimed at generating undesirable outputs. While poisoning attacks have received significant attention in the image domain (e.g., object detection), and classification tasks, their implications for generative models, particularly in the realm of natural language generation (NLG) tasks, remain poorly understood. To bridge this gap, we perform a comprehensive exploration of various poisoning techniques to assess their effectiveness across a range of generative tasks. Furthermore, we introduce a range of metrics designed to quantify the success and stealthiness of poisoning attacks specifically tailored to NLG tasks. Through extensive experiments on multiple NLG tasks, LLMs and datasets, we show that it is possible to successfully poison an LLM during the fine-tuning stage using as little as 1\% of the total tuning data samples. Our paper presents the first systematic approach to comprehend poisoning attacks targeting NLG tasks considering a wide range of triggers and attack settings. We hope our findings will assist the AI security community in devising appropriate defenses against such threats.
翻訳日:2023-12-11 16:32:52 公開日:2023-12-07
# MetaDetect: マルチUAV無線ネットワークにおける変成テストに基づく異常検出

MetaDetect: Metamorphic Testing Based Anomaly Detection for Multi-UAV Wireless Networks ( http://arxiv.org/abs/2312.04747v1 )

ライセンス: Link先を確認
Boyang Yan(参考訳) 無線アドホックネットワーク(WANET)通信の信頼性は有線ネットワークよりもはるかに低い。 WANETはノードオーバーロード、ルーティングプロトコル、天気、障害物遮断など多くの要因の影響を受け、これらの異常は回避できない。 ネットワークを再ルーティングしたり、異なるバンドに切り替えたりできるため、事前にネットワークが完全に停止する正確な予測は不可欠である。 本研究には2つの主要な目標がある。 まず,メタモルフィックテスト(MT)手法に基づく異常事象検出パターンの設計を行う。 次に、転送率、占有率、受信パケット数などの評価指標のパフォーマンスを比較した。 他の研究と比較して、数学的解釈可能性の最も大きな利点は、物理的環境情報への依存を必要とせず、ネットワーク物理層とmac層データのみに依存することである。 その結果,提案手法はwanet上のインシデント/アクシデントイベントの自動同定に有効であることがわかった。 物理層転送レートメトリックは、最高のパフォーマンスを得ることができます。

The reliability of wireless Ad Hoc Networks (WANET) communication is much lower than wired networks. WANET will be impacted by node overload, routing protocol, weather, obstacle blockage, and many other factors, all those anomalies cannot be avoided. Accurate prediction of the network entirely stopping in advance is essential after people could do networking re-routing or changing to different bands. In the present study, there are two primary goals. Firstly, design anomaly events detection patterns based on Metamorphic Testing (MT) methodology. Secondly, compare the performance of evaluation metrics, such as Transfer Rate, Occupancy rate, and the Number of packets received. Compared to other studies, the most significant advantage of mathematical interpretability, as well as not requiring dependence on physical environmental information, only relies on the networking physical layer and Mac layer data. The analysis of the results demonstrates that the proposed MT detection method is helpful for automatically identifying incidents/accident events on WANET. The physical layer transfer Rate metric could get the best performance.
翻訳日:2023-12-11 16:32:28 公開日:2023-12-07
# Quilt-LLaVA: オープンソースの病理ビデオから局所的物語を抽出した視覚的指導チューニング

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos ( http://arxiv.org/abs/2312.04746v1 )

ライセンス: Link先を確認
Mehmet Saygin Seyfioglu, Wisdom O. Ikezogwo, Fatemeh Ghezloo, Ranjay Krishna, Linda Shapiro(参考訳) スライド画像全体(WSI)のギガピクセルスケールは、病理組織学的マルチモーダルチャットボットにとって課題であり、診断にはグローバルなWSI分析が必要である。 現在のビジュアルインストラクションデータセットは、大きな言語モデルを通じて生成され、個々の画像パッチに対する質問/回答ペアの作成に焦点を当てている。 このギャップを埋めるために,YouTube の教育病理ビデオを利用して収集した 107,131 個の病理組織特異的指導質問/回答ペアの大規模データセットである Quilt-Instruct を導入し,ナレーターのカーソル運動を自動的に抽出してキャプションの空間的局所化を実現する。 さらに,映像コンテンツ全体から診断と事実を抽出して文脈推論を行い,GPT-4の補外的推論を導出する。 Quilt-Instructを使ってQuilt-LLaVAを訓練し、与えられた単一イメージパッチを越え、診断的推論と空間認識能力を実現する。 Quilt-LLaVAを評価するために,985の画像と1283人の質問回答から作成した包括的評価データセットを提案する。 また,公共の病理組織学的データセットを用いてQuilt-LLaVAを徹底的に評価し,相対的なGPT-4スコアではQuilt-LLaVAが10%以上,開集合VQAでは4%,クローズド集合VQAでは9%以上,SOTAを有意に上回った。 コード、データ、モデルはquilt-llava.github.ioで公開されている。

The gigapixel scale of whole slide images (WSIs) poses a challenge for histopathology multi-modal chatbots, requiring a global WSI analysis for diagnosis, compounding evidence from different WSI patches. Current visual instruction datasets, generated through large language models, focus on creating question/answer pairs for individual image patches, which may lack diagnostic capacity on their own in histopathology, further complicated by the absence of spatial grounding in histopathology image captions. To bridge this gap, we introduce Quilt-Instruct, a large-scale dataset of 107,131 histopathology-specific instruction question/answer pairs, that is collected by leveraging educational histopathology videos from YouTube, which provides spatial localization of captions by automatically extracting narrators' cursor movements. In addition, we provide contextual reasoning by extracting diagnosis and supporting facts from the entire video content to guide the extrapolative reasoning of GPT-4. Using Quilt-Instruct, we train Quilt-LLaVA, which can reason beyond the given single image patch, enabling diagnostic reasoning and the capability of spatial awareness. To evaluate Quilt-LLaVA, we propose a comprehensive evaluation dataset created from 985 images and 1283 human-generated question-answers. We also thoroughly evaluate Quilt-LLaVA using public histopathology datasets, where Quilt-LLaVA significantly outperforms SOTA by over 10% on relative GPT-4 score and 4% and 9% on open and closed set VQA. Our code, data, and model are publicly available at quilt-llava.github.io.
翻訳日:2023-12-11 16:32:01 公開日:2023-12-07
# テキスト・ビデオ拡散モデルにおける動きのカスタマイズ

Customizing Motion in Text-to-Video Diffusion Models ( http://arxiv.org/abs/2312.04966v1 )

ライセンス: Link先を確認
Joanna Materzynska, Josef Sivic, Eli Shechtman, Antonio Torralba, Richard Zhang, Bryan Russell(参考訳) 本稿では,テキスト対ビデオ生成モデルをカスタマイズした動作で拡張し,元のトレーニングデータに表される動作を超えてその能力を拡張する手法を提案する。 入力として特定の動きを示すビデオサンプルを活用することで,多様なテキスト特定シナリオに対する入力動作パターンを学習し,一般化する。 私たちの貢献は3倍です。 まず,既存のテキスト対ビデオモデルを微調整し,入力例における表現された動きと新たなユニークなトークンとの新たなマッピングを学習する。 新たなカスタムモーションへの過度な対応を避けるために,ビデオによる正規化のアプローチを導入する。 第二に、事前訓練されたモデルで動きの先行を活用することにより、複数の人がカスタム動作をしている新しい動画を作成でき、他の動きと組み合わせて動きを起動することができる。 さらに,本手法は動作のマルチモーダルなカスタマイズと個別化対象の出現に拡張し,特徴と異なる動きを特徴とする映像生成を可能にする。 第3に,本手法を検証するために,学習したカスタムモーションを定量的に評価し,体系的アブレーション研究を行うアプローチを導入する。 本手法は,動作カスタマイズタスクに拡張された場合,事前の外観に基づくカスタマイズ手法よりも有意に優れていることを示す。

We introduce an approach for augmenting text-to-video generation models with customized motions, extending their capabilities beyond the motions depicted in the original training data. By leveraging a few video samples demonstrating specific movements as input, our method learns and generalizes the input motion patterns for diverse, text-specified scenarios. Our contributions are threefold. First, to achieve our results, we finetune an existing text-to-video model to learn a novel mapping between the depicted motion in the input examples to a new unique token. To avoid overfitting to the new custom motion, we introduce an approach for regularization over videos. Second, by leveraging the motion priors in a pretrained model, our method can produce novel videos featuring multiple people doing the custom motion, and can invoke the motion in combination with other motions. Furthermore, our approach extends to the multimodal customization of motion and appearance of individualized subjects, enabling the generation of videos featuring unique characters and distinct motions. Third, to validate our method, we introduce an approach for quantitatively evaluating the learned custom motion and perform a systematic ablation study. We show that our method significantly outperforms prior appearance-based customization approaches when extended to the motion customization task.
翻訳日:2023-12-11 15:26:52 公開日:2023-12-07
# 自然言語によるインバージョンフリー画像編集

Inversion-Free Image Editing with Natural Language ( http://arxiv.org/abs/2312.04965v1 )

ライセンス: Link先を確認
Sihan Xu, Yidong Huang, Jiayi Pan, Ziqiao Ma, Joyce Chai(参考訳) 近年のインバージョンベース編集の進歩にもかかわらず、テキスト誘導画像操作は拡散モデルでは困難である。 主なボトルネックは 1) 反転過程の時間を要する性質 2) 正確さと一貫性のバランスのとれ方 3)一貫性モデルにおける効率的な一貫性サンプリング手法との整合性の欠如。 上記の問題に対処するために、私たちはまず、編集の反転プロセスを排除できるかどうかを自問する。 初期サンプルが知られている場合、特別な分散スケジュールは、複数のステップの一貫性サンプリングと同じ形式にデノージングステップを減少させる。 本手法をDDCM (Denoising Diffusion Consistent Model) と命名し,サンプリングにおける明示的な逆転を伴わない仮想逆転戦略を示す。 テキストガイド編集のためのチューニング不要フレームワークにおける注意制御機構をさらに統合する。 これらを組み合わせてinversion-free editing (infedit) を提案する。これは、画像の完全性と明示的な反転に妥協することなく、修正を複雑にするために、厳密かつ非厳密なセマンティクス変更の一貫性と忠実な編集を可能にする。 広範な実験を通じて、InfEditは様々な編集タスクで強力なパフォーマンスを示し、また1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。 プロジェクトページ: https://sled-group.github.io/infedit/

Despite recent advances in inversion-based editing, text-guided image manipulation remains challenging for diffusion models. The primary bottlenecks include 1) the time-consuming nature of the inversion process; 2) the struggle to balance consistency with accuracy; 3) the lack of compatibility with efficient consistency sampling methods used in consistency models. To address the above issues, we start by asking ourselves if the inversion process can be eliminated for editing. We show that when the initial sample is known, a special variance schedule reduces the denoising step to the same form as the multi-step consistency sampling. We name this Denoising Diffusion Consistent Model (DDCM), and note that it implies a virtual inversion strategy without explicit inversion in sampling. We further unify the attention control mechanisms in a tuning-free framework for text-guided editing. Combining them, we present inversion-free editing (InfEdit), which allows for consistent and faithful editing for both rigid and non-rigid semantic changes, catering to intricate modifications without compromising on the image's integrity and explicit inversion. Through extensive experiments, InfEdit shows strong performance in various editing tasks and also maintains a seamless workflow (less than 3 seconds on one single A40), demonstrating the potential for real-time applications. Project Page: https://sled-group.github.io/InfEdit/
翻訳日:2023-12-11 15:26:30 公開日:2023-12-07
# zept:クエリ分散とセルフプロポーティングによるゼロショットパンタムセグメンテーション

ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting ( http://arxiv.org/abs/2312.04964v1 )

ライセンス: Link先を確認
Yankai Jiang, Zhongzhen Huang, Rongzhao Zhang, Xiaofan Zhang, Shaoting Zhang(参考訳) 医用画像解析におけるロングテール分布問題は, 一般的な疾患の頻度が高く, まれな疾患の頻度が低いことを反映しており, 訓練中に見当たらない, 稀, 新規の腫瘍分類を識別できる統一モデルを開発する上で大きな課題となっている。 本稿では,問合せと自己プロンプトに基づくゼロショットパン腫瘍セグメンテーションフレームワーク(ZePT)を提案する。 ZePTはオブジェクトクエリを2つのサブセットに切り離し、2つのステージでトレーニングする。 最初は、器官レベルの視覚特徴を収集するオブジェクト認識機能グループ化戦略を通じて、臓器のセグメンテーションに関する一連の基本的なクエリを学習する。 その後、見えない腫瘍セグメンテーションのための自動生成視覚プロンプトに焦点を当てた、他の高度なクエリセットを洗練する。 さらに,各クエリの識別表現と一般化性を高めるため,特徴レベルでクエリ知識アライメントを導入する。 種々の腫瘍セグメンテーションタスクに関する広範囲な実験は、ZePTの性能上の優位性を実証し、実際の環境でのゼロショット腫瘍セグメンテーションの可能性を示す。 コードは公開される予定だ。

The long-tailed distribution problem in medical image analysis reflects a high prevalence of common conditions and a low prevalence of rare ones, which poses a significant challenge in developing a unified model capable of identifying rare or novel tumor categories not encountered during training. In this paper, we propose a new zero-shot pan-tumor segmentation framework (ZePT) based on query-disentangling and self-prompting to segment unseen tumor categories beyond the training set. ZePT disentangles the object queries into two subsets and trains them in two stages. Initially, it learns a set of fundamental queries for organ segmentation through an object-aware feature grouping strategy, which gathers organ-level visual features. Subsequently, it refines the other set of advanced queries that focus on the auto-generated visual prompts for unseen tumor segmentation. Moreover, we introduce query-knowledge alignment at the feature level to enhance each query's discriminative representation and generalizability. Extensive experiments on various tumor segmentation tasks demonstrate the performance superiority of ZePT, which surpasses the previous counterparts and evidence the promising ability for zero-shot tumor segmentation in real-world settings. Codes will be made publicly available.
翻訳日:2023-12-11 15:26:09 公開日:2023-12-07
# 2次元および3次元先行を用いた双方向拡散によるテキストから3次元生成

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors ( http://arxiv.org/abs/2312.04963v1 )

ライセンス: Link先を確認
Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue(参考訳) ほとんどの3d世代の研究は、2dスコア蒸留サンプリング(sds)損失の最小化やマルチビューデータセットの微調整によって、3d空間への2d基礎モデルの拡張に焦点を当てている。 明示的な3d事前化がなければ、これらの手法はしばしば幾何学的異常と多視点不整合をもたらす。 近年,3Dデータセットのテクスチャの多様性が限定されているため,低品質なテクスチャ生成のコストがかかるにもかかわらず,3Dデータセットを直接トレーニングすることで,3Dオブジェクトの真しさを向上しようと試みている。 両手法の利点を活かし、3次元と2次元の両方の拡散過程を組み込んだ統一フレームワークbidirectional diffusion(bidiff)を提案し、3次元の忠実性と2次元のテクスチャの豊かさをそれぞれ保存する。 さらに、単純な組み合わせで、一貫性のない生成結果が得られるため、新たな双方向誘導でそれらを橋渡しする。 さらに, 最適化モデルの初期化により, 3次元モデルの品質向上と最適化の効率化を実現し, 生成過程を3.4時間から20分に短縮することができる。 実験の結果,高品質,多様,スケーラブルな3d生成が可能となった。 プロジェクトwebサイト: https://bidiff.github.io/

Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.
翻訳日:2023-12-11 15:25:47 公開日:2023-12-07
# ポイント2CAD:3次元点雲からのリバースエンジニアリングCADモデル

Point2CAD: Reverse Engineering CAD Models from 3D Point Clouds ( http://arxiv.org/abs/2312.04962v1 )

ライセンス: Link先を確認
Yujia Liu, Anton Obukhov, Jan Dirk Wegner, Konrad Schindler(参考訳) コンピュータ支援設計(CAD)モデル再構築は、コンピュータビジョン、グラフィックス、機械学習の交差点において重要な問題である。 この方向の最近の進歩は比較的信頼性の高いセマンティックセグメンテーションを実現するが、CADモデルの適切なトポロジを生成するのに苦慮している。 本研究では,その課題に対する技術の現状を分析し,既存の手法の欠点を明らかにする。 本稿では,セグメント化された点群と構造化cadモデルとのギャップを橋渡しし,異なるセグメント化バックボーンと容易に結合できるハイブリッド解析-神経再建法を提案する。 さらに, 表面適合ステージを駆動するために, フリーフォーム表面の暗黙的ニューラル表現を提案し, CAD全体の再構成手法の性能を向上する。 本手法をcadモデルのabcベンチマークで広範囲に評価し,そのデータセットの新たな最先端設定を行った。 プロジェクトページ: https://www.obukhov.ai/point2cad}{https://www.obukhov.ai/point2cad

Computer-Aided Design (CAD) model reconstruction from point clouds is an important problem at the intersection of computer vision, graphics, and machine learning; it saves the designer significant time when iterating on in-the-wild objects. Recent advancements in this direction achieve relatively reliable semantic segmentation but still struggle to produce an adequate topology of the CAD model. In this work, we analyze the current state of the art for that ill-posed task and identify shortcomings of existing methods. We propose a hybrid analytic-neural reconstruction scheme that bridges the gap between segmented point clouds and structured CAD models and can be readily combined with different segmentation backbones. Moreover, to power the surface fitting stage, we propose a novel implicit neural representation of freeform surfaces, driving up the performance of our overall CAD reconstruction scheme. We extensively evaluate our method on the popular ABC benchmark of CAD models and set a new state-of-the-art for that dataset. Project page: https://www.obukhov.ai/point2cad}{https://www.obukhov.ai/point2cad.
翻訳日:2023-12-11 15:25:25 公開日:2023-12-07
# DeepFidelity:ディープフェイク検出のための知覚的フォージェリフィデリティアセスメント

DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake Detection ( http://arxiv.org/abs/2312.04961v1 )

ライセンス: Link先を確認
Chunlei Peng, Huiqing Guo, Decheng Liu, Nannan Wang, Ruimin Hu, Xinbo Gao(参考訳) ディープフェイク検出(deepfake detection)とは、画像やビデオの中で人工的に生成された顔や編集された顔を検出することを指す。 近年の有望な進歩にもかかわらず、フェイス偽造技術の複雑さと可変性のため、ディープフェイク検出は依然として困難な問題である。 既存のディープフェイク検出法は、しばしば高度なネットワークを設計することで特徴を抽出するが、顔の知覚品質の影響を無視する。 実顔と偽顔の双方の品質分布の複雑さを考慮した新しいディープフェイク検出フレームワーク「deepfidelity」を提案する。 具体的には、異なる品質の顔データと偽の顔データを異なるスコアにマッピングすることで、複雑なサンプルをより詳細な方法で識別するモデルの能力を向上させる。 さらに、顔画像の対称性を利用して、浅層における地理的長距離関係をモデル化し、局所的な特徴を増強する、対称空間的注意強化型視覚トランスフォーマ(ssaaformer)と呼ばれるネットワーク構造を提案する。 複数のベンチマークデータセットに対する大規模な実験は、提案手法が最先端手法よりも優れていることを示す。

Deepfake detection refers to detecting artificially generated or edited faces in images or videos, which plays an essential role in visual information security. Despite promising progress in recent years, Deepfake detection remains a challenging problem due to the complexity and variability of face forgery techniques. Existing Deepfake detection methods are often devoted to extracting features by designing sophisticated networks but ignore the influence of perceptual quality of faces. Considering the complexity of the quality distribution of both real and fake faces, we propose a novel Deepfake detection framework named DeepFidelity to adaptively distinguish real and fake faces with varying image quality by mining the perceptual forgery fidelity of face images. Specifically, we improve the model's ability to identify complex samples by mapping real and fake face data of different qualities to different scores to distinguish them in a more detailed way. In addition, we propose a network structure called Symmetric Spatial Attention Augmentation based vision Transformer (SSAAFormer), which uses the symmetry of face images to promote the network to model the geographic long-distance relationship at the shallow level and augment local features. Extensive experiments on multiple benchmark datasets demonstrate the superiority of the proposed method over state-of-the-art methods.
翻訳日:2023-12-11 15:25:06 公開日:2023-12-07
# 高速ディスクマイニングのためのマルチ次元時系列のスケッチ

Sketching Multidimensional Time Series for Fast Discord Mining ( http://arxiv.org/abs/2311.03393v3 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yan Zheng, Menghai Pan, Huiyuan Chen, Zhongfang Zhuang, Junpeng Wang, Liang Wang, Wei Zhang, Jeff M. Phillips, Eamonn Keogh(参考訳) 時系列ディスコードは時系列異常検出に有用なプリミティブであり、マトリックスプロファイルは効果的にディスコードを取り込むことができる。 時系列の長さに関して、ディスコード発見のスケーラビリティを向上させるための研究が数多く存在する。 しかし、多次元時系列の次元に付随する行列プロファイル計算の時間的複雑さの低減に焦点を当てる作業は驚くほど少ない。 本研究では,多次元時系列間の不協和音マイニングのためのスケッチを提案する。 データを読み取るのと同じくらい早くスケッチを初期処理した後、ディスコードマイニングは元のデータの次元に依存しない実行時間を持つ。 水処理と輸送から得られたいくつかの実世界の例では、提案アルゴリズムは少なくとも1桁(50倍)のスループットを向上し、近似解の品質への影響は最小限である。 さらに,提案手法は,非連続的オーバーヘッドによる次元の動的付加や削除を処理できる。 これにより、データアナリストは、データを探索しながらリアルタイムに"What-if"シナリオを検討できる。

Time series discords are a useful primitive for time series anomaly detection, and the matrix profile is capable of capturing discord effectively. There exist many research efforts to improve the scalability of discord discovery with respect to the length of time series. However, there is surprisingly little work focused on reducing the time complexity of matrix profile computation associated with dimensionality of a multidimensional time series. In this work, we propose a sketch for discord mining among multi-dimensional time series. After an initial pre-processing of the sketch as fast as reading the data, the discord mining has runtime independent of the dimensionality of the original data. On several real world examples from water treatment and transportation, the proposed algorithm improves the throughput by at least an order of magnitude (50X) and only has minimal impact on the quality of the approximated solution. Additionally, the proposed method can handle the dynamic addition or deletion of dimensions inconsequential overhead. This allows a data analyst to consider "what-if" scenarios in real time while exploring the data.
翻訳日:2023-12-11 12:25:29 公開日:2023-12-07
# 自己教師付き音声表現を用いた聴覚障害者の非侵入知性予測

Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals using Self Supervised Speech Representations ( http://arxiv.org/abs/2307.13423v3 )

ライセンス: Link先を確認
George Close, Thomas Hain, Stefan Goetze(参考訳) 自己教師付き音声表現(ssr)は、例えば、音声品質予測のための特徴抽出器(sq)のような、通常または聴覚障害のあるユーザのための音声強調システムの評価および訓練に関連する多くの音声処理タスクにうまく適用されている。 しかしながら、なぜ、どのように品質関連の情報が適切にエンコードされているのかについての正確な知識は、いまだによく分かっていない。 本研究では,SQ評価の非侵襲的予測手法を,難聴者に対する信頼度予測に拡張する。 自己教師付き表現は、非侵入予測モデルの入力特徴として有用であり、より複雑なシステムに対する競合性能を達成する。 Clarity Prediction Challenge 1リスナーとエンハンスメントシステムによるパフォーマンスの詳細な分析は、未知のシステムや(聴覚障害のある)個人への一般化を可能にするために、より多くのデータが必要であることを示唆している。

Self-supervised speech representations (SSSRs) have been successfully applied to a number of speech-processing tasks, e.g. as feature extractor for speech quality (SQ) prediction, which is, in turn, relevant for assessment and training speech enhancement systems for users with normal or impaired hearing. However, exact knowledge of why and how quality-related information is encoded well in such representations remains poorly understood. In this work, techniques for non-intrusive prediction of SQ ratings are extended to the prediction of intelligibility for hearing-impaired users. It is found that self-supervised representations are useful as input features to non-intrusive prediction models, achieving competitive performance to more complex systems. A detailed analysis of the performance depending on Clarity Prediction Challenge 1 listeners and enhancement systems indicates that more data might be needed to allow generalisation to unknown systems and (hearing-impaired) individuals
翻訳日:2023-12-08 21:32:34 公開日:2023-12-07
# 2段階適応ロバスト最適化のための機械学習アプローチ

A Machine Learning Approach to Two-Stage Adaptive Robust Optimization ( http://arxiv.org/abs/2307.12409v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Cheol Woo Kim(参考訳) 本稿では,2段線形適応ロバスト最適化(ARO)問題と2段連立変数と多面的不確実性集合を機械学習で解く手法を提案する。 最適な現在決定、最適な現在決定に関連する最悪のシナリオ、そして我々が戦略と呼ぶものに最適な待ち時間決定をエンコードします。 カラムと制約生成アルゴリズムを用いて,複数の類似AROインスタンスを事前に解決し,最適戦略を抽出し,トレーニングセットを生成する。 私たちは、現在決定のための高品質な戦略、最適な現在決定に関連する最悪のシナリオ、そして待ち行列決定を予測する機械学習モデルをトレーニングします。 また、機械学習アルゴリズムをトレーニングするために必要な異なるターゲットクラス数を削減できるアルゴリズムも導入する。 提案手法を施設立地,多項目在庫管理,ユニットコミットメント問題に適用する。 提案手法は,最先端のアルゴリズムよりも高精度でARO問題を解く。

We propose an approach based on machine learning to solve two-stage linear adaptive robust optimization (ARO) problems with binary here-and-now variables and polyhedral uncertainty sets. We encode the optimal here-and-now decisions, the worst-case scenarios associated with the optimal here-and-now decisions, and the optimal wait-and-see decisions into what we denote as the strategy. We solve multiple similar ARO instances in advance using the column and constraint generation algorithm and extract the optimal strategies to generate a training set. We train a machine learning model that predicts high-quality strategies for the here-and-now decisions, the worst-case scenarios associated with the optimal here-and-now decisions, and the wait-and-see decisions. We also introduce an algorithm to reduce the number of different target classes the machine learning algorithm needs to be trained on. We apply the proposed approach to the facility location, the multi-item inventory control and the unit commitment problems. Our approach solves ARO problems drastically faster than the state-of-the-art algorithms with high accuracy.
翻訳日:2023-12-08 21:32:17 公開日:2023-12-07
# 高エネルギー物理における異常検出のための量子生成逆ネットワーク

Quantum Generative Adversarial Networks For Anomaly Detection In High Energy Physics ( http://arxiv.org/abs/2304.14439v2 )

ライセンス: Link先を確認
Elie Bermot and Christa Zoufal and Michele Grossi and Julian Schuhmacher and Francesco Tacchino and Sofia Vallecorsa and Ivano Tavernelli(参考訳) 素粒子物理学の標準モデル(SM)は、自然の基本的な力を記述するための理論パラダイムである。 幅広い適用性にもかかわらず、SMは物理的に可能な全ての事象を記述できない。 smによって説明できない事象の検出は、通常異常として言及され、それに関連するエキゾチックな物理的現象の発見は、非自明なタスクである。 この課題は、さらなるレベルの複雑さを持つさらに多くのイベントを生成する次世代の衝突者によってさらに大きくなります。 追加のデータの複雑さは、基礎となるモデルに関する事前の知識を必要としない教師なし異常検出メソッドの探索を動機付ける。 本研究では,そのような手法を開発する。 より明確には、量子生成逆ネットワークを用いて異常事象を識別する。 SMデータから背景分布を学習し、学習した背景分布に与えられた事象が特有であるか否かを判定する。 提案する量子パワー異常検出手法は,数値シミュレーションとibm量子プロセッサを用いて原理実証実験を行った。 10倍のトレーニングデータサンプルを用いた量子生成技術は、グラビトン粒子とヒッグス粒子の検出において古典的手法に匹敵する精度が得られることが判明した。 さらに,量子モデルのキャパシティを実験的に計算し,従来のモデルと比較して高い表現率を観測する。

The standard model (SM) of particle physics represents a theoretical paradigm for the description of the fundamental forces of nature. Despite its broad applicability, the SM does not enable the description of all physically possible events. The detection of events that cannot be described by the SM, which are typically referred to as anomalous, and the related potential discovery of exotic physical phenomena is a non-trivial task. The challenge becomes even greater with next-generation colliders that will produce even more events with additional levels of complexity. The additional data complexity motivates the search for unsupervised anomaly detection methods that do not require prior knowledge about the underlying models. In this work, we develop such a technique. More explicitly, we employ a quantum generative adversarial network to identify anomalous events. The method learns the background distribution from SM data and, then, determines whether a given event is characteristic for the learned background distribution. The proposed quantum-powered anomaly detection strategy is tested on proof-of-principle examples using numerical simulations and IBM Quantum processors. We find that the quantum generative techniques using ten times fewer training data samples can yield comparable accuracy to the classical counterpart for the detection of the Graviton and Higgs particles. Additionally, we empirically compute the capacity of the quantum model and observe an improved expressivity compared to its classical counterpart.
翻訳日:2023-12-08 21:31:59 公開日:2023-12-07
# 電気ネットワークの幾何学的記述とFaddeev-Jackiw量子化

Geometrical description and Faddeev-Jackiw quantization of electrical networks ( http://arxiv.org/abs/2304.12252v2 )

ライセンス: Link先を確認
A. Parra-Rodriguez and I. L. Egusquiza(参考訳) 集中要素電気回路理論では、メディアの存在下でマクスウェル方程式を解く問題は2つの方程式に還元され、局所幾何学と制限されたエネルギー密度のダイナミクスを包含する構成方程式と、電荷とエネルギーの保存をより大きなトポロジカルスケールで強制するキルヒホフ方程式である。 我々は,ラグランジアンおよびレイリー散逸関数から導出される一階微分方程式として,一般集中要素電気回路のダイナミクスの幾何学的,系統的記述を新たに開発した。 faddeev-jackiw法を用いて一般ネットワークのハミルトニアン記述の探索で生じる特異点を同定・分類する。 この解の核は、回路状態が表現可能な縮小多様体(例えば、コンパクト多様体の存在を含む、磁束と電荷次数の混合)の正しい同定に依存している。 純粋ノード流束やループチャージ変数を始点構成空間として用いた場合,非線形回路や非逆回路のハミルトニアン記述を求めるために,完全プログラム可能な手法を適用した。 この研究は、電気ネットワーク理論の多様な幾何学的イメージを統一し、例えば超伝導量子チップの正確なハミルトニアン記述の計算を自動化できることを証明している。

In lumped-element electrical circuit theory, the problem of solving Maxwell's equations in the presence of media is reduced to two sets of equations, the constitutive equations encapsulating local geometry and dynamics of a confined energy density, and the Kirchhoff equations enforcing conservation of charge and energy in a larger, topological, scale. We develop a new geometric and systematic description of the dynamics of general lumped-element electrical circuits as first order differential equations, derivable from a Lagrangian and a Rayleigh dissipation function. Through the Faddeev-Jackiw method we identify and classify the singularities that arise in the search for Hamiltonian descriptions of general networks. The core of our solution relies on the correct identification of the reduced manifold in which the circuit state is expressible, e.g., a mix of flux and charge degrees of freedom, including the presence of compact ones. We apply our fully programmable method to obtain (canonically quantizable) Hamiltonian descriptions of nonlinear and nonreciprocal circuits which would be cumbersome/singular if pure node-flux or loop-charge variables were used as a starting configuration space. This work unifies diverse existent geometrical pictures of electrical network theory, and will prove useful, for instance, to automatize the computation of exact Hamiltonian descriptions of superconducting quantum chips.
翻訳日:2023-12-08 21:31:39 公開日:2023-12-07
# 一般化クラスターモデルにおける対称性保護位相相の検出と安定化

Detecting and stabilizing measurement-induced symmetry-protected topological phases in generalized cluster models ( http://arxiv.org/abs/2302.14551v2 )

ライセンス: Link先を確認
Ra\'ul Morral-Yepes, Frank Pollmann, Izabella Lovas(参考訳) 本研究では,安定化器形式内の計算とテンソルネットワークシミュレーションを組み合わせることにより,幅広い量子ランダム回路モデルにおける計測誘起対称性保護位相秩序(spt)について検討する。 量子ランダム回路の族を構築し、すべての一般化クラスタモデルの平衡バージョンを生成し、異なるspt位相を識別するための非局所文字列順序パラメータのセットを導出する。 この枠組みを用いて,XZXクラスタモデルのランダム回路実現を検証し,この文字列順序パラメータを用いて,回路内のユニタリゲートのクラスをクリフォードゲートからハールユニタリーに拡張することに対して,位相図が安定であることを示す。 次に,xzzx一般化クラスタモデルを用いて,文字列順序パラメータと連結相関関数に依存することにより,spt次数と自発的対称性の破れの共存を実証する。

We study measurement-induced symmetry-protected topological (SPT) order in a wide class of quantum random circuit models by combining calculations within the stabilizer formalism with tensor network simulations. We construct a family of quantum random circuits, generating the out-of-equilibrium version of all generalized cluster models, and derive a set of non-local string order parameters to distinguish different SPT phases. We apply this framework to investigate a random circuit realization of the XZX cluster model, and use the string order parameter to demonstrate that the phase diagram is stable against extending the class of unitary gates in the circuit, from Clifford gates to Haar unitaries. We then turn to the XZZX generalized cluster model, and demonstrate the coexistence of SPT order and spontaneous symmetry breaking, by relying on string order parameters and a connected correlation function.
翻訳日:2023-12-08 21:31:14 公開日:2023-12-07
# タンパク質構造の内部座標密度モデリング:共分散問題

Internal-Coordinate Density Modelling of Protein Structure: Covariance Matters ( http://arxiv.org/abs/2302.13711v2 )

ライセンス: Link先を確認
Marloes Arts, Jes Frellsen, Wouter Boomsma(参考訳) タンパク質構造予測の最近の進歩の後、タンパク質機械学習における残りの課題の1つは、構造状態の分布を確実に予測することである。 タンパク質鎖の自由度の間の複雑な共分散構造のため、変動のパラメトリックモデルは適合し難いため、しばしばモデルが局所的または大域的構造的制約に違反する。 本稿では,3次元空間における制約を利用して内部自由度間の共分散構造を誘導する,タンパク質密度を内部座標でモデル化する新しい戦略を提案する。 条件平均によって入力される制約によって引き起こされる完全な共分散出力を持つ変分自己エンコーダを3Dで構築し,本手法により内部座標の密度モデルをフルタンパク質のバックボーンに2つの設定で拡張できることを実証する。 1)少ない変動と限られた量の利用可能なデータを示すタンパク質の単調な設定 2) ハイデータレジームにおけるより大きなコンフォメーション変化のためのマルチモーダル設定。

After the recent ground-breaking advances in protein structure prediction, one of the remaining challenges in protein machine learning is to reliably predict distributions of structural states. Parametric models of fluctuations are difficult to fit due to complex covariance structures between degrees of freedom in the protein chain, often causing models to either violate local or global structural constraints. In this paper, we present a new strategy for modelling protein densities in internal coordinates, which uses constraints in 3D space to induce covariance structure between the internal degrees of freedom. We illustrate the potential of the procedure by constructing a variational autoencoder with full covariance output induced by the constraints implied by the conditional mean in 3D, and demonstrate that our approach makes it possible to scale density models of internal coordinates to full protein backbones in two settings: 1) a unimodal setting for proteins exhibiting small fluctuations and limited amounts of available data, and 2) a multimodal setting for larger conformational changes in a high data regime.
翻訳日:2023-12-08 21:30:35 公開日:2023-12-07
# 共振器Q-ファクタチューニングによるMaser Threshold特性の評価

Maser Threshold Characterization by Resonator Q-Factor Tuning ( http://arxiv.org/abs/2302.10811v2 )

ライセンス: Link先を確認
Christoph W. Zollitsch, Stefan Ruloff, Yan Fett, Haakon T. A. Wiedemann, Rudolf Richter, Jonathan D. Breeze, and Christopher W. M. Kay(参考訳) 現在、レーザーはユビキタスな技術であるが、マイクロ波アナログであるメーザーは、優れた低ノイズマイクロ波増幅特性にもかかわらず、高度に特殊化されている。 メーザーの広範囲の応用は、典型的には低温の必要性によって制限される。 近年、ダイヤモンドのnv$^-$中心を用いた連続波室温メーザーの実現は、マイクロ波研究と開発のための潜在的なプラットフォームとしてメーザーを確立するための第一歩であるが、その設計は最適とはほど遠い。 そこで我々は,NV$^-$センターを用いて,メーザの操作空間を特徴付ける最適化されたセットアップを設計・構築する。 マイクロ波光子の放出には,マイクロ波共振器の品質係数とスピンレベル反転の程度という2つの重要なパラメータの相互作用に着目した。 これら2つのパラメータの関数としてmaserの性能を特徴付け、動作のパラメータ空間を特定し、最大連続マイクロ波放射の要件を強調する。

Whereas the laser is nowadays an ubiquitous technology, applications for its microwave analogue, the maser, remain highly specialized, despite the excellent low-noise microwave amplification properties. The widespread application of masers is typically limited by the need of cryogenic temperatures. The recent realization of a continuous-wave room-temperature maser, using NV$^-$ centers in diamond, is a first step towards establishing the maser as a potential platform for microwave research and development, yet its design is far from optimal. Here, we design and construct an optimized setup able to characterize the operating space of a maser using NV$^-$ centers. We focus on the interplay of two key parameters for emission of microwave photons: the quality factor of the microwave resonator and the degree of spin level-inversion. We characterize the performance of the maser as a function of these two parameters, identifying the parameter space of operation and highlighting the requirements for maximal continuous microwave emission.
翻訳日:2023-12-08 21:30:17 公開日:2023-12-07
# 3次元ブラックホールシミュレータによるAdS/CFT対応

AdS/CFT Correspondence with a 3D Black Hole Simulator ( http://arxiv.org/abs/2211.15305v2 )

ライセンス: Link先を確認
Aydin Deger and Matthew D. Horner and Jiannis K. Pachos(参考訳) AdS/CFT対応の重要な応用の1つは、反ド・ジッター(AdS)ブラックホールの絡み合いエントロピーと低次元共形場理論(CFT)の間の双対性である。 ここでは、回転対称な3dブラックホールがディラック場に与える影響をシミュレートする不均質なトンネル結合を持つフェルミオンの正方格子を用いる。 3次元BTZブラックホールに適用すると、理論上予測された2次元CFTがブラックホールの絡み合いのエントロピーを忠実に記述するパラメトリック状態が特定される。 ユニバーサル・シミュレーターの助けを借りて、3dブラックホールの大きなファミリーは、btzブラックホールと同じ基底状態の絡み合いエントロピー挙動を示すことをさらに証明した。 シミュレータの単純さにより、多種多様な3次元ブラックホールを直接数値解析し、光学格子技術で実験的に実現することができる。

One of the key applications of AdS/CFT correspondence is the duality it dictates between the entanglement entropy of Anti-de Sitter (AdS) black holes and lower-dimensional conformal field theories (CFTs). Here we employ a square lattice of fermions with inhomogeneous tunneling couplings that simulate the effect rotationally symmetric 3D black holes have on Dirac fields. When applied to 3D BTZ black holes we identify the parametric regime where the theoretically predicted 2D CFT faithfully describes the black hole entanglement entropy. With the help of the universal simulator we further demonstrate that a large family of 3D black holes exhibit the same ground state entanglement entropy behavior as the BTZ black hole. The simplicity of our simulator enables direct numerical investigation of a wide variety of 3D black holes and the possibility to experimentally realize it with optical lattice technology.
翻訳日:2023-12-08 21:29:45 公開日:2023-12-07
# 移動拡張現実を用いたメタバースのためのフェデレーション学習の資源配分

Resource Allocation of Federated Learning for the Metaverse with Mobile Augmented Reality ( http://arxiv.org/abs/2211.08705v3 )

ライセンス: Link先を確認
Xinyu Zhou, Chang Liu, Jun Zhao(参考訳) メタバースは最近多くの注目を集めています。 モバイル拡張現実(MAR)によるメタバースアプリケーションは、デジタルデータを現実世界と混在させるために、迅速かつ正確なオブジェクト検出を必要とする。 フェデレートラーニング(FL)は、プライバシ保護の特性から興味深い分散機械学習アプローチである。 プライバシの懸念とモバイルデバイス上の限られた計算資源のため、FLをメタバースのMARシステムに組み込んでモデルを協調的に訓練する。 さらに, エネルギー, 実行遅延, モデル精度のトレードオフをバランスさせ, 異なる要求やアプリケーションシナリオを収容するために, 全エネルギー消費, 完了時間, モデル精度の重み付けを最小化するために最適化問題を定式化する。 本研究では,非凸最適化問題を2つのサブプロブレムに分解することで,各装置の帯域割り当て,伝送電力,CPU周波数,ビデオフレーム解像度を決定するリソース割り当てアルゴリズムを考案する。 さらに,提案アルゴリズムの収束解析と計算複雑性について述べる。 計算結果から,提案アルゴリズムは,既存のベンチマークと異なる重みパラメータの下で,より優れた性能(エネルギー消費,完了時間,モデル精度)を有することが示された。

The Metaverse has received much attention recently. Metaverse applications via mobile augmented reality (MAR) require rapid and accurate object detection to mix digital data with the real world. Federated learning (FL) is an intriguing distributed machine learning approach due to its privacy-preserving characteristics. Due to privacy concerns and the limited computation resources on mobile devices, we incorporate FL into MAR systems of the Metaverse to train a model cooperatively. Besides, to balance the trade-off between energy, execution latency and model accuracy, thereby accommodating different demands and application scenarios, we formulate an optimization problem to minimize a weighted combination of total energy consumption, completion time and model accuracy. Through decomposing the non-convex optimization problem into two subproblems, we devise a resource allocation algorithm to determine the bandwidth allocation, transmission power, CPU frequency and video frame resolution for each participating device. We further present the convergence analysis and computational complexity of the proposed algorithm. Numerical results show that our proposed algorithm has better performance (in terms of energy consumption, completion time and model accuracy) under different weight parameters compared to existing benchmarks.
翻訳日:2023-12-08 21:29:29 公開日:2023-12-07
# 預言不等式に対するバンディットアルゴリズムとpandoraの箱

Bandit Algorithms for Prophet Inequality and Pandora's Box ( http://arxiv.org/abs/2211.08586v2 )

ライセンス: Link先を確認
Khashayar Gatmiry, Thomas Kesselheim, Sahil Singla, and Yifan Wang(参考訳) 預言不等式とpandoraのボックス問題は、メカニズム設計、オンラインアルゴリズム、確率的最適化、最適停止、運用研究における応用における基本的な確率的問題である。 これらの研究における通常の仮定は、n$の確率変数の確率分布がアルゴリズムへの入力として与えられることである。 実際にこれらの分布を学習する必要があるため、マルチアーメッド帯域モデルにおけるそのような確率的問題の研究を開始する。 ラウンド$t$では、ポリシー$x^{(t)}$を再生し、$x^{(t)}$のパフォーマンスに関する部分的な(バンド)フィードバックを受け取ります。 目的は,分布を学習するアルゴリズムの総値と,部分的フィードバックから分布を学習するアルゴリズムの総値との合計値におけるT$ラウンドの差を最小化することである。 我々の主な結果は、預言不等式とpandoraの箱の両方に対して、ほぼ最適の$\tilde{o}(\mathsf{poly}(n)\sqrt{t})$ total regretアルゴリズムを与える。 我々の証明は、最適政策の未知の指標に対する信頼区間を維持することによって進められる。 探索と爆発のトレードオフは、これらの信頼区間を直接精査することを妨げるため、主なテクニックは、低レグレットのバンディットポリシーを実行しながら学習可能な後悔の上限を設計することである。

The Prophet Inequality and Pandora's Box problems are fundamental stochastic problem with applications in Mechanism Design, Online Algorithms, Stochastic Optimization, Optimal Stopping, and Operations Research. A usual assumption in these works is that the probability distributions of the $n$ underlying random variables are given as input to the algorithm. Since in practice these distributions need to be learned, we initiate the study of such stochastic problems in the Multi-Armed Bandits model. In the Multi-Armed Bandits model we interact with $n$ unknown distributions over $T$ rounds: in round $t$ we play a policy $x^{(t)}$ and receive a partial (bandit) feedback on the performance of $x^{(t)}$. The goal is to minimize the regret, which is the difference over $T$ rounds in the total value of the optimal algorithm that knows the distributions vs. the total value of our algorithm that learns the distributions from the partial feedback. Our main results give near-optimal $\tilde{O}(\mathsf{poly}(n)\sqrt{T})$ total regret algorithms for both Prophet Inequality and Pandora's Box. Our proofs proceed by maintaining confidence intervals on the unknown indices of the optimal policy. The exploration-exploitation tradeoff prevents us from directly refining these confidence intervals, so the main technique is to design a regret upper bound that is learnable while playing low-regret Bandit policies.
翻訳日:2023-12-08 21:29:07 公開日:2023-12-07
# 不確実性を考慮した予測制御のための離散時間ダイナミクスのアクティブ学習

Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control ( http://arxiv.org/abs/2210.12583v3 )

ライセンス: Link先を確認
Alessandro Saviolo, Jonathan Frey, Abhishek Rathod, Moritz Diehl, Giuseppe Loianno(参考訳) モデルに基づく制御は、複雑でダイナミックな環境でロボットを正確に安全に制御するために、システムダイナミクスの正確なモデルを必要とする。 さらに,動作条件の変動が存在する場合には,動的変化を補うためにモデルを継続的に改良する必要がある。 本稿では,非線形ロボットシステムのダイナミクスを積極的にモデル化する自己教師型学習手法を提案する。 我々は、過去の経験からオフライン学習と、現在のロボットインタラクションからオンライン学習と未知環境とを組み合わせる。 これらの2つの要素は、トレーニング分布と大きく異なる動作状態であっても、モデルダイナミクスをリアルタイムで正確に推定できる、非常に効率的な適応学習プロセスを可能にする。 さらに, 学習ダイナミクスの不確実性に対するヒューリスティックな条件を持つ不確実性認識モデル予測制御系を設計する。 この制御器は最適制御動作を積極的に選択する (i)制御性能を最適化し、 (ii)オンライン学習サンプル収集の効率化。 四重項系を用いて実世界実験を行い,本手法の有効性を実証する。 提案手法は飛行条件に一貫して適応することで高い弾力性と一般化能力を示し,古典的かつ適応的な制御ベースラインを著しく上回っている。

Model-based control requires an accurate model of the system dynamics for precisely and safely controlling the robot in complex and dynamic environments. Moreover, in the presence of variations in the operating conditions, the model should be continuously refined to compensate for dynamics changes. In this paper, we present a self-supervised learning approach that actively models the dynamics of nonlinear robotic systems. We combine offline learning from past experience and online learning from current robot interaction with the unknown environment. These two ingredients enable a highly sample-efficient and adaptive learning process, capable of accurately inferring model dynamics in real-time even in operating regimes that greatly differ from the training distribution. Moreover, we design an uncertainty-aware model predictive controller that is heuristically conditioned to the aleatoric (data) uncertainty of the learned dynamics. This controller actively chooses the optimal control actions that (i) optimize the control performance and (ii) improve the efficiency of online learning sample collection. We demonstrate the effectiveness of our method through a series of challenging real-world experiments using a quadrotor system. Our approach showcases high resilience and generalization capabilities by consistently adapting to unseen flight conditions, while it significantly outperforms classical and adaptive control baselines.
翻訳日:2023-12-08 21:28:26 公開日:2023-12-07
# スペクトル多重量子リピータに向けて

Towards a spectrally multiplexed quantum repeater ( http://arxiv.org/abs/2205.10028v2 )

ライセンス: Link先を確認
Tanmoy Chakraborty, Antariksha Das, Hedser van Brug, Oriol Pietx-Casas, Peng-Cheng Wang, Gustavo Castro do Amaral, Anna L. Tchebotareva, Wolfgang Tittel(参考訳) 拡張量子ネットワークは、複数のネットワークノード上で効率的にヘラルドされた方法で絡み合いの分布に依存する量子リピータに基づいている。 多くのリピータアーキテクチャは、絡み合った光子対、多重量子メモリ、多重モードを区別する光子検出の多重ソースを必要とする。 本稿では,(1)非線形結晶におけるスペクトル多重化キャビティ強化自発的パラメトリックダウンコンバージョン,(2)周波数選択的検出のためにスペクトルモードを異なる空間モードにマッピング可能な仮想位相アレー,(3)スペクトルフィルタリングをスペクトル多重化量子メモリとして利用するためのアプローチとして,低温冷却Tm3+:LiNbO3結晶の同時利用について述べる。 偶然の測定により、エネルギー相関光子対と他の全ての光子間の相関強度の強い還元との間の量子相関を示す。 これは周波数多重量子リピータへの重要なステップである。

Extended quantum networks are based on quantum repeaters that often rely on the distribution of entanglement in an efficient and heralded fashion over multiple network nodes. Many repeater architectures require multiplexed sources of entangled photon pairs, multiplexed quantum memories, and photon detection that distinguishes between the multiplexed modes. Here we demonstrate the concurrent employment of (1) spectrally multiplexed cavity-enhanced spontaneous parametric down-conversion in a nonlinear crystal; (2) a virtually-imaged phased array that enables mapping of spectral modes onto distinct spatial modes for frequency-selective detection; and (3) a cryogenically cooled Tm3+:LiNbO3 crystal that allows spectral filtering in an approach that anticipates its use as a spectrally-multiplexed quantum memory. Through coincidence measurements, we demonstrate quantum correlations between energy-correlated photon pairs and a strong reduction of the correlation strength between all other photons. This constitutes an important step towards a frequency multiplexed quantum repeater.
翻訳日:2023-12-08 21:28:08 公開日:2023-12-07
# センサネットワークにおける分散ベイズ推定:限界密度に関するコンセンサス

Distributed Bayesian Estimation in Sensor Networks: Consensus on Marginal Densities ( http://arxiv.org/abs/2312.01227v2 )

ライセンス: Link先を確認
Parth Paritosh, Nikolay Atanasov and Sonia Martinez(参考訳) 本稿では,センサネットワークのための分散ベイズ推定アルゴリズムの設計と解析を目的とする。 私たちが直面する課題は (i)連続変数上の確率分布の関数空間における分布証明正則アルゴリズムを導出し、 (ii)これらの結果を利用して、個々のエージェントが観測する変数のサブセットに限定された新しい分散推定子を得る。 これは、協調的なローカライゼーションやフェデレーション学習のような応用に関係しており、任意のエージェントで収集されたデータは、関心のあるすべての変数のサブセットに依存する。 我々は,集中的,分散的,境界的な分散設定におけるエージェントの非線形確率データを用いたベイズ密度推定アルゴリズムを提案する。 分散推定目標を設定した後、各エージェントの最適pdf集合にほぼ確実に収束することを示す。 次に,各エージェントの関連変数に対してのみ密度を推定するストレージ認識アルゴリズムについて同じことを証明した。 最後に、これらのアルゴリズムのガウス版を示し、lidarセンシングに関連する非線形次数モデルを扱うために変分推論を用いたマッピング問題に実装する。

In this paper, we aim to design and analyze distributed Bayesian estimation algorithms for sensor networks. The challenges we address are to (i) derive a distributed provably-correct algorithm in the functional space of probability distributions over continuous variables, and (ii) leverage these results to obtain new distributed estimators restricted to subsets of variables observed by individual agents. This relates to applications such as cooperative localization and federated learning, where the data collected at any agent depends on a subset of all variables of interest. We present Bayesian density estimation algorithms using data from non-linear likelihoods at agents in centralized, distributed, and marginal distributed settings. After setting up a distributed estimation objective, we prove almost-sure convergence to the optimal set of pdfs at each agent. Then, we prove the same for a storage-aware algorithm estimating densities only over relevant variables at each agent. Finally, we present a Gaussian version of these algorithms and implement it in a mapping problem using variational inference to handle non-linear likelihood models associated with LiDAR sensing.
翻訳日:2023-12-08 21:19:53 公開日:2023-12-07
# 量子クエリアルゴリズムにおける適応性のパワー

The Power of Adaptivity in Quantum Query Algorithms ( http://arxiv.org/abs/2311.16057v2 )

ライセンス: Link先を確認
Uma Girish, Makrand Sinha, Avishay Tal, Kewen Wu(参考訳) 短期量子デバイスの深さの制限によって動機づけられた問合せモデルの深度計算トレードオフについて検討し,その深さは適応的な問合せラウンド数に対応し,各層毎の計算はラウンド毎の並列クエリ数に対応している。 我々は、量子アルゴリズム間の最も強力な分離を$r$対$r-1$の適応性を持つラウンドで達成する。 我々は、Aaronson and Ambainis (SICOMP'18) が導入した$k$-fold Forrelation 問題を用いる。 この問題は、$k=2r$の場合、1ラウンドにつき1つのクエリしか持たない$r$ラウンド量子アルゴリズムで解決できるが、任意の$r-1$ラウンド量子アルゴリズムが1ラウンド当たりの並列クエリの指数(キュービット数)を必要とすることを示す。 この結果は、量子古典的分離に関する最近の研究で開発されたフーリエ解析機械によって証明される。 我々の結果における重要な新しい要素は、適応性の有界数を持つ量子クエリアルゴリズムのフーリエ重みに関するものである。 これらは、そのようなアルゴリズムから生じる多項式と、同じ次数の任意の有界多項式を区別するため、独立した関心を持つかもしれない。

Motivated by limitations on the depth of near-term quantum devices, we study the depth-computation trade-off in the query model, where the depth corresponds to the number of adaptive query rounds and the computation per layer corresponds to the number of parallel queries per round. We achieve the strongest known separation between quantum algorithms with $r$ versus $r-1$ rounds of adaptivity. We do so by using the $k$-fold Forrelation problem introduced by Aaronson and Ambainis (SICOMP'18). For $k=2r$, this problem can be solved using an $r$ round quantum algorithm with only one query per round, yet we show that any $r-1$ round quantum algorithm needs an exponential (in the number of qubits) number of parallel queries per round. Our results are proven following the Fourier analytic machinery developed in recent works on quantum-classical separations. The key new component in our result are bounds on the Fourier weights of quantum query algorithms with bounded number of rounds of adaptivity. These may be of independent interest as they distinguish the polynomials that arise from such algorithms from arbitrary bounded polynomials of the same degree.
翻訳日:2023-12-08 21:19:39 公開日:2023-12-07
# FRAC-Q-Learning:社会ロボットのためのボレドム回避プロセスによる強化学習

FRAC-Q-Learning: A Reinforcement Learning with Boredom Avoidance Processes for Social Robots ( http://arxiv.org/abs/2311.15327v2 )

ライセンス: Link先を確認
Akinari Onishi(参考訳) 強化学習アルゴリズムはしばしば社会ロボットに適用されている。 しかし、ほとんどの強化学習アルゴリズムはソーシャルロボットの使用に最適化されておらず、従ってユーザを惹きつける可能性がある。 本研究では,ソーシャルロボットであるfrac-q-learningに特化した新しい強化学習手法を提案する。 提案アルゴリズムは,プロセスのランダム化と分類に加えて,忘れるプロセスから構成される。 本研究では,従来のq-learningとの比較により,frac-q-learningへの関心と退屈度を評価した。 FRAC-Qラーニングは,従来のQラーニングに比べて関心度が高い傾向を示し,利用者のブーイングが著しく困難であった。 したがって、frac-q-learningはユーザーを退屈させないソーシャルロボットの開発に寄与することができる。 提案アルゴリズムは、Webベースのコミュニケーションや教育システムにも応用できる。 本稿では,frac-q-learningのプロセス全体,詳細な実装,詳細な評価方法について述べる。

The reinforcement learning algorithms have often been applied to social robots. However, most reinforcement learning algorithms were not optimized for the use of social robots, and consequently they may bore users. We proposed a new reinforcement learning method specialized for the social robot, the FRAC-Q-learning, that can avoid user boredom. The proposed algorithm consists of a forgetting process in addition to randomizing and categorizing processes. This study evaluated interest and boredom hardness scores of the FRAC-Q-learning by a comparison with the traditional Q-learning. The FRAC-Q-learning showed significantly higher trend of interest score, and indicated significantly harder to bore users compared to the traditional Q-learning. Therefore, the FRAC-Q-learning can contribute to develop a social robot that will not bore users. The proposed algorithm can also find applications in Web-based communication and educational systems. This paper presents the entire process, detailed implementation and a detailed evaluation method of the of the FRAC-Q-learning for the first time.
翻訳日:2023-12-08 21:19:17 公開日:2023-12-07
# 量子ダイバージェンスに対する極限分布理論

Limit Distribution Theory for Quantum Divergences ( http://arxiv.org/abs/2311.13694v2 )

ライセンス: Link先を確認
Sreejith Sreekumar and Mario Berta(参考訳) 量子相対エントロピーの推定とその R\'{e}nyi 一般化は、量子情報理論、物理学、その他における基本的な統計的タスクである。 これらの分岐のいくつかの推定者は計算の複雑さを探求した文献で提案されているが、推定誤差の漸近的変動を特徴づける極限分布理論はまだ未定である。 主な貢献として、基本作用素値関数のFr\'{e}chet微分の観点からこれらの漸近分布を特徴づける。 テイラーの定理の作用素バージョンを利用し、必要となる正規性条件を同定することでこれを達成する。 この結果の適用例として、量子状態のパウリトモグラフィーに基づく量子相対エントロピーの推定器を検討し、結果として生じる漸近分布が中心正規であり、パウリ作用素と状態の項で特徴づけられることを示す。 上記の限界分布の知識を利用して,多仮説テスト問題に対する漸近的性能保証を得る。

Estimation of quantum relative entropy and its R\'{e}nyi generalizations is a fundamental statistical task in quantum information theory, physics, and beyond. While several estimators of these divergences have been proposed in the literature along with their computational complexities explored, a limit distribution theory which characterizes the asymptotic fluctuations of the estimation error is still premature. As our main contribution, we characterize these asymptotic distributions in terms of Fr\'{e}chet derivatives of elementary operator-valued functions. We achieve this by leveraging an operator version of Taylor's theorem and identifying the regularity conditions needed. As an application of our results, we consider an estimator of quantum relative entropy based on Pauli tomography of quantum states and show that the resulting asymptotic distribution is a centered normal, with its variance characterized in terms of the Pauli operators and states. We utilize the knowledge of the aforementioned limit distribution to obtain asymptotic performance guarantees for a multi-hypothesis testing problem.
翻訳日:2023-12-08 21:19:03 公開日:2023-12-07
# 織物複合材料における弾塑性の繰り返しニューラルネットワークと伝達学習

Recurrent neural networks and transfer learning for elasto-plasticity in woven composites ( http://arxiv.org/abs/2311.13434v2 )

ライセンス: Link先を確認
Ehsan Ghane, Martin Fagerstr\"om, and Mohsen Mirkhalaf(参考訳) 本稿では, 計算集約型メソスケールシミュレーションのためのサロゲートとして, リカレントニューラルネットワーク(RNN)モデルを提案する。 伝達学習のパワーを活用することで,循環せん断ひずみ負荷に固有の初期化課題とスパースデータの問題が,rnnモデルで解決される。 平均場モデルは弾塑性挙動を表す包括的なデータセットを生成する。 シミュレーションでは、ランダムウォーキング時の応力をソースタスクとして予測し、目標タスクとして循環荷重条件を予測するために任意の6次元ひずみ履歴を用いる。 サブスケールプロパティを組み込むことで、RNNの汎用性が向上する。 正確な予測を実現するため、グリッド探索法を用いてネットワークアーキテクチャとハイパーパラメータ構成をチューニングする。 本研究は, 伝達学習を用いて, RNNを様々なひずみ条件に効果的に適応できることを示し, 織物の経路依存応答をモデル化するための有用なツールとしての可能性を確立した。

As a surrogate for computationally intensive meso-scale simulation of woven composites, this article presents Recurrent Neural Network (RNN) models. Leveraging the power of transfer learning, the initialization challenges and sparse data issues inherent in cyclic shear strain loads are addressed in the RNN models. A mean-field model generates a comprehensive data set representing elasto-plastic behavior. In simulations, arbitrary six-dimensional strain histories are used to predict stresses under random walking as the source task and cyclic loading conditions as the target task. Incorporating sub-scale properties enhances RNN versatility. In order to achieve accurate predictions, the model uses a grid search method to tune network architecture and hyper-parameter configurations. The results of this study demonstrate that transfer learning can be used to effectively adapt the RNN to varying strain conditions, which establishes its potential as a useful tool for modeling path-dependent responses in woven composites.
翻訳日:2023-12-08 21:18:36 公開日:2023-12-07
# HEPデータから直接BSM物理パラメータを抽出する深部3次元畳み込みニューラルネットワークの訓練:モンテカルロシミュレーションを用いた概念実証研究

Training Deep 3D Convolutional Neural Networks to Extract BSM Physics Parameters Directly from HEP Data: a Proof-of-Concept Study Using Monte Carlo Simulations ( http://arxiv.org/abs/2311.13060v2 )

ライセンス: Link先を確認
S. Dubey, T.E. Browder, S.Kohani, R. Mandal, A. Sibidanov, R. Sinha(参考訳) 本稿では,高エネルギー物理(HEP)フレーバーデータから直接標準モデル(BSM)パラメータを抽出するためのコンピュータビジョン技術の新たな応用について報告する。 我々は,角分布とキネマティック分布を「準画像」に変換する手法を開発し,畳み込みニューラルネットワークをトレーニングし,適合性に似た回帰処理を行う。 これは、HEPでML/AIを使用して実行される通常の分類関数とは対照的である。 概念実証として、34層の残留ニューラルネットワークをトレーニングし、これらの画像を回帰させ、Wilson Coefficient $C_{9}$ in MC (Monte Carlo) シミュレーションで$B \rightarrow K^{*}\mu^{+}\mu^{-}$崩壊を判定する。 ここで述べる手法は一般化することができ、様々なhep実験や他の場所で適用可能である。

We report on a novel application of computer vision techniques to extract beyond the Standard Model (BSM) parameters directly from high energy physics (HEP) flavor data. We develop a method of transforming angular and kinematic distributions into "quasi-images" that can be used to train a convolutional neural network to perform regression tasks, similar to fitting. This contrasts with the usual classification functions performed using ML/AI in HEP. As a proof-of-concept, we train a 34-layer Residual Neural Network to regress on these images and determine the Wilson Coefficient $C_{9}$ in MC (Monte Carlo) simulations of $B \rightarrow K^{*}\mu^{+}\mu^{-}$ decays. The technique described here can be generalized and may find applicability across various HEP experiments and elsewhere.
翻訳日:2023-12-08 21:18:20 公開日:2023-12-07
# 重力の量子性を明らかにする保存法則

Conservation Laws Reveal the Quantumness of Gravity ( http://arxiv.org/abs/2311.08971v2 )

ライセンス: Link先を確認
Tianfeng Feng, Chiara Marletto and Vlatko Vedral(参考訳) 量子古典力学の一般的な枠組みを採用し,量子物質と古典的重力場との相互作用を解析した。 運動量やエネルギーの保存を仮定し、力学が論文に定められた特定の分解特性に従うと仮定すると、古典的重力場は量子系の運動量やエネルギーを変えることができないが、量子重力場はそうすることができる。 保存法則と物体の量子的性質の基本的な関係に基づいて、我々の分析は量子重力の研究に新たな視点を与え、自由落下のような既存の実験観測の新たな解釈を提供する。

Adopting a general framework for quantum-classical dynamics, we analyze the interaction between quantum matter and a classical gravitational field. We point out that, assuming conservation of momentum or energy, and assuming that the dynamics obeys a particular decomposition property set out in the paper, the classical gravitational field cannot change the momentum or energy of the quantum system, whereas the quantum gravitational field can do so. Drawing upon the fundamental relationship between conservation laws and the quantum properties of objects, our analysis offers new perspectives for the study of quantum gravity and provides a novel interpretation of existing experimental observations, such as free fall.
翻訳日:2023-12-08 21:18:02 公開日:2023-12-07
# ジョルダン・ウィグナー変換のない自由フェルミオン

Free fermions with no Jordan-Wigner transformation ( http://arxiv.org/abs/2310.19897v2 )

ライセンス: Link先を確認
Paul Fendley and Balazs Pozsgay(参考訳) ヨルダン・ウィグナー変換はしばしばフェルミオン作用素の項で量子スピン鎖を書き換えるために用いられる。 結果のハミルトニアンがこれらのフェルミオンにおいて双線型であるとき、すなわちフェルミオンが自由であるとき、正確なスペクトルは系の体積と直線的にしか成長しない行列の固有値から従う。 しかし、フェルミオン双線型へのヨルダン・ウィグナー変換を認めないいくつかのハミルトニアンは、依然として同じ種類の自由フェルミオンスペクトルを持つ。 そのような『変装中の自由フェルミオン』モデルのスペクトルは、昇降演算子の複雑だが明示的な構成によって正確に見ることができる。 さらに、このようなスピン鎖の族を見つける方法を一般化する。 正確なスペクトルを計算し、エレガントなグラフ理論の構成を一般化する。 また、この族が N=2 格子超対称性を持つことを説明する。

The Jordan-Wigner transformation is frequently utilised to rewrite quantum spin chains in terms of fermionic operators. When the resulting Hamiltonian is bilinear in these fermions, i.e. the fermions are free, the exact spectrum follows from the eigenvalues of a matrix whose size grows only linearly with the volume of the system. However, several Hamiltonians that do not admit a Jordan-Wigner transformation to fermion bilinears still have the same type of free-fermion spectra. The spectra of such ``free fermions in disguise" models can be found exactly by an intricate but explicit construction of the raising and lowering operators. We generalise the methods further to find a family of such spin chains. We compute the exact spectrum, and generalise an elegant graph-theory construction. We also explain how this family admits an N=2 lattice supersymmetry.
翻訳日:2023-12-08 21:17:51 公開日:2023-12-07
# 矩形格子上の修正有理六頂点モデル

Modified rational six vertex model on the rectangular lattice ( http://arxiv.org/abs/2310.05850v2 )

ライセンス: Link先を確認
S. Belliard, R.A. Pimenta and N.A. Slavnov(参考訳) 我々は、通常の領域壁型を一般化する境界条件を持つ矩形格子上の有理六頂点モデルを考える。 このモデルの不均質なバージョンの分割関数は、修正された izergin 行列式によって与えられる。 証明は、量子逆散乱法とその表現理論と基本線型代数に基づいている。

We consider a rational six vertex model on a rectangular lattice with boundary conditions that generalize the usual domain wall type. We find that the partition function of the inhomogeneous version of this model is given by a modified Izergin determinant. The proofs are based on the quantum inverse scattering method and its representation theory together with elementary linear algebra.
翻訳日:2023-12-08 21:17:04 公開日:2023-12-07
# 共同作業の価値の実践的・私的保証

Practical, Private Assurance of the Value of Collaboration ( http://arxiv.org/abs/2310.02563v2 )

ライセンス: Link先を確認
Hassan Jameel Asghar and Zhigang Lu and Zhongrui Zhao and Dali Kaafar(参考訳) 2つのパーティーは、データセットで協力したいと思っています。 しかし、彼らがお互いにデータセットを公開する前に、当事者はコラボレーションが実りあることを保証したいと考えています。 我々は、機械学習の観点から、この問題を考察する。一方の当事者は、他方からのデータを組み込むことで、予測モデルの改善を約束する。 当事者は、更新されたモデルが精度の向上を示した場合にのみ、さらなる協力を希望する。 これを確認する前に、両者はモデルとデータセットを公開したくないだろう。 本研究では,Torus(TFHE)上の完全同型暗号方式と,基礎となる機械学習モデルがニューラルネットワークであるラベル差分プライバシーに基づいて,この問題に対する対話的プロトコルを構築する。 ラベル差分プライバシーは、計算が完全に暗号化されたドメインで行われていないことを保証するために使用される。 我々は,我々の計画の安全性を,誠実だが正確であると考える普遍的な構成可能性フレームワークで証明する。 実験により、完全にFHE演算を用いて、プロトコルよりも桁違いに高速に、出力、すなわち、更新されたモデルの精度が得られることが示された。

Two parties wish to collaborate on their datasets. However, before they reveal their datasets to each other, the parties want to have the guarantee that the collaboration would be fruitful. We look at this problem from the point of view of machine learning, where one party is promised an improvement on its prediction model by incorporating data from the other party. The parties would only wish to collaborate further if the updated model shows an improvement in accuracy. Before this is ascertained, the two parties would not want to disclose their models and datasets. In this work, we construct an interactive protocol for this problem based on the fully homomorphic encryption scheme over the Torus (TFHE) and label differential privacy, where the underlying machine learning model is a neural network. Label differential privacy is used to ensure that computations are not done entirely in the encrypted domain, which is a significant bottleneck for neural network training according to the current state-of-the-art FHE implementations. We prove the security of our scheme in the universal composability framework assuming honest-but-curious parties, but where one party may not have any expertise in labelling its initial dataset. Experiments show that we can obtain the output, i.e., the accuracy of the updated model, with time many orders of magnitude faster than a protocol using entirely FHE operations.
翻訳日:2023-12-08 21:17:00 公開日:2023-12-07
# 感情表現のための音響特性を用いたプロンプトオーディオ

Prompting Audios Using Acoustic Properties For Emotion Representation ( http://arxiv.org/abs/2310.02298v3 )

ライセンス: Link先を確認
Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, Rita Singh(参考訳) 感情は連続体上に存在するが、現在のモデルは感情を有限値離散変数として扱う。 この表現は感情表現の多様性を捉えない。 感情をより良く表現するために、自然言語記述(あるいはプロンプト)の使用を提案する。 本稿では,これらのプロンプトを自動的に生成し,音声とプロンプトペアから感情表現を学習するためにモデルをトレーニングするという課題に対処する。 ピッチ,強度,発話速度,調音率などの感情と相関する音響特性を用いて,音のプロンプト,すなわち「音響プロンプト」を自動的に生成する。 コントラスト学習目的を用いて,音声をそれぞれの音響プロンプトにマッピングする。 我々は感情音声検索と音声感情認識のモデルを評価する。 以上の結果から, EARにおける音響的プロンプトは, 様々なPrecision@K測定値において, モデルの性能を著しく向上させることがわかった。 SERでは,Ravdessデータセットの相対精度が3.8%向上した。

Emotions lie on a continuum, but current models treat emotions as a finite valued discrete variable. This representation does not capture the diversity in the expression of emotion. To better represent emotions we propose the use of natural language descriptions (or prompts). In this work, we address the challenge of automatically generating these prompts and training a model to better learn emotion representations from audio and prompt pairs. We use acoustic properties that are correlated to emotion like pitch, intensity, speech rate, and articulation rate to automatically generate prompts i.e. 'acoustic prompts'. We use a contrastive learning objective to map speech to their respective acoustic prompts. We evaluate our model on Emotion Audio Retrieval and Speech Emotion Recognition. Our results show that the acoustic prompts significantly improve the model's performance in EAR, in various Precision@K metrics. In SER, we observe a 3.8% relative accuracy improvement on the Ravdess dataset.
翻訳日:2023-12-08 21:16:38 公開日:2023-12-07
# モジュラーフローの直感的構成

An intuitive construction of modular flow ( http://arxiv.org/abs/2309.16766v2 )

ライセンス: Link先を確認
Jonathan Sorce(参考訳) モジュラーフローの理論は、場の量子論における平衡状態への熱力学的推論の適用に非常に有用である。 しかし、モジュラーフローの基本定理の標準的な証明は、バナッハ空間のフーリエ解析から機械を用いており、物理学者の聴衆には特に透明ではない。 本稿では,既存の処理と異なるモジュラーフローの構成について述べる。 教育的貢献は、私がkms条件を介して熱物理学から始めて、モジュラー作用素を理論の基本的な対象としてモジュラー作用素から始めるのではなく、熱時間発展マップを生成する唯一の作用素として導出することである。 主な技術的貢献は、モジュラーフローが対称性であることを示す基本定理の新たな証明である。 新しい証明は、以前の治療で現れるが、数学的には厳密なフーリエ解析の微妙な問題を回避している。

The theory of modular flow has proved extremely useful for applying thermodynamic reasoning to out-of-equilibrium states in quantum field theory. However, the standard proofs of the fundamental theorems of modular flow use machinery from Fourier analysis on Banach spaces, and as such are not especially transparent to an audience of physicists. In this article, I present a construction of modular flow that differs from existing treatments. The main pedagogical contribution is that I start with thermal physics via the KMS condition, and derive the modular operator as the only operator that could generate a thermal time-evolution map, rather than starting with the modular operator as the fundamental object of the theory. The main technical contribution is a new proof of the fundamental theorem stating that modular flow is a symmetry. The new proof circumvents the delicate issues of Fourier analysis that appear in previous treatments, but is still mathematically rigorous.
翻訳日:2023-12-08 21:16:11 公開日:2023-12-07
# Adv-4-Adv: 対向領域適応による逆境摂動の抑制

Adv-4-Adv: Thwarting Changing Adversarial Perturbations via Adversarial Domain Adaptation ( http://arxiv.org/abs/2112.00428v3 )

ライセンス: Link先を確認
Tianyue Zheng, Zhe Chen, Shuya Ding, Chao Cai, Jun Luo(参考訳) 敵の訓練は特定の敵の摂動に対して有用であるが、訓練に使用されるものから逸脱する攻撃を一般化するには効果がないことが証明されている。 しかし、この非効率性は本質的にドメイン適応性と結びついており、敵対的ドメイン適応が有望な解であるように見えるディープラーニングにおけるもう一つの重要な問題である。 そこで本研究では,adv-4-advを未知の摂動に対して頑健性を維持することを目的とした新しい攻撃訓練法として提案する。 本質的に、adv-4-advは異なる摂動を引き起こす攻撃を異なるドメインとして扱い、敵のドメイン適応の力を活用することで、ドメイン/攻撃特有の特徴を取り除くことを目指している。 これにより、訓練されたモデルに堅牢なドメイン不変表現を学習させ、それによって一般化能力が向上する。 Fashion-MNIST、SVHN、CIFAR-10、CIFAR-100の広範囲な評価は、単純な攻撃(例えばFGSM)によって作られたサンプルに基づいてAdv-4-Advによって訓練されたモデルがより高度な攻撃(PGDなど)に一般化され、これらのデータセットに対する最先端の提案を上回る性能を示す。

Whereas adversarial training can be useful against specific adversarial perturbations, they have also proven ineffective in generalizing towards attacks deviating from those used for training. However, we observe that this ineffectiveness is intrinsically connected to domain adaptability, another crucial issue in deep learning for which adversarial domain adaptation appears to be a promising solution. Consequently, we proposed Adv-4-Adv as a novel adversarial training method that aims to retain robustness against unseen adversarial perturbations. Essentially, Adv-4-Adv treats attacks incurring different perturbations as distinct domains, and by leveraging the power of adversarial domain adaptation, it aims to remove the domain/attack-specific features. This forces a trained model to learn a robust domain-invariant representation, which in turn enhances its generalization ability. Extensive evaluations on Fashion-MNIST, SVHN, CIFAR-10, and CIFAR-100 demonstrate that a model trained by Adv-4-Adv based on samples crafted by simple attacks (e.g., FGSM) can be generalized to more advanced attacks (e.g., PGD), and the performance exceeds state-of-the-art proposals on these datasets.
翻訳日:2023-12-08 19:28:01 公開日:2023-12-07
# データ分散が変わったら、自己学習を使う

If your data distribution shifts, use self-learning ( http://arxiv.org/abs/2104.12928v4 )

ライセンス: Link先を確認
Evgenia Rusak, Steffen Schneider, George Pachitariu, Luisa Eck, Peter Gehler, Oliver Bringmann, Wieland Brendel, Matthias Bethge(参考訳) エントロピーの最小化や擬似ラベル化といった自己学習技術は,系統的なドメインシフト下でのコンピュータビジョンモデルの性能向上にシンプルかつ効果的であることを示す。 大規模実験を行い,モデルアーキテクチャや事前学習手法,分布シフトの種類に関わらず,一貫した改善を示す。 同時に、自己学習は、知識やオリジナルのトレーニングデータやスキームへのアクセスを必要とせず、ハイパーパラメータの選択に対して堅牢であり、実装に真っ直ぐ前向きであり、いくつかの適応エポックしか必要としないため、実際に使用するのが簡単である。 これにより、現実世界に機械学習アルゴリズムを適用する実践者にとって、自己学習技術は非常に魅力的なものになる。 CIFAR10-C (8.5%エラー), ImageNet-C (22.0% mCE), ImageNet-R (17.4%エラー), ImageNet-A (14.8%エラー), 自己教師付き適応法の力学を理論的に研究し,適応に挑戦する新たな分類データセット(ImageNet-D)を提案する。

We demonstrate that self-learning techniques like entropy minimization and pseudo-labeling are simple and effective at improving performance of a deployed computer vision model under systematic domain shifts. We conduct a wide range of large-scale experiments and show consistent improvements irrespective of the model architecture, the pre-training technique or the type of distribution shift. At the same time, self-learning is simple to use in practice because it does not require knowledge or access to the original training data or scheme, is robust to hyperparameter choices, is straight-forward to implement and requires only a few adaptation epochs. This makes self-learning techniques highly attractive for any practitioner who applies machine learning algorithms in the real world. We present state-of-the-art adaptation results on CIFAR10-C (8.5% error), ImageNet-C (22.0% mCE), ImageNet-R (17.4% error) and ImageNet-A (14.8% error), theoretically study the dynamics of self-supervised adaptation methods and propose a new classification dataset (ImageNet-D) which is challenging even with adaptation.
翻訳日:2023-12-08 19:27:36 公開日:2023-12-07
# 乱流速度統計を用いた1次元確率場のニューラルネットワークによる生成

Neural network based generation of a 1-dimensional stochastic field with turbulent velocity statistics ( http://arxiv.org/abs/2211.11580v3 )

ライセンス: Link先を確認
Carlos Granero-Belinchon (ODYSSEY, IMT Atlantique - MEE, Lab-STICC\_OSE)(参考訳) 我々は,乱流速度統計量を持つ1次元場を生成する,完全畳み込みニューラルネットワーク確率モデル NN-Turb を定義し,研究する。 特に、生成過程は2階構造関数に対するコルモゴロフ 2/3 則を満たす。 また、スケールにわたる負の歪み(コルモゴロフ4/5法則)を示し、歪みと平坦さを特徴とする断続性を示す。 さらに,モデルが乱流データと接触することはないため,学習のためのスケールにまたがる構造関数の所望の統計挙動のみが必要となる。

We define and study a fully-convolutional neural network stochastic model, NN-Turb, which generates a 1-dimensional field with some turbulent velocity statistics. In particular, the generated process satisfies the Kolmogorov 2/3 law for second order structure function. It also presents negative skewness across scales (i.e. Kolmogorov 4/5 law) and exhibits intermittency as characterized by skewness and flatness. Furthermore, our model is never in contact with turbulent data and only needs the desired statistical behavior of the structure functions across scales for training.
翻訳日:2023-12-08 19:23:33 公開日:2023-12-07
# ニュースを見る: 読むことのできるビデオQAモデルへ

Watching the News: Towards VideoQA Models that can Read ( http://arxiv.org/abs/2211.05588v2 )

ライセンス: Link先を確認
Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar(参考訳) ビデオ質問回答手法は、時間とともにオブジェクトや人物の常識的推論と視覚的認知と相互作用に焦点をあてる。 現在のビデオQAアプローチは、ビデオに存在するテキスト情報を無視する。 代わりに、テキスト情報は行動に相補的であり、推論プロセスに重要な文脈化手段を提供する、と論じる。 そこで本研究では,ビデオ中のテキストの読み書きを必要とする新しいビデオQAタスクを提案する。 この方向性を探るため、我々はニュースビデオに焦点をあて、ビデオ内の視覚とテキストの組み合わせによって提示されるトピックについて、QAシステムに理解と回答を求める。 我々は,世界中の多様なニュースチャンネルから得られる3,000ドル以上のニュースビデオに対して,8600ドル以上のQAペアからなる‘NewsVideoQA’データセットを紹介した。 本稿では,現在のシーンテキストVQAおよびビデオQA手法の限界を実証し,シーンテキスト情報をビデオQA手法に組み込む方法を提案する。

Video Question Answering methods focus on commonsense reasoning and visual cognition of objects or persons and their interactions over time. Current VideoQA approaches ignore the textual information present in the video. Instead, we argue that textual information is complementary to the action and provides essential contextualisation cues to the reasoning process. To this end, we propose a novel VideoQA task that requires reading and understanding the text in the video. To explore this direction, we focus on news videos and require QA systems to comprehend and answer questions about the topics presented by combining visual and textual cues in the video. We introduce the ``NewsVideoQA'' dataset that comprises more than $8,600$ QA pairs on $3,000+$ news videos obtained from diverse news channels from around the world. We demonstrate the limitations of current Scene Text VQA and VideoQA methods and propose ways to incorporate scene text information into VideoQA methods.
翻訳日:2023-12-08 19:23:03 公開日:2023-12-07
# visClust:直交射影に基づく視覚的クラスタリングアルゴリズム

visClust: A visual clustering algorithm based on orthogonal projections ( http://arxiv.org/abs/2211.03894v3 )

ライセンス: Link先を確認
Anna Breger, Clemens Karner, Martin Ehler(参考訳) 本稿では,低次元データ表現と視覚的解釈に基づく新しいクラスタリングアルゴリズムであるvisclustを提案する。 そこで我々は、データをバイナリ整数配列で表現できる変換をデザインし、画像処理手法を用いてパーティションを選択できるようにする。 精度で測定された定性的かつ定量的な分析と調整されたRand-Indexは、低ランタイムとRAMを必要としながらアルゴリズムがうまく動作することを示す。 その結果を6つの最先端アルゴリズムと利用可能なコードと比較し、ほとんどの実験で優れた性能でvisclustの品質を確認した。 さらに、アルゴリズムは、オプションパラメータによる最適化を可能にしながら、義務入力パラメータを1つだけ要求する。 コードはgithubで公開されており、簡単に利用できる。

We present a novel clustering algorithm, visClust, that is based on lower dimensional data representations and visual interpretation. Thereto, we design a transformation that allows the data to be represented by a binary integer array enabling the use of image processing methods to select a partition. Qualitative and quantitative analyses measured in accuracy and an adjusted Rand-Index show that the algorithm performs well while requiring low runtime and RAM. We compare the results to 6 state-of-the-art algorithms with available code, confirming the quality of visClust by superior performance in most experiments. Moreover, the algorithm asks for just one obligatory input parameter while allowing optimization via optional parameters. The code is made available on GitHub and straightforward to use.
翻訳日:2023-12-08 19:22:48 公開日:2023-12-07
# 逆攻撃伝達性を用いたニューラルアーキテクチャの類似性

Similarity of Neural Architectures using Adversarial Attack Transferability ( http://arxiv.org/abs/2210.11407v3 )

ライセンス: Link先を確認
Jaehui Hwang and Dongyoon Han and Byeongho Heo and Song Park and Sanghyuk Chun and Jong-Seok Lee(参考訳) 近年、画像分類のために多くのディープニューラルアーキテクチャが開発されている。 それらが似ているか異なるか、どの要因がそれらの(異なる)相似性に寄与するかは、いまだに興味深い。 この問題に対処するために,我々は,ニューラルネットワーク間の定量的かつスケーラブルな類似度尺度を設計することを目指している。 本稿では, モデル動作の理解に広く用いられている入力勾配や決定境界に関する情報を含む攻撃伝達可能性(SAT)の類似性について述べる。 提案した類似度関数を用いて69の最先端画像ネット分類器の大規模解析を行った。 さらに,モデル多様性がモデルアンサンブルと知識蒸留の性能向上につながるモデル類似性を用いて,神経構造関連現象を観察した。 我々の結果は、異なるコンポーネントを持つ多様なニューラルアーキテクチャの開発がなぜ必要かについての洞察を提供する。

In recent years, many deep neural architectures have been developed for image classification. Whether they are similar or dissimilar and what factors contribute to their (dis)similarities remains curious. To address this question, we aim to design a quantitative and scalable similarity measure between neural architectures. We propose Similarity by Attack Transferability (SAT) from the observation that adversarial attack transferability contains information related to input gradients and decision boundaries widely used to understand model behaviors. We conduct a large-scale analysis on 69 state-of-the-art ImageNet classifiers using our proposed similarity function to answer the question. Moreover, we observe neural architecture-related phenomena using model similarity that model diversity can lead to better performance on model ensembles and knowledge distillation under specific conditions. Our results provide insights into why developing diverse neural architectures with distinct components is necessary.
翻訳日:2023-12-08 19:22:02 公開日:2023-12-07
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v7 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 有限群の量子表現の概念はかなり長い間量子コンピューティングの基本的な側面であり、素数量子論理ゲートから有名なショアとグローバーのアルゴリズムまであらゆる分野において重要な役割を果たしてきた。 本稿では、この概念を群論と微分幾何学の両方を用いて形式的に定義する。 本研究は、任意の有限群に対する量子表現の存在を証明し、ユニタリ行列のゲート分解と変分量子アルゴリズムを利用して群の各生成元を量子回路に変換する2つの方法を概説する。 さらに,オープンアクセスプラットフォーム上での明示的な例の数値シミュレーションを行う。 最後に、隠れた部分群問題を解くアルゴリズムのゲートレベル実装におけるその役割を示すことによって、有限群の量子表現の有用性とポテンシャルを示す。

The concept of quantum representation of finite groups has been a fundamental aspect of quantum computing for quite some time, playing a role in every corner, from elementary quantum logic gates to the famous Shor's and Grover's algorithms. In this article, we provide a formal definition of this concept using both group theory and differential geometry. Our work proves the existence of a quantum representation for any finite group and outlines two methods for translating each generator of the group into a quantum circuit, utilizing gate decomposition of unitary matrices and variational quantum algorithms. Additionally, we provide numerical simulations of an explicit example on an open-access platform. Finally, we demonstrate the usefulness and potential of the quantum representation of finite groups by showing its role in the gate-level implementation of the algorithm that solves the hidden subgroup problem.
翻訳日:2023-12-08 19:21:25 公開日:2023-12-07
# 制約付きFew-Shot学習:人間に似た低サンプル複雑度学習と非エポゾディックテキスト分類

Constrained Few-Shot Learning: Human-Like Low Sample Complexity Learning and Non-Episodic Text Classification ( http://arxiv.org/abs/2208.08089v2 )

ライセンス: Link先を確認
Jaron Mar and Jiamou Liu(参考訳) FSL(Few-shot Learning)は、人間の学習の仕方、一般化、外挿を模倣するために、サンプルの複雑さの低い推論を学習しようとする、創発的な学習パラダイムである。 FSLは、これらの人間の特徴を模倣しようとするが、基本的には、FSLのタスクは、メタラーニングとエピソードベースのトレーニングで定式化されている。 エピソードトレーニングを備えたFSLは、各テストクラスのK$インスタンスのみを必要とするが、相反するクラスから多数のラベル付きトレーニングインスタンスを必要とする。 本稿では,FSLの特別事例である制約付き小ショット学習(CFSL)の新たな課題について紹介する。例えば,$M$,各トレーニングクラスのインスタンス数が制約され,$M \leq K$ が FSL トレーニングおよびテスト中に同様の制約を適用している。 ファジィトレース理論やプロトタイプ理論などの認知理論に触発された新しいカテゴリー的コントラスト損失を用いて, cat2vecを活用するcfsl法を提案する。

Few-shot learning (FSL) is an emergent paradigm of learning that attempts to learn to reason with low sample complexity to mimic the way humans learn, generalise and extrapolate from only a few seen examples. While FSL attempts to mimic these human characteristics, fundamentally, the task of FSL as conventionally formulated using meta-learning with episodic-based training does not in actuality align with how humans acquire and reason with knowledge. FSL with episodic training, while only requires $K$ instances of each test class, still requires a large number of labelled training instances from disjoint classes. In this paper, we introduce the novel task of constrained few-shot learning (CFSL), a special case of FSL where $M$, the number of instances of each training class is constrained such that $M \leq K$ thus applying a similar restriction during FSL training and test. We propose a method for CFSL leveraging Cat2Vec using a novel categorical contrastive loss inspired by cognitive theories such as fuzzy trace theory and prototype theory.
翻訳日:2023-12-08 19:21:12 公開日:2023-12-07
# グラフスペクトル領域におけるポイントクラウド攻撃:3次元幾何学とグラフ信号処理

Point Cloud Attacks in Graph Spectral Domain: When 3D Geometry Meets Graph Signal Processing ( http://arxiv.org/abs/2207.13326v2 )

ライセンス: Link先を確認
Daizong Liu, Wei Hu, Xin Li(参考訳) 様々な3D安全クリティカルなアプリケーションに注目が集まる中、ポイントクラウド学習モデルは敵の攻撃に対して脆弱であることが示されている。 既存の3D攻撃手法は高い成功率を達成するが、点の摂動でデータ空間を探索し、幾何学的特性を無視する可能性がある。 代わりに、ある幾何学的構造に対応するスペクトル領域のグラフ変換係数を摂動させることを目的として、グラフスペクトル領域攻撃という新しい視点からポイントクラウド攻撃を提案する。 具体的には、グラフ信号処理を利用して、まず、コンパクトな表現のためにグラフフーリエ変換(GFT)を用いて、点の座標をスペクトル領域に適応的に変換する。 そこで, 学習可能なグラフスペクトルフィルタを用いてGFT係数を摂動させることにより, 異なるスペクトル帯域が幾何構造に与える影響を解析する。 また,低周波成分は主に3次元物体の粗い形状に寄与すると考えられるため,受動高周波成分内の摂動を制限するために低周波制約を導入する。 そして、逆GFTを介して、摂動スペクトル表現をデータ領域に戻すことにより、対向点雲を生成する。 実験の結果, 提案手法の有効性が, 受動性および攻撃成功率の両面で示された。

With the increasing attention in various 3D safety-critical applications, point cloud learning models have been shown to be vulnerable to adversarial attacks. Although existing 3D attack methods achieve high success rates, they delve into the data space with point-wise perturbation, which may neglect the geometric characteristics. Instead, we propose point cloud attacks from a new perspective -- the graph spectral domain attack, aiming to perturb graph transform coefficients in the spectral domain that corresponds to varying certain geometric structure. Specifically, leveraging on graph signal processing, we first adaptively transform the coordinates of points onto the spectral domain via graph Fourier transform (GFT) for compact representation. Then, we analyze the influence of different spectral bands on the geometric structure, based on which we propose to perturb the GFT coefficients via a learnable graph spectral filter. Considering the low-frequency components mainly contribute to the rough shape of the 3D object, we further introduce a low-frequency constraint to limit perturbations within imperceptible high-frequency components. Finally, the adversarial point cloud is generated by transforming the perturbed spectral representation back to the data domain via the inverse GFT. Experimental results demonstrate the effectiveness of the proposed attack in terms of both the imperceptibility and attack success rates.
翻訳日:2023-12-08 19:20:49 公開日:2023-12-07
# 統一的かつ効果的なイメージマットングのためのインタラクティブなガイダンスの検討

Exploring the Interactive Guidance for Unified and Effective Image Matting ( http://arxiv.org/abs/2205.08324v3 )

ライセンス: Link先を確認
Dinghao Yang, Bin Wang, Weijia Li, Yiqi Lin, Conghui He(参考訳) 近年,複雑な画像処理タスクを実現するために,trimapフリーあるいはインタラクティブな手法を提案する研究が進められている。 トリマップアノテーションの広範な労力を回避しながらも,既存の手法では,(1)複数のオブジェクトを持つ単一イメージに対して,マッチング対象を決定するための追加のインタラクション情報を提供すること,(2)透明なオブジェクトに対しては,RGB画像からのアルファマットの正確な回帰は,不透明画像に比べてはるかに困難である。 本稿では,この制約を解消し,任意のシナリオを満足するインタラクティブな画像マットリング手法であるuimを提案する。 具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避し、異なるアノテーションタイプの長所と短所を詳細に比較する。 透明で不透明な物体のマッチング性能を統一するために,画像のマッチングを前景のセグメンテーションと透過予測という2つの段階に分離する。 さらに,境界領域の曖昧さを軽減するため,マルチスケールの減衰核融合モジュールを設計する。 実験の結果,コンポジション1kテストセットと合成統一データセットで uim が最先端の性能を達成できた。

Recent image matting studies are developing towards proposing trimap-free or interactive methods for complete complex image matting tasks. Although avoiding the extensive labors of trimap annotation, existing methods still suffer from two limitations: (1) For the single image with multiple objects, it is essential to provide extra interaction information to help determining the matting target; (2) For transparent objects, the accurate regression of alpha matte from RGB image is much more difficult compared with the opaque ones. In this work, we propose a Unified Interactive image Matting method, named UIM, which solves the limitations and achieves satisfying matting results for any scenario. Specifically, UIM leverages multiple types of user interaction to avoid the ambiguity of multiple matting targets, and we compare the pros and cons of different annotation types in detail. To unify the matting performance for transparent and opaque objects, we decouple image matting into two stages, i.e., foreground segmentation and transparency prediction. Moreover, we design a multi-scale attentive fusion module to alleviate the vagueness in the boundary region. Experimental results demonstrate that UIM achieves state-of-the-art performance on the Composition-1K test set and a synthetic unified dataset.
翻訳日:2023-12-08 19:20:29 公開日:2023-12-07
# 一貫したセグメンテーションによる階層の評価

Assessing hierarchies by their consistent segmentations ( http://arxiv.org/abs/2204.04969v2 )

ライセンス: Link先を確認
Zeev Gutman, Ritvik Vij (IIT Delhi), Laurent Najman (LIGM), Michael Lindenbaum(参考訳) ジェネリックセグメンテーションへの現在のアプローチは、ネストされたイメージパーティションの階層を作成し、そこからセグメンテーションを指定することから始まる。 私たちの最初のコントリビューションは、階層要素を使用してセグメンテーションを指定するために、いくつかの方法を記述することです。 次に,階層要素の制限によって指定された最善の階層化を考察する。 バイナリセグメンテーションの共通品質指標であるJaccard index(IoUとしても知られる)に焦点を当てる。 jaccardインデックスの最適化は非常に非自明だが、それを行うための効率的なアプローチを提案する。 これにより、階層構造から作成されたセグメンテーションの品質に関するアルゴリズムに依存しない上限が得られる。 その結果,取得可能なセグメンテーション品質は,セグメンテーションが階層要素によって指定される方法によって大きく変化し,階層要素の少ないセグメンテーションを表現することもしばしば可能であることがわかった。 (コードは利用可能)。

Current approaches to generic segmentation start by creating a hierarchy of nested image partitions and then specifying a segmentation from it. Our first contribution is to describe several ways, most of them new, for specifying segmentations using the hierarchy elements. Then, we consider the best hierarchy-induced segmentation specified by a limited number of hierarchy elements. We focus on a common quality measure for binary segmentations, the Jaccard index (also known as IoU). Optimizing the Jaccard index is highly non-trivial, and yet we propose an efficient approach for doing exactly that. This way we get algorithm-independent upper bounds on the quality of any segmentation created from the hierarchy. We found that the obtainable segmentation quality varies significantly depending on the way that the segments are specified by the hierarchy elements, and that representing a segmentation with only a few hierarchy elements is often possible. (Code is available).
翻訳日:2023-12-08 19:20:05 公開日:2023-12-07
# ヘイトスピーチ検出のための深層学習 : 比較検討

Deep Learning for Hate Speech Detection: A Comparative Study ( http://arxiv.org/abs/2202.09517v2 )

ライセンス: Link先を確認
Jitendra Singh Malik, Hezhe Qiao, Guansong Pang, Anton van den Hengel(参考訳) ヘイトスピーチの自動検出は、特にソーシャルメディアにおいてヘイトスピーチの拡散と戦う重要なツールである。 このタスクには、近年のディープラーニングベースのアプローチの普及など、多くの方法が開発されている。 さまざまなデータセットも開発され、ヘイトスピーチ検出問題の様々な顕在化を実証している。 本稿では,最も一般的に使用される3つのデータセットを媒介とする,深層および浅層ヘイトスピーチ検出手法の大規模実証比較を行った。 私たちの目標は、この分野の進歩を照らし、現在の最先端の強みと弱みを特定することです。 特に,検出精度,計算効率,事前学習モデルの使用能力,領域一般化など,実用的な性能の測定に焦点をあてる。 そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。 コードとデータセットはhttps://github.com/jmjmalik22/hate-speech-detectionで入手できる。

Automated hate speech detection is an important tool in combating the spread of hate speech, particularly in social media. Numerous methods have been developed for the task, including a recent proliferation of deep-learning based approaches. A variety of datasets have also been developed, exemplifying various manifestations of the hate-speech detection problem. We present here a large-scale empirical comparison of deep and shallow hate-speech detection methods, mediated through the three most commonly used datasets. Our goal is to illuminate progress in the area, and identify strengths and weaknesses in the current state-of-the-art. We particularly focus our analysis on measures of practical performance, including detection accuracy, computational efficiency, capability in using pre-trained models, and domain generalization. In doing so we aim to provide guidance as to the use of hate-speech detection in practice, quantify the state-of-the-art, and identify future research directions. Code and dataset are available at https://github.com/jmjmalik22/Hate-Speech-Detection.
翻訳日:2023-12-08 19:19:49 公開日:2023-12-07
# 敵攻撃に対する深部行動認識モデルを守るための時間シャッフル

Temporal Shuffling for Defending Deep Action Recognition Models against Adversarial Attacks ( http://arxiv.org/abs/2112.07921v2 )

ライセンス: Link先を確認
Jaehui Hwang, Huan Zhang, Jun-Ho Choi, Cho-Jui Hsieh, and Jong-Seok Lee(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いた映像に基づく行動認識手法が,目覚ましい認識性能を実現している。 しかし,行動認識モデルの一般化機構についてはまだ理解されていない。 本稿では,行動認識モデルが期待よりも少ない動き情報に依存しており,フレーム順序のランダム化に頑健であることを示す。 さらに、ランダム化後の運動単調性もそのような堅牢性に寄与する。 本研究は,入力ビデオの時間的シャッフルを用いた,行動認識モデルに対する敵攻撃に対する防御手法の開発である。 我々の防衛方法を可能にするもう1つの観察は、ビデオ上の敵対的摂動は時間的破壊に敏感であるということである。 我々の知る限りでは、これは3D CNNに基づく映像行動認識モデルのための追加トレーニングなしで防御方法を設計する最初の試みである。

Recently, video-based action recognition methods using convolutional neural networks (CNNs) achieve remarkable recognition performance. However, there is still lack of understanding about the generalization mechanism of action recognition models. In this paper, we suggest that action recognition models rely on the motion information less than expected, and thus they are robust to randomization of frame orders. Furthermore, we find that motion monotonicity remaining after randomization also contributes to such robustness. Based on this observation, we develop a novel defense method using temporal shuffling of input videos against adversarial attacks for action recognition models. Another observation enabling our defense method is that adversarial perturbations on videos are sensitive to temporal destruction. To the best of our knowledge, this is the first attempt to design a defense method without additional training for 3D CNN-based video action recognition models.
翻訳日:2023-12-08 19:19:33 公開日:2023-12-07
# 電気力学アハロノフ・ボーム効果

Electrodynamic Aharonov-Bohm effect ( http://arxiv.org/abs/2302.14542v2 )

ライセンス: Link先を確認
Pablo L. Saldanha(参考訳) 干渉計の経路が磁束を包含せず、量子荷電粒子の伝播中にスカラー電位差が無視できる場合であっても、非零のab位相差が現れる電気力学アハロノフ-ボーム(ab)スキームを提案する。 この提案では、干渉計の外側のソレノイドの電流は時間によって変化し、量子粒子は2つのファラデーケージ内の重畳状態にあり、常に無視可能な電磁場となる。 一見すると、この結果はAB効果のトポロジカルな性質に挑戦する可能性がある。 しかし、時空における電磁場配置と粒子軌道のトポロジーを考慮することにより、この状況のトポロジー的性質を実証する。

We propose an electrodynamic Aharonov-Bohm (AB) scheme where a nonzero AB phase difference appears even if the interferometer paths do not enclose a magnetic flux and are subjected to negligible scalar potential differences during the propagation of the quantum charged particle. In the proposal, the current in a solenoid outside the interferometer varies in time while the quantum particle is in a superposition state inside two Faraday cages, such that it is always subjected to negligible electromagnetic fields. At first glance, this result could challenge the topological nature of the AB effect. However, by considering the topology of the electromagnetic field configuration and the possible particle trajectories in spacetime, we demonstrate the topological nature of this situation.
翻訳日:2023-12-08 19:13:35 公開日:2023-12-07
# エンタングルメント蒸留の因果順序のコヒーレント制御

Coherent control of the causal order of entanglement distillation ( http://arxiv.org/abs/2302.13990v3 )

ライセンス: Link先を確認
Zai Zuo, Michael Hanks and M. S. Kim(参考訳) 不定因果順序は、量子技術に潜在的な関与を持つ進化の分野である。 本稿では,2つの因果順序のコヒーレント重ね合わせに適用される基本蒸留プロトコルの2つのステップを特徴とする化合物絡み込み蒸留プロトコルを提案する。 これは、4組目と2組目が連続的に交換される前に、故障した絡み合ったペアを他の2組を制御スワップする。 その結果、このプロトコルは4つの欠陥のある絡み合った状態を高い忠実度に蒸留する。 本プロトコルは, 一定の蒸留順序に従う基本プロトコルの従来の結合よりも, 蒸留の忠実性といくつかの入力欠陥対の成功確率が高い。 提案手法は,量子通信の要求に整合したアプリケーションにおいて,不確定因果順序の利点を示す。

Indefinite causal order is an evolving field with potential involvement in quantum technologies. Here we propose and study one possible scenario of practical application in quantum communication: a compound entanglement distillation protocol that features two steps of a basic distillation protocol applied in a coherent superposition of two causal orders. This is achieved by using one faulty entangled pair to control-swap two others before a fourth pair is combined with the two swapped ones consecutively. As a result, the protocol distills the four faulty entangled states into one of a higher fidelity. Our protocol has a higher fidelity of distillation and probability of success for some input faulty pairs than conventional concatenations of the basic protocol that follow a definite distillation order. Our proposal shows the advantage of indefinite causal order in an application setting consistent with the requirements of quantum communication.
翻訳日:2023-12-08 19:13:20 公開日:2023-12-07
# 経済ABMの校正における探索手法の組み合わせによる強化学習

Reinforcement Learning for Combining Search Methods in the Calibration of Economic ABMs ( http://arxiv.org/abs/2302.11835v3 )

ライセンス: Link先を確認
Aldo Glielmo, Marco Favorito, Debmallya Chanda and Domenico Delli Gatti(参考訳) 経済学と金融学におけるエージェントベースモデル(ABM)の校正は通常、非常に大きなパラメータ空間における微分自由探索を伴う。 本研究では、実データ上でよく知られたマクロ経済ABMの校正における多くの探索手法をベンチマークし、異なる手法を組み合わせた「混合戦略」の性能を更に評価する。 ランダム・フォレスト・サロゲートに基づく手法は特に効率的であり, 探索手法の組み合わせは, 一つの手法のバイアスが軽減されるため, 一般に性能が向上することがわかった。 これらの観察から,キャリブレーション実行中の探索手法を自動的に選択し,結合する強化学習(rl)方式を提案する。 RLエージェントは、それが正常に動作し続ける限りのみ、特定のメソッドを利用し続けるが、特定のメソッドがパフォーマンス高原に達すると、新しい戦略を探索する。 その結果得られるrl検索方式は、テストされた他の方法やメソッドの組み合わせよりも優れており、事前の情報や試行やエラー手順に依存しない。

Calibrating agent-based models (ABMs) in economics and finance typically involves a derivative-free search in a very large parameter space. In this work, we benchmark a number of search methods in the calibration of a well-known macroeconomic ABM on real data, and further assess the performance of "mixed strategies" made by combining different methods. We find that methods based on random-forest surrogates are particularly efficient, and that combining search methods generally increases performance since the biases of any single method are mitigated. Moving from these observations, we propose a reinforcement learning (RL) scheme to automatically select and combine search methods on-the-fly during a calibration run. The RL agent keeps exploiting a specific method only as long as this keeps performing well, but explores new strategies when the specific method reaches a performance plateau. The resulting RL search scheme outperforms any other method or method combination tested, and does not rely on any prior information or trial and error procedure.
翻訳日:2023-12-08 19:13:07 公開日:2023-12-07
# 正規化2次元相関法による画像の不変ターゲット検出

Invariant Target Detection in Images through the Normalized 2-D Correlation Technique ( http://arxiv.org/abs/2302.11196v2 )

ライセンス: Link先を確認
Fatin E. M. Al-Obaidi, Anwar H. Al-Saleh, Shaymaa H. Kafi, Ali J.Karam, Ali A. D. Al-Zuky(参考訳) 正規化2次元相関法は、回転、翻訳、スケーリングの下で不変性を維持するため、画像中のターゲットを検出する堅牢な方法である。 本稿では,翻訳が画像のターゲット識別に与える影響について検討する。 その結果, 位置や大きさのばらつきがある場合でも, ターゲット検出の精度は高いことがわかった。 その結果,画像と使用目標の類似度は,リサイズ比が増加するにつれて向上することが示唆された。 すべての統計的推定器は、元のターゲットと抽出されたターゲットの間に強い類似性を示す。 全てのシナリオの経過時間は、それぞれ鳥と子供のターゲットの範囲内(44.75-44.85)、(37.48-37.73)であり、相関係数は、鳥と子供のターゲットのそれぞれの範囲内にある値(0.90-0.98)と(0.87-0.93)との安定した関係を示す。

The normalized 2-D correlation technique is a robust method for detecting targets in images due to its ability to remain invariant under rotation, translation, and scaling. This paper examines the impact of translation, and scaling on target identification in images. The results indicate a high level of accuracy in detecting targets, even when they are exhibit variations in location and size. The results indicate that the similarity between the image and the two used targets improves as the resize ratio increases. All statistical estimators demonstrate a strong similarity between the original and extracted targets. The elapsed time for all scenarios falls within the range (44.75-44.85), (37.48-37.73) seconds for bird and children targets respectively, and the correlation coefficient displays stable relationships with values that fall within the range of (0.90-0.98) and (0.87-0.93) for bird and children targets respectively.
翻訳日:2023-12-08 19:12:48 公開日:2023-12-07
# 階層的時空間アテンションネットワークによるトラジェクティブ・ユーザ・リンク

Trajectory-User Linking via Hierarchical Spatio-Temporal Attention Networks ( http://arxiv.org/abs/2302.10903v2 )

ライセンス: Link先を確認
Wei Chen, Chao Huang, Yanwei Yu, Yongguo Jiang, Junyu Dong(参考訳) 軌跡-ユーザリンク (tul) は,複雑なモビリティパターンを探索することによって,軌跡をユーザへリンクすることで,人間のモビリティモデリングに不可欠である。 既存の研究は主に、トラジェクトリにおける時間的依存関係を符号化するリカレントニューラルネットワークフレームワークに依存しており、TUL予測のための空間的時間的グローバルコンテキストの取得に不足している。 このギャップをなくすために、この研究はAttnTULと呼ばれる新しい階層的時空間的注意神経ネットワークを示し、TULの局所軌道遷移パターンとグローバル空間依存性を共同で符号化する。 スペック的には、irstモデルコンポーネントは、ローカルおよびグローバルコンテキストを保存し、地理的領域とユーザの軌跡の表現パラダイムを強化するために、グラフニューラルアーキテクチャの上に構築されています。 さらに、時間的アテンション機構とグローバル弾性アテンショナルエンコーダを統合して、軌道内および軌道間依存関係を同時に符号化する階層的なアテンションネットワークを設計する。 AttnTUL法は,様々なトラジェクトリデータセット上での最先端のベースラインよりも優れていることを示す。 私たちのモデルのソースコードはhttps://github.com/onedean/attntul.comで閲覧できます。

Trajectory-User Linking (TUL) is crucial for human mobility modeling by linking diferent trajectories to users with the exploration of complex mobility patterns. Existing works mainly rely on the recurrent neural framework to encode the temporal dependencies in trajectories, have fall short in capturing spatial-temporal global context for TUL prediction. To ill this gap, this work presents a new hierarchical spatio-temporal attention neural network, called AttnTUL, to jointly encode the local trajectory transitional patterns and global spatial dependencies for TUL. Speciically, our irst model component is built over the graph neural architecture to preserve the local and global context and enhance the representation paradigm of geographical regions and user trajectories. Additionally, a hierarchically structured attention network is designed to simultaneously encode the intra-trajectory and inter-trajectory dependencies, with the integration of the temporal attention mechanism and global elastic attentional encoder. Extensive experiments demonstrate the superiority of our AttnTUL method as compared to state-of-the-art baselines on various trajectory datasets. The source code of our model is available at https://github.com/Onedean/AttnTUL.
翻訳日:2023-12-08 19:12:30 公開日:2023-12-07
# SceneDreamer:2D画像からの無拘束3Dシーン生成

SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections ( http://arxiv.org/abs/2302.01330v3 )

ライセンス: Link先を確認
Zhaoxi Chen, Guangcong Wang, Ziwei Liu(参考訳) 本研究では,無作為ノイズから大規模3次元景観を合成する無条件3次元シーン生成モデルであるscenedreamerを提案する。 フレームワークは3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。 SceneDreamerの中核は、原則化された学習パラダイムである 1)効率的かつ表現力のある3Dシーン表現 2)生成的シーンのパラメータ化,及び 3) 2次元画像からの知識を活用できる効果的なレンダラ。 提案手法は, 簡易ノイズから生成される効率的な鳥眼視(BEV)表現から始まり, 表面標高の高度場と詳細なシーン意味論のセマンティックフィールドを含む。 このBEVシーン表現は 1)2次複雑さを持つ3次元シーンを表す。 2)絡み合った幾何学,意味論,及び 3)効率的な訓練。 さらに,3次元位置とシーン意味論に基づいて潜在空間をパラメータ化する新しい生成型ニューラルネットワークグリッドを提案する。 最後に,2次元画像収集から学習したニューラルボリュームレンダラーを用いて,フォトリアリスティックな画像を生成する。 SceneDreamerの有効性と最先端の手法による鮮明で多種多様な3Dワールドの創出に対する優位性を示す。

In this work, we present SceneDreamer, an unconditional generative model for unbounded 3D scenes, which synthesizes large-scale 3D landscapes from random noise. Our framework is learned from in-the-wild 2D image collections only, without any 3D annotations. At the core of SceneDreamer is a principled learning paradigm comprising 1) an efficient yet expressive 3D scene representation, 2) a generative scene parameterization, and 3) an effective renderer that can leverage the knowledge from 2D images. Our approach begins with an efficient bird's-eye-view (BEV) representation generated from simplex noise, which includes a height field for surface elevation and a semantic field for detailed scene semantics. This BEV scene representation enables 1) representing a 3D scene with quadratic complexity, 2) disentangled geometry and semantics, and 3) efficient training. Moreover, we propose a novel generative neural hash grid to parameterize the latent space based on 3D positions and scene semantics, aiming to encode generalizable features across various scenes. Lastly, a neural volumetric renderer, learned from 2D image collections through adversarial training, is employed to produce photorealistic images. Extensive experiments demonstrate the effectiveness of SceneDreamer and superiority over state-of-the-art methods in generating vivid yet diverse unbounded 3D worlds.
翻訳日:2023-12-08 19:11:21 公開日:2023-12-07
# 事前学習モデルによる微調整の安定性解析

A Stability Analysis of Fine-Tuning a Pre-Trained Model ( http://arxiv.org/abs/2301.09820v2 )

ライセンス: Link先を確認
Zihao Fu, Anthony Man-Cho So, Nigel Collier(参考訳) トレーニング済みモデル(BERT、ALBERT、RoBERTa、T5、GPTなど)の微調整は、最近のNLP研究で最も有望なパラダイムの1つであることが証明されている。 しかし、最近の多くの研究は、微調整が不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なることを示している。 近年の多くの研究でこの問題を解決するための様々な方法が提案されているが、これらの方法がなぜどのように機能するのかは理論的に理解されていない。 本稿では,2つの一般的な設定,すなわちフル微調整とヘッドチューニングに焦点を当てたファインチューニングの理論的安定性解析を提案する。 各設定の下で安定性を定義し、対応する安定性境界を証明する。 理論的境界は、いくつかの既存手法が微調整手順を安定化できる理由と方法を説明する。 観測された経験的発見のほとんどを説明することに加えて,提案する理論分析フレームワークは,有効かつ証明可能な手法の設計にも役立てることができる。 本理論に基づき, 最大マージン正則化 (mmr), マルチヘッド損失 (mhloss), 自己教師なし再訓練 (surt) という, 微調整手順を安定化するための3つの新しい戦略を提案する。 11のベンチマークデータセットと数百の合成分類データセットについて,提案手法を広範囲に評価した。 実験の結果,提案手法は微調整手順を著しく安定化し,理論解析と相関することがわかった。

Fine-tuning a pre-trained model (such as BERT, ALBERT, RoBERTa, T5, GPT, etc.) has proven to be one of the most promising paradigms in recent NLP research. However, numerous recent works indicate that fine-tuning suffers from the instability problem, i.e., tuning the same model under the same setting results in significantly different performance. Many recent works have proposed different methods to solve this problem, but there is no theoretical understanding of why and how these methods work. In this paper, we propose a novel theoretical stability analysis of fine-tuning that focuses on two commonly used settings, namely, full fine-tuning and head tuning. We define the stability under each setting and prove the corresponding stability bounds. The theoretical bounds explain why and how several existing methods can stabilize the fine-tuning procedure. In addition to being able to explain most of the observed empirical discoveries, our proposed theoretical analysis framework can also help in the design of effective and provable methods. Based on our theory, we propose three novel strategies to stabilize the fine-tuning procedure, namely, Maximal Margin Regularizer (MMR), Multi-Head Loss (MHLoss), and Self Unsupervised Re-Training (SURT). We extensively evaluate our proposed approaches on 11 widely used real-world benchmark datasets, as well as hundreds of synthetic classification datasets. The experiment results show that our proposed methods significantly stabilize the fine-tuning procedure and also corroborate our theoretical analysis.
翻訳日:2023-12-08 19:10:22 公開日:2023-12-07
# sem@$k$: 私の知識グラフ埋め込みモデルの意味認識は?

Sem@$K$: Is my knowledge graph embedding model semantic-aware? ( http://arxiv.org/abs/2301.05601v2 )

ライセンス: Link先を確認
Nicolas Hubert, Pierre Monnin, Armelle Brun, Davy Monticolo(参考訳) 知識グラフ埋め込みモデル(KGEMs)の使用は、知識グラフ(KGs)のリンクを予測する一般的な手法である。 伝統的に、リンク予測のためのKGEMの性能はランクベースの指標を用いて評価される。 しかしながら、文献は、KGEM評価手順は、評価に補助的な次元を追加する利点があると主張している。 そこで、本論文では、モデルが有効なエンティティw.r.t.ドメインと範囲制約を予測できる能力を測定するためのメトリクスSem@Kを拡張した。 特に,広い範囲のKGを考慮し,それぞれの特性を考慮し,Sem@Kの異なるバージョンを提案する。 また,KGEMの能力を評価するための広範な研究も実施している。 実験の結果,Sem@KはKGEMの品質に対する新たな視点を提供することがわかった。 ランクベースのメトリクスとの共同分析は、モデルの予測力について異なる結論を与える。 Sem@Kに関しては、一部のKGEMは本質的に他のKGEMよりも優れているが、このセマンティックな優位性は、ランクベースのメトリクスのパフォーマンスを示すものではない。 本研究では,KGEMs w.r.t.ランクベースおよびセマンティック指向メトリクスの相対的性能に関する結論を,モデルファミリーのレベルで一般化する。 上記のメトリクスの合同分析は、各モデルの特異性についてより深い洞察を与える。 この研究は、特定の下流タスクに対するより包括的なKGEMの妥当性評価の道を開く。

Using knowledge graph embedding models (KGEMs) is a popular approach for predicting links in knowledge graphs (KGs). Traditionally, the performance of KGEMs for link prediction is assessed using rank-based metrics, which evaluate their ability to give high scores to ground-truth entities. However, the literature claims that the KGEM evaluation procedure would benefit from adding supplementary dimensions to assess. That is why, in this paper, we extend our previously introduced metric Sem@K that measures the capability of models to predict valid entities w.r.t. domain and range constraints. In particular, we consider a broad range of KGs and take their respective characteristics into account to propose different versions of Sem@K. We also perform an extensive study to qualify the abilities of KGEMs as measured by our metric. Our experiments show that Sem@K provides a new perspective on KGEM quality. Its joint analysis with rank-based metrics offers different conclusions on the predictive power of models. Regarding Sem@K, some KGEMs are inherently better than others, but this semantic superiority is not indicative of their performance w.r.t. rank-based metrics. In this work, we generalize conclusions about the relative performance of KGEMs w.r.t. rank-based and semantic-oriented metrics at the level of families of models. The joint analysis of the aforementioned metrics gives more insight into the peculiarities of each model. This work paves the way for a more comprehensive evaluation of KGEM adequacy for specific downstream tasks.
翻訳日:2023-12-08 19:09:53 公開日:2023-12-07
# 測定によるほぼ決定論的冷却

An almost deterministic cooling by measurements ( http://arxiv.org/abs/2301.01888v2 )

ライセンス: Link先を確認
Jia-shun Yan and Jun Jing(参考訳) 非決定論的測定に基づく手法は、量子系の集団分布を再構成するのに効率的であるが、ターゲット状態におけるシステム保持の成功確率は限られている。 実験コストを低減し、条件値と無条件値の両方の状態工学機構を活用し、qubitの支援により共振器を基底状態まで冷却する2段階プロトコルを提案する。 第1ステップでは、熱状態から予約されたフォック状態へターゲット共振器を再生するために、アシラリー量子ビットの無条件測定を適用する。 測定シーケンスは、最大忠実度を求める強化学習により最適化される。 第2のステップでは、留置状態の人口は、クォービット上の条件測定により、ほぼ単位の忠実度を持つ共振器の基底状態に段階的に忠実に移動することができる。 プロジェクションに基づく条件測定の本質的な非決定性は、測定シーケンスを適切に間隔を置けば効果的に抑制され、クラウス演算子が隣接するフォック状態の低下演算子として機能する。 何十もの測定によって、共振器の初期熱平均占有量は、9,5\%以上の成功確率で5桁まで減少することができる。

Nondeterministic measurement-based techniques are efficient in reshaping the population distribution of a quantum system but suffer from a limited success probability of holding the system in the target state. To reduce the experimental cost, we exploit the state-engineering mechanisms of both conditional and unconditional measurements and propose a two-step protocol assisted by a qubit to cool a resonator down to the ground state with a near-unit probability. In the first step, the unconditional measurements on the ancillary qubit are applied to reshape the target resonator from a thermal state to a reserved Fock state. The measurement sequence is optimized by reinforcement learning for a maximum fidelity. In the second step, the population on the reserved state can be faithfully transferred in a stepwise way to the resonator's ground state with a near-unit fidelity by the conditional measurements on the qubit. Intrinsic nondeterminacy of the projection-based conditional measurement is effectively inhibited by properly spacing the measurement sequence, which makes the Kraus operator act as a lowering operator for neighboring Fock states. Through dozens of measurements, the initial thermal average occupation of the resonator can be reduced by five orders in magnitude with a success probability over $95\%$.
翻訳日:2023-12-08 19:09:27 公開日:2023-12-07
# ミリ波通信のためのポイントクラウドに基づくプロアクティブリンク品質予測

Point Cloud-based Proactive Link Quality Prediction for Millimeter-wave Communications ( http://arxiv.org/abs/2301.00752v4 )

ライセンス: Link先を確認
Shoki Ohta, Takayuki Nishio, Riichi Kudo, Kahoko Takahashi, Hisashi Nagata(参考訳) 本研究では,ミリ波通信におけるポイントクラウドに基づくリンク品質予測の実現可能性を示す。 従来,mWave通信における歩行者によるLOS経路遮断を緩和するために,深度画像の時系列を用いて,受信信号強度を予測する機械学習手法が提案されてきた。 しかし、これらの画像ベース手法は、カメライメージに機密情報が含まれる可能性があるため、プライバシー上の懸念から適用性に制限がある。 本研究は,mmWaveリンク品質予測のためのポイントクラウド方式を提案し,実験によりその実現可能性を示す。 点雲は3次元(3d)空間を点の集合として表現し、カメラ画像よりもセンシティブな情報を含まない。 さらに点雲は3次元位置と運動情報を提供し、歩行者を含む電波伝搬環境を理解するのに必要である。 本研究では,市販のieee 802.11adベースの60ghz無線lanデバイスとkinect v2 rgb-dカメラとvelodyne vlp-16光検出・測光(lidar)を用いて,人間のブロックによりリンク品質が著しく変動する室内実験を行う。 提案手法は,画像に基づく予測手法に匹敵する精度で,歩行者によるロスパス閉塞によるmm波受信信号強度とスループットの将来の大きな減衰を予測できることを示す。 したがって、当社のポイントクラウドベースの手法は、画像ベースの手法の代替となる可能性がある。

This study demonstrates the feasibility of point cloud-based proactive link quality prediction for millimeter-wave (mmWave) communications. Previous studies have proposed machine learning-based methods to predict received signal strength for future time periods using time series of depth images to mitigate the line-of-sight (LOS) path blockage by pedestrians in mmWave communication. However, these image-based methods have limited applicability due to privacy concerns as camera images may contain sensitive information. This study proposes a point cloud-based method for mmWave link quality prediction and demonstrates its feasibility through experiments. Point clouds represent three-dimensional (3D) spaces as a set of points and are sparser and less likely to contain sensitive information than camera images. Additionally, point clouds provide 3D position and motion information, which is necessary for understanding the radio propagation environment involving pedestrians. This study designs the mmWave link quality prediction method and conducts realistic indoor experiments, where the link quality fluctuates significantly due to human blockage, using commercially available IEEE 802.11ad-based 60 GHz wireless LAN devices and Kinect v2 RGB-D camera and Velodyne VLP-16 light detection and ranging (LiDAR) for point cloud acquisition. The experimental results showed that our proposed method can predict future large attenuation of mmWave received signal strength and throughput induced by the LOS path blockage by pedestrians with comparable or superior accuracy to image-based prediction methods. Hence, our point cloud-based method can serve as a viable alternative to image-based methods.
翻訳日:2023-12-08 19:09:09 公開日:2023-12-07
# 生成モデルのためのMAUVEスコア:理論と実践

MAUVE Scores for Generative Models: Theory and Practice ( http://arxiv.org/abs/2212.14578v2 )

ライセンス: Link先を確認
Krishna Pillutla, Lang Liu, John Thickstun, Sean Welleck, Swabha Swayamdipta, Rowan Zellers, Sewoong Oh, Yejin Choi, Zaid Harchaoui(参考訳) 生成的人工知能は、人間の散文と著しく写実的な画像とを区別できないテキストを生成する。 生成したデータの分布がターゲットの分布にどの程度近いかを自動で測定し、既存のモデルを診断し、より良いものを開発する。 本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。 これらのスコアは、生成モデルにおける2種類のエラーをキャプチャする分岐フロンティアの統計的な要約である。 本研究では,ベクトル量子化,非パラメトリック推定,分類子に基づく推定の3つの評価方法を検討した。 我々はベクトル量子化アプローチに統計的境界を与える。 実験により,提案するスコアはf$-divergencesの範囲と組み合わせ,統計的推定手法は,人間の判断に関連付けられ,生成されたテキストの既知の特性を識別することによって,人文テキストと現代ニューラルネットワークモデルの分布の間のギャップを定量化できることがわかった。 我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。 結論として,MAUVEを言語と画像のモダリティで効果的に活用するための実践的な勧告を提案する。

Generative artificial intelligence has made significant strides, producing text indistinguishable from human prose and remarkably photorealistic images. Automatically measuring how close the generated data distribution is to the target distribution is central to diagnosing existing models and developing better ones. We present MAUVE, a family of comparison measures between pairs of distributions such as those encountered in the generative modeling of text or images. These scores are statistical summaries of divergence frontiers capturing two types of errors in generative modeling. We explore three approaches to statistically estimate these scores: vector quantization, non-parametric estimation, and classifier-based estimation. We provide statistical bounds for the vector quantization approach. Empirically, we find that the proposed scores paired with a range of $f$-divergences and statistical estimation methods can quantify the gaps between the distributions of human-written text and those of modern neural language models by correlating with human judgments and identifying known properties of the generated texts. We demonstrate in the vision domain that MAUVE can identify known properties of generated images on par with or better than existing metrics. In conclusion, we present practical recommendations for using MAUVE effectively with language and image modalities.
翻訳日:2023-12-08 19:08:45 公開日:2023-12-07
# MAELi: 大規模LiDARポイントクラウドのためのマスク付きオートエンコーダ

MAELi: Masked Autoencoder for Large-Scale LiDAR Point Clouds ( http://arxiv.org/abs/2212.07207v5 )

ライセンス: Link先を確認
Georg Krispel, David Schinagl, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof(参考訳) 大規模なLiDAR点雲のセンシングプロセスは、必然的に大きな盲点、すなわちセンサーに見えない領域を引き起こす。 我々は,これらの固有サンプリング特性を自己教師付き表現学習に効果的に活用する方法を,最先端オブジェクト検出器を訓練するための退屈な3dアノテーションの必要性を大幅に軽減する,高度に効果的な事前学習フレームワークの設計により実証する。 我々のMasked AutoEncoder for LiDAR point clouds (MAELi) は、復元中にエンコーダとデコーダの両方でLiDAR点雲の空間性を直感的に活用する。 これにより、より表現力が高く有用な初期化が可能になり、3Dオブジェクトの検出や自律運転のセマンティックセグメンテーションといった下流認識タスクに直接適用することができる。 新たな再構築アプローチでは、MAELiは空と空の空間を区別し、LiDAR固有の球面投影を狙う新しいマスキング戦略を採用している。 したがって、基礎となる真理は一切なく、単一のフレームのみでトレーニングされ、maeliは基礎となる3dシーンの幾何学とセマンティクスの理解を得る。 MAELiの可能性を実証するために, 終末的に事前訓練したバックボーンを用いて, 3次元物体検出とセマンティックセグメンテーションのタスクに対する教師なし事前訓練の効果を示す。

The sensing process of large-scale LiDAR point clouds inevitably causes large blind spots, i.e. regions not visible to the sensor. We demonstrate how these inherent sampling properties can be effectively utilized for self-supervised representation learning by designing a highly effective pre-training framework that considerably reduces the need for tedious 3D annotations to train state-of-the-art object detectors. Our Masked AutoEncoder for LiDAR point clouds (MAELi) intuitively leverages the sparsity of LiDAR point clouds in both the encoder and decoder during reconstruction. This results in more expressive and useful initialization, which can be directly applied to downstream perception tasks, such as 3D object detection or semantic segmentation for autonomous driving. In a novel reconstruction approach, MAELi distinguishes between empty and occluded space and employs a new masking strategy that targets the LiDAR's inherent spherical projection. Thereby, without any ground truth whatsoever and trained on single frames only, MAELi obtains an understanding of the underlying 3D scene geometry and semantics. To demonstrate the potential of MAELi, we pre-train backbones in an end-to-end manner and show the effectiveness of our unsupervised pre-trained weights on the tasks of 3D object detection and semantic segmentation.
翻訳日:2023-12-08 19:08:23 公開日:2023-12-07
# 未来を覗き見する: 音声-視覚エゴセントリックな視線予測

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation ( http://arxiv.org/abs/2305.03907v2 )

ライセンス: Link先を確認
Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg(参考訳) エゴセントリックな視線予測は、拡張現実の新たな能力の鍵となる構成要素である。 特に、視線行動は、毎日の活動中に視覚手がかりと音声信号の両方によって駆動される。 この観察に動機づけられて,映像と音声の両方のモダリティを利用した最初のモデルを提案する。 具体的には,空間的および時間的次元における音響-視覚的相関を分離して捉えるための2つのモジュールを用いた,csts(con contrastive spatial-temporal separable)融合手法を提案する。 ego4d と aria という2つのエゴセントリックビデオデータセットを用いて広範なアブレーション研究と解析を行い,モデル設計の検証を行った。 また,本モデルが先行手法を少なくとも +1.9% と +1.6% で上回っていることを示す。 さらに,視線予測結果を表示するための可視化や,視聴覚表現学習に関するさらなる洞察を提供する。

Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality. Notably, gaze behavior is driven by both visual cues and audio signals during daily activities. Motivated by this observation, we introduce the first model that leverages both the video and audio modalities for egocentric gaze anticipation. Specifically, we propose a Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two modules to separately capture audio-visual correlations in spatial and temporal dimensions, and applies a contrastive loss on the re-weighted audio-visual features from fusion modules for representation learning. We conduct extensive ablation studies and thorough analysis using two egocentric video datasets: Ego4D and Aria, to validate our model design. We also demonstrate our model outperforms prior state-of-the-art methods by at least +1.9% and +1.6%. Moreover, we provide visualizations to show the gaze anticipation results and provide additional insights into audio-visual representation learning.
翻訳日:2023-12-08 19:01:42 公開日:2023-12-07
# 大規模言語モデルは計算社会科学を変えることができるか?

Can Large Language Models Transform Computational Social Science? ( http://arxiv.org/abs/2305.03514v2 )

ライセンス: Link先を確認
Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, Diyi Yang(参考訳) 大規模言語モデル(llm)は、多くの言語処理タスクをゼロショットで(トレーニングデータなしで)うまく実行することができる。 もしゼロショットのLLMが説得力や政治的イデオロギーといった社会現象を確実に分類し、説明できれば、LLMは計算社会科学(CSS)パイプラインを重要な方法で強化することができる。 この作業は LLM を CSS ツールとして使用するためのロードマップを提供する。 この目的に向けて、25の代表的英語cssベンチマークで13の言語モデルのゼロショットパフォーマンスを測定するための、一連のベストプラクティスと広範な評価パイプラインを提案します。 分類学的ラベリングタスク(分類)では、LLMは最高の微調整モデルよりは優れているが、人間との公正な合意は得られない。 フリーフォームコーディングタスク(世代)では、LLMは、しばしばクラウドワーカーのゴールド参照の品質を超える説明を生成する。 その結果、今日のllmのパフォーマンスは、(1)人間のアノテーションチームでゼロショットデータアノテーションとして機能すること、(2)挑戦的な創造的生成タスクをブートストラップすること(例えば、テキストの基本的な属性を説明すること)の2つの方法でcss研究パイプラインを強化することができる。 まとめると、LSMは人間と共同で社会科学の分析に有意義に参加する傾向にある。

Large Language Models (LLMs) are capable of successfully performing many language processing tasks zero-shot (without training data). If zero-shot LLMs can also reliably classify and explain social phenomena like persuasiveness and political ideology, then LLMs could augment the Computational Social Science (CSS) pipeline in important ways. This work provides a road map for using LLMs as CSS tools. Towards this end, we contribute a set of prompting best practices and an extensive evaluation pipeline to measure the zero-shot performance of 13 language models on 25 representative English CSS benchmarks. On taxonomic labeling tasks (classification), LLMs fail to outperform the best fine-tuned models but still achieve fair levels of agreement with humans. On free-form coding tasks (generation), LLMs produce explanations that often exceed the quality of crowdworkers' gold references. We conclude that the performance of today's LLMs can augment the CSS research pipeline in two ways: (1) serving as zero-shot data annotators on human annotation teams, and (2) bootstrapping challenging creative generation tasks (e.g., explaining the underlying attributes of a text). In summary, LLMs are posed to meaningfully participate in} social science analysis in partnership with humans.
翻訳日:2023-12-08 19:01:21 公開日:2023-12-07
# 対称正定値多様体上の低複素部分空間線

Low-complexity subspace-descent over symmetric positive definite manifold ( http://arxiv.org/abs/2305.02041v3 )

ライセンス: Link先を確認
Yogesh Darmwal, Ketan Rajawat(参考訳) この研究は、対称正定値(spd)多様体上の関数の最小化のための低複素リーマン部分空間降下アルゴリズムをもたらす。 既存のリーマン勾配降下変種と異なり、提案手法は慎重に選択された部分空間を利用して、更新をイテレートのコレスキー因子とスパース行列の積として記述することができる。 結果として得られる更新は、spd多様体上のほとんど全てのリーマン最適化アルゴリズムで一般的に必要とされる行列指数や密行列乗法のようなコストのかかる行列演算を避ける。 さらに,多種多様な応用,例えば,カーネル・マトリックス・ラーニング,ガウス分布の共分散推定,楕円曲線分布の最大確率パラメータ推定,およびリーマン勾配を効率的に計算できるガウス混合モデル問題におけるパラメータ推定を同定する。 提案する一方向および多方向のリーマン部分空間降下変種はそれぞれ$\o(n)$ と $\o(n^2)$ である。 また, 大規模共分散推定と行列平方根問題の数値実験により, 提案アルゴリズムの優れた実行時間と文毎の複雑性を実証した。

This work puts forth low-complexity Riemannian subspace descent algorithms for the minimization of functions over the symmetric positive definite (SPD) manifold. Different from the existing Riemannian gradient descent variants, the proposed approach utilizes carefully chosen subspaces that allow the update to be written as a product of the Cholesky factor of the iterate and a sparse matrix. The resulting updates avoid the costly matrix operations like matrix exponentiation and dense matrix multiplication, which are generally required in almost all other Riemannian optimization algorithms on SPD manifold. We further identify a broad class of functions, arising in diverse applications, such as kernel matrix learning, covariance estimation of Gaussian distributions, maximum likelihood parameter estimation of elliptically contoured distributions, and parameter estimation in Gaussian mixture model problems, over which the Riemannian gradients can be calculated efficiently. The proposed uni-directional and multi-directional Riemannian subspace descent variants incur per-iteration complexities of $\O(n)$ and $\O(n^2)$ respectively, as compared to the $\O(n^3)$ or higher complexity incurred by all existing Riemannian gradient descent variants. The superior runtime and low per-iteration complexity of the proposed algorithms is also demonstrated via numerical tests on large-scale covariance estimation and matrix square root problems.
翻訳日:2023-12-08 19:00:55 公開日:2023-12-07
# LAVA: 事前特定学習アルゴリズムのないデータ評価

LAVA: Data Valuation without Pre-Specified Learning Algorithms ( http://arxiv.org/abs/2305.00054v2 )

ライセンス: Link先を確認
Hoang Anh Just, Feiyang Kang, Jiachen T. Wang, Yi Zeng, Myeongseob Ko, Ming Jin, Ruoxi Jia(参考訳) 従来、学習アルゴリズムの検証性能をトレーニングデータ間で公平に分割する問題として、データ評価(DV)が提案されている。 その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計選択に依存する。 しかし、この依存は、データ取得プロセスにおける異なるデータソースに対する優先順位の設定や、データマーケットプレースにおける価格設定メカニズムの実行など、多くのDVユースケースでは望ましくない。 これらのシナリオでは、データは実際の分析の前に評価され、学習アルゴリズムの選択はまだ決定されていない。 依存のもう一つの副作用は、個々の点の値を評価するためには、ポイントなしで学習アルゴリズムを再実行する必要があることである。 この作業は、下流の学習アルゴリズムに欠かせない方法でトレーニングデータを評価できる新しいフレームワークを導入することで、現在のデータ評価手法の限界を乗り越えるものだ。 主な成果は以下の通りである。 1) トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて, トレーニングセットに関連する検証性能のプロキシを開発する。 距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。 2) クラス別ワッサースタイン距離の感度解析に基づいて, 個人データを評価する新しい手法を開発した。 重要なことは、これらの値は距離を計算する際にオフザシェルフ最適化ソルバの出力から直接得ることができる。 3)低品質データの検出に関連するさまざまなユースケースに対して,新たなデータアセスメントフレームワークを評価し,驚くべきことに,我々のフレームワークの学習非依存機能は,桁違いに高速でSOTAの性能を大幅に向上させることができることを示す。

Traditionally, data valuation (DV) is posed as a problem of equitably splitting the validation performance of a learning algorithm among the training data. As a result, the calculated data values depend on many design choices of the underlying learning algorithm. However, this dependence is undesirable for many DV use cases, such as setting priorities over different data sources in a data acquisition process and informing pricing mechanisms in a data marketplace. In these scenarios, data needs to be valued before the actual analysis and the choice of the learning algorithm is still undetermined then. Another side-effect of the dependence is that to assess the value of individual points, one needs to re-run the learning algorithm with and without a point, which incurs a large computation burden. This work leapfrogs over the current limits of data valuation methods by introducing a new framework that can value training data in a way that is oblivious to the downstream learning algorithm. Our main results are as follows. (1) We develop a proxy for the validation performance associated with a training set based on a non-conventional class-wise Wasserstein distance between training and validation sets. We show that the distance characterizes the upper bound of the validation performance for any given model under certain Lipschitz conditions. (2) We develop a novel method to value individual data based on the sensitivity analysis of the class-wise Wasserstein distance. Importantly, these values can be directly obtained for free from the output of off-the-shelf optimization solvers when computing the distance. (3) We evaluate our new data valuation framework over various use cases related to detecting low-quality data and show that, surprisingly, the learning-agnostic feature of our framework enables a significant improvement over SOTA performance while being orders of magnitude faster.
翻訳日:2023-12-08 19:00:29 公開日:2023-12-07
# OriCon3D: オリエンテーションと信頼を用いた効果的な3次元オブジェクト検出

OriCon3D: Effective 3D Object Detection using Orientation and Confidence ( http://arxiv.org/abs/2304.14484v2 )

ライセンス: Link先を確認
Dhyey Manish Rajani, Surya Pratap Singh, Rahul Kashyap Swayampakula(参考訳) 本稿では,3次元物体を検出し,その位置を1つの画像から推定する手法を提案する。 提案手法は, 類似の最先端技術[1]上に構築されるが, 精度は向上する。 このアプローチはまず、センターポイント予測のみを利用する他のフレームワークとは対照的に、ディープ畳み込みニューラルネットワーク(DCNN)を用いてオブジェクトの一般的な3D特性を推定する。 次に、これらの推定値と2次元有界箱が提供する幾何学的制約を組み合わせ、完全な3次元有界箱を生成する。 ネットワークの最初の出力は離散連続損失[1]を用いて3次元オブジェクトの向きを推定する。 第2の出力は、最小分散で3dオブジェクト次元を予測する。 ここでは、軽量な特徴抽出器とカスタマイズされたマルチビンアーキテクチャを拡張した拡張についても紹介する。 これらの推定を2次元境界ボックスの幾何学的制約と組み合わせることで、KITTI 3D検出ベンチマーク [2] 上のベースライン [1] よりも正確に(あるいは比較的) 3次元オブジェクトのポーズを決定できる。

We introduce a technique for detecting 3D objects and estimating their position from a single image. Our method is built on top of a similar state-of-the-art technique [1], but with improved accuracy. The approach followed in this research first estimates common 3D properties of an object using a Deep Convolutional Neural Network (DCNN), contrary to other frameworks that only leverage centre-point predictions. We then combine these estimates with geometric constraints provided by a 2D bounding box to produce a complete 3D bounding box. The first output of our network estimates the 3D object orientation using a discrete-continuous loss [1]. The second output predicts the 3D object dimensions with minimal variance. Here we also present our extensions by augmenting light-weight feature extractors and a customized multibin architecture. By combining these estimates with the geometric constraints of the 2D bounding box, we can accurately (or comparatively) determine the 3D object pose better than our baseline [1] on the KITTI 3D detection benchmark [2].
翻訳日:2023-12-08 19:00:00 公開日:2023-12-07
# FIANCEE: 条件付き初期出力による敵ネットワークの高速推論

FIANCEE: Faster Inference of Adversarial Networks via Conditional Early Exits ( http://arxiv.org/abs/2304.10306v2 )

ライセンス: Link先を確認
Polina Karpikova, Radionova Ekaterina, Anastasia Yaschenko, Andrei Spiridonov, Leonid Kostyushko, Riccardo Fabbricatore, Aleksei Ivakhnenko(参考訳) 生成DNNは画像合成の強力なツールであるが、計算負荷によって制限されている。 一方、訓練されたモデルと、例えば特徴の範囲内で生成するタスクが与えられた場合、出力画像の品質は、異なる特徴を持つ画像間で均一に分配される。 従って、いくつかのケースではモデルの複雑さを抑え、高品質を維持します。 そこで本研究では, 初期出口分岐を元のアーキテクチャに追加し, 出力のレンダリングがいかに難しいかに応じて動的に計算経路を切り替えることで, 計算量を削減する手法を提案する。 提案手法を2種類のSOTAモデルに適用し, セマンティックマップから生成し, 顔表現の相互再現を行い, 独自の低品質しきい値で画像を出力可能であることを示す。 LPIPS <=0.1のしきい値の場合、計算結果を最大半分まで減少させる。 これは、顔の合成や品質損失を含む必要があるリアルタイムアプリケーションに特に関係しているが、ほとんどの入力は複雑なインスタンスよりも少ない計算を必要とする。

Generative DNNs are a powerful tool for image synthesis, but they are limited by their computational load. On the other hand, given a trained model and a task, e.g. faces generation within a range of characteristics, the output image quality will be unevenly distributed among images with different characteristics. It follows, that we might restrain the models complexity on some instances, maintaining a high quality. We propose a method for diminishing computations by adding so-called early exit branches to the original architecture, and dynamically switching the computational path depending on how difficult it will be to render the output. We apply our method on two different SOTA models performing generative tasks: generation from a semantic map, and cross-reenactment of face expressions; showing it is able to output images with custom lower-quality thresholds. For a threshold of LPIPS <=0.1, we diminish their computations by up to a half. This is especially relevant for real-time applications such as synthesis of faces, when quality loss needs to be contained, but most of the inputs need fewer computations than the complex instances.
翻訳日:2023-12-08 18:59:40 公開日:2023-12-07
# ベルの定理による信頼できない損失量子チャネルによる量子メッセージの実験的送信

Experimentally Certified Transmission of a Quantum Message through an Untrusted and Lossy Quantum Channel via Bell's Theorem ( http://arxiv.org/abs/2304.09605v2 )

ライセンス: Link先を確認
Simon Neves, Laura dos Santos Martins, Verena Yacoub, Pascal Lefebvre, Ivan Supic, Damian Markham, and Eleni Diamanti(参考訳) 量子伝送リンクは、基本的に量子メッセージの交換を含む全てのプロトコルの中心的な要素である。 このようなリンクを含む量子技術の進歩には、適切な認証ツールが伴わなければならない。 敵対的なシナリオでは、基盤となるシステムに信頼が多すぎると、認証手法は攻撃に対して脆弱になる可能性がある。 本稿では,認証設定の機能に関する仮定が最小限のシナリオにおいて,実用的な量子伝送リンクの認証を可能にする,デバイス独立フレームワークにおけるプロトコルを提案する。 特に、リンクを完全に正のトレース減少マップとしてモデル化することで、避けられない送信損失を考慮に入れます。 また,本研究では,非対角的設定と相容れない独立分布と同一分布の標本の仮定を取り除いた。 最後に、後続のアプリケーションで認証された送信状態を利用することから、プロトコルはチャネルの認証を超えて、送信された量子メッセージ自体の品質を推定できるようにします。 現在利用可能な技術でプロトコルの実用的妥当性と実現可能性を説明するために,サニャック構成における最先端偏光束束光子対源に基づく実験的な実装を提供し,現実的な損失と誤りに対するロバスト性を分析する。

Quantum transmission links are central elements in essentially all protocols involving the exchange of quantum messages. Emerging progress in quantum technologies involving such links needs to be accompanied by appropriate certification tools. In adversarial scenarios, a certification method can be vulnerable to attacks if too much trust is placed on the underlying system. Here, we propose a protocol in a device independent framework, which allows for the certification of practical quantum transmission links in scenarios where minimal assumptions are made about the functioning of the certification setup. In particular, we take unavoidable transmission losses into account by modeling the link as a completely-positive trace-decreasing map. We also, crucially, remove the assumption of independent and identically distributed samples, which is known to be incompatible with adversarial settings. Finally, in view of the use of the certified transmitted states for follow-up applications, our protocol moves beyond certification of the channel to allow us to estimate the quality of the transmitted quantum message itself. To illustrate the practical relevance and the feasibility of our protocol with currently available technology we provide an experimental implementation based on a state-of-the-art polarization entangled photon pair source in a Sagnac configuration and analyze its robustness for realistic losses and errors.
翻訳日:2023-12-08 18:59:21 公開日:2023-12-07
# 対照的な信号依存塑性:スパイキングニューラルシステムの前方学習

Contrastive-Signal-Dependent Plasticity: Forward-Forward Learning of Spiking Neural Systems ( http://arxiv.org/abs/2303.18187v2 )

ライセンス: Link先を確認
Alexander Ororbia(参考訳) 我々は,ニューロンの個々の層が並列に動作し,フィードバック経路を使わずにシナプス効果を適応する,スパイク神経ユニットからなる神経模倣アーキテクチャを開発した。 具体的には、刺激窓越しに感覚入力を反復的に処理するスパイキング神経系に対して、コントラスト信号依存塑性(CSDP)と呼ばれる前方学習のイベントベース一般化を提案する。 このリカレント回路を書き換えるダイナミクスは、各層内の各処理要素の膜電位を、局所的なボトムアップ、トップダウン、横方向の信号の関数として計算し、ダイナミックな層間平行なニューラル計算を促進させる。 神経電気活動を調整するためのフィードバックシナプスに依存するスパイク予測符号化のような他のモデルとは異なり、我々のモデルは純粋にオンラインとフォワードで動作し、ラベル付きコンテキスト情報を用いて感覚データパターンの分散表現を学習する有望な方法を提供する。 特に,いくつかのパターンデータセットに対する実験結果から,CSDPプロセスは分類と再構成の両立が可能な動的再帰スパイクネットワークのトレーニングに有効であることが示された。

We develop a neuro-mimetic architecture, composed of spiking neuronal units, where individual layers of neurons operate in parallel and adapt their synaptic efficacies without the use of feedback pathways. Specifically, we propose an event-based generalization of forward-forward learning, which we call contrastive-signal-dependent plasticity (CSDP), for a spiking neural system that iteratively processes sensory input over a stimulus window. The dynamics that underwrite this recurrent circuit entail computing the membrane potential of each processing element, in each layer, as a function of local bottom-up, top-down, and lateral signals, facilitating a dynamic, layer-wise parallel form of neural computation. Unlike other models, such as spiking predictive coding, which rely on feedback synapses to adjust neural electrical activity, our model operates purely online and forward in time, offering a promising way to learn distributed representations of sensory data patterns, with and without labeled context information. Notably, our experimental results on several pattern datasets demonstrate that the CSDP process works well for training a dynamic recurrent spiking network capable of both classification and reconstruction.
翻訳日:2023-12-08 18:59:00 公開日:2023-12-07
# MapFormer: 事前変更情報による変更検出の強化

MapFormer: Boosting Change Detection by Using Pre-change Information ( http://arxiv.org/abs/2303.17859v4 )

ライセンス: Link先を確認
Maximilian Bernhard, Niklas Strau{\ss}, Matthias Schubert(参考訳) リモートセンシング画像における変化検出は、都市計画、災害管理、気候研究などの様々な応用に不可欠である。 しかし、意味的に変化した領域を識別する既存の方法は、地球表面の特徴を記述した既存の地図の形で意味情報の可用性を見落としている。 本稿では,この情報を両時間画像の変化検出に活用する。 潜在表現の連結による付加情報の統合は、最先端の変更検出方法よりも大幅に優れていることを示す。 この観察に動機づけられて,前変化意味情報をバイタイム画像の隣の入力として使用する,条件変化検出*という新しいタスクを提案する。 余分な情報をフル活用するために、利用可能なセマンティック情報に基づいて特徴処理を可能にするマルチモーダル機能融合モジュールに基づく新しいアーキテクチャである*MapFormer*を提案する。 さらに、視覚表現の学習を導くために、教師付き横断的コントラスト損失を用いる。 提案手法は,DynamicEarthNet と HRSCD のバイナリ変更 IoU において,絶対 11.7 % と 18.4 % で既存の変化検出手法より優れている。 さらに,事前変更のセマンティック情報の品質に対するアプローチの頑健さと,事前変更画像の欠如を実証した。 コードはhttps://github.com/mxbh/mapformerで入手できる。

Change detection in remote sensing imagery is essential for a variety of applications such as urban planning, disaster management, and climate research. However, existing methods for identifying semantically changed areas overlook the availability of semantic information in the form of existing maps describing features of the earth's surface. In this paper, we leverage this information for change detection in bi-temporal images. We show that the simple integration of the additional information via concatenation of latent representations suffices to significantly outperform state-of-the-art change detection methods. Motivated by this observation, we propose the new task of *Conditional Change Detection*, where pre-change semantic information is used as input next to bi-temporal images. To fully exploit the extra information, we propose *MapFormer*, a novel architecture based on a multi-modal feature fusion module that allows for feature processing conditioned on the available semantic information. We further employ a supervised, cross-modal contrastive loss to guide the learning of visual representations. Our approach outperforms existing change detection methods by an absolute 11.7\% and 18.4\% in terms of binary change IoU on DynamicEarthNet and HRSCD, respectively. Furthermore, we demonstrate the robustness of our approach to the quality of the pre-change semantic information and the absence pre-change imagery. The code is available at https://github.com/mxbh/mapformer.
翻訳日:2023-12-08 18:58:37 公開日:2023-12-07
# 裏でプロットする: 学習可能なゲームエンジンを目指して

Plotting Behind the Scenes: Towards Learnable Game Engines ( http://arxiv.org/abs/2303.13472v2 )

ライセンス: Link先を確認
Willi Menapace, Aliaksandr Siarohin, St\'ephane Lathuili\`ere, Panos Achlioptas, Vladislav Golyanik, Sergey Tulyakov, Elisa Ricci(参考訳) ニューラルビデオゲームシミュレーターは、ビデオの生成と編集のための強力なツールとして登場した。 彼らの考えは、エージェントのアクションによって駆動される環境の状態の進化としてゲームを表現することである。 このようなパラダイムは、ユーザがアクションバイアクションをプレイすることを可能にするが、その剛性はより意味的な制御形式を妨げる。 この制限を克服するために、自然言語アクションと所望の状態のセットとして指定されたプロンプトでゲームモデルを拡張する。 結果-aプロンプト可能ゲームモデル(pgm)は、高レベルおよび低レベルなアクションシーケンスを促すことで、ユーザがゲームをプレイできるようにする。 私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。 これは、我々のアニメーションモデルによってカプセル化された"ゲームAI"を学習し、高いレベルの制約を使用してシーンをナビゲートし、敵と対戦し、ポイントを獲得するための戦略を考案する必要があります。 得られた状態を描画するために、合成モデルにカプセル化された合成NeRF表現を用いる。 今後の研究を進めるために,新たに収集,注釈,校正したテニスおよびマインクラフトデータセットを提案する。 提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。 私たちのフレームワーク、データ、モデルはhttps://snap-research.github.io/promptable-game-models/で利用可能です。

Neural video game simulators emerged as powerful tools to generate and edit videos. Their idea is to represent games as the evolution of an environment's state driven by the actions of its agents. While such a paradigm enables users to play a game action-by-action, its rigidity precludes more semantic forms of control. To overcome this limitation, we augment game models with prompts specified as a set of natural language actions and desired states. The result-a Promptable Game Model (PGM)-makes it possible for a user to play the game by prompting it with high- and low-level action sequences. Most captivatingly, our PGM unlocks the director's mode, where the game is played by specifying goals for the agents in the form of a prompt. This requires learning "game AI", encapsulated by our animation model, to navigate the scene using high-level constraints, play against an adversary, and devise a strategy to win a point. To render the resulting state, we use a compositional NeRF representation encapsulated in our synthesis model. To foster future research, we present newly collected, annotated and calibrated Tennis and Minecraft datasets. Our method significantly outperforms existing neural video game simulators in terms of rendering quality and unlocks applications beyond the capabilities of the current state of the art. Our framework, data, and models are available at https://snap-research.github.io/promptable-game-models/.
翻訳日:2023-12-08 18:57:48 公開日:2023-12-07
# zeronlg: ゼロショットマルチモーダルおよび多言語自然言語生成のためのアライメントおよび自動エンコーディングドメイン

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation ( http://arxiv.org/abs/2303.06458v2 )

ライセンス: Link先を確認
Bang Yang, Fenglin Liu, Yuexian Zou, Xian Wu, Yaowei Wang, and David A. Clifton(参考訳) 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。 既存のNLGメソッドは主に教師付きアプローチを採用し、結合したデータ-テキストペアに大きく依存している。 しかし、多くのシナリオや英語以外の言語では、十分な量のラベル付きデータが利用できないことが多い。 ダウンストリームタスクのラベル付きデータへの依存を緩和するために,直観的で効果的なゼロショット学習フレームワークであるzeronlgを提案する。このフレームワークは,統合フレームワーク内で英語,中国語,ドイツ語,フランス語にまたがって,画像からテキストへの(画像キャプション),ビデオからテキストへの(ビデオキャプション),テキスト間(ニューラル機械翻訳)といった複数のnlgタスクを処理できる。 ZeroNLGはトレーニングのためにラベル付き下流ペアを必要としない。 ZeroNLGのトレーニング中 (i)共有共通潜在空間内の対応する座標に対して異なる領域(交叉モダリティ及び言語)を計画する。 (二 この空間において対応する座標を整列させて異なる領域を橋渡しすること。) 三 教師なし多言語自動エンコーダを構築し、共有潜在空間における座標が与えられた入力テキストを再構成してテキストを生成する。 したがって、推論の間、データからテキストへのパイプラインに基づいて、0nlgは共通の空間における入力データの座標に基づいて、異なる言語にまたがるターゲット文を生成することができる。 この統一フレームワークでは、視覚(画像またはビデオ)データを入力として、zeronlgはゼロショット視覚キャプションを実行し、テキスト文を入力として、zeronlgはゼロショット機械翻訳を実行することができる。 我々は,12のNLGタスクに対する広範な実験結果を示し,ラベル付き下流ペアをトレーニングに使わずに,ZeroNLGは高品質で信頼性の高い出力を生成し,既存のゼロショット法を著しく上回ることを示す。

Natural Language Generation (NLG) accepts input data in the form of images, videos, or text and generates corresponding natural language text as output. Existing NLG methods mainly adopt a supervised approach and rely heavily on coupled data-to-text pairs. However, for many targeted scenarios and for non-English languages, sufficient quantities of labeled data are often not available. To relax the dependency on labeled data of downstream tasks, we propose an intuitive and effective zero-shot learning framework, ZeroNLG, which can deal with multiple NLG tasks, including image-to-text (image captioning), video-to-text (video captioning), and text-to-text (neural machine translation), across English, Chinese, German, and French within a unified framework. ZeroNLG does not require any labeled downstream pairs for training. During training, ZeroNLG (i) projects different domains (across modalities and languages) to corresponding coordinates in a shared common latent space; (ii) bridges different domains by aligning their corresponding coordinates in this space; and (iii) builds an unsupervised multilingual auto-encoder to learn to generate text by reconstructing the input text given its coordinate in shared latent space. Consequently, during inference, based on the data-to-text pipeline, ZeroNLG can generate target sentences across different languages given the coordinate of input data in the common space. Within this unified framework, given visual (imaging or video) data as input, ZeroNLG can perform zero-shot visual captioning; given textual sentences as input, ZeroNLG can perform zero-shot machine translation. We present the results of extensive experiments on twelve NLG tasks, showing that, without using any labeled downstream pairs for training, ZeroNLG generates high-quality and believable outputs and significantly outperforms existing zero-shot methods.
翻訳日:2023-12-08 18:57:25 公開日:2023-12-07
# 量子学習の古典的検証

Classical Verification of Quantum Learning ( http://arxiv.org/abs/2306.04843v2 )

ライセンス: Link先を確認
Matthias C. Caro, Marcel Hinsche, Marios Ioannou, Alexander Nietner, Ryan Sweke(参考訳) 量子データアクセスと量子処理は、古典的に難解な学習タスクを実現することができる。 しかし、量子能力は近い将来、限られた少数の人にしか利用できない。 したがって、古典的クライアントが信頼できない量子サーバーに学習を委譲できるような信頼性の高いスキームは、量子学習の利点への広範なアクセスを促進するために必要である。 最近導入された古典的機械学習のための対話的証明システムのフレームワークに基づいて,量子学習の古典的検証のためのフレームワークを開発した。 我々は,古典学習者が自分自身で効率的に解けない学習問題を示すが,信頼できない量子証明器と対話する際には,効率よく,確実に解ける。 具体的には,一様入力境界を持つ分布に対する非依存的学習パリティとフーリエスパース関数の問題を考察する。 我々は、これらのタスクに対して効率的な量子学習アルゴリズムを提供する量子サンプルを「重ね合わせ混合」と呼ぶ新しい量子データアクセスモデルを提案する。 さらに,ランダムな例や統計的クエリアクセスしか持たない古典的検証器によって,非依存的な量子パリティとフーリエスパース学習を効率よく検証できることを示す。 最後に,学習と検証における2つの一般的なシナリオを紹介し,量子混合重ね合わせ例では古典データよりもサンプル複雑性が向上しないことを示す。 その結果、学習タスクにおける量子データの潜在能力は無限ではないが、信頼できない量子実体との相互作用を通じて古典的エージェントによって活用できることが示された。

Quantum data access and quantum processing can make certain classically intractable learning tasks feasible. However, quantum capabilities will only be available to a select few in the near future. Thus, reliable schemes that allow classical clients to delegate learning to untrusted quantum servers are required to facilitate widespread access to quantum learning advantages. Building on a recently introduced framework of interactive proof systems for classical machine learning, we develop a framework for classical verification of quantum learning. We exhibit learning problems that a classical learner cannot efficiently solve on their own, but that they can efficiently and reliably solve when interacting with an untrusted quantum prover. Concretely, we consider the problems of agnostic learning parities and Fourier-sparse functions with respect to distributions with uniform input marginal. We propose a new quantum data access model that we call "mixture-of-superpositions" quantum examples, based on which we give efficient quantum learning algorithms for these tasks. Moreover, we prove that agnostic quantum parity and Fourier-sparse learning can be efficiently verified by a classical verifier with only random example or statistical query access. Finally, we showcase two general scenarios in learning and verification in which quantum mixture-of-superpositions examples do not lead to sample complexity improvements over classical data. Our results demonstrate that the potential power of quantum data for learning tasks, while not unlimited, can be utilized by classical agents through interaction with untrusted quantum entities.
翻訳日:2023-12-08 18:50:01 公開日:2023-12-07
# ランダムにピボットされたcholeskyによるカーネル二次

Kernel quadrature with randomly pivoted Cholesky ( http://arxiv.org/abs/2306.03955v3 )

ライセンス: Link先を確認
Ethan N. Epperly and Elvira Moreno(参考訳) 本稿では、ランダムにピボットされたcholeskyとして知られるサンプリングアルゴリズムによって描画されたノードを用いて、再生核ヒルベルト空間における関数の新たな二次規則を提案する。 結果として得られる計算手順は、低い精度を達成するか、計算に難解なサンプリング問題を解決する必要がある以前のカーネル二次法と好適に比較される。 理論的および数値的な結果から、ランダムにピボットされたコレスキーは高速であり、連続的な体積サンプリング、薄型化、再結合に基づく計算コストの高い二次スキームと同等の二次誤差率を達成している。 ランダムにピボットされたコレスキーは任意のカーネルを持つ複雑な幾何学に容易に適応し、カーネルの二次的な新しいポテンシャルを解き放つ。

This paper presents new quadrature rules for functions in a reproducing kernel Hilbert space using nodes drawn by a sampling algorithm known as randomly pivoted Cholesky. The resulting computational procedure compares favorably to previous kernel quadrature methods, which either achieve low accuracy or require solving a computationally challenging sampling problem. Theoretical and numerical results show that randomly pivoted Cholesky is fast and achieves comparable quadrature error rates to more computationally expensive quadrature schemes based on continuous volume sampling, thinning, and recombination. Randomly pivoted Cholesky is easily adapted to complicated geometries with arbitrary kernels, unlocking new potential for kernel quadrature.
翻訳日:2023-12-08 18:49:39 公開日:2023-12-07
# DeepGraphDMD:非線形機能脳ネットワークダイナミクスの解釈可能な時空間分解

DeepGraphDMD: Interpretable Spatio-Temporal Decomposition of Non-linear Functional Brain Network Dynamics ( http://arxiv.org/abs/2306.03088v2 )

ライセンス: Link先を確認
Md Asadullah Turja, Martin Styner and Guorong Wu(参考訳) 機能的脳力学は、特定の神経回路に関連付けられた並列および重なり合う機能的ネットワークモードによって支持される。 これらのネットワークモードをfMRIデータから分解し、その時間的特性を見つけることは、その時間的特性と機能力学の非線形性のために困難である。 動的モード分解(DMD)アルゴリズムは近年,この分解問題を解くために広く利用されている。 本研究では,ネットワークデータに対するDMDの拡張であるGraphDMDを適用し,fMRI時系列から動的ネットワークモードとその時間特性を解釈可能な方法で抽出する。 しかし、GraphDMDは、基礎となるシステムを非線形関数データからネットワークモードを抽出するためのサブ最適化である線形力学系とみなしている。 本研究では,グラフDMDアルゴリズムの一般化版であるDeepGraphDMDを開発し,任意の非線形グラフ力学系に適用する。 DeepGraphDMDは、自動エンコーダに基づくディープラーニングモデルであり、グラフデータのクープマン固有関数を学習し、非線形グラフダイナミクスを潜在線形空間に埋め込む。 シミュレーションデータとHCP静止状態fMRIデータの両方において,本手法の有効性を示す。 HCPデータにおいて、DeepGraphDMDは、流体と結晶化インテリジェンスに関連する2つの主要なネットワークモードを発見することによって、認知脳機能に関する新たな洞察を提供する。

Functional brain dynamics is supported by parallel and overlapping functional network modes that are associated with specific neural circuits. Decomposing these network modes from fMRI data and finding their temporal characteristics is challenging due to their time-varying nature and the non-linearity of the functional dynamics. Dynamic Mode Decomposition (DMD) algorithms have been quite popular for solving this decomposition problem in recent years. In this work, we apply GraphDMD -- an extension of the DMD for network data -- to extract the dynamic network modes and their temporal characteristics from the fMRI time series in an interpretable manner. GraphDMD, however, regards the underlying system as a linear dynamical system that is sub-optimal for extracting the network modes from non-linear functional data. In this work, we develop a generalized version of the GraphDMD algorithm -- DeepGraphDMD -- applicable to arbitrary non-linear graph dynamical systems. DeepGraphDMD is an autoencoder-based deep learning model that learns Koopman eigenfunctions for graph data and embeds the non-linear graph dynamics into a latent linear space. We show the effectiveness of our method in both simulated data and the HCP resting-state fMRI data. In the HCP data, DeepGraphDMD provides novel insights into cognitive brain functions by discovering two major network modes related to fluid and crystallized intelligence.
翻訳日:2023-12-08 18:49:05 公開日:2023-12-07
# ランドー・ツェナー転移の連続測定による量子スペクトル解析

Quantum spectral analysis by continuous measurement of Landau-Zener transitions ( http://arxiv.org/abs/2306.01622v4 )

ライセンス: Link先を確認
Christopher C. Bounds, Josh P. Duff, Alex Tritt, Hamish A. M. Taylor, George X. Coe, Sam J. White, L. D. Turner (School of Physics and Astronomy, Monash University, Melbourne, Australia)(参考訳) 単一実験ショットにおける単一量子センサによる信号周波数と振幅の同時推定を実証する。 周波数を線形に分割すると、クビットが共鳴するときに非断熱的なランダウ・ツェナー転移が生じる。 信号周波数は遷移の時刻と振幅をその範囲で決定する。 このユニタリ進化の連続的な弱測定は、周波数と振幅を正確に測定するパラメータ推定器に知らせる。 ファラデー・スピンライト・インタフェースで読み出された電波で、20〜\text{pT}$振幅の精度と周波数のほぼ変換制限精度の磁気信号を、300〜\text{ms}$スイープで7ドルから13〜\text{kHz}$で検出する。 このプロトコルは、数百から数千のチャネルを1つの量子センサーで検知する、暗黙の量子スペクトル分析器を実現する。

We demonstrate the simultaneous estimation of signal frequency and amplitude by a single quantum sensor in a single experimental shot. Sweeping the qubit splitting linearly across a span of frequencies induces a non-adiabatic Landau-Zener transition as the qubit crosses resonance. The signal frequency determines the time of the transition, and the amplitude its extent. Continuous weak measurement of this unitary evolution informs a parameter estimator retrieving precision measurements of frequency and amplitude. Implemented on radiofrequency-dressed ultracold atoms read out by a Faraday spin-light interface, we sense a magnetic signal with $20~\text{pT}$ precision in amplitude, and near-transform-limited precision in frequency, in a single $300~\text{ms}$ sweep from $7$ to $13~\text{kHz}$. The protocol realizes a swept-sine quantum spectrum analyzer, potentially sensing hundreds or thousands of channels with a single quantum sensor.
翻訳日:2023-12-08 18:48:44 公開日:2023-12-07
# vico:パーソナライズされたテキスト対画像生成のためのプラグイン・アンド・プレイ視覚条件

ViCo: Plug-and-play Visual Condition for Personalized Text-to-image Generation ( http://arxiv.org/abs/2306.00971v2 )

ライセンス: Link先を確認
Shaozhe Hao, Kai Han, Shihao Zhao, Kwan-Yee K. Wong(参考訳) 拡散モデルを用いたパーソナライズされたテキストから画像への生成が最近登場し、大きな関心を集めている。 このタスクは、一握りの画像に描かれた新しい概念(例えばユニークなおもちゃ)を、細かい視覚詳細をキャプチャし、テキスト埋め込みに基づいてフォトリアリスティックな画像を生成する生成モデルに学習する。 本稿では,視覚条件をテキスト対画像生成にシームレスに統合する新しい軽量プラグイン・アンド・プレイ方式であるvicoを提案する。 ViCoのユニークな特徴は、オリジナルの拡散モデルパラメータを微調整する必要がなく、より柔軟でスケーラブルなモデルデプロイメントを容易にすることだ。 この重要な利点は、部分的または完全な拡散微調整を必要とする既存のモデルとViCoを区別する。 ViCoには、パッチワイドな視覚的セマンティクス上で拡散プロセスを実行するイメージアテンションモジュールと、アテンションモジュールから余分なコストを伴わないアテンションベースのオブジェクトマスクが含まれている。 軽量パラメータトレーニング(拡散U-Netと比較して約6%)のみを必要とするにもかかわらず、ViCoは、定性的にも定量的にも、すべての最先端モデルに匹敵するパフォーマンスを提供する。 これによってvicoの有効性が低下し、拡散モデルの微調整を必要とせず、パーソナライズされたテキストから画像への生成に非常に有望なソリューションとなる。 コード:https://github.com/haoosz/ViCo

Personalized text-to-image generation using diffusion models has recently emerged and garnered significant interest. This task learns a novel concept (e.g., a unique toy), illustrated in a handful of images, into a generative model that captures fine visual details and generates photorealistic images based on textual embeddings. In this paper, we present ViCo, a novel lightweight plug-and-play method that seamlessly integrates visual condition into personalized text-to-image generation. ViCo stands out for its unique feature of not requiring any fine-tuning of the original diffusion model parameters, thereby facilitating more flexible and scalable model deployment. This key advantage distinguishes ViCo from most existing models that necessitate partial or full diffusion fine-tuning. ViCo incorporates an image attention module that conditions the diffusion process on patch-wise visual semantics, and an attention-based object mask that comes at no extra cost from the attention module. Despite only requiring light parameter training (~6% compared to the diffusion U-Net), ViCo delivers performance that is on par with, or even surpasses, all state-of-the-art models, both qualitatively and quantitatively. This underscores the efficacy of ViCo, making it a highly promising solution for personalized text-to-image generation without the need for diffusion model fine-tuning. Code: https://github.com/haoosz/ViCo
翻訳日:2023-12-08 18:48:21 公開日:2023-12-07
# 損失最適分類木:一般化された枠組みとロジスティックケース

Loss-Optimal Classification Trees: A Generalized Framework and the Logistic Case ( http://arxiv.org/abs/2306.00857v2 )

ライセンス: Link先を確認
Tommaso Aldinucci, Matteo Lapucci(参考訳) 分類木(CT)は、解釈可能な機械学習において最も一般的なモデルの1つである。 このようなモデルは通常、欲張りの戦略で構築されるが、近年、MIP(Mixer-Integer Programming)ソルバの顕著な進歩により、学習問題の正確な定式化が開発されている。 本稿では、これらのトレーニングモデルの中で最も関連性の高いものは、損失関数と正規化器の仕様によってインスタンスが形成される一般的なフレームワークにカプセル化可能であることを論じる。 次に,この枠組みの新たな実現について紹介する。具体的には,mip 設定において線形区間近似によって処理されるロジスティック損失を,$\ell_1$-regularization 項に結合する。 得られた最適ロジスティックツリーモデルは、最先端のMIPベースのアプローチと比較して、解釈可能性の向上と競合一般化能力を備えたツリーを数値的に誘導できることを証明している。

The Classification Tree (CT) is one of the most common models in interpretable machine learning. Although such models are usually built with greedy strategies, in recent years, thanks to remarkable advances in Mixer-Integer Programming (MIP) solvers, several exact formulations of the learning problem have been developed. In this paper, we argue that some of the most relevant ones among these training models can be encapsulated within a general framework, whose instances are shaped by the specification of loss functions and regularizers. Next, we introduce a novel realization of this framework: specifically, we consider the logistic loss, handled in the MIP setting by a linear piece-wise approximation, and couple it with $\ell_1$-regularization terms. The resulting Optimal Logistic Tree model numerically proves to be able to induce trees with enhanced interpretability features and competitive generalization capabilities, compared to the state-of-the-art MIP-based approaches.
翻訳日:2023-12-08 18:47:55 公開日:2023-12-07
# 拡散モデルの属性認識パーソナライズのためのプロンプトスペクトル

ProSpect: Prompt Spectrum for Attribute-Aware Personalization of Diffusion Models ( http://arxiv.org/abs/2305.16225v3 )

ライセンス: Link先を確認
Yuxin Zhang, Weiming Dong, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Oliver Deussen, Changsheng Xu(参考訳) 生成モデルのパーソナライズは、ユーザが提供する参照で画像生成をガイドする方法を提供する。 現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。 しかし、素材、スタイル、レイアウトなどの特定の視覚的属性の表現と編集は依然として課題であり、絡み合いや編集性が欠如している。 そこで本研究では,低周波情報から高周波画像を生成する拡散モデルのステップ・バイ・ステップ生成プロセスを利用して,画像の表現,生成,編集に関する新たな視点を提供する。 本稿では,拡張テキスト条件空間であるPrompt Spectrum Space P*と,新しい画像表現法であるShasysnameを開発した。 ProSpectは、各プロンプトが拡散モデルの特定の生成段階(つまり連続的なステップのグループ)に対応する段階ごとのプロンプトから符号化された逆テキストトークン埋め込みの集合として画像を表す。 実験の結果、p* と prospect は既存の方法と比較してより良い乱れと制御性を示している。 画像誘導やテキスト駆動による素材, スタイル, レイアウトの操作など, パーソナライズされた属性認識型画像生成アプリケーションの展望を適用し, 拡散モデルを微調整することなく, 単一の画像入力からこれまで達成できなかった結果を得る。 ソースコードはhttps://github.com/zyxElsa/ProSpect.comで公開されています。

Personalizing generative models offers a way to guide image generation with user-provided references. Current personalization methods can invert an object or concept into the textual conditioning space and compose new natural sentences for text-to-image diffusion models. However, representing and editing specific visual attributes such as material, style, and layout remains a challenge, leading to a lack of disentanglement and editability. To address this problem, we propose a novel approach that leverages the step-by-step generation process of diffusion models, which generate images from low to high frequency information, providing a new perspective on representing, generating, and editing images. We develop the Prompt Spectrum Space P*, an expanded textual conditioning space, and a new image representation method called \sysname. ProSpect represents an image as a collection of inverted textual token embeddings encoded from per-stage prompts, where each prompt corresponds to a specific generation stage (i.e., a group of consecutive steps) of the diffusion model. Experimental results demonstrate that P* and ProSpect offer better disentanglement and controllability compared to existing methods. We apply ProSpect in various personalized attribute-aware image generation applications, such as image-guided or text-driven manipulations of materials, style, and layout, achieving previously unattainable results from a single image input without fine-tuning the diffusion models. Our source code is available athttps://github.com/zyxElsa/ProSpect.
翻訳日:2023-12-08 18:47:08 公開日:2023-12-07
# 言語モデルのポストホック説明は言語モデルを改善することができる

Post Hoc Explanations of Language Models Can Improve Language Models ( http://arxiv.org/abs/2305.11426v3 )

ライセンス: Link先を確認
Satyapriya Krishna, Jiaqi Ma, Dylan Slack, Asma Ghandeharioun, Sameer Singh, Himabindu Lakkaraju(参考訳) 大規模言語モデル(LLM)は複雑なタスクの実行において顕著な能力を示した。 さらに、最近の研究では、コンテキスト学習中に人間の注釈付き合理性(例えば、チェーン・オブ・マインド・プロンプト)を組み込むことで、特に推論能力を必要とするタスクにおいて、これらのモデルのパフォーマンスが著しく向上することが示されている。 しかし、このような合理性の導入は、高い人間的関与を必要とするため、スケーラビリティの面での課題となる。 そこで本研究では, 論理生成のプロセスを自動化することで, 上記の課題に対処する, AMPLIFY(Post Hoc Explanations)を用いたインテクスト学習の活用によるモデルパフォーマンスの増幅手法を提案する。 この目的のために,各入力特徴がモデル予測に与える影響を捉えた帰属スコア(説明)を出力するポストホックな説明手法を利用する。 より具体的には、ポストホックな説明から洞察を埋め込み、llmに補正信号を提供する自動自然言語理論を構築する。 現実世界のデータセットによる大規模な実験により、私たちのフレームワークAMPLIFYは、Chain-of-Thoughtのような注釈付き論理に依存した従来のアプローチが不足するなど、幅広いタスクに対して約10~25%の精度の向上をもたらすことが示されています。 本研究は,LLMの有効性を高める貴重なツールとして,ポストホック説明の可能性を強調した最初の試みである。 さらに、amplifyの各コンポーネントの影響を実証するために、追加の実証分析とアブレーション研究を行い、その結果として、コンテキスト内学習を洗練するための重要な洞察を導きます。

Large Language Models (LLMs) have demonstrated remarkable capabilities in performing complex tasks. Moreover, recent research has shown that incorporating human-annotated rationales (e.g., Chain-of-Thought prompting) during in-context learning can significantly enhance the performance of these models, particularly on tasks that require reasoning capabilities. However, incorporating such rationales poses challenges in terms of scalability as this requires a high degree of human involvement. In this work, we present a novel framework, Amplifying Model Performance by Leveraging In-Context Learning with Post Hoc Explanations (AMPLIFY), which addresses the aforementioned challenges by automating the process of rationale generation. To this end, we leverage post hoc explanation methods which output attribution scores (explanations) capturing the influence of each of the input features on model predictions. More specifically, we construct automated natural language rationales that embed insights from post hoc explanations to provide corrective signals to LLMs. Extensive experimentation with real-world datasets demonstrates that our framework, AMPLIFY, leads to prediction accuracy improvements of about 10-25% over a wide range of tasks, including those where prior approaches which rely on human-annotated rationales such as Chain-of-Thought prompting fall short. Our work makes one of the first attempts at highlighting the potential of post hoc explanations as valuable tools for enhancing the effectiveness of LLMs. Furthermore, we conduct additional empirical analyses and ablation studies to demonstrate the impact of each of the components of AMPLIFY, which, in turn, leads to critical insights for refining in-context learning.
翻訳日:2023-12-08 18:46:18 公開日:2023-12-07
# DualGenerator:ポイントクラウドコンプリートのための情報インタラクションベースの生成ネットワーク

DualGenerator: Information Interaction-based Generative Network for Point Cloud Completion ( http://arxiv.org/abs/2305.09132v2 )

ライセンス: Link先を確認
Pengcheng Shi, Haozhe Cheng, Xu Han, Yiyang Zhou, Jihua Zhu(参考訳) ポイントクラウド完了は、高品質のポイントクラウドデータを得るために不完全なポイントクラウドから完全な形状を推定する。 既存の手法のほとんどは、隣接する点の空間的・意味的な情報を無視して、グローバルオブジェクトの特徴のみを考慮する。 異なる対象部品間で構造情報を適切に区別することはできず、モデルの堅牢性は貧弱である。 これらの課題に対処するために,ポイントクラウド補完のための情報インタラクションに基づく生成ネットワーク(\mathbf{DualGenerator}$)を提案する。 対向生成経路と変動生成経路を含み、互いに相互作用し、重みを共有する。 DualGeneratorは、生成パスにローカルリファインメントモジュールを導入し、部分的な入力から一般的な構造をキャプチャし、ポイントクラウドの形状の詳細を洗練する。 未知の領域での完成を促進し、異なる部分の区別をより明確にする。 さらに, dgstyleganの設計により, 世代品質がさらに向上する。 二重経路完了結果の融合解析と組み合わせたネットワークの堅牢性を促進する。 質的および定量的評価により,本手法はMVPおよびCompletion3Dデータセットよりも優れていることが示された。 ノイズ干渉やスパースサンプリングを加えても性能は著しく低下しない。

Point cloud completion estimates complete shapes from incomplete point clouds to obtain higher-quality point cloud data. Most existing methods only consider global object features, ignoring spatial and semantic information of adjacent points. They cannot distinguish structural information well between different object parts, and the robustness of models is poor. To tackle these challenges, we propose an information interaction-based generative network for point cloud completion ($\mathbf{DualGenerator}$). It contains an adversarial generation path and a variational generation path, which interact with each other and share weights. DualGenerator introduces a local refinement module in generation paths, which captures general structures from partial inputs, and then refines shape details of the point cloud. It promotes completion in the unknown region and makes a distinction between different parts more obvious. Moreover, we design DGStyleGAN to improve the generation quality further. It promotes the robustness of this network combined with fusion analysis of dual-path completion results. Qualitative and quantitative evaluations demonstrate that our method is superior on MVP and Completion3D datasets. The performance will not degrade significantly after adding noise interference or sparse sampling.
翻訳日:2023-12-08 18:45:49 公開日:2023-12-07
# 編集可能なステップバイステップ記述によるインタラクティブテキスト間SQL生成

Interactive Text-to-SQL Generation via Editable Step-by-Step Explanations ( http://arxiv.org/abs/2305.07372v3 )

ライセンス: Link先を確認
Yuan Tian, Zheng Zhang, Zheng Ning, Toby Jia-Jun Li, Jonathan K. Kummerfeld, Tianyi Zhang(参考訳) 関係データベースは、このビッグデータ時代において重要な役割を果たす。 しかし、SQLのようなデータベース言語に慣れていないため、非専門家がリレーショナルデータベースの分析能力を完全に解き放つことは困難である。 自然言語からSQLを自動的に生成する多くのテクニックが提案されているが、それらは2つの問題に悩まされている。(1) 依然として多くのミス、特に複雑なクエリ、(2) 非専門家のユーザが不正クエリを検証、洗練するための柔軟な方法を提供していない。 これらの問題に対処するために、ユーザがSQLエラーを修正するために、間違ったSQLのステップバイステップ説明を直接編集できる新しいインタラクションメカニズムを導入する。 スパイダーベンチマークの実験では、我々の手法は3つのSOTAアプローチを少なくとも31.6%上回っている。 24人の参加者によるユーザスタディでは、私たちのアプローチによって、より少ない時間と高い信頼性で、はるかに多くのSQLタスクを解決できることが示されています。

Relational databases play an important role in this Big Data era. However, it is challenging for non-experts to fully unleash the analytical power of relational databases, since they are not familiar with database languages such as SQL. Many techniques have been proposed to automatically generate SQL from natural language, but they suffer from two issues: (1) they still make many mistakes, particularly for complex queries, and (2) they do not provide a flexible way for non-expert users to validate and refine the incorrect queries. To address these issues, we introduce a new interaction mechanism that allows users directly edit a step-by-step explanation of an incorrect SQL to fix SQL errors. Experiments on the Spider benchmark show that our approach outperforms three SOTA approaches by at least 31.6% in terms of execution accuracy. A user study with 24 participants further shows that our approach helped users solve significantly more SQL tasks with less time and higher confidence, demonstrating its potential to expand access to databases, particularly for non-experts.
翻訳日:2023-12-08 18:45:30 公開日:2023-12-07
# 動的コンテキストグラフを用いた会話意味解析

Conversational Semantic Parsing using Dynamic Context Graphs ( http://arxiv.org/abs/2305.06164v2 )

ライセンス: Link先を確認
Parag Jain and Mirella Lapata(参考訳) 本稿では,数百万のエンティティと何千もの関係型を持つ汎用知識グラフ(KG)を用いた会話意味解析の課題について考察する。 対話履歴の文脈において、ユーザ発話を実行可能な論理形式(例えば、Sparql)にインタラクティブにマッピングできるモデルに焦点を当てる。 私たちの重要なアイデアは、発話とその文脈に関する情報を、動的に生成されたサブグラフ、すなわち発話毎にノード数が異なることを通して表現することにあります。 サブグラフをシーケンスとして扱うのではなく、基盤となる構造を利用して、グラフニューラルネットワークでエンコードすることで、多数の(目に見えない)ノードを表現できます。 実験の結果、動的コンテキストモデリングは静的アプローチよりも優れていることを示し、ボード全体にパフォーマンス改善(単純で複雑な質問)を提供する。 さらに, 文脈構造をモデル化することで, 会話情報(すなわち, ellipsis の処理やコリファレンスの解決)やより長い相互作用の処理が容易になることを確認した。

In this paper we consider the task of conversational semantic parsing over general purpose knowledge graphs (KGs) with millions of entities, and thousands of relation-types. We focus on models which are capable of interactively mapping user utterances into executable logical forms (e.g., Sparql) in the context of the conversational history. Our key idea is to represent information about an utterance and its context via a subgraph which is created dynamically, i.e., the number of nodes varies per utterance. Rather than treating the subgraph as a sequence, we exploit its underlying structure and encode it with a graph neural network which further allows us to represent a large number of (unseen) nodes. Experimental results show that dynamic context modeling is superior to static approaches, delivering performance improvements across the board (i.e., for simple and complex questions). Our results further confirm that modeling the structure of context is better at processing discourse information, (i.e., at handling ellipsis and resolving coreference) and longer interactions.
翻訳日:2023-12-08 18:45:09 公開日:2023-12-07
# HODN:HOI検出のためのヒューマンオブジェクト機能

HODN: Disentangling Human-Object Feature for HOI Detection ( http://arxiv.org/abs/2308.10158v2 )

ライセンス: Link先を確認
Shuman Fang, Zhiwen Lin, Ke Yan, Jie Li, Xianming Lin, Rongrong Ji(参考訳) 人間と物体の相互作用(hoi:human-object interaction)検出のタスクは、人間とその周囲の物体との相互作用を検出することである。 しかし、これらの方法は人間、物体、相互作用の関係を無視する。 1) 人的特徴は,対話予測に対する対象的特徴よりも帰属的である。 2)対話的情報は物体の検出を妨害するが,人間の検出を助ける。 本稿では,Human and Object Disentangling Network (HODN) を提案する。Human and Object Disentangling Network (HODN) は,Human and Object Disentangling Network (HOI) の関係を明示的にモデル化する。 人間の特徴がよりインタラクションに寄与することを考えると,人間の特徴を組み込んだ人間中心領域に対話デコーダを集中させるヒューマンガイドリンク手法を提案する。 人間と物体との相互作用の反対の影響に対処するために、相互作用勾配が物体検出の最適化を妨げ、人間の検出を最適化するストップグレードのメカニズムを提案する。 提案手法は,V-COCOデータセットとHICO-Detデータセットの競合性能を実現する。 最新の結果を得るために、既存のメソッドと簡単に組み合わせることができる。

The task of Human-Object Interaction (HOI) detection is to detect humans and their interactions with surrounding objects, where transformer-based methods show dominant advances currently. However, these methods ignore the relationship among humans, objects, and interactions: 1) human features are more contributive than object ones to interaction prediction; 2) interactive information disturbs the detection of objects but helps human detection. In this paper, we propose a Human and Object Disentangling Network (HODN) to model the HOI relationships explicitly, where humans and objects are first detected by two disentangling decoders independently and then processed by an interaction decoder. Considering that human features are more contributive to interaction, we propose a Human-Guide Linking method to make sure the interaction decoder focuses on the human-centric regions with human features as the positional embeddings. To handle the opposite influences of interactions on humans and objects, we propose a Stop-Gradient Mechanism to stop interaction gradients from optimizing the object detection but to allow them to optimize the human detection. Our proposed method achieves competitive performance on both the V-COCO and the HICO-Det datasets. It can be combined with existing methods easily for state-of-the-art results.
翻訳日:2023-12-08 18:38:46 公開日:2023-12-07
# Borealisボソンサンプリング装置のテレ増幅

Teleamplification on the Borealis boson-sampling device ( http://arxiv.org/abs/2308.05699v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg and Khabat Heshami(参考訳) 最近の遠隔増幅の理論的提案では、入力状態の遠隔増幅を行うために、フォック状態、プログラム可能な干渉計、光子数分解検出器の準備が必要である。 これらは、任意に大きなエネルギーカットオフまでのフォトニック状態のテレポーテーションおよび非雑音線形増幅を可能にする。 本稿では, この提案をBorealisに適用し, 可変増幅係数を有する圧縮真空状態の遠隔増幅を示す。 結果は理論的な予測とテレポートモードにおける増幅特性に一致し,50~93%のフィディティを示した。 このデモンストレーションは、量子通信、センシング、誤り訂正を含むノイズレス線形増幅のためのフォトニック量子コンピューティングハードウェアの継続的な開発を動機付けている。

A recent theoretical proposal for teleamplification requires preparation of Fock states, programmable interferometers, and photon-number resolving detectors to herald the teleamplification of an input state. These enable teleportation and heralded noiseless linear amplification of a photonic state up to an arbitrarily large energy cutoff. We report on adapting this proposal for Borealis and demonstrating teleamplification of squeezed-vacuum states with variable amplification factors. The results match the theoretical predictions and exhibit features of amplification in the teleported mode, with fidelities from 50 to 93%. This demonstration motivates the continued development of photonic quantum computing hardware for noiseless linear amplification's applications across quantum communication, sensing, and error correction.
翻訳日:2023-12-08 18:38:04 公開日:2023-12-07
# GEMRec:ジェネレーティブモデルレコメンデーションを目指して

GEMRec: Towards Generative Model Recommendation ( http://arxiv.org/abs/2308.02205v2 )

ライセンス: Link先を確認
Yuanhe Guo, Haoming Liu, Hongyi Wen(参考訳) Recommender Systemsは、ユーザの情報ニーズを満たすために、関連するアイテムを取得するために構築されている。 候補コーパスは通常、ビデオ、製品、記事など、提供可能なアイテムの有限セットで構成されている。 gptや拡散モデルのような最近の生成aiの進歩により、パーソナライズされたプロンプトを持つ生成モデルによってアイテムが作成される新しい形の推奨タスクはまだ検討されていない。 画像生成を例として、ユーザからの1つのプロンプトと生成モデルへのアクセスによって、数分で数百の新しい画像を生成することができる。 infinite"項目の前でパーソナライゼーションを実現するには,どうすればよいのか? 本稿では,新しいタスクの定式化にアプローチするために,Prompt-Model RetrievalとGenerated Item Rankingという2段階のフレームワークを提案する。 GEMRec-18Kは、公開可能な200の生成モデルと90のテキストプロンプトの組み合わせによって生成される18K画像とのプロンプトモデル相互作用データセットである。 本研究は,新しいパーソナライゼーション問題としての生成モデル推薦の期待と既存の評価基準の限界を示す。 RecSysコミュニティが生成レコメンデーションシステムに進むための今後の方向性を強調します。 私たちのコードとデータセットはhttps://github.com/MAPS-research/GEMRecで公開されています。

Recommender Systems are built to retrieve relevant items to satisfy users' information needs. The candidate corpus usually consists of a finite set of items that are ready to be served, such as videos, products, or articles. With recent advances in Generative AI such as GPT and Diffusion models, a new form of recommendation task is yet to be explored where items are to be created by generative models with personalized prompts. Taking image generation as an example, with a single prompt from the user and access to a generative model, it is possible to generate hundreds of new images in a few minutes. How shall we attain personalization in the presence of "infinite" items? In this preliminary study, we propose a two-stage framework, namely Prompt-Model Retrieval and Generated Item Ranking, to approach this new task formulation. We release GEMRec-18K, a prompt-model interaction dataset with 18K images generated by 200 publicly-available generative models paired with a diverse set of 90 textual prompts. Our findings demonstrate the promise of generative model recommendation as a novel personalization problem and the limitations of existing evaluation metrics. We highlight future directions for the RecSys community to advance towards generative recommender systems. Our code and dataset are available at https://github.com/MAPS-research/GEMRec.
翻訳日:2023-12-08 18:37:53 公開日:2023-12-07
# d2s: カメラ再ローカライズのためのローカルディスクリプタとグローバルシーン座標の表現

D2S: Representing local descriptors and global scene coordinates for camera relocalization ( http://arxiv.org/abs/2307.15250v2 )

ライセンス: Link先を確認
Bach-Thuan Bui, Dinh-Tuan Tran, and Joo-Ho Lee(参考訳) 最先端のビジュアルローカライズ手法は主に、ローカルディスクリプタと3dポイントクラウドにマッチする複雑な手順に依存している。 しかし、これらの手順は時間とともに推論、ストレージ、更新の点でかなりのコストを発生させる可能性がある。 本研究では,ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを用いた直接学習型アプローチを提案する。 この手法は単純さとコスト効率が特徴である。 テストフェーズ中にローカライズするために単一のrgbイメージのみを利用し、複雑なスパースシーンをエンコードする軽量モデルのみを必要とする。 提案したD2Sは、単純な損失関数とグラフアテンションを組み合わせて、雲や木、いくつかの動的オブジェクトなどの領域を無視しながら、堅牢な記述子に選択的にフォーカスする。 この選択的な注意により、D2Sはスパースディスクリプタのバイナリ・セマンティック分類を効果的に行うことができる。 さらに,景観の一般化とラベルなし観察からの自己回復の観点から,視覚局所化手法の能力を評価するための新しい屋外データセットを提案する。 本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。 ラベル付きデータソースがなくても、昼から夜への移行やドメインシフトへの適応といったシナリオを含む、トレーニングデータを超えて一般化する能力を示している。 ソースコード、トレーニングされたモデル、データセット、デモビデオは以下のリンクで利用可能である。

State-of-the-art visual localization methods mostly rely on complex procedures to match local descriptors and 3D point clouds. However, these procedures can incur significant cost in terms of inference, storage, and updates over time. In this study, we propose a direct learning-based approach that utilizes a simple network named D2S to represent local descriptors and their scene coordinates. Our method is characterized by its simplicity and cost-effectiveness. It solely leverages a single RGB image for localization during the testing phase and only requires a lightweight model to encode a complex sparse scene. The proposed D2S employs a combination of a simple loss function and graph attention to selectively focus on robust descriptors while disregarding areas such as clouds, trees, and several dynamic objects. This selective attention enables D2S to effectively perform a binary-semantic classification for sparse descriptors. Additionally, we propose a new outdoor dataset to evaluate the capabilities of visual localization methods in terms of scene generalization and self-updating from unlabeled observations. Our approach outperforms the state-of-the-art CNN-based methods in scene coordinate regression in indoor and outdoor environments. It demonstrates the ability to generalize beyond training data, including scenarios involving transitions from day to night and adapting to domain shifts, even in the absence of the labeled data sources. The source code, trained models, dataset, and demo videos are available at the following link: https://thpjp.github.io/d2s
翻訳日:2023-12-08 18:37:31 公開日:2023-12-07
# 単純グラフに対する最大傾きの最大数を計算する

Calculating the maximum number of maximum cliques for simple graphs ( http://arxiv.org/abs/2307.14120v3 )

ライセンス: Link先を確認
D\'aniel Pfeifer(参考訳) n$頂点上の単純なグラフは、多くの最大傾きを含むことができる。 しかし、その数はどれくらいあるのか? 素グラフと合成グラフを定義して、$n \ge 15$ ならば、最大クリムの最大数のグラーパは合成されなければならないことを示す。 さらに、合成グラフの任意の因子が $\omega(G_i) \ge 5$ を持つならば、最大クリッド数の最大値が得られないことを証明するエッジ境界を示す。 これを用いて、$3^{\lfloor n/3 \rfloor}c$maxum cliques を含むグラフは、$n$ vertices 上で最も多くの最大cliques を持ち、$c\in\{1,\frac{4}{3},2\}$ は$n \text{ mod } 3$ に依存する。

A simple graph on $n$ vertices may contain a lot of maximum cliques. But how many can it potentially contain? We will define prime and composite graphs, and we will show that if $n \ge 15$, then the grpahs with the maximum number of maximum cliques have to be composite. Moreover, we will show an edge bound from which we will prove that if any factor of a composite graph has $\omega(G_i) \ge 5$, then it cannot have the maximum number of maximum cliques. Using this we will show that the graph that contains $3^{\lfloor n/3 \rfloor}c$ maximum cliques has the most number of maximum cliques on $n$ vertices, where $c\in\{1,\frac{4}{3},2\}$, depending on $n \text{ mod } 3$.
翻訳日:2023-12-08 18:37:09 公開日:2023-12-07
# 低域重み行列を用いた一層自己注意型変圧器はユニバーサル近似器か?

Are Transformers with One Layer Self-Attention Using Low-Rank Weight Matrices Universal Approximators? ( http://arxiv.org/abs/2307.14023v2 )

ライセンス: Link先を確認
Tokio Kajitsuka and Issei Sato(参考訳) 変圧器モデルの表現能力の既存の分析では、データの記憶に過度に深い層を必要とするため、実際に実際に使用される変圧器との相違が生じている。 これは主にハードマックス関数の近似としてのソフトマックス関数の解釈によるものである。 ソフトマックス関数とボルツマン作用素の接続を明確化することにより、低ランク重み行列を持つ単層が入力列全体の文脈を完全に捉える能力を有することを証明した。 その結果, 単層トランスフォーマーと単頭トランスフォーマーは有限標本の記憶能力を有し, 2つのフィードフォワードニューラルネットワークを持つ1つの自己アテンション層からなるトランスフォーマーは, コンパクト領域上の連続置換同変関数の普遍近似器であることがわかった。

Existing analyses of the expressive capacity of Transformer models have required excessively deep layers for data memorization, leading to a discrepancy with the Transformers actually used in practice. This is primarily due to the interpretation of the softmax function as an approximation of the hardmax function. By clarifying the connection between the softmax function and the Boltzmann operator, we prove that a single layer of self-attention with low-rank weight matrices possesses the capability to perfectly capture the context of an entire input sequence. As a consequence, we show that one-layer and single-head Transformers have a memorization capacity for finite samples, and that Transformers consisting of one self-attention layer with two feed-forward neural networks are universal approximators for continuous permutation equivariant functions on a compact domain.
翻訳日:2023-12-08 18:36:52 公開日:2023-12-07
# PAPR: 近視的注意ポイントレンダリング

PAPR: Proximity Attention Point Rendering ( http://arxiv.org/abs/2307.11086v2 )

ライセンス: Link先を確認
Yanshu Zhang, Shichong Peng, Alireza Moazeni, Ke Li(参考訳) スクラッチからシーン表面の正確で控えめなポイントクラウド表現を学ぶことは、3d表現学習の課題である。 既存のポイントベース手法は、しばしば消失する勾配問題や、シーンの幾何学やテクスチャを正確にモデル化するために多くのポイントを必要とする。 これらの制約に対処するため,我々は,ポイントベースのシーン表現と微分可能なレンダラからなる新しい手法である近接注意ポイントレンダリング(papr)を提案する。 我々のシーン表現は、各点が空間的位置、影響スコア、ビュー非依存の特徴ベクトルによって特徴づけられる点雲を使用する。 レンダラは、各光線に関する関連点を選択し、関連する特徴を用いて正確な色を生成する。 PAPRは、初期化がターゲットの幾何学と大きく異なる場合でも、適切なシーン幾何学を表現するために点雲の位置を効果的に学習する。 特に,本手法では,相似点のみを用いて微細なテクスチャの詳細を抽出する。 また,ゼロショット幾何編集,オブジェクト操作,テクスチャ転送,露出制御という4つの実用的な応用例を示す。 さらなる結果とコードは、プロジェクトのwebサイトhttps://zvict.github.io/papr/で閲覧できます。

Learning accurate and parsimonious point cloud representations of scene surfaces from scratch remains a challenge in 3D representation learning. Existing point-based methods often suffer from the vanishing gradient problem or require a large number of points to accurately model scene geometry and texture. To address these limitations, we propose Proximity Attention Point Rendering (PAPR), a novel method that consists of a point-based scene representation and a differentiable renderer. Our scene representation uses a point cloud where each point is characterized by its spatial position, influence score, and view-independent feature vector. The renderer selects the relevant points for each ray and produces accurate colours using their associated features. PAPR effectively learns point cloud positions to represent the correct scene geometry, even when the initialization drastically differs from the target geometry. Notably, our method captures fine texture details while using only a parsimonious set of points. We also demonstrate four practical applications of our method: zero-shot geometry editing, object manipulation, texture transfer, and exposure control. More results and code are available on our project website at https://zvict.github.io/papr/.
翻訳日:2023-12-08 18:36:36 公開日:2023-12-07
# ノイズ量子コンピュータ上でのサイクル離散時間量子ウォーク

Cycle discrete-time quantum walks on a noisy quantum computer ( http://arxiv.org/abs/2307.11027v2 )

ライセンス: Link先を確認
Vivek Wadhia, Nicholas Chancellor and Viv Kendon(参考訳) 量子コンピューティングの急速な発展により、様々なアプリケーションに対する量子アルゴリズムへの関心が高まっている。 量子ウォークは、量子アルゴリズムでの使用の可能性から、関心の高まりも経験している。 qiskitソフトウェアパッケージを使用して、ibmが提供する量子コンピュータの現在の世代がいかに正確にサイクル離散時間量子ウォークをシミュレートできるかをテストする。 ibmq_quitoとして知られるIBM量子デバイス上で、8ノード、8ステップウォーク、より単純な4ノード、4ステップの離散時間量子ウォークを実装し、各ウォークの各ステップに対する結果を示す。 ibmq_santiago量子デバイスのノイズレベルを少なくとも94%削減し、16ノード、16ステップサイクルの離散時間量子ウォークを適度な忠実度レベルにするために、カスタムノイズモデルを開発した。

The rapid development of quantum computing has led to increasing interest in quantum algorithms for a variety of different applications. Quantum walks have also experienced a surge in interest due to their potential use in quantum algorithms. Using the qiskit software package, we test how accurately the current generation of quantum computers provided by IBM can simulate a cycle discrete-time quantum walk. Implementing an 8-node, 8-step walk and a simpler 4-node, 4-step discrete-time quantum walk on an IBM quantum device known as ibmq_quito, the results for each step of the respective walks are presented. A custom noise model is developed in order to estimate that noise levels in the ibmq_santiago quantum device would need to be reduced by at least 94% in order to execute a 16-node, 16-step cycle discrete-time quantum walk to a reasonable level of fidelity.
翻訳日:2023-12-08 18:36:17 公開日:2023-12-07
# 勾配変動を伴うユニバーサルオンライン学習:多層オンラインアンサンブルアプローチ

Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach ( http://arxiv.org/abs/2307.08360v2 )

ライセンス: Link先を確認
Yu-Hu Yan, Peng Zhao, Zhi-Hua Zhou(参考訳) 本稿では,2つの異なる適応レベルを持つオンライン凸最適化手法を提案する。 高いレベルでは、我々のアプローチは、オンライン機能の未知の種類や曲率に依存しないが、低いレベルでは、未知の環境の良さを生かし、問題に依存した保証を得ることができる。 具体的には、$\mathcal{O}(\log V_T)$, $\mathcal{O}(d \log V_T)$ and $\widehat{\mathcal{O}}(\sqrt{V_T})$ regret bounds for strong convex, exp-concave and convex loss function, where $d$ is the dimension, $V_T$ describess problem-dependent gradient variation and $\widehat{\mathcal{O}}(\cdot)$-notation omits $\log V_T$ factor。 私たちの結果は、最悪のケースの保証を守るだけでなく、分析の小さな損失の境界を直接含みます。 さらに,逆/確率凸最適化やゲーム理論問題に適用すると,既存の普遍的保証が向上する。 提案手法は, 多様な機能種別を統一するための最適化や, アルゴリズム安定性のためのカスケード補正など, 斬新な要素を取り入れた多層オンラインアンサンブルフレームワークをベースとした。 特に,多層構造であるにもかかわらず,本アルゴリズムでは1ラウンドあたり1つの勾配クエリしか必要とせず,勾配評価に時間を要する場合に有利である。 これは注意深く設計されたサロゲート損失を伴う新しい後悔分解によって促進される。

In this paper, we propose an online convex optimization approach with two different levels of adaptivity. On a higher level, our approach is agnostic to the unknown types and curvatures of the online functions, while at a lower level, it can exploit the unknown niceness of the environments and attain problem-dependent guarantees. Specifically, we obtain $\mathcal{O}(\log V_T)$, $\mathcal{O}(d \log V_T)$ and $\widehat{\mathcal{O}}(\sqrt{V_T})$ regret bounds for strongly convex, exp-concave and convex loss functions, respectively, where $d$ is the dimension, $V_T$ denotes problem-dependent gradient variations and the $\widehat{\mathcal{O}}(\cdot)$-notation omits $\log V_T$ factors. Our result not only safeguards the worst-case guarantees but also directly implies the small-loss bounds in analysis. Moreover, when applied to adversarial/stochastic convex optimization and game theory problems, our result enhances the existing universal guarantees. Our approach is based on a multi-layer online ensemble framework incorporating novel ingredients, including a carefully designed optimism for unifying diverse function types and cascaded corrections for algorithmic stability. Notably, despite its multi-layer structure, our algorithm necessitates only one gradient query per round, making it favorable when the gradient evaluation is time-consuming. This is facilitated by a novel regret decomposition with carefully designed surrogate losses.
翻訳日:2023-12-08 18:35:34 公開日:2023-12-07
# パラメータ化量子回路におけるバックプロパゲーションスケーリング

Backpropagation scaling in parameterised quantum circuits ( http://arxiv.org/abs/2306.14962v2 )

ライセンス: Link先を確認
Joseph Bowles, David Wierichs, Chae-Yeun Park(参考訳) バックプロパゲーションアルゴリズムの発見は、機械学習の歴史において最も重要な瞬間の1つであり、モデル評価とほぼ同等の計算コストで勾配を計算する能力を通じて、大規模ニューラルネットワークのトレーニングを可能にした。 その重要性にもかかわらず、パラメータ化量子回路の勾配評価のための同様のバックプロパゲーションのようなスケーリングは、いまだ解明されていない。 現在最も一般的な方法は、回路パラメータの数に応じてスケールする多数の回路からのサンプリングを必要としており、大規模な量子回路のトレーニングは事実上高価である。 ここでは、古典的同調性が知られていない構造化回路のクラスを導入することでこの問題に対処し、より少ない回路で勾配推定を行う。 最も単純な場合 -- パラメータが可換量子ゲートに供給される -- では、これらの回路は勾配、高次部分微分、フィッシャー情報行列の高速推定を可能にする。 さらに、パラメータ化回路の特定の族は、勾配推定のスケーリングが古典的なバックプロパゲーションと一致しており、スケールで訓練することができる。 16量子ビットのトイ分類問題において、そのような回路は他の方法と競合する性能を示し、トレーニングコストを約2桁削減する。

The discovery of the backpropagation algorithm ranks among one of the most important moments in the history of machine learning, and has made possible the training of large-scale neural networks through its ability to compute gradients at roughly the same computational cost as model evaluation. Despite its importance, a similar backpropagation-like scaling for gradient evaluation of parameterised quantum circuits has remained elusive. Currently, the most popular method requires sampling from a number of circuits that scales with the number of circuit parameters, making training of large-scale quantum circuits prohibitively expensive in practice. Here we address this problem by introducing a class of structured circuits that are not known to be classically simulable and admit gradient estimation with significantly fewer circuits. In the simplest case -- for which the parameters feed into commuting quantum gates -- these circuits allow for fast estimation of the gradient, higher order partial derivatives and the Fisher information matrix. Moreover, specific families of parameterised circuits exist for which the scaling of gradient estimation is in line with classical backpropagation, and can thus be trained at scale. In a toy classification problem on 16 qubits, such circuits show competitive performance with other methods, while reducing the training cost by about two orders of magnitude.
翻訳日:2023-12-08 18:34:54 公開日:2023-12-07
# XAI-TRIS:偽陽性ポストホック属性の定量化のための非線形画像ベンチマーク

XAI-TRIS: Non-linear image benchmarks to quantify false positive post-hoc attribution of feature importance ( http://arxiv.org/abs/2306.12816v2 )

ライセンス: Link先を確認
Benedict Clark, Rick Wilming, Stefan Haufe(参考訳) 説明可能な」人工知能(xai)の分野は、複雑な機械学習(ml)手法を人間に「理解可能」な方法で決定しようとする非常に引用された手法を生み出している。 しかし、形式的な基盤の欠如は、与えられたXAI法の結果からどの結論を安全に導き出すことができるかについては明らかではなく、XAI法の理論的検証と実証的検証を妨げている。 これは、一般的にディープニューラルネットワークによって解決される非線形問題に挑戦するが、現在は適切な対策を欠いていることを意味する。 本稿では,重要なクラス条件特徴を設計によって把握し,基礎的真理説明として機能する,3つの異なる非線形分類シナリオのためのベンチマークデータセットを作成する。 新たな定量的指標を用いて,3つのディープラーニングモデルアーキテクチャにまたがる広範囲なXAI手法の説明性能をベンチマークした。 我々は,一般的なXAI手法が,ランダムな性能基準やエッジ検出方法よりも著しく優れていることを示す。 さらに,異なるモデルアーキテクチャから派生した説明は,制御条件下でも誤解釈しがちであることを示す。

The field of 'explainable' artificial intelligence (XAI) has produced highly cited methods that seek to make the decisions of complex machine learning (ML) methods 'understandable' to humans, for example by attributing 'importance' scores to input features. Yet, a lack of formal underpinning leaves it unclear as to what conclusions can safely be drawn from the results of a given XAI method and has also so far hindered the theoretical verification and empirical validation of XAI methods. This means that challenging non-linear problems, typically solved by deep neural networks, presently lack appropriate remedies. Here, we craft benchmark datasets for three different non-linear classification scenarios, in which the important class-conditional features are known by design, serving as ground truth explanations. Using novel quantitative metrics, we benchmark the explanation performance of a wide set of XAI methods across three deep learning model architectures. We show that popular XAI methods are often unable to significantly outperform random performance baselines and edge detection methods. Moreover, we demonstrate that explanations derived from different model architectures can be vastly different; thus, prone to misinterpretation even under controlled conditions.
翻訳日:2023-12-08 18:34:33 公開日:2023-12-07
# 医療用AIモデルのドメイン転送におけるプライバシ保護は、パフォーマンスコストを伴わない:差分プライバシーの不可欠な役割

Preserving privacy in domain transfer of medical AI models comes at no performance costs: The integral role of differential privacy ( http://arxiv.org/abs/2306.06503v2 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Mahshad Lotfinia, Teresa Nolte, Marwin Saehn, Peter Isfort, Christiane Kuhl, Sven Nebelung, Georgios Kaissis, Daniel Truhn(参考訳) 医療で堅牢で効果的な人工知能(AI)モデルを開発するには、大量の患者データにアクセスする必要がある。 大規模なマルチ機関データセットにのみトレーニングされたAIモデルを使用することは、これに役立つが、データプライバシを確実に維持するための必須条件は、特に患者の機密性を侵害する会員推測のリスクである。 提案する治療法として,差分プライバシー(DP)の統合を提唱する。 本稿では, DPを使わずにトレーニングしたモデルに対して, トレーニング中に学習したモデル(外的検証など)の性能について, DPを使わずにトレーニングしたモデルと比較し, 臨床応用の反映となる状況について検討する。 5施設の590,000以上の胸部X線写真を用いて, 心肥大, 胸水, 肺炎, 心電図, 健常者の診断におけるDP-DTの有用性を検討した。 dp-dtと非dp-dtを併用し, 主指標としてレシーバー動作特性曲線(auc)下の領域, 精度, 感度, 特異性を用いて, 診断精度, 統計学的公平性を検討した。 その結果,DP-DTは極めて高いプライバシレベル(esilon around 1)であっても,非DP-DT(P>0.119)と同等に機能することがわかった。 さらに,DP-DTは非DP-DTと比較してほぼすべてのサブグループに対して,AUCの差が1%未満であった。 DPモデルがオンドメインアプリケーションに顕著な性能低下をもたらすという一貫した証拠にもかかわらず、オフドメインの性能はほとんど影響しないことを示す。 したがって、パフォーマンスへの影響を最小限に抑えながら、診断医療aiモデルのトレーニングにおけるdpの採用を熱心に提唱する。

Developing robust and effective artificial intelligence (AI) models in medicine requires access to large amounts of patient data. The use of AI models solely trained on large multi-institutional datasets can help with this, yet the imperative to ensure data privacy remains, particularly as membership inference risks breaching patient confidentiality. As a proposed remedy, we advocate for the integration of differential privacy (DP). We specifically investigate the performance of models trained with DP as compared to models trained without DP on data from institutions that the model had not seen during its training (i.e., external validation) - the situation that is reflective of the clinical use of AI models. By leveraging more than 590,000 chest radiographs from five institutions, we evaluated the efficacy of DP-enhanced domain transfer (DP-DT) in diagnosing cardiomegaly, pleural effusion, pneumonia, atelectasis, and in identifying healthy subjects. We juxtaposed DP-DT with non-DP-DT and examined diagnostic accuracy and demographic fairness using the area under the receiver operating characteristic curve (AUC) as the main metric, as well as accuracy, sensitivity, and specificity. Our results show that DP-DT, even with exceptionally high privacy levels (epsilon around 1), performs comparably to non-DP-DT (P>0.119 across all domains). Furthermore, DP-DT led to marginal AUC differences - less than 1% - for nearly all subgroups, relative to non-DP-DT. Despite consistent evidence suggesting that DP models induce significant performance degradation for on-domain applications, we show that off-domain performance is almost not affected. Therefore, we ardently advocate for the adoption of DP in training diagnostic medical AI models, given its minimal impact on performance.
翻訳日:2023-12-08 18:34:12 公開日:2023-12-07
# 正規微分方程式に対するデータ適応確率的近似

Data-Adaptive Probabilistic Likelihood Approximation for Ordinary Differential Equations ( http://arxiv.org/abs/2306.05566v2 )

ライセンス: Link先を確認
Mohan Wu and Martin Lysy(参考訳) 常微分方程式(ODE)のパラメータを推定することは、多くの科学的応用において基本的な重要性である。 ODEは一般に決定論的アルゴリズムで近似されるが、確率論的解法に関する新しい研究は、数値誤差をうまく考慮してより信頼性の高いパラメータ推定を行うことを示している。 しかし、多くのODEシステムはパラメータ値に非常に敏感である。 これにより、確率関数の深い局所最大値が生成され、これは既存の確率的解法がまだ解決していない問題である。 本稿では,データ適応方式でノイズの多いODE測定から学習することで,パラメータ感度を劇的に低減できる新しい確率的ODE近似,DALTONを提案する。 我々の近似はODE変数と時間離散化点の両方で線形にスケールし、部分的に観測されていない成分と非ガウス測度モデルの両方を持つODEに適用できる。 いくつかの例は、ダルトンが既存の確率的odeソルバよりも数値最適化によってより正確なパラメータ推定を生成することを証明している。

Estimating the parameters of ordinary differential equations (ODEs) is of fundamental importance in many scientific applications. While ODEs are typically approximated with deterministic algorithms, new research on probabilistic solvers indicates that they produce more reliable parameter estimates by better accounting for numerical errors. However, many ODE systems are highly sensitive to their parameter values. This produces deep local maxima in the likelihood function -- a problem which existing probabilistic solvers have yet to resolve. Here we present a novel probabilistic ODE likelihood approximation, DALTON, which can dramatically reduce parameter sensitivity by learning from noisy ODE measurements in a data-adaptive manner. Our approximation scales linearly in both ODE variables and time discretization points, and is applicable to ODEs with both partially-unobserved components and non-Gaussian measurement models. Several examples demonstrate that DALTON produces more accurate parameter estimates via numerical optimization than existing probabilistic ODE solvers, and even in some cases than the exact ODE likelihood itself.
翻訳日:2023-12-08 18:33:35 公開日:2023-12-07
# ビッグデータのためのK平均の最適化:比較研究

Optimizing K-means for Big Data: A Comparative Study ( http://arxiv.org/abs/2310.09819v2 )

ライセンス: Link先を確認
Ravil Mussabayev, Rustam Mussabayev(参考訳) 本稿では,ビッグデータの文脈におけるk-meansアルゴリズムの最適化手法の比較分析を行う。 k-meansは広く使用されているクラスタリングアルゴリズムだが、大規模なデータセットを扱う場合、スケーラビリティの問題に苦しむ可能性がある。 この論文は、並列化、近似、サンプリング法など、これらの問題を克服するための様々なアプローチを探求する。 筆者らは,様々なベンチマークデータセットにおけるこれらの手法の性能を評価し,lima支配基準に従って,速度,クラスタリングの質,スケーラビリティの観点から比較した。 その結果、異なる手法がデータセットの異なるタイプに適していることが示され、ビッグデータのK平均クラスタリングにおける速度と精度のトレードオフに関する洞察を提供する。 全体として、この論文は、ビッグデータアプリケーションにK平均をどのように最適化するかについて、実践者や研究者に包括的なガイドを提供する。

This paper presents a comparative analysis of different optimization techniques for the K-means algorithm in the context of big data. K-means is a widely used clustering algorithm, but it can suffer from scalability issues when dealing with large datasets. The paper explores different approaches to overcome these issues, including parallelization, approximation, and sampling methods. The authors evaluate the performance of these techniques on various benchmark datasets and compare them in terms of speed, quality of clustering, and scalability according to the LIMA dominance criterion. The results show that different techniques are more suitable for different types of datasets and provide insights into the trade-offs between speed and accuracy in K-means clustering for big data. Overall, the paper offers a comprehensive guide for practitioners and researchers on how to optimize K-means for big data applications.
翻訳日:2023-12-08 18:26:53 公開日:2023-12-07
# リアルタイム動的シーンレンダリングのための4次元ガウススプレーティング

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering ( http://arxiv.org/abs/2310.08528v2 )

ライセンス: Link先を確認
Guanjun Wu and Taoran Yi and Jiemin Fang and Lingxi Xie and Xiaopeng Zhang and Wei Wei and Wenyu Liu and Qi Tian and Xinggang Wang(参考訳) 動的シーンの表現とレンダリングは重要だが、難しい作業だった。 特に、複雑な動きを正確にモデル化するには、高い効率性を保証するのは難しい。 リアルタイムな動的シーンレンダリングを実現するために,各フレームに3D-GSを適用するのではなく,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。 4d-gsでは、3次元ガウスと4次元ニューラルボクセルの両方を含む新しい明示表現が提案されている。 hexplaneにインスパイアされた分解型ニューラルボクセル符号化アルゴリズムを提案し、4次元ニューラルボクセルからガウス的特徴を効率的に構築し、新しいタイムスタンプでガウス的変形を予測するために軽量mlpを適用する。 われわれの4D-GS法は,RTX 3090 GPUの800$\times$800の解像度で82 FPSの高解像度でリアルタイムレンダリングを実現する。 デモとコードはhttps://guanjunwu.github.io/4dgs/。

Representing and rendering dynamic scenes has been an important but challenging task. Especially, to accurately model complex motions, high efficiency is usually hard to guarantee. To achieve real-time dynamic scene rendering while also enjoying high training and storage efficiency, we propose 4D Gaussian Splatting (4D-GS) as a holistic representation for dynamic scenes rather than applying 3D-GS for each individual frame. In 4D-GS, a novel explicit representation containing both 3D Gaussians and 4D neural voxels is proposed. A decomposed neural voxel encoding algorithm inspired by HexPlane is proposed to efficiently build Gaussian features from 4D neural voxels and then a lightweight MLP is applied to predict Gaussian deformations at novel timestamps. Our 4D-GS method achieves real-time rendering under high resolutions, 82 FPS at an 800$\times$800 resolution on an RTX 3090 GPU while maintaining comparable or better quality than previous state-of-the-art methods. More demos and code are available at https://guanjunwu.github.io/4dgs/.
翻訳日:2023-12-08 18:26:41 公開日:2023-12-07
# VQAのためのLVLMのアンサンブル方法

How (not) to ensemble LVLMs for VQA ( http://arxiv.org/abs/2310.06641v2 )

ライセンス: Link先を確認
Lisa Alazraki, Lluis Castrejon, Mostafa Dehghani, Fantine Huot, Jasper Uijlings, Thomas Mensink(参考訳) 本稿では,LVLM(Large Vision-Language Models)時代のエンハンブルについて述べる。 ensemblingは、さまざまなモデルを組み合わせてパフォーマンスを向上させる古典的な方法だ。 著者らは最近の百科事典-vqaの研究において、バニラlvlmsから追加の文脈としてキャプションを含むモデル、wikipediaページをレンズベースで検索するモデルまで、様々なモデルを調査した。 直感的にはこれらのモデルは極めて相補的であり、センシングに理想的である。 実際、oracleの実験では、48.8%の精度(最高のシングルモデル)から67%(最高のアンサンブル)までの潜在的な利益が示されている。 つまり、実質的な利益をもたらすアンサンブルを作るのは簡単な運動です。 それとも?

This paper studies ensembling in the era of Large Vision-Language Models (LVLMs). Ensembling is a classical method to combine different models to get increased performance. In the recent work on Encyclopedic-VQA the authors examine a wide variety of models to solve their task: from vanilla LVLMs, to models including the caption as extra context, to models augmented with Lens-based retrieval of Wikipedia pages. Intuitively these models are highly complementary, which should make them ideal for ensembling. Indeed, an oracle experiment shows potential gains from 48.8% accuracy (the best single model) all the way up to 67% (best possible ensemble). So it is a trivial exercise to create an ensemble with substantial real gains. Or is it?
翻訳日:2023-12-08 18:26:09 公開日:2023-12-07
# アライメントを評価するための生成的裁判官

Generative Judge for Evaluating Alignment ( http://arxiv.org/abs/2310.05470v2 )

ライセンス: Link先を確認
Junlong Li, Shichao Sun, Weizhe Yuan, Run-Ze Fan, Hai Zhao, Pengfei Liu(参考訳) 大規模言語モデル(llms)の急速な開発は、彼らが対処できるタスクの範囲を大きく広げた。 自然言語処理(NLP)の分野では、研究者は従来のNLPタスク(例えば、シーケンスタグ付けや解析)から、人間の要求に沿ったタスク(例えば、ブレインストーミングや電子メールの書き込み)へと焦点を移した。 このタスク分散の変化は、汎用性(さまざまなシナリオにおけるパフォーマンス評価)、柔軟性(異なるプロトコル下での検証)、解釈可能性(説明付きモデルの精査)に関するこれらの整合モデルを評価する上で、新たな要件を課す。 本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。 本モデルは,大規模な実世界シナリオ下でユーザクエリとllm生成応答を訓練し,構造化された自然言語批判に対して,多様な評価プロトコル(ペアワイズ応答比較や単一応答評価など)を適応させる。 提案手法の有効性を示すため,58のシナリオをカバーする新しいテストベッドを構築した。 実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力な競争相手をはるかに上回っている。 また,本手法の可能性を明らかにするための詳細な分析とケーススタディをhttps://github.com/GAIR-NLP/auto-j.で公開しています。

The rapid development of Large Language Models (LLMs) has substantially expanded the range of tasks they can address. In the field of Natural Language Processing (NLP), researchers have shifted their focus from conventional NLP tasks (e.g., sequence tagging and parsing) towards tasks that revolve around aligning with human needs (e.g., brainstorming and email writing). This shift in task distribution imposes new requirements on evaluating these aligned models regarding generality (i.e., assessing performance across diverse scenarios), flexibility (i.e., examining under different protocols), and interpretability (i.e., scrutinizing models with explanations). In this paper, we propose a generative judge with 13B parameters, Auto-J, designed to address these challenges. Our model is trained on user queries and LLM-generated responses under massive real-world scenarios and accommodates diverse evaluation protocols (e.g., pairwise response comparison and single-response evaluation) with well-structured natural language critiques. To demonstrate the efficacy of our approach, we construct a new testbed covering 58 different scenarios. Experimentally, Auto-J outperforms a series of strong competitors, including both open-source and closed-source models, by a large margin. We also provide detailed analysis and case studies to further reveal the potential of our method and make a variety of resources public at https://github.com/GAIR-NLP/auto-j.
翻訳日:2023-12-08 18:25:57 公開日:2023-12-07
# 共感応答生成のための大規模言語モデルのパワー活用--実証的研究と改善

Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements ( http://arxiv.org/abs/2310.05140v3 )

ライセンス: Link先を確認
Yushan Qian, Wei-Nan Zhang, Ting Liu(参考訳) 共感的対話は、調和した社会的関係を構築するのに必要な部分であり、有用なAIの開発に寄与する。 従来のアプローチは主に小さな言語モデルに基づいていた。 ChatGPTの出現により、この分野における大規模言語モデル(LLM)の適用効果に大きな注目を集めている。 本研究は,共感応答生成におけるllmの性能を実証的に検討し,意味的に類似する文脈内学習,2段階対話生成,知識ベースとの組合せによる3つの改善手法を提案する。 大規模な実験により, LLM は提案手法の利点を大いに生かし, 自動評価と人的評価の両面で最先端の性能を達成することができることがわかった。 また,GPT-4によるヒト評価の可能性についても検討した。

Empathetic dialogue is an indispensable part of building harmonious social relationships and contributes to the development of a helpful AI. Previous approaches are mainly based on fine small-scale language models. With the advent of ChatGPT, the application effect of large language models (LLMs) in this field has attracted great attention. This work empirically investigates the performance of LLMs in generating empathetic responses and proposes three improvement methods of semantically similar in-context learning, two-stage interactive generation, and combination with the knowledge base. Extensive experiments show that LLMs can significantly benefit from our proposed methods and is able to achieve state-of-the-art performance in both automatic and human evaluations. Additionally, we explore the possibility of GPT-4 simulating human evaluators.
翻訳日:2023-12-08 18:25:28 公開日:2023-12-07
# LIPExのローカライズされた確率的説明

LIPEx-Locally Interpretable Probabilistic Explanations-To Look Beyond The True Class ( http://arxiv.org/abs/2310.04856v2 )

ライセンス: Link先を確認
Hongbo Zhu, Angelo Cangelosi, Procheta Sen and Anirbit Mukherjee(参考訳) 本研究では,新しい摂動に基づく多クラス説明フレームワーク LIPEx (Locally Interpretable Probabilistic Explanation) をインスタンス化する。 我々は、LIPExが広く使われている複雑な分類モデルによって出力される確率分布を局所的に複製するだけでなく、全ての特徴がどのクラスに対して重要と考えられるかの知見を提供する。 確率分布の空間におけるヘルリンガー距離に対する回帰によって得られる行列として説明を定義することでこれを実現できる。 テキストと画像データに対するアブレーションテストは、LIPExがデータから重要な特徴を取り除いたことにより、他のサリエンシベースや特徴量ベースの説明可能なAI(XAI)メソッドに基づく同様のテストよりも、基礎となるモデルの予測がより大きく変化することを示している。 また、LIMEと比較して、LIPExは信頼性のある説明を得るためにデータの摂動が少ないという点でよりデータ効率が高いことが示されている。 このデータ効率は、テキストデータを用いた分類実験において、LIPExがその説明行列を全クラス LIME よりも約53%高速に計算できることを示している。

In this work, we instantiate a novel perturbation-based multi-class explanation framework, LIPEx (Locally Interpretable Probabilistic Explanation). We demonstrate that LIPEx not only locally replicates the probability distributions output by the widely used complex classification models but also provides insight into how every feature deemed to be important affects the prediction probability for each of the possible classes. We achieve this by defining the explanation as a matrix obtained via regression with respect to the Hellinger distance in the space of probability distributions. Ablation tests on text and image data, show that LIPEx-guided removal of important features from the data causes more change in predictions for the underlying model than similar tests based on other saliency-based or feature importance-based Explainable AI (XAI) methods. It is also shown that compared to LIME, LIPEx is more data efficient in terms of using a lesser number of perturbations of the data to obtain a reliable explanation. This data-efficiency is seen to manifest as LIPEx being able to compute its explanation matrix around 53% faster than all-class LIME, for classification experiments with text data.
翻訳日:2023-12-08 18:25:14 公開日:2023-12-07
# UPAR: 大規模言語モデル機能向上のためのカンチアンインスパイアされたプロンプトフレームワーク

UPAR: A Kantian-Inspired Prompting Framework for Enhancing Large Language Model Capabilities ( http://arxiv.org/abs/2310.01441v2 )

ライセンス: Link先を確認
Hejia Geng, Boxun Xu, Peng Li(参考訳) 大規模言語モデル (LLM) は、その能力向上に多くの研究努力が費やされ、目覚ましい推論能力を示している。 これらの努力にもかかわらず、統一された認識論的基盤は依然として顕著に欠落している。 カントの先駆的哲学からインスピレーションを得て,LLM内の人間の認知構造をエミュレートするUPARプロンプトフレームワークを提案する。 uparフレームワークは、"understand"、"plan"、"act"、"reflect"の4つのフェーズに分けられ、複雑なコンテキストから構造化された情報を抽出することを可能にする。 この構造は、LLM推論の説明可能性と精度を大幅に向上させ、人間の理解可能で検査可能な推論軌道を生成する。 さらに,本研究は既存のプロンプト技術に対する認識論的基盤を提供し,これらの手法の体系的な統合を可能にする。 GPT-4では、GSM8Kの挑戦的なサブセットではCOTベースラインが22.92%から58.33%、因果判定タスクでは67.91%から75.40%まで精度が向上する。 少数のサンプルや外部ツールを使用せずに、uparは、大学レベルの数学、化学、物理学の科学的問題を含む挑戦的なデータセットであるscibenchの既存のプロンプトメソッドを大幅に上回っている。

Large Language Models (LLMs) have demonstrated impressive inferential capabilities, with numerous research endeavors devoted to enhancing this capacity through prompting. Despite these efforts, a unified epistemological foundation is still conspicuously absent. Drawing inspiration from Kant's a priori philosophy, we propose the UPAR prompting framework, designed to emulate the structure of human cognition within LLMs. The UPAR framework is delineated into four phases: "Understand", "Plan", "Act", and "Reflect", enabling the extraction of structured information from complex contexts, prior planning of solutions, execution according to plan, and self-reflection. This structure significantly augments the explainability and accuracy of LLM inference, producing a human-understandable and inspectable inferential trajectory. Furthermore, our work offers an epistemological foundation for existing prompting techniques, allowing for a possible systematic integration of these methods. With GPT-4, our approach elevates the accuracy from COT baseline of 22.92% to 58.33% in a challenging subset of GSM8K, and from 67.91% to 75.40% in the causal judgment task. Without using few-shot examples or external tools, UPAR significantly outperforms existing prompting methods on SCIBENCH, a challenging dataset containing collegiate-level mathematics, chemistry, and physics scientific problems.
翻訳日:2023-12-08 18:24:25 公開日:2023-12-07
# 勧告システムのオピニオンダイナミクスへの影響:顕微鏡とマクロ効果

The Impact of Recommendation Systems on Opinion Dynamics: Microscopic versus Macroscopic Effects ( http://arxiv.org/abs/2309.08967v2 )

ライセンス: Link先を確認
Nicolas Lanzetti, Florian D\"orfler, Nicol\`o Pagan(参考訳) レコメンデーションシステムは、ソーシャルネットワークやeコマースプラットフォームなどのWebサービスで広く使われており、ユーザーに対してパーソナライズされたコンテンツを配信し、その体験を向上させる。 パーソナライゼーションはユーザーが利用可能なオプションをナビゲートするのを助けるが、ユーザーとその意見に対する影響について懸念が高まっている。 ネガティブな影響の例としては、フィルタバブルの出現や、ユーザの確認バイアスの増幅があり、意見偏極や過激化を引き起こす可能性がある。 本稿では,ユーザに対するレコメンデーションシステムの効果を,顕微鏡的(すなわち,個人的ユーザレベルで)視点とマクロ的視点(すなわち,均質的人口のレベルで)の両方から検討する。 具体的には、最近の意見力学とレコメンデーションシステム間の相互作用に関する研究に基づいて、この閉ループのモデルを提案し、解析的および数値的に研究する。 分析の結果,個々のユーザの意見の変化は,人口の意見分布の変化と必ずしも一致しないことが明らかとなった。 特に、世論分布が変化していないような状況(例えば人口調査による測定など)においても、個々のユーザの意見はレコメンデーションシステムによって著しく歪められる可能性がある。

Recommendation systems are widely used in web services, such as social networks and e-commerce platforms, to serve personalized content to the users and, thus, enhance their experience. While personalization assists users in navigating through the available options, there have been growing concerns regarding its repercussions on the users and their opinions. Examples of negative impacts include the emergence of filter bubbles and the amplification of users' confirmation bias, which can cause opinion polarization and radicalization. In this paper, we study the impact of recommendation systems on users, both from a microscopic (i.e., at the level of individual users) and a macroscopic (i.e., at the level of a homogenous population) perspective. Specifically, we build on recent work on the interactions between opinion dynamics and recommendation systems to propose a model for this closed loop, which we then study both analytically and numerically. Among others, our analysis reveals that shifts in the opinions of individual users do not always align with shifts in the opinion distribution of the population. In particular, even in settings where the opinion distribution appears unaltered (e.g., measured via surveys across the population), the opinion of individual users might be significantly distorted by the recommendation system.
翻訳日:2023-12-08 18:23:58 公開日:2023-12-07
# 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs ( http://arxiv.org/abs/2309.07311v4 )

ライセンス: Link先を確認
Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra(参考訳) NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。 しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。 本稿では,学習を通して解釈可能なアーティファクトの進化を分析することによって,創発的行動の理解を深める方法を示す,マスキング言語モデル(MLM)の構文習得事例について述べる。 特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。 モデルが突然SASを取得し,損失が急激に減少する場合には,事前訓練において短時間の窓を識別する。 この突破口はその後の言語能力の獲得に拍車をかけた。 次に, SAS を訓練中に操作することで SAS の因果的役割を解明し, 文法能力の発達に SAS が不可欠であることを示す。 さらに、SASはトレーニング中に他の有益な特性と競合し、SASを一時的に抑制することでモデル品質が向上することがわかった。 これらの発見は、単純さバイアスとブレークスルートレーニングダイナミクスの両方の実例の解釈を提供する。

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. We present a case study of syntax acquisition in masked language models (MLMs) that demonstrates how analyzing the evolution of interpretable artifacts throughout training deepens our understanding of emergent behavior. In particular, we study Syntactic Attention Structure (SAS), a naturally emerging property of MLMs wherein specific Transformer heads tend to focus on specific syntactic relations. We identify a brief window in pretraining when models abruptly acquire SAS, concurrent with a steep drop in loss. This breakthrough precipitates the subsequent acquisition of linguistic capabilities. We then examine the causal role of SAS by manipulating SAS during training, and demonstrate that SAS is necessary for the development of grammatical capabilities. We further find that SAS competes with other beneficial traits during training, and that briefly suppressing SAS improves model quality. These findings offer an interpretation of a real-world example of both simplicity bias and breakthrough training dynamics.
翻訳日:2023-12-08 18:23:37 公開日:2023-12-07
# 機械学習の不確実性定量化におけるキャリブレーション:一貫性からターゲット適応性まで

Calibration in Machine Learning Uncertainty Quantification: beyond consistency to target adaptivity ( http://arxiv.org/abs/2309.06240v2 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 機械学習(ML)回帰タスクにおける信頼性のある不確実性定量化(UQ)は、材料や化学科学における多くの研究の焦点となっている。 現在、平均キャリブレーションが不十分であることがよく理解されており、多くの研究は不確実性(すなわち一貫性)に関して条件キャリブレーションをテストする追加の手法を実装している。 一貫性は、主に信頼性図によって評価される。 しかし、平均キャリブレーション以外にも、入力特徴、すなわち適応性に関する条件付キャリブレーションという別の方法が存在する。 実際、適応性はML-UQ法の最終使用者の主な関心事であり、特徴空間の任意の点に対する予測と不確実性の信頼性を求める。 この記事では、一貫性と適応性は相補的な検証対象であり、一貫性が良い適応性を意味するものではないことを示す。 適応型バリデーション手法を提案し,代表的な例を示す。

Reliable uncertainty quantification (UQ) in machine learning (ML) regression tasks is becoming the focus of many studies in materials and chemical science. It is now well understood that average calibration is insufficient, and most studies implement additional methods testing the conditional calibration with respect to uncertainty, i.e. consistency. Consistency is assessed mostly by so-called reliability diagrams. There exists however another way beyond average calibration, which is conditional calibration with respect to input features, i.e. adaptivity. In practice, adaptivity is the main concern of the final users of a ML-UQ method, seeking for the reliability of predictions and uncertainties for any point in features space. This article aims to show that consistency and adaptivity are complementary validation targets, and that a good consistency does not imply a good adaptivity. Adapted validation methods are proposed and illustrated on a representative example.
翻訳日:2023-12-08 18:23:16 公開日:2023-12-07
# TSGBench: 時系列生成ベンチマーク

TSGBench: Time Series Generation Benchmark ( http://arxiv.org/abs/2309.03755v2 )

ライセンス: Link先を確認
Yihao Ang, Qiang Huang, Yifan Bao, Anthony K. H. Tung, Zhiyong Huang(参考訳) 合成時系列生成(TSG)は、データ拡張、異常検出、プライバシー保護など、さまざまなアプリケーションにおいて重要である。 この分野では大きな進歩を遂げているが、既存の手法には3つの重要な制限がある。 2) 特殊合成データセットとプライベートデータセットの使用は、バイアスと一般化を阻害する。 (3) カスタムネットワークや下流タスクに結びついているあいまいな評価措置は、一貫性と公正な比較を妨げる。 これらの制約を克服するために,TSG メソッドの統一的かつ総合的な評価を目的とした最初の時系列生成ベンチマークである \textsf{TSGBench} を導入する。 1)TSG用に最適化された実世界のデータセットと標準化された前処理パイプライン、(2)バニラ測度、新しい距離ベースアセスメント、可視化ツールを含む総合的な評価スイート、(3)ドメイン適応(DA)に根ざした先駆的な一般化テスト(DA)の3つのモジュールからなる。 我々は,10種類の高度なTSG法と12個の評価尺度を用いて,多様な領域から10個の実世界のデータセットのスペクトルに対して,textsf{TSGBench} を用いて総合的な実験を行った。 その結果, TSG法の評価における textsf{TSGBench} の信頼性と有効性を強調した。 重要なことに、 \textsf{TSGBench} はこれらのメソッドのパフォーマンスランキングを統計的に分析し、異なるデータセットや測度で異なるパフォーマンスを照らし、各メソッドの有効性に関する微妙な洞察を提供する。

Synthetic Time Series Generation (TSG) is crucial in a range of applications, including data augmentation, anomaly detection, and privacy preservation. Although significant strides have been made in this field, existing methods exhibit three key limitations: (1) They often benchmark against similar model types, constraining a holistic view of performance capabilities. (2) The use of specialized synthetic and private datasets introduces biases and hampers generalizability. (3) Ambiguous evaluation measures, often tied to custom networks or downstream tasks, hinder consistent and fair comparison. To overcome these limitations, we introduce \textsf{TSGBench}, the inaugural Time Series Generation Benchmark, designed for a unified and comprehensive assessment of TSG methods. It comprises three modules: (1) a curated collection of publicly available, real-world datasets tailored for TSG, together with a standardized preprocessing pipeline; (2) a comprehensive evaluation measures suite including vanilla measures, new distance-based assessments, and visualization tools; (3) a pioneering generalization test rooted in Domain Adaptation (DA), compatible with all methods. We have conducted comprehensive experiments using \textsf{TSGBench} across a spectrum of ten real-world datasets from diverse domains, utilizing ten advanced TSG methods and twelve evaluation measures. The results highlight the reliability and efficacy of \textsf{TSGBench} in evaluating TSG methods. Crucially, \textsf{TSGBench} delivers a statistical analysis of the performance rankings of these methods, illuminating their varying performance across different datasets and measures and offering nuanced insights into the effectiveness of each method.
翻訳日:2023-12-08 18:23:01 公開日:2023-12-07
# 最適化ツールとしての大規模言語モデル

Large Language Models as Optimizers ( http://arxiv.org/abs/2309.03409v2 )

ライセンス: Link先を確認
Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen(参考訳) 最適化はユビキタスです。 微分アルゴリズムは様々な問題に対して強力なツールであるが、勾配の欠如は現実世界の多くのアプリケーションに課題を課している。 本研究では,最適化タスクを自然言語で記述する大規模言語モデル(llms)を最適化器として活用するための,単純かつ効果的な手法であるoproを提案する。 各最適化ステップにおいて、LCMは、予め生成された値を含むプロンプトから新しいソリューションを生成し、その後、新しいソリューションを評価し、次の最適化ステップのプロンプトに追加する。 まず,線形回帰問題と旅行セールスマン問題についてOPROを紹介し,タスクの精度を最大化する命令を見つけることを目標とする最適化に進む。 OPROによって最適化された最良のプロンプトは、GSM8Kでは最大8%、Big-Bench Hardタスクでは最大50%性能が向上することを示した。 コード: https://github.com/google-deepmind/opro。

Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks. Code at https://github.com/google-deepmind/opro.
翻訳日:2023-12-08 18:22:30 公開日:2023-12-07
# RDFストリーム分類:研究開発におけるRDFストリームタイプの体系化

RDF Stream Taxonomy: Systematizing RDF Stream Types in Research and Practice ( http://arxiv.org/abs/2311.14540v2 )

ライセンス: Link先を確認
Piotr Sowinski, Pawel Szmeja, Maria Ganzha, Marcin Paprzycki(参考訳) 長年にわたり、rdfストリーミングは様々な角度から研究と実践で研究され、幅広いrdfストリーム定義を生み出した。 この多様性は、共通言語がないため、ストリーミングソリューションの議論と統合において大きな課題となっている。 本研究は,新たな分類法で文献に存在するRDFストリームタイプを体系化することによって,この重要な研究ギャップに対処しようとするものである。 提案したRDFストリーム分類法(RDF-STaX)は、FAIR原則に従ってOWL 2 DLオントロジーに具体化されており、実際に容易に適用可能である。 オントロジーの採用を促進するため、広範なドキュメントと追加のリソースが提供される。 研究成果の議論やストリーミングデータセットの注釈付けにおいて,リソースの有用性を示す2つの実例が提示される。 この貢献のもう1つの結果は、RDFストリーミングのコラボレーション的で生きた状態レビューとして機能する、新しいナノパブリケーションデータセットである。 RDF-STaXの目的は、RDFストリームの体系化と記述方法を改善するために、コミュニティの真のニーズに対処することである。 このリソースは、科学的議論、協力、ツールの相互運用性を促進することによって、RDFストリーミングのイノベーションを促進するために設計されている。

Over the years, RDF streaming was explored in research and practice from many angles, resulting in a wide range of RDF stream definitions. This variety presents a major challenge in discussing and integrating streaming solutions, due to the lack of a common language. This work attempts to address this critical research gap, by systematizing RDF stream types present in the literature in a novel taxonomy. The proposed RDF Stream Taxonomy (RDF-STaX) is embodied in an OWL 2 DL ontology that follows the FAIR principles, making it readily applicable in practice. Extensive documentation and additional resources are provided, to foster the adoption of the ontology. Two realized use cases are presented, demonstrating the usefulness of the resource in discussing research works and annotating streaming datasets. Another result of this contribution is the novel nanopublications dataset, which serves as a collaborative, living state-of-the-art review of RDF streaming. The aim of RDF-STaX is to address a real need of the community for a better way to systematize and describe RDF streams. The resource is designed to help drive innovation in RDF streaming, by fostering scientific discussion, cooperation, and tool interoperability.
翻訳日:2023-12-08 18:15:59 公開日:2023-12-07
# Semantic-Aware Fine-TuningによるFew-shot CLIPの強化

Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning ( http://arxiv.org/abs/2311.04464v3 )

ライセンス: Link先を確認
Yao Zhu, Yuefeng Chen, Wei Wang, Xiaofeng Mao, Xiu Yan, Yue Wang, Zhigang Li, Wang lu, Jindong Wang, Xiangyang Ji(参考訳) 限られたトレーニングサンプルから一般的な表現を学ぶことは、低リソースのシナリオでディープニューラルネットワークを適用する上で非常に重要です。 近年,CLIP (Contrastive Language- Image Pre-Training) に基づく手法が,少数の適応タスクにおいて有望な性能を示した。 数ショットの微調整による破滅的な忘れと過度な調整を避けるため、既存の作業は通常、大規模なデータセットで事前トレーニングされたCLIPのパラメータを凍結し、一部のパラメータが下流タスクに適さない可能性を見越す。 この目的のために、我々はCLIPの視覚エンコーダを再検討し、高密度特徴写像の空間重み付きサマーを実行する特徴的アテンションプーリング層に着目した。 濃密な特徴マップには意味のある意味情報が含まれており、さまざまな下流タスク(例えば、サイドミラーではなくペット分類タスクにおける耳や目などのセマンティクスの優先順位付けなど)において異なる意味論は様々な重要性を持っている。 そこで本研究では,学習過程における注意プーリング層のパラメータを微調整し,モデルがタスク固有のセマンティクスに注目するよう促す。 推論プロセスでは、微調整層と本来の注目層によってプールされた特徴の残差ブレンドを行い、少数ショット知識と事前トレーニングされたCLIPの事前知識の両方を組み込む。 本手法をSemantic-Aware Fine-tuning (SAFE) と呼ぶ。 SAFEは従来の小ショットCLIPの強化に有効であり、既存のアダプタアプローチ(SAFE-Aと呼ばれる)と互換性がある。

Learning generalized representations from limited training samples is crucial for applying deep neural networks in low-resource scenarios. Recently, methods based on Contrastive Language-Image Pre-training (CLIP) have exhibited promising performance in few-shot adaptation tasks. To avoid catastrophic forgetting and overfitting caused by few-shot fine-tuning, existing works usually freeze the parameters of CLIP pre-trained on large-scale datasets, overlooking the possibility that some parameters might not be suitable for downstream tasks. To this end, we revisit CLIP's visual encoder with a specific focus on its distinctive attention pooling layer, which performs a spatial weighted-sum of the dense feature maps. Given that dense feature maps contain meaningful semantic information, and different semantics hold varying importance for diverse downstream tasks (such as prioritizing semantics like ears and eyes in pet classification tasks rather than side mirrors), using the same weighted-sum operation for dense features across different few-shot tasks might not be appropriate. Hence, we propose fine-tuning the parameters of the attention pooling layer during the training process to encourage the model to focus on task-specific semantics. In the inference process, we perform residual blending between the features pooled by the fine-tuned and the original attention pooling layers to incorporate both the few-shot knowledge and the pre-trained CLIP's prior knowledge. We term this method as Semantic-Aware FinE-tuning (SAFE). SAFE is effective in enhancing the conventional few-shot CLIP and is compatible with the existing adapter approach (termed SAFE-A).
翻訳日:2023-12-08 18:15:36 公開日:2023-12-07
# 自己注意改善に基づく高分解能電力機器認識

High-resolution power equipment recognition based on improved self-attention ( http://arxiv.org/abs/2311.03518v2 )

ライセンス: Link先を確認
Siyi Zhang, Cheng Liu, Xiang Li, Xin Zhai, Zhen Wei, Sizhe Li, Xun Ma(参考訳) 変圧器画像認識の分野では,変圧器検査の自動化が注目されている。 しかし,既存のモデルではパラメータ数が制限されているため,高解像度画像を直接適用することはできない。 この課題に対処するため,本論文では,この問題に適した深層自己注意ネットワークの改良について紹介する。 提案モデルは,基本ネットワーク,地域提案ネットワーク,対象領域の抽出とセグメント化のためのモジュール,最終予測ネットワークの4つの主要コンポーネントからなる。 本論文の革新的アプローチは, 部分ローカライゼーションと認識のプロセスを切り離して, ローカライゼーションのための低分解能画像と認識のための高分解能画像とを区別するものである。 さらに、深層自己注意ネットワークの予測機構は、画像の意味的文脈を独自に取り入れ、認識性能を大幅に改善する。 比較実験により、この手法は他の2つの一般的な目標認識モデルよりも優れており、電気機器の点検を自動化するための画期的な視点を提供する。

The current trend of automating inspections at substations has sparked a surge in interest in the field of transformer image recognition. However, due to restrictions in the number of parameters in existing models, high-resolution images can't be directly applied, leaving significant room for enhancing recognition accuracy. Addressing this challenge, the paper introduces a novel improvement on deep self-attention networks tailored for this issue. The proposed model comprises four key components: a foundational network, a region proposal network, a module for extracting and segmenting target areas, and a final prediction network. The innovative approach of this paper differentiates itself by decoupling the processes of part localization and recognition, initially using low-resolution images for localization followed by high-resolution images for recognition. Moreover, the deep self-attention network's prediction mechanism uniquely incorporates the semantic context of images, resulting in substantially improved recognition performance. Comparative experiments validate that this method outperforms the two other prevalent target recognition models, offering a groundbreaking perspective for automating electrical equipment inspections.
翻訳日:2023-12-08 18:15:00 公開日:2023-12-07
# 画像テキストマッチングのための新しい細粒度アライメント法

A New Fine-grained Alignment Method for Image-text Matching ( http://arxiv.org/abs/2311.02183v2 )

ライセンス: Link先を確認
Yang Zhang(参考訳) 画像テキスト検索は、画像とテキストの類似度を測定することを目的としているマルチメディアデータの指数関数的な成長により、コンピュータビジョンの分野で広く研究されているトピックである。 しかし,既存の検索手法の多くは,過度に無関係な領域を考慮し,顕著で無意味な単語を等しく扱い,検索精度を制限するクロスモーダル細粒度アライメントのためのクロスアライメント機構に大きく依存している。 本稿では,画像やテキストにおける非重要フラグメントの関与を低減しつつ,目立ったセグメントのアライメントを強化するアライメントアプローチを検討することを目的とする。 そこで本研究では,アライメント中の無関係領域の参加を減らし,顕著な単語のアライメント類似度を相対的に高めることにより,検索精度を向上させるクロスモーダルフラグメンツ強化ネットワーク(CPFEAN)を提案する。 さらに,画像領域に先行するテキスト情報を組み込んで,誤認識の発生を低減する。 実際に我々はまず,モーダル内フラグメント関係推論法を設計し,その後に提案したアライメント機構を用いて画像とテキストの類似性を計算した。 MS-COCOとFlickr30Kデータセットの大規模な定量的比較実験により、我々の手法はrSum測定において最先端の手法を約5%から10%上回っていることが示された。

Image-text retrieval is a widely studied topic in the field of computer vision due to the exponential growth of multimedia data, whose core concept is to measure the similarity between images and text. However, most existing retrieval methods heavily rely on cross-attention mechanisms for cross-modal fine-grained alignment, which takes into account excessive irrelevant regions and treats prominent and non-significant words equally, thereby limiting retrieval accuracy. This paper aims to investigate an alignment approach that reduces the involvement of non-significant fragments in images and text while enhancing the alignment of prominent segments. For this purpose, we introduce the Cross-Modal Prominent Fragments Enhancement Aligning Network(CPFEAN), which achieves improved retrieval accuracy by diminishing the participation of irrelevant regions during alignment and relatively increasing the alignment similarity of prominent words. Additionally, we incorporate prior textual information into image regions to reduce misalignment occurrences. In practice, we first design a novel intra-modal fragments relationship reasoning method, and subsequently employ our proposed alignment mechanism to compute the similarity between images and text. Extensive quantitative comparative experiments on MS-COCO and Flickr30K datasets demonstrate that our approach outperforms state-of-the-art methods by about 5% to 10% in the rSum metric.
翻訳日:2023-12-08 18:14:39 公開日:2023-12-07
# 時系列コントラスト学習のための検索ベース再構築

Retrieval-Based Reconstruction For Time-series Contrastive Learning ( http://arxiv.org/abs/2311.00519v2 )

ライセンス: Link先を確認
Maxwell A. Xu, Alexander Moreno, Hui Wei, Benjamin M. Marlin, James M. Rehg(参考訳) 自己教師型コントラスト学習の成功は、後続の下流タスクに有用な情報をエンコードする、ポジティブなデータペアの特定に寄与する。 しかし、時系列では、拡張による正のペアの生成が本来の意味を損なう可能性があるため、これは難しい。 あるサブシーケンスから情報を取得して別のサブシーケンスをうまく再構築できれば、それらは正のペアを形成するべきだと仮定する。 この直感を生かして,新しいアプローチであるRetrieval-Based Reconstruction (REBAR) のコントラスト学習を紹介した。 まず、畳み込み型クロスアテンションアーキテクチャを用いて、2つの異なる時系列間のREBAR誤差を計算する。 そして、検証実験により、REBARエラーが相互クラスメンバシップの予測子であることを示し、正負ラベルとしての使用を正当化する。 最後に、一度コントラスト学習フレームワークに統合されたREBAR法は、様々なモードで下流タスクにおける最先端のパフォーマンスを実現する埋め込みを学習できる。

The success of self-supervised contrastive learning hinges on identifying positive data pairs that, when pushed together in embedding space, encode useful information for subsequent downstream tasks. However, in time-series, this is challenging because creating positive pairs via augmentations may break the original semantic meaning. We hypothesize that if we can retrieve information from one subsequence to successfully reconstruct another subsequence, then they should form a positive pair. Harnessing this intuition, we introduce our novel approach: REtrieval-BAsed Reconstruction (REBAR) contrastive learning. First, we utilize a convolutional cross-attention architecture to calculate the REBAR error between two different time-series. Then, through validation experiments, we show that the REBAR error is a predictor of mutual class membership, justifying its usage as a positive/negative labeler. Finally, once integrated into a contrastive learning framework, our REBAR method can learn an embedding that achieves state-of-the-art performance on downstream tasks across various modalities.
翻訳日:2023-12-08 18:14:01 公開日:2023-12-07
# CPU上での効率的なLLM推論

Efficient LLM Inference on CPUs ( http://arxiv.org/abs/2311.00502v2 )

ライセンス: Link先を確認
Haihao Shen, Hanwen Chang, Bo Dong, Yu Luo, and Hengyu Meng(参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。 しかし、これらのモデルの展開は、大きなメモリ容量と高いメモリ帯域の要求を必要とする、天文学的なモデルパラメータの量のために困難である。 本稿では,LLMのデプロイをより効率的にするための効果的なアプローチを提案する。 int4の自動重み付き量子化フローをサポートし、cpu上のllm推論を高速化するために、高最適化カーネルを備えた特殊なllmランタイムを設計する。 Llama2, Llama, GPT-NeoX など, 一般的な LLM へのアプローチの適用性を示すとともに, CPU 上での極端な推論効率を示す。 コードはhttps://github.com/intel/intel-extension-for-transformers.com/で公開されている。

Large language models (LLMs) have demonstrated remarkable performance and tremendous potential across a wide range of tasks. However, deploying these models has been challenging due to the astronomical amount of model parameters, which requires a demand for large memory capacity and high memory bandwidth. In this paper, we propose an effective approach that can make the deployment of LLMs more efficiently. We support an automatic INT4 weight-only quantization flow and design a special LLM runtime with highly-optimized kernels to accelerate the LLM inference on CPUs. We demonstrate the general applicability of our approach on popular LLMs including Llama2, Llama, GPT-NeoX, and showcase the extreme inference efficiency on CPUs. The code is publicly available at: https://github.com/intel/intel-extension-for-transformers.
翻訳日:2023-12-08 18:13:44 公開日:2023-12-07
# CustomNet: テキスト・画像拡散モデルにおける可変視点によるゼロショットオブジェクトのカスタマイズ

CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2310.19784v2 )

ライセンス: Link先を確認
Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan(参考訳) 画像生成にカスタマイズされたオブジェクトを組み込むことは、テキスト・画像生成において魅力的な特徴である。 しかし、既存の最適化ベースおよびエンコーダベースの方法は、時間消費最適化、不十分なアイデンティティ保存、一般的なコピーペースト効果などの欠点によって妨げられている。 これらの制限を克服するために、私たちは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ新しいオブジェクトカスタマイズアプローチであるCustomNetを紹介します。 この統合により、空間的位置関係と視点の調整が容易になり、オブジェクトのアイデンティティを効果的に保存しながら多様な出力が得られる。 さらに,既存の3次元画像合成手法の限界を克服し,テキスト記述やユーザ定義画像による位置制御やフレキシブルな背景制御を実現するための繊細な設計を提案する。 さらに私たちは、現実世界のオブジェクトや複雑なバックグラウンドをよりうまく処理できるデータセット構築パイプラインを活用します。 これらの設計を取り入れた本手法は,テスト時間最適化なしでゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。 その結果、CustomNetはアイデンティティ保護の強化を保証し、多様な調和した出力を生成する。

Incorporating a customized object into image generation presents an attractive feature in text-to-image generation. However, existing optimization-based and encoder-based methods are hindered by drawbacks such as time-consuming optimization, insufficient identity preservation, and a prevalent copy-pasting effect. To overcome these limitations, we introduce CustomNet, a novel object customization approach that explicitly incorporates 3D novel view synthesis capabilities into the object customization process. This integration facilitates the adjustment of spatial position relationships and viewpoints, yielding diverse outputs while effectively preserving object identity. Moreover, we introduce delicate designs to enable location control and flexible background control through textual descriptions or specific user-defined images, overcoming the limitations of existing 3D novel view synthesis methods. We further leverage a dataset construction pipeline that can better handle real-world objects and complex backgrounds. Equipped with these designs, our method facilitates zero-shot object customization without test-time optimization, offering simultaneous control over the viewpoints, location, and background. As a result, our CustomNet ensures enhanced identity preservation and generates diverse, harmonious outputs.
翻訳日:2023-12-08 18:13:31 公開日:2023-12-07
# CNR演算に基づく量子近似最適化アルゴリズム

A Quantum Approximate Optimization Algorithm Based on CNR Operation ( http://arxiv.org/abs/2310.17927v4 )

ライセンス: Link先を確認
Da You Lv and An Min Wang(参考訳) 本稿では,<comparison and replacement>(CNR)演算を導入し,組合せ最適化問題に対する汎用純粋量子近似アルゴリズムを提案する。 CNR演算は、高いオブジェクト関数値の文字列を得る確率を高めることができる。 また,提案アルゴリズムはCNR演算による$p$レベルの分割対数構造に構築され,最適化の質が向上する。 固定サイズの問題では、直接$p$の増加によってアルゴリズムの性能が向上する。 そして、アプリケーションにおけるアルゴリズムの性能は、補助量子ビットの数が増加するにつれて理論ケースに収束する。 さらに, 十分一般的な組合せ最適化問題に対して, アルゴリズムが十分に近似した状態の処理と出力が可能であることを理論と応用で示す。 さらに、高いオブジェクト関数を持つ文字列は、高い確率で最終状態で測定することができる。 さらには、$p$ アルゴリズムの最終的な測定において、最高値の$\frac{1}{2^p}$ の文字列が支配的確率(約$-\frac{1}{\mathrm{e}}\approx0.6321$)を占めることを証明する。 図示として、MAX-2-XORインスタンスとガウス重み付き2辺グラフに適用したアルゴリズムの結果を示す。

This paper introduces the ``comparison and replacement" (CNR) operation and propose a general-purposed pure quantum approximate algorithm for combinatorial optimization problems. The CNR operation can increase the probability of obtaining a string with high object function value. And our algorithm is constructed to a $p$-level divide-and-conquer structure with CNR operations to improve the quality of optimization. For a fixed size problem, the algorithm performance is improved with the increase of $p$ directly. And the algorithm performance in application converges to the theoretical case as the number of ancillary qubits $t$ increases. Furthermore, we demonstrate in theory and application that for sufficiently general combinatorial optimization problems, the algorithm can work and output a state with considerable approximation ratio. Moreover, the string with higher object function can be measured in the final state with higher probability. To put it further, we prove that the strings with the top $\frac{1}{2^p}$ object function value occupy the dominant probability(with lower bound around $1-\frac{1}{\mathrm{e}}\approx0.6321$) in final measurement after $p$-level algorithm. As an illustration, we show the results of our algorithm when applied to MAX-2-XOR instances and Gaussian weighted 2-edge graphs.
翻訳日:2023-12-08 18:13:02 公開日:2023-12-07
# PromptAgent: エキスパートレベルのPrompt最適化を可能にする言語モデルによる戦略的計画

PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization ( http://arxiv.org/abs/2310.16427v2 )

ライセンス: Link先を確認
Xinyuan Wang, Chenxi Li, Zhen Wang, Fan Bai, Haotian Luo, Jiayou Zhang, Nebojsa Jojic, Eric P. Xing, Zhiting Hu(参考訳) 非常に効果的なタスク固有のプロンプトは、大言語モデル(llm)の本能と目的とするタスクの複雑さの両方の深い理解に基づいて、詳細な指示とドメイン洞察を統合するために専門家によって深く設計されることが多い。 しかし、そのような専門家レベルのプロンプトを自動生成することは、いまだ明白である。 既存のプロンプト最適化手法は、ドメイン知識の深さを見落とし、エキスパートレベルのプロンプトの広大な空間を効率的に探索するのに苦労する傾向がある。 この問題に対処するため,専門家が手工芸品に匹敵する品質を自律的に生成する最適化手法であるPromptAgentを提案する。 PromptAgentは、プロンプトを戦略的計画問題とみなし、モンテカルロ木探索に根ざした原理的な計画アルゴリズムを用いて、専門家レベルのプロンプト空間を戦略的にナビゲートする。 PromptAgentは人間のような試行錯誤の探索にインスパイアされ、モデルエラーを反映し、建設的なエラーフィードバックを生成することによって、専門家レベルの正確な洞察と詳細な指示を誘導する。 このような新しいフレームワークにより、エージェントは中間プロンプト(状態)を反復的に検証し、エラーフィードバック(アクション)に基づいてそれらを洗練し、将来の報酬をシミュレートし、専門家のプロンプトにつながるハイリワードパスを探すことができる。 我々は,3つの実践的領域にまたがる12のタスク,すなわち big-bench hard (bbh) と domain-specific and general nlp tasks に適用した。 広範な分析は、専門家レベル、詳細、ドメインの洞察に富んだプロンプトを、非常に効率性と汎用性で作ることができることを強調する。

Highly effective, task-specific prompts are often heavily engineered by experts to integrate detailed instructions and domain insights based on a deep understanding of both instincts of large language models (LLMs) and the intricacies of the target task. However, automating the generation of such expert-level prompts remains elusive. Existing prompt optimization methods tend to overlook the depth of domain knowledge and struggle to efficiently explore the vast space of expert-level prompts. Addressing this, we present PromptAgent, an optimization method that autonomously crafts prompts equivalent in quality to those handcrafted by experts. At its core, PromptAgent views prompt optimization as a strategic planning problem and employs a principled planning algorithm, rooted in Monte Carlo tree search, to strategically navigate the expert-level prompt space. Inspired by human-like trial-and-error exploration, PromptAgent induces precise expert-level insights and in-depth instructions by reflecting on model errors and generating constructive error feedback. Such a novel framework allows the agent to iteratively examine intermediate prompts (states), refine them based on error feedbacks (actions), simulate future rewards, and search for high-reward paths leading to expert prompts. We apply PromptAgent to 12 tasks spanning three practical domains: BIG-Bench Hard (BBH), as well as domain-specific and general NLP tasks, showing it significantly outperforms strong Chain-of-Thought and recent prompt optimization baselines. Extensive analyses emphasize its capability to craft expert-level, detailed, and domain-insightful prompts with great efficiency and generalizability.
翻訳日:2023-12-08 18:12:39 公開日:2023-12-07
# BM2CP:LiDARカメラによる効率的な協調知覚

BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities ( http://arxiv.org/abs/2310.14702v2 )

ライセンス: Link先を確認
Binyu Zhao, Wei Zhang, Zhaonian Zou(参考訳) 協調的知覚により、エージェントは近くのエージェントと補完的な知覚情報を共有できる。 これにより、知覚性能が向上し、オクルージョンやスパーシリティといった単一視点知覚の問題が緩和される。 既存のアプローチのほとんどは、主に単一モダリティ(特にLiDAR)に焦点を当てており、マルチモーダル知覚の優位性を十分に活用していない。 我々は,LiDARとカメラを用いた協調認識パラダイムBM2CPを提案し,効率的なマルチモーダル認識を実現する。 LiDAR-guided modal fusion, 協調深度生成, およびModality-guided intermediate fusionを用いて、異なるエージェントのモード間のディープインタラクションを取得し、また、任意のエージェントのセンサーの1つ、同一または異なるタイプのセンサーが欠落している特別なケースに対処することができる。 シミュレーションおよび実世界の自動運転シナリオにおいて,本手法が50倍の通信量で最先端の手法より優れていることを示す。 私たちのコードはhttps://github.com/byzhaoAI/BM2CPで利用可能です。

Collaborative perception enables agents to share complementary perceptual information with nearby agents. This would improve the perception performance and alleviate the issues of single-view perception, such as occlusion and sparsity. Most existing approaches mainly focus on single modality (especially LiDAR), and not fully exploit the superiority of multi-modal perception. We propose a collaborative perception paradigm, BM2CP, which employs LiDAR and camera to achieve efficient multi-modal perception. It utilizes LiDAR-guided modal fusion, cooperative depth generation and modality-guided intermediate fusion to acquire deep interactions among modalities of different agents, Moreover, it is capable to cope with the special case where one of the sensors, same or different type, of any agent is missing. Extensive experiments validate that our approach outperforms the state-of-the-art methods with 50X lower communication volumes in both simulated and real-world autonomous driving scenarios. Our code is available at https://github.com/byzhaoAI/BM2CP.
翻訳日:2023-12-08 18:12:02 公開日:2023-12-07
# SILC:自己蒸留による視覚言語訓練の改善

SILC: Improving Vision Language Pretraining with Self-Distillation ( http://arxiv.org/abs/2310.13355v2 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari(参考訳) Webスケールの画像キャプションデータセットによる画像テキスト事前トレーニングは、CLIPとその変種の成功により、オープン語彙分類と検索モデルのデフォルトレシピとなっている。 いくつかの研究では、複雑な予測タスクにCLIP機能を使用し、オープンセット能力の出現を示している。 しかし、これらのモデルで使われる対比的目的は、画像とテキストのアライメントのみに焦点を当て、密集した予測タスクに対して画像特徴学習をインセンティブとしない。 本稿では,視覚言語事前学習のための新しいフレームワークであるsilcを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。 指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションなどの密集予測タスクにおけるモデル性能が向上し,分類や検索などの画像レベルのタスクも改善された。 SILCモデルは、ゼロショット分類、ほとんどショット分類、画像とテキストの検索、ゼロショットセグメンテーション、オープン語彙セグメンテーションのための新しい技術状態を設定する。 さらに,オープン語彙検出,キャプション,視覚的質問応答にsilc機能が大いに有用であることを示す。

Image-Text pretraining on web-scale image caption datasets has become the default recipe for open vocabulary classification and retrieval models thanks to the success of CLIP and its variants. Several works have also used CLIP features for dense prediction tasks and have shown the emergence of open-set abilities. However, the contrastive objective used by these models only focuses on image-text alignment and does not incentivise image feature learning for dense prediction tasks. In this work, we introduce SILC, a novel framework for vision language pretraining. SILC improves image-text contrastive learning with the simple addition of local-to-global correspondence learning by self-distillation. We show that distilling local image features from an exponential moving average (EMA) teacher model significantly improves model performance on dense predictions tasks like detection and segmentation, while also providing improvements on image-level tasks such as classification and retrieval. SILC models sets a new state of the art for zero-shot classification, few shot classification, image and text retrieval, zero-shot segmentation, and open vocabulary segmentation. We further show that SILC features greatly benefit open vocabulary detection, captioning and visual question answering.
翻訳日:2023-12-08 18:11:44 公開日:2023-12-07
# steve-eye: オープンワールドにおける llm ベースの体現エージェントと視覚知覚

Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds ( http://arxiv.org/abs/2310.13255v2 )

ライセンス: Link先を確認
Sipeng Zheng, Jiazheng Liu, Yicheng Feng, Zongqing Lu(参考訳) 近年の研究では、大型言語モデル(LLM)が、世界と対話する自己駆動能力を持つエンボディエージェントを装備できるという、説得力のある証拠が提示されている。 しかし、これらの取り組みはオープンワールドの視覚的な豊かさを見落とし、「目隠しされたテキストベースのゲーム」のようなインタラクティブなプロセス全体を作り上げる傾向がある。 その結果, LLMをベースとしたエージェントは, 環境を直感的に理解し, 理解しやすい応答を生み出すという課題にしばしば遭遇する。 本稿では,この制限に対処するために,エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。 Steve-Eye は LLM とビジュアルエンコーダを統合し、視覚テキスト入力を処理し、マルチモーダルフィードバックを生成する。 さらに,マルチモーダル認識,基礎知識ベース,スキル予測と計画という,エージェントに不可欠な3つの機能を含む,850Kのオープンワールド命令ペアからなる広範なデータセットを半自動で収集する。 最後に、我々は3つのオープンワールド評価ベンチマークを開発し、戦略的な行動と計画の能力を検証するため、幅広い視点から広範な実験を行う。 コードとデータセットがリリースされる。

Recent studies have presented compelling evidence that large language models (LLMs) can equip embodied agents with the self-driven capability to interact with the world, which marks an initial step toward versatile robotics. However, these efforts tend to overlook the visual richness of open worlds, rendering the entire interactive process akin to "a blindfolded text-based game." Consequently, LLM-based agents frequently encounter challenges in intuitively comprehending their surroundings and producing responses that are easy to understand. In this paper, we propose Steve-Eye, an end-to-end trained large multimodal model designed to address this limitation. Steve-Eye integrates the LLM with a visual encoder which enables it to process visual-text inputs and generate multimodal feedback. In addition, we use a semi-automatic strategy to collect an extensive dataset comprising 850K open-world instruction pairs, empowering our model to encompass three essential functions for an agent: multimodal perception, foundational knowledge base, and skill prediction and planning. Lastly, we develop three open-world evaluation benchmarks, then carry out extensive experiments from a wide range of perspectives to validate our model's capability to strategically act and plan. Codes and datasets will be released.
翻訳日:2023-12-08 18:11:21 公開日:2023-12-07
# 有能なaiシステムのためのケースは、コンセプトノートに$-$

A Case for Competent AI Systems $-$ A Concept Note ( http://arxiv.org/abs/2312.00052v2 )

ライセンス: Link先を確認
Kamalakar Karlapalem(参考訳) AIシステムの効率は、与えられたタスクの特定の要求に適合する能力にかかっている。 いかにも、タスクの固有の複雑さは、しばしば有害な影響や有害な行動の可能性をもたらす。 このメモは、aiシステムにおける能力の批判的な概念を探求し、システムが期待するものを表現する。 能力の明瞭化には、明確に定義されたアウトカムを指定することが含まれる。 しかし、この能力の達成は、実装とテストの欠陥によって妨げられ、システムの能力のギャップ(成功に対して何ができるか)を反映している可能性がある。 タスクを効果的に実行するAIシステムの能力を明らかにする上で、中心的な課題が発生する。 AIにおけるシステム能力の探索は、その初期段階に留まり、時には成功の確率を示す信頼区間として表される。 AIシステムの信頼は、その能力の明示的なモデリングと詳細な仕様に依存し、システムの能力に複雑に結びついている。 本稿では、aiシステムの能力を評価するためのフレームワークを提案することで、このギャップを探求する。 個々人が能力の欠如によってガラスの障害物に不注意に遭遇する、ガラスのドア問題のような実用的なシナリオに動機づけられたこの研究は、能力の力学に精通することの要点を浮き彫りにする。 能力と能力のギャップを詳細なレベルで橋渡しし,実世界のアプリケーションにおけるaiシステムの信頼性向上に関する議論の進展に寄与する。

The efficiency of an AI system is contingent upon its ability to align with the specified requirements of a given task. How-ever, the inherent complexity of tasks often introduces the potential for harmful implications or adverse actions. This note explores the critical concept of capability within AI systems, representing what the system is expected to deliver. The articulation of capability involves specifying well-defined out-comes. Yet, the achievement of this capability may be hindered by deficiencies in implementation and testing, reflecting a gap in the system's competency (what it can do vs. what it does successfully). A central challenge arises in elucidating the competency of an AI system to execute tasks effectively. The exploration of system competency in AI remains in its early stages, occasionally manifesting as confidence intervals denoting the probability of success. Trust in an AI system hinges on the explicit modeling and detailed specification of its competency, connected intricately to the system's capability. This note explores this gap by proposing a framework for articulating the competency of AI systems. Motivated by practical scenarios such as the Glass Door problem, where an individual inadvertently encounters a glass obstacle due to a failure in their competency, this research underscores the imperative of delving into competency dynamics. Bridging the gap between capability and competency at a detailed level, this note contributes to advancing the discourse on bolstering the reliability of AI systems in real-world applications.
翻訳日:2023-12-08 18:04:30 公開日:2023-12-07
# Cam4DOcc: 自動運転アプリケーションにおけるカメラオンリーの4D作業予測ベンチマーク

Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications ( http://arxiv.org/abs/2311.17663v2 )

ライセンス: Link先を確認
Junyi Ma, Xieyuanli Chen, Jiawei Huang, Jingyi Xu, Zhen Luo, Jintao Xu, Weihao Gu, Rui Ai, Hesheng Wang(参考訳) 自動運転アプリケーションにおいて、下流のタスクを安全かつ確実に実行する上で、環境の変化を理解することが重要である。 カメラ画像のみを入力とした近年の占有率推定手法は、現在の観測に基づいて大規模シーンの集中占有率表現を提供することができる。 しかし、それらは主に現在の3d空間の表現に制限されており、時間軸に沿った周囲の物体の将来状態を考慮していない。 カメラのみの占有率推定を時空間予測に拡張するために,カメラのみの占有率予測のための新しいベンチマークであるcam4doccを提案する。 私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5など、公開されている複数のデータセットに基づいてベンチマークを構築しています。 このベンチマークを総合的な比較による将来の研究のために,静的世界占有モデル,点雲予測のボクセル化,2D-3Dインスタンスベース予測,提案するエンドツーエンドの4D占有予測ネットワークなど,多様なカメラベース認識と予測実装の4つのベースラインタイプを紹介した。 さらに,複数タスクの事前設定のための標準化された評価プロトコルも提供され,自律運転シナリオに関心のある対象に対して,現在および将来の占有率推定に基づく全てのベースラインの性能を比較した。 Cam4DOccベンチマークで提案された4つのベースラインのデータセットと実装は以下の通りである。

Understanding how the surrounding environment changes is crucial for performing downstream tasks safely and reliably in autonomous driving applications. Recent occupancy estimation techniques using only camera images as input can provide dense occupancy representations of large-scale scenes based on the current observation. However, they are mostly limited to representing the current 3D space and do not consider the future state of surrounding objects along the time axis. To extend camera-only occupancy estimation into spatiotemporal prediction, we propose Cam4DOcc, a new benchmark for camera-only 4D occupancy forecasting, evaluating the surrounding scene changes in a near future. We build our benchmark based on multiple publicly available datasets, including nuScenes, nuScenes-Occupancy, and Lyft-Level5, which provides sequential occupancy states of general movable and static objects, as well as their 3D backward centripetal flow. To establish this benchmark for future research with comprehensive comparisons, we introduce four baseline types from diverse camera-based perception and prediction implementations, including a static-world occupancy model, voxelization of point cloud prediction, 2D-3D instance-based prediction, and our proposed novel end-to-end 4D occupancy forecasting network. Furthermore, the standardized evaluation protocol for preset multiple tasks is also provided to compare the performance of all the proposed baselines on present and future occupancy estimation with respect to objects of interest in autonomous driving scenarios. The dataset and our implementation of all four baselines in the proposed Cam4DOcc benchmark will be released here: https://github.com/haomo-ai/Cam4DOcc.
翻訳日:2023-12-08 18:04:01 公開日:2023-12-07
# llms for science: コード生成とデータ分析のための利用

LLMs for Science: Usage for Code Generation and Data Analysis ( http://arxiv.org/abs/2311.16733v3 )

ライセンス: Link先を確認
Mohamed Nejjar, Luca Zacharias, Fabian Stiehle and Ingo Weber(参考訳) 大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。 研究分野としての科学研究は例外ではなく、科学者の日々の作業を支援するLLMベースのツールの可能性は、分野によって議論の的になっている。 しかし、私たちはこの研究の始まりに過ぎません。 LLMのポテンシャルが研究実践においてどのように成立するかは、まだ不明である。 本研究では,研究プロセスにおけるLSMの使用に関する実証的研究を行った。 我々は,科学研究におけるLLMツールの一連のユースケースを調査し,現在のツールがどの程度役に立つかを評価するための最初の研究を行った。 本稿では,アプリケーションコード生成やデータ解析用のスクリプトの開発など,ソフトウェア工学に関連するユースケースを具体的に報告する。 一見単純なユースケースを検討したが、ツール間での結果は大きく異なる。 以上の結果から,LLMベースのツール全般の約束が強調されているが,これらのツールが提供するアウトプットの完全性に関して,さまざまな問題も観察している。

Large language models (LLMs) have been touted to enable increased productivity in many areas of today's work life. Scientific research as an area of work is no exception: the potential of LLM-based tools to assist in the daily work of scientists has become a highly discussed topic across disciplines. However, we are only at the very onset of this subject of study. It is still unclear how the potential of LLMs will materialise in research practice. With this study, we give first empirical evidence on the use of LLMs in the research process. We have investigated a set of use cases for LLM-based tools in scientific research, and conducted a first study to assess to which degree current tools are helpful. In this paper we report specifically on use cases related to software engineering, such as generating application code and developing scripts for data analytics. While we studied seemingly simple use cases, results across tools differ significantly. Our results highlight the promise of LLM-based tools in general, yet we also observe various issues, particularly regarding the integrity of the output these tools provide.
翻訳日:2023-12-08 18:03:15 公開日:2023-12-07
# 予測から行動へ:機械学習による材料発見における性能推定の重要役割

From Prediction to Action: Critical Role of Performance Estimation for Machine-Learning-Driven Materials Discovery ( http://arxiv.org/abs/2311.15549v2 )

ライセンス: Link先を確認
Mario Boley and Felix Luong and Simon Teshuva and Daniel F Schmidt and Lucas Foppa and Matthias Scheffler(参考訳) 統計特性モデルによって駆動される物質発見は、モデルに変換された取得関数によって提案された新しいデータによって初期データ収集が拡張される反復的な決定プロセスである。 材料科学コミュニティは、トレーニング分布に対して平均的に良好に予測できる特性モデルの開発において大きな進歩を遂げたが、このような分布内性能測定は発見報酬と直接的に結び付いていない。 これは、反復的な発見過程が、例外的な材料に対するモデル性能によって過剰に決定される、シフトする報酬分布を有するためである。 二重ペロブスカイト酸化物のバルク弾性率最大化の例を用いてこの問題を実証する。 分布内予測の結果から,ランダム林はガウス過程の回帰よりも優れているが,発見報酬は逆であることが示唆された。 先行計算データ集合からの適切な性能推定手法の欠如は,データ駆動材料の発見を改善するための根本的な問題であり,na\"ive reward estimationとは対照的に,2重ペロブスカイトに対する実証研究において,ガウス過程の予測に成功し,"expected improvement"獲得関数を最善の4つの選択肢のうちの1つとした。 重要なのは、この予測を確認するのに必要な1000以上のab initio計算を必要としないことだ。

Materials discovery driven by statistical property models is an iterative decision process, during which an initial data collection is extended with new data proposed by a model-informed acquisition function--with the goal to maximize a certain "reward" over time, such as the maximum property value discovered so far. While the materials science community achieved much progress in developing property models that predict well on average with respect to the training distribution, this form of in-distribution performance measurement is not directly coupled with the discovery reward. This is because an iterative discovery process has a shifting reward distribution that is over-proportionally determined by the model performance for exceptional materials. We demonstrate this problem using the example of bulk modulus maximization among double perovskite oxides. We find that the in-distribution predictive performance suggests random forests as superior to Gaussian process regression, while the results are inverse in terms of the discovery rewards. We argue that the lack of proper performance estimation methods from pre-computed data collections is a fundamental problem for improving data-driven materials discovery, and we propose a novel such estimator that, in contrast to na\"ive reward estimation, successfully predicts Gaussian processes with the "expected improvement" acquisition function as the best out of four options in our demonstrational study for double perovskites. Importantly, it does so without requiring the over thousand ab initio computations that were needed to confirm this prediction.
翻訳日:2023-12-08 18:01:40 公開日:2023-12-07
# 医用画像分類のための循環射影を用いたパラメータ化生成逆ネットワーク

A Parameterized Generative Adversarial Network Using Cyclic Projection for Explainable Medical Image Classification ( http://arxiv.org/abs/2311.14388v2 )

ライセンス: Link先を確認
Xiangyu Xiong, Yue Sun, Xiaohong Liu, Chan-Tong Lam, Tong Tong, Hao Chen, Qinquan Gao, Wei Ke, Tao Tan(参考訳) 現在のデータ拡張法はデータ不足を軽減するのに成功しているが、従来の拡張法は主にドメイン内であり、高度な生成逆数ネットワーク(GAN)は不確実な画像を生成する。 本稿では,ドメイン間の合成サンプルの変化を効果的に制御し,下流分類のための注意領域を強調するパラメータ化gan(paragan)を提案する。 具体的には、ParaGANは射影距離パラメータを巡回射影に組み込み、ソース画像を決定境界に投影し、クラス差マップを得る。 実験の結果,ParaGANは2つの小規模医療データセットに対して説明可能な分類を行い,既存の拡張手法より一貫して優れていることがわかった。

Although current data augmentation methods are successful to alleviate the data insufficiency, conventional augmentation are primarily intra-domain while advanced generative adversarial networks (GANs) generate images remaining uncertain, particularly in small-scale datasets. In this paper, we propose a parameterized GAN (ParaGAN) that effectively controls the changes of synthetic samples among domains and highlights the attention regions for downstream classification. Specifically, ParaGAN incorporates projection distance parameters in cyclic projection and projects the source images to the decision boundary to obtain the class-difference maps. Our experiments show that ParaGAN can consistently outperform the existing augmentation methods with explainable classification on two small-scale medical datasets.
翻訳日:2023-12-08 18:01:10 公開日:2023-12-07
# ビデオ・フェイス・リエイジング:時間的一貫性のある顔・リエイジングに向けて

Video Face Re-Aging: Toward Temporally Consistent Face Re-Aging ( http://arxiv.org/abs/2311.11642v2 )

ライセンス: Link先を確認
Abdul Muqeet, Kyuchul Lee, Bumsoo Kim, Yohan Hong, Hyungrae Lee, Woonggon Kim, KwangHee Lee(参考訳) ビデオフェイスのリエイジングは、人の見かけの年齢をビデオのターゲット年齢に変更する。 この問題は、アイデンティティと年齢の時間的一貫性を維持するペアビデオデータセットが欠如しているため、難しい。 ほとんどの再老化手法は、ビデオの時間的一貫性を考慮せずに個々の画像を個別に処理する。 潜伏空間におけるビデオ顔属性操作による時間的コヒーレンスの問題に対処する既存の作品もあるが、年齢変化において満足のいく性能を提供できないことが多い。 この問題に取り組むために,(1)多年齢層にまたがる対象を特徴とする新しい合成ビデオデータセット,(2)提案するデータセットの有効性を検証するために設計されたベースラインアーキテクチャ,(3)ビデオ再生技術の時間的一貫性を評価するために明示的に調整された3つの新しいメトリクスの開発を提案する。 VFHQやCelebV-HQのような公開データセットに関する包括的な実験は、年齢変化と時間的一貫性の両方の観点から既存の手法よりも優れていることを示している。

Video face re-aging deals with altering the apparent age of a person to the target age in videos. This problem is challenging due to the lack of paired video datasets maintaining temporal consistency in identity and age. Most re-aging methods process each image individually without considering the temporal consistency of videos. While some existing works address the issue of temporal coherence through video facial attribute manipulation in latent space, they often fail to deliver satisfactory performance in age transformation. To tackle the issues, we propose (1) a novel synthetic video dataset that features subjects across a diverse range of age groups; (2) a baseline architecture designed to validate the effectiveness of our proposed dataset, and (3) the development of three novel metrics tailored explicitly for evaluating the temporal consistency of video re-aging techniques. Our comprehensive experiments on public datasets, such as VFHQ and CelebV-HQ, show that our method outperforms the existing approaches in terms of both age transformation and temporal consistency.
翻訳日:2023-12-08 18:00:54 公開日:2023-12-07
# UFOGen:Diffusion GANを使った大規模テキスト・画像生成

UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs ( http://arxiv.org/abs/2311.09257v5 )

ライセンス: Link先を確認
Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou(参考訳) テキストから画像への拡散モデルは、テキストのプロンプトをコヒーレントな画像に変換する顕著な能力を示しているが、その推論の計算コストはいまだに持続的な課題である。 そこで本稿では,超高速・ワンステップ画像合成のための新しい生成モデルであるufogenを提案する。 拡散モデルの改良や蒸留技術の導入に重点を置く従来の手法とは対照的に、UFOGenは拡散モデルとGANの目的を統合するハイブリッド手法を採用している。 新しく導入された拡散GANの目的と事前訓練された拡散モデルの初期化を利用して、UFOGenはテキスト記述に条件付けられた高品質な画像を1ステップで効率的に生成する。 従来のテキスト・画像生成以外にも、UFOGenはアプリケーションに汎用性を示す。 特にUFOGenは、ワンステップのテキスト・ツー・イメージ生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの展望において大きな進歩を示している。

Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models.
翻訳日:2023-12-08 18:00:36 公開日:2023-12-07
# 微分プライベートmlを制約する精度-プライバシー天井を通り抜ける流れの正規化によるexpm+nfトラクタブル指数関数機構

ExpM+NF Tractable Exponential Mechanism via Normalizing Flow, A Path through the Accuracy-Privacy Ceiling Constraining Differentially Private ML ( http://arxiv.org/abs/2311.09200v2 )

ライセンス: Link先を確認
Robert A. Bridges, Vandy J. Tombs, Christopher B. Stanley(参考訳) Exponential Mechanism (ExpM) は、微分プライベートな最適化手法であり、DPSGD、最先端技術(SOTA)、および差分プライベートな機械学習(ML)のデファクト手法に対する多くの利点を約束する。 ExpMは与えられた損失関数に対して感度境界を必要とする; ExpMは歴史的に難解な密度からサンプリングする必要がある。 我々は,$\ell(2)$ 損失に対する感度を証明し,難解な expm 分布から近似サンプリングを行う深層ネットワークである正規化フロー(nfs)を用いて検討する。 NFの出力がExpM分布に収束すると、NFサンプルのプライバシー(\varepsilon$)はExpM分布に収束する。 NF の出力分布が ExpM 分布であるという仮定のもと,我々は SOTA 実装 (Opacus \cite{opacus} と PRV 会計) を用いた DPSGD に対する ExpM+NF を,ロジスティック回帰(Logistic Regression) と GRU-D (GRU-100K パラメータを持つディープラーニングリカレントニューラルネットワーク) を用いて, 成人データセット (Sensus data) とMIMIC-III データセット (医療記録) の複数の分類タスクで実証的にテストした。 すべての実験でExpM+NFは、非プライベートトレーニング精度(AUC)の99%以上を達成でき、$\varepsilon$-DP for $\varepsilon$ a low as $1\mathrm{e}{-3}$ - three order of greater privacy with similar accuracy。 さらに、ExpM+NFトレーニング時間はDPSGDに匹敵する(わずかに少ない)。 制限と今後の方向性、特にNF近似の精度とプライバシへの影響についての研究は、この分野を大幅に前進させる有望な道である。 これらの実験のためのコード \hl{will be provide after review}。

The Exponential Mechanism (ExpM), a differentially private optimization method, promises many advantages over Differentially Private Stochastic Gradient Descent (DPSGD), the state-of-the-art (SOTA) and de facto method for differentially private machine learning (ML). Yet, ExpM has been historically stymied from differentially private training of modern ML algorithms by two obstructions: ExpM requires a sensitivity bound for the given loss function; ExpM requires sampling from a historically intractable density. We prove a sensitivity bound for $\ell(2)$ loss, and investigate using Normalizing Flows (NFs), deep networks furnishing approximate sampling from the otherwise intractable ExpM distribution. We prove that as the NF output converges to ExpM distribution, the privacy ($\varepsilon$) of an NF sample converges to that of the ExpM distribution. Under the assumption that the NF output distribution is the ExpM distribution, we empirically test ExpM+NF against DPSGD using the SOTA implementation (Opacus \cite{opacus} with PRV accounting) in multiple classification tasks on the Adult Dataset (census data) and MIMIC-III Dataset (healthcare records) using Logistic Regression and GRU-D, a deep learning recurrent neural network with \smallsim 20K-100K parameters. In all experiments we find ExpM+NF achieves greater than 94\% of the non-private training accuracy (AUC) with $\varepsilon$-DP for $\varepsilon$ a low as $1\mathrm{e}{-3}$ -- three orders of magnitude stronger privacy with similar accuracy. Further, performance results show ExpM+NF training time is comparable to (slightly less) than DPSGD. Limitations and future directions are provided; notably, research on NF approximation accuracy and its effect on privacy are a promising avenue to substantially advancing the field. Code for these experiments \hl{will be provided after review}.
翻訳日:2023-12-08 18:00:18 公開日:2023-12-07
# 分散ネットワークスイッチギアのロバスト学習に基づく条件診断法

Robust Learning Based Condition Diagnosis Method for Distribution Network Switchgear ( http://arxiv.org/abs/2311.07956v2 )

ライセンス: Link先を確認
Wenxi Zhang, Zhe Li, Weixi Li, Weisi Ma, Xinyi Chen, Sizhe Li(参考訳) 本稿では,エンドユーザの電力品質維持に不可欠である分散ネットワークスイッチギアの状態を診断するための,堅牢で学習的な手法を提案する。 従来の診断モデルは専門家の知識に大きく依存し、堅牢性に欠けることが多い。 そこで本手法では, 環境データ, 温度測定, スイッチ位置, モータ動作, 絶縁条件, 局所放電情報を含む拡張特徴ベクトルを組み込んだ。 我々は特徴マッピングを通して高次元の問題に取り組む。 本手法では,無ラベルサンプルを分類する決定半径を導入し,教師付き損失と教師なし損失を組み合わせたモデルパラメータを整合正則化関数とともに更新する。 このアプローチは、限られた数のラベル付きサンプルでも堅牢な学習を可能にする。 比較分析により、この手法が既存のモデルよりも精度と頑健性の両方において著しく優れていることが示される。

This paper introduces a robust, learning-based method for diagnosing the state of distribution network switchgear, which is crucial for maintaining the power quality for end users. Traditional diagnostic models often rely heavily on expert knowledge and lack robustness. To address this, our method incorporates an expanded feature vector that includes environmental data, temperature readings, switch position, motor operation, insulation conditions, and local discharge information. We tackle the issue of high dimensionality through feature mapping. The method introduces a decision radius to categorize unlabeled samples and updates the model parameters using a combination of supervised and unsupervised loss, along with a consistency regularization function. This approach ensures robust learning even with a limited number of labeled samples. Comparative analysis demonstrates that this method significantly outperforms existing models in both accuracy and robustness.
翻訳日:2023-12-08 17:59:32 公開日:2023-12-07
# 効率的なRNN推論のためのアクティビティスパーシリティ補足ウェイトスパシリティ

Activity Sparsity Complements Weight Sparsity for Efficient RNN Inference ( http://arxiv.org/abs/2311.07625v2 )

ライセンス: Link先を確認
Rishav Mukherji, Mark Sch\"one, Khaleelulla Khan Nazeer, Christian Mayr, Anand Subramoney(参考訳) 人工知能は、計算要求の増大を犠牲にして、前例のない機械学習機能を開放する。 重みの刈り取りによってしばしば達成されるパラメータのスパース化は、モデルパラメータの数を圧縮し、ニューラルネットワークの計算演算を減らす強力な技術として認識されている。 しかし、生物学的ニューラルネットワークとディープラーニングシステムの両方において、スパースアクティベーションは、深層学習における圧縮技術として完全には活用されていない。 さらに、スパースアクティベーションとウェイトプルーニングの相互作用は、完全には理解されていない。 本研究では,活動スパースとして設計されたGRUに基づく繰り返しニューラルネットワークモデルにおいて,活動空間がパラメータ空間と乗算的に構成できることを実証する。 我々は、penn treebank言語モデリングタスクで60ドル未満のパープレキシティを維持しながら、計算量を最大$20\times$まで削減する。 この縮小の程度は以前、sparsely connected lstmのみでは達成されておらず、このモデルの言語モデリング性能は、sparsely activated recurrent neural networksやspiking neural networksではこれまで達成されていなかった。 ニューロモルフィック・コンピューティング・デバイスは,特に動的活動空間の利点を生かし,深層学習モデルを疎外し,ニューロモルフィック・デバイスに移植することは,タスク性能を損なわない実行可能な戦略であることを示す強力な証拠を提供する。 また,より効率的な機械学習のための深層学習とニューロモルフィックコンピューティングの手法のさらなる収束も促進する。

Artificial neural networks open up unprecedented machine learning capabilities at the cost of ever growing computational requirements. Sparsifying the parameters, often achieved through weight pruning, has been identified as a powerful technique to compress the number of model parameters and reduce the computational operations of neural networks. Yet, sparse activations, while omnipresent in both biological neural networks and deep learning systems, have not been fully utilized as a compression technique in deep learning. Moreover, the interaction between sparse activations and weight pruning is not fully understood. In this work, we demonstrate that activity sparsity can compose multiplicatively with parameter sparsity in a recurrent neural network model based on the GRU that is designed to be activity sparse. We achieve up to $20\times$ reduction of computation while maintaining perplexities below $60$ on the Penn Treebank language modeling task. This magnitude of reduction has not been achieved previously with solely sparsely connected LSTMs, and the language modeling performance of our model has not been achieved previously with any sparsely activated recurrent neural networks or spiking neural networks. Neuromorphic computing devices are especially good at taking advantage of the dynamic activity sparsity, and our results provide strong evidence that making deep learning models activity sparse and porting them to neuromorphic devices can be a viable strategy that does not compromise on task performance. Our results also drive further convergence of methods from deep learning and neuromorphic computing for efficient machine learning.
翻訳日:2023-12-08 17:59:17 公開日:2023-12-07
# 知識モデルと大規模言語モデルの統合動向:方法・ベンチマーク・応用に関する調査と分類

Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications ( http://arxiv.org/abs/2311.05876v2 )

ライセンス: Link先を確認
Zhangyin Feng, Weitao Ma, Weijiang Yu, Lei Huang, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, Ting liu(参考訳) 大規模言語モデル(llm)は、様々な自然言語タスクにおいて優れた性能を示すが、古いデータやドメイン固有の制限に起因する問題に影響を受けやすい。 これらの課題に対処するため、研究者は知識編集と検索強化という2つの主要な戦略を追求し、異なる側面から外部情報を取り込むことでLSMを強化する。 それにもかかわらず、包括的調査がいまだに顕著に欠落している。 本稿では,手法,ベンチマーク,アプリケーションなどの分類学を含む知識モデルと大規模言語モデルの統合動向を論じるレビューを提案する。 さらに,異なる手法の詳細な分析を行い,将来的な研究の方向性を指摘する。 この調査がコミュニティのクイックアクセスと、今後の研究を刺激する目的で、この研究領域の包括的概要を提供することを期待している。

Large language models (LLMs) exhibit superior performance on various natural language tasks, but they are susceptible to issues stemming from outdated data and domain-specific limitations. In order to address these challenges, researchers have pursued two primary strategies, knowledge editing and retrieval augmentation, to enhance LLMs by incorporating external information from different aspects. Nevertheless, there is still a notable absence of a comprehensive survey. In this paper, we propose a review to discuss the trends in integration of knowledge and large language models, including taxonomy of methods, benchmarks, and applications. In addition, we conduct an in-depth analysis of different methods and point out potential research directions in the future. We hope this survey offers the community quick access and a comprehensive overview of this research area, with the intention of inspiring future research endeavors.
翻訳日:2023-12-08 17:58:51 公開日:2023-12-07
# 形状とファンネル効果を考慮したメディア混合モデリングのためのベイズ法

Bayesian Methods for Media Mix Modelling with shape and funnel effects ( http://arxiv.org/abs/2311.05587v3 )

ライセンス: Link先を確認
Javier Marin(参考訳) 近年、生成AIの大きな進歩は、基礎物理学の原理に基づく高度な数学的概念を応用し、人工知能の能力を高める物理にインスパイアされたモデルの重要な役割を強調している。 これらのモデルの中で、拡散方程式に基づくモデルは画像品質を大幅に改善した。 本研究は, 気体の運動論の基礎となるマクスウェル・ボルツマン方程式と, マーケティング・ミックス・モデリング(MMM)応用におけるミカエル・メンテンモデルの可能性を検討することを目的とする。 本稿では,これらの方程式を階層ベイズモデルに組み込んで,消費者行動の分析を行う。 これらの方程式セットは、社会的相互作用や消費者広告的相互作用のような複雑なシステムのランダムなダイナミクスを正確に記述する上で優れている。

In recent years, significant progress in generative AI has highlighted the important role of physics-inspired models that utilize advanced mathematical concepts based on fundamental physics principles to enhance artificial intelligence capabilities. Among these models, those based on diffusion equations have greatly improved image quality. This study aims to explore the potential uses of Maxwell-Boltzmann equation, which forms the basis of the kinetic theory of gases, and the Michaelis-Menten model in Marketing Mix Modelling (MMM) applications. We propose incorporating these equations into Hierarchical Bayesian models to analyse consumer behaviour in the context of advertising. These equation sets excel in accurately describing the random dynamics in complex systems like social interactions and consumer-advertising interactions.
翻訳日:2023-12-08 17:58:36 公開日:2023-12-07
# 高密度光追跡:ドットをつなぐ

Dense Optical Tracking: Connecting the Dots ( http://arxiv.org/abs/2312.00786v2 )

ライセンス: Link先を確認
Guillaume Le Moing, Jean Ponce, Cordelia Schmid(参考訳) 近年のポイントトラッキング手法では,映像のかなりの部分を通して任意のシーンポイントの軌跡を再現することが可能である。 しかし、単一のフレームで観測されるすべてのポイントを妥当な時間内に追跡するには、実際には遅すぎる。 本稿では,この問題を解決する新しい,シンプルかつ効率的な方法であるDOTを紹介する。 まず、オフザシェルフ点追跡アルゴリズムを用いて、動き境界のキー領域からトラックの小さなセットを抽出する。 ソースフレームとターゲットフレームが与えられた後、DOTは隣り合う補間を通して密集した流れ場と可視性マスクの粗い初期推定を計算し、学習可能な光学フロー推定器を用いてそれらを精算し、オクルージョンを明示的に処理し、接地構造対応による合成データに基づいて訓練する。 我々は、DOTが現在の光学フロー技術よりもはるかに正確であることを示し、OmniMotionのような洗練された"ユニバーサル"トラッカーよりも優れており、CoTrackerのような最良の点追跡アルゴリズムと同等か、あるいは同等であることを示した。 合成および実ビデオによる定量的および定性的な実験は、提案手法の可能性を実証する。 私たちのアプローチの機能を示すコード、データ、ビデオは、プロジェクトwebページ(https://16lemoing.github.io/dot.com/)で利用可能です。

Recent approaches to point tracking are able to recover the trajectory of any scene point through a large portion of a video despite the presence of occlusions. They are, however, too slow in practice to track every point observed in a single frame in a reasonable amount of time. This paper introduces DOT, a novel, simple and efficient method for solving this problem. It first extracts a small set of tracks from key regions at motion boundaries using an off-the-shelf point tracking algorithm. Given source and target frames, DOT then computes rough initial estimates of a dense flow field and visibility mask through nearest-neighbor interpolation, before refining them using a learnable optical flow estimator that explicitly handles occlusions and can be trained on synthetic data with ground-truth correspondences. We show that DOT is significantly more accurate than current optical flow techniques, outperforms sophisticated "universal" trackers like OmniMotion, and is on par with, or better than, the best point tracking algorithms like CoTracker while being at least two orders of magnitude faster. Quantitative and qualitative experiments with synthetic and real videos validate the promise of the proposed approach. Code, data, and videos showcasing the capabilities of our approach are available in the project webpage: https://16lemoing.github.io/dot .
翻訳日:2023-12-08 17:49:09 公開日:2023-12-07
# 開語彙オブジェクト6Dポーズ推定

Open-vocabulary object 6D pose estimation ( http://arxiv.org/abs/2312.00690v2 )

ライセンス: Link先を確認
Jaime Corsetti, Davide Boscaini, Changjae Oh, Andrea Cavallaro, Fabio Poiesi(参考訳) 本稿では,興味のある対象を特定するのにテキストプロンプトを用いるopen-vocabulary object 6d pose estimationの新たな設定について紹介する。 既存のアプローチとは対照的に、私たちの設定では (i)利害関係の対象は、テキストプロンプトを通してのみ特定される。 (ii)推論において対象モデル(cadやビデオシーケンスなど)は不要である。 (iii)二つの異なる場面の2つの異なる視点から撮影され、 (4)訓練期間中に対象物は観察されなかった。 そこで本研究では,2つの異なるシーンから対象対象を分割し,その相対的な6dポーズを推定する視覚言語モデルを用いた新しい手法を提案する。 提案手法の鍵となるのは,プロンプトによって提供されるオブジェクトレベルの情報を局所的な画像特徴と融合させることで,新しい概念に一般化できる特徴空間を実現することである。 我々は,2つの一般的なデータセットであるREAL275とToyota-Lightに基づく新しいベンチマークに対するアプローチを検証する。 その結果,本手法は,物体の相対的な6次元ポーズの推定において,手作り手法と最近のディープラーニングベースラインの両方に優れていた。 プロジェクトページ: https://jcorsetti.github.io/oryon/

We introduce the new setting of open-vocabulary object 6D pose estimation, in which a textual prompt is used to specify the object of interest. In contrast to existing approaches, in our setting (i) the object of interest is specified solely through the textual prompt, (ii) no object model (e.g. CAD or video sequence) is required at inference, (iii) the object is imaged from two different viewpoints of two different scenes, and (iv) the object was not observed during the training phase. To operate in this setting, we introduce a novel approach that leverages a Vision-Language Model to segment the object of interest from two distinct scenes and to estimate its relative 6D pose. The key of our approach is a carefully devised strategy to fuse object-level information provided by the prompt with local image features, resulting in a feature space that can generalize to novel concepts. We validate our approach on a new benchmark based on two popular datasets, REAL275 and Toyota-Light, which collectively encompass 39 object instances appearing in four thousand image pairs. The results demonstrate that our approach outperforms both a well-established hand-crafted method and a recent deep learning-based baseline in estimating the relative 6D pose of objects in different scenes. Project page: https://jcorsetti.github.io/oryon/.
翻訳日:2023-12-08 17:48:48 公開日:2023-12-07
# 熱電流変動による整流ローレンツ力

Rectified Lorentz Force from Thermal Current Fluctuations ( http://arxiv.org/abs/2312.00666v2 )

ライセンス: Link先を確認
Carsten Henkel(参考訳) 有限温度保持された導電媒体において、自由キャリアはブラウン運動を行い、変動する電磁場を生成する。 平均的なローレンツ力密度を計算し、薄い地下の層では0にならず、表面を向いているが、バルクでは0になってしまう。 これは補正されたゆらぎの基本的な例であり、カシミール力や放射熱輸送と同様である。 また,ドリュードモデルといわゆるプラズマモデルとの区別実験を行った。

In a conducting medium held at finite temperature, free carriers are performing Brownian motion and generate fluctuating electromagnetic fields. We compute the averaged Lorentz force density that turns out nonzero in a thin sub-surface layer, pointing towards the surface, while vanishing in the bulk. This is an elementary example of rectified fluctuations, similar to the Casimir force or radiative heat transport. Our results also provide an experimental way to distinguish between the Drude and so-called plasma models.
翻訳日:2023-12-08 17:48:29 公開日:2023-12-07
# Mark My Words: 言語モデル透かしの分析と評価

Mark My Words: Analyzing and Evaluating Language Model Watermarks ( http://arxiv.org/abs/2312.00273v2 )

ライセンス: Link先を確認
Julien Piet, Chawin Sitawarin, Vivian Fang, Norman Mu, David Wagner(参考訳) 近年,大規模言語モデルの能力は著しく向上しており,その誤用も懸念されている。 この文脈では、機械が生成したテキストと人間が作成したコンテンツとを区別する能力が重要となる。 先行研究は、体系的な評価フレームワークの恩恵を受けるテキストをウォーターマークするための多くのスキームを提案している。 本研究は,画像透かしとは対照的にテキスト透かし技術に焦点をあて,異なるタスクや実用的な攻撃に対する総合的なベンチマークであるmarkmywordsを提案する。 品質、サイズ(透かしを検出するのに必要なトークンの数など)、タンパー抵抗の3つの主要な指標に注目します。 現在の透かし技術は、展開するには十分である: kirchenbauer氏ら。 [1] は llama2-7b-chat を認識可能な品質の損失なく透かしすることができ、透かしは100トークン未満で検出できる。 我々は、いくつかの先行研究で強調された基準である透かしの不一致性は、要求が強すぎると主張している。 ベンチマーク(https://github.com/wagner-group/MarkMyWords)を公開しています。

The capabilities of large language models have grown significantly in recent years and so too have concerns about their misuse. In this context, the ability to distinguish machine-generated text from human-authored content becomes important. Prior works have proposed numerous schemes to watermark text, which would benefit from a systematic evaluation framework. This work focuses on text watermarking techniques - as opposed to image watermarks - and proposes MARKMYWORDS, a comprehensive benchmark for them under different tasks as well as practical attacks. We focus on three main metrics: quality, size (e.g. the number of tokens needed to detect a watermark), and tamper-resistance. Current watermarking techniques are good enough to be deployed: Kirchenbauer et al. [1] can watermark Llama2-7B-chat with no perceivable loss in quality, the watermark can be detected with fewer than 100 tokens, and the scheme offers good tamper-resistance to simple attacks. We argue that watermark indistinguishability, a criteria emphasized in some prior works, is too strong a requirement: schemes that slightly modify logit distributions outperform their indistinguishable counterparts with no noticeable loss in generation quality. We publicly release our benchmark (https://github.com/wagner-group/MarkMyWords)
翻訳日:2023-12-08 17:47:49 公開日:2023-12-07
# 透明性を伴う臨床予測に向けて:高齢者医療における生存モデル構築のための説明可能なAIアプローチ

Towards Clinical Prediction with Transparency: An Explainable AI Approach to Survival Modelling in Residential Aged Care ( http://arxiv.org/abs/2312.00271v2 )

ライセンス: Link先を確認
Teo Susnjak, Elise Griffin, Mitchell McCutcheon, Kathleen Potter(参考訳) 背景: 正確な生存時間推定は、終末期の医療意思決定に役立つ。 目的:先進的機械学習を用いた高齢者介護者のための解釈可能な生存モデルの開発 オーストララシアの主要住宅介護業者である。 参加者:65歳以上の住民が2017年7月から2023年8月までの長期療養を認められた。 サンプルサイズ:40施設11,944人。 予測因子:年齢、性別、健康状態、共生性、認知機能、気分、栄養、運動性、喫煙、睡眠、肌の完全性、継続性などである。 結果:6カ月生存率を特に調整した生存後生存確率。 統計的分析: coxph, en, rr, lasso, gb, xgb, rfモデルの試験を20回行い、90/10の列車/テスト分割を行った。 c-index, harrell's c-index, dynamic auroc, ibs, calibrated rocを用いた精度評価。 パフォーマンスのためにXGBを選択し、Platetスケーリングを使用して1, 3, 6, 12ヶ月の予測をキャリブレーションした。 予測への影響を分析するためにSHAP値が使用される。 結果: GB, XGB, RFモデルは最高C-Index値(0.714, 0.712, 0.712)を示した。 最適xgbモデルは6ヶ月生存予測auroc 0.746 (95% ci 0.744-0.749) を示した。 主な死亡率予測には、年齢、男性性、移動性、健康状態、圧力潰瘍リスク、食欲などが含まれる。 結論: 本研究は, 高齢者医療の生存モデル作成に機械学習を適用し, 死亡リスク要因に関する臨床的知見と整合し, 説明可能なAIによるモデル解釈可能性と臨床的有用性を向上させる。

Background: Accurate survival time estimates aid end-of-life medical decision-making. Objectives: Develop an interpretable survival model for elderly residential aged care residents using advanced machine learning. Setting: A major Australasian residential aged care provider. Participants: Residents aged 65+ admitted for long-term care from July 2017 to August 2023. Sample size: 11,944 residents across 40 facilities. Predictors: Factors include age, gender, health status, co-morbidities, cognitive function, mood, nutrition, mobility, smoking, sleep, skin integrity, and continence. Outcome: Probability of survival post-admission, specifically calibrated for 6-month survival estimates. Statistical Analysis: Tested CoxPH, EN, RR, Lasso, GB, XGB, and RF models in 20 experiments with a 90/10 train/test split. Evaluated accuracy using C-index, Harrell's C-index, dynamic AUROC, IBS, and calibrated ROC. Chose XGB for its performance and calibrated it for 1, 3, 6, and 12-month predictions using Platt scaling. Employed SHAP values to analyze predictor impacts. Results: GB, XGB, and RF models showed the highest C-Index values (0.714, 0.712, 0.712). The optimal XGB model demonstrated a 6-month survival prediction AUROC of 0.746 (95% CI 0.744-0.749). Key mortality predictors include age, male gender, mobility, health status, pressure ulcer risk, and appetite. Conclusions: The study successfully applies machine learning to create a survival model for aged care, aligning with clinical insights on mortality risk factors and enhancing model interpretability and clinical utility through explainable AI.
翻訳日:2023-12-08 17:47:27 公開日:2023-12-07
# ステップサイズチューニングとプログレッシブシャープニングの相互作用について

On the Interplay Between Stepsize Tuning and Progressive Sharpening ( http://arxiv.org/abs/2312.00209v2 )

ライセンス: Link先を確認
Vincent Roulet, Atish Agarwala, Fabian Pedregosa(参考訳) 近年の実証研究は、最適化器が安定の端で作動する臨界値を中心に安定するまで、シャープネス(ヘッセンの最大の固有値)が最適化を通して増加する深層学習モデルの興味深い性質を明らかにしている(Cohen et al, 2022)。 本研究は, ステップサイズチューナーを用いて, ステップサイズ・チューナーを用いて, ステップサイズを局所的な量(例えば, 暗黙的に, シャープネス自体)に適応させる手法を実証的に検討する。 古典的Armijo行探索の驚くほど貧弱な性能は、完全あるいは大規模バッチシステムにおける目的のシャープさを継続的に増加させる傾向によってよく説明できる。 一方,polyakのステップ化は一般に安定性の辺で,あるいは少し先でも作用するのに対し,armijoよりも優れ,また一定のステップ化が可能であることが観察された。 ステップサイズチューナーのアンロックには,ステップサイズとシャープネスのジョイントダイナミクスの理解が必要であることを示唆する分析で結論付けた。

Recent empirical work has revealed an intriguing property of deep learning models by which the sharpness (largest eigenvalue of the Hessian) increases throughout optimization until it stabilizes around a critical value at which the optimizer operates at the edge of stability, given a fixed stepsize (Cohen et al, 2022). We investigate empirically how the sharpness evolves when using stepsize-tuners, the Armijo linesearch and Polyak stepsizes, that adapt the stepsize along the iterations to local quantities such as, implicitly, the sharpness itself. We find that the surprisingly poor performance of a classical Armijo linesearch may be well explained by its tendency to ever-increase the sharpness of the objective in the full or large batch regimes. On the other hand, we observe that Polyak stepsizes operate generally at the edge of stability or even slightly beyond, while outperforming its Armijo and constant stepsizes counterparts. We conclude with an analysis that suggests unlocking stepsize tuners requires an understanding of the joint dynamics of the step size and the sharpness.
翻訳日:2023-12-08 17:47:01 公開日:2023-12-07
# ニュースナラティブをナビゲートする:メディアバイアス分析データセット

Navigating News Narratives: A Media Bias Analysis Dataset ( http://arxiv.org/abs/2312.00168v2 )

ライセンス: Link先を確認
Shaina Raza(参考訳) 様々なメディアプラットフォームにわたる偏りのあるニュース記事の拡散は、政治、健康、気候変動といった重要な話題に対する世論に影響を与える重要な課題となっている。 本稿では,メディアバイアスを検知・解析するツールの緊急的ニーズに対処する包括的データセットである“Navigating News Narratives: A Media Bias Analysis Dataset”を紹介する。 このデータセットは幅広いバイアスを包含しており、メディア研究や人工知能の分野でユニークで価値のある資産となっている。 データセットはhttps://huggingface.co/datasets/newsmediabias/news-bias-full-dataで利用可能である。

The proliferation of biased news narratives across various media platforms has become a prominent challenge, influencing public opinion on critical topics like politics, health, and climate change. This paper introduces the "Navigating News Narratives: A Media Bias Analysis Dataset", a comprehensive dataset to address the urgent need for tools to detect and analyze media bias. This dataset encompasses a broad spectrum of biases, making it a unique and valuable asset in the field of media studies and artificial intelligence. The dataset is available at https://huggingface.co/datasets/newsmediabias/news-bias-full-data.
翻訳日:2023-12-08 17:46:41 公開日:2023-12-07
# PerSival: 神経ネットワークによる筋骨格バイオメカニクスにおける広範連続体-機械シミュレーションの可視化

PerSival: Neural-network-based visualisation for pervasive continuum-mechanical simulations in musculoskeletal biomechanics ( http://arxiv.org/abs/2312.03957v1 )

ライセンス: Link先を確認
David Rosin, Johannes K\"assinger, Xingyao Yu, Okan Avci, Christian Bleiler, Oliver R\"ohrle(参考訳) 本稿では,3次元ヒト上肢筋骨格系モデルの広汎化を目的とした新しいニューラルネットワークアーキテクチャを提案する。 モバイルデバイスのようなリソースパウダーシステムへのシミュレーション機能の導入は、多くの研究分野において関心を集めており、手法や結果の適用範囲を広げている。 最近まで、この目標は、計算コストの制限のため、筋骨格系の現実的な連続的機械的シミュレーションには到達できないと考えられていた。 この作業では、mの表面変形を捉えるためにスパースグリッドサロゲートを使用します。 深層学習モデルを訓練するために、同じ筋肉をリアルタイムで可視化するために用いられる。 どちらのサーロゲートモデルも、筋肉表面の各メッシュノードの入力および出力デカルト座標ベクトルとして5つの筋活性化レベルを取る。 したがって、ニューラルネットワークアーキテクチャは、出力次元よりもかなり低い入力を特徴付ける。 5の筋肉活性化レベルが0.97 +/-0.16 mm, または0.57 +/-0.10 %の誤差を達成するのに十分であった。 このモデルは、cpuのみの予測変形状態当たり9.88ms、gpuサポートで3.48msの評価時間を達成し、理論フレームレートは101fpsと287fpsとなった。 これにより、ディープラーニングサロゲートは、ビジュアルリアルタイムアプリケーションに連続機械シミュレーションをアクセスできるようにする。

This paper presents a novel neural network architecture for the purpose of pervasive visualisation of a 3D human upper limb musculoskeletal system model. Bringing simulation capabilities to resource-poor systems like mobile devices is of growing interest across many research fields, to widen applicability of methods and results. Until recently, this goal was thought to be out of reach for realistic continuum-mechanical simulations of musculoskeletal systems, due to prohibitive computational cost. Within this work we use a sparse grid surrogate to capture the surface deformation of the m.~biceps brachii in order to train a deep learning model, used for real-time visualisation of the same muscle. Both these surrogate models take 5 muscle activation levels as input and output Cartesian coordinate vectors for each mesh node on the muscle's surface. Thus, the neural network architecture features a significantly lower input than output dimension. 5 muscle activation levels were sufficient to achieve an average error of 0.97 +/- 0.16 mm, or 0.57 +/- 0.10 % for the 2809 mesh node positions of the biceps. The model achieved evaluation times of 9.88 ms per predicted deformation state on CPU only and 3.48 ms with GPU-support, leading to theoretical frame rates of 101 fps and 287 fps respectively. Deep learning surrogates thus provide a way to make continuum-mechanical simulations accessible for visual real-time applications.
翻訳日:2023-12-08 16:43:43 公開日:2023-12-07
# コード大言語モデルにおけるトロイの木馬入力のオクルージョンに基づく検出

Occlusion-based Detection of Trojan-triggering Inputs in Large Language Models of Code ( http://arxiv.org/abs/2312.04004v1 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Toufique Ahmed, Mohammad Amin Alipour, Bowen Xu(参考訳) 大規模言語モデル(LLM)はソフトウェア開発の一体的な部分になりつつある。 これらのモデルは、コードのために大きなデータセットでトレーニングされ、各データポイントの検証が難しい。 したがって、潜在的攻撃面は、有毒データをトレーニングデータに注入してモデルに脆弱性を持たせることができる。 モデル内にマニピュレーション的な振る舞いを隠すことで重大な脅威をもたらし、ダウンストリームタスクにおけるモデルの整合性を損なうことになる。 本稿では,コードのトロイの木馬入力を識別するためのオクルージョンに基づくヒューマン・イン・ザ・ループ手法であるoseqlを提案する。 この手法は、コードのトロイの木馬型ニューラルモデルが入力のトリガー部分に大きく依存しているという観察に基づいており、その除去によって予測におけるモデルの信頼性が大幅に変化する。 以上の結果から,OSeqlは,ほぼ100%のリコールでトリガ入力を検出できることが示唆された。 我々は偽陽性の問題と対処方法について議論する。 これらの結果は今後の研究の基盤となる。

Large language models (LLMs) are becoming an integrated part of software development. These models are trained on large datasets for code, where it is hard to verify each data point. Therefore, a potential attack surface can be to inject poisonous data into the training data to make models vulnerable, aka trojaned. It can pose a significant threat by hiding manipulative behaviors inside models, leading to compromising the integrity of the models in downstream tasks. In this paper, we propose an occlusion-based human-in-the-loop technique, OSeql, to distinguish trojan-triggering inputs of code. The technique is based on the observation that trojaned neural models of code rely heavily on the triggering part of input; hence, its removal would change the confidence of the models in their prediction substantially. Our results suggest that OSeql can detect the triggering inputs with almost 100% recall. We discuss the problem of false positives and how to address them. These results provide a baseline for future studies in this field.
翻訳日:2023-12-08 16:30:16 公開日:2023-12-07
# LiDAR: SSLアーキテクチャを組み込んだ共同実装における線形プロファイリングパフォーマンスのセンシング

LiDAR: Sensing Linear Probing Performance in Joint Embedding SSL Architectures ( http://arxiv.org/abs/2312.04000v1 )

ライセンス: Link先を確認
Vimal Thilak and Chen Huang and Omid Saremi and Laurent Dinh and Hanlin Goh and Preetum Nakkiran and Joshua M. Susskind and Etai Littwin(参考訳) JEアーキテクチャは、転送可能なデータ表現を取得するための有望な道として登場した。 しかしjeメソッドを使用する上での重要な障害は、ダウンストリームタスクや注釈付きデータセットにアクセスせずに学習表現を評価することにある。 効率的で信頼性の高い評価がなければ、JEメソッドのアーキテクチャとトレーニングの選択を繰り返すのは難しい。 本稿では,JEアーキテクチャにおける表現の質を測定するための指標であるLiDAR(Linear Discriminant Analysis Rank)を紹介する。 我々は,情報的特徴と非形式的特徴の区別による特徴共分散ランクに基づく最近のアプローチの欠点について考察した。 本質的に、LiDARはSSLタスクに関連する線形識別分析(LDA)行列のランクを定量化します。 我々は、LiDARが最適なハイパーパラメータの予測能力において、ナイーブなランクに基づくアプローチをはるかに上回っていることを実証的に実証した。 提案する基準は,JEアーキテクチャにおける表現の質を評価するための,より堅牢で直感的な手段を提供する。

Joint embedding (JE) architectures have emerged as a promising avenue for acquiring transferable data representations. A key obstacle to using JE methods, however, is the inherent challenge of evaluating learned representations without access to a downstream task, and an annotated dataset. Without efficient and reliable evaluation, it is difficult to iterate on architectural and training choices for JE methods. In this paper, we introduce LiDAR (Linear Discriminant Analysis Rank), a metric designed to measure the quality of representations within JE architectures. Our metric addresses several shortcomings of recent approaches based on feature covariance rank by discriminating between informative and uninformative features. In essence, LiDAR quantifies the rank of the Linear Discriminant Analysis (LDA) matrix associated with the surrogate SSL task -- a measure that intuitively captures the information content as it pertains to solving the SSL task. We empirically demonstrate that LiDAR significantly surpasses naive rank based approaches in its predictive power of optimal hyperparameters. Our proposed criterion presents a more robust and intuitive means of assessing the quality of representations within JE architectures, which we hope facilitates broader adoption of these powerful techniques in various domains.
翻訳日:2023-12-08 16:29:59 公開日:2023-12-07
# Series2Vec: 時系列分類のための類似性に基づく自己教師型表現学習

Series2Vec: Similarity-based Self-supervised Representation Learning for Time Series Classification ( http://arxiv.org/abs/2312.03998v1 )

ライセンス: Link先を確認
Navid Mohammadi Foumani, Chang Wei Tan, Geoffrey I. Webb, Mahsa Salehi(参考訳) 時系列分析は、定義可能な意味のある自己教師型学習タスクの形式に関して、視覚処理や自然言語処理と本質的に異なると論じる。 この知見に動機づけられ、自己教師付き表現学習のための新しいアプローチである \textit{series2vec} を導入する。 正のサンプル変種が負のセットの級数よりもアンカーのサンプルに似ていないというリスクを持つ時系列の他の自己教師あり手法とは異なり、 series2vec は自己教師付きタスクを通じて時間領域とスペクトル領域の両方の2つの系列の類似性を予測するように訓練される。 Series2Vecは、手作りのデータ拡張を必要とせず、本質的に類似度測定の質よりも、教師なしの類似度ステップの一貫性に依存している。 さらに,類似した時系列の類似表現をネットワークに学習させるため,訓練中のバッチ内の各表現に順序不変注意を適用する新しい手法を提案する。 UCR/UEAアーカイブとともに,9つの大規模実世界のデータセットに対するSeries2Vecの評価を行った。 さらに, 大規模実験により, series2vec が完全な教師付きトレーニングと相性良く動作し, 限られたラベルデータを持つデータセットにおいて高い効率性を提供することを示した。 最後に,Series2Vecと他の表現学習モデルとの融合が時系列分類の性能向上につながることを示す。 コードとモデルは、 \url{https://github.com/Navidfoumani/Series2Vecでオープンソース化されている。 }

We argue that time series analysis is fundamentally different in nature to either vision or natural language processing with respect to the forms of meaningful self-supervised learning tasks that can be defined. Motivated by this insight, we introduce a novel approach called \textit{Series2Vec} for self-supervised representation learning. Unlike other self-supervised methods in time series, which carry the risk of positive sample variants being less similar to the anchor sample than series in the negative set, Series2Vec is trained to predict the similarity between two series in both temporal and spectral domains through a self-supervised task. Series2Vec relies primarily on the consistency of the unsupervised similarity step, rather than the intrinsic quality of the similarity measurement, without the need for hand-crafted data augmentation. To further enforce the network to learn similar representations for similar time series, we propose a novel approach that applies order-invariant attention to each representation within the batch during training. Our evaluation of Series2Vec on nine large real-world datasets, along with the UCR/UEA archive, shows enhanced performance compared to current state-of-the-art self-supervised techniques for time series. Additionally, our extensive experiments show that Series2Vec performs comparably with fully supervised training and offers high efficiency in datasets with limited-labeled data. Finally, we show that the fusion of Series2Vec with other representation learning models leads to enhanced performance for time series classification. Code and models are open-source at \url{https://github.com/Navidfoumani/Series2Vec.}
翻訳日:2023-12-08 16:29:39 公開日:2023-12-07
# 埋め込みパリティ時間対称su-schrieffer-heeger系における非対称ポストクエンチ輸送

Asymmetrical post quench transport in an embedded parity time symmetric Su-Schrieffer-Heeger system ( http://arxiv.org/abs/2312.03997v1 )

ライセンス: Link先を確認
Anirban Ghosh, Andy Martin(参考訳) クエンチにより生じるエッジ状態確率密度の輸送に及ぼすPT対称非ハーミシティの影響について検討した。 2つの平らなSSHシステムの間に挟まれたPT対称SSH領域を含むハイブリッドシステムは、ダイナミクスを研究するために設計されている。 エッジ状態の性質を確認するために幾何学的議論と数値計算を行った。 次に、クエンチダイナミクスを数値的に計算し、輸送波の伝播方向やエッジ状態の初期位置に依存する非エルミート部分からの非対称反射の結果、クエンチ確率密度光円錐がコントラスト形状を示すことを実証する。

We study the effect of PT-symmetric non-hermiticity on the transport of edge state probability density arising as a result of a quench. A hybrid system involving a PT-symmetric SSH region sandwiched between two plain SSH systems is designed to study the dynamics. Geometrical arguments and numerical calculations were made to ascertain the nature of edge states. We then compute the quench dynamics numerically and demonstrate that the post-quench probability density light cones exhibit contrasting shapes as a result of asymmetrical reflections from the non-Hermitian part of the system depending on the direction of propagation of the transporting wave and, hence, on the initial localization of the edge state.
翻訳日:2023-12-08 16:29:08 公開日:2023-12-07
# COCOおよび雑草データセットにおけるデータ拡張のための安定拡散

Stable diffusion for Data Augmentation in COCO and Weed Datasets ( http://arxiv.org/abs/2312.03996v1 )

ライセンス: Link先を確認
Boyang Deng, Yuzhen Lu(参考訳) 生成モデルは、コンピュータビジョンにおけるイメージリビジョンやオブジェクト検出から、より一般的な分野におけるインテリアデザインやアイデアイラストレーションまで、相対的なタスクに影響を与えている。 安定拡散は、テキストプロンプトや参照画像から詳細な詳細を持つ高解像度画像を生成するための、優れたモデルシリーズである。 特定のカテゴリ(例えば、車、人間、毎日のオブジェクト)の画像のバリエーションを高めるために、安定した拡散の能力をどのように活用するか、という興味深い話題になるでしょう。 本研究は、ミシガン州のCOCOデータセットと3種の広く分布する雑草の7つのカテゴリーを用いて、最近の安定拡散の効率を評価した。 さらに,これらのクラスに属する合成画像を生成するために安定拡散法を用いて,これらの合成画像に基づいてYOLOv8モデルを訓練した。 また,安定拡散の複数の技術(画像から画像への翻訳,ドリームブート,コントロールネットなど)を,焦点の異なる画像生成に活用した。 全体的な結果が失望しているにもかかわらず、いくつかのクラスでは有望な結果が得られ、安定した拡散モデルが検出モデルの性能を向上させる可能性を示し、生成した画像によってモデルに伝達されるより有用な情報を表す。 この基礎研究は、異なる分野における分類および検出タスクへの安定拡散モデルの適応を早める可能性がある。

Generative models have increasingly impacted relative tasks ranging from image revision and object detection in computer vision to interior design and idea illustration in more general fields. Stable diffusion is an outstanding model series that paves the way for producing high-resolution images with thorough details from text prompts or reference images. It will be an interesting topic about how to leverage the capability of stable diffusion to elevate the image variations of certain categories (e.g., vehicles, humans, and daily objects); particularly, it has the potential to gain improvements for small datasets with image-sparse categories. This study utilized seven categories in the popular COCO dataset and three widespread weed species in Michigan to evaluate the efficiency of a recent version of stable diffusion. In detail, Stable diffusion was used to generate synthetic images belonging to these classes; then, YOLOv8 models were trained based on these synthetic images, whose performance was compared to the models trained on original images. In addition, several techniques (e.g., Image-to-image translation, Dreambooth, ControlNet) of Stable diffusion were leveraged for image generation with different focuses. In spite of the overall results being disappointing, promising results have been achieved in some classes, illustrating the potential of stable diffusion models to improve the performance of detection models, which represent more helpful information being conveyed into the models by the generated images. This seminal study may expedite the adaption of stable diffusion models to classification and detection tasks in different fields.
翻訳日:2023-12-08 16:28:57 公開日:2023-12-07
# 安定拡散を用いたカルビン・ホッブズ漫画へのスタイル移行

Style Transfer to Calvin and Hobbes comics using Stable Diffusion ( http://arxiv.org/abs/2312.03993v1 )

ライセンス: Link先を確認
Sloke Shrestha, Sundar Sripada V. S., Asvin Venkataramanan(参考訳) 本プロジェクト報告では,calvin と hobbes comics を含むデータセット上で安定した拡散微調整を行うための旅をまとめる。 その目的は、任意の入力画像をカルビンとホッブズのコミックスタイルに変換し、基本的にはスタイル転送を行うことである。 低階適応(lora)を用いて安定拡散v1.5を訓練し,微調整プロセスの高速化を図る。 拡散自体は、U-netである変分オートエンコーダ(VAE)によって処理される。 その結果,学習時間と学習開始時の入力データの質を視覚的に評価した。

This project report summarizes our journey to perform stable diffusion fine-tuning on a dataset containing Calvin and Hobbes comics. The purpose is to convert any given input image into the comic style of Calvin and Hobbes, essentially performing style transfer. We train stable-diffusion-v1.5 using Low Rank Adaptation (LoRA) to efficiently speed up the fine-tuning process. The diffusion itself is handled by a Variational Autoencoder (VAE), which is a U-net. Our results were visually appealing for the amount of training time and the quality of input data that went into training.
翻訳日:2023-12-08 16:28:33 公開日:2023-12-07
# MICRO:保守的ベルマン演算子を用いたモデルベースオフライン強化学習

MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator ( http://arxiv.org/abs/2312.03991v1 )

ライセンス: Link先を確認
Xiao-Yin Liu, Xiao-Hu Zhou, Guo-Tao Li, Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang and Zeng-Guang Hou(参考訳) オフライン強化学習(RL)は分布シフトの大きな課題に直面している。 モデルレスオフラインRLは、アウト・オブ・ディストリビューション(OOD)データに対するQ値のペナルティや、この問題に対処するために行動ポリシーに閉じたポリシーを制約するが、これはOOD領域の探索を阻害する。 モデルベースオフラインRLは、トレーニングされた環境モデルを用いて、より多くのOODデータを生成し、そのモデル内で保守的なポリシー最適化を行う。 しかし、現在のモデルベースアルゴリズムは、保守主義をポリシーに組み込む際にエージェントの堅牢性を考慮することは稀である。 そこで,保守的ベルマン演算子 (MICRO) を用いた新しいモデルベースオフラインアルゴリズムを提案する。 この方法は、堅牢なベルマン演算子をアルゴリズムに導入することで、性能と堅牢性をトレードオフする。 MICROは、従来のモデルベースアルゴリズムと頑健な逆数モデルと比較して、状態不確実性セットの最小Q値のみを選択することで、計算コストを大幅に削減することができる。 大規模な実験により、MICROはオフラインのRLベンチマークにおいて、以前のRLアルゴリズムよりも優れており、敵の摂動に対してかなり堅牢であることが示された。

Offline reinforcement learning (RL) faces a significant challenge of distribution shift. Model-free offline RL penalizes the Q value for out-of-distribution (OOD) data or constrains the policy closed to the behavior policy to tackle this problem, but this inhibits the exploration of the OOD region. Model-based offline RL, which uses the trained environment model to generate more OOD data and performs conservative policy optimization within that model, has become an effective method for this problem. However, the current model-based algorithms rarely consider agent robustness when incorporating conservatism into policy. Therefore, the new model-based offline algorithm with a conservative Bellman operator (MICRO) is proposed. This method trades off performance and robustness via introducing the robust Bellman operator into the algorithm. Compared with previous model-based algorithms with robust adversarial models, MICRO can significantly reduce the computation cost by only choosing the minimal Q value in the state uncertainty set. Extensive experiments demonstrate that MICRO outperforms prior RL algorithms in offline RL benchmark and is considerably robust to adversarial perturbations.
翻訳日:2023-12-08 16:28:24 公開日:2023-12-07
# 機械学習を用いたその場X線回折データからの希少事象の迅速検出

Rapid detection of rare events from in situ X-ray diffraction data using machine learning ( http://arxiv.org/abs/2312.03989v1 )

ライセンス: Link先を確認
Weijian Zheng, Jun-Sang Park, Peter Kenesei, Ahsan Ali, Zhengchun Liu, Ian T. Foster, Nicholas Schwarz, Rajkumar Kettimuthu, Antonino Miceli, Hemant Sharma(参考訳) 高エネルギーX線回折法は、金属多結晶工学材料の3次元微細構造と関連する特性をバルク状に非破壊的にマッピングすることができる。 これらの方法は、しばしば熱力学的負荷などの外部刺激と組み合わされ、進化する組織と属性の時間とともにスナップショットを取る。 しかし、極端なデータ量と従来のデータ取得と削減アプローチの高コストは、迅速に実行可能な洞察を抽出し、スナップショットのテンポラリな解決を改善するための障壁となる。 本稿では, 高エネルギーx線顕微鏡データにおいて, 塑性の発生を迅速に検出できる完全自動化技術を提案する。 我々の手法は従来の手法の少なくとも50倍高速であり、全データセットの9倍の間隔を持つデータセットに対して有効である。 この技術は、自己教師付き画像表現学習とクラスタリングを利用して、大量のデータを視覚的に有意な特徴(例えばピーク形状)のコンパクトで意味豊かな表現に変換する。 これらの特性は、回折ピーク形状の変化などの異常事象の迅速な指標となりうる。 この技術は、何十年もの期間にわたるマルチモーダルX線回折法を効果的に展開する、よりスマートな実験を促進するために、ジャストインタイムで実行可能な情報を提供することを期待している。

High-energy X-ray diffraction methods can non-destructively map the 3D microstructure and associated attributes of metallic polycrystalline engineering materials in their bulk form. These methods are often combined with external stimuli such as thermo-mechanical loading to take snapshots over time of the evolving microstructure and attributes. However, the extreme data volumes and the high costs of traditional data acquisition and reduction approaches pose a barrier to quickly extracting actionable insights and improving the temporal resolution of these snapshots. Here we present a fully automated technique capable of rapidly detecting the onset of plasticity in high-energy X-ray microscopy data. Our technique is computationally faster by at least 50 times than the traditional approaches and works for data sets that are up to 9 times sparser than a full data set. This new technique leverages self-supervised image representation learning and clustering to transform massive data into compact, semantic-rich representations of visually salient characteristics (e.g., peak shapes). These characteristics can be a rapid indicator of anomalous events such as changes in diffraction peak shapes. We anticipate that this technique will provide just-in-time actionable information to drive smarter experiments that effectively deploy multi-modal X-ray diffraction methods that span many decades of length scales.
翻訳日:2023-12-08 16:28:05 公開日:2023-12-07
# 弱い測定と環境支援測定による相関振幅減衰雑音の高次元テレポーテーション

Enhanced high-dimensional teleportation in correlated amplitude damping noise by weak measurement and environment-assisted measurement ( http://arxiv.org/abs/2312.03988v1 )

ライセンス: Link先を確認
Xing Xiao, Tian-Xiang Lu and Yan-Ling Li(参考訳) 高次元テレポーテーションは量子ネットワークやリピータに様々な利点をもたらすが、これらの利点はすべてノイズチャネル上の高次元絡み合いの高品質な分布に依存している。 2つの絡み合ったクエットが同じチャネルを連続して移動する場合、相関効果を考慮することが不可欠である。 本稿では、弱い測定(WM)と環境支援測定(EAM)による相関振幅減衰(CAD)ノイズにおけるクォートテレポーテーションを強化するための2つの方法を提案する。 WMとEAMの確率的性質により,両アプローチの忠実度は劇的に改善されている。 本研究では,cadノイズの相関効果が成功確率を増加させることを確認した。 比較の結果、EAM方式は忠実性に関して一貫してWM方式よりも優れていた。 本研究は,量子技術としてwmとeamの機能を拡張し,高次元システムにおける高度な量子技術の発展を促進する。

High-dimensional teleportation provides various benefits in quantum networks and repeaters, but all these advantages rely on the high-quality distribution of high-dimensional entanglement over a noisy channel. It is essential to consider correlation effects when two entangled qutrits travel consecutively through the same channel. In this paper, we present two strategies for enhancing qutrit teleportation in correlated amplitude damping (CAD) noise by weak measurement (WM) and environment-assisted measurement (EAM). The fidelity of both approaches has been dramatically improved due to the probabilistic nature of WM and EAM. We have observed that the correlation effects of CAD noise result in an increase in the probability of success. A comparison has demonstrated that the EAM scheme consistently outperforms the WM scheme in regard to fidelity. Our research expands the capabilities of WM and EAM as quantum techniques to combat CAD noise in qutrit teleportation, facilitating the development of advanced quantum technologies in high-dimensional systems.
翻訳日:2023-12-08 16:27:44 公開日:2023-12-07
# エンティティ解決のためのコスト効果のあるインコンテキスト学習:設計空間探索

Cost-Effective In-Context Learning for Entity Resolution: A Design Space Exploration ( http://arxiv.org/abs/2312.03987v1 )

ライセンス: Link先を確認
Meihao Fan and Xiaoyue Han and Ju Fan and Chengliang Chai and Nan Tang and Guoliang Li and Xiaoyong Du(参考訳) エンティティ解決(ER)は、幅広いアプリケーションを持つ重要なデータ統合タスクである。 ERの最先端ソリューションは事前訓練された言語モデル(PLM)に依存しており、多くのラベル付きマッチング/非マッチングエンティティペアを微調整する必要がある。 近年,GPT-4のような大規模言語モデル (LLM) では,いくつかのラベル付き入力コンテキストのデモから効果的な学習を容易にするICL (In-context Learning) と呼ばれるモデルパラメータをチューニングすることなく,多数のタスクを実行する能力を示している。 しかしながら、ERへの既存のICLアプローチは、通常、各エンティティペアに対してタスク記述とデモセットを提供することを必要とし、そのため、LLMと対向する金銭的コストに制限がある。 この問題に対処するため,本稿では,ERに対する費用対効果のあるバッチプロンプト手法の開発方法について,包括的に検討する。 実演選択と質問バッチからなるフレームワークBATCHERを導入し,ERのバッチプロンプトをサポートする設計選択について検討する。 また,マッチング精度と金融コストのバランスを効果的に両立する,カバーベースデモ選択戦略も考案した。 我々は,設計空間を探索し,提案する戦略を評価するために,徹底的な評価を行う。 大規模な実験により, バッチプロンプトは, 広範囲なラベル付きデータで微調整されたPLM法だけでなく, 手作業で設計したLPM法と比較して, ERにとって非常に費用対効果が高いことがわかった。 また、バッチプロンプトに適した設計選択を選択するためのガイダンスも提供します。

Entity resolution (ER) is an important data integration task with a wide spectrum of applications. The state-of-the-art solutions on ER rely on pre-trained language models (PLMs), which require fine-tuning on a lot of labeled matching/non-matching entity pairs. Recently, large languages models (LLMs), such as GPT-4, have shown the ability to perform many tasks without tuning model parameters, which is known as in-context learning (ICL) that facilitates effective learning from a few labeled input context demonstrations. However, existing ICL approaches to ER typically necessitate providing a task description and a set of demonstrations for each entity pair and thus have limitations on the monetary cost of interfacing LLMs. To address the problem, in this paper, we provide a comprehensive study to investigate how to develop a cost-effective batch prompting approach to ER. We introduce a framework BATCHER consisting of demonstration selection and question batching and explore different design choices that support batch prompting for ER. We also devise a covering-based demonstration selection strategy that achieves an effective balance between matching accuracy and monetary cost. We conduct a thorough evaluation to explore the design space and evaluate our proposed strategies. Through extensive experiments, we find that batch prompting is very cost-effective for ER, compared with not only PLM-based methods fine-tuned with extensive labeled data but also LLM-based methods with manually designed prompting. We also provide guidance for selecting appropriate design choices for batch prompting.
翻訳日:2023-12-08 16:27:29 公開日:2023-12-07
# 3次元キャビティに結合した磁束可変グラフェン系超伝導量子回路

Flux tunable graphene-based superconducting quantum circuits coupled to 3D cavity ( http://arxiv.org/abs/2312.03985v1 )

ライセンス: Link先を確認
Kuei-Lin Chiu, Youyi Chang, Avishma J. Lasrado, Cheng-Han Lo, Yung-Hsiang Chen, Tao-Yi Hsu, Yen-Chih Chen, Yi-Chen Tsai, Samina, Yen-Hsiang Lin, Chung-Ting Ke(参考訳) トランスモンとその複合ジョセフソン接合(JJ)の相関は、量子材料に基づく新しい種類の超伝導量子ビットの設計において重要な役割を果たす。 量子情報処理に使用するための探索を可能にするだけでなく、複合JJの固有の特性を探索するタイプの装置を持つことが望ましい。 本稿では,グラフェンを用いたフラックス可変3Dトランスモン型超伝導量子回路を概念実証プロトタイプとして構築する。 この3Dトランスモン型デバイスは、マイクロ波プローブの3Dキャビティへの結合を可能にするだけでなく、同じデバイス上でDC輸送の測定を可能にし、トランスモン特性とJJの特性に関連する臨界電流との有用な接続を提供する。 非対称SQUIDにおけるJJのフラウンホーファーパターンの影響を受け, キャビティ周波数と直流臨界電流のフラックス変調がいかに相関するかを実証した。 相関解析はさらに拡張され、量子ビットおよびキャビティ周波数のフラックスチューナビリティなどのフラックス変調トランスモン特性と、直流測定に基づくsquid対称性解析を関連付けた。 本研究は, 複合材料における基礎物理を探究しながら, 新たなタイプの量子デバイス探索のための新しい材料の統合への道を開く。

Correlation between transmon and its composite Josephson junctions (JJ) plays an important role in designing new types of superconducting qubits based on quantum materials. It is desirable to have a type of device that not only allows exploration for use in quantum information processing but also probing intrinsic properties in the composite JJs. Here, we construct a flux-tunable 3D transmon-type superconducting quantum circuit made of graphene as a proof-of-concept prototype device. This 3D transmon-type device not only enables coupling to 3D cavities for microwave probes but also permits DC transport measurements on the same device, providing useful connections between transmon properties and critical currents associated with JJ's properties. We have demonstrated how flux-modulation in cavity frequency and DC critical current can be correlated under the influence of Fraunhofer pattern of JJs in an asymmetric SQUID. The correlation analysis was further extended to link the flux-modulated transmon properties, such as flux-tunability in qubit and cavity frequencies, with SQUID symmetry analysis based on DC measurements. Our study paves the way towards integrating novel materials for exploration of new types of quantum devices for future technology while probing underlying physics in the composite materials.
翻訳日:2023-12-08 16:27:01 公開日:2023-12-07
# 再構成可能な原子配列に基づく論理量子プロセッサ

Logical quantum processor based on reconfigurable atom arrays ( http://arxiv.org/abs/2312.03982v1 )

ライセンス: Link先を確認
Dolev Bluvstein, Simon J. Evered, Alexandra A. Geim, Sophie H. Li, Hengyun Zhou, Tom Manovitz, Sepehr Ebadi, Madelyn Cain, Marcin Kalinowski, Dominik Hangleiter, J. Pablo Bonilla Ataides, Nishad Maskara, Iris Cong, Xun Gao, Pedro Sales Rodriguez, Thomas Karolyshyn, Giulia Semeghini, Michael J. Gullans, Markus Greiner, Vladan Vuletic, Mikhail D. Lukin(参考訳) エラーの抑制は有用な量子コンピューティングの中心的な課題であり、大規模な処理には量子誤差補正を必要とする。 しかし、情報の冗長性のために多くの物理キュービットにわたってエンコードされる誤り訂正された「論理」キュービットの実現におけるオーバーヘッドは、大規模な論理量子コンピューティングにとって大きな課題となる。 本稿では,最大280個の物理量子ビットで動作する符号化論理量子ビットに基づくプログラマブル量子プロセッサの実現について報告する。 論理レベル制御とゾーンアーキテクチャを再構成可能な中性原子配列に応用し,高い2量子ゲート特性,任意の接続性,プログラム可能なシングルキュービット回転,中間回路の読み出しを両立させる。 この論理プロセッサを多種多様なエンコーディングで動作させ,d=3からd=7までの曲面符号距離のスケーリングによる2ビット論理ゲートの改良,不均質なカラーコードキュービットの作成,論理GHZ状態のフォールトトレラント生成,フィードフォワードエンタングルメントテレポーテーション,および40カラーコードキュービットの動作を実演する。 最後に, 3次元 [8,3,2] 符号ブロックを用いて, 228個の論理2量子ゲートと48個の論理cczゲートとのハイパーキューブ接続により, 最大48個の論理キュービットが絡み合った計算複雑なサンプリング回路を実現する。 この論理エンコーディングは誤り検出によるアルゴリズムの性能を大幅に向上し、クロスエントロピーベンチマークと高速スクランブルの量子シミュレーションの両方において物理量子ビットのフィデリティを上回っている。 これらの結果は、早期の誤り訂正量子計算の出現と、大規模論理プロセッサへの道筋を示すものである。

Suppressing errors is the central challenge for useful quantum computing, requiring quantum error correction for large-scale processing. However, the overhead in the realization of error-corrected ``logical'' qubits, where information is encoded across many physical qubits for redundancy, poses significant challenges to large-scale logical quantum computing. Here we report the realization of a programmable quantum processor based on encoded logical qubits operating with up to 280 physical qubits. Utilizing logical-level control and a zoned architecture in reconfigurable neutral atom arrays, our system combines high two-qubit gate fidelities, arbitrary connectivity, as well as fully programmable single-qubit rotations and mid-circuit readout. Operating this logical processor with various types of encodings, we demonstrate improvement of a two-qubit logic gate by scaling surface code distance from d=3 to d=7, preparation of color code qubits with break-even fidelities, fault-tolerant creation of logical GHZ states and feedforward entanglement teleportation, as well as operation of 40 color code qubits. Finally, using three-dimensional [[8,3,2]] code blocks, we realize computationally complex sampling circuits with up to 48 logical qubits entangled with hypercube connectivity with 228 logical two-qubit gates and 48 logical CCZ gates. We find that this logical encoding substantially improves algorithmic performance with error detection, outperforming physical qubit fidelities at both cross-entropy benchmarking and quantum simulations of fast scrambling. These results herald the advent of early error-corrected quantum computation and chart a path toward large-scale logical processors.
翻訳日:2023-12-08 16:26:40 公開日:2023-12-07
# ノード対応バイスムーシング:グラフインジェクション攻撃に対するロバスト性認定

Node-aware Bi-smoothing: Certified Robustness against Graph Injection Attacks ( http://arxiv.org/abs/2312.03979v1 )

ライセンス: Link先を確認
Yuni Lai, Yulin Zhu, Bailin Pan, Kai Zhou(参考訳) ディープグラフラーニング(DGL)は、さまざまな分野において重要なテクニックとして登場した。 しかし、近年の研究では、回避や中毒攻撃に対する感受性などのDGLモデルの脆弱性が明らかにされている。 グラフ修正攻撃(GMAs)に対して実証的かつ証明可能なロバスト性技術が開発されているが、グラフインジェクション攻撃(GIAs)に対する認証ロバスト性の問題はほとんど解明されていない。 このギャップを埋めるために、我々は、GAAに対する一般的なノード分類タスクにおいて、最初の確実な堅牢なアプローチであるノード対応バイスムーシングフレームワークを導入する。 特に,提案手法はモデル非依存であり,回避攻撃と毒殺攻撃の両方に適用可能である。 厳密な理論解析により, 平滑化スキームの検証可能な条件を確立する。 また,実世界のgiasに対する実証的防御アプローチとレコメンデーションシステムのコンテキストという2つのコンテキストにおいて,ノード対応型バイスムーシングスキームの実用的意義についても検討した。 さらに、ノードインジェクション攻撃に対処するために、2つの最先端認証された堅牢性フレームワークを拡張し、それに対するアプローチを比較する。 大規模な評価は,提案した証明書の有効性を示す。

Deep Graph Learning (DGL) has emerged as a crucial technique across various domains. However, recent studies have exposed vulnerabilities in DGL models, such as susceptibility to evasion and poisoning attacks. While empirical and provable robustness techniques have been developed to defend against graph modification attacks (GMAs), the problem of certified robustness against graph injection attacks (GIAs) remains largely unexplored. To bridge this gap, we introduce the node-aware bi-smoothing framework, which is the first certifiably robust approach for general node classification tasks against GIAs. Notably, the proposed node-aware bi-smoothing scheme is model-agnostic and is applicable for both evasion and poisoning attacks. Through rigorous theoretical analysis, we establish the certifiable conditions of our smoothing scheme. We also explore the practical implications of our node-aware bi-smoothing schemes in two contexts: as an empirical defense approach against real-world GIAs and in the context of recommendation systems. Furthermore, we extend two state-of-the-art certified robustness frameworks to address node injection attacks and compare our approach against them. Extensive evaluations demonstrate the effectiveness of our proposed certificates.
翻訳日:2023-12-08 16:26:06 公開日:2023-12-07
# 視覚言語基礎モデルにおけるアダプタチューニングと知識強化による医療レポート生成の改善

Improving Medical Report Generation with Adapter Tuning and Knowledge Enhancement in Vision-Language Foundation Models ( http://arxiv.org/abs/2312.03970v1 )

ライセンス: Link先を確認
Shibin Wu, Bang Yang, Zhiyu Ye, Haoqian Wang, Hairong Zheng, Tong Zhang(参考訳) 医療報告生成は、医用画像の一貫性と正確な記述の自動作成を要求する。 しかしながら、ラベル付き医療画像レポートペアの不足は、大規模な言語モデルで実証された人工知能の潜在能力を活用できる大規模ニューラルネットワークを開発する上で、重大な課題を生じさせる。 この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。 アダプタチューニングと医療知識向上の損失を統合することで,モデルの精度とコヒーレンスを大幅に向上させる。 ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。 ROUGEとCIDErの顕著な改善は、データ不足による課題に対処するため、ビジョン言語基盤モデルの迅速な医療ドメイン適応に向けた有望な成果を浮き彫りにした。

Medical report generation demands automatic creation of coherent and precise descriptions for medical images. However, the scarcity of labelled medical image-report pairs poses formidable challenges in developing large-scale neural networks capable of harnessing the potential of artificial intelligence, exemplified by large language models. This study builds upon the state-of-the-art vision-language pre-training and fine-tuning approach, BLIP-2, to customize general large-scale foundation models. Integrating adapter tuning and a medical knowledge enhancement loss, our model significantly improves accuracy and coherence. Validation on the dataset of ImageCLEFmedical 2023 demonstrates our model's prowess, achieving the best-averaged results against several state-of-the-art methods. Significant improvements in ROUGE and CIDEr underscore our method's efficacy, highlighting promising outcomes for the rapid medical-domain adaptation of the vision-language foundation models in addressing challenges posed by data scarcity.
翻訳日:2023-12-08 16:25:43 公開日:2023-12-07
# ソフトウェアエンジニアのインポスタ現象

Impostor Phenomenon in Software Engineers ( http://arxiv.org/abs/2312.03966v1 )

ライセンス: Link先を確認
Paloma Guenes, Rafael Tomaz, Marcos Kalinowski, Maria Teresa Baldassarre, Margaret-Anne Storey(参考訳) Inpostor Phenomenon (IP)はSTEM(Science, Technology, Engineering, and Mathematics)で広く議論されており、コンピュータサイエンスの学生の間で評価されている。 しかし、ソフトウェア技術者のIPに関する正式な研究はまだ行われていないが、その影響はうつ病や燃え尽き症候群などの精神障害につながる可能性がある。 本研究は,性別,人種・民族,役割といった側面を考慮し,ソフトウェアエンジニアの詐欺的感情の程度を調査する調査である。 さらに,IPが生産性に与える影響についても検討した。 この調査装置は理論駆動型アプローチを用いて設計され、人口統計学的な質問、国際的に検証されたIPスケール、SPACEフレームワークの構成に基づいて知覚された生産性を測定する質問を含む。 調査は様々な事業分野の会社に送られた。 データ分析では、再サンプリングを伴うブートストラップを用いて信頼区間を計算し、仮説を評価するためにマン・ホイットニー統計量検査を行った。 26カ国から624人のソフトウェアエンジニアから回答を受けました。 ブートストレッピングの結果、52.7%のソフトウェアエンジニアが激しいIPレベルに頻繁に経験しており、女性は男性(48.8%)よりもかなり高い割合(60.6%)で苦しんでいることが明らかになった。 人種・民族については,白人 (50.0%) のソフトウェアエンジニアよりも,アジア系 (67.9%) と黒人 (65.1%) のインポスタティック感情が多かった。 また、結婚して子供がいる個人ではipの存在が一般的でないことも観察した。 さらに,全てのSPACEフレームワーク構築物の生産性に統計的に有意な負の影響が認められた。 ソフトウェア技術者に対するIPに関する証拠は、組織が問題に対する認識を高め、ソフトウェア専門家の感情的スキルを改善する方法を見つけるのを助けるための出発点となる。

The Impostor Phenomenon (IP) is widely discussed in Science, Technology, Engineering, and Mathematics (STEM) and has been evaluated in Computer Science students. However, formal research on IP in software engineers has yet to be conducted, although its impacts may lead to mental disorders such as depression and burnout. This study describes a survey that investigates the extent of impostor feelings in software engineers, considering aspects such as gender, race/ethnicity, and roles. Furthermore, we investigate the influence of IP on their perceived productivity. The survey instrument was designed using a theory-driven approach and included demographic questions, an internationally validated IP scale, and questions for measuring perceived productivity based on the SPACE framework constructs. The survey was sent to companies operating in various business sectors. Data analysis used bootstrapping with resampling to calculate confidence intervals and Mann-Whitney statistical significance testing for assessing the hypotheses. We received responses from 624 software engineers from 26 countries. The bootstrapping results reveal that a proportion of 52.7% of software engineers experience frequent to intense levels of IP and that women suffer at a significantly higher proportion (60.6%) than men (48.8%). Regarding race/ethnicity, we observed more frequent impostor feelings in Asian (67.9%) and Black (65.1%) than in White (50.0%) software engineers. We also observed that the presence of IP is less common among individuals who are married and have children. Moreover, the prevalence of IP showed a statistically significant negative effect on the perceived productivity for all SPACE framework constructs. The evidence relating IP to software engineers provides a starting point to help organizations find ways to raise awareness of the problem and improve the emotional skills of software professionals.
翻訳日:2023-12-08 16:25:25 公開日:2023-12-07
# 拡散相:周波数領域における運動拡散

DiffusionPhase: Motion Diffusion in Frequency Domain ( http://arxiv.org/abs/2312.04036v1 )

ライセンス: Link先を確認
Weilin Wan, Yiming Huang, Shutong Wu, Taku Komura, Wenping Wang, Dinesh Jayaraman, Lingjie Liu(参考訳) 本研究では,テキスト記述から高品質な人間の動き列を生成する学習ベース手法(例えば,「前進する人」)を提案する。 既存のテクニックでは、テキストからモーションへの制限されたデータセットと、しばしば表現力やコンパクト性に欠けるポーズ表現によって、任意の長さのモーションシーケンスを生成する際に、動きの多様性や滑らかな遷移に苦しむ。 そこで本研究では,動きの周波数領域におけるテキスト条件付きヒューマンモーション生成の最初の手法を提案する。 本研究では,動き空間を高頻度の詳細を符号化したコンパクトなパラメータ化位相空間に変換するネットワークエンコーダを開発し,時間と空間の局所周期性を高精度に取得する。 また,テキスト記述と開始ポーズに基づいて周期的な動きパラメータを予測する条件拡散モデルを導入し,異なるテキスト記述に関連付けられた動き列間のスムーズな遷移を効率的に達成する。 実験により,我々のアプローチは,より多様な高品質な動きを生成し,自然遷移で長い列を合成する現在の手法よりも優れていることが証明された。

In this study, we introduce a learning-based method for generating high-quality human motion sequences from text descriptions (e.g., ``A person walks forward"). Existing techniques struggle with motion diversity and smooth transitions in generating arbitrary-length motion sequences, due to limited text-to-motion datasets and the pose representations used that often lack expressiveness or compactness. To address these issues, we propose the first method for text-conditioned human motion generation in the frequency domain of motions. We develop a network encoder that converts the motion space into a compact yet expressive parameterized phase space with high-frequency details encoded, capturing the local periodicity of motions in time and space with high accuracy. We also introduce a conditional diffusion model for predicting periodic motion parameters based on text descriptions and a start pose, efficiently achieving smooth transitions between motion sequences associated with different text descriptions. Experiments demonstrate that our approach outperforms current methods in generating a broader variety of high-quality motions, and synthesizing long sequences with natural transitions.
翻訳日:2023-12-08 16:20:16 公開日:2023-12-07
# 遮蔽核クーロン場を有する1次元水素イオン

One-dimensional hydrogenic ions with screened nuclear Coulomb field ( http://arxiv.org/abs/2312.04033v1 )

ライセンス: Link先を確認
Suchindram Dasgupta, Chirag Khurana, A. Shadi Tahvildar-Zadeh(参考訳) 我々は、核が原点に固定されていると仮定するボルン・オッペンハイマー近似において、点核の静電ポテンシャルにおける単一電子の1つの空間次元におけるディラック・ハミルトンのスペクトルを研究する。 ポテンシャルは広い距離で遮蔽され、空間無限遠で指数的にゼロになる。 我々は、ハミルトニアンが本質的に自己随伴であること、本質スペクトルが通常のギャップ$(-mc^2,mc^2)$を持ち、そのギャップ内には系の基底状態と励起状態に対応する有限個の固有値しか存在しないことを示す。 このハミルトニアンの固有関数と有限シリンダ上のある力学系のヘテロクリニック・サドル・サドルコネクタとの間に1対1の対応を見いだす。 我々はこの対応を用いて、境界状態の数が核電荷でどのように変化するかを研究する。

We study the spectrum of the Dirac Hamiltonian in one space dimension for a single electron in the electrostatic potential of a point nucleus, in the Born-Oppenheimer approximation where the nucleus is assumed fixed at the origin. The potential is screened at large distances so that it goes to zero exponentially at spatial infinity. We show that the Hamiltonian is essentially self-adjoint, the essential spectrum has the usual gap $(-mc^2,mc^2)$ in it, and that there are only finitely many eigenvalues in that gap, corresponding to ground and excited states for the system. We find a one-to-one correspondence between the eigenfunctions of this Hamiltonian and the heteroclinic saddle-saddle connectors of a certain dynamical system on a finite cylinder. We use this correspondence to study how the number of bound states changes with the nuclear charge.
翻訳日:2023-12-08 16:19:57 公開日:2023-12-07
# RoAST:選択学習による逆摂動によるロバスト化言語モデル

RoAST: Robustifying Language Models via Adversarial Perturbation with Selective Training ( http://arxiv.org/abs/2312.04032v1 )

ライセンス: Link先を確認
Jaehyung Kim, Yuning Mao, Rui Hou, Hanchao Yu, Davis Liang, Pascale Fung, Qifan Wang, Fuli Feng, Lifu Huang, Madian Khabsa(参考訳) 微調整事前学習言語モデル(LM)は多くのNLPタスクにおいてデファクトスタンダードとなっている。 それでも、微調整されたlmmは、逆ロバスト性やモデルキャリブレーションといったロバスト性の問題を起こしやすい。 LMのロバスト性に関するいくつかの視点は独立に研究されているが、複数の視点において統一された考察は欠如している。 本稿では,lmsのマルチパースペクティブなロバスト性を高めるための簡易かつ効果的な微調整手法であるroast(selective training)を用いて,逆摂動によるlmsのロバスト化を提案する。 RoASTは、モデルの堅牢性、摂動入力に対する堅牢性、および事前訓練されたLMにおける一般化可能な知識の2つの重要な源を効果的に組み込んでいる。 具体的には、RoASTは微調整中に逆方向の摂動を導入し、モデルパラメータは相対的重要性に応じて選択的に更新され、不要な偏差を最小限に抑える。 モデルロバスト性の4つの代表的視点を取り入れた微調整型LMの統一評価において,6種類のLM上での最先端の微調整法と比較して,RoASTの有効性を示す。

Fine-tuning pre-trained language models (LMs) has become the de facto standard in many NLP tasks. Nevertheless, fine-tuned LMs are still prone to robustness issues, such as adversarial robustness and model calibration. Several perspectives of robustness for LMs have been studied independently, but lacking a unified consideration in multiple perspectives. In this paper, we propose Robustifying LMs via Adversarial perturbation with Selective Training (RoAST), a simple yet effective fine-tuning technique to enhance the multi-perspective robustness of LMs in a unified way. RoAST effectively incorporates two important sources for the model robustness, robustness on the perturbed inputs and generalizable knowledge in pre-trained LMs. To be specific, RoAST introduces adversarial perturbation during fine-tuning while the model parameters are selectively updated upon their relative importance to minimize unnecessary deviation. Under a unified evaluation of fine-tuned LMs by incorporating four representative perspectives of model robustness, we demonstrate the effectiveness of RoAST compared to state-of-the-art fine-tuning methods on six different types of LMs, which indicates its usefulness in practice.
翻訳日:2023-12-08 16:19:39 公開日:2023-12-07
# 潜在推論予算を用いた有界有理エージェントのモデル化

Modeling Boundedly Rational Agents with Latent Inference Budgets ( http://arxiv.org/abs/2312.04030v1 )

ライセンス: Link先を確認
Athul Paul Jacob, Abhishek Gupta, Jacob Andreas(参考訳) 本研究では,未知の目標を追求するエージェント集団のモデル化の問題について検討する。 有界合理性の標準モデルでは、制約付き推論を明示的にシミュレートするのではなく、最適な決定にホモシデスティックノイズを加えることで、準最適決定をシミュレートする。 本研究では,反復推論アルゴリズムのランタイムを制御する潜在変数(エージェントの目標のモデルと共同で推測される)を介して,エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(l-ibm)を提案する。 L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。 3つのモデリングタスク -- ルートからのナビゲーション目標の推測、人間の発話からのコミュニケーション意図の推測、人間のチェスゲームにおける次の動きの予測 -- では、L-IBMが不確実性の下でボルツマンの意思決定モデルにマッチするか、上回っていることを示す。 推測推論予算は、それ自体が意味があり、計算に効率的であり、プレイヤースキル、パートナースキル、タスクの難しさの尺度と相関している。

We study the problem of modeling a population of agents pursuing unknown goals subject to unknown computational constraints. In standard models of bounded rationality, sub-optimal decision-making is simulated by adding homoscedastic noise to optimal decisions rather than explicitly simulating constrained inference. In this work, we introduce a latent inference budget model (L-IBM) that models agents' computational constraints explicitly, via a latent variable (inferred jointly with a model of agents' goals) that controls the runtime of an iterative inference algorithm. L-IBMs make it possible to learn agent models using data from diverse populations of suboptimal actors. In three modeling tasks -- inferring navigation goals from routes, inferring communicative intents from human utterances, and predicting next moves in human chess games -- we show that L-IBMs match or outperform Boltzmann models of decision-making under uncertainty. Inferred inference budgets are themselves meaningful, efficient to compute, and correlated with measures of player skill, partner skill and task difficulty.
翻訳日:2023-12-08 16:19:16 公開日:2023-12-07
# ジョイントラベル分類と教師付きコントラストクラスタリングによる顔表現の改善

Improved Face Representation via Joint Label Classification and Supervised Contrastive Clustering ( http://arxiv.org/abs/2312.04029v1 )

ライセンス: Link先を確認
Zhenduo Zhang(参考訳) 顔クラスタリングタスクは、大規模なデータから階層的な意味情報を学習することができる。 しかし、この問題に関する研究はほとんどない。 本稿では,従来の顔認識タスクにクラスタ知識を導入するために,ラベル分類と教師付きコントラストクラスタリングの協調最適化タスクを提案する。 まずArcFaceをクラスタ誘導の角マージンで拡張し、顔クラスタリングのハードレベルに応じてクラス内特徴分布を調整します。 次に,クラスタセンターに特徴を引き出すための教師付きコントラストクラスタリング手法を提案し,クラスタセンターと学習可能なクラスセンターを協調訓練用分類器に整列させるクラスタアライメント手法を提案する。 最後に、一般的な顔のベンチマークにおける定性的、定量的な実験により、我々のパラダイムの有効性と、既存の顔認識手法よりも優れていることを示す。

Face clustering tasks can learn hierarchical semantic information from large-scale data, which has the potential to help facilitate face recognition. However, there are few works on this problem. This paper explores it by proposing a joint optimization task of label classification and supervised contrastive clustering to introduce the cluster knowledge to the traditional face recognition task in two ways. We first extend ArcFace with a cluster-guided angular margin to adjust the within-class feature distribution according to the hard level of face clustering. Secondly, we propose a supervised contrastive clustering approach to pull the features to the cluster center and propose the cluster-aligning procedure to align the cluster center and the learnable class center in the classifier for joint training. Finally, extensive qualitative and quantitative experiments on popular facial benchmarks demonstrate the effectiveness of our paradigm and its superiority over the existing approaches to face recognition.
翻訳日:2023-12-08 16:18:55 公開日:2023-12-07
# ImFace++: 難解なニューラル表現を持つ高度化非線形3次元形態素顔モデル

ImFace++: A Sophisticated Nonlinear 3D Morphable Face Model with Implicit Neural Representations ( http://arxiv.org/abs/2312.04028v1 )

ライセンス: Link先を確認
Mingwu Zheng, Haiyu Zhang, Hongyu Yang, Liming Chen, Di Huang(参考訳) 3次元顔の正確な表現は、様々なコンピュータビジョンやグラフィックスアプリケーションにおいて最重要となる。 しかし、データの離散化とモデル線形性によって課される制限により、現在の研究におけるアイデンティティと表現の手がかりの正確な取得が妨げられているため、課題は継続する。 本稿では,暗黙のニューラル表現を持つ高度で連続的な空間を学習するために,ImFace++という新しい3次元顔モデルを提案する。 ImFace++は、まず2つの明示的な非交叉変形場を構築し、それぞれアイデンティティと表現に関連する複雑な形状をモデル化し、同時に多様な顔形状の対応を自動学習する。 より洗練された顔の詳細をキャプチャするために、テンプレート空間内の精細化変位場がさらに組み込まれ、個々の顔の詳細をきめ細かく学習することができる。 さらに、ニューラルネットワークブレンドフィールドは、局所フィールドの配列の適応的なブレンドによって表現能力を強化するように設計されている。 imface++に加えて、表情埋め込みを拡張するための学習戦略を考案し、幅広い表現のバリエーションを可能にした。 包括的質的,定量的評価により,ImFace++は顔再構成の精度と対応精度の両方の観点から,最先端性を大幅に向上することが示された。

Accurate representations of 3D faces are of paramount importance in various computer vision and graphics applications. However, the challenges persist due to the limitations imposed by data discretization and model linearity, which hinder the precise capture of identity and expression clues in current studies. This paper presents a novel 3D morphable face model, named ImFace++, to learn a sophisticated and continuous space with implicit neural representations. ImFace++ first constructs two explicitly disentangled deformation fields to model complex shapes associated with identities and expressions, respectively, which simultaneously facilitate the automatic learning of correspondences across diverse facial shapes. To capture more sophisticated facial details, a refinement displacement field within the template space is further incorporated, enabling a fine-grained learning of individual-specific facial details. Furthermore, a Neural Blend-Field is designed to reinforce the representation capabilities through adaptive blending of an array of local fields. In addition to ImFace++, we have devised an improved learning strategy to extend expression embeddings, allowing for a broader range of expression variations. Comprehensive qualitative and quantitative evaluations demonstrate that ImFace++ significantly advances the state-of-the-art in terms of both face reconstruction fidelity and correspondence accuracy.
翻訳日:2023-12-08 16:18:40 公開日:2023-12-07
# 複数分散学習のサンプル複雑性

The sample complexity of multi-distribution learning ( http://arxiv.org/abs/2312.04027v1 )

ライセンス: Link先を確認
Binghui Peng(参考訳) 複数分布学習は、複数の分布から来るデータを扱う古典的なpac学習を一般化する。 データ分散のセットとVC次元の仮説クラスが$d$であることを考えると、その目標は、最大人口損失を$k$の分布で最大で$\epsilon$加法誤差まで最小化する仮説を学習することである。 本稿では、サンプル複雑性のアルゴリズムを$\widetilde{O}((d+k)\epsilon^{-2}) \cdot (k/\epsilon)^{o(1)}$とすることで、マルチディストリビューション学習のサンプル複雑性を解明する。 これは下界のポリノミカル因子と一致し、Awasthi, Haghtalab, Zhao [AHZ23] の COLT 2023 の開問題を解く。

Multi-distribution learning generalizes the classic PAC learning to handle data coming from multiple distributions. Given a set of $k$ data distributions and a hypothesis class of VC dimension $d$, the goal is to learn a hypothesis that minimizes the maximum population loss over $k$ distributions, up to $\epsilon$ additive error. In this paper, we settle the sample complexity of multi-distribution learning by giving an algorithm of sample complexity $\widetilde{O}((d+k)\epsilon^{-2}) \cdot (k/\epsilon)^{o(1)}$. This matches the lower bound up to sub-polynomial factor and resolves the COLT 2023 open problem of Awasthi, Haghtalab and Zhao [AHZ23].
翻訳日:2023-12-08 16:18:18 公開日:2023-12-07
# moirai: 不均一デバイス上での分散推論の最適配置に向けて

Moirai: Towards Optimal Placement for Distributed Inference on Heterogeneous Devices ( http://arxiv.org/abs/2312.04025v1 )

ライセンス: Link先を確認
Beibei Zhang, Hongwei Zhu, Feng Gao, Zhihui Yang, Sean Xiaoyang Wang(参考訳) Deep Neural Networks(DNN)のエスカレートサイズは、複数のデバイスにまたがるDNNモデルのホスティングと提供に対する研究の関心を高めている。 デバイス間でDNNモデルを分割し、デバイス配置ソリューションを提供するいくつかの研究が報告されている。 しかし,本手法は,指数探索空間による配置性能の低下に悩まされるか,限定的なヒューリスティクスによる探索空間の縮小による最適配置を見逃すかのいずれかであった。 さらに、これらの手法は、グラフの粗化時に計算グラフの演算子間最適化を無視し、エンドツーエンドの推論性能を劣化させる。 本稿では,モデル内で実行時の演算子間融合をうまく活用して粗い計算グラフを描画し,推論バックエンドによるオペレータ間最適化を維持しながら探索空間を縮小するmoiraiを提案する。 Moiraiはまた、推論制約とデバイス不均一性を考慮し、デバイス配置アルゴリズムを多面的に一般化する。11の大規模なDNNによる大規模な実験的評価により、Moiraiは最先端の予測遅延(Placeto、m-SCT、GETF)を最大4.28$\times$で上回っている。 moirai コードは \url{https://github.com/moirai-placement/moirai} で匿名でリリースされる。

The escalating size of Deep Neural Networks (DNNs) has spurred a growing research interest in hosting and serving DNN models across multiple devices. A number of studies have been reported to partition a DNN model across devices, providing device placement solutions. The methods appeared in the literature, however, either suffer from poor placement performance due to the exponential search space or miss an optimal placement as a consequence of the reduced search space with limited heuristics. Moreover, these methods have ignored the runtime inter-operator optimization of a computation graph when coarsening the graph, which degrades the end-to-end inference performance. This paper presents Moirai that better exploits runtime inter-operator fusion in a model to render a coarsened computation graph, reducing the search space while maintaining the inter-operator optimization provided by inference backends. Moirai also generalizes the device placement algorithm from multiple perspectives by considering inference constraints and device heterogeneity.Extensive experimental evaluation with 11 large DNNs demonstrates that Moirai outperforms the state-of-the-art counterparts, i.e., Placeto, m-SCT, and GETF, up to 4.28$\times$ in reduction of the end-to-end inference latency. Moirai code is anonymously released at \url{https://github.com/moirai-placement/moirai}.
翻訳日:2023-12-08 16:18:04 公開日:2023-12-07
# k*分布:局所的近傍分析による深部ニューラルネットワークの潜時空間の評価

k* Distribution: Evaluating the Latent Space of Deep Neural Networks using Local Neighborhood Analysis ( http://arxiv.org/abs/2312.04024v1 )

ライセンス: Link先を確認
Shashank Kotyan, Ueda Tatsuya and Danilo Vasconcellos Vargas(参考訳) ニューラルネットワークの学習潜在空間のほとんどの検査では、通常、t-SNEやUMAPのような次元還元技術を用いる。 これらの手法は学習された潜在空間全体のサンプル分布を効果的に捉えるが、潜在空間の部分集合内の特定のクラス内のサンプル分布の構造を歪める傾向がある。 この歪みは、ニューラルネットワークで識別できるクラスを容易に区別するタスクを複雑にする。 この課題への対応として,k*分布法を導入する。 この手法は,学習された潜伏空間のサブセット内の個々のクラスに対するサンプル分布の特性と構造を局所的近傍解析を用いて把握することに焦点を当てる。 鍵となる概念は、異なるk*分布の比較を容易にし、同じニューラルネットワークで様々なクラスがどのように処理されるかを分析することである。 これにより、現在の可視化をより深く理解することができる。 本研究は,学習された潜在空間部分集合内のサンプルの3つの異なる分布を明らかにする。 a (複数形 fractures) b) オーバーラップし、そして c) クラスタ化。 ネットワークの学習した潜在空間内のサンプルの分布は,クラスによって大きく異なることを指摘し,実証した。 さらに,本解析により,ニューラルネットワークアーキテクチャの潜在空間,ニューラルネットワーク内の様々な層,入力サンプルへの変換,ニューラルネットワークのためのトレーニングおよびテストデータの分布を探索できることを示した。 我々は、学習された潜伏空間内の異なるサンプルの分布を総合的に調べることで、ニューラルネットワークのより標的となる研究を促進することを期待する。

Most examinations of neural networks' learned latent spaces typically employ dimensionality reduction techniques such as t-SNE or UMAP. While these methods effectively capture the overall sample distribution in the entire learned latent space, they tend to distort the structure of sample distributions within specific classes in the subset of the latent space. This distortion complicates the task of easily distinguishing classes identifiable by neural networks. In response to this challenge, we introduce the k* Distribution methodology. This approach focuses on capturing the characteristics and structure of sample distributions for individual classes within the subset of the learned latent space using local neighborhood analysis. The key concept is to facilitate easy comparison of different k* distributions, enabling analysis of how various classes are processed by the same neural network. This provides a more profound understanding of existing contemporary visualizations. Our study reveals three distinct distributions of samples within the learned latent space subset: a) Fractured, b) Overlapped, and c) Clustered. We note and demonstrate that the distribution of samples within the network's learned latent space significantly varies depending on the class. Furthermore, we illustrate that our analysis can be applied to explore the latent space of diverse neural network architectures, various layers within neural networks, transformations applied to input samples, and the distribution of training and testing data for neural networks. We anticipate that our approach will facilitate more targeted investigations into neural networks by collectively examining the distribution of different samples within the learned latent space.
翻訳日:2023-12-08 16:17:36 公開日:2023-12-07
# 量子状態判別のための一般化されたフレームワーク、ハイブリッドアルゴリズム、および量子変化点問題

A generalized framework for quantum state discrimination, hybrid algorithms, and the quantum change point problem ( http://arxiv.org/abs/2312.04023v1 )

ライセンス: Link先を確認
Ankith Mohan, Jamie Sikora and Sarvagya Upadhyay(参考訳) 量子状態の識別は、保持している量子状態の特定を希望する多くの量子コンピューティング設定において中心的なタスクである。 我々は,その変種の多くを一般化するフレームワークを導入し,半定値プログラミングに基づくハイブリッド量子古典アルゴリズムを提案し,状態が純粋で効率的な回路を持つ場合の最大報酬を計算する。 この目的のために、(必ずしも線形独立ではない)純粋な状態の場合を調査し、標準的なSDP問題のサイズを2^n L$から$N L$に減らし、$n$はクォービットの数、$N$は状態の数、$L$は推測可能な数(通常$L = N$)である。 例えば、量子状態のシーケンスが与えられたとき、量子状態が変化したときの時間ステップを決定する量子変化点識別問題に対して、現在考えられるアルゴリズムを与える。 削減により、約8ドル(約880円)で最大220ドル(約2万2000円)の量子ビットのSDPを解くことができ、計算を高速化するヒューリスティックスも提供します。

Quantum state discrimination is a central task in many quantum computing settings where one wishes to identify what quantum state they are holding. We introduce a framework that generalizes many of its variants and present a hybrid quantum-classical algorithm based on semidefinite programming to calculate the maximum reward when the states are pure and have efficient circuits. To this end, we study the (not necessarily linearly independent) pure state case and reduce the standard SDP problem size from $2^n L$ to $N L$ where $n$ is the number of qubits, $N$ is the number of states, and $L$ is the number of possible guesses (typically $L = N$). As an application, we give now-possible algorithms for the quantum change point identification problem which asks, given a sequence of quantum states, determine the time steps when the quantum states changed. With our reductions, we are able to solve SDPs for problem sizes of up to $220$ qubits in about $8$ hours and we also give heuristics which speed up the computations.
翻訳日:2023-12-08 16:17:13 公開日:2023-12-07
# 文脈内学習の校正に関する研究

A Study on the Calibration of In-context Learning ( http://arxiv.org/abs/2312.04021v1 )

ライセンス: Link先を確認
Hanlin Zhang, Yi-Fan Zhang, Yaodong Yu, Dhruv Madeka, Dean Foster, Eric Xing, Hima Lakkaraju, Sham Kakade(参考訳) 現代の自己回帰型言語モデルは、次のトークンを予測することで、幅広いデータのログ損失を最小限に抑えるために訓練され、次のトークン予測タスクとして問題をフレーミングする際に、校正された回答が得られる。 本研究は,凍った大規模言語モデル(llm)を製作プロンプトを通じて適応させる手段として広く用いられているin-context learning (icl) について検討し,幅広い自然言語理解と推論タスクにおける性能とキャリブレーションのトレードオフについて検討する。 モデルサイズを増加させ、より多くのicl例を取り入れ、人間フィードバック(rlhf)からの指示、ダイアログ、強化学習を用いた微調整モデルが注意深く収集されたデータセット上で、このようなトレードオフが悪化する可能性があることを示すために、広範な実験を実施します。 さらに,温度スケーリングなどの一般的なリカレーション手法では,キャリブレーション誤差が限定的であり,モデルの信頼性が期待できるような設定に新たな手法が必要となる可能性が示唆された。

Modern auto-regressive language models are trained to minimize log loss on broad data by predicting the next token so they are expected to get calibrated answers when framing a problem as a next-token prediction task. We study this for in-context learning (ICL), a widely used way to adapt frozen large language models (LLMs) via crafting prompts, and investigate the trade-offs between performance and calibration on a wide range of natural language understanding and reasoning tasks. We conduct extensive experiments to show that such trade-offs may get worse as we increase model size, incorporate more ICL examples, and fine-tune models using instruction, dialog, or reinforcement learning from human feedback (RLHF) on carefully curated datasets. Furthermore, we find that common recalibration techniques that are widely effective such as temperature scaling provide limited gains in calibration errors, suggesting that new methods may be required for settings where models are expected to be reliable.
翻訳日:2023-12-08 16:16:48 公開日:2023-12-07
# 大規模言語モデルを用いた単一点変異によるタンパク質の安定性変化の予測

Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models ( http://arxiv.org/abs/2312.04019v1 )

ライセンス: Link先を確認
Yijie Zhang, Zhangyang Gao, Cheng Tan, Stan Z.Li(参考訳) 単一点突然変異によるタンパク質の安定性の変化を予測することは、長年にわたって絶え間ない課題であり、多くの研究者から大きな関心を集めてきた。 タンパク質の熱安定性を正確に予測する能力は、薬物開発、タンパク質進化分析、酵素合成など、様々なサブフィールドや生化学への応用において重要である。 この問題に対処するための複数の方法論が提案されているが、高い計算効率と最適な性能を達成する方法はほとんどない。 2つの主要なハードルがこのドメインの既存の課題に寄与します。 1つ目はタンパク質から十分な代表的特徴を抽出・集約する複雑さである。 第2に、タンパク質変異解析のための実験データの限定的利用について言及し、さらに、未知のデータサンプルに対するモデル性能の包括的評価を複雑化する。 タンパク質研究におけるESMモデルのようなLarge Language Models(LLM)の出現に伴い、タンパク質の特徴の深い解釈は巨大なトレーニングデータによってアクセス可能になった。 したがって、LSMは確かに幅広いタンパク質の研究を促進する。 本研究では, タンパク質配列と構造的特徴を統合し, 単一点変異によるタンパク質の熱安定性変化を予測するESMによる効率的なアプローチを提案する。 さらに,より公平なモデル比較を容易にするために,広く採用されている2つのテストデータセットに対応するデータ漏洩を防止すべく,細心の注意を払ってデータセットのキュレーションを行った。

Predicting protein stability changes induced by single-point mutations has been a persistent challenge over the years, attracting immense interest from numerous researchers. The ability to precisely predict protein thermostability is pivotal for various subfields and applications in biochemistry, including drug development, protein evolution analysis, and enzyme synthesis. Despite the proposition of multiple methodologies aimed at addressing this issue, few approaches have successfully achieved optimal performance coupled with high computational efficiency. Two principal hurdles contribute to the existing challenges in this domain. The first is the complexity of extracting and aggregating sufficiently representative features from proteins. The second refers to the limited availability of experimental data for protein mutation analysis, further complicating the comprehensive evaluation of model performance on unseen data samples. With the advent of Large Language Models(LLM), such as the ESM models in protein research, profound interpretation of protein features is now accessibly aided by enormous training data. Therefore, LLMs are indeed to facilitate a wide range of protein research. In our study, we introduce an ESM-assisted efficient approach that integrates protein sequence and structural features to predict the thermostability changes in protein upon single-point mutations. Furthermore, we have curated a dataset meticulously designed to preclude data leakage, corresponding to two extensively employed test datasets, to facilitate a more equitable model comparison.
翻訳日:2023-12-08 16:16:14 公開日:2023-12-07
# partdistill:視覚言語モデル蒸留による3次元形状部分分割

PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation ( http://arxiv.org/abs/2312.04016v1 )

ライセンス: Link先を確認
Ardian Umam, Cheng-Kun Yang, Min-Hung Chen, Jen-Hui Chuang, Yen-Yu Lin(参考訳) 本稿では、視覚言語モデル(VLM)から2次元知識を伝達し、3次元形状分割を容易にするクロスモーダル蒸留フレームワークPartDistillを提案する。 PartDistillは2次元投影における見えない領域や検出されていない領域における3Dセグメンテーションの欠如、VLMによる不正確で矛盾した2D予測、異なる3次元形状における知識蓄積の欠如という3つの課題に対処する。 PartDistillは、VLMを用いて2次元予測を行う教師ネットワークと、複数の3次元形状から幾何学的特徴を抽出して3次元分割を行う学生ネットワークで構成されている。 前者の前方が学生ネットワークに2D予測を蒸留し、後者が2D予測の品質を改善し、最終の3D部分セグメンテーションを強化する。 さらに、PartDistillは、蒸留する知識ソースを生成するために、無駄な3D形状の作成を容易にする生成モデルを利用することができる。 広範な実験を通じて、PartDistillは、広く使用されているShapeNetPartとPartEデータセットに対して、それぞれ15%以上のmIoUスコアと12%以上のマージンを持つ既存の方法を強化した。

This paper proposes a cross-modal distillation framework, PartDistill, which transfers 2D knowledge from vision-language models (VLMs) to facilitate 3D shape part segmentation. PartDistill addresses three major challenges in this task: the lack of 3D segmentation in invisible or undetected regions in the 2D projections, inaccurate and inconsistent 2D predictions by VLMs, and the lack of knowledge accumulation across different 3D shapes. PartDistill consists of a teacher network that uses a VLM to make 2D predictions and a student network that learns from the 2D predictions while extracting geometrical features from multiple 3D shapes to carry out 3D part segmentation. A bi-directional distillation, including forward and backward distillations, is carried out within the framework, where the former forward distills the 2D predictions to the student network, and the latter improves the quality of the 2D predictions, which subsequently enhances the final 3D part segmentation. Moreover, PartDistill can exploit generative models that facilitate effortless 3D shape creation for generating knowledge sources to be distilled. Through extensive experiments, PartDistill boosts the existing methods with substantial margins on widely used ShapeNetPart and PartE datasets, by more than 15% and 12% higher mIoU scores, respectively.
翻訳日:2023-12-08 16:15:37 公開日:2023-12-07
# 仮想道路シーンにおけるオブジェクトインタラクションの効率的な生成のための自然言語駆動シミュレーションベンチマークとコパイロット

Natural-language-driven Simulation Benchmark and Copilot for Efficient Production of Object Interactions in Virtual Road Scenes ( http://arxiv.org/abs/2312.04008v1 )

ライセンス: Link先を確認
Kairui Yang, Zihao Guo, Gengjie Lin, Haotian Dong, Die Zuo, Jibin Peng, Zhao Huang, Zhecheng Xu, Fupeng Li, Ziyun Bai, Di Lin(参考訳) 自然言語駆動(nld)シミュレーションのアイデアを提唱し、仮想道路シーンにおける複数の物体間のオブジェクトインタラクションを効率的に生成し、予測不能な動きを伴う障害物との衝突を避けるために素早く行動すべき自律運転システムを指導し、テストする。 NLDシミュレーションにより、簡単な自然言語記述でオブジェクトの相互作用を制御でき、大量の対話データを作成するための人間の労力を大幅に削減できる。 NLDシミュレーションの研究を容易にするため、6種類の道路トポロジで12万の自然言語によるオブジェクトの相互作用を記述したL2Iベンチマークデータセットを収集した。 各記述はプログラムコードに関連付けられ、グラフィックレンダリングは仮想シーンのオブジェクトインタラクションを視覚的に再構築するために使用できる。 方法論的なコントリビューションとして,対話記述をレンダリング可能なコードに変換するためにSimCopilotを設計する。 我々はL2Iデータセットを用いて、SimCopilotの能力を評価し、オブジェクトの動きを制御し、複雑な相互作用を生成し、道路トポロジ間の相互作用を一般化する。 L2Iデータセットと評価結果はNLDシミュレーションの関連研究を動機付けている。

We advocate the idea of the natural-language-driven(NLD) simulation to efficiently produce the object interactions between multiple objects in the virtual road scenes, for teaching and testing the autonomous driving systems that should take quick action to avoid collision with obstacles with unpredictable motions. The NLD simulation allows the brief natural-language description to control the object interactions, significantly reducing the human efforts for creating a large amount of interaction data. To facilitate the research of NLD simulation, we collect the Language-to-Interaction(L2I) benchmark dataset with 120,000 natural-language descriptions of object interactions in 6 common types of road topologies. Each description is associated with the programming code, which the graphic render can use to visually reconstruct the object interactions in the virtual scenes. As a methodology contribution, we design SimCopilot to translate the interaction descriptions to the renderable code. We use the L2I dataset to evaluate SimCopilot's abilities to control the object motions, generate complex interactions, and generalize interactions across road topologies. The L2I dataset and the evaluation results motivate the relevant research of the NLD simulation.
翻訳日:2023-12-08 16:14:30 公開日:2023-12-07
# KOALA: メモリ効率・高速画像合成のための潜在拡散モデルの知識蒸留における自己注意事項

KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis ( http://arxiv.org/abs/2312.04005v1 )

ライセンス: Link先を確認
Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and Sung Ju Hwang(参考訳) 安定拡散は、コミュニティにおけるテキスト・ツー・イメージ(T2I)合成の主要な基盤である。 近年,安定拡散の後継となる安定拡散XL (SDXL) は1024×1024の高分解能とより大きなモデルで大幅な性能向上を達成し,多くの注目を集めている。 しかし、その計算コストとモデルサイズの増加は、エンドユーザーのためのハイエンドハードウェア(例えば、より大きなVRAM GPU)を必要とし、高い演算コストをもたらす。 そこで本研究では,SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。 この目的のために,我々はまず,モデルの主なボトルネックであるsdxlにおける消音u-netの詳細な解析を行い,分析に基づいてより効率的なu-netを設計する。 次に、SDXLの生成能力を効率的なU-Netに効果的に蒸留する方法を検討し、最終的には4つの重要な要因を同定する。 効率的なU-Netと自己注意型知識蒸留戦略により,KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し,SDXLモデルの54%と69%のモデルサイズを削減した。 特にKoALA-700MはSDXLの2倍以上の速さで、それでも良好な世代品質を維持している。 バランスの取れた速度性能のトレードオフにより,我々のKOALAモデルは資源制約環境におけるSDXLの代替として費用対効果が期待できる。

Stable diffusion is the mainstay of the text-to-image (T2I) synthesis in the community due to its generation performance and open-source nature. Recently, Stable Diffusion XL (SDXL), the successor of stable diffusion, has received a lot of attention due to its significant performance improvements with a higher resolution of 1024x1024 and a larger model. However, its increased computation cost and model size require higher-end hardware(e.g., bigger VRAM GPU) for end-users, incurring higher costs of operation. To address this problem, in this work, we propose an efficient latent diffusion model for text-to-image synthesis obtained by distilling the knowledge of SDXL. To this end, we first perform an in-depth analysis of the denoising U-Net in SDXL, which is the main bottleneck of the model, and then design a more efficient U-Net based on the analysis. Secondly, we explore how to effectively distill the generation capability of SDXL into an efficient U-Net and eventually identify four essential factors, the core of which is that self-attention is the most important part. With our efficient U-Net and self-attention-based knowledge distillation strategy, we build our efficient T2I models, called KOALA-1B & -700M, while reducing the model size up to 54% and 69% of the original SDXL model. In particular, the KOALA-700M is more than twice as fast as SDXL while still retaining a decent generation quality. We hope that due to its balanced speed-performance tradeoff, our KOALA models can serve as a cost-effective alternative to SDXL in resource-constrained environments.
翻訳日:2023-12-08 16:13:51 公開日:2023-12-07
# Poincar\'{e}対称性を持つマルコフ量子マスター方程式

Markovian quantum master equation with Poincar\'{e} symmetry ( http://arxiv.org/abs/2312.04069v1 )

ライセンス: Link先を確認
Kaito Kashiwagi, Akira Matsumura(参考訳) ゴリーニ-コサコフスキー-スダルシャン-リンドブラッド型(GKSL)形式のマルコフ量子マスター方程式(QME)は、ポアンカーの対称性の下で実現されるかを検討する。 マルコフ空間 QME の解は量子力学半群によって与えられ、ポアンカル変換の下で不変性を導入する。 動的半群の不変性を利用し、ポアンカル・デボエ群のユニタリ表現を適用することにより、相対論的質量スピン-0粒子に対するマルコフ的QMEを導出する。 質量粒子の場作用素を導入し、その進化を調べると、場は散逸するクライン・ゴルドン方程式に従うことが分かる。 さらに,空間的分離領域に対する任意の2つの局所作用素が相互に可換であることを示す。 これは、大粒子の散逸モデルに対して微小因果条件が満たされることを意味する。

We investigate what kind of Markovian quantum master equation (QME) in the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) form is realized under Poincar\'{e} symmetry. The solution of the Markovian QME is given by a quantum dynamical semigroup, for which we introduce invariance under Poincar\'{e} transformations. Using the invariance of the dynamical semigroup and applying the unitary representation of Poincar\'{e} group, we derive the Markovian QME for a relativistic massive spin-0 particle. Introducing the field operator of the massive particle and examining its evolution, we find that the field follows a dissipative Klein-Gordon equation. In addition, we show that any two local operators for spacelike separated regions commute with each other. This means that the microcausality condition is satisfied for the dissipative model of the massive particle.
翻訳日:2023-12-08 16:08:04 公開日:2023-12-07
# 利用者側でプライバシーを意識した翻訳者を作る

Making Translators Privacy-aware on the User's Side ( http://arxiv.org/abs/2312.04068v1 )

ライセンス: Link先を確認
Ryoma Sato(参考訳) 我々はPRISMを提案し、機械翻訳システムの利用者が自身のイニシアチブでデータのプライバシーを維持することができるようにした。 プライバシー保護を必要とするデータに機械翻訳システムを適用するという需要が高まっている。 いくつかの機械翻訳エンジンはプライバシーを優先しているが、そのような保護の程度と具体性はほとんど曖昧である。 第一に、データがどの程度保護されているか、そしてどの程度保護されているかの明確さが欠如していることが多い。 サービスプロバイダが十分な保護策があると信じているとしても、高度な敵は機密情報を抽出する可能性がある。 第二に、脆弱性は通信チャネル内の保護措置の外に存在し、データ漏洩につながる可能性がある。 その結果、ユーザーは高いレベルのプライバシー保護を必要とするデータに対して機械翻訳エンジンを利用するのをためらうため、その利点を欠くことになる。 PRISMはこの問題を解決する。 データを安全に保つために翻訳サービスに頼る代わりに、PRISMはユーザの側でデータを保護する手段を提供する。 このアプローチは、プライバシー対策が不十分な機械翻訳エンジンでも安全に使用できることを保証します。 既にプライバシー保護を装備しているプラットフォームでは、PRISMは追加の保護層として機能し、セキュリティをさらに強化する。 PRISMはこれらのプライバシー機能を翻訳精度を著しく損なうことなく追加する。 実世界のトランスレータであるT5とChatGPT(GPT-3.5-turbo)と2つの言語を用いたデータセットを用いたPRISMの有効性を示す。 PRISMは、効果的にプライバシー保護と翻訳精度のバランスをとる。

We propose PRISM to enable users of machine translation systems to preserve the privacy of data on their own initiative. There is a growing demand to apply machine translation systems to data that require privacy protection. While several machine translation engines claim to prioritize privacy, the extent and specifics of such protection are largely ambiguous. First, there is often a lack of clarity on how and to what degree the data is protected. Even if service providers believe they have sufficient safeguards in place, sophisticated adversaries might still extract sensitive information. Second, vulnerabilities may exist outside of these protective measures, such as within communication channels, potentially leading to data leakage. As a result, users are hesitant to utilize machine translation engines for data demanding high levels of privacy protection, thereby missing out on their benefits. PRISM resolves this problem. Instead of relying on the translation service to keep data safe, PRISM provides the means to protect data on the user's side. This approach ensures that even machine translation engines with inadequate privacy measures can be used securely. For platforms already equipped with privacy safeguards, PRISM acts as an additional protection layer, reinforcing their security furthermore. PRISM adds these privacy features without significantly compromising translation accuracy. Our experiments demonstrate the effectiveness of PRISM using real-world translators, T5 and ChatGPT (GPT-3.5-turbo), and the datasets with two languages. PRISM effectively balances privacy protection with translation accuracy.
翻訳日:2023-12-08 16:07:49 公開日:2023-12-07
# MeanCut:パスベースの類似性とDregree Descent Criterionによるグレディ最適化グラフクラスタリング

MeanCut: A Greedy-Optimized Graph Clustering via Path-based Similarity and Degree Descent Criterion ( http://arxiv.org/abs/2312.04067v1 )

ライセンス: Link先を確認
Dehua Peng, Zhipeng Gui, Huayi Wu(参考訳) 最も典型的なグラフクラスタリング法として、スペクトルクラスタリングは、顕著な性能、実装が容易で、適応性が強いため、人気があり魅力的である。 古典的なスペクトルクラスタリングは、ペアワイズユークリッド計量を用いてグラフのエッジウェイトを測定し、指標行列の制約を緩和し、ラプラシアン分解を実行することで最適なグラフ分割を解く。 しかしながら、ユークリッドに基づく類似性は非球面データ分布を扱う際に歪グラフ切断を引き起こす可能性があり、緩和戦略は情報損失をもたらす。 一方、スペクトルクラスタリングでは、十分な事前知識なしでは判断が難しいクラスタの数を指定する必要がある。 本研究では,経路に基づく類似性を活用してクラスタ内の関連性を高めるとともに,MeanCut を目的関数として提案し,非破壊グラフ分割の次々に下降順に最適化する。 このアルゴリズムは任意の形状のクラスタを識別でき、ノイズにロバストである。 類似度計算の計算複雑性を低減するため,最適経路探索を最大スパンニングツリー(MST)の生成に変換するとともに,その時間効率を向上する高速MSTアルゴリズムを開発した。 さらに、弱い連結クラスタを分離するための密度勾配係数(DGF)を定義する。 本アルゴリズムの妥当性は,実世界のベンチマークと顔認識の応用によって実証される。 MeanCutのソースコードはhttps://github.com/ZPGuiGroupWhu/MeanCut-Clusteringで入手できる。

As the most typical graph clustering method, spectral clustering is popular and attractive due to the remarkable performance, easy implementation, and strong adaptability. Classical spectral clustering measures the edge weights of graph using pairwise Euclidean-based metric, and solves the optimal graph partition by relaxing the constraints of indicator matrix and performing Laplacian decomposition. However, Euclidean-based similarity might cause skew graph cuts when handling non-spherical data distributions, and the relaxation strategy introduces information loss. Meanwhile, spectral clustering requires specifying the number of clusters, which is hard to determine without enough prior knowledge. In this work, we leverage the path-based similarity to enhance intra-cluster associations, and propose MeanCut as the objective function and greedily optimize it in degree descending order for a nondestructive graph partition. This algorithm enables the identification of arbitrary shaped clusters and is robust to noise. To reduce the computational complexity of similarity calculation, we transform optimal path search into generating the maximum spanning tree (MST), and develop a fast MST (FastMST) algorithm to further improve its time-efficiency. Moreover, we define a density gradient factor (DGF) for separating the weakly connected clusters. The validity of our algorithm is demonstrated by testifying on real-world benchmarks and application of face recognition. The source code of MeanCut is available at https://github.com/ZPGuiGroupWhu/MeanCut-Clustering.
翻訳日:2023-12-08 16:07:25 公開日:2023-12-07
# 自己知識蒸留による視覚言語モデルの固有知識と教師なし領域適応

Combining inherent knowledge of vision-language models with unsupervised domain adaptation through self-knowledge distillation ( http://arxiv.org/abs/2312.04066v1 )

ライセンス: Link先を確認
Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada(参考訳) unsupervised domain adaptation(uda)は、ラベル付きソースデータセットを活用して、その知識を類似しているが異なるターゲットデータセットに転送することで、データラベリングの面倒な作業を克服しようとする。 一方、現在の視覚言語モデルは驚くべきゼロショット予測能力を示している。 本研究では,UDAを通して得られた知識と視覚言語モデル固有の知識を組み合わせる。 最初のステップでは、視覚言語モデルを用いて、ソースとターゲットデータセットのゼロショット予測を生成する。 ゼロショット予測は通常大きなエントロピーを示すため、クラス確率は均等に分布するので、まず分布を調整して勝利確率を強調する。 これはソースデータとターゲットデータの両方を使用して、ソースデータとターゲットデータの相対的な信頼性を維持する。 次に,従来のDA法を用いて,自己知識蒸留と組み合わせて,ソースデータセットから知識を得るとともに,視覚言語モデルの本質的知識を維持する。 さらに,本手法を段階的ソース領域拡張戦略(gsde)と組み合わせることで,ゼロショット予測を含めることで,この戦略が有益であることを示す。 我々は,OfficeHome,VisDA,DomainNetの3つのベンチマークの実験とアブレーション研究を行い,最先端の手法より優れている。 さらに、アルゴリズムの様々な部分の寄与についてアブレーション研究を行う。

Unsupervised domain adaptation (UDA) tries to overcome the tedious work of labeling data by leveraging a labeled source dataset and transferring its knowledge to a similar but different target dataset. On the other hand, current vision-language models exhibit astonishing zero-shot prediction capabilities. In this work, we combine knowledge gained through UDA with the inherent knowledge of vision-language models. In a first step, we generate the zero-shot predictions of the source and target dataset using the vision-language model. Since zero-shot predictions usually exhibit a large entropy, meaning that the class probabilities are rather evenly distributed, we first adjust the distribution to accentuate the winning probabilities. This is done using both source and target data to keep the relative confidence between source and target data. We then employ a conventional DA method, to gain the knowledge from the source dataset, in combination with self-knowledge distillation, to maintain the inherent knowledge of the vision-language model. We further combine our method with a gradual source domain expansion strategy (GSDE) and show that this strategy can also benefit by including zero-shot predictions. We conduct experiments and ablation studies on three benchmarks (OfficeHome, VisDA, and DomainNet) and outperform state-of-the-art methods. We further show in ablation studies the contributions of different parts of our algorithm.
翻訳日:2023-12-08 16:06:55 公開日:2023-12-07
# 局所方向分散測定によるロバストかつ効率的な境界点検出法

A Robust and Efficient Boundary Point Detection Method by Measuring Local Direction Dispersion ( http://arxiv.org/abs/2312.04065v1 )

ライセンス: Link先を確認
Dehua Peng, Zhipeng Gui, Huayi Wu(参考訳) 境界点は、分類、クラスタリング、次元削減を含む機械学習タスクに重大な課題をもたらす。 特徴の類似性のため、境界領域は混成クラスやクラスタとなり、次元の減少において群れの問題を引き起こす。 この課題に対処するために、多くの境界点検出法が開発されているが、非凸構造や高次元多様体の境界点を正確にかつ効率的に同定するには不十分である。 本研究では,局所方向分散(lodd)を用いたロバストで効率的な境界点検出手法を提案する。 LoDDは、内部点がすべての方向で隣接点に囲まれているのに対して、境界点の隣接点は特定の方向の範囲でのみ分布する傾向にあると考えている。 LoDDは、密度非依存のK-Nearest Neighbors (KNN) 法を採用し、KNN座標の共分散行列の固有値を用いて、クエリポイントの集中度を測定する統計に基づく計量を定義する。 我々は,5つの合成データセット(2-Dおよび3-D)と10個の実世界のベンチマークに対するLoDDの有効性を実証し,K-meansとNcutの2つの典型的なクラスタリング手法を用いてクラスタリング性能を検証した。 その結果,loddは有望でロバストな検出精度を時間効率良く達成できることがわかった。

Boundary points pose a significant challenge for machine learning tasks, including classification, clustering, and dimensionality reduction. Due to the similarity of features, boundary areas can result in mixed-up classes or clusters, leading to a crowding problem in dimensionality reduction. To address this challenge, numerous boundary point detection methods have been developed, but they are insufficiently to accurately and efficiently identify the boundary points in non-convex structures and high-dimensional manifolds. In this work, we propose a robust and efficient method for detecting boundary points using Local Direction Dispersion (LoDD). LoDD considers that internal points are surrounded by neighboring points in all directions, while neighboring points of a boundary point tend to be distributed only in a certain directional range. LoDD adopts a density-independent K-Nearest Neighbors (KNN) method to determine neighboring points, and defines a statistic-based metric using the eigenvalues of the covariance matrix of KNN coordinates to measure the centrality of a query point. We demonstrated the validity of LoDD on five synthetic datasets (2-D and 3-D) and ten real-world benchmarks, and tested its clustering performance by equipping with two typical clustering methods, K-means and Ncut. Our results show that LoDD achieves promising and robust detection accuracy in a time-efficient manner.
翻訳日:2023-12-08 16:06:34 公開日:2023-12-07
# DiscoBAX: ゲノム実験設計における最適介入セットの発見

DiscoBAX: Discovery of Optimal Intervention Sets in Genomic Experiment Design ( http://arxiv.org/abs/2312.04064v1 )

ライセンス: Link先を確認
Clare Lyle, Arash Mehrjou, Pascal Notin, Andrew Jesson, Stefan Bauer, Yarin Gal, Patrick Schwab(参考訳) 遺伝性疾患を治療するための治療法の発見は、基礎疾患のメカニズムに関与する遺伝子を同定することに依存している。 既存のアプローチは、ターゲットの表現型に期待される影響を最大化するために、何十億もの潜在的な介入を探索する。 しかし,今後の試験段階における失敗のリスクを軽減するために,様々なメカニズムを通じて標的表現型を最大限に変化させる一連の介入を見つけることを目的としている。 本研究は, ゲノム実験において, 多様な機構を同時に探究しながら, 有意な発見率を最大化するためのサンプル効率の高い方法であるdiscobaxを提案する。 標準仮定の下での近似最適性の理論的保証を提供し、合成と実世界の実験設計タスクの両方をカバーする包括的実験評価を行う。 DiscoBAXは、生物学的システムにおける効果的で多様な摂動を選択し、実験設計の最先端の手法より優れている。

The discovery of therapeutics to treat genetically-driven pathologies relies on identifying genes involved in the underlying disease mechanisms. Existing approaches search over the billions of potential interventions to maximize the expected influence on the target phenotype. However, to reduce the risk of failure in future stages of trials, practical experiment design aims to find a set of interventions that maximally change a target phenotype via diverse mechanisms. We propose DiscoBAX, a sample-efficient method for maximizing the rate of significant discoveries per experiment while simultaneously probing for a wide range of diverse mechanisms during a genomic experiment campaign. We provide theoretical guarantees of approximate optimality under standard assumptions, and conduct a comprehensive experimental evaluation covering both synthetic as well as real-world experimental design tasks. DiscoBAX outperforms existing state-of-the-art methods for experimental design, selecting effective and diverse perturbations in biological systems.
翻訳日:2023-12-08 16:06:09 公開日:2023-12-07
# Segment Anything によるレーザー添加物製造における高速欠陥分割への教師なしアプローチ

An unsupervised approach towards promptable defect segmentation in laser-based additive manufacturing by Segment Anything ( http://arxiv.org/abs/2312.04063v1 )

ライセンス: Link先を確認
Israt Zarin Era, Imtiaz Ahmed, Zhichao Liu, Srinjoy Das(参考訳) ファンデーションモデルは現在、生物学、天文学、ロボット工学など様々な分野におけるコンピュータビジョンタスクのパラダイムシフトを推進しており、ユーザー生成プロンプトを活用してパフォーマンスを向上させる。 製造領域では、正確な画像に基づく欠陥分割は製品品質の確保とリアルタイムプロセス制御の促進に不可欠である。 しかしながら、そのようなタスクはラベルの欠如や低レイテンシの推論の要件など、複数の課題によって特徴づけられることが多い。 そこで本研究では,最先端視覚トランスフォーマ (vit) に基づく基礎モデル (segment anything model) を用いた画像分割のためのフレームワークを構築し,教師なしクラスタリングを用いた新しい多点プロンプト生成手法を提案する。 本研究では, レーザベース粉末層融合 (l-pbf) を事例として, 実時間ポロシティセグメンテーションを応用し, 教師付き微調整を必要とせずに高ディス類似度係数 (dsc) を得る。 このような軽量な基礎モデル推論と教師なしの即時生成を併用して、現在のレーザー添加物製造プロセスに革命をもたらす可能性を持つリアルタイム異常検出パイプラインの構築を構想し、産業4.0への移行を容易にし、運転効率とともに欠陥のない生産を促進する。

Foundation models are currently driving a paradigm shift in computer vision tasks for various fields including biology, astronomy, and robotics among others, leveraging user-generated prompts to enhance their performance. In the manufacturing domain, accurate image-based defect segmentation is imperative to ensure product quality and facilitate real-time process control. However, such tasks are often characterized by multiple challenges including the absence of labels and the requirement for low latency inference among others. To address these issues, we construct a framework for image segmentation using a state-of-the-art Vision Transformer (ViT) based Foundation model (Segment Anything Model) with a novel multi-point prompt generation scheme using unsupervised clustering. We apply our framework to perform real-time porosity segmentation in a case study of laser base powder bed fusion (L-PBF) and obtain high Dice Similarity Coefficients (DSC) without the necessity for any supervised fine-tuning in the model. Using such lightweight foundation model inference in conjunction with unsupervised prompt generation, we envision the construction of a real-time anomaly detection pipeline that has the potential to revolutionize the current laser-based additive manufacturing processes, thereby facilitating the shift towards Industry 4.0 and promoting defect-free production along with operational efficiency.
翻訳日:2023-12-08 16:05:52 公開日:2023-12-07
# 重畳MIMOシステムのためのFew-Shot CSIフィードバックフレームワーク

A Low-Overhead Incorporation-Extrapolation based Few-Shot CSI Feedback Framework for Massive MIMO Systems ( http://arxiv.org/abs/2312.04062v1 )

ライセンス: Link先を確認
Binggui Zhou, Xi Yang, Jintao Wang, Shaodan Ma, Feifei Gao, Guanghua Yang(参考訳) 基地局(BS)におけるダウンリンクプリコーディング、特にOFDMを用いた周波数FDD広帯域MIMOシステムには、正確なチャネル状態情報(CSI)が不可欠である。 FDDシステムでは、CSIはユーザ機器(UE)からのCSIフィードバックによって達成される。 しかし、大規模なアンテナと多数のサブキャリアはcsiフィードバックのオーバーヘッドを大幅に増加させる。 深層学習に基づくcsiフィードバック手法は,近年,csi圧縮能力の面で大きな注目を集めている。 それでも、ディープラーニングモデルのトレーニングには大量のサンプルが必要であり、実際には非常に難しい。 さらに、アンテナやサブキャリアの急増に伴い、これらの深層学習手法のcsiフィードバックオーバーヘッドのほとんどは、全次元のcsiフィードバックに重点を置いているため、劇的に増大する。 そこで本稿では,大規模なMIMOシステムを対象としたFew-Shot CSIフィードバックフレームワーク(IEFSF)を提案する。 さらに、フィードバックオーバヘッドを低減させるために、ueの組み込み工程でまず低次元固有ベクトルベースのcsiマトリックスを形成し、その後、外挿工程を介してbsのフル次元固有ベクトルベースのcsiマトリックスに復元する。 その後,広範に収集されたサンプルの必要性を軽減し,少数のCSIフィードバックを可能にするために,無線チャネルのドメイン知識を活用し,新たな生成モデルを活用することにより,知識駆動型データ拡張法と人工知能生成コンテンツ(AIGC)に基づくデータ拡張法を提案する。 数値計算の結果,提案したIEFSFは既存のCSIフィードバック手法と比較してCSIフィードバックのオーバーヘッドを16倍に低減し,数百個のサンプルを用いて高いフィードバック精度を維持することができた。

Accurate channel state information (CSI) is essential for downlink precoding at the base station (BS), especially for frequency FDD wideband massive MIMO systems with OFDM. In FDD systems, CSI is attained through CSI feedback from the user equipment (UE). However, large-scale antennas and large number of subcarriers significantly increase CSI feedback overhead. Deep learning-based CSI feedback methods have received tremendous attention in recent years due to their great capability of compressing CSI. Nonetheless, large amounts of collected samples are required to train deep learning models, which is severely challenging in practice. Besides, with the rapidly increasing number of antennas and subcarriers, most of these deep learning methods' CSI feedback overhead also grow dramatically, owing to their focus on full-dimensional CSI feedback. To address this issue, in this paper, we propose a low-overhead Incorporation-Extrapolation based Few-Shot CSI feedback Framework (IEFSF) for massive MIMO systems. To further reduce the feedback overhead, a low-dimensional eigenvector-based CSI matrix is first formed with the incorporation process at the UE, and then recovered to the full-dimensional eigenvector-based CSI matrix at the BS via the extrapolation process. After that, to alleviate the necessity of the extensive collected samples and enable few-shot CSI feedback, we further propose a knowledge-driven data augmentation method and an artificial intelligence-generated content (AIGC) -based data augmentation method by exploiting the domain knowledge of wireless channels and by exploiting a novel generative model, respectively. Numerical results demonstrate that the proposed IEFSF can significantly reduce CSI feedback overhead by 16 times compared with existing CSI feedback methods while maintaining higher feedback accuracy using only several hundreds of collected samples.
翻訳日:2023-12-08 16:05:23 公開日:2023-12-07
# Voxel Point-to-Pixel Matchingによる画像とLiDAR点雲の微分登録

Differentiable Registration of Images and LiDAR Point Clouds with VoxelPoint-to-Pixel Matching ( http://arxiv.org/abs/2312.04060v1 )

ライセンス: Link先を確認
Junsheng Zhou, Baorui Ma, Wenyuan Zhang, Yi Fang, Yu-Shen Liu, Zhizhong Han(参考訳) カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットにとって重要な課題である。 従来の手法では,2d-3d対応をニューラルネットワークで学習した点と画素パターンのマッチングにより推定し,pnpを用いて後処理中の剛性変換を推定した。 しかし、点と画素は異なるパターン(mlpとcnn)で学習されるパターンとは全く異なる特徴を持ち、pnpは非微分可能であり、不安定な登録結果をもたらすため、変換の監督を直接構築することができないため、これらの手法では、点と画素を共有潜在空間にロバストにマッピングするのに苦労している。 これらの問題に対処するために,異なる確率的PnPソルバを用いて,画素特徴と3次元特徴を表現するための構造付きクロスモーダル潜在空間の学習を提案する。 具体的には、VoxelPoint-to-Pixelマッチングを学習するために三重項ネットワークを設計し、ボクセルとポイントの両方を用いて3次元要素を表現し、画素でモジュラリティラテント空間を学習する。 グリッドに表現されたボクセル/ピクセルの畳み込みを操作するためにcnnに基づくボクセルとピクセルのブランチの両方を設計し、ボクセル化時に失われた情報を復元するために追加のポイントブランチを統合する。 我々は,確率論的PnPソルバを用いて,予測されたポーズ分布を直接監督することにより,エンドツーエンドのフレームワークを訓練する。 クロスモダリティ特徴の特徴的なパターンを探るため,クロスモダリティ特徴記述のための適応重み付き最適化による新しい損失をデザインする。 KITTIとnuScenesデータセットの実験結果は、最先端の手法よりも大幅に改善されている。 コードとモデルはhttps://github.com/junshengzhou/vp2p-matchで入手できる。

Cross-modality registration between 2D images from cameras and 3D point clouds from LiDARs is a crucial task in computer vision and robotic. Previous methods estimate 2D-3D correspondences by matching point and pixel patterns learned by neural networks, and use Perspective-n-Points (PnP) to estimate rigid transformation during post-processing. However, these methods struggle to map points and pixels to a shared latent space robustly since points and pixels have very different characteristics with patterns learned in different manners (MLP and CNN), and they also fail to construct supervision directly on the transformation since the PnP is non-differentiable, which leads to unstable registration results. To address these problems, we propose to learn a structured cross-modality latent space to represent pixel features and 3D features via a differentiable probabilistic PnP solver. Specifically, we design a triplet network to learn VoxelPoint-to-Pixel matching, where we represent 3D elements using both voxels and points to learn the cross-modality latent space with pixels. We design both the voxel and pixel branch based on CNNs to operate convolutions on voxels/pixels represented in grids, and integrate an additional point branch to regain the information lost during voxelization. We train our framework end-to-end by imposing supervisions directly on the predicted pose distribution with a probabilistic PnP solver. To explore distinctive patterns of cross-modality features, we design a novel loss with adaptive-weighted optimization for cross-modality feature description. The experimental results on KITTI and nuScenes datasets show significant improvements over the state-of-the-art methods. The code and models are available at https://github.com/junshengzhou/VP2P-Match.
翻訳日:2023-12-08 16:04:51 公開日:2023-12-07
# 行動量損失に対する大規模言語モデルAIと人為的コーチングメッセージの比較

Comparing Large Language Model AI and Human-Generated Coaching Messages for Behavioral Weight Loss ( http://arxiv.org/abs/2312.04059v1 )

ライセンス: Link先を確認
Zhuoran Huang, Michael P. Berry, Christina Chwyl, Gary Hsieh, Jing Wei, Evan M. Forman(参考訳) ウェイトコントロールのための自動コーチングメッセージは、時間とコストを節約できるが、反復的で汎用的な性質は、人間のコーチングと比べてその効果を制限する可能性がある。 大規模言語モデル(LLM)ベースの人工知能(AI)チャットボット、例えばChatGPTは、よりパーソナライズされた新しいメッセージを提供し、データ処理能力の反復に対処する。 LLM AIは健康的なライフスタイルを促進するという約束を示しているが、LLMベースのBWLコーチングの実現可能性と受容性はまだ研究されていない。 体重減少試験の87人の成人は、5ポイントのlikertスケールを使用して、10のコーチングメッセージの有益性(人書き5つ、チャットgpt生成5つ)を評価し、レーティングを正当化するための追加のフィードバックを提供する。 参加者はAIが生成したメッセージも特定した。 評価は2段階に分けて行われ、第1段階のメッセージは非対人的かつ否定的なものとして認識され、第2段階のメッセージの改訂が進められた。 フェーズ1では、aiが生成したメッセージは、人間によって書かれたメッセージよりも役に立たず、66%が3以上の評価を受けている。 しかし、フェーズ2では、aiメッセージは人文による助けに関するメッセージと一致し、82%が3点以上を記録した。 さらに、50%は人書きと誤認され、AIの人間生成コンテンツを模倣する洗練度が示唆された。 オープンエンドフィードバックのテーマ分析により、参加者はAIの共感とパーソナライズされた提案を高く評価したが、より形式的で、信頼性が低く、データ重視が多すぎることがわかった。 この研究は、潜在的に効果的な重み制御コーチングメッセージの作成において、ChatGPTのようなLLM AIの予備的実現可能性と受容性を明らかにする。 我々の発見はまた、将来の強化の領域を強調する。

Automated coaching messages for weight control can save time and costs, but their repetitive, generic nature may limit their effectiveness compared to human coaching. Large language model (LLM) based artificial intelligence (AI) chatbots, like ChatGPT, could offer more personalized and novel messages to address repetition with their data-processing abilities. While LLM AI demonstrates promise to encourage healthier lifestyles, studies have yet to examine the feasibility and acceptability of LLM-based BWL coaching. 87 adults in a weight-loss trial rated ten coaching messages' helpfulness (five human-written, five ChatGPT-generated) using a 5-point Likert scale, providing additional open-ended feedback to justify their ratings. Participants also identified which messages they believed were AI-generated. The evaluation occurred in two phases: messages in Phase 1 were perceived as impersonal and negative, prompting revisions for Phase 2 messages. In Phase 1, AI-generated messages were rated less helpful than human-written ones, with 66 percent receiving a helpfulness rating of 3 or higher. However, in Phase 2, the AI messages matched the human-written ones regarding helpfulness, with 82% scoring three or above. Additionally, 50% were misidentified as human-written, suggesting AI's sophistication in mimicking human-generated content. A thematic analysis of open-ended feedback revealed that participants appreciated AI's empathy and personalized suggestions but found them more formulaic, less authentic, and too data-focused. This study reveals the preliminary feasibility and acceptability of LLM AIs, like ChatGPT, in crafting potentially effective weight control coaching messages. Our findings also underscore areas for future enhancement.
翻訳日:2023-12-08 16:04:15 公開日:2023-12-07
# 個人軌跡の空間空間的表現学習

Jointly spatial-temporal representation learning for individual trajectories ( http://arxiv.org/abs/2312.04055v1 )

ライセンス: Link先を確認
Fei Huang, Jianrong Lv and Yang Yue(参考訳) 空間と時間にわたる人間と環境の相互作用に関する重要な情報を含む個々の軌道は、地理空間基盤モデル(GeoFM)にとって重要な入力である。 しかし、様々なアプリケーションにトラジェクトリデータを利用する既存の試みは、トラジェクトリ内の暗黙の空間的時間的依存性を見落とし、それを符号化し、深層学習に親しみやすいフォーマットで表現することができなかった。 そこで本稿では,学習可能な時空間依存を軌道表現に変換するための時空間共同表現学習法(ST-GraphRL)を提案する。 提案したST-GraphRLは3つの構成からなる。 (i)空間次元と時間次元の両方の移動性相互作用を明示的に構築する重み付き空間時間グラフ 二 空間及び時刻情報を独立に分解し統合することにより、絡み合う空間的-時間的依存関係を学習するための二段階共同エンコーダ(デカップリング及び融合) (iii)デコーダは、軌道の空間-時間分布をシミュレートして、st-graphrlに明示的なモビリティの正則性を学習させる。 実世界の3つの人間の移動性データセットを用いて,ST-GraphRLは,移動時空間分布の予測と,空間時空間相関の高い軌道類似性の保存において,すべてのベースラインモデルより優れていた。 また,ST-GraphRLが空間時間パターンを理解することの妥当性を検証した。 この手法は、広域下流タスクのための汎用地理空間データ表現や、GeoFMの進展にも適用可能である。

Individual trajectories, containing substantial information on human-environment interactions across space and time, is a crucial input for geospatial foundation models (GeoFMs). However, existing attempts, leveraging trajectory data for various applications have overlooked the implicit spatial-temporal dependency within trajectories and failed to encode and represent it in a format friendly to deep learning, posing a challenge in obtaining general-purpose trajectory representations. Therefore, this paper proposes a spatial-temporal joint representation learning method (ST-GraphRL) to formalize learnable spatial-temporal dependencies into trajectory representations. The proposed ST-GraphRL consists of three compositions: (i) a weighted directed spatial-temporal graph to explicitly construct mobility interactions over both space and time dimensions; (ii) a two-stage jointly encoder (i.e., decoupling and fusion) to learn entangled spatial-temporal dependencies by independently decomposing and jointly aggregating space and time information; (iii) a decoder guides ST-GraphRL to learn explicit mobility regularities by simulating the spatial-temporal distributions of trajectories. Tested on three real-world human mobility datasets, the proposed ST-GraphRL outperformed all the baseline models in predicting movement spatial-temporal distributions and preserving trajectory similarity with high spatial-temporal correlations. We also explore how spatial-temporal features presented in latent space, validating that ST-GraphRL understands spatial-temporal patterns. This method is also transferable for general-purpose geospatial data representations for broad downstream tasks, as well advancing GeoFMs developing.
翻訳日:2023-12-08 16:03:42 公開日:2023-12-07
# 南アフリカのソーシャルメディア環境におけるマルチモーダル誤情報検出

Multimodal Misinformation Detection in a South African Social Media Environment ( http://arxiv.org/abs/2312.04052v1 )

ライセンス: Link先を確認
Amica De Jager, Vukosi Marivate, Abioudun Modupe(参考訳) ソーシャルメディア上での誤情報の拡散が絶えない中、デジタルコンテンツの妥当性を継続的に評価する必要性が生じた。 このニーズは誤情報検出(MD)モデルの開発に多くの研究成果をもたらした。 しかしながら、多くのモデルでは利用可能なすべての情報を使用せず、既存の研究には、特に南アフリカのソーシャルメディア環境でモデルをトレーニングするための関連するデータセットが不足している。 本研究の目的は,異なる文脈環境間のMDモデルの知識の伝達可能性を検討することである。 本研究は,南アフリカのソーシャルメディア環境で機能するマルチモーダルMDモデルと,南アフリカの誤情報データセットの導入に寄与する。 このモデルは、誤情報検出、すなわちテキストおよび視覚要素の複数の情報源を利用する。 変換器(BERT)の双方向エンコーダ表現をテキストエンコーダとして、残余ネットワーク(ResNet)をビジュアルエンコーダとして使用する。 このモデルは、fakedditデータセットと南アフリカの誤った情報データセットでトレーニングされ、評価される。 その結果、モデルのトレーニングに南アフリカのサンプルを用いると、南アフリカの文脈環境ではモデル性能が向上し、マルチモーダルモデルはテキストモデルとビジュアルユニモーダルモデルの両方よりもかなり多くの知識を保持できることがわかった。 本研究は,誤情報検出モデルの性能が,その運用環境の文化的ニュアンスやマルチモーダルモデルの影響を受けていることを示唆する。 したがって、モデル性能を最適化するために、誤情報検出モデルのトレーニングプロセスにローカルデータを組み込む必要がある。

With the constant spread of misinformation on social media networks, a need has arisen to continuously assess the veracity of digital content. This need has inspired numerous research efforts on the development of misinformation detection (MD) models. However, many models do not use all information available to them and existing research contains a lack of relevant datasets to train the models, specifically within the South African social media environment. The aim of this paper is to investigate the transferability of knowledge of a MD model between different contextual environments. This research contributes a multimodal MD model capable of functioning in the South African social media environment, as well as introduces a South African misinformation dataset. The model makes use of multiple sources of information for misinformation detection, namely: textual and visual elements. It uses bidirectional encoder representations from transformers (BERT) as the textual encoder and a residual network (ResNet) as the visual encoder. The model is trained and evaluated on the Fakeddit dataset and a South African misinformation dataset. Results show that using South African samples in the training of the model increases model performance, in a South African contextual environment, and that a multimodal model retains significantly more knowledge than both the textual and visual unimodal models. Our study suggests that the performance of a misinformation detection model is influenced by the cultural nuances of its operating environment and multimodal models assist in the transferability of knowledge between different contextual environments. Therefore, local data should be incorporated into the training process of a misinformation detection model in order to optimize model performance.
翻訳日:2023-12-08 16:03:11 公開日:2023-12-07
# 鳥眼視意味セグメンテーションのための残留グラフ畳み込みネットワーク

Residual Graph Convolutional Network for Bird's-Eye-View Semantic Segmentation ( http://arxiv.org/abs/2312.04044v1 )

ライセンス: Link先を確認
Qiuxiao Chen and Xiaojun Qi(参考訳) 環境情報の検索と周辺環境の意味情報の理解は,Bird's-Eye-View (BEV)セマンティックセグメンテーションにおいて重要である。 自動運転の応用において、自動運転車は安全に運転するために周囲を意識する必要がある。 しかし、現在のBEVセマンティックセグメンテーション技術、ディープ畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、ネットワークの初期層における周囲のグローバルなセマンティックな関係を得るのに困難である。 本稿では,Residual Graph Convolutional(RGC)モジュールを深層CNNに組み込んで,多視点画像領域におけるグローバル情報と地域レベルのセマンティック関係を取得することを提案する。 具体的には、RCCモジュールはオーバーラップしないグラフ空間投影を用いて、完全なBEV情報をグラフ空間に効率的に投影する。 その後、相互接続された空間グラフとチャネルグラフを構築し、各ノードとチャネル情報の間の空間情報を抽出する(すなわち、グローバルな特徴の文脈的関係を抽出する)。 さらに、ダウンサンプル残差処理を用いて、座標特徴の再利用を強化し、グローバル情報を維持する。 セグメンテーションデータ拡張およびアライメントモジュールは、BEVの特徴と地上の真実を同時に拡張およびアライメントし、アライメントを幾何学的に保存し、より良いセグメンテーション結果を達成するのに役立つ。 nuScenesベンチマークによる実験結果から,RGCネットワークはIoUとmIoUで4つの最先端ネットワークと4つの変種を上回る性能を示した。 提案したRCCネットワークは,最先端ネットワークであるBEVFusionよりも3.1%高いmIoUを実現する。 コードとモデルはリリースされる。

Retrieving spatial information and understanding the semantic information of the surroundings are important for Bird's-Eye-View (BEV) semantic segmentation. In the application of autonomous driving, autonomous vehicles need to be aware of their surroundings to drive safely. However, current BEV semantic segmentation techniques, deep Convolutional Neural Networks (CNNs) and transformers, have difficulties in obtaining the global semantic relationships of the surroundings at the early layers of the network. In this paper, we propose to incorporate a novel Residual Graph Convolutional (RGC) module in deep CNNs to acquire both the global information and the region-level semantic relationship in the multi-view image domain. Specifically, the RGC module employs a non-overlapping graph space projection to efficiently project the complete BEV information into graph space. It then builds interconnected spatial and channel graphs to extract spatial information between each node and channel information within each node (i.e., extract contextual relationships of the global features). Furthermore, it uses a downsample residual process to enhance the coordinate feature reuse to maintain the global information. The segmentation data augmentation and alignment module helps to simultaneously augment and align BEV features and ground truth to geometrically preserve their alignment to achieve better segmentation results. Our experimental results on the nuScenes benchmark dataset demonstrate that the RGC network outperforms four state-of-the-art networks and its four variants in terms of IoU and mIoU. The proposed RGC network achieves a higher mIoU of 3.1% than the best state-of-the-art network, BEVFusion. Code and models will be released.
翻訳日:2023-12-08 16:02:46 公開日:2023-12-07
# doodle your 3d: 抽象的なフリーハンドスケッチから正確な3d形状へ

Doodle Your 3D: From Abstract Freehand Sketches to Precise 3D Shapes ( http://arxiv.org/abs/2312.04043v1 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Subhadeep Koley, Ayan Das, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Ayan Kumar Bhunia, Yi-Zhe Song(参考訳) 本稿では、3Dコンテンツ作成を民主化し、抽象スケッチから3D形状を正確に生成し、描画スキルの限界を克服する。 本稿では,抽象モデリングと相互対応を容易にする新しい部分レベルモデリング・アライメントフレームワークを提案する。 同じ部分レベルのデコーダを活用することで,CLIPassoエッジマップと投影された3D部分領域との対応性を確立し,人間のスケッチと3D形状をペアリングするデータセットを不要にすることで,スケッチモデリングをシームレスに実現する。 さらに,クロスモーダル部分アラインモデリングの副産物として,シームレスな位置編集プロセスを導入する。 低次元の暗黙空間で運用することで,計算要求や処理時間を著しく削減できる。

In this paper, we democratise 3D content creation, enabling precise generation of 3D shapes from abstract sketches while overcoming limitations tied to drawing skills. We introduce a novel part-level modelling and alignment framework that facilitates abstraction modelling and cross-modal correspondence. Leveraging the same part-level decoder, our approach seamlessly extends to sketch modelling by establishing correspondence between CLIPasso edgemaps and projected 3D part regions, eliminating the need for a dataset pairing human sketches and 3D shapes. Additionally, our method introduces a seamless in-position editing process as a byproduct of cross-modal part-aligned modelling. Operating in a low-dimensional implicit space, our approach significantly reduces computational demands and processing time.
翻訳日:2023-12-08 16:02:11 公開日:2023-12-07
# 時間ラベルのないデータからの動的システムの再構築

Reconstruction of dynamical systems from data without time labels ( http://arxiv.org/abs/2312.04038v1 )

ライセンス: Link先を確認
Zhijun Zeng, Pipi Hu, Chenglong Bao, Yi Zhu, Zuoqiang Shi(参考訳) 本稿では,時間ラベルのないデータから動的システムを再構築する方法を検討する。 タイムラベルのないデータは、分子動力学、シングルセルRNAシークエンシングなど、多くのアプリケーションに現れる。 時系列データから力学系を復元する手法が広く研究されている。 しかし、これらの方法は時間ラベルが未知である場合は適用されない。 タイムラベルがなければ、シーケンスデータは分散データとなる。 そこで本研究では, 確率分布のサンプルとしてデータを扱い, 分布損失を最小化し, より具体的にスライスしたwasserstein距離を再構成する手法を提案する。 その結果,提案手法の有効性が示された。

In this paper, we study the method to reconstruct dynamical systems from data without time labels. Data without time labels appear in many applications, such as molecular dynamics, single-cell RNA sequencing etc. Reconstruction of dynamical system from time sequence data has been studied extensively. However, these methods do not apply if time labels are unknown. Without time labels, sequence data becomes distribution data. Based on this observation, we propose to treat the data as samples from a probability distribution and try to reconstruct the underlying dynamical system by minimizing the distribution loss, sliced Wasserstein distance more specifically. Extensive experiment results demonstrate the effectiveness of the proposed method.
翻訳日:2023-12-08 16:01:57 公開日:2023-12-07
# 量子不純物モデルのためのハイブリッド量子古典アルゴリズムのコンパクト量子回路の比較研究

Comparative study on compact quantum circuits of hybrid quantum-classical algorithms for quantum impurity models ( http://arxiv.org/abs/2312.04105v1 )

ライセンス: Link先を確認
Rihito Sakurai, Oliver J. Backhouse, George H. Booth, Wataru Mizukami, Hiroshi Shinaoka(参考訳) 強相関物質の特性を予測することは、凝縮物質理論において重要な課題である。 広く使われている動的平均場理論は、数値的に量子不純物モデルを解くのが困難である。 変分量子固有解法のようなハイブリッド量子古典アルゴリズムは、量子不純物モデルの潜在的な解として現れる。 これらのアルゴリズムの一般的な課題は、不純物中のスピン軌道の数と変動パラメータの数の急速な増加である。 この問題に対する我々のアプローチでは、2つの異なる戦略を組み合わせてコンパクトなアンサーゼを開発する。 まず、量子化学の分野で開発された、コンパクトな物理学にインスパイアされたansatz, $k$-unitary cluster jastrow ansatzを用いる。 第二に, 身体的直観に基づく入浴場にともなう物理刺激アンサツェのほとんど冗長な変動パラメータを除去する。 これは、恒星のような幾何学を持つ量子不純物モデルが浴場間の直接ホッピングを持たないという事実に基づいている。 我々は、ショットノイズを伴わない典型的な量子不純物モデルの解法により、基底状態エネルギーと動的量の両方のアンサーゼの精度をベンチマークする。 その結果,浴場に関連する変動パラメータの数を減少させながら,地中エネルギーの精度を維持できることが示唆された。 さらに,提案手法と組み合わせたモーメント展開により,ショットノイズの影響下での虚時グリーン関数の計算が可能であることを示す。 本研究は, 精度を犠牲にすることなく, 変動パラメータが少ない大規模量子シミュレーションにおいて, 複雑な不純物モデルに対処する可能性を示す。

Predicting the properties of strongly correlated materials is a significant challenge in condensed matter theory. The widely used dynamical mean-field theory faces difficulty in solving quantum impurity models numerically. Hybrid quantum--classical algorithms such as variational quantum eigensolver emerge as a potential solution for quantum impurity models. A common challenge in these algorithms is the rapid growth of the number of variational parameters with the number of spin-orbitals in the impurity. In our approach to this problem, we develop compact ansatzes using a combination of two different strategies. First, we employ compact physics-inspired ansatz, $k$-unitary cluster Jastrow ansatz, developed in the field of quantum chemistry. Second, we eliminate largely redundant variational parameters of physics-inspired ansatzes associated with bath sites based on physical intuition. This is based on the fact that a quantum impurity model with a star-like geometry has no direct hopping between bath sites. We benchmark the accuracy of these ansatzes for both ground-state energy and dynamic quantities by solving typical quantum impurity models with/without shot noise. The results suggest that we can maintain the accuracy of ground-state energy while we drop the number of variational parameters associated with bath sites. Furthermore, we demonstrate that a moment expansion, when combined with the proposed ansatzes, can calculate the imaginary-time Green's functions under the influence of shot noise. This study demonstrates the potential for addressing complex impurity models in large-scale quantum simulations with fewer variational parameters without sacrificing accuracy.
翻訳日:2023-12-08 15:55:34 公開日:2023-12-07
# 自己説明的合理化のための論理-入力アライメントの強化

Enhancing the Rationale-Input Alignment for Self-explaining Rationalization ( http://arxiv.org/abs/2312.04103v1 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Zhiying Deng, YuanKai Zhang, Cheng Wang, Ruixuan Li(参考訳) 合理化は協調ゲームを通じて自己説明能力を持つディープラーニングモデルに権限を与え、ジェネレータが入力の意味論的に一貫したサブセットを論理として選択し、続く予測器が選択された論理に基づいて予測を行う。 本稿では,協調ゲームにおけるアルゴリズム的バイアスから生じる「emph{rationale shift}」という問題に合理化が伴うことを示した。 論理シフトは、選択された論理のセマンティクスが元の入力から逸脱する可能性がある状況を指すが、予測器は依然として偏差に基づいて正確な予測を生成し、誤ったフィードバックを伴う漏洩発生器を生成する。 この問題に対処するため,我々はまず,経験的観察と理論解析の両方を通して,理論と入力の一致の重要性を実証する。 次に,全入力に事前学習された補助モジュールを使用して,選択された論理と元の入力を識別的に調整する,dar(\textbf{d}iscriminatively \textbf{a}ligned \textbf{r}ationalization)と呼ばれる新しいアプローチを導入する。 理論的には、DARが望ましいアライメントをどのように達成し、したがって有理シフト問題を克服するかを論じる。 実世界の2つのベンチマークを用いた実験により,提案手法は,最先端技術と比較して,説明品質(モデル選択説明とヒューマンアノテート推論の重なり)が有意に向上することが示された。 さらに、2つの合成設定の結果は、理性シフト問題に対するdarの有効性をさらに検証している。

Rationalization empowers deep learning models with self-explaining capabilities through a cooperative game, where a generator selects a semantically consistent subset of the input as a rationale, and a subsequent predictor makes predictions based on the selected rationale. In this paper, we discover that rationalization is prone to a problem named \emph{rationale shift}, which arises from the algorithmic bias of the cooperative game. Rationale shift refers to a situation where the semantics of the selected rationale may deviate from the original input, but the predictor still produces accurate predictions based on the deviation, resulting in a compromised generator with misleading feedback. To address this issue, we first demonstrate the importance of the alignment between the rationale and the full input through both empirical observations and theoretical analysis. Subsequently, we introduce a novel approach called DAR (\textbf{D}iscriminatively \textbf{A}ligned \textbf{R}ationalization), which utilizes an auxiliary module pretrained on the full input to discriminatively align the selected rationale and the original input. We theoretically illustrate how DAR accomplishes the desired alignment, thereby overcoming the rationale shift problem. The experiments on two widely used real-world benchmarks show that the proposed method significantly improves the explanation quality (measured by the overlap between the model-selected explanation and the human-annotated rationale) as compared to state-of-the-art techniques. Additionally, results on two synthetic settings further validate the effectiveness of DAR in addressing the rationale shift problem.
翻訳日:2023-12-08 15:55:11 公開日:2023-12-07
# マルチタスク高次元マルチ目的最適化に基づくエッジコンピューティングサービス配置とタスクオフロード

Edge computing service deployment and task offloading based on multi-task high-dimensional multi-objective optimization ( http://arxiv.org/abs/2312.04101v1 )

ライセンス: Link先を確認
Yanheng Guo, Yan Zhang, Linjie Wu, Mengxia Li, Xingjuan Cai, Jinjun Chen(参考訳) クライアントの近くにあるMobile Edge Computing (MEC)システムにより、モバイルデバイスはエッジサーバに計算をオフロードでき、低レイテンシコンピューティングサービスの恩恵を受けることができる。 クラウドサービスプロバイダとユーザの両方が、より包括的なソリューションを求め、複数の目的のバランスを保ちながら、サービスデプロイメントとタスクのオフロードにおいて、司法上の決定を必要とする。 本研究では,マルチユーザ環境におけるサービス展開とタスクオフロードの課題について検討し,エッジ環境におけるマルチタスク高次元多目的最適化(MT-HD-MOO)問題とみなす。 レイテンシ、エネルギー消費、コストなどを考慮した安定したサービスプロビジョニングを実現するために、ネットワーク信頼性も組み込まれている。 さらに、エッジサーバの公平な使用を促進するため、レイテンシ、エネルギー消費、コストに加えて、ロードバランシングが第4のタスクオフロード目標として導入される。 さらに,マルチセレクション戦略に基づくmt-hd-mooアルゴリズムの設計を行い,このモデルとその解法について述べる。 多様な選択戦略を採用することで、高次元対象空間内の人口多様性を高めるための環境選択戦略プールが確立される。 最終的に、アルゴリズムの有効性はシミュレーション実験によって検証される。

The Mobile Edge Computing (MEC) system located close to the client allows mobile smart devices to offload their computations onto edge servers, enabling them to benefit from low-latency computing services. Both cloud service providers and users seek more comprehensive solutions, necessitating judicious decisions in service deployment and task offloading while balancing multiple objectives. This study investigates service deployment and task offloading challenges in a multi-user environment, framing them as a multi-task high-dimensional multi-objective optimization (MT-HD-MOO) problem within an edge environment. To ensure stable service provisioning, beyond considering latency, energy consumption, and cost as deployment objectives, network reliability is also incorporated. Furthermore, to promote equitable usage of edge servers, load balancing is introduced as a fourth task offloading objective, in addition to latency, energy consumption, and cost. Additionally, this paper designs a MT-HD-MOO algorithm based on a multi-selection strategy to address this model and its solution. By employing diverse selection strategies, an environment selection strategy pool is established to enhance population diversity within the high-dimensional objective space. Ultimately, the algorithm's effectiveness is verified through simulation experiments.
翻訳日:2023-12-08 15:54:40 公開日:2023-12-07
# 深層ニューラルネットワークの学習 - 勾配投影による非学習干渉の最小化

Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection ( http://arxiv.org/abs/2312.04095v1 )

ライセンス: Link先を確認
Tuan Hoang and Santu Rana and Sunil Gupta and Svetha Venkatesh(参考訳) 最近のデータプライバシ法は、学習モデルから学習データセットに存在しないかのように特定のトレーニングサンプルの影響を取り除くことを含む、機械学習への関心を喚起している。 機械学習の課題は、残りのデータセットに関する知識を変更することなく、学習モデルにおける‘forget’データの情報を破棄し、ナイーブなリトレーニングアプローチよりも効率的に行うことである。 そこで本研究では,pgu (projected-gradient unlearning) と名づけた投影勾配学習手法を採用し,データ保持に重要でない勾配部分空間に対して直交方向のステップを踏むことにより,その知識を保存できる。 モデル重みを更新するためにSGD(Stochastic Gradient Descent)を用いることで,本手法は任意のモデルやデータセットサイズに効率的にスケールすることができる。 トレーニングデータセットがもはやアクセスできない場合でも、さまざまなメトリクスでスクラッチから再トレーニングされたモデルと同じように振る舞うモデルが生成できることを実証するために、実証的な証拠を提供します。 私たちのコードはhttps://github.com/hnanhtuan/projected_gradient_unlearningで利用可能です。

Recent data-privacy laws have sparked interest in machine unlearning, which involves removing the effect of specific training samples from a learnt model as if they were never present in the original training dataset. The challenge of machine unlearning is to discard information about the ``forget'' data in the learnt model without altering the knowledge about the remaining dataset and to do so more efficiently than the naive retraining approach. To achieve this, we adopt a projected-gradient based learning method, named as Projected-Gradient Unlearning (PGU), in which the model takes steps in the orthogonal direction to the gradient subspaces deemed unimportant for the retaining dataset, so as to its knowledge is preserved. By utilizing Stochastic Gradient Descent (SGD) to update the model weights, our method can efficiently scale to any model and dataset size. We provide empirically evidence to demonstrate that our unlearning method can produce models that behave similar to models retrained from scratch across various metrics even when the training dataset is no longer accessible. Our code is available at https://github.com/hnanhtuan/projected_gradient_unlearning.
翻訳日:2023-12-08 15:54:17 公開日:2023-12-07
# セマンティクスアシストキャリブレーションを用いた開語彙セグメンテーション

Open-Vocabulary Segmentation with Semantic-Assisted Calibration ( http://arxiv.org/abs/2312.04089v1 )

ライセンス: Link先を確認
Yong Liu, Sule Bai, Guanbin Li, Yitong Wang, Yansong Tang(参考訳) 本稿では,CLIP に先立って,語彙内およびドメインバイアスの埋め込み空間を一般化した文脈で校正することで,OVS(open-vocabulary segmentation)について検討する。 オープンボキャブラリー理解の核心として、視覚コンテンツと境界のないテキストの意味論との整合がこの分野のボトルネックとなっている。 この課題に対処するため、最近の研究では、CLIPを追加の分類器として利用し、CLIP分類結果を集約したモデル予測を提案する。 目覚ましい進歩にもかかわらず、関連するシナリオにおけるOVSメソッドのパフォーマンスは、教師付き手法と比べてまだ不十分である。 これは語彙内埋め込みとドメインバイアスのCLIP予測によるものである。 そこで本研究では,scan(semantic-assisted calibration network)を提案する。 SCANでは、CLIPの前に一般化されたセマンティクスを組込み、既知のカテゴリの崩壊を避ける。 さらに、グローバルコンテキストと不自然なバックグラウンドノイズの欠如を軽減するために、コンテキストシフト戦略が適用されます。 上記の設計により、SCANはすべての人気のあるオープン語彙セグメンテーションベンチマークで最先端のパフォーマンスを達成する。 さらに,カテゴリ間の意味的重複を無視する既存の評価システムの問題にも着目し,セマンティックガイドIoU(SG-IoU)と呼ばれる新しい指標を提案する。

This paper studies open-vocabulary segmentation (OVS) through calibrating in-vocabulary and domain-biased embedding space with generalized contextual prior of CLIP. As the core of open-vocabulary understanding, alignment of visual content with the semantics of unbounded text has become the bottleneck of this field. To address this challenge, recent works propose to utilize CLIP as an additional classifier and aggregate model predictions with CLIP classification results. Despite their remarkable progress, performance of OVS methods in relevant scenarios is still unsatisfactory compared with supervised counterparts. We attribute this to the in-vocabulary embedding and domain-biased CLIP prediction. To this end, we present a Semantic-assisted CAlibration Network (SCAN). In SCAN, we incorporate generalized semantic prior of CLIP into proposal embedding to avoid collapsing on known categories. Besides, a contextual shift strategy is applied to mitigate the lack of global context and unnatural background noise. With above designs, SCAN achieves state-of-the-art performance on all popular open-vocabulary segmentation benchmarks. Furthermore, we also focus on the problem of existing evaluation system that ignores semantic duplication across categories, and propose a new metric called Semantic-Guided IoU (SG-IoU).
翻訳日:2023-12-08 15:53:55 公開日:2023-12-07
# VRPTEST: 大規模マルチモーダルモデルにおける視覚参照プロンプトの評価

VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal Models ( http://arxiv.org/abs/2312.04087v1 )

ライセンス: Link先を確認
Zongjie Li, Chaozheng Wang, Chaowei Liu, Pingchuan Ma, Daoyuan Wu, Shuai Wang, Cuiyun Gao(参考訳) 近年,様々な領域にまたがる大規模マルチモーダルモデル(lmms)の発展に伴い,視覚参照プロンプトと呼ばれる新しいプロンプト手法が登場し,マルチモーダルシステムにおけるヒューマン・コンピュータインタラクションの促進に有意な可能性がある。 この方法は、従来のテキスト記述や座標と比較して、より自然で柔軟なシステムとの相互作用のアプローチを提供する。 しかし、視覚的参照の分類は未定であり、LMMの性能への影響については公式には検討されていない。 本研究では,様々な視覚的参照促進戦略を用いて,LMMの包括的分析を行う。 3つの異なる視覚タスクと2,275のイメージからなるVRPTESTと呼ばれるベンチマークデータセットを導入し、プロンプト戦略の多様な組み合わせにまたがる。 我々はVRPTESTを用いて,GPT-4Vの初期バージョンを含む8種類の著名なオープンソースおよびプロプライエタリ基盤モデルの総合評価を行う。 我々は,人間の介入や手動ラベリングを必要とせずに,LMMの精度を評価するソフトウェアメタモルフィックテスト手法に基づく自動評価フレームワークを開発した。 現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上しているが、改善の余地はある。 さらに、定量分析の結果、迅速な戦略の選択はLMMの精度に大きく影響し、-17.5%から+7.3%まで様々である。 さらなるケーススタディでは、適切な視覚的参照促進戦略により、LMMの文脈や位置情報に対する理解が向上し、不適切なものは拒否に答える可能性がある。 また,視覚的参照がLMMに与える影響を最小化するための洞察も提供する。

With recent advancements in Large Multimodal Models (LMMs) across various domains, a novel prompting method called visual referring prompting has emerged, showing significant potential in enhancing human-computer interaction within multimodal systems. This method offers a more natural and flexible approach to human interaction with these systems compared to traditional text descriptions or coordinates. However, the categorization of visual referring prompting remains undefined, and its impact on the performance of LMMs has yet to be formally examined. In this study, we conduct the first comprehensive analysis of LMMs using a variety of visual referring prompting strategies. We introduce a benchmark dataset called VRPTEST, comprising 3 different visual tasks and 2,275 images, spanning diverse combinations of prompt strategies. Using VRPTEST, we conduct a comprehensive evaluation of eight versions of prominent open-source and proprietary foundation models, including two early versions of GPT-4V. We develop an automated assessment framework based on software metamorphic testing techniques to evaluate the accuracy of LMMs without the need for human intervention or manual labeling. We find that the current proprietary models generally outperform the open-source ones, showing an average accuracy improvement of 22.70%; however, there is still potential for improvement. Moreover, our quantitative analysis shows that the choice of prompt strategy significantly affects the accuracy of LMMs, with variations ranging from -17.5% to +7.3%. Further case studies indicate that an appropriate visual referring prompting strategy can improve LMMs' understanding of context and location information, while an unsuitable one might lead to answer rejection. We also provide insights on minimizing the negative impact of visual referring prompting on LMMs.
翻訳日:2023-12-08 15:53:35 公開日:2023-12-07
# mtvg : テキスト対ビデオモデルを用いたマルチテキストビデオ生成

MTVG : Multi-text Video Generation with Text-to-Video Models ( http://arxiv.org/abs/2312.04086v1 )

ライセンス: Link先を確認
Gyeongrok Oh, Jaehwan Jeong, Sieun Kim, Wonmin Byeon, Jinkyu Kim, Sungwoong Kim, Hyeokmin Kwon, Sangpil Kim(参考訳) 近年,映像生成が注目され,顕著な結果が得られた。 映像の特徴について,次回の映像生成には逐次イベントを含むマルチテキストコンディショニングが必要である。 本研究では,事前学習した拡散に基づくテキスト・トゥ・ビデオ生成モデル(T2V)を直接利用して,新たなマルチテキストビデオ生成〜(MTVG)を提案する。 連続したビデオセグメントを生成するには、異なるプロンプトによって生成される視覚的一貫性が、動きやコンテンツ関連の遷移など様々なバリエーションで必要である。 提案するMTVGには、動的ノイズとLast Frame Aware Inversionが含まれており、異なるプロンプトのビデオ間の視覚的コヒーレンスを保ち、反復的な動きやコンテンツを防止するために、遅延音を再起動する。 さらに,単一のビデオクリップにおいて,フレーム全体にわたるグローバルな外観を維持するためにサンプリングを誘導する構造を提案する。 さらに、Prompt Generatorは、さまざまなイベントからなる任意の形式のテキスト条件を可能にする。 その結果、様々な記述の遷移を含む広範な実験により、提案手法は、意味的に一貫性があり、時間的にシームレスなビデオという観点から優れた出力を示すことが証明された。ビデオの例は、プロジェクトのページで利用可能である。

Recently, video generation has attracted massive attention and yielded noticeable outcomes. Concerning the characteristics of video, multi-text conditioning incorporating sequential events is necessary for next-step video generation. In this work, we propose a novel multi-text video generation~(MTVG) by directly utilizing a pre-trained diffusion-based text-to-video~(T2V) generation model without additional fine-tuning. To generate consecutive video segments, visual consistency generated by distinct prompts is necessary with diverse variations, such as motion and content-related transitions. Our proposed MTVG includes Dynamic Noise and Last Frame Aware Inversion which reinitialize the noise latent to preserve visual coherence between videos of different prompts and prevent repetitive motion or contents. Furthermore, we present Structure Guiding Sampling to maintain the global appearance across the frames in a single video clip, where we leverage iterative latent updates across the preceding frame. Additionally, our Prompt Generator allows for arbitrary format of text conditions consisting of diverse events. As a result, our extensive experiments, including diverse transitions of descriptions, demonstrate that our proposed methods show superior generated outputs in terms of semantically coherent and temporally seamless video.Video examples are available in our project page: https://kuai-lab.github.io/mtvg-page.
翻訳日:2023-12-08 15:53:03 公開日:2023-12-07
# システム識別のための文脈内学習者の適応について

On the adaptation of in-context learners for system identification ( http://arxiv.org/abs/2312.04083v1 )

ライセンス: Link先を確認
Dario Piga and Filippo Pura and Marco Forgione(参考訳) コンテキスト内システム識別は、単一のシステムをモデル化する従来のアプローチとは異なる、システムのクラスを記述するメタモデルの構築を目的としている。 このパラダイムは、異なる、しかし関連するダイナミクスの振る舞いを観察することによって得られる知識の活用を促進する。 本稿ではメタモデル適応の役割について論じる。 本稿では,3つの現実シナリオにおいて,メタモデル適応が予測性能を向上させる方法を示す。メタモデルをクラスではなく特定のシステムを記述するように調整すること,メタモデルを拡張して初期訓練クラスを超えてシステムの振る舞いを捉えること,新しい予測タスクのためのモデルの再検討である。 その結果、システム識別のためのより堅牢で汎用的なメタ学習フレームワークを実現するためのメタモデル適応の有効性を強調した。

In-context system identification aims at constructing meta-models to describe classes of systems, differently from traditional approaches that model single systems. This paradigm facilitates the leveraging of knowledge acquired from observing the behaviour of different, yet related dynamics. This paper discusses the role of meta-model adaptation. Through numerical examples, we demonstrate how meta-model adaptation can enhance predictive performance in three realistic scenarios: tailoring the meta-model to describe a specific system rather than a class; extending the meta-model to capture the behaviour of systems beyond the initial training class; and recalibrating the model for new prediction tasks. Results highlight the effectiveness of meta-model adaptation to achieve a more robust and versatile meta-learning framework for system identification.
翻訳日:2023-12-08 15:52:40 公開日:2023-12-07
# 1次元および3次元における3体共鳴寿命の質量比依存性

Mass Ratio Dependence of Three-Body Resonance Lifetimes in 1D and 3D ( http://arxiv.org/abs/2312.04080v1 )

ライセンス: Link先を確認
Lucas Happ, Pascal Naidon, Emiko Hiyama(参考訳) 二成分三体系における共鳴寿命の理論的研究を行い、特に3体共鳴のディープダイマーとアンバウンド粒子への崩壊について検討する。 ガウス拡大法と複素スケーリング法を併用して,これらの共鳴の幅を第一原理から求める。 我々は、超低温原子の混合物の典型的な範囲における質量比に着目し、共鳴幅が質量比に大きく依存していることを明らかにする。 さらに、この挙動は、Pen'kov~[Phys. Rev. A 60, 3756 (1999)]の分析公式によってカバーされないことを示す。 特に, セシウム-リチウム混合物の質量比付近では, 結合状態近似で有効に扱う共鳴のほぼ消滅する幅が得られる。 さらに, 1次元と3次元の共振幅の解析を行い, 質量比に対する定性的依存が一致していることを確認した。

We present a theoretical study of resonance lifetimes in a two-component three-body system, specifically examining the decay of three-body resonances into a deep dimer and an unbound particle. Utilising the Gaussian expansion method together with the complex scaling method, we obtain the widths of these resonances from first principles. We focus on mass ratios in the typical range for mixtures of ultracold atoms and reveal a pronounced dependence of the resonance widths on the mass ratio: a distinct maximum near the equal-mass scenario and a rapid decrease away from it. Moreover, we show that this behaviour is not covered by the analytical formula of Pen'kov~[Phys. Rev. A 60, 3756 (1999)]. Notably, near the mass ratio for Caesium-Lithium mixtures, we obtain nearly vanishing widths of the resonances which validates to treat them in the bound state approximation. In addition, we perform our analysis on the resonance widths in both one and three dimensions and find that their qualitative dependence on the mass ratio agrees.
翻訳日:2023-12-08 15:52:26 公開日:2023-12-07
# モノガミー・オブ・アングルメントゲームからの量子鍵分布のデバイス独立セキュリティ

Device independent security of quantum key distribution from monogamy-of-entanglement games ( http://arxiv.org/abs/2312.04079v1 )

ライセンス: Link先を確認
Enrique Cervero-Mart\'in, Marco Tomamichel(参考訳) 述語がAliceとBobにマッチングビットを生成するよう要求する2つの非ローカルゲームと、3人目のプレイヤーが全ての入力を受け取り、元のプレイヤーと一致するビットを出力する必要がある3人目の拡張を解析する。 本稿では,二部作版と三部作版の間の最大勝利確率の差を特徴とする一夫一婦制特性を満たす非局所ゲームの部分集合に対する汎用デバイス独立量子鍵分布プロトコルを提案する。 このギャップは、2人のプレイヤーが絡み合いを必要とする最適戦略のためであり、その単元性は追加のプレイヤーと共有できない。 モノガミー・オブ・エンタングルメント特性のみに基づいて、我々はプロトコルの情報理論セキュリティの簡単な証明を提供する。 最後に,本プロトコルの有限かつ漸近的な秘密鍵レートを,マジックスクエアゲームを用いて数値的に最適化し,二部的古典的勝利確率と密接に一致する極大三部量子勝利確率に数値バウンドを与える。 さらに,本プロトコルは,約2.2\%$のノイズを非分極化するためのロバストであり,魔法の正方形量子鍵分布に対する一般的な攻撃に対する最初のバウンドとなることを示す。

We analyse two party non-local games whose predicate requires Alice and Bob to generate matching bits, and their three party extensions where a third player receives all inputs and is required to output a bit that matches that of the original players. We propose a general device independent quantum key distribution protocol for the subset of such non-local games that satisfy a monogamy-of-entanglement property characterised by a gap in the maximum winning probability between the bipartite and tripartite versions of the game. This gap is due to the optimal strategy for two players requiring entanglement, which due to its monogamy property cannot be shared with any additional players. Based solely on the monogamy-of-entanglement property, we provide a simple proof of information theoretic security of our protocol. Lastly, we numerically optimize the finite and asymptotic secret key rates of our protocol using the magic square game as an example, for which we provide a numerical bound on the maximal tripartite quantum winning probability which closely matches the bipartite classical winning probability. Further, we show that our protocol is robust for depolarizing noise up to about $2.2\%$, providing the first such bound for general attacks for magic square based quantum key distribution.
翻訳日:2023-12-08 15:52:08 公開日:2023-12-07
# 大規模言語モデルは低ショット画像分類のための即興学習者である

Large Language Models are Good Prompt Learners for Low-Shot Image Classification ( http://arxiv.org/abs/2312.04076v1 )

ライセンス: Link先を確認
Zhaoheng Zheng, Jingmin Wei, Xuefeng Hu, Haidong Zhu, Ram Nevatia(参考訳) 訓練画像が限定的またはアクセス不能なローショット画像分類は、例えばCLIPのような強力な一般化性を持つ事前訓練された視覚言語(VL)モデルの最近の進歩の恩恵を受けている。 VLモデルで構築されたプロンプト学習手法は、クラス固有の情報しか持たないクラス名からテキスト特徴を生成する。 膨大な百科事典的な知識を持つ大言語モデル(llm)が補体として現れる。 そこで本稿では,LLMの統合による事前学習型VLモデルの強化,特にローショット分類について論じる。 しかし、言語と視覚の間のドメインギャップはLLMの直接適用を妨げている。 そこで我々は,LLaMP(Large Language Models as Prompt Learningers)を提案し,CLIPテキストエンコーダの適応的なプロンプトを生成し,接続ブリッジとして確立した。 実験により、LLaMPは他の最先端の素早い学習手法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方において、11のデータセットのスペクトルよりも優れた性能が得られることが示された。

Low-shot image classification, where training images are limited or inaccessible, has benefited from recent progress on pre-trained vision-language (VL) models with strong generalizability, e.g. CLIP. Prompt learning methods built with VL models generate text features from the class names that only have confined class-specific information. Large Language Models (LLMs), with their vast encyclopedic knowledge, emerge as the complement. Thus, in this paper, we discuss the integration of LLMs to enhance pre-trained VL models, specifically on low-shot classification. However, the domain gap between language and vision blocks the direct application of LLMs. Thus, we propose LLaMP, Large Language Models as Prompt learners, that produces adaptive prompts for the CLIP text encoder, establishing it as the connecting bridge. Experiments show that, compared with other state-of-the-art prompt learning methods, LLaMP yields better performance on both zero-shot generalization and few-shot image classification, over a spectrum of 11 datasets.
翻訳日:2023-12-08 15:51:47 公開日:2023-12-07
# 量子エントロピー円錐の内部結合と部分加法性とサブサブス粗粒化

Inner bounding the quantum entropy cone with subadditivity and subsystem coarse-grainings ( http://arxiv.org/abs/2312.04074v1 )

ライセンス: Link先を確認
Temple He, Veronika E. Hubeny, Massimiliano Rota(参考訳) 明快な構成により、3次元量子エントロピー円錐と4次元安定化子エントロピー円錐の極端線は、特定の高次元量子状態、すなわち(非自明な)極端状態の(準付加性の)極大集合を飽和させることによって得られることを示す。 これは、'subadditivity cone' の研究とその量子力学で実現可能な極線の集合が、量子および安定化エントロピー円錐の内部境界を導出する強力な新しいツールを提供し、またフォン・ノイマンエントロピーの新たな不等式への制約を与えることを示唆している。

We show via explicit construction that all the extreme rays of both the 3-party quantum entropy cone and the 4-party stabilizer entropy cone can be obtained from subsystem coarse-grainings of specific higher-party quantum states, namely extreme states characterized by saturating a (non-trivial) maximal set of instances of subadditivity. This suggests that the study of the ``subadditivity cone'', and the set of its extreme rays realizable in quantum mechanics, provides a powerful new tool for deriving inner bounds for the quantum and stabilizer entropy cones, as well as constraints on new inequalities for the von Neumann entropy.
翻訳日:2023-12-08 15:51:29 公開日:2023-12-07
# リアルタイム監視と自動化による音声認識ロボット

Voice Recognition Robot with Real-Time Surveillance and Automation ( http://arxiv.org/abs/2312.04072v1 )

ライセンス: Link先を確認
Lochan Basyal(参考訳) 音声認識技術は単一の音声コマンドで現実世界の操作を実行することができる。 本稿では,androidアプリケーションを用いて入力音声信号を対応するテキストに変換する音声認識システムを提案する。 テキストメッセージはBluetooth経由で送信され、通信プラットフォームとして機能する。 同時に、Bluetoothモジュールを備えたコントローラ回路がテキスト信号を受信し、コーディング機構に従って現実世界の操作を実行する。 本稿では,音声認識をリアルタイム監視・自動化に適用し,障害物検出・回避機構を取り入れ,予め定義された音声コマンドによる照明・ホルン機能の制御を行う。 提案手法は,障害者支援ツールとして機能するだけでなく,産業オートメーションにも有用であり,ロボットが精密に特定のタスクをこなせるようにするものである。

Voice recognition technology enables the execution of real-world operations through a single voice command. This paper introduces a voice recognition system that involves converting input voice signals into corresponding text using an Android application. The text messages are then transmitted through Bluetooth connectivity, serving as a communication platform. Simultaneously, a controller circuit, equipped with a Bluetooth module, receives the text signal and, following a coding mechanism, executes real-world operations. The paper extends the application of voice recognition to real-time surveillance and automation, incorporating obstacle detection and avoidance mechanisms, as well as control over lighting and horn functions through predefined voice commands. The proposed technique not only serves as an assistive tool for individuals with disabilities but also finds utility in industrial automation, enabling robots to perform specific tasks with precision.
翻訳日:2023-12-08 15:51:12 公開日:2023-12-07
# シナジスティック信号:グラフニューラルネットワークによる共起とセマンティックリンクの爆発

Synergistic Signals: Exploiting Co-Engagement and Semantic Links via Graph Neural Networks ( http://arxiv.org/abs/2312.04071v1 )

ライセンス: Link先を確認
Zijie Huang, Baolin Li, Hafez Asgharzadeh, Anne Cocos, Lingyi Liu, Evan Cox, Colby Wise, Sudarshan Lamkhede(参考訳) 候補となるエンティティのセット(映画タイトルなど)が与えられた場合、類似のエンティティを識別する能力は多くの推奨システムの中核となる能力である。 多くの場合、これはコラボレーティブなフィルタリングアプローチによって達成される。例えば、ユーザが2つのエンティティに十分な頻度で協力すれば、埋め込みも同様になるはずだ。 しかし、コエンゲージメントデータのみに依存すると、新しい不人気なエンティティに対する低品質な埋め込みが発生する可能性がある。 netflixのコンテキストレコメンデーションシステムでこの問題を調査した。 類似性モデルでは, ジャンル, コンテンツ成熟度レベル, テーマなど, 相互関与シグナルを補完する豊富な意味情報が存在すること, 類似性モデルにおける解釈可能性について考察する。 両データソースからエンティティの類似性を均一に学習するために,SemanticGNNと呼ばれる新しいグラフベースのアプローチを提案する。 semanticgnnは、エンティティ、セマンティクス概念、コラボレーティブエッジ、セマンティクスエッジを大規模ナレッジグラフ内でモデル化し、その上で表現学習を行う。 我々は,(1)グラフ内の関係型の不均衡な分散を扱う新しい関係認識型注意グラフニューラルネットワーク (gnn) を開発し,(2)数百万のノードと数十億のエッジを持つwebスケールグラフデータを扱うために,新しい分散グラフトレーニングパラダイムを開発した。 提案したモデルはNetflix内でのデプロイに成功し,類似性判定タスクのパフォーマンスが最大35%向上したことを示す実証実験が実施されている。

Given a set of candidate entities (e.g. movie titles), the ability to identify similar entities is a core capability of many recommender systems. Most often this is achieved by collaborative filtering approaches, i.e. if users co-engage with a pair of entities frequently enough, the embeddings should be similar. However, relying on co-engagement data alone can result in lower-quality embeddings for new and unpopular entities. We study this problem in the context recommender systems at Netflix. We observe that there is abundant semantic information such as genre, content maturity level, themes, etc. that complements co-engagement signals and provides interpretability in similarity models. To learn entity similarities from both data sources holistically, we propose a novel graph-based approach called SemanticGNN. SemanticGNN models entities, semantic concepts, collaborative edges, and semantic edges within a large-scale knowledge graph and conducts representation learning over it. Our key technical contributions are twofold: (1) we develop a novel relation-aware attention graph neural network (GNN) to handle the imbalanced distribution of relation types in our graph; (2) to handle web-scale graph data that has millions of nodes and billions of edges, we develop a novel distributed graph training paradigm. The proposed model is successfully deployed within Netflix and empirical experiments indicate it yields up to 35% improvement in performance on similarity judgment tasks.
翻訳日:2023-12-08 15:51:01 公開日:2023-12-07
# 科学発見へのシンボリック回帰のためのトランスフォーマーモデル

A Transformer Model for Symbolic Regression towards Scientific Discovery ( http://arxiv.org/abs/2312.04070v1 )

ライセンス: Link先を確認
Florian Lalande, Yoshitomo Matsubara, Naoya Chiba, Tatsunori Taniai, Ryo Igarashi, Yoshitala Ushiku(参考訳) 記号回帰(SR)は、数値データセットを最もよく記述する数学的表現を探索する。 これにより、人工ニューラルネットワーク固有の解釈問題を回避できるが、SRアルゴリズムはしばしば計算コストがかかる。 本研究は,特に科学的発見に焦点を絞った記号回帰を目的とした新しい変圧器モデルを提案する。 本研究では, 柔軟性を増すが, カラム置換等分散違反のコストがかかる3つのエンコーダアーキテクチャを提案する。 トレーニング結果は、過度な適合を防ぐために最も柔軟なアーキテクチャが必要であることを示している。 トレーニングが完了すると、最高のモデルをSRSDデータセット(Symbolic Regression for Scientific Discoveryデータセット)に適用し、正規化ツリーベースの編集距離を使用して最先端の結果を出力し、余分な計算コストを伴わない。

Symbolic Regression (SR) searches for mathematical expressions which best describe numerical datasets. This allows to circumvent interpretation issues inherent to artificial neural networks, but SR algorithms are often computationally expensive. This work proposes a new Transformer model aiming at Symbolic Regression particularly focused on its application for Scientific Discovery. We propose three encoder architectures with increasing flexibility but at the cost of column-permutation equivariance violation. Training results indicate that the most flexible architecture is required to prevent from overfitting. Once trained, we apply our best model to the SRSD datasets (Symbolic Regression for Scientific Discovery datasets) which yields state-of-the-art results using the normalized tree-based edit distance, at no extra computational cost.
翻訳日:2023-12-08 15:50:35 公開日:2023-12-07
# 4次元映像スタイライゼーションに向けて

Towards 4D Human Video Stylization ( http://arxiv.org/abs/2312.04143v1 )

ライセンス: Link先を確認
Tiantian Wang, Xinxin Zuo, Fangzhou Mu, Jian Wang, Ming-Hsuan Yang(参考訳) 本稿では、4dビデオスタイライゼーションに向けた第一歩として,スタイル転送,新規なビュー合成,ヒューマンアニメーションを統一したフレームワークで実現する。 多くのビデオスタイリング手法が開発されているが、しばしば入力ビデオの特定の視点における画像のレンダリングに制限され、ダイナミックなシーンにおける新しいビューや新しいポーズに一般化する能力に欠ける。 これらの制限を克服するために、我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。 我々の革新的なアプローチは、2つのNeRFを用いて人体と周囲の両方のシーンを同時に表現することである。 この二重表現は、様々なポーズや新しい視点で人間の主題のアニメーションを促進する。 具体的には, 直接三面最適化に比べて特徴表現のロバスト性が著しく向上する, 新たな幾何誘導三面表現を導入する。 ビデオ再構成後、NeRFのレンダリングされた特徴空間内でスタイリングが行われる。 広範な実験により,提案手法は,既存の手法を上回って,スタイリッシュなテクスチャと時間的コヒーレンスとのバランスが優れていることが示された。 さらに,新たなポーズや視点に対応するために,その能力を独自に拡張し,創造的なヒューマンビデオスタイライゼーションのための汎用ツールとした。

We present a first step towards 4D (3D and time) human video stylization, which addresses style transfer, novel view synthesis and human animation within a unified framework. While numerous video stylization methods have been developed, they are often restricted to rendering images in specific viewpoints of the input video, lacking the capability to generalize to novel views and novel poses in dynamic scenes. To overcome these limitations, we leverage Neural Radiance Fields (NeRFs) to represent videos, conducting stylization in the rendered feature space. Our innovative approach involves the simultaneous representation of both the human subject and the surrounding scene using two NeRFs. This dual representation facilitates the animation of human subjects across various poses and novel viewpoints. Specifically, we introduce a novel geometry-guided tri-plane representation, significantly enhancing feature representation robustness compared to direct tri-plane optimization. Following the video reconstruction, stylization is performed within the NeRFs' rendered feature space. Extensive experiments demonstrate that the proposed method strikes a superior balance between stylized textures and temporal coherence, surpassing existing approaches. Furthermore, our framework uniquely extends its capabilities to accommodate novel poses and viewpoints, making it a versatile tool for creative human video stylization.
翻訳日:2023-12-08 15:44:30 公開日:2023-12-07
# TimeDRL:多変量時間系列に対するアンタングル表現学習

TimeDRL: Disentangled Representation Learning for Multivariate Time-Series ( http://arxiv.org/abs/2312.04142v1 )

ライセンス: Link先を確認
Ching Chang, Chiao-Tung Chan, Wei-Yao Wang, Wen-Chih Peng, Tien-Fu Chen(参考訳) 多くの実世界のアプリケーション(例えば医療や産業)における多変量時系列データは、ラベルの欠如と高次元性のために有益だが困難である。 自己教師付き学習における最近の研究は、ラベルに依存しずにリッチ表現を学習する可能性を示しているが、不連続埋め込みの学習や帰納的バイアス(例えば変換不変性)の問題への対処には不足している。 これらの課題に取り組むため,我々は,不連続なデュアルレベル埋め込みを持つ汎用多変量表現学習フレームワークであるtimedrlを提案する。 TimeDRLには3つの新しい特徴がある。 (i)[cls]トークン戦略を用いたパッチ付き時系列データからのタイムスタンプレベルおよびインスタンスレベルの埋め込みの不連続導出 (ii)不連続表現学習におけるtimetamp-predictive および instance-concontrastive タスクの利用、前者は予測損失を伴うtimetamp-level embeddedsを最適化し、後者は対照的損失を伴うインスタンスレベルのembedmentsを最適化する。 (iii)トリッピングやマスキングからの変換不変性など、帰納的バイアスを取り除くための増強方法の回避。 6つの時系列予測データセットと5つの時系列分類データセットに関する総合的な実験は、TimeDRLが既存の表現学習アプローチを一貫して上回り、MSEの57.98%、精度の1.25%の平均的な予測改善を達成することを示した。 さらに、広範囲にわたるアブレーション研究により、TimeDRLのアーキテクチャにおける各コンポーネントの相対的寄与が確認され、半教師付き学習評価により、ラベル付きデータであっても実世界のシナリオにおいてその効果が示された。

Multivariate time-series data in numerous real-world applications (e.g., healthcare and industry) are informative but challenging due to the lack of labels and high dimensionality. Recent studies in self-supervised learning have shown their potential in learning rich representations without relying on labels, yet they fall short in learning disentangled embeddings and addressing issues of inductive bias (e.g., transformation-invariance). To tackle these challenges, we propose TimeDRL, a generic multivariate time-series representation learning framework with disentangled dual-level embeddings. TimeDRL is characterized by three novel features: (i) disentangled derivation of timestamp-level and instance-level embeddings from patched time-series data using a [CLS] token strategy; (ii) utilization of timestamp-predictive and instance-contrastive tasks for disentangled representation learning, with the former optimizing timestamp-level embeddings with predictive loss, and the latter optimizing instance-level embeddings with contrastive loss; and (iii) avoidance of augmentation methods to eliminate inductive biases, such as transformation-invariance from cropping and masking. Comprehensive experiments on 6 time-series forecasting datasets and 5 time-series classification datasets have shown that TimeDRL consistently surpasses existing representation learning approaches, achieving an average improvement of forecasting by 57.98% in MSE and classification by 1.25% in accuracy. Furthermore, extensive ablation studies confirmed the relative contribution of each component in TimeDRL's architecture, and semi-supervised learning evaluations demonstrated its effectiveness in real-world scenarios, even with limited labeled data.
翻訳日:2023-12-08 15:43:37 公開日:2023-12-07
# 鏡面間反射の偏光輸送解析

Polarimetric Light Transport Analysis for Specular Inter-reflection ( http://arxiv.org/abs/2312.04140v1 )

ライセンス: Link先を確認
Ryota Maeda, Shinsaku Hiura(参考訳) 偏光は拡散とスペクトル反射を分解する能力で知られている。 しかし、既存の分解法は直接反射にのみ焦点をあて、複数の反射、特に鏡面間反射を見落としている。 本稿では, 線形偏光の回転方向という特異な偏光特性を用いて, 金属物体の特異な相互反射を処理する新しい分解法を提案する。 この回転方向は、特異面上の直接反射と相互反射の判別因子として機能する。 反射率成分を分解するために、入射光の線形偏光を積極的に回転させ、反射光の回転方向を解析する。 本手法は合成データと実データの両方を用いて評価し,金属物体の鏡面間反射を分解する効果を示す。 さらに,本手法を他の分解法と組み合わせることで,光輸送の詳細な解析が可能であることを示す。 実用的応用として,強い鏡面間反射に対する3次元計測精度の向上に有効性を示す。

Polarization is well known for its ability to decompose diffuse and specular reflections. However, the existing decomposition methods only focus on direct reflection and overlook multiple reflections, especially specular inter-reflection. In this paper, we propose a novel decomposition method for handling specular inter-reflection of metal objects by using a unique polarimetric feature: the rotation direction of linear polarization. This rotation direction serves as a discriminative factor between direct and inter-reflection on specular surfaces. To decompose the reflectance components, we actively rotate the linear polarization of incident light and analyze the rotation direction of the reflected light. We evaluate our method using both synthetic and real data, demonstrating its effectiveness in decomposing specular inter-reflections of metal objects. Furthermore, we demonstrate that our method can be combined with other decomposition methods for a detailed analysis of light transport. As a practical application, we show its effectiveness in improving the accuracy of 3D measurement against strong specular inter-reflection.
翻訳日:2023-12-08 15:43:05 公開日:2023-12-07
# 空飛ぶアドホックネットワークのための新しい連合学習型侵入検知システム

A Novel Federated Learning-based Intrusion Detection System for Flying Ad Hoc Networks ( http://arxiv.org/abs/2312.04135v1 )

ライセンス: Link先を確認
Ozlem Ceviz (1), Pinar Sadioglu (1), Sevil Sen (1) and Vassilios G. Vassilakis (2) ((1) WISE Lab., Deparment of Computer Engineering, Hacettepe University, Ankara, Turkey (2) Department of Computer Science, University of York, York, United Kingdom)(参考訳) 空飛ぶアドホックネットワーク(FANET)における無人航空機(UAV)は、これらのネットワークの動的で分散的な性質のためにセキュリティ上の課題に直面している。 本稿では,フェネセキュリティを改善するための革新的手法であるfl-ids(federated learning-based intrusion detection system)を提案する。 FL-IDSは統合学習を活用し、集中侵入検知システムのプライバシー問題に対処する。 FL-IDSは分散的に動作し、UAVは生データを共有せずにグローバルな侵入検知モデルを協調的に訓練することができる。 ローカルモデルはクライアント固有のデータを使用して各uavに割り当てられ、更新されたモデル重みだけが中央サーバと共有される。 これは、効果的な侵入検知のために集団知性を活用しながら、プライバシを保存する。 FL-IDSと中央IDS(C-IDS)の競合性能は,プライバシの懸念を和らげている。 Bias Towards Specific Clients (BTSC) 法は、より低い攻撃率でもC-IDSを超えるFL-IDS性能をさらに向上させる。 ローカルIDS(L-IDS)を含む従来の侵入検出手法との比較分析により、FL-IDSの強度に関する洞察が得られる。 本研究は,uavネットワークのユニークな課題に合わせて,プライバシを意識した分散型侵入検出アプローチを導入することで,fanetセキュリティに大きく寄与する。

Unmanned aerial vehicles (UAVs) in flying ad-hoc networks (FANETs) face security challenges due to the dynamic and distributed nature of these networks. This paper presents the Federated Learning-based Intrusion Detection System (FL-IDS), an innovative approach designed to improve FANET security. FL-IDS leverages federated learning to address privacy concerns of centralized intrusion detection systems. FL-IDS operates in a decentralized manner, enabling UAVs to collaboratively train a global intrusion detection model without sharing raw data. Local models are assigned to each UAV, using client-specific data, and only updated model weights are shared with a central server. This preserves privacy while utilizing collective intelligence for effective intrusion detection. Experimental results show FL-IDS's competitive performance with Central IDS (C-IDS) while mitigating privacy concerns. The Bias Towards Specific Clients (BTSC) method further enhances FL-IDS performance, surpassing C-IDS even at lower attacker ratios. A comparative analysis with traditional intrusion detection methods, including Local IDS (L-IDS), provides insights into FL-IDS's strengths. This study significantly contributes to FANET security by introducing a privacy-aware, decentralized intrusion detection approach tailored to the unique challenges of UAV networks.
翻訳日:2023-12-08 15:42:49 公開日:2023-12-07
# 大きな言語モデルを使って設計構造行列を生成する

Using a Large Language Model to generate a Design Structure Matrix ( http://arxiv.org/abs/2312.04134v1 )

ライセンス: Link先を確認
Edwin C. Y. Koh(参考訳) 設計構造行列 (dsm) は、特に複雑な工学系の設計において、依存モデリングで使われる確立された手法である。 DSMの生成は伝統的に手動で行われており、重要なシステム要素とそれらの関係を引き出すために、専門家にインタビューすることがある。 このような手動のアプローチは時間とコストがかかります。 本稿では,DSMの生成と生産性向上のためにLLM(Large Language Model)を用いたワークフローを提案する。 この作業でワークフローのプロトタイプを開発し、以前に発表されたディーゼルエンジンDSMに適用した。 プロトタイプは462個のDSMエントリのうち357個(すなわち77.3%)を再現できることが判明し、DSM生成に役立てることが示唆された。 プロトタイプのノーコードバージョンは、将来の研究をサポートするためにオンラインで入手できる。

The Design Structure Matrix (DSM) is an established method used in dependency modelling, especially in the design of complex engineering systems. The generation of DSM is traditionally carried out through manual means and can involve interviewing experts to elicit critical system elements and the relationships between them. Such manual approaches can be time-consuming and costly. This paper presents a workflow that uses a Large Language Model (LLM) to support the generation of DSM and improve productivity. A prototype of the workflow was developed in this work and applied on a diesel engine DSM published previously. It was found that the prototype could reproduce 357 out of 462 DSM entries published (i.e. 77.3%), suggesting that the work can aid DSM generation. A no-code version of the prototype is made available online to support future research.
翻訳日:2023-12-08 15:42:28 公開日:2023-12-07
# LLMの本質的応答傾向の分析:実世界の命令駆動ジェイルブレイク

Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak ( http://arxiv.org/abs/2312.04127v1 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Ming Ma, Yuhan Chen, Bing Qin(参考訳) 大規模言語モデル(llm)の安全性向上に多大な取り組みがなされている。 しかし、特定のシナリオでは、LSMは悪意のある命令に直面すると有害な応答を発生させ、これは"Jailbreak Attack"と呼ばれる現象である。 本研究では,2つのステップからなる新しいジェイルブレイク攻撃法(\textbf{radial})を提案する。 1)先行応答傾向分析: LLMの本質的な肯定と拒絶傾向を分析し,実世界の指示に反応する。 2)実世界の命令駆動のジェイルブレイク:我々の分析に基づいて,我々はいくつかの実世界の命令を戦略的に選択し,悪質な命令を埋め込んで,LLMが有害な応答を発生させる可能性を増幅する。 提案手法は,3つのオープンソースのヒューマンアライメントLDMに対して,中国語と英語の両方の悪意のある命令に対して優れたジェイルブレイク攻撃性能を実現する。 また,詳細なアブレーション実験を指導し,本研究の中核概念である「インヘレント応答傾向分析」の有効性を検証した。 また,LLMの脆弱性を暴露し,その後の対話ラウンドにおいてより詳細な有害反応を誘発する。

Extensive work has been devoted to improving the safety mechanism of Large Language Models (LLMs). However, in specific scenarios, LLMs still generate harmful responses when faced with malicious instructions, a phenomenon referred to as "Jailbreak Attack". In our research, we introduce a novel jailbreak attack method (\textbf{RADIAL}), which consists of two steps: 1) Inherent Response Tendency Analysis: we analyze the inherent affirmation and rejection tendency of LLMs to react to real-world instructions. 2) Real-World Instructions-Driven Jailbreak: based on our analysis, we strategically choose several real-world instructions and embed malicious instructions into them to amplify the LLM's potential to generate harmful responses. On three open-source human-aligned LLMs, our method achieves excellent jailbreak attack performance for both Chinese and English malicious instructions. Besides, we guided detailed ablation experiments and verified the effectiveness of our core idea "Inherent Response Tendency Analysis". Our exploration also exposes the vulnerability of LLMs to being induced into generating more detailed harmful responses in subsequent rounds of dialogue.
翻訳日:2023-12-08 15:42:14 公開日:2023-12-07
# 法医学アイリス画像合成

Forensic Iris Image Synthesis ( http://arxiv.org/abs/2312.04125v1 )

ライセンス: Link先を確認
Rasel Ahmed Bhuiyan, Adam Czajka(参考訳) 死後虹彩認識は、法医学的な設定で虹彩をベースとした人間の識別の新たな応用であり、死後3週間でも死者を正しく識別することができる。 この手法は将来の法医学的ツールキットの重要な構成要素であると考えられる。 この分野での現在の進歩は、極めて困難なデータ収集によって著しく鈍化しており、これは葬儀場、犯罪現場、または「ボディファーム」施設で起こりうる。 This paper makes a novel contribution to facilitate progress in post-mortem iris recognition by offering a conditional StyleGAN-based iris synthesis model, trained on the largest-available dataset of post-mortem iris samples acquired from more than 350 subjects, generating -through appropriate exploration of StyleGAN latent space -- multiple within-class (same identity) and between-class (different new identities) post-mortem iris images, compliant with ISO/IEC 29794-6, and with decomposition deformations controlled by the requested PMI (post mortem interval). 既存の、非常にスパースな、死後のirisデータセットを -- とりわけ -- irisプレゼンテーションアタックの努力を促進するための明確な応用に加えて、プロの法医学検査員に様々なpmisの変形を決して知覚しないよう露出させ、トレーニング効果を高めるためのサンプルを生成するのに有用であることを期待している。 ソースコードとモデルの重み付けは、この論文で利用可能である。

Post-mortem iris recognition is an emerging application of iris-based human identification in a forensic setup, able to correctly identify deceased subjects even three weeks post-mortem. This technique thus is considered as an important component of future forensic toolkits. The current advancements in this field are seriously slowed down by exceptionally difficult data collection, which can happen in mortuary conditions, at crime scenes, or in ``body farm'' facilities. This paper makes a novel contribution to facilitate progress in post-mortem iris recognition by offering a conditional StyleGAN-based iris synthesis model, trained on the largest-available dataset of post-mortem iris samples acquired from more than 350 subjects, generating -- through appropriate exploration of StyleGAN latent space -- multiple within-class (same identity) and between-class (different new identities) post-mortem iris images, compliant with ISO/IEC 29794-6, and with decomposition deformations controlled by the requested PMI (post mortem interval). Besides an obvious application to enhance the existing, very sparse, post-mortem iris datasets to advance -- among others -- iris presentation attack endeavors, we anticipate it may be useful to generate samples that would expose professional forensic human examiners to never-seen-before deformations for various PMIs, increasing their training effectiveness. The source codes and model weights are made available with the paper.
翻訳日:2023-12-08 15:41:54 公開日:2023-12-07
# 行動異常検出のための多レベル誘導探索ネットワークと行動シーンマッチング法

A Multilevel Guidance-Exploration Network and Behavior-Scene Matching Method for Human Behavior Anomaly Detection ( http://arxiv.org/abs/2312.04119v1 )

ライセンス: Link先を確認
Guoqing Yang and Zhiming Luo and Jianzhe Gao and Yingxin Lai and Kun Yang and Yifan He and Shaozi Li(参考訳) 人間の行動異常検出は、知的監視やその他の領域において重要な役割を果たす、異常な人間の行動を特定することを目的としている。 現在の主流の手法は、レコンストラクションや将来のフレーム予測技術を採用しています。 しかし、低レベル画素の特徴の再構築や予測は、ネットワークがより強固な一般化能力を実現できるため、異常の再構築や予測を通常のデータと同じくらい効果的に行える。 学生教育ネットワークに触発された手法とは違って,マルチレベル誘導探索ネットワーク(mgenet)と呼ばれる,誘導ネットワークと探索ネットワーク間の高レベル表現の差異を検知する新たなフレームワークを提案する。 具体的には、まず骨格キーポイントを入力とし、RGBエンコーダを誘導する学習済み正規化フローを用いて、未知のRGBフレームを入力として取り込んで、動作遅延特徴を探索する。 次に、RGBエンコーダはマスク付きRGBフレームを入力として用いたマスクエンコーダをガイドし、潜伏した外観特徴を探索する。 さらに、シーン関連行動異常を検出するための行動シーンマッチングモジュール(BSMM)を設計する。 広範な実験により,上海工科大学とubnormalデータセットにおいて,aucが86.9 %,aucが73.5 %という最先端の性能を達成できることが実証された。 コードはhttps://github.com/molu-ggg/genetで入手できる。

Human behavior anomaly detection aims to identify unusual human actions, playing a crucial role in intelligent surveillance and other areas. The current mainstream methods still adopt reconstruction or future frame prediction techniques. However, reconstructing or predicting low-level pixel features easily enables the network to achieve overly strong generalization ability, allowing anomalies to be reconstructed or predicted as effectively as normal data. Different from their methods, inspired by the Student-Teacher Network, we propose a novel framework called the Multilevel Guidance-Exploration Network(MGENet), which detects anomalies through the difference in high-level representation between the Guidance and Exploration network. Specifically, we first utilize the pre-trained Normalizing Flow that takes skeletal keypoints as input to guide an RGB encoder, which takes unmasked RGB frames as input, to explore motion latent features. Then, the RGB encoder guides the mask encoder, which takes masked RGB frames as input, to explore the latent appearance feature. Additionally, we design a Behavior-Scene Matching Module(BSMM) to detect scene-related behavioral anomalies. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance on ShanghaiTech and UBnormal datasets, with AUC of 86.9 % and 73.5 %, respectively. The code will be available on https://github.com/molu-ggg/GENet.
翻訳日:2023-12-08 15:41:28 公開日:2023-12-07
# 幼児の視覚を形作る介護者トーク--dyadic playの計算的研究

Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic Play ( http://arxiv.org/abs/2312.04118v1 )

ライセンス: Link先を確認
Timothy Schauml\"offel, Arthur Aubret, Gemma Roig, Jochen Triesch(参考訳) 幼児は物体を認識し分類する能力が徐々に発達する。 人生の2年目は、より意味的な視覚表現の出現と、単語の意味のより深い理解が特徴である。 これは、言語入力が視覚的表現を形成する上で重要な役割を果たすことを示唆する。 しかし、dyadic play sessionのような単語学習に適した文脈であっても、養育者の発話はまばらで曖昧であり、しばしば子供が出席するものとは異なる対象を指す。 本稿では,介護者の発話が視覚表現をどの程度強化できるかを体系的に検討する。 そこで本研究では,ディヤドプレイにおける視覚表現学習の計算モデルを提案する。 本研究では,保育者の発話をキャプションとしてモデル化しながら,家庭環境の異なる場所でおもちゃの物体を移動・回転させる幼児エージェントが認識するエゴ中心画像の合成データセットを提案する。 幼児の学習を同時表現としてモデル化することを提案する。 1)クローズインタイム画像 2)画像と発話の共起。 実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。 分析の結果,オブジェクト関連命名頻度の減少/増加が学習表現に大きな影響を及ぼすことが明らかとなった。 これは発話中のオブジェクト名への注意に影響を与え、効率的なビズー言語的アライメントに必要となる。 全体として,介護者の命名発話が幼児の視覚表現を改善できるという仮説を支持する。

Infants' ability to recognize and categorize objects develops gradually. The second year of life is marked by both the emergence of more semantic visual representations and a better understanding of word meaning. This suggests that language input may play an important role in shaping visual representations. However, even in suitable contexts for word learning like dyadic play sessions, caregivers utterances are sparse and ambiguous, often referring to objects that are different from the one to which the child attends. Here, we systematically investigate to what extent caregivers' utterances can nevertheless enhance visual representations. For this we propose a computational model of visual representation learning during dyadic play. We introduce a synthetic dataset of ego-centric images perceived by a toddler-agent that moves and rotates toy objects in different parts of its home environment while hearing caregivers' utterances, modeled as captions. We propose to model toddlers' learning as simultaneously aligning representations for 1) close-in-time images and 2) co-occurring images and utterances. We show that utterances with statistics matching those of real caregivers give rise to representations supporting improved category recognition. Our analysis reveals that a small decrease/increase in object-relevant naming frequencies can drastically impact the learned representations. This affects the attention on object names within an utterance, which is required for efficient visuo-linguistic alignment. Overall, our results support the hypothesis that caregivers' naming utterances can improve toddlers' visual representations.
翻訳日:2023-12-08 15:41:05 公開日:2023-12-07
# エゴセントリックビデオからの3Dシーンのインスタンス追跡

Instance Tracking in 3D Scenes from Egocentric Videos ( http://arxiv.org/abs/2312.04117v1 )

ライセンス: Link先を確認
Yunhan Zhao, Haoyu Ma, Shu Kong, Charless Fowlkes(参考訳) AR/VRデバイスのようなエゴセントリックなセンサーは、人間と物体の相互作用を捉え、周囲の環境に関心のある物体の3D位置をリコールすることでタスク支援を提供する。 この機能は、エゴセントリックビデオ(IT3DEgo)から現実世界の3Dシーンのインスタンス追跡を必要とする。 まず、RGBと深度ビデオ、フレームごとのカメラポーズ、そして2Dカメラと3Dワールド座標の両方でインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。 本稿では,3次元座標系におけるトラッキング性能を2つの設定で評価する評価プロトコルについて述べる。(1)ヒトの着用者のインタラクションに基づいてインスタンスをオンザフライで指定した単視点オンライン登録。 2) 追跡対象のインスタンスのイメージを事前にメモリに格納するマルチビュー事前登録。 IT3DEgoに対処するために、SOT(Single Object Tracking) -- 2Dフレーム内のインスタンスを追跡し、カメラのポーズと深さを使って3Dに持ち上げるSOTメソッドを実行するなど、関連する領域からメソッドを初めて再利用する。 また,事前学習されたセグメンテーションと検出モデルを利用して,rgbフレームからの提案を生成し,登録されたインスタンスイメージとマッチングする簡単な手法を提案する。 意外なことに、我々の大規模な実験は、我々の手法が(微調整なしで)SOTベースのアプローチよりも著しく優れていることを示している。 カメラのポーズと3次元アロセントリック(ワールド)座標表現を利用することで、エゴセントリックなインスタンス追跡の問題はより容易になる、と結論付けている。

Egocentric sensors such as AR/VR devices capture human-object interactions and offer the potential to provide task-assistance by recalling 3D locations of objects of interest in the surrounding environment. This capability requires instance tracking in real-world 3D scenes from egocentric videos (IT3DEgo). We explore this problem by first introducing a new benchmark dataset, consisting of RGB and depth videos, per-frame camera pose, and instance-level annotations in both 2D camera and 3D world coordinates. We present an evaluation protocol which evaluates tracking performance in 3D coordinates with two settings for enrolling instances to track: (1) single-view online enrollment where an instance is specified on-the-fly based on the human wearer's interactions. and (2) multi-view pre-enrollment where images of an instance to be tracked are stored in memory ahead of time. To address IT3DEgo, we first re-purpose methods from relevant areas, e.g., single object tracking (SOT) -- running SOT methods to track instances in 2D frames and lifting them to 3D using camera pose and depth. We also present a simple method that leverages pretrained segmentation and detection models to generate proposals from RGB frames and match proposals with enrolled instance images. Perhaps surprisingly, our extensive experiments show that our method (with no finetuning) significantly outperforms SOT-based approaches. We conclude by arguing that the problem of egocentric instance tracking is made easier by leveraging camera pose and using a 3D allocentric (world) coordinate representation.
翻訳日:2023-12-08 15:40:42 公開日:2023-12-07
# 多段階協調最適化YOLOv5sと距離推定への応用

Multi-strategy Collaborative Optimized YOLOv5s and its Application in Distance Estimation ( http://arxiv.org/abs/2312.04113v1 )

ライセンス: Link先を確認
Zijian Shen, Zhenping Mu, Xiangxiang Li(参考訳) 自動車の爆発的成長による事故発生率の増加は、自動車のアクティブ安全システムの研究をますます重要にしている。 車両目標検出の精度向上の重要性は自明である。 IoUをDIoUに置き換え、SEアテンションモジュールを埋め込み、類似の三角形の原理を用いて距離推定を行うことにより、車両検出と距離推定の目標を達成し、安全性警告を提供するために、新しいニューラルネットワークモデル(YOLOv5s-SE)に基づく距離推定安全警報システム(DESWS)を提案する。 また,非パラメトリックテストを用いて推定距離に基づく安全性提案を行う方法を提案した。 シミュレーション実験により,mAPは5.5%向上し,推定距離情報に基づく安全性の提案が可能であることが確認された。

The increasing accident rate brought about by the explosive growth of automobiles has made the research on active safety systems of automobiles increasingly important. The importance of improving the accuracy of vehicle target detection is self-evident. To achieve the goals of vehicle detection and distance estimation and provide safety warnings, a Distance Estimation Safety Warning System (DESWS) based on a new neural network model (YOLOv5s-SE) by replacing the IoU with DIoU, embedding SE attention module, and a distance estimation method through using the principle of similar triangles was proposed. In addition, a method that can give safety suggestions based on the estimated distance using nonparametric testing was presented in this work. Through the simulation experiment, it was verified that the mAP was improved by 5.5% and the purpose of giving safety suggestions based on the estimated distance information can be achieved.
翻訳日:2023-12-08 15:40:13 公開日:2023-12-07
# 半教師ノード分類におけるホモフィリーとヘテロフィリーの絡み合い

Breaking the Entanglement of Homophily and Heterophily in Semi-supervised Node Classification ( http://arxiv.org/abs/2312.04111v1 )

ライセンス: Link先を確認
Henan Sun, Xunkai Li, Zhengyu Wu, Daohan Su, Rong-Hua Li, Guoren Wang(参考訳) 近年、グラフニューラルネットワーク(GNN)は、グラフデータベースからの知識を活用し、半教師付きノード分類において顕著な性能を示している。 しかし、既存のほとんどのGNNはホモフィリーの仮定に従っており、接続ノードは類似した特徴分布と同一のラベルを示す傾向があり、そのような仮定は、多くの実用的な応用において脆弱であることが証明されている。 補足として、ヘテロフィリーは連結ノードの相似性を反映しており、グラフ学習において大きな注目を集めている。 この目的のために、データエンジニアは、ホモフィリーとヘテロフィリーの両方で性能を保証する強力なGNNモデルの開発を目指している。 多くの試みにもかかわらず、ほとんどの既存のGNNは、無向グラフの制約のために最適なノード表現を達成するのに苦労している。 有向エッジの無視は、準最適グラフ表現をもたらすため、GNNの容量を妨げる。 この問題を解決するために,統計的観点からノードプロファイルとトポロジの関係を定量化するamudを導入し,次のグラフ学習の利点を最大化するために,自然有向グラフを \underline{u}ndirected または \underline{d}irected グラフとして分解する上で有用な洞察を提供する。 さらに, AMUDの新しいグラフ学習パラダイムとして, \underline{A}daptive \underline{D}irected \underline{P}attern \underline{A}ggregation (ADPA)を提案する。 実証的研究により、AMUDが効率的なグラフ学習を導くことが示されている。 一方、14のベンチマークデータセットに関する広範な実験はADPAの印象的なパフォーマンスを裏付け、ベースラインを3.96倍のマージンで上回っている。

Recently, graph neural networks (GNNs) have shown prominent performance in semi-supervised node classification by leveraging knowledge from the graph database. However, most existing GNNs follow the homophily assumption, where connected nodes are more likely to exhibit similar feature distributions and the same labels, and such an assumption has proven to be vulnerable in a growing number of practical applications. As a supplement, heterophily reflects dissimilarity in connected nodes, which has gained significant attention in graph learning. To this end, data engineers aim to develop a powerful GNN model that can ensure performance under both homophily and heterophily. Despite numerous attempts, most existing GNNs struggle to achieve optimal node representations due to the constraints of undirected graphs. The neglect of directed edges results in sub-optimal graph representations, thereby hindering the capacity of GNNs. To address this issue, we introduce AMUD, which quantifies the relationship between node profiles and topology from a statistical perspective, offering valuable insights for \underline{A}daptively \underline{M}odeling the natural directed graphs as the \underline{U}ndirected or \underline{D}irected graph to maximize the benefits from subsequent graph learning. Furthermore, we propose \underline{A}daptive \underline{D}irected \underline{P}attern \underline{A}ggregation (ADPA) as a new directed graph learning paradigm for AMUD. Empirical studies have demonstrated that AMUD guides efficient graph learning. Meanwhile, extensive experiments on 14 benchmark datasets substantiate the impressive performance of ADPA, outperforming baselines by significant margins of 3.96\%.
翻訳日:2023-12-08 15:39:56 公開日:2023-12-07
# タイムリーなCOVID-19アウトブレイク検出のための小面積の事例分析

Small Area Estimation of Case Growths for Timely COVID-19 Outbreak Detection ( http://arxiv.org/abs/2312.04110v1 )

ライセンス: Link先を確認
Zhaowei She, Zilong Wang, Jagpreet Chhatwal, Turgay Ayer(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界経済に大きな影響を与え、人間の生活に大きな被害を与え続けている。 新型コロナウイルス(COVID-19)の感染拡大率は、流行の回復の効果的な検出と封じ込めを見積り、監視するための重要な疫学的パラメータである。 成長速度の推定とそれによるアウトブレイク検出の根本的な課題は、精度と速度のトレードオフのバランスにある。 本稿では,この精度と速度のトレードオフを両立させる機械学習アルゴリズム,Transfer Learning Generalized Random Forest (TLGRF) を開発した。 具体的には、各郡における即時的なCOVID-19指数的な成長率を、その拡大に影響を与える日次および郡レベルの特徴に基づいて適応的な適合窓のサイズを選択するTLGRFを用いて推定する。 転送学習により、TLGRFは小さなサンプルサイズを持つ郡のケース成長率を正確に推定することができる。 サンプル外予測分析の結果,tlgrfは確立した成長速度推定法を上回っている。 さらに,コロラド州におけるアウトブレイク事例データに基づくケーススタディを行い,コロラド州保健環境省 (CDPHE) の意思決定と比較すると, TLGRFを用いて発生のタイムリー検出を最大224%改善できることを示した。 実装を容易にするため,米国各郡で新型コロナウイルスの流行をタイムリーに検出するツールを開発し,政策立案者から大きな注目を集めた。

The COVID-19 pandemic has exerted a profound impact on the global economy and continues to exact a significant toll on human lives. The COVID-19 case growth rate stands as a key epidemiological parameter to estimate and monitor for effective detection and containment of the resurgence of outbreaks. A fundamental challenge in growth rate estimation and hence outbreak detection is balancing the accuracy-speed tradeoff, where accuracy typically degrades with shorter fitting windows. In this paper, we develop a machine learning (ML) algorithm, which we call Transfer Learning Generalized Random Forest (TLGRF), that balances this accuracy-speed tradeoff. Specifically, we estimate the instantaneous COVID-19 exponential growth rate for each U.S. county by using TLGRF that chooses an adaptive fitting window size based on relevant day-level and county-level features affecting the disease spread. Through transfer learning, TLGRF can accurately estimate case growth rates for counties with small sample sizes. Out-of-sample prediction analysis shows that TLGRF outperforms established growth rate estimation methods. Furthermore, we conducted a case study based on outbreak case data from the state of Colorado and showed that the timely detection of outbreaks could have been improved by up to 224% using TLGRF when compared to the decisions made by Colorado's Department of Health and Environment (CDPHE). To facilitate implementation, we have developed a publicly available outbreak detection tool for timely detection of COVID-19 outbreaks in each U.S. county, which received substantial attention from policymakers.
翻訳日:2023-12-08 15:39:26 公開日:2023-12-07
# ツリーキーグラフによる動的量子グループ鍵アグリーメント

Dynamic Quantum Group Key Agreement via Tree Key Graphs ( http://arxiv.org/abs/2312.04107v1 )

ライセンス: Link先を確認
Qiang Zhao, Zhuohua Li, John C.S. Lui(参考訳) 量子鍵分散(QKD)プロトコルは、量子通信における情報理論のセキュリティを保証するために不可欠である。 量子群鍵分布に関する以前の研究はあったが、それらは '`\textit{dynamic}'' グループ通信のシナリオの下で多くの課題に直面している。 特に、グループキーをリアルタイムに更新する必要がある場合、各ユーザ参加または離脱時に、セキュアな通信特性、すなわちフォワードシークレットと後方シークレット性を保証する。 しかし、現在のプロトコルはグループキーを更新するのに大量の量子リソースを必要とするため、大規模でダイナミックな通信グループを扱うには実用的ではない。 本稿では, ‘`{\em tree key graph}'' の概念を量子鍵アグリーメントに適用し,グループ通信における結合または離脱要求のための2つの動的量子グループ鍵アグリーメント (qgka) プロトコルを提案する。 さらに,提案プロトコルの量子リソース消費の分析を行った。 結合または離脱ごとに要求されるキュービットの数は、グループサイズに応じて対数的に増加する。 その結果,提案プロトコルは大規模でダイナミックな量子グループ通信においてより実用的でスケーラブルである。

Quantum key distribution (QKD) protocols are essential to guarantee information-theoretic security in quantum communication. Although there was some previous work on quantum group key distribution, they still face many challenges under a ``\textit{dynamic}'' group communication scenario. In particular, when the group keys need to be updated in real-time for each user joining or leaving to ensure secure communication properties, i.e., forward confidentiality and backward confidentiality. However, current protocols require a large amount of quantum resources to update the group keys, and this makes them impractical for handling large and dynamic communication groups. In this paper, we apply the notion of ``{\em tree key graph}'' to the quantum key agreement and propose two dynamic Quantum Group Key Agreement (QGKA) protocols for a join or leave request in group communications. In addition, we analyze the quantum resource consumption of our proposed protocols. The number of qubits required per join or leave only increases logarithmically with the group size. As a result, our proposed protocols are more practical and scalable for large and dynamic quantum group communications.
翻訳日:2023-12-08 15:39:01 公開日:2023-12-07
# プライバシー保護型3次元顔画像再構成

Identity-Obscured Neural Radiance Fields: Privacy-Preserving 3D Facial Reconstruction ( http://arxiv.org/abs/2312.04106v1 )

ライセンス: Link先を確認
Jiayi Kong, Baixin Xu, Xurui Song, Chen Qian, Jun Luo, Ying He(参考訳) neural radiance fields (nerf) は通常、幾何学的詳細を正確に再構成するために、複数のカメラ視点から撮影された画像の完全なセットを必要とする。 しかし、このアプローチは顔面再建の文脈において重要なプライバシー上の懸念を提起する。 プライバシー保護の重要要件は、誤用やセキュリティリスクの恐れから、顔画像の共有に消極的になることが多い。 これらの問題に対処するため,NeRFフレームワーク内の3次元頭部形状の再構成にプライバシー保護画像を活用する手法を提案する。 本手法は,感度の高い顔データを含む画像からのrgb情報に依存しないため,従来の顔再建手法とは別物である。 代わりに、一連のアイデンティティオブサークされた入力を使用して、有効な顔形状を生成し、それによって顔のプライバシーを保護する。

Neural radiance fields (NeRF) typically require a complete set of images taken from multiple camera perspectives to accurately reconstruct geometric details. However, this approach raise significant privacy concerns in the context of facial reconstruction. The critical need for privacy protection often leads invidividuals to be reluctant in sharing their facial images, due to fears of potential misuse or security risks. Addressing these concerns, we propose a method that leverages privacy-preserving images for reconstructing 3D head geometry within the NeRF framework. Our method stands apart from traditional facial reconstruction techniques as it does not depend on RGB information from images containing sensitive facial data. Instead, it effectively generates plausible facial geometry using a series of identity-obscured inputs, thereby protecting facial privacy.
翻訳日:2023-12-08 15:38:43 公開日:2023-12-07
# 光子数分解装置としてのEMCCDによる量子コントラストの強化

Enhancing quantum contrast by using an EMCCD as a photon number resolving device ( http://arxiv.org/abs/2312.04184v1 )

ライセンス: Link先を確認
Rounak Chatterjee, Vikas Bhat, Kiran Bajar, Sushil Mujumdar(参考訳) Electron Multiplying Charge Coupled Devices (EMCCD) は、その高い量子効率と適切な空間分解能により、空間的絡み合いなどの典型的な量子光学現象の研究に広く利用されている。 研究者らは、推定ノイズレベルよりも出力が高いか低いかに基づいて、ピクセルが単一の光子を検出するかどうかを統計的に決定できる手順をすでに開発している。 しかし、これらの技術は極端に低い光子数(露光1ピクセルあたり平均光子数0.05ドル)に限定されており、少なくとも1ピクセルあたり1光子を許容している。 この制限は、あらゆる研究に必要な大量のフレームのために応用を妨げる。 本研究では,特定の露光時間に対して,フレーム毎の光子の平均レートを推定する手法を提案する。 その後、各画素の光子数(\geq 1$)を統計的に推定する。 これにより,EMCCDを光子数解決装置として有効利用することができ,必要な実験時間を著しく短縮することができる。 提案手法の実証として, 自発パラメトリックダウン変換法により生成した一対の空間的絡み合った光子による量子相関のコントラストの定量化を行う。 提案手法と比較するために,科学コミュニティで一般的に使用される標準手法を用いる。 同一フレーム数の信号対雑音比を約3倍向上させることができた。 これは従来の手法に比べてデータ収集時間の半分以内で、優れた結果が得られることを意味する。

The Electron Multiplying Charge Coupled Devices (EMCCD), owing to their high quantum efficiency and decent spatial resolution, are widely used to study typical quantum optical phenomena such as spatial entanglement and related applications. Researchers have already developed a procedure that enables us to statistically determine whether a pixel detects a single photon or not based on whether its output is higher or lower than the estimated noise level. However, these techniques are limited to extremely low photon numbers ( $\approx 0.15$ mean number of photons per pixel per exposure), allowing for at most one photon per pixel. This limitation hinders applications due to the large number of frames required for any study. In this work, we present a method to estimate the mean rate of photons per pixel per frame for a specific exposure time. Subsequently, we make a statistical estimate of the number of photons ($\geq 1$) incident on each pixel. This allows us to effectively utilize the EMCCD as a photon number resolving device, which significantly reduces the required experimentation time. As evidence of our approach, we quantify contrast in quantum correlation exhibited by a pair of spatially entangled photons generated by Spontaneous Parametric Down Conversion process. We employ the standard methods commonly used within the scientific community for comparison with our proposed method. We find an enhancement in the signal to noise ratio by about a factor of 3 for identical number of frames. This implies that this technique can achieve excellent results only within half the data collection time as compared to the conventional techniques.
翻訳日:2023-12-08 15:31:55 公開日:2023-12-07
# AIとジョブ: インフレクションポイントは生まれたか? オンライン労働プラットフォームからの証拠

AI and Jobs: Has the Inflection Point Arrived? Evidence from an Online Labor Platform ( http://arxiv.org/abs/2312.04180v1 )

ライセンス: Link先を確認
Dandan Qiao, Huaxia Rui, and Qian Xiong(参考訳) 人工知能(人工知能、AI)とは、特定の認知タスクにおいて、機械やソフトウェアが人間の知性を模倣または超える能力のこと。 人間は誘導と推論の両方で学習するが、現在のAIの成功は誘導に根ざしており、タスク入力の統計的規則性を検出する能力に依存している。 課題学習性,統計資源,計算資源,学習技術を含む4因子のレンズを用いて,人間のタスクにおけるそのような統計AIの性能を検証し,AIと仕事の関係の進化を理解するための3段階の視覚的枠組みを提案する。 この概念的枠組みに基づいて,各職業に摂動点が存在することを示すため,競争のシンプルな経済モデルを構築した。 aiのパフォーマンスが変曲点を越える前に、人間労働者は常にaiパフォーマンスの改善の恩恵を受けるが、変曲点の後、このような改善が起こると、人間労働者は悪化する。 実証的な証拠を提供するため、我々はまず、aiのパフォーマンスが翻訳の職業の転換点を越えているが、web開発の職業ではないと論じた。 そして、多くのタスクでaiのパフォーマンスが大幅に向上したchatgptのローンチが、大規模オンライン労働プラットフォームにおけるこの2つの職業の労働者に与えた影響について調査した。 インフレクションポイント予想とは対照的に、翻訳者は受理されたジョブの数とそれらのジョブからの収益の両方においてショックに負の影響を受けており、ウェブ開発者は全く同じショックに肯定的な影響を受けている。 雇用におけるAIの破壊の可能性を考えると、異なるプラットフォームのデータを使ったより多くの職業の研究が緊急に必要である。

Artificial intelligence (AI) refers to the ability of machines or software to mimic or even surpass human intelligence in a given cognitive task. While humans learn by both induction and deduction, the success of current AI is rooted in induction, relying on its ability to detect statistical regularities in task input -- an ability learnt from a vast amount of training data using enormous computation resources. We examine the performance of such a statistical AI in a human task through the lens of four factors, including task learnability, statistical resource, computation resource, and learning techniques, and then propose a three-phase visual framework to understand the evolving relation between AI and jobs. Based on this conceptual framework, we develop a simple economic model of competition to show the existence of an inflection point for each occupation. Before AI performance crosses the inflection point, human workers always benefit from an improvement in AI performance, but after the inflection point, human workers become worse off whenever such an improvement occurs. To offer empirical evidence, we first argue that AI performance has passed the inflection point for the occupation of translation but not for the occupation of web development. We then study how the launch of ChatGPT, which led to significant improvement of AI performance on many tasks, has affected workers in these two occupations on a large online labor platform. Consistent with the inflection point conjecture, we find that translators are negatively affected by the shock both in terms of the number of accepted jobs and the earnings from those jobs, while web developers are positively affected by the very same shock. Given the potentially large disruption of AI on employment, more studies on more occupations using data from different platforms are urgently needed.
翻訳日:2023-12-08 15:31:31 公開日:2023-12-07
# 温度エンハンス臨界量子メソロジー

Temperature-Enhanced Critical Quantum Metrology ( http://arxiv.org/abs/2312.04176v1 )

ライセンス: Link先を確認
Laurin Ostermann and Karol Gietka(参考訳) 臨界量子メソロジープロトコルの性能は、直観的にも有限温度で向上できることを示した。 我々は、ハミルトニアン、リプキン-メシュコフ-グリックモデル、およびパラダイム的イジングモデルを考える。 量子フィッシャー情報の温度向上は, 臨界状態の断熱的準備と, 臨界点近傍の直接的準備によって達成できることを示す。 また、パラメータ推定感度を高めるために有限温度を活用できる比較的単純な非最適測定法も見いだした。 したがって、温度は臨界量子メソロジーの資源と見なすことができる。

We show that the performance of critical quantum metrology protocols, counter-intuitively, can be enhanced by finite temperature. We consider a toy-model squeezing Hamiltonian, the Lipkin-Meshkov-Glick model and the paradigmatic Ising model. We show that the temperature enhancement of the quantum Fisher information can be achieved by adiabatic preparation of the critical state and by preparing it directly in the proximity of the critical point. We also find a relatively simple, however, non-optimal measurement capable of harnessing finite temperature to increase the parameter estimation sensitivity. Therefore, we argue that temperature can be considered as a resource in critical quantum metrology.
翻訳日:2023-12-08 15:31:04 公開日:2023-12-07
# 深層学習力場におけるコヒーレントエネルギーと力の不確かさ

Coherent energy and force uncertainty in deep learning force fields ( http://arxiv.org/abs/2312.04174v1 )

ライセンス: Link先を確認
Peter Bj{\o}rn J{\o}rgensen and Jonas Busk and Ole Winther and Mikkel N. Schmidt(参考訳) 原子系の機械学習エネルギーポテンシャルでは、力は一般に原子の位置に関するエネルギー関数の負の微分として得られる。 予測エネルギーの不確かさを定量化するために、広く用いられるモデリング手法は、各エネルギー値の平均と分散の両方を予測することを含む。 しかし、このモデルは通常のホワイトノイズ仮定では微分できないため、エネルギーの不確実性は自然に強制不確実性に変換されない。 本研究では,空間的相関ノイズ過程を通じてエネルギーと力の不確実性がリンクされる機械学習ポテンシャルエネルギーモデルを提案する。 我々は,2つの平衡外分子データセットのエネルギーと力で学習されたニューラルネットワークポテンシャルを伝達する等変メッセージに対するアプローチを実証する。 さらに,この設定において,深層アンサンブルモデルのベイズ的解釈に基づいて,エピステマティックな不確実性を得る方法を示す。

In machine learning energy potentials for atomic systems, forces are commonly obtained as the negative derivative of the energy function with respect to atomic positions. To quantify aleatoric uncertainty in the predicted energies, a widely used modeling approach involves predicting both a mean and variance for each energy value. However, this model is not differentiable under the usual white noise assumption, so energy uncertainty does not naturally translate to force uncertainty. In this work we propose a machine learning potential energy model in which energy and force aleatoric uncertainty are linked through a spatially correlated noise process. We demonstrate our approach on an equivariant messages passing neural network potential trained on energies and forces on two out-of-equilibrium molecular datasets. Furthermore, we also show how to obtain epistemic uncertainties in this setting based on a Bayesian interpretation of deep ensemble models.
翻訳日:2023-12-08 15:30:54 公開日:2023-12-07
# 不完全データのための新しい特徴選択フレームワーク

A novel feature selection framework for incomplete data ( http://arxiv.org/abs/2312.04171v1 )

ライセンス: Link先を確認
Cong Guo(参考訳) 不完全なデータセットの機能選択は、非常に難しい作業です。 既存の手法では、まず不完全データを完成させ、その不完全データに基づいて特徴選択を行うことで、この課題に対処する。 インプテーションと特徴の選択は完全に独立したステップであるため、インプテーションの間は機能の重要性は考慮できない。 しかし、現実世界のシナリオやデータセットでは、異なる特徴が様々な重要性を持っている。 そこで本稿では,特徴の重要性を考慮した不完全なデータ特徴選択フレームワークを提案する。 フレームワークは主に、2つの反復的なステージ(MステージとWステージ)で構成されている。 Mステージでは、与えられた特徴重要度ベクトルと複数の初期計算結果に基づいて、欠落値をインプットする。 wステージでは、インデュートデータに基づいて特徴重要ベクトルを学習するために改良されたレリーフアルゴリズムが用いられる。 具体的には、Wステージの現在のイテレーションで得られる特徴重要ベクトルがMステージの次のイテレーションの入力となる。 人工的に生成されたデータセットと実際の不完全データセットの両方の実験結果から,提案手法が他の手法よりも優れていることが示された。

Feature selection on incomplete datasets is an exceptionally challenging task. Existing methods address this challenge by first employing imputation methods to complete the incomplete data and then conducting feature selection based on the imputed data. Since imputation and feature selection are entirely independent steps, the importance of features cannot be considered during imputation. However, in real-world scenarios or datasets, different features have varying degrees of importance. To address this, we propose a novel incomplete data feature selection framework that considers feature importance. The framework mainly consists of two alternating iterative stages: the M-stage and the W-stage. In the M-stage, missing values are imputed based on a given feature importance vector and multiple initial imputation results. In the W-stage, an improved reliefF algorithm is employed to learn the feature importance vector based on the imputed data. Specifically, the feature importance vector obtained in the current iteration of the W-stage serves as input for the next iteration of the M-stage. Experimental results on both artificially generated and real incomplete datasets demonstrate that the proposed method outperforms other approaches significantly.
翻訳日:2023-12-08 15:30:39 公開日:2023-12-07
# 効率的なセマンティックセグメンテーションのための拡張自由度コントラスト知識蒸留

Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient Semantic Segmentation ( http://arxiv.org/abs/2312.04168v1 )

ライセンス: Link先を確認
Jiawei Fan, Chao Li, Xiaolong Liu, Meina Song, Anbang Yao(参考訳) 近年,画像分類や物体検出タスクにおいて,コントラスト学習に基づく知識蒸留法が有望な成果を上げている。 しかし,本研究では,意味セグメンテーションにはあまり注意が払われていないことに注意する。 既存の手法はデータ拡張とメモリバッファに大きく依存しており、高解像度の特徴マップの保存を必要とするセマンティックセグメンテーションを扱う際に高い計算資源を必要とする。 そこで本研究では,この問題を解決するために,コンパクトで高精度な深層ニューラルネットワークを訓練する新しいコントラスト蒸留学習パラダイムであるaf-dcd(addation-free contrastive knowledge distillation)を提案する。 af-dcdはマスキング特徴模倣戦略を活用し、チャネルと空間の両次元にまたがるテイクフルな特徴分割を利用して、新しいコントラスト学習損失を定式化し、教師モデルによって学習された高密度で構造化されたローカル知識を、学習効率を維持しつつ、ターゲットの学生モデルに効果的に移すことができる。 教師と学生のネットワークペアを用いた5つの主要なベンチマーク実験により,本手法の有効性が示された。 例えば、Af-DCDによって訓練されたDeepLabV3-Res18|DeepLabV3-MBV2モデルは、Cityscapesデータセット上で77.03%|76.38% mIOUに達した。 それに加えて、af-dcdは3.26%|3.04%|2.75%|2.30%|1.42%という絶対的なmiou改善を達成している。 コードはhttps://github.com/OSVAI/Af-DCDで入手できる。

In recent years, knowledge distillation methods based on contrastive learning have achieved promising results on image classification and object detection tasks. However, in this line of research, we note that less attention is paid to semantic segmentation. Existing methods heavily rely on data augmentation and memory buffer, which entail high computational resource demands when applying them to handle semantic segmentation that requires to preserve high-resolution feature maps for making dense pixel-wise predictions. In order to address this problem, we present Augmentation-free Dense Contrastive Knowledge Distillation (Af-DCD), a new contrastive distillation learning paradigm to train compact and accurate deep neural networks for semantic segmentation applications. Af-DCD leverages a masked feature mimicking strategy, and formulates a novel contrastive learning loss via taking advantage of tactful feature partitions across both channel and spatial dimensions, allowing to effectively transfer dense and structured local knowledge learnt by the teacher model to a target student model while maintaining training efficiency. Extensive experiments on five mainstream benchmarks with various teacher-student network pairs demonstrate the effectiveness of our approach. For instance, the DeepLabV3-Res18|DeepLabV3-MBV2 model trained by Af-DCD reaches 77.03%|76.38% mIOU on Cityscapes dataset when choosing DeepLabV3-Res101 as the teacher, setting new performance records. Besides that, Af-DCD achieves an absolute mIOU improvement of 3.26%|3.04%|2.75%|2.30%|1.42% compared with individually trained counterpart on Cityscapes|Pascal VOC|Camvid|ADE20K|COCO-Stuff-164K. Code is available at https://github.com/OSVAI/Af-DCD
翻訳日:2023-12-08 15:30:25 公開日:2023-12-07
# マルチソース軌道モデリングと分離のための動的変分オートエンコーダの混合

Mixture of Dynamical Variational Autoencoders for Multi-Source Trajectory Modeling and Separation ( http://arxiv.org/abs/2312.04167v1 )

ライセンス: Link先を確認
Xiaoyu Lin, Laurent Girin, Xavier Alameda-Pineda(参考訳) 本稿では,複数の移動音源からなるシステムの力学をモデル化するための動的変分オートエンコーダ(MixDVAE)を混合した潜時変分生成モデルを提案する。 DVAEモデルは、ソースのダイナミクスをキャプチャするために、単一のソースデータセットで事前トレーニングされる。 次に、事前学習されたdvaeモデルの複数のインスタンスを、離散的観測-ソース割り当て潜在変数を持つ多元混合モデルに統合する。 離散観測-ソース割り当て変数と、ソースの内容/位置を表す連続dvae変数の両方の後方分布を変分期待最大化アルゴリズムを用いて推定し、多元軌道推定に繋がる。 提案するMixDVAEモデルの汎用性について,コンピュータビジョンタスク,マルチオブジェクトトラッキング,オーディオ処理タスク,すなわち単一チャンネルオーディオソース分離の2つのタスクについて説明する。 実験の結果,提案手法はこれら2つのタスクでうまく動作し,複数のベースライン法を上回った。

In this paper, we propose a latent-variable generative model called mixture of dynamical variational autoencoders (MixDVAE) to model the dynamics of a system composed of multiple moving sources. A DVAE model is pre-trained on a single-source dataset to capture the source dynamics. Then, multiple instances of the pre-trained DVAE model are integrated into a multi-source mixture model with a discrete observation-to-source assignment latent variable. The posterior distributions of both the discrete observation-to-source assignment variable and the continuous DVAE variables representing the sources content/position are estimated using a variational expectation-maximization algorithm, leading to multi-source trajectories estimation. We illustrate the versatility of the proposed MixDVAE model on two tasks: a computer vision task, namely multi-object tracking, and an audio processing task, namely single-channel audio source separation. Experimental results show that the proposed method works well on these two tasks, and outperforms several baseline methods.
翻訳日:2023-12-08 15:29:51 公開日:2023-12-07
# 局部更新の蓄積によるフェデレート蒸留の通信効率の向上

Improving Communication Efficiency of Federated Distillation via Accumulating Local Updates ( http://arxiv.org/abs/2312.04166v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Tian Wen, Wen Wang(参考訳) 連合学習パラダイムとして、連合蒸留は学習プロセス中に小規模の知識のみを伝達することで、コミュニケーション効率の高いモデルトレーニングを可能にする。 さらに, 連系蒸留の通信効率を向上させるために, 知識を中央サーバに移す前に, 複数ラウンドの局所更新を蓄積する新しい手法である alu を提案する。 ALUは, フェデレート蒸留における通信頻度を劇的に低減し, 訓練過程における通信オーバーヘッドを著しく低減する。 実験実験により, ALUのフェデレート蒸留の通信効率向上効果が実証された。

As an emerging federated learning paradigm, federated distillation enables communication-efficient model training by transmitting only small-scale knowledge during the learning process. To further improve the communication efficiency of federated distillation, we propose a novel technique, ALU, which accumulates multiple rounds of local updates before transferring the knowledge to the central server. ALU drastically decreases the frequency of communication in federated distillation, thereby significantly reducing the communication overhead during the training process. Empirical experiments demonstrate the substantial effect of ALU in improving the communication efficiency of federated distillation.
翻訳日:2023-12-08 15:29:35 公開日:2023-12-07
# 絡み合いを用いた偏光物体間の非局所量子微分

Nonlocal quantum differentiation between polarization objects using entanglement ( http://arxiv.org/abs/2312.04164v1 )

ライセンス: Link先を確認
Vira R. Besaga, Luosha Zhang, Andres Vega, Purujit Singh Chauhan, Thomas Siefke, Fabian Steinlechner, Thomas Pertsch, Andrey A. Sukhorukov, Frank Setzpfandt(参考訳) 広範囲のアプリケーションでは、その完全な特徴よりも、事前に定義された特性を持つ試料の高速で非破壊的で、リモートで、敏感な識別が好ましい。 本稿では,光子対の偏光とリモート状態の調製により,異なる透過性および複屈折性試料を識別できる非局所量子測定方式の実験的実装について報告する。 様々なミュラー行列を持つ80以上の対象の例では、総合的な検査に必要となる少なくとも8つとは対照的に、2つの偶然測度しか判別に十分でないことが示される。 バイオメディカル診断,リモートセンシング,その他の分類・検出タスクを目的としたアプリケーションにおいて, 測定回数の減少と, サンプルセットが, 様々な問題に対する典型的な設定サイズをはるかに上回る可能性を示した。

For a wide range of applications a fast, non-destructive, remote, and sensitive identification of samples with predefined characteristics is preferred instead of their full characterization. Here, we report on the experimental implementation of a nonlocal quantum measurement scheme enabling to distinguish different transparent and birefringent samples by means of polarization-entangled photon pairs and remote state preparation. On an example set of more than 80 objects with varying Mueller matrices we show that only two coincidence measurements are already sufficient for successful discrimination in contrast to at least 8 required for a comprehensive inspection. The decreased number of measurements and the sample set significantly exceeding a typical set size for various problems demonstrate the high potential of the method for applications aiming at biomedical diagnostics, remote sensing, and other classification/detection tasks.
翻訳日:2023-12-08 15:29:25 公開日:2023-12-07
# vlf雷過渡分類のためのマルチスケール残差変圧器

Multi-scale Residual Transformer for VLF Lightning Transients Classification ( http://arxiv.org/abs/2312.04163v1 )

ライセンス: Link先を確認
Jinghao Sun, Tingting Ji, Guoyu Wang, Rui Wang(参考訳) ナビゲーションシステムにおける超低周波(VLF)電磁信号の利用が広く行われている。 しかし、稲妻信号の非定常挙動はvlf電磁信号伝送に影響を及ぼす可能性がある。 VLFの干渉やノイズを低減し、ナビゲーションシステムの信頼性と全体的な性能を向上させるために、正確な雷信号の分類が重要である。 近年、深層学習、特に畳み込みニューラルネットワーク(cnns)の進化は、従来の統計手法を上回って、雷の分類に変化をもたらした。 既存のcnnモデルは、様々なスケールにわたる雷信号の多様な特性を見落とし、シーケンシャル信号における時間的シークエンシングの重要性を無視するため、制限がある。 本研究では, 複雑な細粒度パターンを識別できるだけでなく, 入力雷信号列の異なる側面の意義を重く評価できる, 革新的なマルチスケール残差変換 (mrtransformer) を提案する。 このモデルは、異なるスケールで雷信号の属性を実行し、精度のレベルは分類で90%に達する。 今後の研究において、このモデルは雷信号の定位と波形特性の包括的理解に応用される可能性がある。

The utilization of Very Low Frequency (VLF) electromagnetic signals in navigation systems is widespread. However, the non-stationary behavior of lightning signals can affect VLF electromagnetic signal transmission. Accurately classifying lightning signals is important for reducing interference and noise in VLF, thereby improving the reliability and overall performance of navigation systems. In recent years, the evolution of deep learning, specifically Convolutional Neural Network (CNNs), has sparked a transformation in lightning classification, surpassing traditional statistical methodologies. Existing CNN models have limitations as they overlook the diverse attributes of lightning signals across different scales and neglect the significance of temporal sequencing in sequential signals. This study introduces an innovative multi-scale residual transform (MRTransformer) that not only has the ability to discern intricate fine-grained patterns while also weighing the significance of different aspects within the input lightning signal sequence. This model performs the attributes of the lightning signal across different scales and the level of accuracy reached 90% in the classification. In future work, this model has the potential applied to a comprehensive understanding of the localization and waveform characteristics of lightning signals.
翻訳日:2023-12-08 15:29:10 公開日:2023-12-07
# Text as Image: Learning Transferable Adapter for Multi-Label Classification

Text as Image: Learning Transferable Adapter for Multi-Label Classification ( http://arxiv.org/abs/2312.04160v1 )

ライセンス: Link先を確認
Xuelin Zhu, Jiuxin Cao, Jian liu, Dongqi Tang, Furong Xu, Weijia Liu, Jiawei Ge, Bo Liu, Qingpei Guo, Tianyi Zhang(参考訳) 事前訓練された視覚言語モデルは、オープンワールドの概念認識の進展を著しく加速している。 その印象的なゼロショット能力は、最近、プロンプトチューニングによってマルチラベル画像分類に移行され、新しいラベルをオープン語彙で発見できるようになった。 しかし、このパラダイムは非自明なトレーニングコストに悩まされ、多くの候補ラベルに対して計算的に禁止される。 この問題に対処するため、視覚言語事前学習は、画像とテキストを統一した埋め込み空間で調整し、アダプタネットワークがテキストモダリティでトレーニングしながら、視覚モダリティ内のラベルを識別する可能性を秘めている。 このようなクロスモーダルな伝達能力を高めるために, 単純で効果的なランダムな摂動法が提案され, 適応器はトレーニング中にノイズを伴ってテキスト埋め込みを摂動することで潜在的な視覚的埋め込みを探索し, 視覚的モダリティの向上に寄与する。 さらに,大規模言語モデルを用いたマルチラベル命令追従テキスト生成手法を提案する。 このようにして、手動データに頼ることなく、完全に自動化されたビジュアルラベル認識パイプラインが開発される。 各種マルチラベル分類タスクにおける提案手法の優位性を示す。

Pre-trained vision-language models have notably accelerated progress of open-world concept recognition. Their impressive zero-shot ability has recently been transferred to multi-label image classification via prompt tuning, enabling to discover novel labels in an open-vocabulary manner. However, this paradigm suffers from non-trivial training costs, and becomes computationally prohibitive for a large number of candidate labels. To address this issue, we note that vision-language pre-training aligns images and texts in a unified embedding space, making it potential for an adapter network to identify labels in visual modality while be trained in text modality. To enhance such cross-modal transfer ability, a simple yet effective method termed random perturbation is proposed, which enables the adapter to search for potential visual embeddings by perturbing text embeddings with noise during training, resulting in better performance in visual modality. Furthermore, we introduce an effective approach to employ large language models for multi-label instruction-following text generation. In this way, a fully automated pipeline for visual label recognition is developed without relying on any manual data. Extensive experiments on public benchmarks show the superiority of our method in various multi-label classification tasks.
翻訳日:2023-12-08 15:28:54 公開日:2023-12-07
# ゼロタッチネットワーク:次世代ネットワーク自動化に向けて

Zero-Touch Networks: Towards Next-Generation Network Automation ( http://arxiv.org/abs/2312.04159v1 )

ライセンス: Link先を確認
Mirna El Rajab, Li Yang, Abdallah Shami(参考訳) zero-touch network and service management(zsm)フレームワークは、第5世代(5g)およびそれ以上(5g+)ネットワークの管理における新たなパラダイムであり、増大する複雑性と増大する現代的なネットワークのデータ量に対処するための自動セルフマネジメントと自己修復機能を提供する。 ZSMフレームワークは機械学習(ML)のような高度な技術を活用して、インテリジェントな意思決定を可能にし、人間の介入を減らす。 本稿では,ZSMフレームワークにおけるゼロタッチネットワーク(ZTN)の総合的な調査を行い,ネットワーク最適化,トラフィック監視,エネルギー効率,次世代ネットワークのセキュリティ面について述べる。 論文は、zsmに関連する課題、特にmlに関連する課題を調査しており、多様なネットワーク自動化ソリューションを探求する必要がある。 本研究では,ZTNにおける自動ML(Automated ML)の適用について検討し,ネットワーク管理コストの低減と性能の向上を図る。 AutoMLは、タスクに対するMLモデルの選択とチューニングプロセスを自動化する。 具体的には、AutoMLがアプリケーションのスループットを予測し、データドリフトに自律的に適応する能力に重点を置いている。 実験の結果,従来のmlよりも予測精度の面でautomlパイプラインが優れていることが示された。 automlとzsmの概念の統合はネットワークの構成と管理の労力を大幅に削減し、オペレータは他の重要なタスクにより多くの時間とリソースを割り当てることができる。 論文はautomlとzsmの概念を組み込んだハイレベルな5gシステムアーキテクチャも提供する。 この研究は、ZTNとAutoMLが5G+ネットワークの管理に革命をもたらす可能性を強調し、自動意思決定を可能にし、ネットワークオペレーターにより高い効率の実現、パフォーマンスの向上、ユーザーエクスペリエンスの向上を可能にする。

The Zero-touch network and Service Management (ZSM) framework represents an emerging paradigm in the management of the fifth-generation (5G) and Beyond (5G+) networks, offering automated self-management and self-healing capabilities to address the escalating complexity and the growing data volume of modern networks. ZSM frameworks leverage advanced technologies such as Machine Learning (ML) to enable intelligent decision-making and reduce human intervention. This paper presents a comprehensive survey of Zero-Touch Networks (ZTNs) within the ZSM framework, covering network optimization, traffic monitoring, energy efficiency, and security aspects of next-generational networks. The paper explores the challenges associated with ZSM, particularly those related to ML, which necessitate the need to explore diverse network automation solutions. In this context, the study investigates the application of Automated ML (AutoML) in ZTNs, to reduce network management costs and enhance performance. AutoML automates the selection and tuning process of a ML model for a given task. Specifically, the focus is on AutoML's ability to predict application throughput and autonomously adapt to data drift. Experimental results demonstrate the superiority of the proposed AutoML pipeline over traditional ML in terms of prediction accuracy. Integrating AutoML and ZSM concepts significantly reduces network configuration and management efforts, allowing operators to allocate more time and resources to other important tasks. The paper also provides a high-level 5G system architecture incorporating AutoML and ZSM concepts. This research highlights the potential of ZTNs and AutoML to revolutionize the management of 5G+ networks, enabling automated decision-making and empowering network operators to achieve higher efficiency, improved performance, and enhanced user experience.
翻訳日:2023-12-08 15:28:32 公開日:2023-12-07
# 物理層セキュリティ下における意味コミュニケーションのための資源配分

Resource Allocation for Semantic Communication under Physical-layer Security ( http://arxiv.org/abs/2312.04155v1 )

ライセンス: Link先を確認
Yang Li, Xinyu Zhou, Jun Zhao(参考訳) セマンティクス・コミュニケーションは6世代(6g)無線ネットワークにおけるシャノンのパラダイムの革命と見なされている。 受信者が回復しようとする元のデータではなく、抽出した情報を送信することを目的としている。 直感的には、抽出される情報が大きいほど、意味コミュニケーションの待ち時間が長くなる。 さらに、抽出された情報が大きくなれば、より正確な再構成情報が得られ、セマンティック通信システムの利便性が向上する。 レイテンシーの短縮と高ユーティリティーはシステムにとって望ましい目的であるため、ユーティリティとレイテンシの間にトレードオフがある。 本稿では,全レイテンシと実用性のための共同最適化アルゴリズムを提案する。 さらに,セマンティック通信システムにはセキュリティが不可欠である。 我々は,物理層セキュリティ手法であるシークレットレートを最適化問題に組み込む。 秘密保持率は、盗聴者に情報を開示しない通信レートである。 実験の結果,提案手法はベースラインと比較し,最適ジョイント最適化性能を得た。

Semantic communication is deemed as a revolution of Shannon's paradigm in the six-generation (6G) wireless networks. It aims at transmitting the extracted information rather than the original data, which receivers will try to recover. Intuitively, the larger extracted information, the longer latency of semantic communication will be. Besides, larger extracted information will result in more accurate reconstructed information, thereby causing a higher utility of the semantic communication system. Shorter latency and higher utility are desirable objectives for the system, so there will be a trade-off between utility and latency. This paper proposes a joint optimization algorithm for total latency and utility. Moreover, security is essential for the semantic communication system. We incorporate the secrecy rate, a physical-layer security method, into the optimization problem. The secrecy rate is the communication rate at which no information is disclosed to an eavesdropper. Experimental results demonstrate that the proposed algorithm obtains the best joint optimization performance compared to the baselines.
翻訳日:2023-12-08 15:28:02 公開日:2023-12-07
# EulerMormer: Transformer内での動的フィルタリングによるロバストウレリア運動拡大

EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering within Transformer ( http://arxiv.org/abs/2312.04152v1 )

ライセンス: Link先を確認
Fei Wang, Dan Guo, Kun Li, Meng Wang(参考訳) ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破り、マクロ領域で貴重な情報を含む知覚できない小さな動きを明らかにすることを目的としている。 しかし、撮影装置によって必然的に導入される光子ノイズと増幅時の空間的不整合により、静的場におけるアーティファクトのひらめき、動画内の動的場における動きのぼやけや歪みが問題となる。 既存の手法では, 動き拡大過程における優先順位付きデノイジングを強調することなく, 明示的な動きモデリングに焦点をあてている。 本稿では,静的力学場適応化を実現するための新しい動的フィルタリング手法を提案する。 具体的には, ユーレリア理論に基づいて, フレーム間形状の違いによる動きの表現を抽出するためにテクスチャと形状を分離し, この課題を細かく解くためにこれらの細分化した特徴を活用することを期待する。 次に, 雑音を除去し, 動き拡大, 増幅生成相の重要な特徴を保存できる新しい動的フィルタを提案する。 全体として、我々の統合フレームワークであるEulerMormerは、学習ベースのVMMでTransformerと最初に装備するための先駆的な取り組みです。 ダイナミックフィルタのコアは、重要な情報を保持しながらノイズを明示的に除去するグローバルなダイナミックスパース・クロスコ分散アテンション機構と、異なる周波数特性への依存を選択的に規制し、空間減衰を低減し、運動境界を補完するマルチスケールのデュアルパスゲーティング機構にある。 我々はEulerMormerがユーレリアの視点からより堅牢な動画モーション倍率を実現し、最先端の手法を著しく上回る実験を行った。 ソースコードはhttps://github.com/VUT-HFUT/EulerMormer.comで入手できる。

Video Motion Magnification (VMM) aims to break the resolution limit of human visual perception capability and reveal the imperceptible minor motion that contains valuable information in the macroscopic domain. However, challenges arise in this task due to photon noise inevitably introduced by photographic devices and spatial inconsistency in amplification, leading to flickering artifacts in static fields and motion blur and distortion in dynamic fields in the video. Existing methods focus on explicit motion modeling without emphasizing prioritized denoising during the motion magnification process. This paper proposes a novel dynamic filtering strategy to achieve static-dynamic field adaptive denoising. Specifically, based on Eulerian theory, we separate texture and shape to extract motion representation through inter-frame shape differences, expecting to leverage these subdivided features to solve this task finely. Then, we introduce a novel dynamic filter that eliminates noise cues and preserves critical features in the motion magnification and amplification generation phases. Overall, our unified framework, EulerMormer, is a pioneering effort to first equip with Transformer in learning-based VMM. The core of the dynamic filter lies in a global dynamic sparse cross-covariance attention mechanism that explicitly removes noise while preserving vital information, coupled with a multi-scale dual-path gating mechanism that selectively regulates the dependence on different frequency features to reduce spatial attenuation and complement motion boundaries. We demonstrate extensive experiments that EulerMormer achieves more robust video motion magnification from the Eulerian perspective, significantly outperforming state-of-the-art methods. The source code is available at https://github.com/VUT-HFUT/EulerMormer.
翻訳日:2023-12-08 15:27:50 公開日:2023-12-07
# 拡散色:テキスト誘導拡散による画像カラー化

Diffusing Colors: Image Colorization with Text Guided Diffusion ( http://arxiv.org/abs/2312.04145v1 )

ライセンス: Link先を確認
Nir Zabari, Aharon Azulay, Alexey Gorkor, Tavi Halperin, Ohad Fried(参考訳) グレースケール画像のカラー化は複雑で主観的な課題であり、大きな課題がある。 ディープニューラルネットワークを用いた大規模データセット採用の最近の進展にもかかわらず、制御可能性や視覚品質の難しさは続いている。 そこで本稿では,画像拡散技術とテキストプロンプトを利用した新しいカラー化フレームワークを提案する。 この統合は、意味的に適切な色付け出力を生成するだけでなく、ユーザが色付けプロセスに対して持つコントロールレベルを大幅に改善する。 本手法は,視覚品質とセマンティックコヒーレンスにおいて既存の手法を上回って,自動化と制御のバランスを提供する。 我々は,事前学習した生成拡散モデルを用いて,生成能力やテキストプロンプトへの注意を失わずに色付けタスクに微調整できることを示す。 さらに、色鮮度を評価するCLIPベースの新しいランキングモデルを提案し、特定のシーンセマンティクスに基づいて最適な色鮮度を自動選択する。 我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。

The colorization of grayscale images is a complex and subjective task with significant challenges. Despite recent progress in employing large-scale datasets with deep neural networks, difficulties with controllability and visual quality persist. To tackle these issues, we present a novel image colorization framework that utilizes image diffusion techniques with granular text prompts. This integration not only produces colorization outputs that are semantically appropriate but also greatly improves the level of control users have over the colorization process. Our method provides a balance between automation and control, outperforming existing techniques in terms of visual quality and semantic coherence. We leverage a pretrained generative Diffusion Model, and show that we can finetune it for the colorization task without losing its generative power or attention to text prompts. Moreover, we present a novel CLIP-based ranking model that evaluates color vividness, enabling automatic selection of the most suitable level of vividness based on the specific scene semantics. Our approach holds potential particularly for color enhancement and historical image colorization.
翻訳日:2023-12-08 15:27:14 公開日:2023-12-07
# 量子コンピュータベンチマークのためのランダム回路サンプリングにおけるカウント衝突

Counting collisions in random circuit sampling for benchmarking quantum computers ( http://arxiv.org/abs/2312.04222v1 )

ライセンス: Link先を確認
Andrea Mari(参考訳) ランダム量子回路を計測する際の衝突数(再サンプリングビット列)を数えることは、量子コンピュータの品質の実用的なベンチマークと量的ノイズキャラクタリゼーション手法を提供する。 純ランダム状態からビットストリングをサンプリングする場合と古典的一様分布からサンプリングする場合の衝突回数の差を解析的に推定する。 この量は、適切に正規化されている場合、「衝突異常」ベンチマークや、よく知られた量子ボリュームテストに類似した「衝突量」テストとして、(古典的な計算コストを伴わない)利点とデメリット(サンプリングコストが高い)とともに使用できることを示す。 また、同じランダム回路を動作させる2つの独立量子コンピュータ間のクロスコリジョン数をカウントして、2つのデバイスのクロスバリデーションテストを求める。 最後に,量子衝突実験のサンプリングコストを定量化する。 我々は、最先端のプロセッサ(例えば、20個の有効なクリーンキュービット)で衝突ボリュームテストを実行するためのサンプリングコストが、非常に小さいことを発見した。 量子超越理論における大規模実験では、観測された衝突数における量子信号の観測に必要なショットの数は、現在実現不可能であるが、近未来の技術では完全には到達できない。

We show that counting the number of collisions (re-sampled bitstrings) when measuring a random quantum circuit provides a practical benchmark for the quality of a quantum computer and a quantitative noise characterization method. We analytically estimate the difference in the expected number of collisions when sampling bitstrings from a pure random state and when sampling from the classical uniform distribution. We show that this quantity, if properly normalized, can be used as a "collision anomaly" benchmark or as a "collision volume" test which is similar to the well-known quantum volume test, with advantages (no classical computing cost) and disadvantages (high sampling cost). We also propose to count the number of cross-collisions between two independent quantum computers running the same random circuit in order to obtain a cross-validation test of the two devices. Finally, we quantify the sampling cost of quantum collision experiments. We find that the sampling cost for running a collision volume test on state-of-the-art processors (e.g.~20 effective clean qubits) is quite small: less than $10^5$ shots. For large-scale experiments in the quantum supremacy regime the required number of shots for observing a quantum signal in the observed number of collisions is currently infeasible ($>10^{12}$), but not completely out of reach for near-future technology.
翻訳日:2023-12-08 15:21:30 公開日:2023-12-07
# 最適な量子通信ネットワーク:キャパシタンス対セキュリティ

Optimal quantum communication networks: capacitance versus security ( http://arxiv.org/abs/2312.04221v1 )

ライセンス: Link先を確認
Lorenzo Cirigliano, Valentina Brosco, Claudio Castellano, Claudio Conti, Laura Pilozzi(参考訳) 量子通信ネットワークの任意の点に配置されたユーザ間の量子通信の速度とセキュリティは、ネットワークの構造、その拡張、および通信チャネルの性質に依存する。 本研究では,古典的ネットワークアプローチと量子情報理論を絡み合うネットワーク最適化の戦略を提案する。 具体的には、量子効率関数を適切に定義することにより、セキュリティと量子通信速度のバランスをとることにより、ネットワークを介して最適な量子通信接続を特定する。 最適化されたネットワークは、最大量子効率接続のネットワークとして構築され、平均特性のスケーリングをノード数とネットワーク空間拡張の関数として研究することで、その性能を評価する。

The rate and security of quantum communications between users placed at arbitrary points of a quantum communication network depend on the structure of the network, on its extension and on the nature of the communication channels. In this work we propose a strategy of network optimization that intertwines classical network approaches and quantum information theory. Specifically, by suitably defining a quantum efficiency functional, we identify the optimal quantum communication connections through the network by balancing security and the quantum communication rate. The optimized network is then constructed as the network of the maximal quantum efficiency connections and its performance is evaluated by studying the scaling of average properties as functions of the number of nodes and of the network spatial extension.
翻訳日:2023-12-08 15:21:07 公開日:2023-12-07
# SOV言語におけるスワップ距離最小化 認知と数学的基礎

Swap distance minimization in SOV languages. Cognitive and mathematical foundations ( http://arxiv.org/abs/2312.04219v1 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho and Savithry Namboodiripad(参考訳) 距離最小化は言語の基本原理である。 単語順序の領域におけるこの原理の特別な例は、スワップ距離最小化である。 この原理は、隣接する構成要素のスワップを少なくすることで達成される標準順序からのバリエーションはコストがかからず、より可能性も高いと予測している。 ここでは、主語(S)、目的語(O)、動詞(V)によって形成される三重項の文脈における原理を考察する。 本稿では,その予測の基盤となる語順回転の概念を紹介する。 言語の標準順序がSOVの場合、その原理は認知コストを増加させるためにSOV < SVO, OSV < VSO, OVS < VOSを予測する。 韓国語(韓国語)、マラヤラム語(ドラビディア語)、シンハラ語(インド・ヨーロッパ語)の3言語で予測を検証した。 スワップ距離最小化の証拠は3つの言語すべてで見られるが、シンハラ語では弱い。 スワップ距離の最小化は、朝鮮語、特にマラヤラム語の正準位よりも強い。

Distance minimization is a general principle of language. A special case of this principle in the domain of word order is swap distance minimization. This principle predicts that variations from a canonical order that are reached by fewer swaps of adjacent constituents are lest costly and thus more likely. Here we investigate the principle in the context of the triple formed by subject (S), object (O) and verb (V). We introduce the concept of word order rotation as a cognitive underpinning of that prediction. When the canonical order of a language is SOV, the principle predicts SOV < SVO, OSV < VSO, OVS < VOS, in order of increasing cognitive cost. We test the prediction in three flexible order SOV languages: Korean (Koreanic), Malayalam (Dravidian), and Sinhalese (Indo-European). Evidence of swap distance minimization is found in all three languages, but it is weaker in Sinhalese. Swap distance minimization is stronger than a preference for the canonical order in Korean and especially Malayalam.
翻訳日:2023-12-08 15:20:57 公開日:2023-12-07
# CODEX: 説明可能な強化学習のためのクラスタベース手法

CODEX: A Cluster-Based Method for Explainable Reinforcement Learning ( http://arxiv.org/abs/2312.04216v1 )

ライセンス: Link先を確認
Timothy K. Mathes, Jessica Inman, Andr\'es Col\'on, Simon Khan(参考訳) Reinforcement Learning (RL)による印象的な成果にもかかわらず、これらのアルゴリズムは、RLエージェントアクションの説明やユーザ信頼の構築が現在困難であるために、リスクの高い現実世界のアプリケーションにはほとんど採用されていない。 本稿では,状態-作用空間におけるRLエージェントの挙動を効果的に要約できる意味的クラスタリングを組み込んだCODEX(Counterfactual Demonstrations for Explanation)を提案する。 MiniGrid と StarCraft II のゲーム環境での実験では、セマンティッククラスタは時間的および実体的情報を保持しており、エージェントの動作が構築された概要に反映されている。 さらに、離散的かつ連続的なゲーム状態の潜在表現をクラスタリングすることで最も重要なエピソディック事象を識別し、潜在空間と意味空間の関係を示す。 この研究は、自然言語処理の技法を活用し拡張することによって、RLのパワーを広く活用するために、RLの力を解き放つための成長する努力に寄与する。

Despite the impressive feats demonstrated by Reinforcement Learning (RL), these algorithms have seen little adoption in high-risk, real-world applications due to current difficulties in explaining RL agent actions and building user trust. We present Counterfactual Demonstrations for Explanation (CODEX), a method that incorporates semantic clustering, which can effectively summarize RL agent behavior in the state-action space. Experimentation on the MiniGrid and StarCraft II gaming environments reveals the semantic clusters retain temporal as well as entity information, which is reflected in the constructed summary of agent behavior. Furthermore, clustering the discrete+continuous game-state latent representations identifies the most crucial episodic events, demonstrating a relationship between the latent and semantic spaces. This work contributes to the growing body of work that strives to unlock the power of RL for widespread use by leveraging and extending techniques from Natural Language Processing.
翻訳日:2023-12-08 15:20:38 公開日:2023-12-07
# 脳MRIにおける教師なし異常検出のための条件付き拡散モデルによるガイド付き再構成

Guided Reconstruction with Conditioned Diffusion Models for Unsupervised Anomaly Detection in Brain MRIs ( http://arxiv.org/abs/2312.04215v1 )

ライセンス: Link先を確認
Finn Behrendt, Debayan Bhattacharya, Robin Mieling, Lennart Maack, Julia Kr\"uger, Roland Opfer, Alexander Schlaefer(参考訳) 脳MRIにおける教師なし異常検出は、正常なトレーニング分布から異常を外れ値として識別することを目的としている。 再生モデルを用いて、健康な脳解剖の再構築を学習する再構成に基づくアプローチが、この課題に一般的に用いられている。 拡散モデルは、再構成忠実性に関する大きな可能性を示す深層生成モデルの新しいクラスである。 しかし、再構成画像の強度特性を保ち、異常検出における性能を抑えるという課題に直面している。 この課題に対処するために,ノイズフリーな入力画像の潜在表現から生じる再構成のために,拡散モデルのデノナイズ機構に画像に関する追加情報を加えることを提案する。 この条件付けにより、入力-再構成ペアの局所強度特性を整列させながら、健康な脳構造を高忠実に再構築することができる。 提案手法の再現性, ドメイン適応性, および, 様々な病態を持つ公開データセット上でのセグメンテーション性能を評価する。 提案した条件付け機構を用いることで,脳MRIにおける非教師的異常検出に対する最先端のアプローチと比較して,異常検出性能を著しく向上する偽陽性予測を低減し,異常のより正確なデライン化を可能にする。 さらに, 一般的な異常検出手法の重要な特徴である, 異なるMRI取得とシミュレーションコントラストの領域適応が期待できることを示す。

Unsupervised anomaly detection in Brain MRIs aims to identify abnormalities as outliers from a healthy training distribution. Reconstruction-based approaches that use generative models to learn to reconstruct healthy brain anatomy are commonly used for this task. Diffusion models are an emerging class of deep generative models that show great potential regarding reconstruction fidelity. However, they face challenges in preserving intensity characteristics in the reconstructed images, limiting their performance in anomaly detection. To address this challenge, we propose to condition the denoising mechanism of diffusion models with additional information about the image to reconstruct coming from a latent representation of the noise-free input image. This conditioning enables high-fidelity reconstruction of healthy brain structures while aligning local intensity characteristics of input-reconstruction pairs. We evaluate our method's reconstruction quality, domain adaptation features and finally segmentation performance on publicly available data sets with various pathologies. Using our proposed conditioning mechanism we can reduce the false-positive predictions and enable a more precise delineation of anomalies which significantly enhances the anomaly detection performance compared to established state-of-the-art approaches to unsupervised anomaly detection in brain MRI. Furthermore, our approach shows promise in domain adaptation across different MRI acquisitions and simulated contrasts, a crucial property of general anomaly detection methods.
翻訳日:2023-12-08 15:20:15 公開日:2023-12-07
# 確率振幅に対する量子相対論的方程式

Quantum relativistic equation for a probability amplitude ( http://arxiv.org/abs/2312.04212v1 )

ライセンス: Link先を確認
Yu.M. Poluektov(参考訳) 相対論的量子方程式は、確率振幅の意味を持つ複素波動関数に対して提案されている。 提案された理論のラグランジュ的定式化が開発された。 無制限の空間にウェーブパケットを拡散する問題は解決する。 調和振動子のエネルギー準位に対する相対論的補正が見出され、それらは等距離に違反する。

The relativistic quantum equation is proposed for the complex wave function, which has the meaning of a probability amplitude. The Lagrangian formulation of the proposed theory is developed. The problem of spreading of a wave packet in an unlimited space is solved. The relativistic correction to the energy levels of a harmonic oscillator is found, leading to a violation of their equidistance.
翻訳日:2023-12-08 15:19:33 公開日:2023-12-07
# 超伝導量子ビットによる万能読み出し誤差軽減方式

Universal readout error mitigation scheme characterized on superconducting qubits ( http://arxiv.org/abs/2312.04211v1 )

ライセンス: Link先を確認
Adrian Skasberg Aasen, Andras Di Giovanni, Hannes Rotzinger, Alexey V. Ustinov, Martin G\"arttner(参考訳) 量子技術は、量子システムの正確な制御と信頼できる読み出しに大きく依存している。 現在の実験は、単純な解析モデルで部分的にしか捉えられない多くのノイズ源によって制限されており、ノイズ源のさらなる特徴付けが必要である。 量子2レベルオブジェクト(qubits)からなるシステムで検出される現実的なノイズを正すために,読み出し誤り軽減の能力をテストする。 このような方法の限界を調べるために,量子システムの密度行列を推定する量子状態トモグラフィ(qst)と,測定手順を特徴付ける量子検出器トモグラフィ(qdt)に基づいて,汎用的な読み出し誤差緩和プロトコルを設計した。 状態トモグラフィーの文脈で読み出し誤差を軽減することにより、この手法は主にデバイス、アーキテクチャ、ノイズ源、量子状態非依存となる。 本手法を超伝導量子ビット上に実装し,QSTの再構成忠実度向上をベンチマークする。 提案手法の性能は, 信号増幅, 共振器光子人口の不足, 外部共振量子ビット駆動, 減衰時間を効果的に短縮したT_1$およびT_2$といった, 重要なノイズ源によって特徴づけられる。 その結果,読み出し誤差低減効果が良好であったノイズ源を同定し,読み出し不忠実度を最大30倍に低下させた。

Quantum technologies rely heavily on accurate control and reliable readout of quantum systems. Current experiments are limited by numerous sources of noise that can only be partially captured by simple analytical models and additional characterization of the noise sources is required. We test the ability of readout error mitigation to correct realistic noise found in systems composed of quantum two-level objects (qubits). To probe the limit of such methods, we designed a universal readout error mitigation protocol based on quantum state tomography (QST), which estimates the density matrix of a quantum system, and quantum detector tomography (QDT), which characterizes the measurement procedure. By treating readout error mitigation in the context of state tomography the method becomes largely device-, architecture-, noise source-, and quantum state-independent. We implement this method on a superconducting qubit and benchmark the increase in reconstruction fidelity for QST. We characterize the performance of the method by varying important noise sources, such as suboptimal readout signal amplification, insufficient resonator photon population, off-resonant qubit drive, and effectively shortened $T_1$ and $T_2$ decay times. As a result, we identified noise sources for which readout error mitigation worked well, and observed decreases in readout infidelity by a factor of up to 30.
翻訳日:2023-12-08 15:19:25 公開日:2023-12-07
# 衛星画像モザイク選択問題の制約モデル

Constraint Model for the Satellite Image Mosaic Selection Problem ( http://arxiv.org/abs/2312.04210v1 )

ライセンス: Link先を確認
Manuel Combarro Sim\'on, Pierre Talbot, Gr\'egoire Danoy, Jedrzej Musial, Mohammed Alswaitti, and Pascal Bouvry(参考訳) 衛星画像ソリューションは、地球の様々な領域を研究し監視するために広く使われている。 しかし、単一の衛星画像は限られた領域しかカバーできない。 興味のある領域が研究されている場合、複数の画像を縫い合わせて、モザイクと呼ばれる1つの大きな画像を作成しなければならない。 現在、商用利用が可能な衛星画像が増えているため、モザイクを構築するための画像の選択は困難であり、特にユーザーがモザイクの総コストや雲のカバー率など、1つ以上のパラメータを最適化したい場合は困難である。 より正確には、この問題の入力は関心のある領域であり、いくつかの衛星画像がその領域と交差し、雲のカバー率、画像の解像度、最適化する目的の一覧のような画像とモザイクに対する要件のリストである。 我々は,ポリゴン被覆問題の多目的拡張である「textit{satellite image mosaic selection problem」と呼ばれる,この新たな問題の制約および混合整数線形プログラミングの定式化に寄与する。 本研究では,衛星コンステレーションスポット,pl\'eiades,pl\'eiades neoで撮影された画像を用いて,現実的で難解な事例のデータセットを提案する。 提案する2つのモデルを評価し比較し,最大200画像の大規模インスタンスに対してその効率を示す。

Satellite imagery solutions are widely used to study and monitor different regions of the Earth. However, a single satellite image can cover only a limited area. In cases where a larger area of interest is studied, several images must be stitched together to create a single larger image, called a mosaic, that can cover the area. Today, with the increasing number of satellite images available for commercial use, selecting the images to build the mosaic is challenging, especially when the user wants to optimize one or more parameters, such as the total cost and the cloud coverage percentage in the mosaic. More precisely, for this problem the input is an area of interest, several satellite images intersecting the area, a list of requirements relative to the image and the mosaic, such as cloud coverage percentage, image resolution, and a list of objectives to optimize. We contribute to the constraint and mixed integer lineal programming formulation of this new problem, which we call the \textit{satellite image mosaic selection problem}, which is a multi-objective extension of the polygon cover problem. We propose a dataset of realistic and challenging instances, where the images were captured by the satellite constellations SPOT, Pl\'eiades and Pl\'eiades Neo. We evaluate and compare the two proposed models and show their efficiency for large instances, up to 200 images.
翻訳日:2023-12-08 15:18:45 公開日:2023-12-07
# グラフ粗化と最適カットによる制約付き階層クラスタリング

Constrained Hierarchical Clustering via Graph Coarsening and Optimal Cuts ( http://arxiv.org/abs/2312.04209v1 )

ライセンス: Link先を確認
Eliabelle Mauduit and Andrea Simonetto(参考訳) 満足度アンケートやホテルレビュー,X/Twitterなどの短文設定で関連情報を抽出・要約することで動機付け,階層的手法で単語をクラスタリングする問題を考察した。 特に,水平および垂直構造制約によるクラスタリングの問題に注目する。 水平制約は通常、単語間ではリンクできず、必然的にリンクされるが、垂直制約はクラスタレベルの優先制約である。 まず, 逐次グラフ粗化アルゴリズムの結果を水平集合へ導くソフト制約付き正規化最小二乗として, 問題を定式化することで, 最先端のボトルネックを克服する。 得られた階層木からフラットクラスタを抽出し、利用可能な制約に基づいて最適なカット高さを演算する。 提案手法は既存のアルゴリズムと非常によく比較され,計算量的に軽量であることを示す。

Motivated by extracting and summarizing relevant information in short sentence settings, such as satisfaction questionnaires, hotel reviews, and X/Twitter, we study the problem of clustering words in a hierarchical fashion. In particular, we focus on the problem of clustering with horizontal and vertical structural constraints. Horizontal constraints are typically cannot-link and must-link among words, while vertical constraints are precedence constraints among cluster levels. We overcome state-of-the-art bottlenecks by formulating the problem in two steps: first, as a soft-constrained regularized least-squares which guides the result of a sequential graph coarsening algorithm towards the horizontal feasible set. Then, flat clusters are extracted from the resulting hierarchical tree by computing optimal cut heights based on the available constraints. We show that the resulting approach compares very well with respect to existing algorithms and is computationally light.
翻訳日:2023-12-08 15:17:37 公開日:2023-12-07
# マイクロリング型貯留層計算のメモリ向上のための波長多重遅延入力

Wavelength-multiplexed Delayed Inputs for Memory Enhancement of Microring-based Reservoir Computing ( http://arxiv.org/abs/2312.04204v1 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret and Francesco Da Ros(参考訳) 並列遅延入力と波長分割多重化を組み合わせたシリコン添加液滴型貯留層計算方式を数値的に示す。 このスキームは、外部の光学的フィードバックを必要とせずに、時系列予測などのメモリ要求タスクを優れたパフォーマンスで解決する。

We numerically demonstrate a silicon add-drop microring-based reservoir computing scheme that combines parallel delayed inputs and wavelength division multiplexing. The scheme solves memory-demanding tasks like time-series prediction with good performance without requiring external optical feedback.
翻訳日:2023-12-08 15:17:10 公開日:2023-12-07
# G.652とG.655のフィールド内比較 偏波量子鍵分布のための光ファイバ

In-Field Comparison between G.652 and G.655 Optical Fibers for Polarization-Based Quantum Key Distribution ( http://arxiv.org/abs/2312.04203v1 )

ライセンス: Link先を確認
Costantino Agnesi, Massimo Giacomin, Daniele Sartorato, Silvia Artuso, Giuseppe Vallone, Paolo Villoresi(参考訳) 既存の通信インフラへの量子鍵配布(qkd)の統合は、この量子技術の普及に不可欠であり、ユーザ間で無条件に安全な鍵の蒸留を提供する。 本稿では,ThinkQuantum srlによって開発されたQuKyの商用偏光ベースのQKDプラットフォームと,G.652とG.655の2種類の単一モード光ファイバの標準を量子チャネルとして利用し,トレビゾとヴェネチア - メストレに設置したPOPのフィールドトライアルを報告する。 このフィールドトライアルでは、同じファイバー上の古典的信号と量子的信号の共存を含むいくつかの構成がテストされ、QKDアプリケーションにおけるG.652とG.655のファイバ標準の性能を直接比較した。

Integration of Quantum Key Distribution (QKD) in existing telecommunication infrastructure is crucial for the widespread adoption of this quantum technology, which offers the distillation of unconditionally secure keys between users. In this letter, we report a field trial between the Points of Presence (POPs) placed in Treviso and in Venezia - Mestre, Italy, exploiting the QuKy commercial polarization-based QKD platforms developed by ThinkQuantum srl and two different standards of single-mode optical fibers, i.e. G.652 and G.655, as a quantum channel. In this field trial, several configurations were tested, including the co-existence of classical and quantum signals over the same fiber, providing a direct comparison between the performances of the G.652 and G.655 fiber standards for QKD applications.
翻訳日:2023-12-08 15:16:42 公開日:2023-12-07
# SAMBA: スマートラベリングを備えたトレーニング可能なセグメンテーションWebアプリケーション

SAMBA: A Trainable Segmentation Web-App with Smart Labelling ( http://arxiv.org/abs/2312.04197v1 )

ライセンス: Link先を確認
Ronan Docherty, Isaac Squires, Antonis Vamvakeros, Samuel J. Cooper(参考訳) セグメンテーション(英: Segmentation)とは、画像中の各ピクセルに意味クラスを割り当てることであり、相定量化、物理シミュレーション、形態学的特徴など、材料科学における様々な統計分析タスクの前提条件である。 材料科学で研究されている幅広い長さスケール、イメージング技術、材料は、どんなセグメンテーションアルゴリズムでも、見えないデータに一般化し、抽象的でユーザ定義のセマンティクスクラスをサポートする必要があることを意味する。 トレーニング可能なセグメンテーションは、イメージ特徴からユーザ描画ラベルへのマッピングのために分類器を訓練する一般的なインタラクティブセグメンテーションパラダイムである。 SAMBAは、高速で高品質なラベル提案にMetaのSegment Anything Model(SAM)と、堅牢で一般化可能なセグメンテーションにランダムな森林分類器を使用するトレーニング可能なセグメンテーションツールである。 外部依存関係をダウンロードすることなく、ブラウザ(https://www.sambasegment.com/)でアクセスできる。 セグメンテーションバックエンドはクラウドで動作するため、ユーザは強力なハードウェアを必要としない。

Segmentation is the assigning of a semantic class to every pixel in an image and is a prerequisite for various statistical analysis tasks in materials science, like phase quantification, physics simulations or morphological characterization. The wide range of length scales, imaging techniques and materials studied in materials science means any segmentation algorithm must generalise to unseen data and support abstract, user-defined semantic classes. Trainable segmentation is a popular interactive segmentation paradigm where a classifier is trained to map from image features to user drawn labels. SAMBA is a trainable segmentation tool that uses Meta's Segment Anything Model (SAM) for fast, high-quality label suggestions and a random forest classifier for robust, generalizable segmentations. It is accessible in the browser (https://www.sambasegment.com/) without the need to download any external dependencies. The segmentation backend is run in the cloud, so does not require the user to have powerful hardware.
翻訳日:2023-12-08 15:16:25 公開日:2023-12-07
# スペイン語の効率的な質問応答のための言語モデル知識蒸留

Language Model Knowledge Distillation for Efficient Question Answering in Spanish ( http://arxiv.org/abs/2312.04193v1 )

ライセンス: Link先を確認
Adri\'an Bazaga, Pietro Li\`o, Gos Micklem(参考訳) 事前訓練されたスペイン語モデルの開発における最近の進歩は、質問応答など多くの自然言語処理(NLP)タスクに大きな進歩をもたらした。 しかし、効率的なモデルがないことは、リソース制約のある環境でそのようなモデルを採用する上で障壁となる。 したがって、スペイン語のより小さな蒸留モデルは高度にスケーラブルであることが証明され、様々なタスクやシナリオでさらなる採用を促進することができる。 本研究では,スペイン語で効率的な質問応答を行うために,roberta に基づいた圧縮言語モデルである spanishtinyroberta の開発により,この方向への一歩を踏み出した。 これを実現するために,我々は,大規模モデルから軽量モデルへの知識蒸留を採用し,計算資源が限られている分野においてもより広範な実装が可能でありながら,性能の犠牲を負うことがない。 実験の結果, 濃厚蒸留モデルは, より大きな蒸留器の性能を保ちつつ, 推算速度を大幅に向上できることがわかった。 この研究は、様々なNLPタスクにわたるスペイン語モデルのためのモデル圧縮のさらなる研究と研究の出発点となる。

Recent advances in the development of pre-trained Spanish language models has led to significant progress in many Natural Language Processing (NLP) tasks, such as question answering. However, the lack of efficient models imposes a barrier for the adoption of such models in resource-constrained environments. Therefore, smaller distilled models for the Spanish language could be proven to be highly scalable and facilitate their further adoption on a variety of tasks and scenarios. In this work, we take one step in this direction by developing SpanishTinyRoBERTa, a compressed language model based on RoBERTa for efficient question answering in Spanish. To achieve this, we employ knowledge distillation from a large model onto a lighter model that allows for a wider implementation, even in areas with limited computational resources, whilst attaining negligible performance sacrifice. Our experiments show that the dense distilled model can still preserve the performance of its larger counterpart, while significantly increasing inference speedup. This work serves as a starting point for further research and investigation of model compression efforts for Spanish language models across various NLP tasks.
翻訳日:2023-12-08 15:16:04 公開日:2023-12-07
# マルチモーダル皮膚癌分類のための核融合注意モジュールを用いた細胞融合構造

Joint-Individual Fusion Structure with Fusion Attention Module for Multi-Modal Skin Cancer Classification ( http://arxiv.org/abs/2312.04189v1 )

ライセンス: Link先を確認
Peng Tang, Xintong Yan, Yang Nan, Xiaobin Hu, Xiaobin Hu, Bjoern H Menzee.Sebastian Krammer, Tobias Lasser(参考訳) 皮膚がん分類のためのほとんどの畳み込みニューラルネットワーク(CNN)は皮膚画像のみを用いて結果を得る。 良好な分類結果が得られたが,皮膚科医にとって貴重な臨床情報である患者のメタデータを考慮すれば,より正確な結果が得られる。 現在の手法では, 単純結合融合構造 (fs) と核融合モジュール (fms) をマルチモーダル分類法にのみ使用するが, より高度なfsとfmを探索することで精度を高める余地がある。 そこで本研究では,皮膚画像(皮膚内視鏡画像または臨床画像)と皮膚がん分類のための患者メタデータをFSとFMの観点から組み合わせた新しい融合法を考案した。 まず,マルチモダリティデータの共有特徴を学習し,その特徴を同時に保存するjif(joint-individual fusion)構造を提案する。 第2に,意思決定パイプラインを支援するために,自己と相互の注意機構に基づいて,最も関連性の高い画像とメタデータの機能を強化する融合注意(fa)モジュールを提案する。 JIF-MMFA法と他の3つの公開データセットの融合法との比較を行った。 JIF-MMFA法は,テスト対象のCNNバックボーンの分類結果を改善し,他の3つの公開データセットの融合法よりも優れた性能を示し,本手法の有効性と堅牢性を示した。

Most convolutional neural network (CNN) based methods for skin cancer classification obtain their results using only dermatological images. Although good classification results have been shown, more accurate results can be achieved by considering the patient's metadata, which is valuable clinical information for dermatologists. Current methods only use the simple joint fusion structure (FS) and fusion modules (FMs) for the multi-modal classification methods, there still is room to increase the accuracy by exploring more advanced FS and FM. Therefore, in this paper, we design a new fusion method that combines dermatological images (dermoscopy images or clinical images) and patient metadata for skin cancer classification from the perspectives of FS and FM. First, we propose a joint-individual fusion (JIF) structure that learns the shared features of multi-modality data and preserves specific features simultaneously. Second, we introduce a fusion attention (FA) module that enhances the most relevant image and metadata features based on both the self and mutual attention mechanism to support the decision-making pipeline. We compare the proposed JIF-MMFA method with other state-of-the-art fusion methods on three different public datasets. The results show that our JIF-MMFA method improves the classification results for all tested CNN backbones and performs better than the other fusion methods on the three public datasets, demonstrating our method's effectiveness and robustness
翻訳日:2023-12-08 15:15:47 公開日:2023-12-07
# 超伝導プロセッサ設計による量子誤差補正性能の最適化

Superconducting processor design optimization for quantum error correction performance ( http://arxiv.org/abs/2312.04186v1 )

ライセンス: Link先を確認
Xiaotong Ni, Ziang Wang, Rui Chao, Jianxin Chen(参考訳) 超伝導プロセッサを用いたフォールトトレラント量子計算の探求では、正確な性能評価と継続的な設計最適化が最前線にある。 念入りなシミュレーションと合理的な設計最適化を両立させるため,ハミルトニアンレベルと量子誤差補正レベルの両方にまたがるマルチレベルシミュレーションフレームワークを導入し,勾配を効率的に計算する能力を備える。 このツールセットは、量子メモリパフォーマンスなどの特定の目的に合わせて設計最適化を支援する。 フレームワーク内では、しばしば無視される空間的相関なユニタリエラーを調査し、論理的エラー率に大きな影響を及ぼすことを示した。 我々は,fluxonium qubitsのマルチパス結合スキームを用いて,このアプローチを例示する。

In the quest for fault-tolerant quantum computation using superconducting processors, accurate performance assessment and continuous design optimization stands at the forefront. To facilitate both meticulous simulation and streamlined design optimization, we introduce a multi-level simulation framework that spans both Hamiltonian and quantum error correction levels, and is equipped with the capability to compute gradients efficiently. This toolset aids in design optimization, tailored to specific objectives like quantum memory performance. Within our framework, we investigate the often-neglected spatially correlated unitary errors, highlighting their significant impact on logical error rates. We exemplify our approach through the multi-path coupling scheme of fluxonium qubits.
翻訳日:2023-12-08 15:15:22 公開日:2023-12-07
# strong, less, and superior: ドメイン一般化意味セグメンテーションのためのビジョン基盤モデルを活用する

Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation ( http://arxiv.org/abs/2312.04265v1 )

ライセンス: Link先を確認
Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Lin, Ben Wang, Huaian Chen, Jinjin Zheng(参考訳) 本稿では、まず、ドメイン一般化セマンティックセマンティックセグメンテーション(DGSS)の文脈において、様々なビジョン基礎モデル(VFM)を評価し、活用する。 より強力な事前学習モデルとより少ない訓練可能なパラメータを上向きの一般化性に活用する動機により、DGSSのVFMをパラメータ効率よく活用するための堅牢な微調整手法、すなわちReinを導入する。 トレーニング可能なトークンセットに基づいて構築され、それぞれが異なるインスタンスにリンクされ、機能マップを各レイヤからバックボーン内の次のレイヤに正確に洗練し、転送する。 このプロセスは、単一の画像内のさまざまなカテゴリの多様な改良を生み出す。 トレーニング可能なパラメータが少ないため、ReinはDGSSタスクのVFMを効率的に微調整する。 さまざまな設定にわたる大規模な実験は、Reinが最先端のメソッドを大幅に上回っていることを示している。 注目すべきは、凍結したバックボーン内のトレーニング可能なパラメータの1%に過ぎず、実際の都市シーンのデータセットにアクセスすることなく、シティスケープで68.1%のmIoUを達成することである。

In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 68.1% on the Cityscapes, without accessing any real urban-scene datasets.
翻訳日:2023-12-08 15:08:41 公開日:2023-12-07
# 改良型遺伝的ハイブリッド最適化アルゴリズムに基づく多農業機械協調タスク割り当て

Multi-agricultural Machinery Collaborative Task Assignment Based on Improved Genetic Hybrid Optimization Algorithm ( http://arxiv.org/abs/2312.04264v1 )

ライセンス: Link先を確認
Haohao Du(参考訳) 本研究では,大規模農業機械作業におけるスケジューリングの遅れ,手作業への依存度,作業効率の低下といった課題に対処するため,改良型遺伝的ハイブリッド最適化アルゴリズムを用いた多農業機械協調作業割当て手法を提案する。 提案手法は,シミュレーションアニーリングアルゴリズムの経路事前計画と遺伝的アルゴリズムの静的タスク割り当てを組み合わせることで,マルチ農業機械タスク割り当てモデルを確立する。 これら2つのアルゴリズムを逐次利用することで、それぞれの欠点を克服し、グローバル検索やローカル検索の利点を活用できる。 その結果、人口の探索能力が向上し、より最適な解が発見される。 Then, an adaptive crossover operator is constructed according to the task assignment model, considering the capacity, path cost, and time of agricultural machinery; two-segment coding and multi-population adaptive mutation are used to assign tasks to improve the diversity of the population and enhance the exploration ability of the population; and to improve the global optimisation ability of the hybrid algorithm, a 2-Opt local optimisation operator and an Circle modification algorithm are introduced. 最後にmatlabでシミュレーション実験を行い,改良型遺伝的ハイブリッドアルゴリズムを用いた多農業機械協調作業課題の性能評価を行った。 アルゴリズムの能力はシミュレーション実験における比較分析によって評価された。 その結果, ハイブリッドアルゴリズムは経路コストを効果的に削減でき, 代入結果の効率は従来の遺伝的アルゴリズムよりも優れていることがわかった。 このアプローチは特に大規模なタスク割り当て問題に対処するのに適している。

To address the challenges of delayed scheduling information, heavy reliance on manual labour, and low operational efficiency in traditional large-scale agricultural machinery operations, this study proposes a method for multi-agricultural machinery collaborative task assignment based on an improved genetic hybrid optimisation algorithm. The proposed method establishes a multi-agricultural machinery task allocation model by combining the path pre-planning of a simulated annealing algorithm and the static task allocation of a genetic algorithm. By sequentially fusing these two algorithms, their respective shortcomings can be overcome, and their advantages in global and local search can be utilised. Consequently, the search capability of the population is enhanced, leading to the discovery of more optimal solutions. Then, an adaptive crossover operator is constructed according to the task assignment model, considering the capacity, path cost, and time of agricultural machinery; two-segment coding and multi-population adaptive mutation are used to assign tasks to improve the diversity of the population and enhance the exploration ability of the population; and to improve the global optimisation ability of the hybrid algorithm, a 2-Opt local optimisation operator and an Circle modification algorithm are introduced. Finally, simulation experiments were conducted in MATLAB to evaluate the performance of the multi-agricultural machinery collaborative task assignment based on the improved genetic hybrid algorithm. The algorithm's capabilities were assessed through comparative analysis in the simulation trials. The results demonstrate that the developed hybrid algorithm can effectively reduce path costs, and the efficiency of the assignment outcomes surpasses that of the classical genetic algorithm. This approach proves particularly suitable for addressing large-scale task allocation problems.
翻訳日:2023-12-08 15:08:19 公開日:2023-12-07
# PsyChat:メンタルヘルス支援のためのクライアント中心対話システム

PsyChat: A Client-Centric Dialogue System for Mental Health Support ( http://arxiv.org/abs/2312.04262v1 )

ライセンス: Link先を確認
Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan(参考訳) 対話システムはますますメンタルヘルスサポートに統合され、顧客による探索の促進、洞察の獲得、行動の実施、そして最終的には自分自身の回復を支援する。 対話システムが実用的でユーザフレンドリーであるためには、クライアント中心であり、クライアントの振る舞いに焦点を当てるべきである。 しかし、メンタルヘルス支援のために公開されている既存の対話システムは、クライアントが表現する行動ではなく、カウンセラーの戦略にのみ集中することが多い。 これは、不適切なカウンセリング戦略や、対話システムからの応答の実装につながる可能性がある。 この問題に対処するために,オンラインチャットによる心理的サポートを提供するクライアント中心の対話システムであるPsyChatを提案する。 クライアント行動認識、カウンセラー戦略選択、入力パッカー、応答生成装置を意図的に微調整して応答を生成する、及び応答選択の5つのモジュールからなるクライアント中心対話システム。 自動評価と人的評価は,実生活におけるメンタルヘルス支援のための対話システムの有効性と実用性を示すものである。 さらに,提案する対話システムを用いて実世界のクライアントと仮想エージェントの対話シナリオをシミュレートする。 このシステムは、クライアントの振る舞いを予測し、適切なカウンセラー戦略を選択し、シナリオで示すように、正確で適切な応答を生成する。

Dialogue systems are increasingly integrated into mental health support to help clients facilitate exploration, gain insight, take action, and ultimately heal themselves. For a dialogue system to be practical and user-friendly, it should be client-centric, focusing on the client's behaviors. However, existing dialogue systems publicly available for mental health support often concentrate solely on the counselor's strategies rather than the behaviors expressed by clients. This can lead to the implementation of unreasonable or inappropriate counseling strategies and corresponding responses from the dialogue system. To address this issue, we propose PsyChat, a client-centric dialogue system that provides psychological support through online chat. The client-centric dialogue system comprises five modules: client behavior recognition, counselor strategy selection, input packer, response generator intentionally fine-tuned to produce responses, and response selection. Both automatic and human evaluations demonstrate the effectiveness and practicality of our proposed dialogue system for real-life mental health support. Furthermore, we employ our proposed dialogue system to simulate a real-world client-virtual-counselor interaction scenario. The system is capable of predicting the client's behaviors, selecting appropriate counselor strategies, and generating accurate and suitable responses, as demonstrated in the scenario.
翻訳日:2023-12-08 15:07:55 公開日:2023-12-07
# 有理数による解集合プログラミングの拡張

Extending Answer Set Programming with Rational Numbers ( http://arxiv.org/abs/2312.04249v1 )

ライセンス: Link先を確認
Francesco Pacenza and Jessica Zangari(参考訳) Answer Set Programming (ASP)は、複雑な計算問題を解く大きな可能性を示した宣言型プログラミングパラダイムである。 しかし、非整数演算をネイティブにサポートできないことは、実世界のアプリケーションにおける大きな欠点として強調されている。 この機能は、ビデオゲームキャラクタのスムーズな動き、メカニカルアームの3D動き、センサーによってストリームされるデータなど、さまざまな文脈で現れる現実世界のデータや情報を正確にモデル化し、管理するために重要である。 それでも、宣言的な性質と明確に定義されたセマンティクスに影響を与えることなく、この方向にASPを拡張することは、非整数ドメインとネイティブに推論できるASPシステムは存在しない。 実際、広範囲にわたる浮動小数点演算は、結果の再現性が保証されず、aspプログラムの意味が、使用機械や解法者に関係なく一意かつ宣言的に決定されないため、aspケースには適用できない。 このような制限を克服し、純粋なASPの領域において、非インテグレータを有理数に近似し、再現性と宣言性を完全に付与するASPの拡張を提案する。 有理数で拡張された asp-core-2 標準のよく定義された意味論とその実装を提供する。 この作業が、より広い範囲の現実世界の問題を扱うことができる、より表現力があり、多用途なasp言語への足場になることを期待しています。

Answer Set Programming (ASP) is a widely used declarative programming paradigm that has shown great potential in solving complex computational problems. However, the inability to natively support non-integer arithmetic has been highlighted as a major drawback in real-world applications. This feature is crucial to accurately model and manage real-world data and information as emerged in various contexts, such as the smooth movement of video game characters, the 3D movement of mechanical arms, and data streamed by sensors. Nevertheless, extending ASP in this direction, without affecting its declarative nature and its well-defined semantics, poses non-trivial challenges; thus, no ASP system is able to reason natively with non-integer domains. Indeed, the widespread floating-point arithmetic is not applicable to the ASP case, as the reproducibility of results cannot be guaranteed and the semantics of an ASP program would not be uniquely and declaratively determined, regardless of the employed machine or solver. To overcome such limitations and in the realm of pure ASP, this paper proposes an extension of ASP in which non-integers are approximated to rational numbers, fully granting reproducibility and declarativity. We provide a well-defined semantics for the ASP-Core-2 standard extended with rational numbers and an implementation thereof. We hope this work could serve as a stepping stone towards a more expressive and versatile ASP language that can handle a broader range of real-world problems.
翻訳日:2023-12-08 15:07:35 公開日:2023-12-07
# temo:マルチオブジェクトメッシュのためのテキスト駆動3dスタイライゼーションに向けて

TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes ( http://arxiv.org/abs/2312.04248v1 )

ライセンス: Link先を確認
Xuying Zhang and Bo-Wen Yin and Yuming Chen and Zheng Lin and Yunheng Li and Qibin Hou and Ming-Ming Cheng(参考訳) テキスト駆動による1つのオブジェクトの3Dスタイリングの最近の進歩は、CLIPベースの手法によって著しく促進されている。 しかし、マルチオブジェクトの3Dシーンのスタイリングは、CLIPの事前学習に使用される画像テキストペアが、主にオブジェクトで構成されていることを妨げている。 一方、複数のオブジェクトの局所的な詳細は、画像テキストペアの粗いコントラストに主に依存している既存の監督方法により、省略される可能性がある。 これらの課題を克服するために,マルチオブジェクト3dシーンを解析し,コントラスト監督下でスタイルを編集する,temoと呼ばれる新しいフレームワークを提案する。 まず,3次元曲面点の特徴を識別的に補強するデカップリンググラフアテンション(DGA)モジュールを提案する。 特に、3Dメッシュから切り離された名詞句とテキスト記述とを正確に整列するために、クロスモーダルグラフを構築する。 次に,テキスト記述中の単語とランダムにレンダリングされた画像との粒度の損失を,粗粒度損失を補うように構築するクロスグレードコントラスト(cgc)監督システムを開発する。 広範な実験により,高品質なスタイリゼーションコンテンツを合成し,既存の手法を広範囲のマルチオブジェクト3dメッシュに上回ることができることを示した。 私たちのコードと結果は公開されます

Recent progress in the text-driven 3D stylization of a single object has been considerably promoted by CLIP-based methods. However, the stylization of multi-object 3D scenes is still impeded in that the image-text pairs used for pre-training CLIP mostly consist of an object. Meanwhile, the local details of multiple objects may be susceptible to omission due to the existing supervision manner primarily relying on coarse-grained contrast of image-text pairs. To overcome these challenges, we present a novel framework, dubbed TeMO, to parse multi-object 3D scenes and edit their styles under the contrast supervision at multiple levels. We first propose a Decoupled Graph Attention (DGA) module to distinguishably reinforce the features of 3D surface points. Particularly, a cross-modal graph is constructed to align the object points accurately and noun phrases decoupled from the 3D mesh and textual description. Then, we develop a Cross-Grained Contrast (CGC) supervision system, where a fine-grained loss between the words in the textual description and the randomly rendered images are constructed to complement the coarse-grained loss. Extensive experiments show that our method can synthesize high-quality stylized content and outperform the existing methods over a wide range of multi-object 3D meshes. Our code and results will be made publicly available
翻訳日:2023-12-08 15:07:10 公開日:2023-12-07
# 注意に基づく動的グラフによる複雑コーディネーションのマスタリング

Mastering Complex Coordination through Attention-based Dynamic Graph ( http://arxiv.org/abs/2312.04245v1 )

ライセンス: Link先を確認
Guangchong Zhou, Zhiwei Xu, Zeren Zhang and Guoliang Fan(参考訳) マルチエージェントシステムにおけるエージェント間の協調は、多くの分野で一般的な話題となっている。 エージェント間の内部関係をキャッチするために、グラフ構造を既存のメソッドと組み合わせて結果を改善する。 しかし、多数のエージェントを持つ大規模タスクでは、過剰に複雑なグラフは計算コストの増大と性能の低下につながる。 本稿では,新しいグラフに基づく値分解法であるDAGMIXを提案する。 完全なグラフの代わりに、dagmixはトレーニング中の各時間ステップで動的グラフを生成し、アテンション機構を通じてより解釈可能で効果的なコンビネーションプロセスを実現する。 実験の結果、DAGMIXは大規模なシナリオにおいて従来のSOTAメソッドよりも大幅に優れており、他のタスクで有望な結果が得られることがわかった。

The coordination between agents in multi-agent systems has become a popular topic in many fields. To catch the inner relationship between agents, the graph structure is combined with existing methods and improves the results. But in large-scale tasks with numerous agents, an overly complex graph would lead to a boost in computational cost and a decline in performance. Here we present DAGMIX, a novel graph-based value factorization method. Instead of a complete graph, DAGMIX generates a dynamic graph at each time step during training, on which it realizes a more interpretable and effective combining process through the attention mechanism. Experiments show that DAGMIX significantly outperforms previous SOTA methods in large-scale scenarios, as well as achieving promising results on other tasks.
翻訳日:2023-12-08 15:06:48 公開日:2023-12-07
# フェルミオン量子論における一般テレポーテーションチャネル

General teleportation channel in Fermionic Quantum Theory ( http://arxiv.org/abs/2312.04240v1 )

ライセンス: Link先を確認
Sanam Khan, R. Jehadeesan, Sibasish Ghosh(参考訳) 量子テレポーテーションは、量子情報の転送に非常に有用なスキームである。 量子情報は識別可能な粒子の系の状態で符号化され、共有された二成分の絡み合い状態も識別可能な粒子の系であることを考えると、共有状態の最適なテレポーテーション忠実性は、共有状態の「最大一重項分数」である$(f_{max}d+1)/(d+1)$であることが知られている。 本研究は,伝送対象の量子情報がフェルミオンモードで符号化される一方で,フェルミオンモード(フェルミオンの最大2N$No.2の量子化言語)の2N$モード状態が送信側と受信側間で共有され,それぞれが2N$モードの2N$モードを有することを考えると,最適なテレポーテーション忠実性の問題に対処する。 フェルミオン量子理論(FQT)におけるパリティ選択規則(PSSR)は、許容される物理状態と演算の集合に制約を課し、量子テレポーテーションの異なる概念をもたらす。 PSSRにより、FQTの場合のユニタリ2-設計を構成する制限されたクリフォード・ツワール演算を導入し、フェルミオン不変状態の正準形式の構造が、標準量子論(SQT)におけるテレポーテーションの対応する正準不変形式である等方的状態と異なることを示す。 我々は、FQTの最適テレポーテーション忠実度を低くし、その結果をSQTのテレポーテーションと比較する。 驚くべきことに、二成分フェルミオン状態における分離可能な測定では、フェルミイオンテレポーテーションチャネルの入出力状態は、「最大一重項分数」が一元以下である特定の種類の資源状態であっても、操作的に区別できない。

Quantum Teleportation is a very useful scheme for transferring quantum information. Given that the quantum information is encoded in a state of a system of distinguishable particles, and given that the shared bi-partite entangled state is also that of a system of distinguishable particles, the optimal teleportation fidelity of the shared state is known to be $(F_{max}d+1)/(d+1)$ with $F_{max}$ being the `maximal singlet fraction' of the shared state. In the present work, we address the question of optimal teleportation fidelity given that the quantum information to be teleported is encoded in Fermionic modes while a $2N$-mode state of a system of Fermions (with maximum $2N$ no. of Fermions -- in the second quantization language) is shared between the sender and receiver with each party possessing $N$ modes of the $2N$-mode state. Parity Superselection Rule (PSSR) in Fermionic Quantum Theory (FQT) puts constraint on the allowed set of physical states and operations, and thereby, leads to a different notion of Quantum Teleportation. Due to PSSR, we introduce restricted Clifford twirl operations that constitute the Unitary 2-design in case of FQT, and show that the structure of the canonical form of Fermionic invariant shared state differs from that of the isotropic state -- the corresponding canonical invariant form for teleportation in Standard Quantum Theory (SQT). We provide a lower bound on the optimal teleportation fidelity in FQT and compare the result with teleportation in SQT. Surprisingly, we find that, under separable measurements on a bipartite Fermionic state, input and output states of the Fermionic teleportation channel cannot be distinguished operationally, even if a particular kind of resource state with `maximal singlet fraction' being less than unity is used.
翻訳日:2023-12-08 15:06:36 公開日:2023-12-07
# パラメトリズド量子回路を用いた長寿命粒子異常検出

Long-lived Particles Anomaly Detection with Parametrized Quantum Circuits ( http://arxiv.org/abs/2312.04238v1 )

ライセンス: Link先を確認
Simone Bordoni, Denis Stanev, Tommaso Santantonio, Stefano Giagu(参考訳) 本研究では,量子機械学習をデータ解析に応用する可能性,特に高エネルギー物理学における興味深いユースケースについて検討する。 パラメタライズド量子回路に基づく異常検出アルゴリズムを提案する。 このアルゴリズムは古典的なコンピュータで訓練され、シミュレーションや実際の量子ハードウェアでテストされている。 NISQデバイスでの試験はIBMの量子コンピュータで行われている。 量子ハードウェアでの実行のために、ハードウェア駆動適応が考案され、実装されている。 量子異常検出アルゴリズムは、手書き桁の異なる文字のような単純な異常や、コライダー実験で生成された長寿命粒子の崩壊生成物によって生成された粒子検出器の異常パターンのようなより複雑な構造を検出することができる。 高エネルギー物理応用の場合、量子回路は利用可能な量子ハードウェア上で実行されるほど単純ではないため、シミュレーションでのみ性能が推定される。 本研究は,量子アルゴリズムによる異常検出が可能であることを示すものであるが,量子ハードウェアのノイズレベルが原因で,古典データの振幅エンコーディングが要求されるため,ディープニューラルネットワークに基づく古典的異常検出アルゴリズムよりも優れた実装が得られない。

We investigate the possibility to apply quantum machine learning techniques for data analysis, with particular regard to an interesting use-case in high-energy physics. We propose an anomaly detection algorithm based on a parametrized quantum circuit. This algorithm has been trained on a classical computer and tested with simulations as well as on real quantum hardware. Tests on NISQ devices have been performed with IBM quantum computers. For the execution on quantum hardware specific hardware driven adaptations have been devised and implemented. The quantum anomaly detection algorithm is able to detect simple anomalies like different characters in handwritten digits as well as more complex structures like anomalous patterns in the particle detectors produced by the decay products of long-lived particles produced at a collider experiment. For the high-energy physics application, performance is estimated in simulation only, as the quantum circuit is not simple enough to be executed on the available quantum hardware. This work demonstrates that it is possible to perform anomaly detection with quantum algorithms, however, as amplitude encoding of classical data is required for the task, due to the noise level in the available quantum hardware, current implementation cannot outperform classic anomaly detection algorithms based on deep neural networks.
翻訳日:2023-12-08 15:05:51 公開日:2023-12-07
# 安定拡散画像における非定常手の検出と復元

Detecting and Restoring Non-Standard Hands in Stable Diffusion Generated Images ( http://arxiv.org/abs/2312.04236v1 )

ライセンス: Link先を確認
Yiqun Zhang, Zhenyue Qin, Yang Liu, Dylan Campbell(参考訳) 安定拡散画像における解剖学的不正確性に対処するパイプラインを提案する。 最初のステップは、モデルを効果的にトレーニングするために、手動異常に焦点を当てた特別なデータセットを構築することです。 微調整検出モデルは、これらの異常を正確に識別するために重要であり、ターゲットの修正を保証する。 身体ポーズ推定は、正確な異常修正に不可欠な手振りと位置の理解を助ける。 ControlNetとInstructPix2Pixの統合は、それぞれ高度なインペイントとピクセルレベルの変換を容易にする。 この2重アプローチは高精細な画像調整を可能にする。 この包括的なアプローチにより、解剖学的に正確な手による画像の生成が保証される。 実験の結果,安定拡散出力のハンドイメージリアリズム向上におけるパイプラインの有効性が実証された。 私たちはhttps://fixhand.yiqun.ioでオンラインデモを行っています。

We introduce a pipeline to address anatomical inaccuracies in Stable Diffusion generated hand images. The initial step involves constructing a specialized dataset, focusing on hand anomalies, to train our models effectively. A finetuned detection model is pivotal for precise identification of these anomalies, ensuring targeted correction. Body pose estimation aids in understanding hand orientation and positioning, crucial for accurate anomaly correction. The integration of ControlNet and InstructPix2Pix facilitates sophisticated inpainting and pixel-level transformation, respectively. This dual approach allows for high-fidelity image adjustments. This comprehensive approach ensures the generation of images with anatomically accurate hands, closely resembling real-world appearances. Our experimental results demonstrate the pipeline's efficacy in enhancing hand image realism in Stable Diffusion outputs. We provide an online demo at https://fixhand.yiqun.io
翻訳日:2023-12-08 15:05:33 公開日:2023-12-07
# グラフ畳み込みはトランスフォーマーの自己意識を豊かにする!

Graph Convolutions Enrich the Self-Attention in Transformers! ( http://arxiv.org/abs/2312.04234v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Hyowon Wi, Jayoung Kim, Yehjin Shin, Kookjin Lee, Nathaniel Trask, Noseong Park(参考訳) トランスフォーマーは自己認識機構で知られており、自然言語処理、コンピュータビジョン、時系列モデリングなど様々なタスクで最先端のパフォーマンスを実現している。 しかし、Deep Transformerモデルの課題の1つは、レイヤ間の表現が区別できない値に収束し、パフォーマンスが著しく低下するという過度な問題である。 従来の自己着脱を単純なグラフフィルタとして解釈し,グラフ信号処理(gsp)の観点から再設計する。 本稿では,グラフフィルタに基づく自己注意(GFSA)を用いて,従来の自己注意機構よりも複雑性が若干大きい汎用的かつ効果的な自己意識学習法を提案する。 GFSAは,コンピュータビジョン,自然言語処理,グラフパターン分類,音声認識,コード分類など,様々な分野におけるトランスフォーマーの性能向上を実証する。

Transformers, renowned for their self-attention mechanism, have achieved state-of-the-art performance across various tasks in natural language processing, computer vision, time-series modeling, etc. However, one of the challenges with deep Transformer models is the oversmoothing problem, where representations across layers converge to indistinguishable values, leading to significant performance degradation. We interpret the original self-attention as a simple graph filter and redesign it from a graph signal processing (GSP) perspective. We propose graph-filter-based self-attention (GFSA) to learn a general yet effective one, whose complexity, however, is slightly larger than that of the original self-attention mechanism. We demonstrate that GFSA improves the performance of Transformers in various fields, including computer vision, natural language processing, graph pattern classification, speech recognition, and code classification.
翻訳日:2023-12-08 15:05:20 公開日:2023-12-07
# 土木構造物におけるき裂分断の微視的基礎モデル

Fine-tune vision foundation model for crack segmentation in civil infrastructures ( http://arxiv.org/abs/2312.04233v1 )

ライセンス: Link先を確認
Kang Ge and Chen Wang and Yutao Guo(参考訳) 大規模基盤モデルはディープラーニングの分野で主流の手法となっているが、土木工学ではAIモデルの規模は厳しく制限されている。 本研究では, ひび割れ分断のための視覚基礎モデルを提案する。 セマンティックセグメンテーションの分野で基礎モデルを微調整するために,2つのパラメータ効率の良い微調整手法,アダプタと低ランク適応が採用された。 微調整されたモデルcracksamは、既存の全てのクラックセグメンテーションモデルよりもはるかに大きいが、優れた性能を示している。 提案手法のゼロショット性能をテストするために,道路および外壁のひび割れに関連する2つのユニークなデータセットを合計810画像にアノテートし,オープンソース化した。 12の成熟したセマンティクスセグメンテーションモデルを用いて比較実験を行った。 人工ノイズのあるデータセットや、以前は目に見えないデータセットでは、CrackSAMのパフォーマンスは、すべての最先端モデルのデータセットをはるかに上回っている。 CrackSAMは、特に薄暗い照明、影、道路標識、建設継手、その他の干渉要因などの困難な条件において、顕著な優位性を示す。 このようなクロスシナリオの結果は、基礎モデルの卓越したゼロショット能力を示し、土木工学におけるビジョンモデル開発のための新しいアイデアを提供する。

Large-scale foundation models have become the mainstream method in the field of deep learning, while in civil engineering, the scale of AI models is strictly limited. In this work, vision foundation model is introduced for crack segmentation. Two Parameter-efficient fine-tuning methods, adapter and low-rank adaptation, are adopted to fine-tune the foundation model in the field of semantic segmentation: Segment Anything Model (SAM). The fine-tuned model CrackSAM is much larger than all the existing crack segmentation models, but shows excellent performance. To test the zero-shot performance of the proposed method, two unique datasets related to road and exterior wall cracks are collected, annotated and open-sourced, in total 810 images. Comparative experiments are conducted with twelve mature semantic segmentation models. On datasets with artificial noise and previously unseen datasets, the performance of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits remarkable superiority, particularly in challenging conditions such as dim lighting, shadows, road markings, construction joints, and other interference factors. Such cross-scenario results demonstrate the outstanding zero-shot capability of foundation models, and provide new ideas for the development of vision models in civil engineering.
翻訳日:2023-12-08 15:05:04 公開日:2023-12-07
# 信頼できる視覚言語モデルの冒険:調査

Adventures of Trustworthy Vision-Language Models: A Survey ( http://arxiv.org/abs/2312.04231v1 )

ライセンス: Link先を確認
Mayank Vatsa, Anubhooti Jain, Richa Singh(参考訳) 近年,コンピュータビジョンや視覚言語タスクにおいて,トランスフォーマーは非常に人気がある。 この顕著な普及は、主に注意機構によって提供される能力と、トランスフォーマーが様々なタスクやドメインに適応して適用できる優れた能力に起因している。 それらの汎用性と最先端のパフォーマンスは、幅広いアプリケーションに欠かせないツールとして確立しています。 しかし、常に変化する機械学習の世界では、トランスフォーマーの信頼性の保証が最も重要である。 本稿では,責任あるaiの3つの基本原理(バイアス,ロバスト性,解釈性)を用いて,視覚言語トランスフォーマーを徹底的に検討する。 本研究の主な目的は, トランスフォーマーの実用化に伴う複雑さと複雑さを掘り下げることであり, 信頼性と説明責任を高める方法の理解を深めることである。

Recently, transformers have become incredibly popular in computer vision and vision-language tasks. This notable rise in their usage can be primarily attributed to the capabilities offered by attention mechanisms and the outstanding ability of transformers to adapt and apply themselves to a variety of tasks and domains. Their versatility and state-of-the-art performance have established them as indispensable tools for a wide array of applications. However, in the constantly changing landscape of machine learning, the assurance of the trustworthiness of transformers holds utmost importance. This paper conducts a thorough examination of vision-language transformers, employing three fundamental principles of responsible AI: Bias, Robustness, and Interpretability. The primary objective of this paper is to delve into the intricacies and complexities associated with the practical use of transformers, with the overarching goal of advancing our comprehension of how to enhance their reliability and accountability.
翻訳日:2023-12-08 15:04:43 公開日:2023-12-07
# 分子シミュレーションのための資源効率の良い量子回路:アンモニア中のUmbrellaインバージョンを例に

Resource-Efficient Quantum Circuits for Molecular Simulations: A Case Study of Umbrella Inversion in Ammonia ( http://arxiv.org/abs/2312.04230v1 )

ライセンス: Link先を確認
M.R. Nirmal, Sharma S. R. K. C. Yamijala, Kalpak Ghosh, Sumit Kumar, Manoj Nambiar(参考訳) 本研究では,量子コンピュータ上のシステムの基底状態波動関数,特に変分量子固有解法(VQE)の枠組みを用いて,様々な最先端戦略の徹底的な評価を行った。 VQEとその変異の利点にもかかわらず、現在の量子計算化学計算は、主に量子回路の深さの多項式成長とCNOTゲートのような2ビットゲートの数によって、より大きな分子に対して不正確な結果をもたらすことが多い。 この問題を軽減するため、我々は現在の雑音量子デバイスにおいて既存の回路よりも優れた効率の量子回路を設計することを目指している。 本研究では, 化学精度に近い基底状態エネルギーの精度を維持しつつ, 必要な回路深さと2量子ビット絡みゲート数を約60%削減する新しい量子回路を設計した。 さらに、デバイスノイズの存在下においても、これらの新しい浅い回路は、分子の基底状態エネルギーを予測する既存のアプローチよりもかなり低い誤差率を得た。 アンモニア分子の逆変換過程を例として検討し, この手法の利点を実証し, 逆変換過程におけるエネルギー障壁を推定した。

We conducted a thorough evaluation of various state-of-the-art strategies to prepare the ground state wavefunction of a system on a quantum computer, specifically within the framework of variational quantum eigensolver (VQE). Despite the advantages of VQE and its variants, the current quantum computational chemistry calculations often provide inaccurate results for larger molecules, mainly due to the polynomial growth in the depth of quantum circuits and the number of two-qubit gates, such as CNOT gates. To alleviate this problem, we aim to design efficient quantum circuits that would outperform the existing ones on the current noisy quantum devices. In this study, we designed a novel quantum circuit that reduces the required circuit depth and number of two-qubit entangling gates by about 60%, while retaining the accuracy of the ground state energies close to the chemical accuracy. Moreover, even in the presence of device noise, these novel shallower circuits yielded substantially low error rates than the existing approaches for predicting the ground state energies of molecules. By considering the umbrella inversion process in ammonia molecule as an example, we demonstrated the advantages of this new approach and estimated the energy barrier for the inversion process.
翻訳日:2023-12-08 15:04:30 公開日:2023-12-07
# ブロックチェーンシステムのための動的データ駆動ディジタルツイン

Dynamic Data-Driven Digital Twins for Blockchain Systems ( http://arxiv.org/abs/2312.04226v1 )

ライセンス: Link先を確認
Georgios Diamantopoulos, Nikos Tziritas, Rami Bahsoon and Georgios Theodoropoulos(参考訳) 近年では、非金融アプリケーションにおけるブロックチェーンベースのシステムの採用が増加しており、テクノロジーが提供すべきことの恩恵を享受しています。 多くの分野がブロックチェーンをコア機能に組み込んでいるが、一般的にブロックチェーンの採用は、分散化、スケーラビリティ、セキュリティのいわゆるトリレンマトレードオフによって制約されている。 これまでの研究で、ディジタルツインを使用して実行中にブロックチェーンシステムを動的に管理することは、トリレンマトレードオフの管理に有効であることを示した。 私たちのデジタル双子はdddasフィードバックループを利用して、システムからデジタル双子にデータを取得し、最適化を行い、物理システムを更新します。 本稿では,強化学習エージェントの恩恵を受けるトリレンマの最適化コンポーネントと,学習モデルの品質向上のためのシミュレーションコンポーネントをdddasフィードバックループを活用することで,意思決定に必要な計算オーバーヘッドを低減できることを示す。

In recent years, we have seen an increase in the adoption of blockchain-based systems in non-financial applications, looking to benefit from what the technology has to offer. Although many fields have managed to include blockchain in their core functionalities, the adoption of blockchain, in general, is constrained by the so-called trilemma trade-off between decentralization, scalability, and security. In our previous work, we have shown that using a digital twin for dynamically managing blockchain systems during runtime can be effective in managing the trilemma trade-off. Our Digital Twin leverages DDDAS feedback loop, which is responsible for getting the data from the system to the digital twin, conducting optimisation, and updating the physical system. This paper examines how leveraging DDDAS feedback loop can support the optimisation component of the trilemma benefiting from Reinforcement Learning agents and a simulation component to augment the quality of the learned model while reducing the computational overhead required for decision-making.
翻訳日:2023-12-08 15:04:10 公開日:2023-12-07
# TLCE:Few-Shot Class-Incremental Learningのためのトランスファーラーニングに基づく分類法

TLCE: Transfer-Learning Based Classifier Ensembles for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2312.04225v1 )

ライセンス: Link先を確認
Shuangmei Wang, Yang Cao, Tieru Wu(参考訳) 少数ショットのクラスインクリメンタルラーニング(fscil)は、古いクラスを忘れたり、新しいクラスに過度に当てはまることなく、少数の例から新しいクラスを段階的に認識するのに苦労している。 本稿では,新しいクラスと古いクラスの分離を改善するために,複数の事前学習モデルを統合するTLCEを提案する。 TLCEは、古いクラスイメージをエピソードトレーニングを用いて準直交プロトタイプにマッピングすることで、古いクラスと新しいクラスの干渉を最小限に抑える。 そして、データ不均衡にもかかわらず新しいクラスに適応するために、様々な事前訓練されたモデルをアンサンブルする。 様々なデータセットに対する大規模な実験により、我々の移動学習アンサンブルアプローチは最先端のFSCIL法より優れていることが示された。

Few-shot class-incremental learning (FSCIL) struggles to incrementally recognize novel classes from few examples without catastrophic forgetting of old classes or overfitting to new classes. We propose TLCE, which ensembles multiple pre-trained models to improve separation of novel and old classes. TLCE minimizes interference between old and new classes by mapping old class images to quasi-orthogonal prototypes using episodic training. It then ensembles diverse pre-trained models to better adapt to novel classes despite data imbalance. Extensive experiments on various datasets demonstrate that our transfer learning ensemble approach outperforms state-of-the-art FSCIL methods.
翻訳日:2023-12-08 15:03:52 公開日:2023-12-07
# マルコフデータを用いた確率制約付き確率最適化

Stochastic-Constrained Stochastic Optimization with Markovian Data ( http://arxiv.org/abs/2312.04312v1 )

ライセンス: Link先を確認
Yeongjong Kim, Dabeen Lee(参考訳) 本稿では,確率的制約がランダム関数の期待値が一定のしきい値以下であることを示す確率的拘束型確率的最適化を考える。 特に,マルコフ連鎖からデータサンプルを抽出し,独立性を持たず,同一に分布する環境について検討する。 我々は,i.i.d.ケース用に開発された初回-双次確率勾配法であるドリフト-プラス-ペナルティフレームワークをマルコフ連鎖サンプリング設定に一般化する。 我々はドリフトプラスペナルティの2つの変種を提案する。1つはマルコフ鎖の混合時間が知られ、もう1つは未知の混合時間の場合である。 実際、我々のアルゴリズムは制約付きオンライン凸最適化のより一般的な設定に適用され、制約関数の列はマルコフ連鎖に従う。 どちらのアルゴリズムも適応的であり、第1のアルゴリズムは時間軸の知識なしに動作し、第2のアルゴリズムはAdaGradスタイルのアルゴリズムパラメータを使用する。 フェアネス制約付き分類における数値実験により提案手法の有効性を実証する。

This paper considers stochastic-constrained stochastic optimization where the stochastic constraint is to satisfy that the expectation of a random function is below a certain threshold. In particular, we study the setting where data samples are drawn from a Markov chain and thus are not independent and identically distributed. We generalize the drift-plus-penalty framework, a primal-dual stochastic gradient method developed for the i.i.d. case, to the Markov chain sampling setting. We propose two variants of drift-plus-penalty; one is for the case when the mixing time of the underlying Markov chain is known while the other is for the case of unknown mixing time. In fact, our algorithms apply to a more general setting of constrained online convex optimization where the sequence of constraint functions follows a Markov chain. Both algorithms are adaptive in that the first works without knowledge of the time horizon while the second uses AdaGrad-style algorithm parameters, which is of independent interest. We demonstrate the effectiveness of our proposed methods through numerical experiments on classification with fairness constraints.
翻訳日:2023-12-08 14:57:20 公開日:2023-12-07
# 効率的なニューラルサーチによる解釈可能なクラス特化パターンの探索

Finding Interpretable Class-Specific Patterns through Efficient Neural Search ( http://arxiv.org/abs/2312.04311v1 )

ライセンス: Link先を確認
Nils Philipp Walter, Jonas Fischer, Jilles Vreeken(参考訳) クラス間の差異を最もよく記述するデータ内のパターンの発見は、クラス固有のメカニズムの仮説と推論を可能にする。 例えば分子生物学では、組織や疾患によって異なる細胞過程の理解を前進させ、新たな治療につながる可能性がある。 実際には、そのような微分パターンを見つける問題に取り組む方法は、ドメインの専門家によって容易に解釈でき、非常に高次元のデータにスケーラブルでなければならない。 本研究では,データから微分パターンを抽出する新しい,本質的に解釈可能なバイナリニューラルネットワークアーキテクチャdiffnapを提案する。 DiffNapsは何十万もの機能にスケーラブルで、ノイズに強いため、生物学のような大規模アプリケーションにおける最先端の手法の限界を克服できる。 3つの生物学的応用を含む人工的および現実世界のデータについて、DiffNapsは競合と異なり、常に正確で簡潔で解釈可能なクラス記述を生成する。

Discovering patterns in data that best describe the differences between classes allows to hypothesize and reason about class-specific mechanisms. In molecular biology, for example, this bears promise of advancing the understanding of cellular processes differing between tissues or diseases, which could lead to novel treatments. To be useful in practice, methods that tackle the problem of finding such differential patterns have to be readily interpretable by domain experts, and scalable to the extremely high-dimensional data. In this work, we propose a novel, inherently interpretable binary neural network architecture DIFFNAPS that extracts differential patterns from data. DiffNaps is scalable to hundreds of thousands of features and robust to noise, thus overcoming the limitations of current state-of-the-art methods in large-scale applications such as in biology. We show on synthetic and real world data, including three biological applications, that, unlike its competitors, DiffNaps consistently yields accurate, succinct, and interpretable class descriptions
翻訳日:2023-12-08 14:57:01 公開日:2023-12-07
# グラフニューラルネットワークのための構造クラスタリングに基づくアクティブラーニング

A Structural-Clustering Based Active Learning for Graph Neural Networks ( http://arxiv.org/abs/2312.04307v1 )

ライセンス: Link先を確認
Ricky Maulana Fajri, Yulong Pei, Lu Yin, and Mykola Pechenizkiy(参考訳) グラフ構造化データのアクティブラーニングでは、グラフニューラルネットワーク(gnn)が有効性を示している。 しかし、これらの応用における共通の課題は、重要な構造情報の未利用である。 そこで本稿では,グラフ構造化データに特化して設計されたSPA(Structure-Clustering PageRank method)を提案する。 SPAは,SCANアルゴリズムを用いたコミュニティ検出とPageRankスコアリング手法を統合し,効率的かつ有益なサンプル選択を行う。 SPAは情報だけでなく、構造の中心でもあるノードを優先する。 広範な実験を通じて、SPAは様々なアノテーション予算にまたがる既存のメソッドよりも高い精度とマクロF1スコアを示し、クエリ時間を大幅に短縮する。 さらに,提案手法は,構造学習とノード選択のバランスを微調整するアルゴリズムにおいて,2つのハイパーパラメータ,$\epsilon$と$\mu$のみを付加する。 この単純さは、広範囲なハイパーパラメータチューニングが現実的でない、アクティブな学習シナリオにおいて重要な利点である。

In active learning for graph-structured data, Graph Neural Networks (GNNs) have shown effectiveness. However, a common challenge in these applications is the underutilization of crucial structural information. To address this problem, we propose the Structural-Clustering PageRank method for improved Active learning (SPA) specifically designed for graph-structured data. SPA integrates community detection using the SCAN algorithm with the PageRank scoring method for efficient and informative sample selection. SPA prioritizes nodes that are not only informative but also central in structure. Through extensive experiments, SPA demonstrates higher accuracy and macro-F1 score over existing methods across different annotation budgets and achieves significant reductions in query time. In addition, the proposed method only adds two hyperparameters, $\epsilon$ and $\mu$ in the algorithm to finely tune the balance between structural learning and node selection. This simplicity is a key advantage in active learning scenarios, where extensive hyperparameter tuning is often impractical.
翻訳日:2023-12-08 14:56:45 公開日:2023-12-07
# nerblackbox: Pythonで名前付きエンティティ認識のための高レベルライブラリ

nerblackbox: A High-level Library for Named Entity Recognition in Python ( http://arxiv.org/abs/2312.04306v1 )

ライセンス: Link先を確認
Felix Stollenwerk(参考訳) 我々は、名前付きエンティティ認識のための最先端トランスフォーマーモデルの使用を容易にするピソンライブラリであるnerblackboxを提案する。 汎用的なモデル推論だけでなく、完全に自動化されたモデルトレーニングと評価のために、さまざまなソースからデータやモデルにアクセスするための、シンプルで強力な方法を提供する。 多くの技術的課題がデフォルトで解決され、ユーザから隠蔽される一方で、nerblackboxはきめ細かいコントロールと豊富なカスタマイズ可能な機能も提供する。 そのため、アプリケーション指向の開発者と、マシンラーニングの専門家と研究者の両方を対象としている。

We present nerblackbox, a python library to facilitate the use of state-of-the-art transformer-based models for named entity recognition. It provides simple-to-use yet powerful methods to access data and models from a wide range of sources, for fully automated model training and evaluation as well as versatile model inference. While many technical challenges are solved and hidden from the user by default, nerblackbox also offers fine-grained control and a rich set of customizable features. It is thus targeted both at application-oriented developers as well as machine learning experts and researchers.
翻訳日:2023-12-08 14:56:29 公開日:2023-12-07
# Prompt Highlighter:マルチモードLCMのインタラクティブ制御

Prompt Highlighter: Interactive Control for Multi-Modal LLMs ( http://arxiv.org/abs/2312.04302v1 )

ライセンス: Link先を確認
Yuechen Zhang, Shengju Qian, Bohao Peng, Shu Liu, Jiaya Jia(参考訳) 本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。 マルチモーダルllmは、セマンティクス生成の能力を持つマルチモダリティ理解を可能にするが、自己回帰的な生成性のため、説明可能性や迅速なコンテンツへの依存度は低下する。 プロンプトフォーマットを操作することでアウトプットを改善することができるが、タスクごとに特定のプロンプトを設計することは困難で非効率である。 この問題に対処するために,ユーザが特定のプロンプトスパンをハイライトして,生成中のフォーカスをインタラクティブに制御できる,新しい推論手法であるpromise highlighterを提案する。 分類器フリー拡散誘導により強調されたトークンに基づいて正規および無条件のコンテキストペアを形成し、モデルにおける自己回帰生成を分類器フリーでガイドできることを実証する。 特に、推論の間、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。 我々のアプローチは現在のLLMやVLMと互換性があり、トレーニングなしで優れたカスタマイズされた生成結果が得られる。 実験は、入力コンテキストに焦点をあて、信頼できるコンテンツを生成することの有効性を確認する。 LLaVA-v1.5をチューニングせずにMMBench試験で69.5, MME知覚で1552.5を確保した。 コードは、https://github.com/dvlab-research/Prompt-Highlighter/で入手できる。

This study targets a critical aspect of multi-modal LLMs' (LLMs&VLMs) inference: explicit controllable text generation. Multi-modal LLMs empower multi-modality understanding with the capability of semantic generation yet bring less explainability and heavier reliance on prompt contents due to their autoregressive generative nature. While manipulating prompt formats could improve outputs, designing specific and precise prompts per task can be challenging and ineffective. To tackle this issue, we introduce a novel inference method, Prompt Highlighter, which enables users to highlight specific prompt spans to interactively control the focus during generation. Motivated by the classifier-free diffusion guidance, we form regular and unconditional context pairs based on highlighted tokens, demonstrating that the autoregressive generation in models can be guided in a classifier-free way. Notably, we find that, during inference, guiding the models with highlighted tokens through the attention weights leads to more desired outputs. Our approach is compatible with current LLMs and VLMs, achieving impressive customized generation results without training. Experiments confirm its effectiveness in focusing on input contexts and generating reliable content. Without tuning on LLaVA-v1.5, our method secured 69.5 in the MMBench test and 1552.5 in MME-perception. The code is available at: https://github.com/dvlab-research/Prompt-Highlighter/
翻訳日:2023-12-08 14:56:21 公開日:2023-12-07
# 非対称二重ウェル電位における振動ポラリトンを用いたコヒーレント状態切替

Coherent state switching using vibrational polaritons in an asymmetric double-well potential ( http://arxiv.org/abs/2312.04298v1 )

ライセンス: Link先を確認
Lo\"ise Attal, Florent Calvo, Cyril Falvo, Pascal Parneix(参考訳) 二安定分子とファブリペロ微小キャビティの量子化モードとの相互作用から生じる振動分極状態の量子力学を,反応分子の簡易な1次元モデルとして非対称二重井戸ポテンシャルを用いて検討した。 ポーラトニック状態間の交叉回避現象の出現における光物質結合強度の役割を議論した後, これらの交叉を用いて, これらの状態の動的切替を誘発する可能性について検討した。 このコヒーレント状態切替を実現するための2つのスキームが提案され、キャビティに挿入する前に適切な振動励起状態に分子を調製するか、キャビティ内に短いレーザーパルスを印加して偏光状態のコヒーレント重ね合わせを得る。 双極子振幅と電位非対称性がコヒーレントスイッチング過程に及ぼす影響についても論じる。

The quantum dynamics of vibrational polaritonic states arising from the interaction of a bistable molecule with the quantized mode of a Fabry-Perot microcavity is investigated using an asymmetric double-well potential as a simplified one-dimensional model of a reactive molecule. After discussing the role of the light-matter coupling strength in the emergence of avoided crossings between polaritonic states, we investigate the possibility of using these crossings in order to trigger a dynamical switching of these states from one potential well to the other. Two schemes are proposed to achieve this coherent state switching, either by preparing the molecule in an appropriate vibrational excited state before inserting it into the cavity, or by applying a short laser pulse inside the cavity to obtain a coherent superposition of polaritonic states. The respective influences of the dipole amplitude and potential asymmetry on the coherent switching process are also discussed.
翻訳日:2023-12-08 14:55:55 公開日:2023-12-07
# 中世写本における信頼度評価のためのクロスコーデックス学習

Cross-codex Learning for Reliable Scribe Identification in Medieval Manuscripts ( http://arxiv.org/abs/2312.04296v1 )

ライセンス: Link先を確認
Julius Wei{\ss}mann, Markus Seidl, Anya Dietrich, Martin Haltrich(参考訳) 歴史書の識別は過去の情報を得るための重要なタスクである。 カロリング小文字のような統一的なスクリプトスタイルは、意味のある特徴に焦点を合わせるのが難しいタスクである。 そこで本論文では,cnnに基づくテキスト非依存の文節文字識別におけるクロスコーデックス学習データの重要性を実証する。 まず,RGB画像の代わりにマスク付きグレースケール画像を用いた前処理により,分類結果のF1スコアが明らかに増加した。 第2に、信頼性の高いネットワークアーキテクチャを定義するために、複雑なデータに基づいて異なるニューラルネットワークをトレーニングし、時間と精度の違いを検証する。 f1-scoreとtimeの最良のトレードオフを持つネットワークであるalexnetでは、個々のクラスf1-scoreがラインレベルでは0,96、ページレベルでは1.0になった。 第3に、リジェクションオプションを実装することで、CNN出力がさらに改善され、より安定した結果が得られます。 私たちは、大規模なオープンソースデータセットであるCodex Claustroneoburgensisデータベース(CCl-DB)に、いくつかのコーディックで異なるスクリプティングからの大量の書き込みを含む結果を提示します。 我々は,cnnを用いて,古図決定を自動的かつ正確に再現できるような,多種多様なコーディックを持つデータセット上で,初めて実証する。 これにより、古生物学者が未ラベルの材料についての洞察を得るだけでなく、さらなる仮説を発展させることが可能となる。

Historic scribe identification is a substantial task for obtaining information about the past. Uniform script styles, such as the Carolingian minuscule, make it a difficult task for classification to focus on meaningful features. Therefore, we demonstrate in this paper the importance of cross-codex training data for CNN based text-independent off-line scribe identification, to overcome codex dependent overfitting. We report three main findings: First, we found that preprocessing with masked grayscale images instead of RGB images clearly increased the F1-score of the classification results. Second, we trained different neural networks on our complex data, validating time and accuracy differences in order to define the most reliable network architecture. With AlexNet, the network with the best trade-off between F1-score and time, we achieved for individual classes F1-scores of up to 0,96 on line level and up to 1.0 on page level in classification. Third, we could replicate the finding that the CNN output can be further improved by implementing a reject option, giving more stable results. We present the results on our large scale open source dataset -- the Codex Claustroneoburgensis database (CCl-DB) -- containing a significant number of writings from different scribes in several codices. We demonstrate for the first time on a dataset with such a variety of codices that paleographic decisions can be reproduced automatically and precisely with CNNs. This gives manifold new and fast possibilities for paleographers to gain insights into unlabeled material, but also to develop further hypotheses.
翻訳日:2023-12-08 14:55:37 公開日:2023-12-07
# GPT-4V:マルチモーダル感情理解のためのゼロショットベンチマーク

GPT-4V with Emotion: A Zero-shot Benchmark for Multimodal Emotion Understanding ( http://arxiv.org/abs/2312.04293v1 )

ライセンス: Link先を確認
Zheng Lian, Licai Sun, Haiyang Sun, Kang Chen, Zhuofan Wen, Hao Gu, Shun Chen, Bin Liu, Jianhua Tao(参考訳) 近年, GPT-4 with Vision (GPT-4V) は様々なマルチモーダルタスクにおいて顕著な性能を示した。 しかし、感情認識における効果は疑問視されている。 本稿では,マルチモーダル感情理解におけるGPT-4Vの能力を定量的に評価し,顔の感情認識,視覚的感情分析,マイクロ圧縮認識,動的表情認識,マルチモーダル感情認識などのタスクを包含する。 実験の結果,gpt-4vは有意なマルチモーダル・テンポラリ理解能力を示し,一部のタスクでは教師付きシステムを超えていることがわかった。 これらの成果にもかかわらず、GPT-4Vは現在一般ドメイン向けに調整されている。 専門的な専門知識を必要とするマイクロ表現認識が不十分である。 本研究の目的は,感情理解に関するgpt-4vの定量的評価と,今後の研究のためのゼロショットベンチマークの確立である。 コードと評価結果は以下の通りである。

Recently, GPT-4 with Vision (GPT-4V) has shown remarkable performance across various multimodal tasks. However, its efficacy in emotion recognition remains a question. This paper quantitatively evaluates GPT-4V's capabilities in multimodal emotion understanding, encompassing tasks such as facial emotion recognition, visual sentiment analysis, micro-expression recognition, dynamic facial emotion recognition, and multimodal emotion recognition. Our experiments show that GPT-4V exhibits impressive multimodal and temporal understanding capabilities, even surpassing supervised systems in some tasks. Despite these achievements, GPT-4V is currently tailored for general domains. It performs poorly in micro-expression recognition that requires specialized expertise. The main purpose of this paper is to present quantitative results of GPT-4V on emotion understanding and establish a zero-shot benchmark for future research. Code and evaluation results are available at: https://github.com/zeroQiaoba/gpt4v-emotion.
翻訳日:2023-12-08 14:55:11 公開日:2023-12-07
# グラフニューラルネットワークを用いたPM$_{2.5}$エミッション予測システムによる予報火災の空気質への影響のシミュレーション

Simulating the Air Quality Impact of Prescribed Fires Using a Graph Neural Network-Based PM$_{2.5}$ Emissions Forecasting System ( http://arxiv.org/abs/2312.04291v1 )

ライセンス: Link先を確認
Kyleen Liao, Jatan Buch, Kara Lamb, Pierre Gentine(参考訳) 北アメリカ西部における森林火災の規模と深刻度の増加は近年、pm$_{2.5}$汚染の危険レベルを生み出している。 温暖な気候では、所定の火の使用拡大が最も強固な防火戦略であると考えられている。 しかし, 特定火災による潜在的な大気質への影響を確実に予測することは, 火の場所や時間を決定する上で重要な要素であり, 時間単位から日単位のスケールでは困難な問題である。 本稿では,所定の火災シミュレーションと時空間グラフニューラルネットワークを用いたPM$_{2.5}$予測モデルの統合を提案する。 本研究は,カリフォルニア州における火災発生の最適時期の決定と,火災シーズン外の火災発生に伴う大気質のトレードオフの定量化に焦点をあてたものである。

The increasing size and severity of wildfires across western North America have generated dangerous levels of PM$_{2.5}$ pollution in recent years. In a warming climate, expanding the use of prescribed fires is widely considered to be the most robust fire mitigation strategy. However, reliably forecasting the potential air quality impact from these prescribed fires, a critical ingredient in determining the fires' location and time, at hourly to daily time scales remains a challenging problem. This paper proposes a novel integration of prescribed fire simulation with a spatio-temporal graph neural network-based PM$_{2.5}$ forecasting model. The experiments in this work focus on determining the optimal time for implementing prescribed fires in California as well as quantifying the potential air quality trade-offs involved in conducting more prescribed fires outside the fire season.
翻訳日:2023-12-08 14:54:54 公開日:2023-12-07
# 光電子オシレータを用いたコヒーレントイジングマシンの収束解析

Convergence Analysis of Opto-Electronic Oscillator based Coherent Ising Machines ( http://arxiv.org/abs/2312.04290v1 )

ライセンス: Link先を確認
Sayantan Pramanik, Sourav Chatterjee, Harshkumar Oza(参考訳) イジングマシンは、従来のフォン・ノイマンコンピュータよりも大規模な組合せ最適化問題の解法が優れていると評価されている。 しかし、これらのイジング機械は、理論上ではなく経験的に観察されるようなヒューリスティックであると広く信じられている。 我々は、光電子発振器に基づくコヒーレントイジングマシンを考慮し、合理的な仮定の下では、OEO-CIMはヒューリスティックなアプローチではないという最初の解析的証明を提供することで、このギャップを埋める。 最終イテレーションの目的値と最適なイテレーションの期待値と、それに必要なイテレーション数との差という観点から、そのパフォーマンスの境界を見つけ、証明します。 このプロセスでは、スピン間の非対称結合を扱えないことや、それらに適用される外部磁場が存在しないこと(どちらも多くの最適化問題において必要である)、収束のいくつかの問題など、いくつかの制限を強調している。 適切な調整を行うことでこれらの制限を克服し、改良されたアーキテクチャが緩和された目的関数の最適値に収束することが保証されることを示す。

Ising machines are purported to be better at solving large-scale combinatorial optimisation problems better than conventional von Neumann computers. However, these Ising machines are widely believed to be heuristics, whose promise is observed empirically rather than obtained theoretically. We bridge this gap by considering an opto-electronic oscillator based coherent Ising machine, and providing the first analytical proof that under reasonable assumptions, the OEO-CIM is not a heuristic approach. We find and prove bounds on its performance in terms of the expected difference between the objective value at the final iteration and the optimal one, and on the number of iterations required by it. In the process, we emphasise on some of its limitations such as the inability to handle asymmetric coupling between spins, and the absence of external magnetic field applied on them (both of which are necessary in many optimisation problems), along with some issues in its convergence. We overcome these limitations by proposing suitable adjustments and prove that the improved architecture is guaranteed to converge to the optimum of the relaxed objective function.
翻訳日:2023-12-08 14:54:39 公開日:2023-12-07
# 拡張木上の量子ダーウィン主義-エンコード遷移

Quantum Darwinism-encoding transitions on expanding trees ( http://arxiv.org/abs/2312.04284v1 )

ライセンス: Link先を確認
Beno\^it Fert\'e, Xiangyu Cao(参考訳) 量子ダーウィン主義 (Quantum Darwinism, QD) は、古典的客観性は、顕微鏡的自由度に関する情報を多体環境の複数の分節に伝達することから生じると提唱している。 このような情報の放送は、強い相互作用の下での揺らぎとは対照的である。 近年、ブロードキャストとスクランブルの間を補間する量子力学は、情報伝達の鋭い位相遷移を示すことが示されている。 ここでは,一般の非クリフォード設定における系統的研究を開始する。 まず,情報伝達を等長法としてモデル化し,入力quditが基準と絡み合う一般的な理論設定において,環境分数を計測した後の参照密度行列の分布を示す遷移のプローブを提案する。 このプローブは、分数とインジェクションされた情報の間の古典的相関を測定する。 次に、このフレームワークを拡大木上のテンソルネットワークで定義された2つの類似モデルに適用し、スピンハーフの$z$成分をブロードキャストしようとするノイズのある装置をモデル化する。 我々は密度行列分布の正確な再帰関係を導出し、解析的および数値的に解析する。 その結果、QD、中間および符号化の3つの相と、2つの連続遷移が見つかる。 エンコーディング・中間遷移は、基準と小さな環境分数の非ゼロ相関の成立を記述しており、中間空間における非ガウス的および対称性の破れとなる分数の総スピン-z$の「粗い粒度」測度によって探究することができる。 QD-中間遷移は相関が完璧かどうかに関するものである。 微細な測度によって探索されなければならず、レプリカ空間のより微妙な対称性の破れに対応する。

Quantum Darwinism (QD) proposes that classical objectivity emerges from the broadcast of information about a microscopic degree of freedom into multiple fractions of a many-body environment. Such a broadcast of information is in sharp contrast with its scrambling under strong interaction. It was recently shown that quantum dynamics interpolating between broadcasting and scrambling may display sharp phase transitions of information propagation, named QD-encoding transitions. Here, we initiate their systematic study in generic, non-Clifford settings. First, in a general theoretical setup where the information propagation is modeled as an isometry, whose input qudit is entangled with a reference, we propose a probe of the transitions -- the distribution of the density matrix of the reference after measuring an environment fraction. This probe measures the classical correlation between the fraction and the injected information. We then apply the framework to two similar models defined by a tensor network on an expanding tree, modeling a noisy apparatus that attempts to broadcast the $z$ component of a spin-half. We derive an exact recursion relation of the density matrix distribution, which we analyze analytically and numerically. As a result we find three phases: QD, intermediate and encoding, and two continuous transitions. The encoding-intermediate transition describes the establishment of nonzero correlation between the reference and a small environment fraction, and can be probed by a ``coarse-grained'' measure of the total spin-$z$ of the fraction, which becomes non-Gaussian and symmetry breaking in the intermediate space. The QD-intermediate transition is about whether the correlation is perfect. It must be probed by fined-grained measures, and corresponds to a more subtle symmetry breaking in the replica space.
翻訳日:2023-12-08 14:54:18 公開日:2023-12-07
# 不均一データを用いたパーソナライズ最適化のための因子支援連合学習

Factor-Assisted Federated Learning for Personalized Optimization with Heterogeneous Data ( http://arxiv.org/abs/2312.04281v1 )

ライセンス: Link先を確認
Feifei Wang, Huiyun Tang, Yang Li(参考訳) Federated Learningは、データプライバシ保護を目的とした、新興の分散機械学習フレームワークである。 データの不均一性は、深層ニューラルネットワークの収束率と予測性能を著しく低下させる、連合学習における中核的な課題の1つである。 この問題に対処するため、我々はFedSplitと呼ぶ異種データのための新しい個人化フェデレーション学習フレームワークを開発した。 このモデリングフレームワークは、異なるクライアント内のデータが共通の知識とパーソナライズされた知識の両方を含んでいることを発見することによって動機づけられる。 次に、各神経層内の隠れた要素を共有グループとパーソナライズグループに分割することができる。 この分解により、新しい目的関数が確立され、最適化される。 本研究では,federated learning法よりも,理論上,経験的に,より高速な収束速度を示す。 FedSplit法の一般化境界についても検討した。 実データセット上で提案手法を実践するために,隠れた要素の疎結合を容易にする因子分析を導入した。 これにより、事実上FedSplitのモデルが実装され、さらにFedFacと呼ばれます。 シミュレーションにより,因子分析を用いることで,下位の共有/パーソナライズ分解を回復できることを実証した。 FedFacの優れた予測性能は、複数の実データセット上の様々な最先端のフェデレーション学習手法との比較により実証的に検証される。

Federated learning is an emerging distributed machine learning framework aiming at protecting data privacy. Data heterogeneity is one of the core challenges in federated learning, which could severely degrade the convergence rate and prediction performance of deep neural networks. To address this issue, we develop a novel personalized federated learning framework for heterogeneous data, which we refer to as FedSplit. This modeling framework is motivated by the finding that, data in different clients contain both common knowledge and personalized knowledge. Then the hidden elements in each neural layer can be split into the shared and personalized groups. With this decomposition, a novel objective function is established and optimized. We demonstrate FedSplit enjoyers a faster convergence speed than the standard federated learning method both theoretically and empirically. The generalization bound of the FedSplit method is also studied. To practically implement the proposed method on real datasets, factor analysis is introduced to facilitate the decoupling of hidden elements. This leads to a practically implemented model for FedSplit and we further refer to as FedFac. We demonstrated by simulation studies that, using factor analysis can well recover the underlying shared/personalized decomposition. The superior prediction performance of FedFac is further verified empirically by comparison with various state-of-the-art federated learning methods on several real datasets.
翻訳日:2023-12-08 14:53:45 公開日:2023-12-07
# クラスター分析による母性死亡率の類似国の推定と同一mmrのペア国

Estimating Countries with Similar Maternal Mortality Rate using Cluster Analysis and Pairing Countries with Identical MMR ( http://arxiv.org/abs/2312.04275v1 )

ライセンス: Link先を確認
S. Nandini and Sanjjushri Varshini R(参考訳) 発展する世界では、より若い時代が発展し、発展する土地へと発展していく必要がある。 世界中の人口のほとんどが、妊娠中の日常にかかわる合併症や、病院の施設が母親の健康にどう影響するかを知らない。 母方の死亡は妊娠と関係のある複雑な状態により妊婦が死亡することであり、その背景にはこれらの状況の妊娠や管理によって悪化する。 多様な場所で母性死亡率(MMR)を考慮し、母性死亡率(MMR)を低下させる人間のルーチンや病院施設を決定することが重要である。 本研究は、mmrの脅威が高まりつつある国や、mmrに遭遇した国を調査し、発見することを目的としている。 データは各国で調査・収集され、データは初期の観察から成り立っている。 機械学習の観点からは、クラスタ分析を実行するために教師なし機械学習が実装されている。 したがって、同様のMMRを持つ2つの国と、MMRに関する極端な対が存在する。

In the evolving world, we require more additionally the young era to flourish and evolve into developed land. Most of the population all around the world are unaware of the complications involved in the routine they follow while they are pregnant and how hospital facilities affect maternal health. Maternal Mortality is the death of a pregnant woman due to intricacies correlated to pregnancy, underlying circumstances exacerbated by the pregnancy or management of these situations. It is crucial to consider the Maternal Mortality Rate (MMR) in diverse locations and determine which human routines and hospital facilities diminish the Maternal Mortality Rate (MMR). This research aims to examine and discover the countries which are keeping more lavish threats of MMR and countries alike in MMR encountered. Data is examined and collected for various countries, data consists of the earlier years' observation. From the perspective of Machine Learning, Unsupervised Machine Learning is implemented to perform Cluster Analysis. Therefore the pairs of countries with similar MMR as well as the extreme opposite pair concerning the MMR are found.
翻訳日:2023-12-08 14:53:25 公開日:2023-12-07
# invariant random forest: ood一般化のための木ベースモデル解

Invariant Random Forest: Tree-Based Model Solution for OOD Generalization ( http://arxiv.org/abs/2312.04273v1 )

ライセンス: Link先を確認
Yufan Liao, Qi Wu, Xing Yan(参考訳) Out-Of-Distribution (OOD) の一般化は機械学習において重要なトピックである。 しかし、最近の研究は、ニューラルネットワークの対応する方法のみに焦点を当てている。 Invariant Decision Tree (IDT) と呼ばれる決定木モデルのOOD一般化のための新しい効果的な解を提案する。 IDTは、木の成長中に異なる環境にまたがる分裂の不安定で変動的な挙動に関して、ペナルティ項を強制する。 そのアンサンブル版である不変ランダムフォレスト(irf)が構築されている。 提案手法は,温和な条件下での理論的結果に動機づけられ,合成データと実データの両方を用いた数値実験により検証された。 非OOD木モデルに比べて優れた性能は、木モデルのOOD一般化を考えることが絶対必要であり、より多くの注意を払わなければならないことを意味する。

Out-Of-Distribution (OOD) generalization is an essential topic in machine learning. However, recent research is only focusing on the corresponding methods for neural networks. This paper introduces a novel and effective solution for OOD generalization of decision tree models, named Invariant Decision Tree (IDT). IDT enforces a penalty term with regard to the unstable/varying behavior of a split across different environments during the growth of the tree. Its ensemble version, the Invariant Random Forest (IRF), is constructed. Our proposed method is motivated by a theoretical result under mild conditions, and validated by numerical tests with both synthetic and real datasets. The superior performance compared to non-OOD tree models implies that considering OOD generalization for tree models is absolutely necessary and should be given more attention.
翻訳日:2023-12-08 14:52:50 公開日:2023-12-07
# テンポラルアクションセグメンテーションのための活動文法

Activity Grammars for Temporal Action Segmentation ( http://arxiv.org/abs/2312.04266v1 )

ライセンス: Link先を確認
Dayoung Gong, Joonseok Lee, Deunsol Jung, Suha Kwak, Minsu Cho(参考訳) 時間的データのシーケンス予測には、個人的および文脈的特性を超えた多レベル意味論の構成構造を理解する能力が必要である。 非トリミングされた動画を一連のアクションセグメントに変換するための時間的アクションセグメンテーションの課題は、この理由からいまだに困難である。 本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を導入することで,この問題に対処する。 本稿では,行動系列データから強力な文脈自由文法を抽出する新しい文法誘導アルゴリズムを提案する。 また,フレームレベルの確率分布を帰納規則付き帰納文法に従って信頼性のある行動列に変換する,効率的な一般化構文解析器を開発した。 本手法は,時間的動作分節化のための任意のニューラルネットワークと組み合わせることで,シーケンス予測を強化し,構成構造を見出すことができる。 実験の結果,Breakfast と 50 Salad の2つの標準ベンチマークにおいて,時間的動作のセグメンテーションを性能と解釈性の両方の観点から大幅に改善することが示された。

Sequence prediction on temporal data requires the ability to understand compositional structures of multi-level semantics beyond individual and contextual properties. The task of temporal action segmentation, which aims at translating an untrimmed activity video into a sequence of action segments, remains challenging for this reason. This paper addresses the problem by introducing an effective activity grammar to guide neural predictions for temporal action segmentation. We propose a novel grammar induction algorithm that extracts a powerful context-free grammar from action sequence data. We also develop an efficient generalized parser that transforms frame-level probability distributions into a reliable sequence of actions according to the induced grammar with recursive rules. Our approach can be combined with any neural network for temporal action segmentation to enhance the sequence prediction and discover its compositional structure. Experimental results demonstrate that our method significantly improves temporal action segmentation in terms of both performance and interpretability on two standard benchmarks, Breakfast and 50 Salads.
翻訳日:2023-12-08 14:52:29 公開日:2023-12-07
# タスク部分空間におけるマッチングモデルによるマージ

Merging by Matching Models in Task Subspaces ( http://arxiv.org/abs/2312.04339v1 )

ライセンス: Link先を確認
Derek Tam, Mohit Bansal, Colin Raffel(参考訳) モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。 本研究では,過去のマージ手法を,モデルがマージされる前に一致するような「タスク部分空間」の異なる概念の活用とみなす。 与えられたモデルのタスク部分空間をその損失ランドスケープに接続し、モデルマージに対するこのアプローチを、方程式の線形系を解くとみなすことができる。 過去の研究は一般に閉形式解を持つ線形系に限定されてきたが、共役勾配法を用いて解を見つけることを検討する。 共役勾配法は閉形式解よりも優れており、他の方法では解けない線形系によるマージが可能であり、「タスク部分空間」の様々な初期化と推定から柔軟に選択できることを示す。 最終的に、'Matching Models in their Task Subspace' (MaTS) と呼ばれる統合フレームワークが、マルチタスクおよび中間タスクモデルのマージにおいて、最先端の結果を達成することを実証した。 私たちはすべてのコードとチェックポイントをhttps://github.com/r-three/matsで公開しています。

Model merging aims to cheaply combine individual task-specific models into a single multitask model. In this work, we view past merging methods as leveraging different notions of a ''task subspace'' in which models are matched before being merged. We connect the task subspace of a given model to its loss landscape and formalize how this approach to model merging can be seen as solving a linear system of equations. While past work has generally been limited to linear systems that have a closed-form solution, we consider using the conjugate gradient method to find a solution. We show that using the conjugate gradient method can outperform closed-form solutions, enables merging via linear systems that are otherwise intractable to solve, and flexibly allows choosing from a wide variety of initializations and estimates for the ''task subspace''. We ultimately demonstrate that our merging framework called ''Matching Models in their Task Subspace'' (MaTS) achieves state-of-the-art results in multitask and intermediate-task model merging. We release all of the code and checkpoints used in our work at https://github.com/r-three/mats.
翻訳日:2023-12-08 14:45:26 公開日:2023-12-07
# クロスアテンション誘導による多視点教師なし画像生成

Multi-View Unsupervised Image Generation with Cross Attention Guidance ( http://arxiv.org/abs/2312.04337v1 )

ライセンス: Link先を確認
Llukman Cerkezi, Aram Davtyan, Sepehr Sameni, Paolo Favaro(参考訳) ニューラル・ラジアンス・フィールド(NeRF)モデルによる新しいビュー合成への関心は、正確に注釈付けされたマルチビュー画像に依存するため、スケーラビリティの問題によって妨げられている。 最近のモデルでは、合成マルチビューデータ上で大きなテキスト2画像拡散モデルを微調整することでこの問題に対処している。 堅牢なゼロショットの一般化にもかかわらず、後処理が必要であり、合成ドメインのギャップのために品質の問題に直面する可能性がある。 本稿では,単一カテゴリデータセット上のポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。 事前学習された自己教師付き視覚トランスフォーマ(dinov2)の助けを借りて、特定のオブジェクト部分の可視性と位置を比較してデータセットをクラスタリングすることで、オブジェクトのポーズを識別する。 ポーズ条件付き拡散モデルでは、ポーズラベルに基づいて訓練され、推論時にクロスフレームアテンションを備えることにより、クロスビュー一貫性が保証される。 我々のモデルであるmirageは、実画像における新しいビュー合成の先行研究を上回っている。 さらに,MIRAGEは種々のテクスチャやジオメトリーに対して頑健であり,予め訓練した安定拡散による合成画像について実験を行った。

The growing interest in novel view synthesis, driven by Neural Radiance Field (NeRF) models, is hindered by scalability issues due to their reliance on precisely annotated multi-view images. Recent models address this by fine-tuning large text2image diffusion models on synthetic multi-view data. Despite robust zero-shot generalization, they may need post-processing and can face quality issues due to the synthetic-real domain gap. This paper introduces a novel pipeline for unsupervised training of a pose-conditioned diffusion model on single-category datasets. With the help of pretrained self-supervised Vision Transformers (DINOv2), we identify object poses by clustering the dataset through comparing visibility and locations of specific object parts. The pose-conditioned diffusion model, trained on pose labels, and equipped with cross-frame attention at inference time ensures cross-view consistency, that is further aided by our novel hard-attention guidance. Our model, MIRAGE, surpasses prior work in novel view synthesis on real images. Furthermore, MIRAGE is robust to diverse textures and geometries, as demonstrated with our experiments on synthetic images generated with pretrained Stable Diffusion.
翻訳日:2023-12-08 14:45:07 公開日:2023-12-07
# 照明推定のための知覚評価枠組みに向けて

Towards a Perceptual Evaluation Framework for Lighting Estimation ( http://arxiv.org/abs/2312.04334v1 )

ライセンス: Link先を確認
Justine Giroux, Mohammad Reza Karimi Dastjerdi, Yannick Hold-Geoffroy, Javier Vazquez-Corral, Jean-Fran\c{c}ois Lalonde(参考訳) 照明推定の進歩は、標準データセットの画像上の既存の画像品質評価(IQA)メトリクスを計算することによって追跡される。 これは合理的なアプローチのように見えるが、仮想シーンをリアルな写真にリライトするために推定照明を使用する場合、人間の嗜好と相関しないことを示す。 そこで我々は,近年の文献から選択された照明推定アルゴリズムを用いて照らされたシーンの中から,人間の観察者が好みを選ばなければならない制御心理学実験を設計し,これらのアルゴリズムが人間の知覚に応じてどのように機能するかを分析する。 そして、文献から最も人気のあるIQA指標のうち、個別に取られたものは、人間の知覚を正しく表現するものではないことを示した。 最後に、既存のIQAメトリクスを組み合わせることで、人間の好みをより正確に表現できることを示す。 これは将来の照明推定アルゴリズムを評価するのに役立つ新しい知覚フレームワークを提供する。

Progress in lighting estimation is tracked by computing existing image quality assessment (IQA) metrics on images from standard datasets. While this may appear to be a reasonable approach, we demonstrate that doing so does not correlate to human preference when the estimated lighting is used to relight a virtual scene into a real photograph. To study this, we design a controlled psychophysical experiment where human observers must choose their preference amongst rendered scenes lit using a set of lighting estimation algorithms selected from the recent literature, and use it to analyse how these algorithms perform according to human perception. Then, we demonstrate that none of the most popular IQA metrics from the literature, taken individually, correctly represent human perception. Finally, we show that by learning a combination of existing IQA metrics, we can more accurately represent human preference. This provides a new perceptual framework to help evaluate future lighting estimation algorithms.
翻訳日:2023-12-08 14:44:46 公開日:2023-12-07
# beyond surface: スケールとレイヤーにまたがるラマの探索

Beyond Surface: Probing LLaMA Across Scales and Layers ( http://arxiv.org/abs/2312.04333v1 )

ライセンス: Link先を確認
Nuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li(参考訳) 本稿では,自然言語処理における著名なオープンソース基礎モデルであるllamaに着目し,大規模言語モデル(llms)の詳細な解析を行う。 LLaMAを生成出力で評価する代わりに、複数の選択タスクを設計し、推論や計算などの高次タスクにおける本質的な理解を探索する。 モデルを水平的に検討し、異なるサイズと垂直に比較し、異なる層を評価した。 1) モデルサイズを水平に拡大することは, 新たな知識や計算能力を自動的に付与することはほとんど不可能である。 その代わり、特に数学の問題解決において推論能力を高めることができ、幻覚を減少させるのに役立つが、一定の大きさの閾値を超えるだけである。(2)垂直解析において、ラマの下位層は実質的な算術的・事実的知識を欠き、論理的思考、多言語的・認識的能力を示し、上位層は計算能力と実世界の知識を多く含む。

This paper presents an in-depth analysis of Large Language Models (LLMs), focusing on LLaMA, a prominent open-source foundational model in natural language processing. Instead of assessing LLaMA through its generative output, we design multiple-choice tasks to probe its intrinsic understanding in high-order tasks such as reasoning and computation. We examine the model horizontally, comparing different sizes, and vertically, assessing different layers. We unveil several key and uncommon findings based on the designed probing tasks: (1) Horizontally, enlarging model sizes almost could not automatically impart additional knowledge or computational prowess. Instead, it can enhance reasoning abilities, especially in math problem solving, and helps reduce hallucinations, but only beyond certain size thresholds; (2) In vertical analysis, the lower layers of LLaMA lack substantial arithmetic and factual knowledge, showcasing logical thinking, multilingual and recognitive abilities, with top layers housing most computational power and real-world knowledge.
翻訳日:2023-12-08 14:44:29 公開日:2023-12-07
# 軽量ニューラルアンサンブルを用いた海水氷濃度のサロゲートモデル

Surrogate Modelling for Sea Ice Concentration using Lightweight Neural Ensemble ( http://arxiv.org/abs/2312.04330v1 )

ライセンス: Link先を確認
Julia Borisova, Nikolay O. Nikitin(参考訳) 北極地域の海氷条件のモデル化と予測は、船舶のルーティング、沖合石油生産、環境モニタリングにとって重要な課題である。 本研究では,特定水域における海氷濃度の空間分布予測に,損失関数が異なる比較的単純な深層学習モデルのアンサンブルを用いた適応型サーロゲートモデルである lane-si (lightweight automated neural ensembling for sea ice) を提案する。 実験により,特定水域に適合する深層学習モデルに基づく長期予測の品質は,資源集約的な物理モデリングに匹敵するものであり,年内にも優れていることが確認された。 カラ海における最先端の物理系予測システムseas5に対する20%の改善を達成した。

The modeling and forecasting of sea ice conditions in the Arctic region are important tasks for ship routing, offshore oil production, and environmental monitoring. We propose the adaptive surrogate modeling approach named LANE-SI (Lightweight Automated Neural Ensembling for Sea Ice) that uses ensemble of relatively simple deep learning models with different loss functions for forecasting of spatial distribution for sea ice concentration in the specified water area. Experimental studies confirm the quality of a long-term forecast based on a deep learning model fitted to the specific water area is comparable to resource-intensive physical modeling, and for some periods of the year, it is superior. We achieved a 20% improvement against the state-of-the-art physics-based forecast system SEAS5 for the Kara Sea.
翻訳日:2023-12-08 14:44:09 公開日:2023-12-07
# 赤外・可視画像融合のためのマルチスケール情報統合フレームワーク

A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2312.04328v1 )

ライセンス: Link先を確認
Guang Yang, Jie Li, Hanxiao Lei, Xinbo Gao(参考訳) 赤外線・可視画像融合は,光源画像の強度・詳細情報を含む融合画像の生成を目標とし,同一シーンからの多モード画像の補完情報を効果的に計測・統合することを目的としている。 既存の手法では、異なる画像対の補完的情報を適応的に測定するのではなく、各モダリティの情報保持を決定するために損失関数に単純な重みを課している。 本研究では,赤外線・可視画像融合のためのマルチスケール・デュアル・アテンション(mda)フレームワークを提案する。 本手法では,残差サンプルブロックはまずソース画像を3つのスケールに分解する。 そして、二重注意融合ブロックが相補的な情報を統合し、各スケールで空間及びチャネルの注意マップを生成して特徴融合を行う。 そして、残余復元ブロックにより出力画像が再構成される。 損失関数は、画像レベル、特徴レベル、パッチレベルの3つの部分から構成され、画像レベルとパッチレベルの2つの部分の計算は、補完的情報測定によって生成された重みに基づいて行われる。 実際、出力画像と赤外線画像の間の画素強度分布を制限するために、スタイル損失が加えられる。 私たちの融合の結果は、さまざまなシナリオで堅牢で情報に富んでいます。 2つのデータセットの質的および定量的な結果から,本手法は2つのモードからの熱放射と詳細情報を保存し,他の最先端手法と比較した結果が得られることを示す。 アブレーション実験は,情報統合アーキテクチャの有効性を示し,損失関数における補完的情報保持を適応的に測定する。

Infrared and visible image fusion aims at generating a fused image containing the intensity and detail information of source images, and the key issue is effectively measuring and integrating the complementary information of multi-modality images from the same scene. Existing methods mostly adopt a simple weight in the loss function to decide the information retention of each modality rather than adaptively measuring complementary information for different image pairs. In this study, we propose a multi-scale dual attention (MDA) framework for infrared and visible image fusion, which is designed to measure and integrate complementary information in both structure and loss function at the image and patch level. In our method, the residual downsample block decomposes source images into three scales first. Then, dual attention fusion block integrates complementary information and generates a spatial and channel attention map at each scale for feature fusion. Finally, the output image is reconstructed by the residual reconstruction block. Loss function consists of image-level, feature-level and patch-level three parts, of which the calculation of the image-level and patch-level two parts are based on the weights generated by the complementary information measurement. Indeed, to constrain the pixel intensity distribution between the output and infrared image, a style loss is added. Our fusion results perform robust and informative across different scenarios. Qualitative and quantitative results on two datasets illustrate that our method is able to preserve both thermal radiation and detailed information from two modalities and achieve comparable results compared with the other state-of-the-art methods. Ablation experiments show the effectiveness of our information integration architecture and adaptively measure complementary information retention in the loss function.
翻訳日:2023-12-08 14:43:57 公開日:2023-12-07
# Cartesian MRIにおけるサンプルの学習

Learning to sample in Cartesian MRI ( http://arxiv.org/abs/2312.04327v1 )

ライセンス: Link先を確認
Thomas Sanchez(参考訳) 例外的な軟組織コントラストにもかかわらず、磁気共鳴イメージング(MRI)は、X線撮影のような他のモダリティと比較して、長い走査時間の課題に直面している。 患者の快適さを高め、検査コストを減らし、スループットを向上させるため、臨床環境ではスキャン時間を短縮することが重要である。 圧縮センシング(CS)とディープラーニングの最近の進歩は、アンダーサンプルデータから高品質な画像を再構成することで、MRIの高速化を可能にする。 リコンストラクションアルゴリズムが注目されているものの、リコンストラクション品質を最適化するための買収トラジェクトリの設計は未解決のままである。 この論文は、カルテシアンMRIの文脈におけるこのギャップに対処する2つのアプローチを探求する。 まず,遅延 LBCS と確率 LBCS の2つのアルゴリズムを提案し,G\"ozc\"u et al. の欲求学習に基づく CS (LBCS) アプローチを大幅に改善した。 これらのアルゴリズムは、以前はLBCSにはアクセスできないマルチコイル3D MRやダイナミックMRIのような、大規模で臨床的に関係のあるシナリオにスケールする。 さらに, GANは, 測定領域のばらつきを利用して, 適応サンプリングの自然な基準として機能し, 獲得を導くことを実証する。 第二に、マスク設計アルゴリズムが実際にうまく機能する基盤となる構造や仮定について検討する。 実験により,最先端の深層強化学習 (rl) 手法は適応的かつ長期計画が可能でありながら,確率的lbcsよりも限界的な改善しか得られないことが判明した。 以上より, 確率的LBCSと類似の手法が深部RLに代わる有望な選択肢である可能性が示唆された。 それらはスケーラビリティと計算効率によって特に輝き、Cartesian MRIにおける最適化された取得軌跡の展開において鍵となる可能性がある。

Despite its exceptional soft tissue contrast, Magnetic Resonance Imaging (MRI) faces the challenge of long scanning times compared to other modalities like X-ray radiography. Shortening scanning times is crucial in clinical settings, as it increases patient comfort, decreases examination costs and improves throughput. Recent advances in compressed sensing (CS) and deep learning allow accelerated MRI acquisition by reconstructing high-quality images from undersampled data. While reconstruction algorithms have received most of the focus, designing acquisition trajectories to optimize reconstruction quality remains an open question. This thesis explores two approaches to address this gap in the context of Cartesian MRI. First, we propose two algorithms, lazy LBCS and stochastic LBCS, that significantly improve upon G\"ozc\"u et al.'s greedy learning-based CS (LBCS) approach. These algorithms scale to large, clinically relevant scenarios like multi-coil 3D MR and dynamic MRI, previously inaccessible to LBCS. Additionally, we demonstrate that generative adversarial networks (GANs) can serve as a natural criterion for adaptive sampling by leveraging variance in the measurement domain to guide acquisition. Second, we delve into the underlying structures or assumptions that enable mask design algorithms to perform well in practice. Our experiments reveal that state-of-the-art deep reinforcement learning (RL) approaches, while capable of adaptation and long-horizon planning, offer only marginal improvements over stochastic LBCS, which is neither adaptive nor does long-term planning. Altogether, our findings suggest that stochastic LBCS and similar methods represent promising alternatives to deep RL. They shine in particular by their scalability and computational efficiency and could be key in the deployment of optimized acquisition trajectories in Cartesian MRI.
翻訳日:2023-12-08 14:43:29 公開日:2023-12-07
# iDesigner: 内部設計のためのテキスト・画像拡散モデルによる高分解能・複雑プロンプト

iDesigner: A High-Resolution and Complex-Prompt Following Text-to-Image Diffusion Model for Interior Design ( http://arxiv.org/abs/2312.04326v1 )

ライセンス: Link先を確認
Ruyi Gan, Xiaojun Wu, Junyu Lu, Yuanhe Tian, Dixiang Zhang, Ziwei Wu, Renliang Sun, Chang Liu, Jiaxing Zhang, Pingjian Zhang, Yan Song(参考訳) 安定拡散 (SD) や安定拡散 XL (SD-XL) などのテキスト・ツー・イメージ・モデル (T2I) のオープンソース化により、アニメやキャラクター・ポートレートなどのオープンソースSDモデルに基づいて特定の領域で微調整されたモデルが流入する。 しかし、インテリアデザインのような特定の領域には、複雑なテキスト記述や、デザインに固有の詳細な視覚要素に起因し、適応可能な解像度を必要とするような特別なモデルがほとんど存在しない。 したがって、インテリアデザインのためのテキスト対イメージモデルは、望ましい結果を達成するためにデザイン専門家との反復的なコラボレーションだけでなく、優れたプロンプトフォロー機能を持つ必要がある。 本稿では,設計分野におけるテキスト画像データの収集と最適化を行い,オープンソースCLIPモデルに基づく英語と中国語のトレーニングを継続する。 また,カリキュラム学習とクリップフィードバックによる強化学習による微調整戦略を提案し,提案手法の迅速な追従能力を高め,画像生成の質を向上させる。 得られたデータセットにおける実験結果から,提案手法の有効性が示され,印象的な結果が得られ,強いベースラインを上回った。

With the open-sourcing of text-to-image models (T2I) such as stable diffusion (SD) and stable diffusion XL (SD-XL), there is an influx of models fine-tuned in specific domains based on the open-source SD model, such as in anime, character portraits, etc. However, there are few specialized models in certain domains, such as interior design, which is attributed to the complex textual descriptions and detailed visual elements inherent in design, alongside the necessity for adaptable resolution. Therefore, text-to-image models for interior design are required to have outstanding prompt-following capabilities, as well as iterative collaboration with design professionals to achieve the desired outcome. In this paper, we collect and optimize text-image data in the design field and continue training in both English and Chinese on the basis of the open-source CLIP model. We also proposed a fine-tuning strategy with curriculum learning and reinforcement learning from CLIP feedback to enhance the prompt-following capabilities of our approach so as to improve the quality of image generation. The experimental results on the collected dataset demonstrate the effectiveness of the proposed approach, which achieves impressive results and outperforms strong baselines.
翻訳日:2023-12-08 14:42:57 公開日:2023-12-07
# 高速フーリエ変換を用いた分子ドッキングのための等変スカラー場

Equivariant Scalar Fields for Molecular Docking with Fast Fourier Transforms ( http://arxiv.org/abs/2312.04323v1 )

ライセンス: Link先を確認
Bowen Jing, Tommi Jaakkola, Bonnie Berger(参考訳) 分子ドッキングは、構造に基づく仮想スクリーニングにとって重要であるが、そのようなワークフローのスループットは、ほとんどのドッキングアルゴリズムに関わるスコアリング関数の高価な最適化によって制限される。 より迅速な最適化を可能にする機能形式でスコアリング関数を学習することで、機械学習がこのプロセスをいかに加速できるかを考察する。 具体的には、スコアリング関数を、同変グラフニューラルネットワークによってパラメータ化された多チャンネルリガンドとタンパク質スカラー場の相互相関として定義し、高速フーリエ変換による剛体自由度を高速に最適化する。 このアプローチのランタイムは、いくつかの抽象化レベルでamortizedが可能で、共通のバインディングポケットを持つ仮想スクリーニング設定に特に適しています。 デコイポーズスコアと剛性コンフォーメータドッキングの2つの簡易ドッキング関連タスクでスコアリング機能をベンチマークした。 提案手法は,広く使用されているVinaとGninaのスコアリング関数と比較して,結晶構造に類似しているが高速な性能を実現する。 コードはhttps://github.com/bjing2016/scalar-fieldsで入手できる。

Molecular docking is critical to structure-based virtual screening, yet the throughput of such workflows is limited by the expensive optimization of scoring functions involved in most docking algorithms. We explore how machine learning can accelerate this process by learning a scoring function with a functional form that allows for more rapid optimization. Specifically, we define the scoring function to be the cross-correlation of multi-channel ligand and protein scalar fields parameterized by equivariant graph neural networks, enabling rapid optimization over rigid-body degrees of freedom with fast Fourier transforms. The runtime of our approach can be amortized at several levels of abstraction, and is particularly favorable for virtual screening settings with a common binding pocket. We benchmark our scoring functions on two simplified docking-related tasks: decoy pose scoring and rigid conformer docking. Our method attains similar but faster performance on crystal structures compared to the widely-used Vina and Gnina scoring functions, and is more robust on computationally predicted structures. Code is available at https://github.com/bjing2016/scalar-fields.
翻訳日:2023-12-08 14:42:34 公開日:2023-12-07
# 量子計算のためのロデオアルゴリズムによる状態数の推定

Estimating the Number of States via the Rodeo Algorithm for Quantum Computation ( http://arxiv.org/abs/2312.04322v1 )

ライセンス: Link先を確認
Julio Cesar Siqueira Rocha, Raphael Fortes Infante Gomes, Wallon Anderson Tadaiesky Nogueira, Rodrigo Alves Dias(参考訳) 提案手法では,Shr\odinger方程式を明示的に解くことなく,量子系のすべてのエネルギー準位に関連する状態の数を決定できるロデオアルゴリズムのカスタマイズを提案する。 量子コンピュータは、量子システムの複雑さに対処する能力を持っているため、このアプローチは量子系の熱力学の研究に特に有望である。 本手法の有効性を説明するために,1次元横場イジングモデルの状態数を計算し,その結果,その比熱を計算する。

Our proposal introduces a customization of the rodeo algorithm that enables us to determine the number of states associated with all energy levels of a quantum system without explicitly solving the Schr\"odinger equation. Quantum computers, with their innate ability to address the intricacies of quantum systems, make this approach particularly promising for the study of the thermodynamics of quantum systems. To illustrate the effectiveness of our approach, we apply it to compute the number of states of the 1D transverse-field Ising model and, consequently, its specific heat.
翻訳日:2023-12-08 14:42:14 公開日:2023-12-07
# ユニバーサルフラックスによる$\pi$-squidの制御

Universal flux-based control of a $\pi$-SQUID ( http://arxiv.org/abs/2312.04321v1 )

ライセンス: Link先を確認
J. Wilson Staples, Thomas B. Smith, Andrew C. Doherty(参考訳) 非理想的$\pi$- periodic superconducting qubits の普遍制御のためのプロトコルについて述べる。 この提案は、外部磁束が回路をスレッディングする2つの$\pi$周期回路要素によって形成される超伝導ループである$\pi$-squidに依拠する。 このシステムはハーフフラックス周辺に広大なスイートスポットを示し、残余の2ドル周期クーパーペアトンネルは高度に抑制されている。 我々は,この広義のスイートスポットにおいて,フラックスを非分離的かつ対数的にチューニングすることにより,普遍的な単一量子ビット演算を実現することを実証する。 また,$\pi$-squidsの残差がホロノミック相ゲートに与える影響についても検討した。

We describe a protocol for the universal control of non-ideal $\pi$-periodic superconducting qubits. Our proposal relies on a $\pi$-SQUID: a superconducting loop formed by two $\pi$-periodic circuit elements, with an external magnetic flux threading the circuit. The system exhibits an extensive sweet spot around half-flux where residual $2\pi$-periodic Cooper pair tunneling is highly suppressed. We demonstrate that universal single-qubit operations can be realised by tuning the flux adiabatically and diabatically within this broad sweet spot. We also assess how residual $2\pi$-periodicity in $\pi$-SQUIDs impacts holonomic phase gates.
翻訳日:2023-12-08 14:42:05 公開日:2023-12-07
# MIMO:認知発達研究のためのマルチモーダル幼児モデル

MIMo: A Multi-Modal Infant Model for Studying Cognitive Development ( http://arxiv.org/abs/2312.04318v1 )

ライセンス: Link先を確認
Dominik Mattern, Pierre Schumacher, Francisco M. L\'opez, Marcel C. Raabe, Markus R. Ernst, Arthur Aubret, Jochen Triesch(参考訳) 人間の知性と人間の意識は認知発達の過程で徐々に現われる。 この発展を理解することは人間の心を理解する上で不可欠な側面であり、同様の性質を持つ人工心の構築を促進する可能性がある。 重要なことは、人間の認知発達は、相補的な感覚モダリティによって知覚される身体的・社会的環境との具体的相互作用に依存している。 これらの相互作用により、発達する心は世界の因果構造を探索することができる。 これは、例えば、大きな言語モデルに対する一般的な機械学習アプローチとは対照的であり、単に受動的に『消化』された大量のトレーニングデータであるが、感覚入力を制御していない。 しかし、人間の知性と意識に繋がる自己決定された身体的相互作用の計算モデリングは、非常に難しい課題である。 ここでは、コンピュータシミュレーションによる早期認知発達研究のためのオープンソースのマルチモーダル幼児モデルMIMoを紹介する。 ミモの体は5本指の詳細な手を持つ18ヶ月の子供のモデルとなっている。 MIMOは両眼視、前庭系、前頭葉系、触覚を全身の仮想皮膚を通じて知覚し、2つの異なるアクチュエーターモデルで身体の制御を可能にしている。 我々は、mimoの設計とインターフェースを説明し、その使用例を示す。 すべてのコードはhttps://github.com/trieschlab/MIMoで入手できる。

Human intelligence and human consciousness emerge gradually during the process of cognitive development. Understanding this development is an essential aspect of understanding the human mind and may facilitate the construction of artificial minds with similar properties. Importantly, human cognitive development relies on embodied interactions with the physical and social environment, which is perceived via complementary sensory modalities. These interactions allow the developing mind to probe the causal structure of the world. This is in stark contrast to common machine learning approaches, e.g., for large language models, which are merely passively ``digesting'' large amounts of training data, but are not in control of their sensory inputs. However, computational modeling of the kind of self-determined embodied interactions that lead to human intelligence and consciousness is a formidable challenge. Here we present MIMo, an open-source multi-modal infant model for studying early cognitive development through computer simulations. MIMo's body is modeled after an 18-month-old child with detailed five-fingered hands. MIMo perceives its surroundings via binocular vision, a vestibular system, proprioception, and touch perception through a full-body virtual skin, while two different actuation models allow control of his body. We describe the design and interfaces of MIMo and provide examples illustrating its use. All code is available at https://github.com/trieschlab/MIMo .
翻訳日:2023-12-08 14:41:53 公開日:2023-12-07
# 知識駆動型自動運転に向けて

Towards Knowledge-driven Autonomous Driving ( http://arxiv.org/abs/2312.04316v1 )

ライセンス: Link先を確認
Xin Li, Yeqi Bai, Pinlong Cai, Licheng Wen, Daocheng Fu, Bo Zhang, Xuemeng Yang, Xinyu Cai, Tao Ma, Jianfei Guo, Xing Gao, Min Dou, Botian Shi, Yong Liu, Liang He, Yu Qiao(参考訳) 本稿では,新たな知識駆動自動運転技術について検討する。 我々の調査は、現在の自動運転システムの限界、特にデータバイアスに対する感度、長期シナリオの扱いの難しさ、解釈可能性の欠如を強調している。 逆に、認知、一般化、生涯学習の能力を持つ知識駆動手法が、これらの課題を克服するための有望な方法として現れる。 本稿では,知識駆動型自動運転の本質を掘り下げ,その中核となるコンポーネントであるデータセットとベンチマーク,環境,ドライバエージェントについて検討する。 大規模な言語モデル、世界モデル、ニューラルレンダリング、その他の高度な人工知能技術を活用することで、これらのコンポーネントは総合的に、適応的で、インテリジェントな自動運転システムに貢献する。 本論文は、この領域におけるこれまでの研究成果を体系的に整理、レビューし、将来の研究および自動運転の実践的応用に関する洞察とガイダンスを提供する。 知識駆動型自動運転の最先端開発に関する最新情報と、関連する貴重なオープンソースリソースについて、継続的に公開します。

This paper explores the emerging knowledge-driven autonomous driving technologies. Our investigation highlights the limitations of current autonomous driving systems, in particular their sensitivity to data bias, difficulty in handling long-tail scenarios, and lack of interpretability. Conversely, knowledge-driven methods with the abilities of cognition, generalization and life-long learning emerge as a promising way to overcome these challenges. This paper delves into the essence of knowledge-driven autonomous driving and examines its core components: dataset \& benchmark, environment, and driver agent. By leveraging large language models, world models, neural rendering, and other advanced artificial intelligence techniques, these components collectively contribute to a more holistic, adaptive, and intelligent autonomous driving system. The paper systematically organizes and reviews previous research efforts in this area, and provides insights and guidance for future research and practical applications of autonomous driving. We will continually share the latest updates on cutting-edge developments in knowledge-driven autonomous driving along with the relevant valuable open-source resources at: \url{https://github.com/PJLab-ADG/awesome-knowledge-driven-AD}.
翻訳日:2023-12-08 14:41:34 公開日:2023-12-07
# GPT4SGG: 全体的および地域固有の物語からのシーングラフの合成

GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives ( http://arxiv.org/abs/2312.04314v1 )

ライセンス: Link先を確認
Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang, and Changwen Chen(参考訳) 自然言語記述からシーングラフを学習することは、SGG(Scene Graph Generation)の安価で有望なスキームであることが証明されている。 しかし、そのような非構造化キャプションデータとその処理は、アキュレートで完全なシーングラフの学習を悩ませている。 この双対は三点にまとめることができる。 まず、従来の言語パーサは、キャプションデータから意味のある関係三重項を抽出できないことが多い。 第二に、解析された三重項における非局在オブジェクトの接地は、視覚的言語アライメントにおけるあいまいさを満たす。 最後に、キャプションデータは通常スパースであり、画像内容の部分的な観察に偏りを示す。 これら3つの問題は、モデルが包括的で正確なシーングラフを生成するのを難しくする。 このギャップを埋めるために,総合的および地域固有の物語からシーングラフを合成する,単純かつ効果的なフレームワークであるgpt4sggを提案する。 このフレームワークは従来の言語パーサを捨て、関係三重項を得る前にオブジェクトをローカライズする。 関係三重項を得るには、画像から全体的かつ密集した地域固有の物語を生成する。 このような画像データのテキスト表現とタスク固有のプロンプトにより、LPM、特にGPT-4はシーングラフを直接「擬似ラベル」として合成する。 GPT4SGGは画像キャプチャデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。 この先駆的な研究は、LLMの視覚的推論能力のマイニングに関するさらなる研究を動機付けることができると考えている。

Learning scene graphs from natural language descriptions has proven to be a cheap and promising scheme for Scene Graph Generation (SGG). However, such unstructured caption data and its processing are troubling the learning an acurrate and complete scene graph. This dilema can be summarized as three points. First, traditional language parsers often fail to extract meaningful relationship triplets from caption data. Second, grounding unlocalized objects in parsed triplets will meet ambiguity in visual-language alignment. Last, caption data typically are sparse and exhibit bias to partial observations of image content. These three issues make it hard for the model to generate comprehensive and accurate scene graphs. To fill this gap, we propose a simple yet effective framework, GPT4SGG, to synthesize scene graphs from holistic and region-specific narratives. The framework discards traditional language parser, and localize objects before obtaining relationship triplets. To obtain relationship triplets, holistic and dense region-specific narratives are generated from the image. With such textual representation of image data and a task-specific prompt, an LLM, particularly GPT-4, directly synthesizes a scene graph as "pseudo labels". Experimental results showcase GPT4SGG significantly improves the performance of SGG models trained on image-caption data. We believe this pioneering work can motivate further research into mining the visual reasoning capabilities of LLMs.
翻訳日:2023-12-08 14:41:14 公開日:2023-12-07
# 一方向ガウス一方向ステアリング

Unidirectional Gaussian One-Way Steering ( http://arxiv.org/abs/2312.04313v1 )

ライセンス: Link先を確認
Jamal El Qars(参考訳) ステアリングは、2つの観測者の間に固有の非対称性を示す量子非局所性の一種である。 2モードの圧縮真空貯留層に結合した非縮退型3レベルレーザーにおいて, 現実的な実験条件下で, カスケード遷移で発生する2つのレーザモード, $\mathcal{A}$と$\mathcal{B}$のガウスステアリングについて検討した。 さらに、ステアリングの非対称性は$\ln 2$を超えることができないため、状態の$\hat{\varrho}_{\mathcal{ab}}$が極端に非対称な状態になることはない。 片道ステアリングを実現する上で,騒音が建設的役割を担っていることを示す。 主な結果として、状態 $\hat{\varrho}_{\mathcal{AB}}$ は $\mathcal{A}\rightarrow \mathcal{B}$ から一方方向のステアリングのみを表現できることを示し、これはモードの強度差 $\mathcal{A}$ と $\mathcal{B}$ が $\hat{\varrho}_{\mathcal{AB}}$ の物理的および環境的パラメータによらず常に正であることを確認する。 生成した一方向一方向ステアリングは、将来の非対称量子情報タスクにおける信頼の分散に有用なリソースとなるかもしれない。

Steering is a type of quantum nonlocality that exhibits an inherent asymmetry between two observers. In a nondegenerate three-level laser coupled to a two-mode squeezed vacuum reservoir, we examine, under realistic experimental conditions, the Gaussian steering of two laser modes, $\mathcal{A}$ and $\mathcal{B}$, generated within the cascade transitions, respectively. We find that the $\mathcal{A}\rightarrow \mathcal{B}$ steerability is always higher than that from $\mathcal{B}\rightarrow \mathcal{A}$; in addition, the steering asymmetry cannot exceed $\ln 2$, which implies that the state $\hat{\varrho}_{\mathcal{AB}}$ never diverges to an extremal asymmetry state. We show how squeezed noise can play a constructive role in realizing one-way steering. As the main result, we demonstrate that the state $\hat{\varrho}_{\mathcal{AB}}$ can exhibit one-way steering solely from $\mathcal{A}\rightarrow \mathcal{B}$, which we show to emerge as a consequence of the fact that the intensity difference of the modes $\mathcal{A}$ and $\mathcal{B}$ is verified to remain always positive, irrespective of the physical and environmental parameters of $\hat{\varrho}_{\mathcal{AB}}$. The generated unidirectional one-way steering may provide a useful resource for the distribution of the trust in future asymmetric quantum information tasks.
翻訳日:2023-12-08 14:40:53 公開日:2023-12-07
# 量子非局所性の多元的性質を解き明かす

Unmasking the Polygamous Nature of Quantum Nonlocality ( http://arxiv.org/abs/2312.04373v1 )

ライセンス: Link先を確認
Pawe{\l} Cie\'sli\'nski, Mateusz Kowalczyk, Wies{\l}aw Laskowski, Tomasz Paterek, Tam\'as V\'ertesi(参考訳) 量子力学は、ある種の可観測物の値に制限を課す。 おそらく最も有名な例は不確実性原理である。 複数のベルの不等式を同時に違反する同様のトレードオフも存在する。 3人の観測者の最も単純なケースでは、ベルの不等式が他の不等式、すなわちベル違反の一夫一妻制に違反することを妨げることが示されている。 ベル・モノガミーの形式は無符号原理と関連付けられており、全ての不等式を同時に違反することができないことがその基本的な特徴と見なされている。 ここではベル一夫一婦制が普遍的に成り立たないことを示すが、実際には三人の観測者の唯一の一夫一婦制の状況である。 したがって、量子非局所性の性質は真に多元的である。 3人以上の観測者に対して単元原理に従わない量子状態とタイトベル不等式を同定するための体系的手法を提案する。 特定された多元不等式は、アートセットアップの状態において破ることができ、量子ネットワークにおける複数のステーションの同時自己テストに利用できる。

Quantum mechanics imposes limits on the values of certain observables. Perhaps the most famous example is the uncertainty principle. Similar trade-offs also exist for simultaneous violation of multiple Bell inequalities. In the simplest case of three observers it has been shown that violation of one Bell inequality precludes any violation of other inequalities, a property called monogamy of Bell violations. Forms of Bell monogamy have been linked to the no-signalling principle and the inability of simultaneous violations of all inequalities is regarded as their fundamental characteristics. Here we show that Bell monogamy does not hold universally and in fact the only monogamous situation is that of three observers. Consequently, the nature of quantum nonlocality is truly polygamous. We present a systematic methodology for identifying quantum states and tight Bell inequalities that do not obey the monogamy principle for any number of more than three observers. The identified polygamous inequalities can be violated in state of the art setups and may be exploited for simultaneous self-testing of multiple stations in a quantum network.
翻訳日:2023-12-08 14:34:05 公開日:2023-12-07
# LaMPilot: 言語モデルプログラムによる自律運転のためのオープンベンチマークデータセット

LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs ( http://arxiv.org/abs/2312.04372v1 )

ライセンス: Link先を確認
Yunsheng Ma, Can Cui, Xu Cao, Wenqian Ye, Peiran Liu, Juanwu Lu, Amr Abdelraouf, Rohit Gupta, Kyungtae Han, Aniket Bera, James M. Rehg, Ziran Wang(参考訳) 本稿では、自律運転の分野における新しい計画フレームワークであるLaMPilotを紹介し、そのタスクを確立された行動プリミティブを活用するコード生成プロセスとして再考する。 このアプローチは,既存のフレームワークの難しさを招きかねない,"先取り車"のような自発的なユーザ命令の解釈と実行という課題に対処することを目的としている。 本稿では,Large Language Models (LLMs) の有効性を定量的に評価するためのLaMPilotベンチマークを提案する。 次に、LaMPilot Benchmarkのタスクに基づいて、最先端のコード生成言語モデルを広範囲に評価する。 実験の結果、gpt-4は人間のフィードバックを受け、92.7%の印象的なタスク完了率を達成し、最小の衝突速度は0.9%であった。 この領域のさらなる調査を促進するため、コードとデータセットが利用可能になります。

We present LaMPilot, a novel framework for planning in the field of autonomous driving, rethinking the task as a code-generation process that leverages established behavioral primitives. This approach aims to address the challenge of interpreting and executing spontaneous user instructions such as "overtake the car ahead," which have typically posed difficulties for existing frameworks. We introduce the LaMPilot benchmark specifically designed to quantitatively evaluate the efficacy of Large Language Models (LLMs) in translating human directives into actionable driving policies. We then evaluate a wide range of state-of-the-art code generation language models on tasks from the LaMPilot Benchmark. The results of the experiments showed that GPT-4, with human feedback, achieved an impressive task completion rate of 92.7% and a minimal collision rate of 0.9%. To encourage further investigation in this area, our code and dataset will be made available.
翻訳日:2023-12-08 14:33:47 公開日:2023-12-07
# 分散インバータ型電圧制御のためのスケーラブルネットワークアウェアマルチエージェント強化学習フレームワーク

A Scalable Network-Aware Multi-Agent Reinforcement Learning Framework for Decentralized Inverter-based Voltage Control ( http://arxiv.org/abs/2312.04371v1 )

ライセンス: Link先を確認
Han Xu, Jialin Zheng, Guannan Qu(参考訳) 本稿では,分散世代(DG)の増加に伴う電力グリッドの分散電圧制御に関する課題に対処する。 従来のモデルベース電圧制御法は、これらのDGの急激なエネルギー変動と不確実性に対処する。 マルチエージェント強化学習(MARL)は分散二次制御の可能性を示しているが、多数のDGを扱う際にスケーラビリティの問題が発生する。 この問題は、批判者がグローバルな観察と行動をとる、支配的な集中的なトレーニングと分散実行(CTDE)フレームワークにある。 これらの課題を克服するために,ネットワーク構造を利用したスケーラブルなネットワーク認識(SNA)フレームワークを提案する。 さらに、SNAフレームワークには証明可能な近似保証が組み込まれており、複数のマルチエージェントアクター批判アルゴリズムとシームレスに統合することができる。 提案するsnaフレームワークは、114 dgsのシステムで実証され、ますます複雑な電力グリッドシステムにおける分散電圧制御に有望なソリューションを提供する。

This paper addresses the challenges associated with decentralized voltage control in power grids due to an increase in distributed generations (DGs). Traditional model-based voltage control methods struggle with the rapid energy fluctuations and uncertainties of these DGs. While multi-agent reinforcement learning (MARL) has shown potential for decentralized secondary control, scalability issues arise when dealing with a large number of DGs. This problem lies in the dominant centralized training and decentralized execution (CTDE) framework, where the critics take global observations and actions. To overcome these challenges, we propose a scalable network-aware (SNA) framework that leverages network structure to truncate the input to the critic's Q-function, thereby improving scalability and reducing communication costs during training. Further, the SNA framework is theoretically grounded with provable approximation guarantee, and it can seamlessly integrate with multiple multi-agent actor-critic algorithms. The proposed SNA framework is successfully demonstrated in a system with 114 DGs, providing a promising solution for decentralized voltage control in increasingly complex power grid systems.
翻訳日:2023-12-08 14:33:33 公開日:2023-12-07
# 音声強調のための拡散モデルの設計空間の検討

Investigating the Design Space of Diffusion Models for Speech Enhancement ( http://arxiv.org/abs/2312.04370v1 )

ライセンス: Link先を確認
Philippe Gonzalez, Zheng-Hua Tan, Jan {\O}stergaard, Jesper Jensen, Tommy Sonne Alstr{\o}m, Tobias May(参考訳) 拡散モデルは、画像生成文献において優れた性能を示す新しい種類の生成モデルである。 その結果、研究は音声強調など他のタスクに拡散モデルを適用することを試みた。 拡散モデルを音声強調に適用する一般的なアプローチは、クリーンとノイズの音声信号間の漸進変換をモデル化することである。 しかし、画像生成文献にすでにある一般的な拡散モデルフレームワークは、システム入力への変換を考慮せず、既存の拡散ベースの音声強調システムと上記の拡散モデルフレームワークとの関連を防止した。 これを解決するために,クリーン音声信号とノイズ音声信号の進行的変換を考慮し,この枠組みを拡張した。 これにより、画像生成文学からの最近の発展を応用し、ニューラルネットワークの前処理、トレーニング損失重み付け、確率微分方程式(SDE)、逆処理で注入される確率性など、音声強調のためにほとんど探索されていない拡散モデルの設計側面を体系的に研究することができる。 従来の拡散型音声強調システムの性能は, クリーン音声信号とノイズ音声信号の漸進変換に起因するものではないことを示す。 さらに,プレコンディショニング,トレーニング損失重み付け,SDE,サンプリング器の適切な選択は,サンプリングステップを減らしながら,知覚的指標を用いて一般的な拡散に基づく音声強調システムより優れ,計算コストを4倍に削減できることを示す。

Diffusion models are a new class of generative models that have shown outstanding performance in image generation literature. As a consequence, studies have attempted to apply diffusion models to other tasks, such as speech enhancement. A popular approach in adapting diffusion models to speech enhancement consists in modelling a progressive transformation between the clean and noisy speech signals. However, one popular diffusion model framework previously laid in image generation literature did not account for such a transformation towards the system input, which prevents from relating the existing diffusion-based speech enhancement systems with the aforementioned diffusion model framework. To address this, we extend this framework to account for the progressive transformation between the clean and noisy speech signals. This allows us to apply recent developments from image generation literature, and to systematically investigate design aspects of diffusion models that remain largely unexplored for speech enhancement, such as the neural network preconditioning, the training loss weighting, the stochastic differential equation (SDE), or the amount of stochasticity injected in the reverse process. We show that the performance of previous diffusion-based speech enhancement systems cannot be attributed to the progressive transformation between the clean and noisy speech signals. Moreover, we show that a proper choice of preconditioning, training loss weighting, SDE and sampler allows to outperform a popular diffusion-based speech enhancement system in terms of perceptual metrics while using fewer sampling steps, thus reducing the computational cost by a factor of four.
翻訳日:2023-12-08 14:33:15 公開日:2023-12-07
# SingingHead: 頭部アニメーションのための大規模4Dデータセット

SingingHead: A Large-scale 4D Dataset for Singing Head Animation ( http://arxiv.org/abs/2312.04369v1 )

ライセンス: Link先を確認
Sijing Wu, Yunhao Li, Weitian Zhang, Jun Jia, Yucheng Zhu, Yichao Yan, Guangtao Zhai(参考訳) 歌唱は、話すことに次ぐ共通の顔の動きとして、民族や文化にまたがる普遍言語と見なされ、感情的なコミュニケーション、芸術、娯楽において重要な役割を果たしている。 しかし、歌唱ヘッドデータセットの欠如や、リズムや振幅における歌唱と話しのドメインギャップが原因で、音声による顔のアニメーションの分野では見落とされがちである。 この目的のために,76人の個人と8種類の音楽から27時間以上の同期歌唱ビデオ,3D顔の動き,歌唱音声,バックグラウンド音楽からなる,高品質な大規模歌唱ヘッドデータセットであるSingingHeadを収集した。 歌唱ヘッドデータセットとともに,3次元と2次元の表情アニメーションタスクを組み合わせることで,歌唱音声駆動3次元歌唱ヘッドアニメーションと2次元歌唱ポートレートビデオ合成の両方を実現するための統一歌唱顔アニメーションフレームワークunisingerを提案する。 SOTA 3Dの顔アニメーションと2Dのポートレートアニメーションによる大規模な比較実験は、歌唱ヘッドアニメーションタスクにおける歌唱固有のデータセットの必要性と、我々の統合された顔アニメーションフレームワークの有望な性能を示す。

Singing, as a common facial movement second only to talking, can be regarded as a universal language across ethnicities and cultures, plays an important role in emotional communication, art, and entertainment. However, it is often overlooked in the field of audio-driven facial animation due to the lack of singing head datasets and the domain gap between singing and talking in rhythm and amplitude. To this end, we collect a high-quality large-scale singing head dataset, SingingHead, which consists of more than 27 hours of synchronized singing video, 3D facial motion, singing audio, and background music from 76 individuals and 8 types of music. Along with the SingingHead dataset, we argue that 3D and 2D facial animation tasks can be solved together, and propose a unified singing facial animation framework named UniSinger to achieve both singing audio-driven 3D singing head animation and 2D singing portrait video synthesis. Extensive comparative experiments with both SOTA 3D facial animation and 2D portrait animation methods demonstrate the necessity of singing-specific datasets in singing head animation tasks and the promising performance of our unified facial animation framework.
翻訳日:2023-12-08 14:32:47 公開日:2023-12-07
# DemoCaricature: 粗いスケッチで画像生成を民主化

DemoCaricature: Democratising Caricature Generation with a Rough Sketch ( http://arxiv.org/abs/2312.04364v1 )

ライセンス: Link先を確認
Dar-Yen Chen and Subhadeep Koley and Aneeshan Sain and Pinaki Nath Chowdhury and Tao Xiang and Ayan Kumar Bhunia and Yi-Zhe Song(参考訳) 本稿では,画像と概念的スケッチだけで,個人が個々人格化された似顔絵を制作することを可能にする。 私たちの目標は、スケッチに固有の創造性と主観性を保ちながら、抽象化とアイデンティティの微妙なバランスを取ることです。 これを実現するために,単像のパーソナライズと並行して明示的なrank-1モデル編集を行い,識別とスタイルをシームレスに融合するクロスアテンション層にニュアンス編集を選択的に適用する。 さらに,ロバスト性を高めるためにランダムマスク再構成を提案する。 重要なのは、私たちの目標はアーティストを置き換えることではなく、アクセシビリティの障壁をなくすことです。

In this paper, we democratise caricature generation, empowering individuals to effortlessly craft personalised caricatures with just a photo and a conceptual sketch. Our objective is to strike a delicate balance between abstraction and identity, while preserving the creativity and subjectivity inherent in a sketch. To achieve this, we present Explicit Rank-1 Model Editing alongside single-image personalisation, selectively applying nuanced edits to cross-attention layers for a seamless merge of identity and style. Additionally, we propose Random Mask Reconstruction to enhance robustness, directing the model to focus on distinctive identity and style features. Crucially, our aim is not to replace artists but to eliminate accessibility barriers, allowing enthusiasts to engage in the artistry.
翻訳日:2023-12-08 14:32:22 公開日:2023-12-07
# pcoqa:ペルシャの会話型質問応答データセット

PCoQA: Persian Conversational Question Answering Dataset ( http://arxiv.org/abs/2312.04362v1 )

ライセンス: Link先を確認
Hamed Hematian Hemati, Atousa Toghyani, Atena Souri, Sayed Hesam Alavian, Hossein Sameti, Hamid Beigy(参考訳) 人間は、一連の質問と回答を含む会話を行い、特定の話題に関する情報を求める。 対話型質問応答研究の追求において,9,026の文脈駆動型質問を含む情報検索ダイアログを含むリソースであるPCoQA,第1回 \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering datasetを紹介する。 各ダイアログには、ウィキペディアからの質問者、応答者、文書が含まれ、質問者はテキストからいくつかの接続された質問を尋ね、応答者は各質問に対する回答として文書のスパンを提供する。 PCoQAは、よりオープンな非事実回答、より長い回答、語彙的な重複の少ないような、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。 本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。 我々のモデルにはベースラインモデルと事前訓練モデルが含まれており、モデルの性能を高めるために利用されています。 データセットとベンチマークはgithubのページから入手できます。

Humans seek information regarding a specific topic through performing a conversation containing a series of questions and answers. In the pursuit of conversational question answering research, we introduce the PCoQA, the first \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering dataset, a resource comprising information-seeking dialogs encompassing a total of 9,026 contextually-driven questions. Each dialog involves a questioner, a responder, and a document from the Wikipedia; The questioner asks several inter-connected questions from the text and the responder provides a span of the document as the answer for each question. PCoQA is designed to present novel challenges compared to previous question answering datasets including having more open-ended non-factual answers, longer answers, and fewer lexical overlaps. This paper not only presents the comprehensive PCoQA dataset but also reports the performance of various benchmark models. Our models include baseline models and pre-trained models, which are leveraged to boost the performance of the model. The dataset and benchmarks are available at our Github page.
翻訳日:2023-12-08 14:32:05 公開日:2023-12-07
# 騒音下におけるMIP*Vanishesの計算的優位性

The Computational Advantage of MIP* Vanishes in the Presence of Noise ( http://arxiv.org/abs/2312.04360v1 )

ライセンス: Link先を確認
Yangjing Dong, Honghao Fu, Anand Natarajan, Minglong Qin, Haochen Xu and Penghui Yao(参考訳) 絡み合うmip*を持つ量子マルチプロファー対話型証明系は、古典的なmip (babai et al. '91, ji et al. '20): mip = nexp であるのに対し、量子クラスmip* はre に等しい。 これは、MIP* のプローバーが非有界量子絡み合いを共有できるためである。 しかし、qinとyao '21と'23の最近の研究は、provers'共有状態がノイズを含む場合、この利点は大幅に減少することを示している。 本稿では,量子マルチプロペラ対話型証明システムの計算能力に及ぼすノイズの影響を正確に評価する。 検証器が多項式的に多くのビットをプローバーに送信し、プローバーが常に多くのビットを返送する量子二プローラーワンラウンド対話システム MIP*[poly, O(1)] について検討する。 このモデルにおける共有絡み合いによる計算上のアドバンテージを,ノイズが完全に破壊することを示す。 具体的には、各EPR状態が任意に小さなノイズに影響を受けるような任意の数のEPR状態を共有することが許された場合、その複雑性クラスはNEXP = MIPに含まれることを示す。 This improves significantly on the previous best-known bound of NEEEXP (nondeterministic triply exponential time) by Qin and Yao '21. We also show that this collapse in power is due to the noise, rather than the O(1) answer size, by showing that allowing for noiseless EPR states gives the class the full power of RE = MIP*[poly, poly]. Along the way, we develop two technical tools of independent interest. First, we give a new, deterministic tester for the positivity of an exponentially large matrix, provided it has a low-degree Fourier decomposition in terms of Pauli matrices. Secondly, we develop a new invariance principle for smooth matrix functions having bounded third-order Fr\'echet derivatives or which are Lipschitz continous.

Quantum multiprover interactive proof systems with entanglement MIP* are much more powerful than their classical counterpart MIP (Babai et al. '91, Ji et al. '20): while MIP = NEXP, the quantum class MIP* is equal to RE, a class including the halting problem. This is because the provers in MIP* can share unbounded quantum entanglement. However, recent works of Qin and Yao '21 and '23 have shown that this advantage is significantly reduced if the provers' shared state contains noise. This paper attempts to exactly characterize the effect of noise on the computational power of quantum multiprover interactive proof systems. We investigate the quantum two-prover one-round interactive system MIP*[poly, O(1)], where the verifier sends polynomially many bits to the provers and the provers send back constantly many bits. We show noise completely destroys the computational advantage given by shared entanglement in this model. Specifically, we show that if the provers are allowed to share arbitrarily many EPR states, where each EPR state is affected by an arbitrarily small constant amount of noise, the resulting complexity class is contained in NEXP = MIP. This improves significantly on the previous best-known bound of NEEEXP (nondeterministic triply exponential time) by Qin and Yao '21. We also show that this collapse in power is due to the noise, rather than the O(1) answer size, by showing that allowing for noiseless EPR states gives the class the full power of RE = MIP*[poly, poly]. Along the way, we develop two technical tools of independent interest. First, we give a new, deterministic tester for the positivity of an exponentially large matrix, provided it has a low-degree Fourier decomposition in terms of Pauli matrices. Secondly, we develop a new invariance principle for smooth matrix functions having bounded third-order Fr\'echet derivatives or which are Lipschitz continous.
翻訳日:2023-12-08 14:31:42 公開日:2023-12-07
# neujeans:畳み込みとブートストラップの協調最適化によるプライベートニューラルネットワーク推論

NeuJeans: Private Neural Network Inference with Joint Optimization of Convolution and Bootstrapping ( http://arxiv.org/abs/2312.04356v1 )

ライセンス: Link先を確認
Jae Hyung Ju, Jaiyoung Park, Jongmin Kim, Donghwan Kim, and Jung Ho Ahn(参考訳) 完全な同型暗号化(FHE)は、クライアントがクライアントデータをサーバーに隠蔽しながら、クラウドサーバに推論タスクを完全にオフロードできるようにすることで、プライベートニューラルネットワーク推論(PI)サービスを実現するための有望な暗号プリミティブである。 この研究は、深層畳み込みニューラルネットワーク(CNN)のPIのためのFHEベースのソリューションであるNeuJeansを提案する。 NeuJeansは、畳み込み層(convolutional layer, conv2d)の評価において、膨大な計算コストの重大な問題に対処している。 まず、FHE用のエンコードベクトルの内部にネスト構造を導入し、データリオーダコストを低減した効率的なconv2dアルゴリズムの開発を可能にするエンコーディング手法を提案する。 しかし、新しい符号化法は、符号化方法間の変換のためのさらなる計算を導入し、その利点を否定する可能性がある。 ブートストラップによるconv2dの融合は,ブートストラップのコストを低減しつつ,そのような計算を不要にする。 次に,様々な種類のconv2dに対して最適化された実行フローを考案し,CNNのエンドツーエンド実装に適用する。 NeuJeansは、最先端のFHEベースのPI処理と比較して最大5.68倍の性能を加速し、わずか数秒でImageNet(ResNet18)のスケールでCNNのPIを実行する。

Fully homomorphic encryption (FHE) is a promising cryptographic primitive for realizing private neural network inference (PI) services by allowing a client to fully offload the inference task to a cloud server while keeping the client data oblivious to the server. This work proposes NeuJeans, an FHE-based solution for the PI of deep convolutional neural networks (CNNs). NeuJeans tackles the critical problem of the enormous computational cost for the FHE evaluation of convolutional layers (conv2d), mainly due to the high cost of data reordering and bootstrapping. We first propose an encoding method introducing nested structures inside encoded vectors for FHE, which enables us to develop efficient conv2d algorithms with reduced data reordering costs. However, the new encoding method also introduces additional computations for conversion between encoding methods, which could negate its advantages. We discover that fusing conv2d with bootstrapping eliminates such computations while reducing the cost of bootstrapping. Then, we devise optimized execution flows for various types of conv2d and apply them to end-to-end implementation of CNNs. NeuJeans accelerates the performance of conv2d by up to 5.68 times compared to state-of-the-art FHE-based PI work and performs the PI of a CNN at the scale of ImageNet (ResNet18) within a mere few seconds
翻訳日:2023-12-08 14:31:09 公開日:2023-12-07
# CLadder: 言語モデルの因果推論能力を評価するベンチマーク

CLadder: A Benchmark to Assess Causal Reasoning Capabilities of Language Models ( http://arxiv.org/abs/2312.04350v1 )

ライセンス: Link先を確認
Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng Lyu, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, Bernhard Sch\"olkopf(参考訳) 因果推論を行う能力は、インテリジェンスの中核的な特徴であると考えられている。 本研究では,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。 自然言語処理(nlp)における既存の研究の多くは、llmにおける共通意味因果推論の評価に焦点を当てているため、モデルが明確に定義された形式規則のセットに従って因果推論を行うことができるかどうかの評価に失敗している。 そこで我々は,judea pearlらによって提唱された"causal inference engine"に触発された自然言語における因果推論という新しいnlpタスクを提案する。 因果グラフとクエリ(連想グラフ、介入グラフ、反事実グラフ)のコレクションに基づいて、10Kのサンプルを用いて大規模なデータセットCLadderを構成する。 これらは自然言語に翻訳される。 我々はデータセット上で複数のLCMを評価し,提案手法であるCausalCoTの導入と評価を行った。 LLMの因果推論能力についてより深い知見を得るため,本研究の課題は LLM にとって極めて困難であることを示す。 私たちのデータはhttps://huggingface.co/datasets/causalNLP/cladderでオープンソース化されています。

The ability to perform causal reasoning is widely considered a core feature of intelligence. In this work, we investigate whether large language models (LLMs) can coherently reason about causality. Much of the existing work in natural language processing (NLP) focuses on evaluating commonsense causal reasoning in LLMs, thus failing to assess whether a model can perform causal inference in accordance with a set of well-defined formal rules. To address this, we propose a new NLP task, causal inference in natural language, inspired by the "causal inference engine" postulated by Judea Pearl et al. We compose a large dataset, CLadder, with 10K samples: based on a collection of causal graphs and queries (associational, interventional, and counterfactual), we obtain symbolic questions and ground-truth answers, through an oracle causal inference engine. These are then translated into natural language. We evaluate multiple LLMs on our dataset, and we introduce and evaluate a bespoke chain-of-thought prompting strategy, CausalCoT. We show that our task is highly challenging for LLMs, and we conduct an in-depth analysis to gain deeper insight into the causal reasoning abilities of LLMs. Our data is open-sourced at https://huggingface.co/datasets/causalNLP/cladder, and our code can be found at https://github.com/causalNLP/cladder.
翻訳日:2023-12-08 14:30:44 公開日:2023-12-07
# 2次元漸近準周期系における異常輸送

Anomalous transport in 2D asymptotic quasiperiodic system ( http://arxiv.org/abs/2312.04349v1 )

ライセンス: Link先を確認
Ting-Fung Jeffrey Poon, Yuhao Wan, Yucheng Wang, and Xiong-Jun Liu(参考訳) 準周期系はアンダーソンの半ランダムと低次元領域への遷移の概念を拡張し、一次元においても複雑な振る舞いを示すが、高次元の研究はいまだ研究されていない。 ここでは,漸近的に不測フラックスを持つホール系の2次元格子モデルについて考察し,漸近的不測性が輸送現象に与える影響を明らかにする。 具体的には,波束のダイナミクスと導電性に普遍的なスケーリング特性を有する異常なバルク輸送を示し,漸近的不適合性,温度,緩和を伴う新しい相互作用効果を予測し,前例のない異方性金属-絶縁体遷移を引き起こす。 さらに、準周期性は、システムが一方向に完全に絶縁されているとき、エッジ輸送における非自明な異方性も引き起こす。 我々の研究は、金属絶縁体転移の基礎となるメカニズムを高次元の非可逆性によって駆動される異常バルクとエッジ輸送によって強化し、準周期系における新しい輸送現象を探求するための興味深い道を開く可能性がある。

Quasiperiodic systems extend the concept of Anderson transition to the quasi-random and low-dimensional realm, exhibiting intricate behaviors even in the one-dimension, while their investigation in higher dimensions remains less explored. Here, we delve into a series of two-dimensional lattice models of Hall systems with asymptotically incommensurate flux, and reveal the impact of asymptotic incommensurability on transport phenomena. Specifically, we demonstrate anomalous bulk transport with universal scaling characteristics in the wave-packet dynamics and conductivity, and predict novel interplay effects involving asymptotic incommensurability, temperature, and relaxation, leading to unprecedented multiple anisotropic metal-insulator transitions. Furthermore, the quasiperiodicity also induces nontrivial anisotropy in edge transport when the system is fully insulating in one direction. Our work enriches the fundamental mechanisms underlying the metal-insulator transitions with anomalous bulk and edge transport driven by incommensurability in higher dimension, potentially opening an intriguing avenue for exploring novel transport phenomena in quasiperiodic systems.
翻訳日:2023-12-08 14:30:19 公開日:2023-12-07
# 入力整数が一進数表現で与えられるとき

When Input Integers are Given in the Unary Numeral Representation ( http://arxiv.org/abs/2312.04348v1 )

ライセンス: Link先を確認
Tomoyuki Yamakami(参考訳) 多くのNP完全問題は、入力インスタンスの一部として整数を取る。 これらの入力整数は一般に二項化され、すなわち「二項」数表現の形で与えられ、そのような二項形式の長さは問題の計算複雑性を測定する基礎単位として使用される。 対照的に、数値の「無数化(unarization)」(あるいは「無数」数字表現)は、問題の計算複雑性に著しく異なる効果をもたらすことが知られている。 インスタンスのバイナリ化とunarizationの間に計算複雑度差が観測されない場合、この問題は強いnp完全であると言われている。 この研究は、インスタンスの統一化が様々な組合せ問題の計算複雑性にどのように影響するかという問題を浮き彫りにしようとしている。 入力整数がユニタリで表される場合に容易に解くことができるnp完全問題(あるいはnpハード問題)を多数提示する。 次に,不定形整数入力を取る場合の計算の複雑さについて考察する。 このような問題の一覧は、強いNP完全性と非強いNP完全性の間の構造的な違いを示していることを願っている。

Many NP-complete problems take integers as part of their input instances. These input integers are generally binarized, that is, provided in the form of the "binary" numeral representation, and the lengths of such binary forms are used as a basis unit to measure the computational complexity of the problems. In sharp contrast, the "unarization" (or the "unary" numeral representation) of numbers has been known to bring a remarkably different effect onto the computational complexity of the problems. When no computational-complexity difference is observed between binarization and unarization of instances, on the contrary, the problems are said to be strong NP-complete. This work attempts to spotlight an issue of how the unarization of instances affects the computational complexity of various combinatorial problems. We present numerous NP-complete (or even NP-hard) problems, which turn out to be easily solvable when input integers are represented in unary. We then discuss the computational complexities of such problems when taking unary-form integer inputs. We hope that a list of such problems signifies the structural differences between strong NP-completeness and non-strong NP-completeness.
翻訳日:2023-12-08 14:29:57 公開日:2023-12-07
# 偽データインジェクション攻撃とデータ損失に対する高効率2段発振拡散電力系統計測リカバリ

Improved Efficient Two-Stage Denoising Diffusion Power System Measurement Recovery Against False Data Injection Attacks and Data Losses ( http://arxiv.org/abs/2312.04346v1 )

ライセンス: Link先を確認
Jianhua Pei, Jingyu Wang, Dongyuan Shi, Ping Wang(参考訳) サイバー攻撃やデータ損失によって表される測定の不確実性は、電力システム測定の質を著しく低下させる。 幸いなことに、消音拡散モデルの強力な生成能力は、電力系統データ回復のためのより正確な測定生成を可能にする。 しかし, 制御可能なデータ生成法と, 決定論的軌道の拡散モデルの効率的な解法については, さらなる検討が必要である。 そこで本研究では, 種々の測定の不確かさで測定を同定し, 再構成するために, 改良された二段階除算拡散モデル(tsdm)を提案する。 モデルの第1段は分類器誘導条件異常検出成分を含み、第2段は拡散に基づく測定インプテーション成分を含む。 さらに,提案するTSDMは,拡散生成過程をサブシーケンスサンプリングで高速化するために,高精度な手段と最適分散を採用する。 大規模な数値ケーススタディでは、再生可能エネルギー統合下での強いランダム性や複雑なサイバー物理条件下での高非線形ダイナミクスにもかかわらず、提案したTSDMが電力系統測定を正確に回復できることが示されている。 さらに,提案したTSDMは,既存の再構成ネットワークと比較して強い堅牢性を有し,一般化拡散モデルよりも計算複雑性が低い。

Measurement uncertainties, represented by cyber-attacks and data losses, seriously degrade the quality of power system measurements. Fortunately, the powerful generation ability of the denoising diffusion models can enable more precise measurement generation for power system data recovery. However, the controllable data generation and efficient computing methods of denoising diffusion models for deterministic trajectory still need further investigation. To this end, this paper proposes an improved two-stage denoising diffusion model (TSDM) to identify and reconstruct the measurements with various measurement uncertainties. The first stage of the model comprises a classifier-guided conditional anomaly detection component, while the second stage involves diffusion-based measurement imputation component. Moreover, the proposed TSDM adopts precise means and optimal variances to accelerate the diffusion generation process with subsequence sampling. Extensive numerical case studies demonstrate that the proposed TSDM can accurately recover power system measurements despite strong randomness under renewable energy integration and highly nonlinear dynamics under complex cyber-physical contingencies. Additionally, the proposed TSDM has stronger robustness compared to existing reconstruction networks and exhibits lower computational complexity than general denoising diffusion models.
翻訳日:2023-12-08 14:29:41 公開日:2023-12-07
# GPT-4Vにおける医療タスクパフォーマンスの向上:プロンプトエンジニアリング戦略の総合的研究

Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on Prompt Engineering Strategies ( http://arxiv.org/abs/2312.04344v1 )

ライセンス: Link先を確認
Pengcheng Chen, Ziyan Huang, Zhongying Deng, Tianbin Li, Yanzhou Su, Haoyu Wang, Jin Ye, Yu Qiao, Junjun He(参考訳) openaiの最新大型ビジョン言語モデル(lvlm)であるgpt-4v(ision)は、医療応用におけるその可能性に大きな関心を集めている。 約束にもかかわらず、最近の研究や内部レビューは、専門的な医療業務における過小評価を強調している。 本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。 オープンソースデータセットを活用して、基礎的な能力を評価し、拡張のための相当な領域を特定しました。 我々の研究は、AIの応答性を改善するためのしばしば未利用の戦略である、迅速なエンジニアリングを強調している。 反復テストにより,モデルのプロンプトを改良し,医用画像の解釈精度と関連性を大幅に改善した。 包括的評価から, GPT-4Vの医療集積を増強する10種類の効果的なプロンプトエンジニアリング手法を抽出した。 これらの方法論的強化は、GPT-4Vの信頼性、正確、臨床的に価値のある洞察を促進する。 GPT-4Vの完全な診断能力を活かすための、明確で実用的なガイダンスを提供する。

OpenAI's latest large vision-language model (LVLM), GPT-4V(ision), has piqued considerable interest for its potential in medical applications. Despite its promise, recent studies and internal reviews highlight its underperformance in specialized medical tasks. This paper explores the boundary of GPT-4V's capabilities in medicine, particularly in processing complex imaging data from endoscopies, CT scans, and MRIs etc. Leveraging open-source datasets, we assessed its foundational competencies, identifying substantial areas for enhancement. Our research emphasizes prompt engineering, an often-underutilized strategy for improving AI responsiveness. Through iterative testing, we refined the model's prompts, significantly improving its interpretative accuracy and relevance in medical imaging. From our comprehensive evaluations, we distilled 10 effective prompt engineering techniques, each fortifying GPT-4V's medical acumen. These methodical enhancements facilitate more reliable, precise, and clinically valuable insights from GPT-4V, advancing its operability in critical healthcare environments. Our findings are pivotal for those employing AI in medicine, providing clear, actionable guidance on harnessing GPT-4V's full diagnostic potential.
翻訳日:2023-12-08 14:29:19 公開日:2023-12-07
# 信頼できる総合害虫管理の因果性と説明可能性

Causality and Explainability for Trustworthy Integrated Pest Management ( http://arxiv.org/abs/2312.04343v1 )

ライセンス: Link先を確認
Ilias Tsoumas, Vasileios Sitokonstantinou, Georgios Giannarakis, Evagelia Lampiri, Christos Athanassiou, Gustau Camps-Valls, Charalampos Kontoes, Ioannis Athanasiadis(参考訳) 農薬は農薬管理において一般的な道具であるが、気候危機に大きく貢献する。 これに対抗するため、IPM(Integrated Pest Management)は温暖化対策である。 その可能性にもかかわらず、IPMはその有効性に対する農家の懐疑主義のために採用率が低い。 この課題に対処するため,IMM導入を促進するための高度なデータ分析フレームワークを導入する。 私たちのフレームワークは 一 多様性及び因果学習を有する多様な環境にまたがる堅牢な害虫集団予測 二 透明なモデルを用いた解釈可能な害虫存在予測 三 シーズン内IPM介入の事実説明による実行可能な助言 四 フィールド固有の治療効果の推定及び 五 因果推論を用いた助言の有効性の評価 これらの特徴を取り入れることで、懐疑主義を緩和し、農家におけるIMM実践の普及を促進することを目的としている。

Pesticides serve as a common tool in agricultural pest control but significantly contribute to the climate crisis. To combat this, Integrated Pest Management (IPM) stands as a climate-smart alternative. Despite its potential, IPM faces low adoption rates due to farmers' skepticism about its effectiveness. To address this challenge, we introduce an advanced data analysis framework tailored to enhance IPM adoption. Our framework provides i) robust pest population predictions across diverse environments with invariant and causal learning, ii) interpretable pest presence predictions using transparent models, iii) actionable advice through counterfactual explanations for in-season IPM interventions, iv) field-specific treatment effect estimations, and v) assessments of the effectiveness of our advice using causal inference. By incorporating these features, our framework aims to alleviate skepticism and encourage wider adoption of IPM practices among farmers.
翻訳日:2023-12-08 14:29:00 公開日:2023-12-07
# Smooth Diffusion: 拡散モデルにおけるSmooth Latent Spaceの作成

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models ( http://arxiv.org/abs/2312.04410v1 )

ライセンス: Link先を確認
Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree Vasu, Shiji Song, Gao Huang, Humphrey Shi(参考訳) 近年、拡散モデルはテキスト・ツー・イメージ(T2I)生成において顕著な進歩を遂げている。 この進歩にもかかわらず、拡散モデル内の潜在空間の滑らかさはほとんど未解明のままである。 滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証する。 この特性は、画像補間、反転、編集を含む下流タスクにおいて有益である。 本研究では,拡散潜時空間の非平滑性を明らかにするために,微小潜時変動に起因する顕著な視覚的ゆらぎを観測する。 この問題に取り組むため,我々は,ハイパフォーマンスかつスムースな拡散モデルの新たなカテゴリである smooth diffusion を提案する。 具体的には,任意の入力潜時の変動と出力画像の変動との比率を任意の拡散訓練ステップで一定にするために,ステップワイズ変動正規化を導入する。 さらに,拡散モデルの潜在空間の滑らかさを効果的に評価するために,補間標準偏差(istd)メトリックを考案する。 大規模な定量的および定性的実験により、スムース拡散はT2I生成だけでなく、様々な下流タスクにおいてより望ましい解であることが示された。 Smooth DiffusionはSmooth-LoRAプラグインとして実装され、様々なコミュニティモデルで動作する。 コードはhttps://github.com/shi-labs/smooth-diffusionで入手できる。

Recently, diffusion models have made remarkable progress in text-to-image (T2I) generation, synthesizing images with high fidelity and diverse contents. Despite this advancement, latent space smoothness within diffusion models remains largely unexplored. Smooth latent spaces ensure that a perturbation on an input latent corresponds to a steady change in the output image. This property proves beneficial in downstream tasks, including image interpolation, inversion, and editing. In this work, we expose the non-smoothness of diffusion latent spaces by observing noticeable visual fluctuations resulting from minor latent variations. To tackle this issue, we propose Smooth Diffusion, a new category of diffusion models that can be simultaneously high-performing and smooth. Specifically, we introduce Step-wise Variation Regularization to enforce the proportion between the variations of an arbitrary input latent and that of the output image is a constant at any diffusion training step. In addition, we devise an interpolation standard deviation (ISTD) metric to effectively assess the latent space smoothness of a diffusion model. Extensive quantitative and qualitative experiments demonstrate that Smooth Diffusion stands out as a more desirable solution not only in T2I generation but also across various downstream tasks. Smooth Diffusion is implemented as a plug-and-play Smooth-LoRA to work with various community models. Code is available at https://github.com/SHI-Labs/Smooth-Diffusion.
翻訳日:2023-12-08 14:22:57 公開日:2023-12-07
# 量子状態と測定を自己テストするための普遍的スキーム

A universal scheme to self-test any quantum state and measurement ( http://arxiv.org/abs/2312.04405v1 )

ライセンス: Link先を確認
Shubhayan Sarkar, Alexandre C. Orthey, Jr., Remigiusz Augusiak(参考訳) 量子デバイスの出現は、デバイスに信頼を置くことなくデバイスの量子特性を認証する方法という、重大な問題を引き起こした。 量子状態と測定をデバイスに依存しない方法で特徴付けるために、ある程度の自由度まで、自己テストと呼ばれるテクニックを使うことができる。 全ての純多部交絡状態と実局所階数1の射影測定を自己検査するスキームが提案されているが、混合交絡状態、複合的または非射影的測定を認定する試みはほとんど行われていない。 量子ネットワークの枠組みを用いることで,任意の量子状態,射影計測,ランクワン極値非射影計測を自己テストできるスキームを提案する。 この研究で考慮された量子ネットワークは、現在の技術で実装可能な単純なスターネットワークである。 我々の目的のためにも、任意の数のパーティーで2次元トモグラフィー的に完備な測定セットの自己テストに使用できるベルの不等式の族を構築する。

The emergence of quantum devices has raised a significant issue: how to certify the quantum properties of a device without placing trust in it. To characterise quantum states and measurements in a device-independent way, up to some degree of freedom, we can make use of a technique known as self-testing. While schemes have been proposed to self-test all pure multipartite entangled states and real local rank-one projective measurements, little has been done to certify mixed entangled states, composite or non-projective measurements. By employing the framework of quantum networks, we propose a scheme that can be used to self-test any quantum state, projective measurement and rank-one extremal non-projective measurements. The quantum network considered in this work is the simple star network, which is implementable using current technologies. For our purposes, we also construct a family of Bell inequalities that can be used to self-test the two-dimensional tomographically complete set of measurements with an arbitrary number of parties.
翻訳日:2023-12-08 14:21:47 公開日:2023-12-07
# 多次元局所微分プライバシーが公平性に及ぼす影響について

On the Impact of Multi-dimensional Local Differential Privacy on Fairness ( http://arxiv.org/abs/2312.04404v1 )

ライセンス: Link先を確認
karima Makhlouf, Heber H. Arcolezi, Sami Zhioua, Ghassen Ben Brahim, and Catuscia Palamidessi(参考訳) 自動意思決定システムは、人々の生活の中で連続的な決定を行うためにますます使われています。 操作されたデータの感度と結果の決定により、これらの技術、特に公平さとプライバシーを適切に利用するためには、いくつかの倫理的な懸念に対処する必要がある。 本稿では, 単一機密属性に対する集中型差分プライバシー (DP) やローカルDP (LDP) に着目した以前の研究と異なり, 複数属性 (多次元データ) が公平性に与える影響について検討する。 合成およびベンチマークデータセットの詳細な実験分析により、非常に関連する観測が明らかになった。 特に,(1)多次元 LDP は格差を低減するための効率的なアプローチであり,(2)低プライバシー保証においてのみ LDP の多次元的アプローチが重要であり,(3) 結果 Y 分布は,どの群が難易度に敏感であるかに重要な影響を与える。 最後に,MLアプリケーションの公正性と実用性を維持しつつ,効果的なプライバシ保護プラクティスの採用を実践者に対して指導する上での推奨事項として,私たちの知見を要約する。

Automated decision systems are increasingly used to make consequential decisions in people's lives. Due to the sensitivity of the manipulated data as well as the resulting decisions, several ethical concerns need to be addressed for the appropriate use of such technologies, in particular, fairness and privacy. Unlike previous work, which focused on centralized differential privacy (DP) or local DP (LDP) for a single sensitive attribute, in this paper, we examine the impact of LDP in the presence of several sensitive attributes (i.e., multi-dimensional data) on fairness. Detailed empirical analysis on synthetic and benchmark datasets revealed very relevant observations. In particular, (1) multi-dimensional LDP is an efficient approach to reduce disparity, (2) the multi-dimensional approach of LDP (independent vs. combined) matters only at low privacy guarantees, and (3) the outcome Y distribution has an important effect on which group is more sensitive to the obfuscation. Last, we summarize our findings in the form of recommendations to guide practitioners in adopting effective privacy-preserving practices while maintaining fairness and utility in ML applications.
翻訳日:2023-12-08 14:21:03 公開日:2023-12-07
# OT-Attack:最適輸送最適化による視覚言語モデルの逆変換性向上

OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization ( http://arxiv.org/abs/2312.04403v1 )

ライセンス: Link先を確認
Dongchen Han, Xiaojun Jia, Yang Bai, Jindong Gu, Yang Liu, and Xiaochun Cao(参考訳) 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を処理できる優れた能力を示している。 しかし、それらはマルチモーダル対逆例(AE)に弱い。 VLPモデルの脆弱性を現実のシナリオで発見するためには、高透過性逆例の生成を調査することが不可欠である。 近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、VLPモデルの逆例の転送可能性を大幅に向上させることができることが示されている。 しかし,画像テキスト対の最適アライメント問題は考慮されていない。 この監視は、ソースモデルに過度に適合した敵の例をもたらし、転送可能性の改善を制限します。 本研究ではまず,データ拡張による画像集合と対応するテキスト集合との相互作用について検討する。 拡張画像サンプルは、特定のテキストと最適に整合できるが、他のテキストとの関連性は低い。 そこで我々は,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。 提案手法は,画像とテキスト集合の特徴を2つの異なる分布として定式化し,最適なトランスポート理論を用いてそれらの最効率的なマッピングを決定する。 この最適マッピングは、オーバーフィット問題に効果的に対処するために、我々の敵の例を生成する。 画像テキストマッチングタスクにおける様々なネットワークアーキテクチャとデータセットにわたる広範囲な実験により、我々のot攻撃は、敵対的転送可能性の観点から、既存の最先端メソッドよりも優れています。

Vision-language pre-training (VLP) models demonstrate impressive abilities in processing both images and text. However, they are vulnerable to multi-modal adversarial examples (AEs). Investigating the generation of high-transferability adversarial examples is crucial for uncovering VLP models' vulnerabilities in practical scenarios. Recent works have indicated that leveraging data augmentation and image-text modal interactions can enhance the transferability of adversarial examples for VLP models significantly. However, they do not consider the optimal alignment problem between dataaugmented image-text pairs. This oversight leads to adversarial examples that are overly tailored to the source model, thus limiting improvements in transferability. In our research, we first explore the interplay between image sets produced through data augmentation and their corresponding text sets. We find that augmented image samples can align optimally with certain texts while exhibiting less relevance to others. Motivated by this, we propose an Optimal Transport-based Adversarial Attack, dubbed OT-Attack. The proposed method formulates the features of image and text sets as two distinct distributions and employs optimal transport theory to determine the most efficient mapping between them. This optimal mapping informs our generation of adversarial examples to effectively counteract the overfitting issues. Extensive experiments across various network architectures and datasets in image-text matching tasks reveal that our OT-Attack outperforms existing state-of-the-art methods in terms of adversarial transferability.
翻訳日:2023-12-08 14:20:42 公開日:2023-12-07
# 情報経路計画を用いた未知環境における意味セグメンテーションのための半教師付きアクティブラーニング

Semi-Supervised Active Learning for Semantic Segmentation in Unknown Environments Using Informative Path Planning ( http://arxiv.org/abs/2312.04402v1 )

ライセンス: Link先を確認
Julius R\"uckin, Federico Magistri, Cyrill Stachniss, Marija Popovi\'c(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、ロボットが幾何学以外の環境を知覚し、推論することを可能にする。 このようなシステムのほとんどは、ディープラーニングのアプローチに基づいている。 自律ロボットは、当初未知の環境で一般的にデプロイされるため、静的データセットの事前トレーニングは、常にさまざまなドメインをキャプチャして、ミッション中のロボットの知覚性能を制限することはできない。 近年,ロボットの視力を向上させるために,自己指導的かつ完全に教師付きな能動学習手法が出現している。 これらのアプローチは、大規模なドメイン内事前トレーニングデータセットに依存している。 本稿では,完全教師付きアプローチと比較して,人間のラベル付け要件を大幅に削減する意味セグメンテーションの半教師付きアクティブラーニング計画法を提案する。 高モデル不確実性が人間のラベル付けのためのトレーニングデータを集めることで、未探索空間のフロンティアに向けて誘導される適応地図ベースのプランナーを活用する。 提案手法の主な特徴は, 環境マップ領域から自動的に抽出される擬似ラベルと, まばらな高品質なラベルを組み合わせることである。 実験の結果, 完全教師ありアプローチに近いセグメンテーション性能に到達し, 自己教師ありアプローチを上回って, 人間のラベル付け労力を大幅に削減した。

Semantic segmentation enables robots to perceive and reason about their environments beyond geometry. Most of such systems build upon deep learning approaches. As autonomous robots are commonly deployed in initially unknown environments, pre-training on static datasets cannot always capture the variety of domains and limits the robot's perception performance during missions. Recently, self-supervised and fully supervised active learning methods emerged to improve a robot's vision. These approaches rely on large in-domain pre-training datasets or require substantial human labelling effort. We propose a planning method for semi-supervised active learning of semantic segmentation that substantially reduces human labelling requirements compared to fully supervised approaches. We leverage an adaptive map-based planner guided towards the frontiers of unexplored space with high model uncertainty collecting training data for human labelling. A key aspect of our approach is to combine the sparse high-quality human labels with pseudo labels automatically extracted from highly certain environment map areas. Experimental results show that our method reaches segmentation performance close to fully supervised approaches with drastically reduced human labelling effort while outperforming self-supervised approaches.
翻訳日:2023-12-08 14:20:23 公開日:2023-12-07
# 自己教師付き事前学習とカスタマイズ微調整を用いた変圧器を用いた車線レンダリングのインテリジェント異常検出

Intelligent Anomaly Detection for Lane Rendering Using Transformer with Self-Supervised Pre-Training and Customized Fine-Tuning ( http://arxiv.org/abs/2312.04398v1 )

ライセンス: Link先を確認
Yongqi Dong, Xingmin Lu, Ruohan Li, Wei Song, Bart van Arem, Haneen Farah(参考訳) デジタルマップを使った急成長するナビゲーションサービスは、ドライバーにとって非常に便利だ。 それでも、レーンレンダリングマップ画像における異常の存在は、しばしば潜在的な危険をもたらし、そのような異常は人間の運転者に誤解を与え、結果として安全でない運転条件に寄与する。 In response to this concern and to accurately and effectively detect the anomalies, this paper transforms lane rendering image anomaly detection into a classification problem and proposes a four-phase pipeline consisting of data pre-processing, self-supervised pre-training with the masked image modeling (MiM) method, customized fine-tuning using cross-entropy based loss with label smoothing, and post-processing to tackle it leveraging state-of-the-art deep learning techniques, especially those involving Transformer models. 提案パイプラインの有効性を検証した各種実験を行った。 その結果,提案パイプラインは車線レンダリング画像異常検出において優れた性能を示し,特にmimによる自己教師付き事前訓練は,全体のトレーニング時間を著しく短縮しながら検出精度を大幅に向上できることがわかった。 例えば、Uniform Maskingを自己教師付きプレトレーニング(Swin-Trans-UM)として使用すると、94.77%の精度が得られ、AUCスコアは0.9743となり、プレトレーニングのない純粋なSwin Transformer(Swin-Trans)は94.01%、AUCは0.9498となった。 微調整エポックはオリジナルの280から41に劇的に縮小された。 結論として,MiMや他の先進的なディープラーニング技術を用いた自己教師付き事前学習を取り入れたパイプラインが,デジタルナビゲーションシステムにおけるレーンレンダリング画像異常検出の精度と効率を高めるための堅牢なソリューションとして登場した。

The burgeoning navigation services using digital maps provide great convenience to drivers. Nevertheless, the presence of anomalies in lane rendering map images occasionally introduces potential hazards, as such anomalies can be misleading to human drivers and consequently contribute to unsafe driving conditions. In response to this concern and to accurately and effectively detect the anomalies, this paper transforms lane rendering image anomaly detection into a classification problem and proposes a four-phase pipeline consisting of data pre-processing, self-supervised pre-training with the masked image modeling (MiM) method, customized fine-tuning using cross-entropy based loss with label smoothing, and post-processing to tackle it leveraging state-of-the-art deep learning techniques, especially those involving Transformer models. Various experiments verify the effectiveness of the proposed pipeline. Results indicate that the proposed pipeline exhibits superior performance in lane rendering image anomaly detection, and notably, the self-supervised pre-training with MiM can greatly enhance the detection accuracy while significantly reducing the total training time. For instance, employing the Swin Transformer with Uniform Masking as self-supervised pretraining (Swin-Trans-UM) yielded a heightened accuracy at 94.77% and an improved Area Under The Curve (AUC) score of 0.9743 compared with the pure Swin Transformer without pre-training (Swin-Trans) with an accuracy of 94.01% and an AUC of 0.9498. The fine-tuning epochs were dramatically reduced to 41 from the original 280. In conclusion, the proposed pipeline, with its incorporation of self-supervised pre-training using MiM and other advanced deep learning techniques, emerges as a robust solution for enhancing the accuracy and efficiency of lane rendering image anomaly detection in digital navigation systems.
翻訳日:2023-12-08 14:20:07 公開日:2023-12-07
# 量子パルスのパラメトリック増幅

Parametric Amplification of a Quantum Pulse ( http://arxiv.org/abs/2312.04394v1 )

ライセンス: Link先を確認
Offek Tziperman, Victor Rueskov Christiansen, Ido Kaminer and Klaus M{\o}lmer(参考訳) 光の量子状態の作成と操作には非線形相互作用が必要であるが、非線形光学は本質的にマルチモードであるが、量子光学解析はしばしば単一モード近似を用いて行われる。 フィールド生成および消滅演算子において二次的なハミルトニアンによる量子パルスの変換に関する多重モード理論を提案する。 本理論は,パラメトリック増幅やスクイージングなどの非線形過程と,分散やビーム分割といった全ての線形過程を記述する。 1つの入力パルスが2つの異なる出力モードと特定の量子状態に対して1つの出力モードしか供給しないことを示す。 我々の理論は出力モードにおける量子状態を提供し、量子光学や量子情報におけるパルスの応用に不可欠である。

Creating and manipulating quantum states of light requires nonlinear interactions, but while nonlinear optics is inherently multi-mode, quantum optical analyses are often done with single-mode approximations. We present a multi-mode theory for the transformation of a quantum pulse by Hamiltonians that are quadratic in the field creation and annihilation operators. Our theory describes nonlinear processes, such as parametric amplification and squeezing, as well as all linear processes, such as dispersion and beam splitting. We show that a single input pulse feeds only two distinct output modes and, for certain quantum states, just one. Our theory provides the quantum states in the output modes, which are crucial for the application of pulses in quantum optics and quantum information.
翻訳日:2023-12-08 14:19:33 公開日:2023-12-07
# Physhoi: 物理に基づく動的人間-物体相互作用の模倣

PhysHOI: Physics-Based Imitation of Dynamic Human-Object Interaction ( http://arxiv.org/abs/2312.04393v1 )

ライセンス: Link先を確認
Yinhuai Wang, Jing Lin, Ailing Zeng, Zhengyi Luo, Jian Zhang and Lei Zhang(参考訳) 人間は常に物体と相互作用する。 ヒューマノイドが人間と物体の相互作用(hoi)を学習できるようにすることは、将来のスマートアニメーションとインテリジェントロボットシステムにとって重要なステップである。 しかし、物理学に基づくHOIの最近の進歩は、タスク固有の報酬を慎重に設計する必要があるため、システムは膨大で労働集約的である。 この研究は、動的HOI模倣に焦点を当て、運動論的HOIデモンストレーションを模倣することで、ヒューマノイドの動的相互作用スキルを教える。 身体の一部と物体との相互作用の複雑さと、動的なhoiデータの欠如から、非常に困難である。 上記の問題に対処するため,PhysHOIは,タスク固有の報酬設計を伴わずに,物理ベースの全身HOI模倣手法である。 人や物体のキネマティックHOI表現を除いて,物体と身体の接触関係を明示的にモデル化するための接触グラフを導入する。 コンタクトグラフの報酬も設計されており、正確なHOIの模倣には重要であることが証明されている。 鍵となる設計に基づいて、PhysHOIは様々なHOIタスクを模倣できる。 この領域における動的なHOIシナリオの欠如を補うために,全体バスケットボールスキルを8つ含むBallPlayデータセットを紹介した。 体全体の把握やバスケットボールのスキルなど,さまざまなhoiタスクでphyshoiを検証する。

Humans interact with objects all the time. Enabling a humanoid to learn human-object interaction (HOI) is a key step for future smart animation and intelligent robotics systems. However, recent progress in physics-based HOI requires carefully designed task-specific rewards, making the system unscalable and labor-intensive. This work focuses on dynamic HOI imitation: teaching humanoid dynamic interaction skills through imitating kinematic HOI demonstrations. It is quite challenging because of the complexity of the interaction between body parts and objects and the lack of dynamic HOI data. To handle the above issues, we present PhysHOI, the first physics-based whole-body HOI imitation approach without task-specific reward designs. Except for the kinematic HOI representations of humans and objects, we introduce the contact graph to model the contact relations between body parts and objects explicitly. A contact graph reward is also designed, which proved to be critical for precise HOI imitation. Based on the key designs, PhysHOI can imitate diverse HOI tasks simply yet effectively without prior knowledge. To make up for the lack of dynamic HOI scenarios in this area, we introduce the BallPlay dataset that contains eight whole-body basketball skills. We validate PhysHOI on diverse HOI tasks, including whole-body grasping and basketball skills.
翻訳日:2023-12-08 14:19:22 公開日:2023-12-07
# 超伝導量子コンピュータ上での分子窒素の解離曲線の文脈部分空間変動量子固有解法計算

Contextual Subspace Variational Quantum Eigensolver Calculation of the Dissociation Curve of Molecular Nitrogen on a Superconducting Quantum Computer ( http://arxiv.org/abs/2312.04392v1 )

ライセンス: Link先を確認
Tim Weaving, Alexis Ralli, Peter J. Love, Sauro Succi and Peter V. Coveney(参考訳) 本稿では,超伝導量子ハードウェア上の文脈的部分空間変動量子固有解法の実験的実証を行う。 特に分子窒素のポテンシャルエネルギー曲線を計算し、解離限界における静的相関の優位性は、多くの従来の量子化学技術において困難であることを示す。 我々の量子シミュレーションは、選択されたSTO-3G基底における完全な構成相互作用エネルギーと良好な一致を維持し、結合されたクラスタシングルは、1.73 {\AA} の分離を経た三重結合を伸ばすと、摂動三重項で二重となる。 この結果を達成するために、計測誤差軽減、動的デカップリング、ゼロノイズ外挿からなる量子誤差軽減戦略を、受動的ノイズ平均化を提供するだけでなく、効果的なショット収率を改善して測定オーバーヘッドを低減する回路並列化に加えて展開する。 さらに,ハードウェア認識を組み込んだ従来の適応型アンサッツ構成アルゴリズムの修正を提案する。

In this work we present an experimental demonstration of the Contextual Subspace Variational Quantum Eigensolver on superconducting quantum hardware. In particular, we compute the potential energy curve for molecular nitrogen, where a dominance of static correlation in the dissociation limit proves challenging for many conventional quantum chemistry techniques. Our quantum simulations retain good agreement with the full configuration interaction energy in the chosen STO-3G basis, outperforming coupled cluster singles doubles with perturbative triples as one stretches the triple bond past a separation of 1.73 {\AA}. To achieve this result we deploy a quantum error mitigation strategy made up of measurement-error mitigation, dynamical decoupling and zero-noise extrapolation, in addition to circuit parallelization that not only provides passive noise averaging but improves the effective shot yield to reduce the measurement overhead. Furthermore, we introduce a modification to previous adaptive ansatz construction algorithms that incorporates hardware-awareness.
翻訳日:2023-12-08 14:18:58 公開日:2023-12-07
# リスク対応政策最適化のためのモデルに基づく評価値の変動

Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization ( http://arxiv.org/abs/2312.04386v1 )

ライセンス: Link先を確認
Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters(参考訳) モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。 特に,mdp上の分布によって引き起こされる値の分散を特徴付けることに着目する。 従来の作業は、いわゆる不確実ベルマン方程式(UBE)を解くことによって、値よりも後方の分散を上限とするが、過剰近似は非効率な探索をもたらす可能性がある。 提案手法は,値の真後分散に収束し,表層探査問題における後悔度を低下させる新しいUBEを提案する。 本稿では,UBE理論を表計算問題を超えて適用するための課題を特定し,適切な近似法を提案する。 この近似に基づいて, リスク・シーキングあるいはリスク回避政策最適化に最小限の変更で適用可能な, 汎用政策最適化アルゴリズム q-uncertainty soft actor-critic (qu-sac) を提案する。 オンラインRLとオフラインRLの両方の実験では、他の不確実性推定法と比較して性能が向上した。

We consider the problem of quantifying uncertainty over expected cumulative rewards in model-based reinforcement learning. In particular, we focus on characterizing the variance over values induced by a distribution over MDPs. Previous work upper bounds the posterior variance over values by solving a so-called uncertainty Bellman equation (UBE), but the over-approximation may result in inefficient exploration. We propose a new UBE whose solution converges to the true posterior variance over values and leads to lower regret in tabular exploration problems. We identify challenges to apply the UBE theory beyond tabular problems and propose a suitable approximation. Based on this approximation, we introduce a general-purpose policy optimization algorithm, Q-Uncertainty Soft Actor-Critic (QU-SAC), that can be applied for either risk-seeking or risk-averse policy optimization with minimal changes. Experiments in both online and offline RL demonstrate improved performance compared to other uncertainty estimation methods.
翻訳日:2023-12-08 14:18:40 公開日:2023-12-07
# AniRes2D : 2次元MR超解像のための異方性残留拡散

AniRes2D: Anisotropic Residual-enhanced Diffusion for 2D MR Super-Resolution ( http://arxiv.org/abs/2312.04385v1 )

ライセンス: Link先を確認
Zejun Wu, Samuel W. Remedios, Blake E. Dewey, Aaron Carass, Jerry L. Prince(参考訳) 異方性低分解能磁気共鳴(LR)画像は高速に取得できるが、自動処理を妨げている。 本稿では,これらの2次元取得したLRMRスライスを高分解能化するために拡散確率モデル(DDPM)を提案する。 本稿では,DDPMと2次元超解像(SR)の残留予測を組み合わせた新しいアプローチであるAniRes2Dを紹介する。 以上の結果から,AniRes2Dは測定値,視覚的品質,ドメイン外評価において,他のDDPMモデルよりも優れていた。 訓練されたaniles2dを用いて,スライスによる3dボリュームスライスの超解像を行い,最新の自己教師あり3次元超解像法と比較して,定量化と頭蓋骨エイリアシングの低減が達成された。 さらに,DDPMを用いたSRモデルの代替拡張手法としてノイズコンディショニング拡張(NCA)を用いることを検討したが,性能が低下することが判明した。 異方性MR画像のSRに対するDDPMの応用について,本研究は有用である。

Anisotropic low-resolution (LR) magnetic resonance (MR) images are fast to obtain but hinder automated processing. We propose to use denoising diffusion probabilistic models (DDPMs) to super-resolve these 2D-acquired LR MR slices. This paper introduces AniRes2D, a novel approach combining DDPM with a residual prediction for 2D super-resolution (SR). Results demonstrate that AniRes2D outperforms several other DDPM-based models in quantitative metrics, visual quality, and out-of-domain evaluation. We use a trained AniRes2D to super-resolve 3D volumes slice by slice, where comparative quantitative results and reduced skull aliasing are achieved compared to a recent state-of-the-art self-supervised 3D super-resolution method. Furthermore, we explored the use of noise conditioning augmentation (NCA) as an alternative augmentation technique for DDPM-based SR models, but it was found to reduce performance. Our findings contribute valuable insights to the application of DDPMs for SR of anisotropic MR images.
翻訳日:2023-12-08 14:18:21 公開日:2023-12-07
# 自由電子放射にインプリントされた弾性反動

Elastic Recoil Imprinted on Free-electron Radiation ( http://arxiv.org/abs/2312.04383v1 )

ライセンス: Link先を確認
Xihang Shi, Lee Wei Wesley Wong, Sunchao Huang, LiangJie Wong, Ido Kaminer(参考訳) 自由電子放射現象は、量子電気力学の固有相互作用にもかかわらず、ほとんどが古典電気力学によって扱われる。 量子性の欠如は、電子エネルギーとずっと小さな光子エネルギーとの間の大きな格差から生じ、量子効果を無視できる小さな断面積を生み出す。 ここでは、このエネルギー格差を回避し、非常に強い量子特性を示す電子放射の基本的な現象を特定する。 この現象は、非弾性散乱を必要とすると考えられる基本的な放射過程に影響を与える自由電子弾性リコイルから生じる。 量子放射の特徴の根本的な理由は、古典理論では対応するものを持たないが、それぞれの弾性的に反動した電子と放出される光子の間の絡み合いである。 我々は、この現象が自由電子放射における他の種類の量子的特徴よりもアクセスしやすく、電子顕微鏡のような現在の実験装置で検出できることを示した。 これらの量子放射特性は、ナノフォトニクスと量子光学によって促進されるコンパクトなコヒーレントX線源の開発を導く可能性がある。

Free-electron radiation phenomena are treated almost exclusively with classical electrodynamics, despite the intrinsic interaction being that of quantum electrodynamics. The lack of quantumness arises from the vast disparity between the electron energy and the much smaller photon energy, creating a small cross-section that makes quantum effects negligible. Here we identify a fundamentally distinct phenomenon of electron radiation that bypasses this energy disparity, and thus displays extremely strong quantum features. This phenomenon arises from free-electron elastic recoil, which can influence fundamental radiation processes in ways thought so far to necessitate inelastic scattering. The underlying reason for the quantum radiation features, which have no counterparts in classical theory, is the entanglement between each elastically recoiled electron and the photons it emitted. We show that this phenomenon is more accessible than all other types of quantum features in free-electron radiation and can be detected in current experimental setups such as electron microscopes. These quantum radiation features could guide the development of compact coherent X-ray sources facilitated by nanophotonics and quantum optics.
翻訳日:2023-12-08 14:18:02 公開日:2023-12-07
# 教師なし異常検出のための逆分岐拡散モデル

Adversarial Denoising Diffusion Model for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2312.04382v1 )

ライセンス: Link先を確認
Jongmin Yu, Hyeontaek Oh, and Jinhong Yang(参考訳) 本稿では,Adversarial Denoising Diffusion Model (ADDM)を提案する。 ADDM は Denoising Diffusion Probabilistic Model (DDPM) に基づいているが、敵対的学習によって補完的に訓練されている。 提案手法は,特定のサンプリングステップにランダムガウス雑音を付加したモデルに基づく非正規化サンプルとサンプルを分類することで,逆学習を実現する。 データサンプルに明示的な逆学習を加えることで、ADDMはトレーニング中にデータのセマンティックな特性をより堅牢に学習することができ、DDPMよりもはるかに少ないサンプリングステップで同様のデータサンプリング性能を実現することができる。 教師なしMRI画像の異常検出にADDMを適用した。 実験の結果,ADDMは既存の生成モデルに基づく教師なし異常検出法よりも優れていた。 特に,他のDDPMに基づく異常検出法と比較して,ADDMはサンプリングステップの数と同じで,サンプリングステップを50%減らして同様の性能を示す。

In this paper, we propose the Adversarial Denoising Diffusion Model (ADDM). The ADDM is based on the Denoising Diffusion Probabilistic Model (DDPM) but complementarily trained by adversarial learning. The proposed adversarial learning is achieved by classifying model-based denoised samples and samples to which random Gaussian noise is added to a specific sampling step. With the addition of explicit adversarial learning on data samples, ADDM can learn the semantic characteristics of the data more robustly during training, which achieves a similar data sampling performance with much fewer sampling steps than DDPM. We apply ADDM to anomaly detection in unsupervised MRI images. Experimental results show that the proposed ADDM outperformed existing generative model-based unsupervised anomaly detection methods. In particular, compared to other DDPM-based anomaly detection methods, the proposed ADDM shows better performance with the same number of sampling steps and similar performance with 50% fewer sampling steps.
翻訳日:2023-12-08 14:17:43 公開日:2023-12-07
# あなたのXAIはどのくらい情報がありますか。 説明の良否を客観的に測定する意思決定評価課題

How much informative is your XAI? A decision-making assessment task to objectively measure the goodness of explanations ( http://arxiv.org/abs/2312.04379v1 )

ライセンス: Link先を確認
Marco Matarese, Francesco Rea, Alessandra Sciutti(参考訳) 説明可能な人工知能(xai)分野におけるユーザ中心アプローチの有効性に関するコンセンサスが増えている。 実際、XAIに対する個人化アプローチとユーザ中心アプローチの数は、近年急速に増加している。 多くの場合、これらの作品には2つの目的がある:(1)ユーザを考慮できる新しいxai技術の提案、(2)他者に対するそのような技法の \textit{goodness} を評価する。 これらの新たな成果から,ユーザ中心のXAIアプローチがユーザとシステム間のインタラクションに肯定的な影響を与えることが明らかになった。 しかし、これまでのところ、XAIシステムの性能は、性能などの間接的な測定によって測定されている。 本稿では,XAIシステムにおいて,ユーザに対して提供される情報量として意図した「textit{information power}」を用いて,客観的かつ定量的に評価する評価タスクを提案する。 さらに,ユーザ中心のアプローチが古典的手法よりも有益かどうかをより深く理解するために,人間ロボット決定タスクにおける2つのXAI手法を客観的に比較する。

There is an increasing consensus about the effectiveness of user-centred approaches in the explainable artificial intelligence (XAI) field. Indeed, the number and complexity of personalised and user-centred approaches to XAI have rapidly grown in recent years. Often, these works have a two-fold objective: (1) proposing novel XAI techniques able to consider the users and (2) assessing the \textit{goodness} of such techniques with respect to others. From these new works, it emerged that user-centred approaches to XAI positively affect the interaction between users and systems. However, so far, the goodness of XAI systems has been measured through indirect measures, such as performance. In this paper, we propose an assessment task to objectively and quantitatively measure the goodness of XAI systems in terms of their \textit{information power}, which we intended as the amount of information the system provides to the users during the interaction. Moreover, we plan to use our task to objectively compare two XAI techniques in a human-robot decision-making task to understand deeper whether user-centred approaches are more informative than classical ones.
翻訳日:2023-12-08 14:17:25 公開日:2023-12-07
# Deep Dynamics: 自律レースのための物理情報ニューラルネットワークを用いた車両ダイナミクスモデリング

Deep Dynamics: Vehicle Dynamics Modeling with a Physics-Informed Neural Network for Autonomous Racing ( http://arxiv.org/abs/2312.04374v1 )

ライセンス: Link先を確認
John Chrosniak and Jingyun Ning and Madhur Behl(参考訳) 自律走行は自動運転にとって重要な研究領域であり、モデル精度と計算効率のバランスを高速(>280kmph)で達成するなど、車両の動力学モデリングにおいて重大な課題を提示している。 既存の物理に基づく車両力学モデルでは、実装が難しく、時間集約的で、コストを抑えるような詳細なテスト設定とチューニングが必要となる。 逆に、純粋データ駆動アプローチはうまく一般化せず、予測に対する物理的制約を適切に保証できない。 本稿では,自律走行車の車両動力学モデリングのための物理インフォームドニューラルネットワーク(PINN)であるDeep Dynamicsを紹介する。 物理係数推定と力学方程式を組み合わせることで、高速で車両状態を正確に予測し、内部係数推定が名目上の物理的範囲内にあることを確実にするための物理ガード層を含む。 物理ベースのシミュレータとフルスケールの自律型インディレースカーデータを使用したオープンループとクローズドループのパフォーマンス評価は、ディープダイナミクスをレースカーのダイナミックをモデル化するための有望なアプローチとして強調する。

Autonomous racing is a critical research area for autonomous driving, presenting significant challenges in vehicle dynamics modeling, such as balancing model precision and computational efficiency at high speeds (>280kmph), where minor errors in modeling have severe consequences. Existing physics-based models for vehicle dynamics require elaborate testing setups and tuning, which are hard to implement, time-intensive, and cost-prohibitive. Conversely, purely data-driven approaches do not generalize well and cannot adequately ensure physical constraints on predictions. This paper introduces Deep Dynamics, a physics-informed neural network (PINN) for vehicle dynamics modeling of an autonomous racecar. It combines physics coefficient estimation and dynamical equations to accurately predict vehicle states at high speeds and includes a unique Physics Guard layer to ensure internal coefficient estimates remain within their nominal physical ranges. Open-loop and closed-loop performance assessments, using a physics-based simulator and full-scale autonomous Indy racecar data, highlight Deep Dynamics as a promising approach for modeling racecar vehicle dynamics.
翻訳日:2023-12-08 14:17:07 公開日:2023-12-07
# 短波長シード自由電子レーザーによる絡み合いの発生

Generation of entanglement using a short-wavelength seeded free-electron laser ( http://arxiv.org/abs/2312.04442v1 )

ライセンス: Link先を確認
Saikat Nandi, Axel Stenquist, Asimina Papoulia, Edvin Olofsson, Laura Badano, Mattias Bertolino, David Busto, Carlo Callegari, Stefanos Carlstr\"om, Miltcho B. Danailov, Philipp V. Demekhin, Michele Di Fraia, Per Eng-Johnsson, Raimund Feifel, Guillaume Gallician, Luca Giannessi, Mathieu Gisselbrecht, Michele Manfredda, Michael Meyer, Catalin Miron, Jasper Peschel, Oksana Plekan, Kevin C. Prince, Richard J. Squibb, Marco Zangrando, Felipe Zapata, Shiyang Zhong, Jan Marcus Dahlstr\"om(参考訳) 質量粒子間の絡み合いは、古典物理学にはない純粋に量子力学的現象である。 偏光子は大距離での量子エンタングルメントの応用に適しているが、超伝導体、量子ドット、閉じ込められたイオンなどの閉じ込められた量子系では、質量物体のエンタングルメントの基礎研究がしばしば行われる。 ここでは、空間で急速に伝播する自由粒子である光電子と、波長可変結合エネルギー準位を持つ光配置原子イオンという、2つの大きな物体を含む新しい二成分量子系で絡み合いを生成する。 この絡み合いにより、測定された光電子スペクトルは、シード自由電子レーザーによって供給されるフェムト秒極端紫外線と相互作用する残留イオンのコヒーレントダイナミクスに関する情報を明らかにする。 観測は量子光学に基づく解析モデルによって支援され、時間依存ディラック方程式に基づく数値シミュレーションによってさらに検証された。 2つの物体間の絡み合いの度合いは、還元系の絡み合いエントロピーの観点で解釈され、レーザーパルスと装束されたイオンとの相互作用時間の関数として解釈される。 自由電子レーザーからの短波長コヒーレント光パルスを用いて、超高速時間スケール間距離での「スプーキー」作用を研究するための絡み合った光電子・イオン系を生成する可能性を明らかにする。

Entanglement between massive particles is a purely quantum mechanical phenomenon with no counterpart in classical physics. Although polarized photons are suitable for applications of quantum entanglement over large distances, fundamental studies of entanglement in massive objects are often conducted for confined quantum systems, such as superconductors, quantum dots, and trapped ions. Here, we generate entanglement in a novel bipartite quantum system containing two massive objects: a photoelectron, which is a free particle propagating rapidly in space, and a light-dressed atomic ion with tunable coupled energy levels. Because of the entanglement, the measured photoelectron spectra reveal information about the coherent dynamics in the residual ion interacting with femtosecond extreme ultraviolet pulses delivered by a seeded free-electron laser. The observations are supported by a quantum optics based analytical model, which was further validated by numerical simulations based on the time-dependent Dirac equation. The degree of entanglement between the two objects is interpreted in terms of the entanglement entropy of the reduced system, as a function of the interaction time between the laser pulse and the dressed ion. Our results uncover the potential for using short-wavelength coherent light pulses from free-electron lasers to generate entangled photoelectron and ion systems for studying `spooky' action at a distance across ultrafast timescales.
翻訳日:2023-12-08 14:10:48 公開日:2023-12-07
# openasp:マルチドキュメントオープンアスペクトベースの要約のためのベンチマーク

OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization ( http://arxiv.org/abs/2312.04440v1 )

ライセンス: Link先を確認
Shmuel Amar, Liat Schiff, Ori Ernst, Asi Shefer, Ori Shapira and Ido Dagan(参考訳) 近年,自動要約モデルの性能は劇的に向上している。 しかし、現実のシナリオにおいて、特に目的とする要約を求める場合、例えば、本論文が対象とする有用なアスペクトベースの要約設定などにおいて、ユーザの特定の情報ニーズを満たすためのギャップが依然として残っている。 この設定の以前のデータセットと研究は、主に、単一のドキュメント入力のみに焦点を当てた、あるいは合成データに依存する、事前定義された側面の限られたセットに集中している。 より現実的なシナリオについて研究を進めるために,マルチドキュメント \textit{open} アスペクトベースの要約のベンチマークである OpenAsp を導入する。 このベンチマークは、オープンアスペクトデータセットが既存の汎用マルチドキュメント要約データセットから導出される、新規で費用対効果の高いアノテーションプロトコルを用いて作成される。 高品質なコンテンツを示すOpenAspの特性を解析する。 さらに,openaspで実現される現実的なオープンアスペクト設定は,大規模言語モデルだけでなく,現在の最先端の要約モデルにも課題があることを示す。

The performance of automatic summarization models has improved dramatically in recent years. Yet, there is still a gap in meeting specific information needs of users in real-world scenarios, particularly when a targeted summary is sought, such as in the useful aspect-based summarization setting targeted in this paper. Previous datasets and studies for this setting have predominantly concentrated on a limited set of pre-defined aspects, focused solely on single document inputs, or relied on synthetic data. To advance research on more realistic scenarios, we introduce OpenAsp, a benchmark for multi-document \textit{open} aspect-based summarization. This benchmark is created using a novel and cost-effective annotation protocol, by which an open aspect dataset is derived from existing generic multi-document summarization datasets. We analyze the properties of OpenAsp showcasing its high-quality content. Further, we show that the realistic open-aspect setting realized in OpenAsp poses a challenge for current state-of-the-art summarization models, as well as for large language models.
翻訳日:2023-12-08 14:10:25 公開日:2023-12-07
# ホログラフィーにおけるサブシステム複雑度と測定

Subsystem Complexity and Measurements in Holography ( http://arxiv.org/abs/2312.04437v1 )

ライセンス: Link先を確認
Shao-Kai Jian and Yuzhen Zhang(参考訳) 一方のサブシステムの測定が他方のホログラフィック複雑性に与える影響について検討する。 単純な予測は、量子測定中に状態が崩壊して自明な積状態に低下することによる複雑性の低下を示唆するかもしれないが、我々の発見は直感的な結果である。 まず、乱数状態におけるこの複雑性遷移を解明する数え上げ引数を示す。 そこで, CFT真空状態, 熱場二重状態, 入浴に結合したブラックホールの接合系を含む様々なホログラムCFT装置において, 投射測定によって誘起される複雑性相転移を, CV(complexity=volume)提案を用いて同定した。 AdS/BCFT対応によると、後測定の双対幾何は、投影測定によって生成された世界の終端ブレインを含む。 複雑性相転移は、絡み合いのくさびからブレインに接続されたものへの遷移に対応する。 熱場二重配置の文脈では、一方の側での完全な射影は、より複雑な境界状態のブラックホールや、より低い複雑さの純粋なAdSに変換することができる。 非重力浴に結合したブラックホールのジョイントシステムにおいて、(一部)放射を測定する際、bcftは2つの境界(ブラックホールと測定のためのもう1つの境界)を特徴としている。 交差または非交差ブランを含むバルク双対を構築し,射影計測によって引き起こされる複雑性遷移について検討する。 特に、ブラックホールのブレーンを含むサブシステムの場合、そのrt表面は遷移し、複雑さのジャンプを引き起こす可能性がある。

We investigate the impact of measuring one subsystem on the holographic complexity of another. While a naive expectation might suggest a reduction in complexity due to the collapse of the state to a trivial product state during quantum measurements, our findings reveal a counterintuitive result: in numerous scenarios, measurements on one subsystem can amplify the complexity of another. We first present a counting argument elucidating this complexity transition in random states. Then, employing the subregion "complexity=volume" (CV) proposal, we identify a complexity phase transition induced by projection measurements in various holographic CFT setups, including CFT vacuum states, thermofield double states, and the joint system of a black hole coupled to a bath. According to the AdS/BCFT correspondence, the post-measurement dual geometry involves an end-of-the-world brane created by the projection measurement. The complexity phase transition corresponds to the transition of the entanglement wedge to the one connected to the brane. In the context of the thermofield double setup, complete projection on one side can transform the other side into a boundary state black hole with higher complexity or a pure AdS with lower complexity. In the joint system of a black hole coupled to a nongraviting bath, where (a part of) the radiation is measured, the BCFT features two boundaries: one for the black hole and the other for the measurement. We construct the bulk dual involving intersecting or non-intersecting branes, and investigate the complexity transition induced by the projection measurement. Notably, for a subsystem that contains the black hole brane, its RT surface may undergo a transition, giving rise to a complexity jump.
翻訳日:2023-12-08 14:10:08 公開日:2023-12-07
# 有効ハミルトニアンによる格子ゲージ理論 rydberg simulator の臨界挙動

Critical behavior of lattice gauge theory Rydberg simulators from effective Hamiltonians ( http://arxiv.org/abs/2312.04436v1 )

ライセンス: Link先を確認
Jin Zhang, Shan-Wen Tsai, Yannick Meurice(参考訳) コンパクトアベリア・ヒッグスモデル(CAHM)の1+1次元での量子シミュレータとして提案されたリドベルグ原子の多脚ラグ(Y. Meurice, Phys. D 104, 094513 (2021))と三角プリズムのようなこれらのシミュレータの修正版)を考える。 アナログシミュレータの物理ハミルトニアンから始め、いくつかの原子が互いに十分に近接しているときに、遮断機構によって生じるシミュレータの高エネルギー状態を統合することで、翻訳不変の有効ハミルトニアンを構築する。 注目すべきことに、すべてのシミュレーターについて、実効ハミルトニアンはCAHM(電場、物質電荷、電流エネルギー)の3種類の項を持つが、電場におけるクォート的な項も持つ。 2本の脚のはしごでは、これらの追加用語は、現在利用可能なデバイスの調整可能なパラメータを微調整することで取り除けない。 正の退化のために、新しい項は高度に退化した真空を生み出し、非常に興味深い位相図を生成する。 数値解法を用いて,物理シミュレータと地盤エネルギーと実時間発展の効果的な記述との間の密接な対応を示す。 可変ラビ周波数とデチューニングを持つ固定幾何の位相図を考察し,有限密度のqcdの文脈において,多種多様な位相が潜在的興味を持って到達できることを示した。 本稿では, ハイブリッドイベントジェネレータの構築の観点から, 望ましい特性を持つシミュレータを設計するための効果的な記述法について述べる。

We consider multileg ladders of Rydberg atoms which have been proposed as quantum simulators for the compact Abelian Higgs model (CAHM) in 1+1 dimensions [Y. Meurice, Phys. Rev. D 104, 094513 (2021)] and modified versions of theses simulators such as triangular prisms. Starting with the physical Hamiltonian for the analog simulator, we construct translation-invariant effective Hamiltonians by integrating over the simulator high-energy states produced by the blockade mechanism when some of the atoms are sufficiently close to each others. Remarkably, for all the simulators considered, the effective Hamiltonians have the three types of terms present for the CAHM (Electric field, matter charge and currents energies) but, in addition, terms quartic in the electric field. For the two leg ladder, these additional terms cannot be removed by fine-tuning the adjustable parameters of currently available devices. For positive detuning, the new terms create highly-degenerate vacua resulting in a very interesting phase diagram. Using numerical methods, we demonstrate the close correspondence between the physical simulator and the effective description for the ground state energy and real-time evolution. We discuss the phase diagram at fixed geometry with variable Rabi frequency and detuning and show that a rich variety of phases can be reached with potential interest in the context of QCD at finite density. We illustrate how the effective description can be used to design simulators with desirable properties from the point of view of constructing hybrid event generators.
翻訳日:2023-12-08 14:09:40 公開日:2023-12-07
# DreamVideo: カスタマイズされたテーマとモーションでドリームビデオを作る

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion ( http://arxiv.org/abs/2312.04433v1 )

ライセンス: Link先を確認
Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan(参考訳) 拡散モデルを用いたカスタマイズ生成は画像生成において顕著な進歩を遂げてきたが、対象と動作の両方の制御性を必要とするため、難しい映像生成作業には満足できない。 そこで本研究では,対象者の静止画像と対象動画からパーソナライズされた動画を生成する新しい手法であるdreamvideoを提案する。 dreamvideoは、事前学習されたビデオ拡散モデルを利用して、この課題を主題学習と動き学習の2つの段階に分解する。 本研究の目的は,テキストインバージョンと慎重に設計したIDアダプタの微調整を組み合わせることで得られる画像から,被験者の外観を正確に把握することである。 モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。 これら2つの軽量で効率的なアダプタを組み合わせることで、どんな運動でも柔軟にカスタマイズできる。 幅広い実験結果から,映像生成の最先端手法よりもドリームビデオが優れていることを示した。 私たちのプロジェクトページはhttps://dreamvideo-t2v.github.ioにあります。

Customized generation using diffusion models has made impressive progress in image generation, but remains unsatisfactory in the challenging video generation task, as it requires the controllability of both subjects and motions. To that end, we present DreamVideo, a novel approach to generating personalized videos from a few static images of the desired subject and a few videos of target motion. DreamVideo decouples this task into two stages, subject learning and motion learning, by leveraging a pre-trained video diffusion model. The subject learning aims to accurately capture the fine appearance of the subject from provided images, which is achieved by combining textual inversion and fine-tuning of our carefully designed identity adapter. In motion learning, we architect a motion adapter and fine-tune it on the given videos to effectively model the target motion pattern. Combining these two lightweight and efficient adapters allows for flexible customization of any subject with any motion. Extensive experimental results demonstrate the superior performance of our DreamVideo over the state-of-the-art methods for customized video generation. Our project page is at https://dreamvideo-t2v.github.io.
翻訳日:2023-12-08 14:09:11 公開日:2023-12-07
# freqfed: フェデレーション学習における中毒攻撃軽減のための周波数分析に基づくアプローチ

FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2312.04432v1 )

ライセンス: Link先を確認
Hossein Fereidooni, Alessandro Pegoraro, Phillip Rieger, Alexandra Dmitrienko, Ahmad-Reza Sadeghi(参考訳) Federated Learning(FL)は、複数のクライアントがトレーニングデータを共有せずにモデルを共同でトレーニングできる、協調学習パラダイムである。 しかしflは、敵が操作されたモデル更新をフェデレートされたモデル集約プロセスに注入し、予測(ターゲット不明の毒)や隠れた機能(標的の毒またはバックドア)を破壊または破壊する、毒攻撃の影響を受けやすい。 flにおける中毒攻撃に対する既存の防御には、攻撃の種類や戦略やデータ分布に関する特定の仮定に依存するか、高度な注入技術や戦略に対して十分に堅牢でないか、集約モデルの有用性を同時に維持するなど、いくつかの制限がある。 既存の防衛の欠陥に対処するため、我々は、汎用的で全く異なるアプローチで、毒(標的と標的の無い)攻撃を検出する。 本稿では,モデル更新(重み)を周波数領域に変換する新しい集約機構であるfreqfedを提案し,重みに関する十分な情報を継承するコア周波数成分を同定する。 これにより、攻撃タイプ、戦略、クライアントのデータ配布に関係なく、クライアントのローカルトレーニング中に悪意のある更新を効果的にフィルタリングできます。 本稿では、画像分類、単語予測、IoT侵入検出、音声認識など、さまざまなアプリケーション領域におけるFreqFedの有効性と効果を広く評価する。 FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを示す。

Federated learning (FL) is a collaborative learning paradigm allowing multiple clients to jointly train a model without sharing their training data. However, FL is susceptible to poisoning attacks, in which the adversary injects manipulated model updates into the federated model aggregation process to corrupt or destroy predictions (untargeted poisoning) or implant hidden functionalities (targeted poisoning or backdoors). Existing defenses against poisoning attacks in FL have several limitations, such as relying on specific assumptions about attack types and strategies or data distributions or not sufficiently robust against advanced injection techniques and strategies and simultaneously maintaining the utility of the aggregated model. To address the deficiencies of existing defenses, we take a generic and completely different approach to detect poisoning (targeted and untargeted) attacks. We present FreqFed, a novel aggregation mechanism that transforms the model updates (i.e., weights) into the frequency domain, where we can identify the core frequency components that inherit sufficient information about weights. This allows us to effectively filter out malicious updates during local training on the clients, regardless of attack types, strategies, and clients' data distributions. We extensively evaluate the efficiency and effectiveness of FreqFed in different application domains, including image classification, word prediction, IoT intrusion detection, and speech recognition. We demonstrate that FreqFed can mitigate poisoning attacks effectively with a negligible impact on the utility of the aggregated model.
翻訳日:2023-12-08 14:08:52 公開日:2023-12-07
# EUにおけるソーシャルメディアのコンテンツモデレーション:DSA透明性データベースからの考察

Content Moderation on Social Media in the EU: Insights From the DSA Transparency Database ( http://arxiv.org/abs/2312.04431v1 )

ライセンス: Link先を確認
Chiara Drolsbach, Nicolas Pr\"ollochs(参考訳) デジタルサービス法(DSA)は、EU内の大規模なソーシャルメディアプラットフォームに対して、特定のコンテンツへのアクセスを削除または制限するたびに、明確かつ具体的な情報を提供することを要求する。 これらの"Reasonsのステートメント(SoR)"は、オンラインプラットフォームプロバイダのコンテンツモデレーション決定の透明性と精査を確保するために、DSA Transparency Databaseに収集されます。 本研究では、EUのソーシャルメディアプラットフォームにおけるコンテンツモデレーション決定を早期に検討するため、2ヶ月の観察期間内に1億5600万SORを実証分析する。 私たちの経験的分析は、以下の主な発見をもたらす。 (i)プラットフォーム間でのコンテンツモデレーションの頻度には大きな違いがある。 例えば、TikTokはX/Twitterの350倍以上のコンテンツモデレーション決定を行う。 (ii)コンテンツモデレーションはテキストやビデオに最もよく適用されるが、画像やその他のコンテンツフォーマットではモデレーションの頻度は低い。 (二)モデレーションの主な理由は、プラットフォームの範囲外にあるコンテンツ、違法で有害なスピーチ、ポルノ・セクシュアル化コンテンツ等で、誤情報のモデレーションは比較的稀である。 (iii)ルール破壊コンテンツの大部分は、手動の介入ではなく、自動的な手段によって検出され、決定される。 しかし、X/Twitterは非自動化メソッドのみに依存していると報告している。 (iv)プラットフォーム間でのコンテンツモデレーションアクションには大きなバリエーションがある。 全体として、われわれの研究はソーシャルメディアプラットフォームがdsaの下での義務をどのように果たすかの不一致を示唆している。 当社の調査結果は、規制当局が既存のガイドラインを明確化したり、ソーシャルメディアプロバイダがプラットフォーム上のルール違反コンテンツをどのように扱うかの共通基準を定める上で重要な意味を持っている。

The Digital Services Act (DSA) requires large social media platforms in the EU to provide clear and specific information whenever they remove or restrict access to certain content. These "Statements of Reasons" (SoRs) are collected in the DSA Transparency Database to ensure transparency and scrutiny of content moderation decisions of the providers of online platforms. In this work, we empirically analyze 156 million SoRs within an observation period of two months to provide an early look at content moderation decisions of social media platforms in the EU. Our empirical analysis yields the following main findings: (i) There are vast differences in the frequency of content moderation across platforms. For instance, TikTok performs more than 350 times more content moderation decisions per user than X/Twitter. (ii) Content moderation is most commonly applied for text and videos, whereas images and other content formats undergo moderation less frequently. (ii) The primary reasons for moderation include content falling outside the platform's scope of service, illegal/harmful speech, and pornography/sexualized content, with moderation of misinformation being relatively uncommon. (iii) The majority of rule-breaking content is detected and decided upon via automated means rather than manual intervention. However, X/Twitter reports that it relies solely on non-automated methods. (iv) There is significant variation in the content moderation actions taken across platforms. Altogether, our study implies inconsistencies in how social media platforms implement their obligations under the DSA -- resulting in a fragmented outcome that the DSA is meant to avoid. Our findings have important implications for regulators to clarify existing guidelines or lay out more specific rules that ensure common standards on how social media providers handle rule-breaking content on their platforms.
翻訳日:2023-12-08 14:08:25 公開日:2023-12-07
# 効率的な拡散モデルのための近似キャッシング

Approximate Caching for Efficiently Serving Diffusion Models ( http://arxiv.org/abs/2312.04429v1 )

ライセンス: Link先を確認
Shubham Agarwal, Subrata Mitra, Sarthak Chakraborty, Srikrishna Karanam, Koyel Mukherjee, Shiv Saini(参考訳) 拡散モデルを用いたテキスト画像生成は,テキストプロンプトに付着した高品質な画像を生成する能力により,爆発的に普及している。 しかし、プロダクショングレードの拡散モデル提供はリソース集約的なタスクであり、高価なだけでなくかなりの遅延を引き起こすハイエンドGPUを必要とする。 本稿では,先行画像生成中に生成された中間ノイズ状態を類似のプロンプトに再利用することにより,プロンプトに基づく画像生成の反復的デノージングステップを削減できる近似キャッシング手法を提案する。 そこで本研究では,2つの実運用ワークロードにおいて,計算効率が低く,かつ多用される新しいキャッシュ管理方式 (lcbfu) を用いたエンド・ツー・エンドのテキスト・ツー・イメージシステム (nirvana) を提案する。 さらに,大規模な実運用環境における中間状態のキャッシング,人気,再利用の観点から,実運用テキストから画像へのプロンプトの広範なキャラクタリゼーションを提案する。

Text-to-image generation using diffusion models has seen explosive popularity owing to their ability in producing high quality images adhering to text prompts. However, production-grade diffusion model serving is a resource intensive task that not only require high-end GPUs which are expensive but also incurs considerable latency. In this paper, we introduce a technique called approximate-caching that can reduce such iterative denoising steps for an image generation based on a prompt by reusing intermediate noise states created during a prior image generation for similar prompts. Based on this idea, we present an end to end text-to-image system, Nirvana, that uses the approximate-caching with a novel cache management-policy Least Computationally Beneficial and Frequently Used (LCBFU) to provide % GPU compute savings, 19.8% end-to-end latency reduction and 19% dollar savings, on average, on two real production workloads. We further present an extensive characterization of real production text-to-image prompts from the perspective of caching, popularity and reuse of intermediate states in a large production environment.
翻訳日:2023-12-08 14:07:56 公開日:2023-12-07
# Cascade-Zero123: 近景を自力で撮影する3D画像

Cascade-Zero123: One Image to Highly Consistent 3D with Self-Prompted Nearby Views ( http://arxiv.org/abs/2312.04424v1 )

ライセンス: Link先を確認
Yabo Chen, Jiemin Fang, Yuyang Huang, Taoran Yi, Xiaopeng Zhang, Lingxi Xie, Xinggang Wang, Wenrui Dai, Hongkai Xiong, Qi Tian(参考訳) 単一の画像からマルチビュー3Dを合成することは、重要で困難な作業である。 この目的のために、zero-1-to-3法は2次元潜在拡散モデルを3次元範囲に拡張することを目的としている。 これらのアプローチは、単一のビューソースイメージでターゲットビュー画像を生成し、カメラが条件情報としてポーズする。 しかし、Zero-1-to-3で採用されている1対1の手法は、ビュー全体、特に複雑なオブジェクトに対して幾何学的および視覚的整合性を構築する上での課題を引き起こす。 本研究では,ゼロ-1-to-3を2つのモデルで構築したカスケード生成フレームワークであるカスケード-zero123を提案する。 具体的には、最初に近くのビューを複数生成するように自己宣伝機構が設計されている。 これらのビューは生成条件としてソースイメージとともに第2ステージモデルに入力される。 我々のカスケード0123は、ゼロ-1〜3よりも高度に一貫性のあるノベルビュー画像を生成する。 このプロモーションは、昆虫、人間、透明な物体、積み重ねられた複数の物体など、様々な複雑で困難な場面で重要である。 プロジェクトページはhttps://cascadezero123.github.io/にある。

Synthesizing multi-view 3D from one single image is a significant and challenging task. For this goal, Zero-1-to-3 methods aim to extend a 2D latent diffusion model to the 3D scope. These approaches generate the target-view image with a single-view source image and the camera pose as condition information. However, the one-to-one manner adopted in Zero-1-to-3 incurs challenges for building geometric and visual consistency across views, especially for complex objects. We propose a cascade generation framework constructed with two Zero-1-to-3 models, named Cascade-Zero123, to tackle this issue, which progressively extracts 3D information from the source image. Specifically, a self-prompting mechanism is designed to generate several nearby views at first. These views are then fed into the second-stage model along with the source image as generation conditions. With self-prompted multiple views as the supplementary information, our Cascade-Zero123 generates more highly consistent novel-view images than Zero-1-to-3. The promotion is significant for various complex and challenging scenes, involving insects, humans, transparent objects, and stacked multiple objects etc. The project page is at https://cascadezero123.github.io/.
翻訳日:2023-12-08 14:07:36 公開日:2023-12-07
# スケーラブルなナレッジグラフの構築とヒトゲノム変異の推論

Scalable Knowledge Graph Construction and Inference on Human Genome Variants ( http://arxiv.org/abs/2312.04423v1 )

ライセンス: Link先を確認
Shivika Prasanna, Deepthi Rao, Eduardo Simoes, Praveen Rao(参考訳) 実世界の知識は、エンティティとエンティティ間の関係からなるグラフとして表現できる。 RNAシークエンシングのような巨大なゲノムデータを扱う際に、効率的でスケーラブルなソリューションの必要性が生じる。 ナレッジグラフは、解析や推論のような大規模ゲノムデータにおける様々なタスクに対して強力なアプローチを提供する。 本研究は、ワクチン・ナシブウイルス患者のRNA配列から抽出された変異レベル情報を、統合された大きな知識グラフとして表現したものである。 変種コールフォーマット(vcf) 変種レベルの情報を含むファイルは、各変種について追加情報を含むようアノテートされた。 アノテーション付きファイルのデータレコードは、Resource Description Framework(RDF)のトリプルに変換される。 得られた各VCFファイルにはCADDスコアファイルがあり、各変数の生スコアとPhredスケールスコアが含まれている。 VCFおよびCADDスコアファイルに対してオントロジーを定義した。 このオントロジーと抽出された情報を用いて、大規模でスケーラブルな知識グラフが作成された。 利用可能なグラフストレージはクエリに利用され、下流タスク用のデータセットを生成する。 また、知識グラフを用いたケーススタディを行い、グラフ機械学習を用いた分類タスクを実行する。 また,本研究では,異なるグラフニューラルネットワーク(gnns)の比較を行った。

Real-world knowledge can be represented as a graph consisting of entities and relationships between the entities. The need for efficient and scalable solutions arises when dealing with vast genomic data, like RNA-sequencing. Knowledge graphs offer a powerful approach for various tasks in such large-scale genomic data, such as analysis and inference. In this work, variant-level information extracted from the RNA-sequences of vaccine-na\"ive COVID-19 patients have been represented as a unified, large knowledge graph. Variant call format (VCF) files containing the variant-level information were annotated to include further information for each variant. The data records in the annotated files were then converted to Resource Description Framework (RDF) triples. Each VCF file obtained had an associated CADD scores file that contained the raw and Phred-scaled scores for each variant. An ontology was defined for the VCF and CADD scores files. Using this ontology and the extracted information, a large, scalable knowledge graph was created. Available graph storage was then leveraged to query and create datasets for further downstream tasks. We also present a case study using the knowledge graph and perform a classification task using graph machine learning. We also draw comparisons between different Graph Neural Networks (GNNs) for the case study.
翻訳日:2023-12-08 14:07:15 公開日:2023-12-07
# アンチドット付き量子ホールバーにおける連続体中のロバストなトポロジカル境界状態

Robust Topological Bound States in the Continuum in a Quantum Hall Bar with an Anti-dot ( http://arxiv.org/abs/2312.04422v1 )

ライセンス: Link先を確認
Ricardo Y. D\'iaz-Bonifaz and Carlos Ram\'irez(参考訳) 連続体(BIC)のバウンド状態は、正規化可能な波動関数とエネルギーを持つ量子状態であり、拡張あるいは分散状態も利用できる連続スペクトル内に存在する。 これらの特殊な状態は、レーザーやセンサーなどの装置のフォトニックシステムにおいて大きな応用性を示しており、電子的低次元固体系にも存在すると予測されている。 材料の非自明なトポロジーは、境界状態が拡張状態と結合することを妨げる既知のメカニズムの中にある。 本研究では、バーの境界から遠く離れた孔で形成された反ドットを持つ量子ホールバーで、位相的に保護されたBICを探索する。 境界状態エネルギーと波動関数は再帰的s行列法によって計算される。 得られた境界状態エネルギーは拡張状態と共存し、ホフスタッター蝶に相補的なパターンを示す。 対称破壊性対角線障害を導入し、ランダウレベルから離れたエネルギーを持つBICが頑健であることを示した。 さらに、反ドート周囲に乗じた連続するbic間のエネルギー差は、乱れにもかかわらず同じ曲線に従う。 最後に、BICを介する電流スイッチング効果が、実験的な検出を可能にするマルチ端末で発見された。

Bound states in the continuum (BICs) are quantum states with normalizable wave functions and energies that lie within the continuous spectrum for which extended or dispersive states are also available. These special states, which have shown great applicability in photonic systems for devices such as lasers and sensors, are also predicted to exist in electronic low-dimensional solid-state systems. The non-trivial topology of materials is within the known mechanisms that prevent the bound states to couple with the extended states. In this work we search for topologically protected BICs in a quantum Hall bar with an anti-dot formed by a pore far from the borders of the bar. The bound state energies and wavefunctions are calculated by means of the Recursive S-Matrix method. The resulting bound state energies coexist with extended states and exhibit a pattern complimentary to the Hofstadter butterfly. A symmetry-breaking diagonal disorder was introduced, showing that the BICs with energies far from the Landau levels remain robust. Moreover, the energy difference between consecutive BICs multiplied by the anti-dot perimeter follows the same curve despite disorder. Finally, a BIC-mediated current switching effect was found in a multi-terminal setup, which might permit their experimental detection.
翻訳日:2023-12-08 14:07:01 公開日:2023-12-07
# 確率行列積状態を持つ量子格子モデルの有限温度シミュレーション

Finite-Temperature Simulations of Quantum Lattice Models with Stochastic Matrix Product States ( http://arxiv.org/abs/2312.04420v1 )

ライセンス: Link先を確認
Jianxin Gao, Yuan Gao, Qiaoyi Li, Wei Li(参考訳) 本研究では,MPS法とモンテカルロサンプリングを組み合わせた確率行列積状態(stoMPS)アプローチを開発し,量子格子モデルから低温へのシミュレーションに適用する。 特に、行列積状態の局所テンソルを不偏にサンプリングする手順を利用する。これは次元$d$と次元$D$の2つの幾何指標を持つ1つの物理指標を持ち、その結果を$D$を拡大することで継続的に改善することができる。 提案手法を小システムサイズでベンチマークし, 最小絡み合った典型的熱状態のモデルと比較した結果, StoMPSは有限D$で総合的に優れた性能を示した。 さらに、長いスピン鎖を模擬するMPSサンプリングと、シリンダー円周が最大4.5ドルで三角形と正方形格子を利用する。 本研究では,有限温度シミュレーションにおける確率テンソルネットワークの精度と有効性を示す。

In this work, we develop a stochastic matrix product state (stoMPS) approach that combines the MPS technique and Monte Carlo samplings and can be applied to simulate quantum lattice models down to low temperature. In particular, we exploit a procedure to unbiasedly sample the local tensors in the matrix product states, which has one physical index of dimension $d$ and two geometric indices of dimension $D$, and find the results can be continuously improved by enlarging $D$. We benchmark the methods on small system sizes and then compare the results to those obtained with minimally entangled typical thermal states, finding that stoMPS has overall better performance with finite $D$. We further exploit the MPS sampling to simulate long spin chains, as well as the triangular and square lattices with cylinder circumference $W$ up to 4. Our results showcase the accuracy and effectiveness of stochastic tensor networks in finite-temperature simulations.
翻訳日:2023-12-08 14:06:39 公開日:2023-12-07
# マルチウィンナー投票における時間的公正性

Temporal Fairness in Multiwinner Voting ( http://arxiv.org/abs/2312.04417v1 )

ライセンス: Link先を確認
Edith Elkind, Svetlana Obratzsova, Nicholas Teh(参考訳) マルチウィンナー投票は、民主主義システムにおける議会選挙からオンラインショッピングプラットフォームにおける製品配置まで、さまざまな設定を捉えている。 公理的特徴付け、計算複雑性、マルチウィンナー投票規則のアルゴリズム解析を扱う多くの研究がある。 多くの課題が残っているが、公正かつ代表的な結果と、多くのよく研究されている設定に対する効率的なアルゴリズム解の存在を示す大きな進歩があった。 しかし、この作品の多くは単発の選挙に焦点が当てられているが、実際の多くの選挙が定期的に繰り返されている。 したがって、マルチウィンナー投票の研究を時間的設定に拡張することが不可欠である。 近年,この問題に対処する試みがいくつかある。 しかし、これらの作品は、非常に異なる方法で多時期投票をモデル化するため、比較が難しい。 我々は,この領域における時間的公平性を研究するための統一的な枠組みを提案し,既存の様々な作業体とのつながりを描き,それらを汎用的な枠組みに統合する。 また、既存の文献のギャップを識別し、将来の作業の複数の機会を概説し、時間的環境下での多票制の将来へのビジョンを提示する。

Multiwinner voting captures a wide variety of settings, from parliamentary elections in democratic systems to product placement in online shopping platforms. There is a large body of work dealing with axiomatic characterizations, computational complexity, and algorithmic analysis of multiwinner voting rules. Although many challenges remain, significant progress has been made in showing existence of fair and representative outcomes as well as efficient algorithmic solutions for many commonly studied settings. However, much of this work focuses on single-shot elections, even though in numerous real-world settings elections are held periodically and repeatedly. Hence, it is imperative to extend the study of multiwinner voting to temporal settings. Recently, there have been several efforts to address this challenge. However, these works are difficult to compare, as they model multi-period voting in very different ways. We propose a unified framework for studying temporal fairness in this domain, drawing connections with various existing bodies of work, and consolidating them within a general framework. We also identify gaps in existing literature, outline multiple opportunities for future work, and put forward a vision for the future of multiwinner voting in temporal settings.
翻訳日:2023-12-08 14:06:22 公開日:2023-12-07
# 共有社会経済経路による持続的世界発展のモニタリング

Monitoring Sustainable Global Development Along Shared Socioeconomic Pathways ( http://arxiv.org/abs/2312.04416v1 )

ライセンス: Link先を確認
Michelle W.L. Wan, Jeffrey N. Clark, Edward A. Small, Elena Fillola Mayoral, Ra\'ul Santos-Rodr\'iguez(参考訳) 持続可能なグローバル開発は、社会経済の成長と環境持続可能性の均衡に焦点を合わせ、今日、世界が直面している最も一般的な課題の1つだ。 本稿では,数学的に導出されるスコアリングアルゴリズムや機械学習手法を含む共有社会経済経路(ssps)に沿って,持続可能な発展をモニタし,定量化する手法を提案する。 これらは社会経済と環境データセットを統合し、SSPアライメントの解釈可能な指標を生成する。 最初の研究は有望な結果を示し、持続可能なグローバル開発のモニタリングに異なる方法を適用するための基礎を築いている。

Sustainable global development is one of the most prevalent challenges facing the world today, hinging on the equilibrium between socioeconomic growth and environmental sustainability. We propose approaches to monitor and quantify sustainable development along the Shared Socioeconomic Pathways (SSPs), including mathematically derived scoring algorithms, and machine learning methods. These integrate socioeconomic and environmental datasets, to produce an interpretable metric for SSP alignment. An initial study demonstrates promising results, laying the groundwork for the application of different methods to the monitoring of sustainable global development.
翻訳日:2023-12-08 14:06:06 公開日:2023-12-07
# シングルフォノン指向性結合器

A single-phonon directional coupler ( http://arxiv.org/abs/2312.04414v1 )

ライセンス: Link先を確認
Amirparsa Zivari, Niccol\`o Fiaschi, Lorenzo Scarpelli, Menno Jansen, Roel Burgwal, Ewold Verhagen, Simon Gr\"oblacher(参考訳) 統合フォトニクスは、電気通信、分光、メトロロジー、量子光学、量子情報処理において無数の技術を可能にした。 高度に制限された光モードを使うことは、集積回路を可能にする鍵であり、その小さなフットプリントによって、複雑な設計のスケーリングにつながった。 同時に、量子音響学の分野は、フォトニックに比べて、より小さいモード体積、低いエネルギー、桁違いに遅い伝播速度のオーダー、異なる量子系を相互接続する可能性など、様々な潜在的な利点により、最近大きな注目を集めている。 類似の統合フォノン技術の開発は、フォノンの潜在能力をフルに実現するために重要であり、スケーラブルな量子コンピューティングやハイブリッド量子デバイスといった新しいアプリケーションの基礎となる可能性がある。 本研究では,量子力学的励起のための4ポート指向性結合器を初めて実証する。 結合領域の長さを調整することで、分割比が異なるフォノニックビームスプリッタを実現することができる。 単一フォノンフォック状態をこれらのフォノニックスプリッターの1つに送信することにより、量子構造において直接方向結合器を使用する能力を示す。 我々の研究は、古典的および量子的両方の応用のための統合音波プラットフォームに向けた重要なステップを提供する。

Integrated photonics has enabled countless technologies in telecommunications, spectroscopy, metrology, quantum optics, and quantum information processing. Using highly confined guided optical modes is the key that has made integrated circuits possible and has lead to scaling of complex designs, benefiting from their small footprint. At the same time, the field of quantum acoustics has recently gained significant attention due to its various potential advantages over its photonic counterparts, including smaller mode volume, lower energy, and orders of magnitude slower propagation speeds, as well as the potential for interconnecting distinct quantum systems. Developing analogous integrated phononic technology is critical for realizing the full potential of phonons and could lead to groundbreaking new applications, such as scalable quantum computing and hybrid quantum devices. In this work, we demonstrate for the first time a 4-port directional coupler for quantum mechanical excitations - a crucial component for integrated phononic circuits. Adjusting the length of the coupling region allows to realize phononic beam splitters with varying splitting ratios. By sending a single-phonon Fock state onto one of these phononic splitters, we demonstrate the capability of using the directional coupler directly in the quantum regime. Our work provides an essential step towards an integrated phononic platform for both classical and quantum technologies applications.
翻訳日:2023-12-08 14:05:56 公開日:2023-12-07
# 相対論的量子オットーエンジン:量子場からのインスタントワーク抽出

Relativistic quantum Otto engine: Instant work extraction from a quantum field ( http://arxiv.org/abs/2312.04485v1 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura(参考訳) 本研究では,unruh-dewitt粒子検出器を用いて量子オットーエンジンに対する非摂動的アプローチを行い,任意の大域的双曲曲線時空における量子クライン・ゴルドン場から仕事を抽出する。 我々は、真空状態、熱状態、および圧縮状態を含む任意の準自由状態における場を考えることにより、その範囲を広げる。 本手法の重要な特徴は,検出器とフィールド間の瞬時相互作用であり,非摂動解析が可能となる。 第2等調過程の検出器が第1の相互作用から信号を受け取ると、2つの等調過程が瞬時に発生しても、検出器は量子オットーサイクルから正の仕事をうまく抽出できることを実証する。 このシグナリングにより検出器は磁場に熱を放出し、熱力学サイクルが完了する。 実演として,安静時の検出器を平坦な時空で検討し,ミンコフスキー真空状態から抽出した作品を計算した。

In this study, we carry out a non-perturbative approach to a quantum Otto engine, employing an Unruh-DeWitt particle detector to extract work from a quantum Klein-Gordon field in an arbitrary globally hyperbolic curved spacetime. We broaden the scope by considering the field in any quasi-free state, which includes vacuum, thermal, and squeezed states. A key aspect of our method is the instantaneous interaction between the detector and the field, which enables a thorough non-perturbative analysis. We demonstrate that the detector can successfully extract positive work from the quantum Otto cycle, even when two isochoric processes occur instantaneously, provided the detector in the second isochoric process receives a signal from the first interaction. This signaling allows the detector to release heat into the field, thereby the thermodynamic cycle is completed. As a demonstration, we consider a detector at rest in flat spacetime and compute the work extracted from the Minkowski vacuum state.
翻訳日:2023-12-08 14:01:21 公開日:2023-12-07
# FRNet: スケーラブルLiDARセグメンテーションのためのフラストタルラウンジネットワーク

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation ( http://arxiv.org/abs/2312.04484v1 )

ライセンス: Link先を確認
Xiang Xu and Lingdong Kong and Hui Shuai and Qingshan Liu(参考訳) LiDARセグメンテーションは自動運転システムにとって不可欠である。 最近のレンジビューアプローチはリアルタイム処理に有望である。 しかし、それらは必然的に腐敗した文脈情報に悩まされ、予測洗練のための後処理技術に大きく依存する。 本研究では,対応するフラスタムlidar点を用いて,範囲画像画素の文脈情報を復元する簡易かつ強力なfrnetを提案する。 まず、フラストラム特徴エンコーダモジュールを用いて、シーンの一貫性を保ち、ポイントレベルの予測に不可欠であるフラストラム領域内のポイントごとの特徴を抽出する。 次に、フラスタム点融合モジュールを導入し、各ポイントがフラスタム特徴を介してより多くの周辺情報を抽出できるようにする。 最後に、ヘッド融合モジュールは最終的な意味予測のために異なるレベルで機能を融合するために使用される。 タスク設定の異なる4つのLiDARセグメンテーションベンチマークの大規模な実験は、我々の優位性を示している。 FRNetは高い効率を維持しながら競争性能を達成する。 コードは公開されている。

LiDAR segmentation is crucial for autonomous driving systems. The recent range-view approaches are promising for real-time processing. However, they suffer inevitably from corrupted contextual information and rely heavily on post-processing techniques for prediction refinement. In this work, we propose a simple yet powerful FRNet that restores the contextual information of the range image pixels with corresponding frustum LiDAR points. Firstly, a frustum feature encoder module is used to extract per-point features within the frustum region, which preserves scene consistency and is crucial for point-level predictions. Next, a frustum-point fusion module is introduced to update per-point features hierarchically, which enables each point to extract more surrounding information via the frustum features. Finally, a head fusion module is used to fuse features at different levels for final semantic prediction. Extensive experiments on four popular LiDAR segmentation benchmarks under various task setups demonstrate our superiority. FRNet achieves competitive performance while maintaining high efficiency. The code is publicly available.
翻訳日:2023-12-08 14:01:02 公開日:2023-12-07
# テキスト・ビデオ生成のための階層的時空間デカップリング

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation ( http://arxiv.org/abs/2312.04483v1 )

ライセンス: Link先を確認
Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang(参考訳) 拡散モデルはフォトリアリスティックな画像を生成する強力な能力を示してきたが、現実的で多様なビデオを生成することは、まだ初期段階にある。 重要な理由の1つは、現在の手法が空間的コンテンツと時間的ダイナミクスを連動させ、テキスト対ビデオ生成(t2v)の複雑さが著しく増加することである。 本研究では,2つの視点,すなわち構造レベルとコンテンツレベルから映像の空間的・時間的要因を分離することにより,性能を向上させる拡散モデルに基づくHiGenを提案する。 構造レベルでは、t2vタスクを統合デノイザーを用いて空間的推論と時間的推論の2つのステップに分解する。 具体的には,空間推論中にテキストを用いて空間的コヒーレントな前兆を生成し,時間的推論中にこれらの前兆から時間的コヒーレントな動きを生成する。 コンテンツレベルでは、入力ビデオの内容から2つの微妙な手がかりを抽出し、それぞれ動きと外観の変化を表現できる。 これら2つのヒントは、フレキシブルなコンテンツのバリエーションを可能にし、時間的安定性を高めるために、モデルのトレーニングを導く。 分離されたパラダイムによって、HiGenはこのタスクの複雑さを効果的に減らし、セマンティクスの精度と動きの安定性でリアルなビデオを生成することができる。 大規模な実験は、最先端のT2V法よりも優れた性能を示す。

Despite diffusion models having shown powerful abilities to generate photorealistic images, generating videos that are realistic and diverse still remains in its infancy. One of the key reasons is that current methods intertwine spatial content and temporal dynamics together, leading to a notably increased complexity of text-to-video generation (T2V). In this work, we propose HiGen, a diffusion model-based method that improves performance by decoupling the spatial and temporal factors of videos from two perspectives, i.e., structure level and content level. At the structure level, we decompose the T2V task into two steps, including spatial reasoning and temporal reasoning, using a unified denoiser. Specifically, we generate spatially coherent priors using text during spatial reasoning and then generate temporally coherent motions from these priors during temporal reasoning. At the content level, we extract two subtle cues from the content of the input video that can express motion and appearance changes, respectively. These two cues then guide the model's training for generating videos, enabling flexible content variations and enhancing temporal stability. Through the decoupled paradigm, HiGen can effectively reduce the complexity of this task and generate realistic videos with semantics accuracy and motion stability. Extensive experiments demonstrate the superior performance of HiGen over the state-of-the-art T2V methods.
翻訳日:2023-12-08 14:00:45 公開日:2023-12-07
# GSGFormer:マルチモーダル歩行者軌道予測のためのソーシャルグラフ変換器

GSGFormer: Generative Social Graph Transformer for Multimodal Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2312.04479v1 )

ライセンス: Link先を確認
Zhongchang Luo, Marion Robin and Pavan Vasishta(参考訳) 自動運転車や社会的に認識されたロボットにとって不可欠な歩行者軌道予測は、歩行者、環境、および他の脆弱な道路利用者との複雑な相互作用のために複雑である。 本稿では,これらの複雑な相互作用を考慮し,歩行者の軌跡予測に適した革新的な生成モデルgsgformerを提案する。 歩行者、セマンティックマップ、潜在的目的地間の相互作用を捉えるために、異種グラフニューラルネットワークを組み込んだ。 Transformerモジュールは時間的特徴を抽出し,新しいCVAE-Residual-GMMモジュールは多様な行動モダリティ生成を促進する。 複数の公開データセットの評価を通じて、GSGFormerは、リードメソッドを十分なデータで上回るだけでなく、データが制限された場合でも競争力を維持する。

Pedestrian trajectory prediction, vital for selfdriving cars and socially-aware robots, is complicated due to intricate interactions between pedestrians, their environment, and other Vulnerable Road Users. This paper presents GSGFormer, an innovative generative model adept at predicting pedestrian trajectories by considering these complex interactions and offering a plethora of potential modal behaviors. We incorporate a heterogeneous graph neural network to capture interactions between pedestrians, semantic maps, and potential destinations. The Transformer module extracts temporal features, while our novel CVAE-Residual-GMM module promotes diverse behavioral modality generation. Through evaluations on multiple public datasets, GSGFormer not only outperforms leading methods with ample data but also remains competitive when data is limited.
翻訳日:2023-12-08 14:00:21 公開日:2023-12-07
# コードの連鎖:言語モデル拡張コードエミュレータによる推論

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator ( http://arxiv.org/abs/2312.04474v1 )

ライセンス: Link先を確認
Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter(参考訳) Codeは、複雑なプログラムを構築し、コードインタプリタとペアになったときに正確な計算を行うための一般的な構文構造を提供します。 LMはインタプリタで実行できる"detect_sarcasm(string)"の実装を書くのに苦労するかもしれません(エッジケースの処理は不要でしょう)。 しかし、LMはコードの記述だけでなく、"detect_sarcasm(string)"や他のコード行(例えば、インタプリタがコンパイルできない)の出力を生成することで、インタプリタを選択的に"エミュレート"するためにも有効なソリューションを生成することができる。 本研究では,LMコード駆動推論を改善するシンプルな,驚くほど効果的な拡張であるChain of Code (CoT)を提案する。 キーとなる考え方は、LMがプログラム内の言語サブタスクをフレキシブルな擬似コードとしてフォーマットすることを奨励し、コンパイラが明示的に定義されていない振る舞いをキャッチし、LMでシミュレートする("LMulator")ことである。 さまざまなベンチマークにおいて、Chain of CodeがChain of Thoughtやその他のベースラインよりも優れており、BIG-Bench Hardでは、Chain of Codeが84%、Chain of Thoughtよりも12%向上している。 CoTは、大小のモデルと同様の規模でスケールし、LMが「コードを考える」ことで正しく答えられるような推論可能な質問の範囲を広げます。 プロジェクトWebページ: https://chain-of-code.github.io/.com

Code provides a general syntactic structure to build complex programs and perform precise computations when paired with a code interpreter -- we hypothesize that language models (LMs) can leverage code-writing to improve Chain of Thought reasoning not only for logic and arithmetic tasks, but also for linguistic ones (and in particular, those that are a mix of both). For example, consider prompting an LM to write code that counts the number of times it detects sarcasm in an essay: the LM may struggle to write an implementation for "detect_sarcasm(string)" that can be executed by the interpreter (handling the edge cases would be insurmountable). However, LMs may still produce a valid solution if they are used not only to write the code, but also to selectively "emulate" the interpreter by generating the expected output of "detect_sarcasm(string)" and other lines of code (e.g., that the interpreter could not compile). In this work, we propose Chain of Code (CoT), a simple yet surprisingly effective extension that improves LM code-driven reasoning. The key idea is to encourage LMs to format linguistic sub-tasks in a program as flexible pseudocode that the compiler can explicitly catch undefined behaviors and hand off to simulate with an LM (as an "LMulator"). Experiments demonstrate that Chain of Code outperforms Chain of Thought and other baselines across a variety of benchmarks; on BIG-Bench Hard, Chain of Code achieves 84%, a gain of 12% over Chain of Thought. CoT scales well with large and small models alike, and broadens the scope of reasoning questions that LMs can correctly answer by "thinking in code". Project webpage: https://chain-of-code.github.io/.
翻訳日:2023-12-08 14:00:05 公開日:2023-12-07
# 言語モデルにおける透かしの学習性について

On the Learnability of Watermarks for Language Models ( http://arxiv.org/abs/2312.04469v1 )

ライセンス: Link先を確認
Chenchen Gu, Xiang Lisa Li, Percy Liang, Tatsunori Hashimoto(参考訳) 言語モデル出力の透かしは、言語モデルの配置に多くの応用があるモデル生成テキストの統計的検出を可能にする。 既存の透かし戦略は、既存の言語モデルのデコーダを変更し、透かしを生成するために言語モデルを直接学習する能力は、透かしの実際の展開に重大な影響を与える。 まず、学習した透かしを使って、自然に透かしのテキストを生成するオープンモデルを構築することができる。 第二に、生成されたテキストの出所を決定するために透かしを用いると、敵は透かしを偽造し、有害な透かしを発生させることで、被害者モデルの評判を損なう可能性がある。 そこで本研究では,電子透かしを用いた教師モデルのように振る舞うように学習する透かし蒸留法を提案する。 提案手法は,3つの異なる復号型透かし戦略と様々なハイパーパラメータ設定で検証し,高い検出性で透かし付きテキストの生成を学習できることを示す。 また,テキストの微調整による透かし能力の喪失や,低歪み透かしを学習する際のサンプルの複雑さなど,学習可能性の制限も見いだす。

Watermarking of language model outputs enables statistical detection of model-generated text, which has many applications in the responsible deployment of language models. Existing watermarking strategies operate by altering the decoder of an existing language model, and the ability for a language model to directly learn to generate the watermark would have significant implications for the real-world deployment of watermarks. First, learned watermarks could be used to build open models that naturally generate watermarked text, allowing for open models to benefit from watermarking. Second, if watermarking is used to determine the provenance of generated text, an adversary can hurt the reputation of a victim model by spoofing its watermark and generating damaging watermarked text. To investigate the learnability of watermarks, we propose watermark distillation, which trains a student model to behave like a teacher model that uses decoding-based watermarking. We test our approach on three distinct decoding-based watermarking strategies and various hyperparameter settings, finding that models can learn to generate watermarked text with high detectability. We also find limitations to learnability, including the loss of watermarking capabilities under fine-tuning on normal text and high sample complexity when learning low-distortion watermarks.
翻訳日:2023-12-08 13:59:29 公開日:2023-12-07
# 遠方拡散による感情音声駆動型3次元身体アニメーション

Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion ( http://arxiv.org/abs/2312.04466v1 )

ライセンス: Link先を確認
Kiran Chhatre, Radek Dan\v{e}\v{c}ek, Nikos Athanasiou, Giorgio Becherini, Christopher Peters, Michael J. Black, Timo Bolkart(参考訳) 音声から3次元人間のジェスチャーを合成する既存の手法は有望な結果を示しているが、感情が生成したジェスチャーに与える影響を明示的にモデル化するものではない。 代わりに、これらの方法は、表現された感情を制御せずに、音声からアニメーションを直接出力する。 この制限に対処するため,潜在拡散に基づく感情音声駆動体アニメーションモデルAMUSEを提案する。 我々の観察では、内容(すなわち、発声リズムや発話に関連するジェスチャー)、感情、個人的スタイルは分離可能である。 これを説明するため、AMUSEは、駆動音声を3つの非絡み合った潜伏ベクトル(コンテンツ用、感情用、個人用)にマッピングする。 ジェスチャー動作シーケンスを生成するために訓練された潜伏拡散モデルが、これらの潜伏ベクトルに条件付けされる。 訓練後、AMUSEは、音声から直接3Dの人間のジェスチャーを合成し、表現された感情とスタイルを制御し、駆動音声からのコンテンツと他の音声シーケンスの感情とスタイルを組み合わせる。 拡散モデルのノイズをランダムにサンプリングすると、同じ感情表現性を持つジェスチャーのバリエーションが生成される。 定性的、定量的、知覚的な評価は、AMUSEが現実的なジェスチャーシーケンスを出力することを示す。 美術品の状態と比較して、生成したジェスチャーは音声内容とよりよく同期し、入力された音声によって表現される感情をより良く表現する。 プロジェクトのwebサイトはamuse.is.tue.mpg.deです。

Existing methods for synthesizing 3D human gestures from speech have shown promising results, but they do not explicitly model the impact of emotions on the generated gestures. Instead, these methods directly output animations from speech without control over the expressed emotion. To address this limitation, we present AMUSE, an emotional speech-driven body animation model based on latent diffusion. Our observation is that content (i.e., gestures related to speech rhythm and word utterances), emotion, and personal style are separable. To account for this, AMUSE maps the driving audio to three disentangled latent vectors: one for content, one for emotion, and one for personal style. A latent diffusion model, trained to generate gesture motion sequences, is then conditioned on these latent vectors. Once trained, AMUSE synthesizes 3D human gestures directly from speech with control over the expressed emotions and style by combining the content from the driving speech with the emotion and style of another speech sequence. Randomly sampling the noise of the diffusion model further generates variations of the gesture with the same emotional expressivity. Qualitative, quantitative, and perceptual evaluations demonstrate that AMUSE outputs realistic gesture sequences. Compared to the state of the art, the generated gestures are better synchronized with the speech content and better represent the emotion expressed by the input speech. Our project website is amuse.is.tue.mpg.de.
翻訳日:2023-12-08 13:59:05 公開日:2023-12-07
# FitDiff: 拡散モデルを用いたロバストモノクロ3次元顔形状と反射率推定

FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models ( http://arxiv.org/abs/2312.04465v1 )

ライセンス: Link先を確認
Stathis Galanakis, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou(参考訳) 3次元顔再構成の顕著な進歩は、高精細で写真リアリスティックな顔表現をもたらす。 近年,拡散モデルがGANよりもはるかに優れた性能を達成し,生成手法の能力に革命をもたらした。 本研究では,拡散型3次元顔アバター生成モデルであるFitDiffを提案する。 このモデルは、"in-the-wild"の2d顔画像から抽出したアイデンティティ埋め込みを利用して、正確に再現可能な顔アバターを生成する。 マルチモーダル拡散モデルは、顔の反射率マップ(拡散および鏡面アルベドおよび正規値)と形状を同時に出力し、優れた一般化能力を示す。 3D再構成と組み合わせて、パブリックな顔データセットの注釈付きサブセットでのみトレーニングされる。 知覚的および顔認識的損失を用いた逆拡散過程を導くことにより, 従来の3次元顔形成法を再考する。 顔認識の埋め込みを前提とした最初のLCMであるFitDiffは、一般的なレンダリングエンジンで使用可能な、照らし出し可能な人間のアバターを再構築し、制約のない顔画像から始めて、最先端のパフォーマンスを達成する。

The remarkable progress in 3D face reconstruction has resulted in high-detail and photorealistic facial representations. Recently, Diffusion Models have revolutionized the capabilities of generative methods by achieving far better performance than GANs. In this work, we present FitDiff, a diffusion-based 3D facial avatar generative model. This model accurately generates relightable facial avatars, utilizing an identity embedding extracted from an "in-the-wild" 2D facial image. Our multi-modal diffusion model concurrently outputs facial reflectance maps (diffuse and specular albedo and normals) and shapes, showcasing great generalization capabilities. It is solely trained on an annotated subset of a public facial dataset, paired with 3D reconstructions. We revisit the typical 3D facial fitting approach by guiding a reverse diffusion process using perceptual and face recognition losses. Being the first LDM conditioned on face recognition embeddings, FitDiff reconstructs relightable human avatars, that can be used as-is in common rendering engines, starting only from an unconstrained facial image, and achieving state-of-the-art performance.
翻訳日:2023-12-08 13:58:40 公開日:2023-12-07
# 一般関数近似を用いた強化学習のための水平およびインスタンス依存レギュレット境界

Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2312.04464v1 )

ライセンス: Link先を確認
Jiayi Huang, Han Zhong, Liwei Wang, Lin F. Yang(参考訳) 一般関数近似による強化学習における長大計画地平線問題に取り組むために, 計画地平線への多項式依存を解消するため, \emph{horizon-free} と \emph{instance-dependent} の両方を達成する最初のアルゴリズムucrl-wvtrを提案する。 導出した後悔境界は、線形混合MDPを対数因子まで特殊化する場合のミニマックス下界と一致するため、 \emph{sharp} とみなす。 さらに、UCRL-WVTRは回帰オラクルへのアクセスを伴うemph{computationally efficient}である。 そのような地平線のない、インスタンスに依存し、鋭い後悔の束縛の達成 (i)新しいアルゴリズム設計:一般関数近似の文脈における重み付き値目標回帰と高次モーメント推定器 (ii)細粒度解析:重み付き非線形最小二乗の新たな濃度境界と、密接なインスタンス依存境界につながる洗練された解析。 また、理論的な発見を裏付ける包括的な実験も行います。

To tackle long planning horizon problems in reinforcement learning with general function approximation, we propose the first algorithm, termed as UCRL-WVTR, that achieves both \emph{horizon-free} and \emph{instance-dependent}, since it eliminates the polynomial dependency on the planning horizon. The derived regret bound is deemed \emph{sharp}, as it matches the minimax lower bound when specialized to linear mixture MDPs up to logarithmic factors. Furthermore, UCRL-WVTR is \emph{computationally efficient} with access to a regression oracle. The achievement of such a horizon-free, instance-dependent, and sharp regret bound hinges upon (i) novel algorithm designs: weighted value-targeted regression and a high-order moment estimator in the context of general function approximation; and (ii) fine-grained analyses: a novel concentration bound of weighted non-linear least squares and a refined analysis which leads to the tight instance-dependent bound. We also conduct comprehensive experiments to corroborate our theoretical findings.
翻訳日:2023-12-08 13:58:22 公開日:2023-12-07
# トランスフォーマーに基づく言語モデルを活用した要求満足度自動評価

Leveraging Transformer-based Language Models to Automate Requirements Satisfaction Assessment ( http://arxiv.org/abs/2312.04463v1 )

ライセンス: Link先を確認
Amrit Poudel, Jinfeng Lin, Jane Cleland-Huang(参考訳) 要件満足度評価(Requirements Satisfaction Assessment、RSA)は、単一の要件に関連付けられた設計要素のセットが、その要件の十分なカバレッジを提供するかどうかを評価する。 rsaは階層的分解(特に安全性やミッションクリティカル)のあるシステムにとって重要なソフトウェアエンジニアリング活動である。 これまでの研究では、基本的な情報検索モデルを使用して、要求と設計要素をチャンクに分解し、設計要素のチャンクが要求のすべてのチャンクをカバーする範囲を評価した。 しかし, 文全体を横断する批判的概念の多くは, 文を独立したチャンクに解析する際にはうまく表現されなかったため, 精度は低かった。 本稿では、自然言語処理の最近の進歩を活用して、より正確な結果を得る。 本研究では、満足度評価を改善するために、満足度 BERT (Sat-BERT) とデュアル満足度 BERT (DSat-BERT) の2つの主要なアーキテクチャを提案する。 5つの異なるデータセットでrsaを行い、チャンクベースのレガシーアプローチと比較します。 すべてのBERTベースのモデルはレガシーベースラインを著しく上回り、Sat-BERTは平均平均精度を124.75%改善した。

Requirements Satisfaction Assessment (RSA) evaluates whether the set of design elements linked to a single requirement provide sufficient coverage of that requirement -- typically meaning that all concepts in the requirement are addressed by at least one of the design elements. RSA is an important software engineering activity for systems with any form of hierarchical decomposition -- especially safety or mission critical ones. In previous studies, researchers used basic Information Retrieval (IR) models to decompose requirements and design elements into chunks, and then evaluated the extent to which chunks of design elements covered all chunks in the requirement. However, results had low accuracy because many critical concepts that extend across the entirety of the sentence were not well represented when the sentence was parsed into independent chunks. In this paper we leverage recent advances in natural language processing to deliver significantly more accurate results. We propose two major architectures: Satisfaction BERT (Sat-BERT), and Dual-Satisfaction BERT (DSat-BERT), along with their multitask learning variants to improve satisfaction assessments. We perform RSA on five different datasets and compare results from our variants against the chunk-based legacy approach. All BERT-based models significantly outperformed the legacy baseline, and Sat-BERT delivered the best results returning an average improvement of 124.75% in Mean Average Precision.
翻訳日:2023-12-08 13:58:02 公開日:2023-12-07
# photomaker: リアルな人間の写真をスタックid埋め込みでカスタマイズする

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding ( http://arxiv.org/abs/2312.04461v1 )

ライセンス: Link先を確認
Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan(参考訳) テキスト対画像生成の最近の進歩は、与えられたテキストプロンプトで条件付けられたリアルな人間の写真を合成する上で、顕著な進歩を遂げている。 しかし、既存のパーソナライズされた生成方法は、高い効率、有望なアイデンティティ(ID)忠実さ、柔軟なテキスト制御性の要件を同時に満たすことはできない。 本研究では,任意の数の入力id画像をスタックidにエンコードし,id情報を保存するための効率的なテキスト対画像生成手法であるphotomakerを提案する。 このような埋め込みは、統一ID表現として機能し、同一の入力IDの特徴を包括的にカプセル化するだけでなく、その後の統合のために異なるIDの特徴を収容することができる。 これにより、より興味深く実用的なアプリケーションへの道が開ける。 さらに,PhotoMakerのトレーニングを実行するために,トレーニングデータを組み立てるためのID指向のデータ構築パイプラインを提案する。 提案するパイプラインで構築したデータセットでは,テスト時の微調整に基づく方法よりも優れたid保存能力を示すとともに,大幅な高速化,高品質な生成結果,強力な一般化機能,幅広いアプリケーションを提供する。 プロジェクトページはhttps://photo-maker.github.io/で閲覧できます。

Recent advances in text-to-image generation have made remarkable progress in synthesizing realistic human photos conditioned on given text prompts. However, existing personalized generation methods cannot simultaneously satisfy the requirements of high efficiency, promising identity (ID) fidelity, and flexible text controllability. In this work, we introduce PhotoMaker, an efficient personalized text-to-image generation method, which mainly encodes an arbitrary number of input ID images into a stack ID embedding for preserving ID information. Such an embedding, serving as a unified ID representation, can not only encapsulate the characteristics of the same input ID comprehensively, but also accommodate the characteristics of different IDs for subsequent integration. This paves the way for more intriguing and practically valuable applications. Besides, to drive the training of our PhotoMaker, we propose an ID-oriented data construction pipeline to assemble the training data. Under the nourishment of the dataset constructed through the proposed pipeline, our PhotoMaker demonstrates better ID preservation ability than test-time fine-tuning based methods, yet provides significant speed improvements, high-quality generation results, strong generalization capabilities, and a wide range of applications. Our project page is available at https://photo-maker.github.io/
翻訳日:2023-12-08 13:57:28 公開日:2023-12-07
# 量子操作を超えた可逆的絡み合い

Reversible Entanglement Beyond Quantum Operations ( http://arxiv.org/abs/2312.04456v1 )

ライセンス: Link先を確認
Xin Wang, Yu-Ao Chen, Lei Zhang, Chenghong Zhu(参考訳) 部分転置(ppt)の正則性を完全に保存するトレース保存変換下での状態移動に必要な十分条件を確立することにより,完全絡み合い操作の可逆理論を導入する。 これらの自由変換の下では、対数ネガティリティは、熱力学の第2法則におけるエントロピーの役割に類似した、絡み合った状態の変換を決定するための重要な絡み合い測度として現れる。 以前の結果は、エンタングルメントがpptを完全に保存し、エンタングルメントを漸近的に生成しない量子演算の可逆性の問題を開放する量子演算の下では不可逆であることが証明されている。 しかし、標準量子力学によって課される完全な正値性制約を超えて、正確な絡み合い操作の可逆理論が可能となり、絡み合いの可逆性と量子力学の基本原理との間の潜在的な非可逆性が示唆される。

We introduce a reversible theory of exact entanglement manipulation by establishing a necessary and sufficient condition for state transfer under trace-preserving transformations that completely preserve the positivity of partial transpose (PPT). Under these free transformations, we show that logarithmic negativity emerges as the pivotal entanglement measure for determining entangled states' transformations, analogous to the role of entropy in the second law of thermodynamics. Previous results have proven that entanglement is irreversible under quantum operations that completely preserve PPT and leave open the question of reversibility for quantum operations that do not generate entanglement asymptotically. However, we find that going beyond the complete positivity constraint imposed by standard quantum mechanics enables a reversible theory of exact entanglement manipulation, which may suggest a potential incompatibility between the reversibility of entanglement and the fundamental principles of quantum mechanics.
翻訳日:2023-12-08 13:56:51 公開日:2023-12-07
# 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化

Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use ( http://arxiv.org/abs/2312.04455v1 )

ライセンス: Link先を確認
Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li and Rui Yan(参考訳) 大規模言語モデル(LLM)の最近の進歩は、ツールエージェントとしての機能とスキルを大幅に拡張した。 本稿では,モデルの注意配置における波形パターンがツールの使用性能に影響を与え,本質的情報の位置がトラフゾーンに達すると劣化すると主張する。 この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。 このアプローチにより、LLMは並列プロセスを実行することでコンテキストを処理することができ、それぞれが注目波形を形成する独自のRoPEアングルベースを備える。 アテンション・バケットは、特定のプロセスのアテンション・トラフが他のランのアテンション・ピークに補償されることを保証し、アテンション・トラフ内に存在する必須情報を欠いているLLMのリスクを低減する。 広範に認識されているツール利用ベンチマーク実験により,GPT-4と同等のSOTA性能を実現する7Bパラメータオープンソースモデルの有効性が示された。

Recent advancements in large language models (LLMs) have significantly expanded their functionality and skills as tool agents. In this paper, we argue that a waveform pattern in the model's attention allocation has an impact on the tool use performance, which degrades when the position of essential information hits the trough zone. To address this issue, we propose a novel inference method named Attention Buckets. This approach enables LLMs to handle context by conducting parallel processes, each featuring a unique RoPE angle base that shapes the attention waveform. Attention Buckets ensures that an attention trough of a particular process can be compensated with an attention peak of another run, reducing the risk of the LLM missing essential information residing within the attention trough. Our extensive experiments on the widely recognized tool use benchmark demonstrate the efficacy of our approach, where a 7B-parameter open-source model enhanced by Attention Buckets achieves SOTA performance on par with GPT-4.
翻訳日:2023-12-08 13:56:22 公開日:2023-12-07
# 代替視点から見た相対論的材料

Relativistic materials from an alternative viewpoint ( http://arxiv.org/abs/2312.04448v1 )

ライセンス: Link先を確認
Ann E. Mattsson, Daniel A. Rehn(参考訳) 重元素を含む物質の電子は基本的に相対論的であり、原則としてディラック方程式を用いて記述すべきである。 しかしながら、そのような材料における電子の処理の現在の標準は、シュルンディンガー方程式からもともと定式化された密度汎関数理論法である。 schr\"{o}dinger-based formula の拡張はスピン軌道結合の有無にかかわらずスカラー相対論的近似のように研究されているが、これらの解は電子の全ての相対論的効果を完全に考慮する方法を提供しておらず、そのような解を記述するために使われる言語はschr\"{o}dinger方程式の言語に基づいている。 本稿では,dirac と schr\"{o}dinger の視点をクーロンポテンシャルの文脈で変換する別の方法を提案する。 非相対論的極限を取るためのディラック四ベクトル記法と用語を保ち続けることで、ディラック方程式とシュレーディンガー方程式解の間にはより深い関係があり、角関数と半径関数の相対性効果の効果をより直接的に比較することができる。 この観点から、ディラックとシュル「{o}ディンガー解の間をより簡単に翻訳できるようなディラック球面調和の概念を導入する。 これらの概念により、全周期表を通して元素を含む材料の相対論的効果を議論するための有用な言語を確立し、電子構造に対する相対性理論の影響をより根本的な理解を可能にする。

Electrons in materials containing heavy elements are fundamentally relativistic and should in principle be described using the Dirac equation. However, the current standard for treatment of electrons in such materials involves density functional theory methods originally formulated from the Schr\"{o}dinger equation. While some extensions of the Schr\"{o}dinger-based formulation have been explored, such as the scalar relativistic approximation with or without spin-orbit coupling, these solutions do not provide a way to fully account for all relativistic effects of electrons, and the language used to describe such solutions are still based in the language of the Schr\"{o}dinger equation. In this article, we provide a different method for translating between the Dirac and Schr\"{o}dinger viewpoints in the context of a Coulomb potential. By retaining the Dirac four-vector notation and terminology in taking the non-relativistic limit, we see a much deeper connection between the Dirac and Schr\"{o}dinger equation solutions that allow us to more directly compare the effects of relativity in the angular and radial functions. Through this viewpoint, we introduce the concepts of densitals and Dirac spherical harmonics that allow us to translate more easily between the Dirac and Schr\"{o}dinger solutions. These concepts allow us to establish a useful language for discussing relativistic effects in materials containing elements throughout the full periodic table and thereby enable a more fundamental understanding of the effects of relativity on electronic structure.
翻訳日:2023-12-08 13:55:30 公開日:2023-12-07
# 勾配隠れによるプライバシー保全型量子フェデレーション学習

Privacy-preserving quantum federated learning via gradient hiding ( http://arxiv.org/abs/2312.04447v1 )

ライセンス: Link先を確認
Changhao Li, Niraj Kumar, Zhixin Song, Shouvanik Chakrabarti and Marco Pistoia(参考訳) 分散量子コンピューティング、特に分散量子機械学習は、個々の量子ノードの制限を超越して、分散量子リソースの集合的パワーを利用する能力でかなりの人気を得ている。 一方で、分散コンピューティングプロトコル内のプライバシに関する重要な懸念は、特に、参加するクライアントのデータがサーバによる勾配反転攻撃によって漏洩するおそれのある、標準的な連合学習(fl)シナリオにおいて、依然として大きな課題である。 本稿では、FL問題に対処し、プライバシー対策を強化し、通信効率を最適化する量子通信を用いた革新的な量子プロトコルを提案する。 表現型変分量子回路や微分プライバシー技術を利用する従来の研究とは対照的に、量子状態を用いた勾配情報隠蔽を考慮し、プライベートな内積推定とインクリメンタル学習に基づく2つの異なるflプロトコルを提案する。 これらのプロトコルは、低通信リソースによるプライバシー保護の大幅な進歩、効率的な量子通信支援FLプロトコルへの道のりを築き、セキュアな分散量子機械学習の開発に貢献し、量子コンピューティング時代の重要なプライバシー問題に対処する。

Distributed quantum computing, particularly distributed quantum machine learning, has gained substantial prominence for its capacity to harness the collective power of distributed quantum resources, transcending the limitations of individual quantum nodes. Meanwhile, the critical concern of privacy within distributed computing protocols remains a significant challenge, particularly in standard classical federated learning (FL) scenarios where data of participating clients is susceptible to leakage via gradient inversion attacks by the server. This paper presents innovative quantum protocols with quantum communication designed to address the FL problem, strengthen privacy measures, and optimize communication efficiency. In contrast to previous works that leverage expressive variational quantum circuits or differential privacy techniques, we consider gradient information concealment using quantum states and propose two distinct FL protocols, one based on private inner-product estimation and the other on incremental learning. These protocols offer substantial advancements in privacy preservation with low communication resources, forging a path toward efficient quantum communication-assisted FL protocols and contributing to the development of secure distributed quantum machine learning, thus addressing critical privacy concerns in the quantum computing era.
翻訳日:2023-12-08 13:54:40 公開日:2023-12-07
# SoK: マシンラーニングの防御とリスク間の意図しないインタラクション

SoK: Unintended Interactions among Machine Learning Defenses and Risks ( http://arxiv.org/abs/2312.04542v1 )

ライセンス: Link先を確認
Vasisht Duddu, Sebastian Szyller, N. Asokan(参考訳) 機械学習(ML)モデルは、セキュリティ、プライバシ、公正性のリスクを無視することはできない。 このようなリスクを軽減するため、いくつかの防衛策が提案されている。 防衛が1つのリスクの軽減に有効である場合、他のリスクに対する感受性の増大または低下に対応できる。 既存の研究には、意図しない相互作用を認識し説明するための効果的な枠組みが欠けている。 このような枠組みは、過剰適合と暗記が意図しない相互作用をもたらすという予想に基づくものである。 我々は、意図しない相互作用に関する既存の文献を調査し、フレームワーク内でそれらを収容する。 2つの未探索相互作用の予想に我々のフレームワークを使用し、我々の予想を実証的に検証する。

Machine learning (ML) models cannot neglect risks to security, privacy, and fairness. Several defenses have been proposed to mitigate such risks. When a defense is effective in mitigating one risk, it may correspond to increased or decreased susceptibility to other risks. Existing research lacks an effective framework to recognize and explain these unintended interactions. We present such a framework, based on the conjecture that overfitting and memorization underlie unintended interactions. We survey existing literature on unintended interactions, accommodating them within our framework. We use our framework to conjecture on two previously unexplored interactions, and empirically validate our conjectures.
翻訳日:2023-12-08 13:47:26 公開日:2023-12-07
# 第3種の対応:物体反射によるカメラポーズ推定

Correspondences of the Third Kind: Camera Pose Estimation from Object Reflection ( http://arxiv.org/abs/2312.04527v1 )

ライセンス: Link先を確認
Kohei Yamashita, Vincent Lepetit, Ko Nishino(参考訳) コンピュータビジョンは長い間、画像のピクセル対応とオブジェクト表面の3d対応という2種類の対応に依存してきた。 他にも何かありますか,もしあれば,私たちに何ができるでしょうか? 本稿では,反射対応と呼ばれる第3種類の対応について紹介し,背景に頼らずに被写体を見るだけでカメラのポーズを推定できることを示す。 反射対応は、反射世界の点対応、すなわち、物体表面によって反射されるシーンである。 対象の幾何学と反射率はそれぞれ幾何学的および放射学的に変化し、不正確なピクセル対応を引き起こす。 各画像から復元された幾何もまた歪み、すなわち一般化されたbas-reliefの曖昧さによって妨げられ、誤った3次元対応に繋がる。 これらの歪みから生じるあいまいさを反射対応で解消できることを示す。 本稿では,ロバストで高精度なジョイントカメラポーズと物体の形状推定のための3種類の対応をすべて活用したニューラル対応推定器とransacアルゴリズムを提案する。 この手法は、外見モデリングのためのカメラポーズ推定(例えば、NeRF)や反射物体(例えば、道路上の車)の運動推定など、多くの下流タスクの地平線を拡張し、重なり合う背景の要求を緩和する。

Computer vision has long relied on two kinds of correspondences: pixel correspondences in images and 3D correspondences on object surfaces. Is there another kind, and if there is, what can they do for us? In this paper, we introduce correspondences of the third kind we call reflection correspondences and show that they can help estimate camera pose by just looking at objects without relying on the background. Reflection correspondences are point correspondences in the reflected world, i.e., the scene reflected by the object surface. The object geometry and reflectance alters the scene geometrically and radiometrically, respectively, causing incorrect pixel correspondences. Geometry recovered from each image is also hampered by distortions, namely generalized bas-relief ambiguity, leading to erroneous 3D correspondences. We show that reflection correspondences can resolve the ambiguities arising from these distortions. We introduce a neural correspondence estimator and a RANSAC algorithm that fully leverages all three kinds of correspondences for robust and accurate joint camera pose and object shape estimation just from the object appearance. The method expands the horizon of numerous downstream tasks, including camera pose estimation for appearance modeling (e.g., NeRF) and motion estimation of reflective objects (e.g., cars on the road), to name a few, as it relieves the requirement of overlapping background.
翻訳日:2023-12-08 13:47:19 公開日:2023-12-07
# RAVE:拡散モデルによる高速かつ一貫性のあるビデオ編集のためのランダムノイズシャッフル

RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models ( http://arxiv.org/abs/2312.04524v1 )

ライセンス: Link先を確認
Ozgur Kara, Bariscan Kurtkaya, Hidir Yesiltepe, James M. Rehg, Pinar Yanardag(参考訳) 近年の拡散モデルの発展は、テキストから画像を生成する上で大きな成功を収めている。 しかし、ビデオ編集モデルは、視覚品質とユーザー制御のレベルにはまだ達していない。 そこで本研究では,事前学習したテキスト・画像拡散モデルを利用したゼロショットビデオ編集手法であるRAVEを紹介する。 RAVEは入力ビデオとテキストプロンプトを使って、原文の動作と意味構造を保持しながら高品質なビデオを生成する。 それは新しいノイズシャッフル戦略を採用し、フレーム間の時空間的相互作用を活用し、既存の方法よりも時間的に一貫したビデオを生成する。 また、メモリ要件の観点からも効率が良く、より長いビデオを扱うことができる。 RAVEは、局所的な属性修正から形状変換まで、幅広い編集が可能である。 raveの汎用性を示すために,オブジェクト指向シーンからダンスやタイピングといった複雑なヒューマンアクティビティ,水泳魚やボートを特徴とする動的シーンまで,総合的なビデオ評価データセットを作成する。 質的かつ定量的な実験では,既存の手法と比較して,多様な映像編集シナリオにおけるraveの有効性を強調する。 私たちのコード、データセット、ビデオはhttps://rave-video.github.io.comで確認できます。

Recent advancements in diffusion-based models have demonstrated significant success in generating images from text. However, video editing models have not yet reached the same level of visual quality and user control. To address this, we introduce RAVE, a zero-shot video editing method that leverages pre-trained text-to-image diffusion models without additional training. RAVE takes an input video and a text prompt to produce high-quality videos while preserving the original motion and semantic structure. It employs a novel noise shuffling strategy, leveraging spatio-temporal interactions between frames, to produce temporally consistent videos faster than existing methods. It is also efficient in terms of memory requirements, allowing it to handle longer videos. RAVE is capable of a wide range of edits, from local attribute modifications to shape transformations. In order to demonstrate the versatility of RAVE, we create a comprehensive video evaluation dataset ranging from object-focused scenes to complex human activities like dancing and typing, and dynamic scenes featuring swimming fish and boats. Our qualitative and quantitative experiments highlight the effectiveness of RAVE in diverse video editing scenarios compared to existing methods. Our code, dataset and videos can be found in https://rave-video.github.io.
翻訳日:2023-12-08 13:46:57 公開日:2023-12-07
# 陽極面符号

Yoked surface codes ( http://arxiv.org/abs/2312.04522v1 )

ライセンス: Link先を確認
Craig Gidney, Michael Newman, Peter Brooks, Cody Jones(参考訳) 我々はテラクロップ法における物理キュービットあたりの論理キュービット数を、高密度パリティチェックコードに結合することでほぼ3倍にする。 これらの「ヨークサーフェス符号」は長方形の格子状に配列され、各列に沿ってパリティチェック(ヨーク)が測定され、格子手術を用いて任意に各列に沿って配置される。 我々の構成では、近接する2乗量子ビットグリッド以外の接続性は、物理誤差率10^{-3}$で動作しないと仮定している。

We nearly triple the number of logical qubits per physical qubit of surface codes in the teraquop regime by concatenating them into high-density parity check codes. These "yoked surface codes" are arrayed in a rectangular grid, with parity checks (yokes) measured along each row, and optionally along each column, using lattice surgery. Our construction assumes no additional connectivity beyond a nearest neighbor square qubit grid operating at a physical error rate of $10^{-3}$.
翻訳日:2023-12-08 13:46:38 公開日:2023-12-07
# クロスモーダル特徴マッピングによるマルチモーダル産業異常検出

Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping ( http://arxiv.org/abs/2312.04521v1 )

ライセンス: Link先を確認
Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti, Luigi Di Stefano(参考訳) この論文は、点雲とrgb画像を利用して異常をローカライズする産業用マルチモーダル異常検出(ad)タスクを探求する。 我々は,新しい軽量で高速なフレームワークを導入し,名目的なサンプル上で,あるモダリティから他のモダリティへ機能をマップすることを学ぶ。 テスト時には、観測された特徴とマッピングされた特徴との矛盾を指摘して異常を検出する。 広汎な実験により,MVTec 3D-ADデータセットの標準設定と少ショット設定の両方において,従来のマルチモーダルAD手法よりも高速な推論とメモリ占有を実現し,最先端検出とセグメンテーション性能を実現することができた。 さらに,性能を犠牲にしてメモリ効率と時間効率を向上させるための層刈り技術を提案する。

The paper explores the industrial multimodal Anomaly Detection (AD) task, which exploits point clouds and RGB images to localize anomalies. We introduce a novel light and fast framework that learns to map features from one modality to the other on nominal samples. At test time, anomalies are detected by pinpointing inconsistencies between observed and mapped features. Extensive experiments show that our approach achieves state-of-the-art detection and segmentation performance in both the standard and few-shot settings on the MVTec 3D-AD dataset while achieving faster inference and occupying less memory than previous multimodal AD methods. Moreover, we propose a layer-pruning technique to improve memory and time efficiency with a marginal sacrifice in performance.
翻訳日:2023-12-08 13:46:29 公開日:2023-12-07
# 自己監督型学習による自律レーダのブートストラップ

Bootstrapping Autonomous Radars with Self-Supervised Learning ( http://arxiv.org/abs/2312.04519v1 )

ライセンス: Link先を確認
Yiduo Hao, Sohrab Madani, Junfeng Guan, Mohammed Alloulah, Saurabh Gupta, Haitham Hassanieh(参考訳) レーダーを用いた自動運転車の認識は、霧や悪天候下での運転能力から研究の関心が高まりつつある。 しかし、大規模レーダーデータの注釈付けのコストと難しさにより、レーダーモデルの訓練が妨げられている。 このボトルネックを克服するために,未ラベルのレーダーデータを事前学習したレーダのみの埋め込みに活用する,自己教師型学習フレームワークを提案する。 提案手法は,レーダ対レーダーとレーダ対画像のコントラスト損失を組み合わせることで,ラベルなしのレーダヒートマップと対応するカメラ画像から一般表現を学習する。 下流オブジェクト検出に使用する場合,提案するセルフスーパービジョンフレームワークにより,最先端の教師付きベースラインの精度を5.8%向上できることを示す。

The perception of autonomous vehicles using radars has attracted increased research interest due its ability to operate in fog and bad weather. However, training radar models is hindered by the cost and difficulty of annotating large-scale radar data. To overcome this bottleneck, we propose a self-supervised learning framework to leverage the large amount of unlabeled radar data to pre-train radar-only embeddings for self-driving perception tasks. The proposed method combines radar-to-radar and radar-to-vision contrastive losses to learn a general representation from unlabeled radar heatmaps paired with their corresponding camera images. When used for downstream object detection, we demonstrate that the proposed self-supervision framework can improve the accuracy of state-of-the-art supervised baselines by 5.8% in mAP.
翻訳日:2023-12-08 13:46:13 公開日:2023-12-07
# モノトニック・マルチヘッドの高効率注意

Efficient Monotonic Multihead Attention ( http://arxiv.org/abs/2312.04515v1 )

ライセンス: Link先を確認
Xutai Ma, Anna Sun, Siqi Ouyang, Hirofumi Inaguma, Paden Tomasello(参考訳) 本稿では, 単調アライメントを数値的に安定, 偏りのない同時翻訳モデルであるEMMA(Efficient Monotonic Multihead Attention)を導入する。 さらに、オフライン翻訳モデルからの微調整と単調アライメントのばらつきの低減を含む、トレーニングおよび推論戦略の改善について述べる。 実験結果から,スペイン語と英語の同時翻訳において,提案モデルが最先端の性能を発揮することが示された。

We introduce the Efficient Monotonic Multihead Attention (EMMA), a state-of-the-art simultaneous translation model with numerically-stable and unbiased monotonic alignment estimation. In addition, we present improved training and inference strategies, including simultaneous fine-tuning from an offline translation model and reduction of monotonic alignment variance. The experimental results demonstrate that the proposed model attains state-of-the-art performance in simultaneous speech-to-text translation on the Spanish and English translation task.
翻訳日:2023-12-08 13:45:59 公開日:2023-12-07
# 並列関数呼び出しのためのLLMコンパイラ

An LLM Compiler for Parallel Function Calling ( http://arxiv.org/abs/2312.04511v1 )

ライセンス: Link先を確認
Sehoon Kim, Suhong Moon, Ryan Tabrizi, Nicholas Lee, Michael W. Mahoney, Kurt Keutzer, Amir Gholami(参考訳) 大規模言語モデル(llm)は様々な複雑な推論ベンチマークで顕著な結果を示している。 LLMの推論能力により、ユーザが提供する関数を使用して、知識の遮断、算術能力の低下、プライベートデータへのアクセスの欠如など、固有の制限を克服できる。 この開発により、LLMのスコープを多機能呼び出しに拡張し、LLMは様々な機能を備え、コンテキストに基づいて適切な関数を選択する。 LLMの多機能呼び出し能力は、LLMベースのソフトウェア開発を触媒し、より複雑な問題に取り組むことができる。 しかし、現在のマルチファンクション呼び出しの方法は、しばしば、高いレイテンシ、コスト、時には不正確な振る舞いをもたらす、各関数のシーケンシャルな推論と動作を必要とする。 これを解決するために,並列に関数を実行するLLMCompilerを導入し,多機能呼び出しを効率的にオーケストレーションする。 古典的なコンパイラの原則から、LLMCompilerは3つのコンポーネントで並列関数呼び出しを合理化する。 i) LLMプランナーであって,実行戦略及び依存関係を定式化するもの (ii)タスクフェッチユニット、タスクを呼び出す関数のディスパッチ、及び (iii)これらのタスクを並列に実行するExecutor。 LLMCompilerは関数呼び出しの最適化オーケストレーションを自動的に計算し、LLaMA-2のようなオープンソースのモデルで使用することができる。 我々はllmcompilerを,関数呼び出し間の非自明な相互依存のケースや,中間結果に基づく動的再計画を必要とするケースなど,さまざまなタスクでベンチマークした。 一貫性のあるレイテンシのスピードアップは3.7倍まで,コスト削減は6.7倍まで,正確性はreactと比較して最大9%向上しています。 さらに、LLMCompilerはOpenAIの最近の並列関数呼び出しよりも最大1.35倍のレイテンシ向上を実現している。

Large Language Models (LLMs) have shown remarkable results on various complex reasoning benchmarks. The reasoning capabilities of LLMs enable them to execute function calls, using user-provided functions to overcome their inherent limitations, such as knowledge cutoffs, poor arithmetic skills, or lack of access to private data. This development has expanded LLMs' scope to include multi-function calling, where LLMs are equipped with a variety of functions and select the proper functions based on the context. Multi-function calling abilities of LLMs have catalyzed LLM-based software development, allowing them to tackle more complex problems. However, current methods for multi-function calling often require sequential reasoning and acting for each function which can result in high latency, cost, and sometimes inaccurate behavior. To address this, we introduce LLMCompiler, which executes functions in parallel to efficiently orchestrate multi-function calling. Drawing from the principles of classical compilers, LLMCompiler streamlines parallel function calling with three components: (i) an LLM Planner, formulating execution strategies and dependencies; (ii) a Task Fetching Unit, dispatching function calling tasks; and (iii) an Executor, executing these tasks in parallel. LLMCompiler automatically computes an optimized orchestration for the function calls and can be used with open-source models such as LLaMA-2. We have benchmarked LLMCompiler on a range of tasks including cases with non-trivial inter-dependency between function calls, as well as cases that require dynamic replanning based on intermediate results. We observe consistent latency speedup of up to 3.7x, cost savings of up to 6.7x, and accuracy improvement of up to ~9% as compared to ReAct. Additionally, LLMCompiler achieves up to 1.35x latency gain over OpenAI's recent parallel function calling, while achieving similar accuracy.
翻訳日:2023-12-08 13:45:53 公開日:2023-12-07
# 制御可能なエネルギーベーステキスト生成のためのブロックメトロポリスハスティングサンプリング

A Block Metropolis-Hastings Sampler for Controllable Energy-based Text Generation ( http://arxiv.org/abs/2312.04510v1 )

ライセンス: Link先を確認
Jarad Forristal, Niloofar Mireshghallah, Greg Durrett, Taylor Berg-Kirkpatrick(参考訳) 近年の研究では、任意の識別器の柔軟な統合を可能にするため、エネルギーベースの言語モデリングがテキスト生成に有効なフレームワークであることが示されている。 しかしながら、エネルギーベースのlmsはグローバルに正規化されているため、metropolis-hastings (mh) のような近似技術が推論に必要である。 過去の研究は、ギブズサンプリングのように、一度に1つのトークンを変更する単純な提案分布を主に検討してきた。 本稿では,新しいmhサンプラーを開発し,それとは対照的に,大規模言語モデルの反復的なプロンプトを通じて,各ステップのシーケンス全体を書き換える手法を提案する。 新しいサンプリング装置 (a)目標分布からのより効率的で正確なサンプリングを可能にし、 (b)過去の作業が必要とするように、前もって固定するのではなく、サンプリング手順によって生成期間を決定できる。 我々は,2つの制御された生成タスクについて実験を行い,ダウンストリーム性能向上と,より正確なターゲット分布サンプリングの両立を示す。

Recent work has shown that energy-based language modeling is an effective framework for controllable text generation because it enables flexible integration of arbitrary discriminators. However, because energy-based LMs are globally normalized, approximate techniques like Metropolis-Hastings (MH) are required for inference. Past work has largely explored simple proposal distributions that modify a single token at a time, like in Gibbs sampling. In this paper, we develop a novel MH sampler that, in contrast, proposes re-writes of the entire sequence in each step via iterative prompting of a large language model. Our new sampler (a) allows for more efficient and accurate sampling from a target distribution and (b) allows generation length to be determined through the sampling procedure rather than fixed in advance, as past work has required. We perform experiments on two controlled generation tasks, showing both downstream performance gains and more accurate target distribution sampling in comparison with single-token proposal techniques.
翻訳日:2023-12-08 13:45:23 公開日:2023-12-07
# 破断ヒルベルト空間における単一量子回転による絡み合い生成

Entanglement generation via single-qubit rotations in a teared Hilbert space ( http://arxiv.org/abs/2312.04507v1 )

ライセンス: Link先を確認
Tao Zhang and Zhihao Chi and Jiazhong Hu(参考訳) ヒルベルト空間内の大域的な1量子ビット回転のみを持つ任意の対称な絡み合い状態を生成するための効率的で簡単なプロトコルを提案する。 このシステムは、光共振器内の原子や金属マイクロ波共振器に結合した超伝導量子ビットなどの共振器のスピン1/2量子ビットに基づいている。 光やマイクロ波を共振器に送ることで、クォービットの特定の角運動状態(ディック状態)に交流スタークシフトを誘導する。 そして、隣接するディック状態間の遷移を妨げる障壁を生成し、元のヒルベルト空間を断片化することができる。 したがって、単純な大域的な1量子ビット回転は非常に非自明になり、多体系間の絡み合いが生じる。 ディック状態のエネルギーシフトの最適制御により、任意の対称交絡状態を生成することができる。 また、W状態、スピンスクイーズ状態(SSS)、Greenberger-Horne-Zeilinger状態(GHZ)状態を含む、ごくわずかなステップで、ほぼ一様であるような有用な状態の多様を生成できることを示す。 特に、SSSは、ハイゼンベルク極限 (HL) に近づくために、squeezingパラメータ $\xi_R^2\sim1/N^{0.843}$ の1ステップで作成できる。 我々の発見は、全てのマルチキュービット制御を単にオン/オフマイクロ波に組み込む単一キュービット駆動による普遍的絡み合い生成の方法を確立している。 既存の技術で利用可能な変分量子オプティマイザに直接的な応用がある。

We propose an efficient yet simple protocol to generate arbitrary symmetric entangled states with only global single-qubit rotations in a teared Hilbert space. The system is based on spin-1/2 qubits in a resonator such as atoms in an optical cavity or superconducting qubits coupled to a metal microwave resonator. By sending light or microwave into the resonator, it induces AC Stark shifts on particular angular-momentum eigenstates (Dicke states) of qubits. Then we are able to generate barriers that hinder transitions between adjacent Dicke states and tear the original Hilbert space into pieces. Therefore, a simple global single-qubit rotation becomes highly non-trivial, and thus generates entanglement among the many-body system. By optimal control of energy shifts on Dicke states, we are able to generate arbitrary symmetric entangled states. We also exemplify that we can create varieties of useful states with near-unity fidelities in only one or very few steps, including W states, spin-squeezed states (SSS), and Greenberger-Horne-Zeilinger (GHZ) states. Particularly, the SSS can be created by only one step with a squeezing parameter $\xi_R^2\sim1/N^{0.843}$ approaching the Heisenberg limit (HL). Our finding establishes a way for universal entanglement generations with only single-qubit drivings where all the multiple-qubit controls are integrated into simply switching on/off microwave. It has direct applications in the variational quantum optimizer which is available with existing technology.
翻訳日:2023-12-08 13:45:05 公開日:2023-12-07
# 複雑ネットワーク上のコーディネーションフリー分散連合学習:不均一性克服

Coordination-free Decentralised Federated Learning on Complex Networks: Overcoming Heterogeneity ( http://arxiv.org/abs/2312.04504v1 )

ライセンス: Link先を確認
Lorenzo Valerio, Chiara Boldrini, Andrea Passarella, J\'anos Kert\'esz, M\'arton Karsai, Gerardo I\~niguez(参考訳) フェデレートラーニング(FL)は、エッジコンピューティングシナリオにおいて、関係するデバイスが限られたリソースと不完全なデータ表現を持つ学習タスクを成功させるための、よく知られたフレームワークである。 FLの基本前提は、デバイスが直接または間接的に、プロセス全体を集中的に調整するパラメータサーバと通信し、それに関連するいくつかの課題を克服することである。 しかし、高度に普及したエッジシナリオでは、プロセスを監視する中央コントローラの存在は必ずしも保証されず、デバイス間の相互作用(すなわち接続グラフ)は所定のものではなくなり、複雑なネットワーク構造となる。 さらに、データとデバイスの不均一性は学習プロセスをさらに複雑にする。 これは、通信効率のよい分散連合学習(dfl)アルゴリズムを提案して対処する学習の観点から、新たな課題を提起する。 我々のソリューションは、データと異なるトレーニング履歴によって引き起こされる不均一性を克服し、直接隣人とのみ通信して正確なモデルを訓練することができる。 その結果,提案手法は,競合するアプローチで訓練したモデルよりも一般化し,通信効率が向上した。

Federated Learning (FL) is a well-known framework for successfully performing a learning task in an edge computing scenario where the devices involved have limited resources and incomplete data representation. The basic assumption of FL is that the devices communicate directly or indirectly with a parameter server that centrally coordinates the whole process, overcoming several challenges associated with it. However, in highly pervasive edge scenarios, the presence of a central controller that oversees the process cannot always be guaranteed, and the interactions (i.e., the connectivity graph) between devices might not be predetermined, resulting in a complex network structure. Moreover, the heterogeneity of data and devices further complicates the learning process. This poses new challenges from a learning standpoint that we address by proposing a communication-efficient Decentralised Federated Learning (DFL) algorithm able to cope with them. Our solution allows devices communicating only with their direct neighbours to train an accurate model, overcoming the heterogeneity induced by data and different training histories. Our results show that the resulting local models generalise better than those trained with competing approaches, and do so in a more communication-efficient way.
翻訳日:2023-12-08 13:44:40 公開日:2023-12-07
# 多様なニューラルアーキテクチャを処理するグラフメタネットワーク

Graph Metanetworks for Processing Diverse Neural Architectures ( http://arxiv.org/abs/2312.04501v1 )

ライセンス: Link先を確認
Derek Lim, Haggai Maron, Marc T. Law, Jonathan Lorraine, James Lucas(参考訳) ニューラルネットワークは、学習した情報をパラメータ内で効率的にエンコードする。 したがって、ニューラルネットワーク自体を入力データとして扱うことで、多くのタスクを統一することができる。 その際、近年の研究は、パラメータ空間の対称性と幾何学の計算の重要性を実証した。 しかし、これらの作品はmlpやcnnのような特定のネットワーク向けに正規化層のないアーキテクチャを開発しており、そのようなアーキテクチャを他の種類のネットワークに一般化することは困難である。 本研究では、他のニューラルネットワークから重みを取るニューラルネットワークを入力として構築することで、これらの課題を克服する。 簡単に言えば、入力ニューラルネットワークを表すグラフを慎重に構築し、グラフニューラルネットワークを使用してグラフを処理する。 当社のアプローチであるgraph metanetworks(gmns)は、マルチヘッドアテンション層、正規化層、畳み込み層、resnetブロック、グループ同変線形層など、競合するメソッドが苦労する神経アーキテクチャに一般化します。 GMNは,入力ニューラルネットワーク関数が変化しないパラメータ置換対称性と等価であることを示す。 多様なニューラルネットワークアーキテクチャ上でのメタネットワークタスクにおける本手法の有効性を検証する。

Neural networks efficiently encode learned information within their parameters. Consequently, many tasks can be unified by treating neural networks themselves as input data. When doing so, recent studies demonstrated the importance of accounting for the symmetries and geometry of parameter spaces. However, those works developed architectures tailored to specific networks such as MLPs and CNNs without normalization layers, and generalizing such architectures to other types of networks can be challenging. In this work, we overcome these challenges by building new metanetworks - neural networks that take weights from other neural networks as input. Put simply, we carefully build graphs representing the input neural networks and process the graphs using graph neural networks. Our approach, Graph Metanetworks (GMNs), generalizes to neural architectures where competing methods struggle, such as multi-head attention layers, normalization layers, convolutional layers, ResNet blocks, and group-equivariant linear layers. We prove that GMNs are expressive and equivariant to parameter permutation symmetries that leave the input neural network functions unchanged. We validate the effectiveness of our method on several metanetwork tasks over diverse neural network architectures.
翻訳日:2023-12-08 13:44:19 公開日:2023-12-07
# 一般化ラジカルフロケダイナミクスにおける幾何学的位相

Geometric phases in generalized radical Floquet dynamics ( http://arxiv.org/abs/2312.04500v1 )

ライセンス: Link先を確認
Brenden Roberts, Sagar Vijay, Arpit Dua(参考訳) パンカラトナム相(pancharatnam phase)は、量子状態の離散列に適用されるベリー相の一般化である。 ここでは、パンチャラトナム相は、測定を含む幅広い量子多体ダイナミクスの自然な不変量であることを示す。 具体的には、フロッケ量子誤り訂正符号の軌跡に非自明なパンカラトナム位相がどう現れるかを調べ、この位相が与えられた量子多体軌道を定義する測定記録に基づく追加後処理を含む「計算支援」干渉法で抽出可能であることを示す。 このパンチャラトナム相は、ガッピング相内で連続的なユニタリ進化によって引き起こされるベリー相に直接関係している。 Hastings と Haah の $\mathbb Z_2$ Floquet 符号に対して、ユニタリ進化の関連族が根基的キラルなフロケ位相であることを示す。 相互作用スピンの完全可解モデルの研究により、この対応を明示的に示す。

The Pancharatnam phase is a generalization of the Berry phase that applies to discrete sequences of quantum states. Here, we show that the Pancharatnam phase is a natural invariant for a wide class of quantum many-body dynamics involving measurements. We specifically investigate how a non-trivial Pancharatnam phase arises in the trajectories of Floquet quantum error-correcting codes and show that this phase can be extracted in a "computationally-assisted" interferometry protocol, involving additional post-processing based on the measurement record that defines a given quantum many-body trajectory. This Pancharatnam phase can also be directly related to the Berry phase accrued by continuous unitary evolution within a gapped phase. For the $\mathbb Z_2$ Floquet code of Hastings and Haah, we show that the associated family of unitary evolutions is the radical chiral Floquet phase. We demonstrate this correspondence explicitly by studying an exactly-solvable model of interacting spins.
翻訳日:2023-12-08 13:44:00 公開日:2023-12-07
# シスケード系の位相駆動動力学による加熱・冷却過程

Heating and cooling processes via phaseonium-driven dynamics of cascade systems ( http://arxiv.org/abs/2312.04498v1 )

ライセンス: Link先を確認
Federico Amato, Claudio Pellitteri, G. Massimo Palma, Salvatore Lorenzo, Rosario Lo Franco(参考訳) 量子系の温度を利用する戦略の探索は、量子熱力学の主要な目標の1つである。 ここでは、一対の量子調和振動子からなる系の力学を1モードの空洞場で表現し、アシラとして作用する相オン原子の熱励起ビームと相互作用する。 2つの空洞はカスケード構成で配置されており、第2の空洞は第1の空洞と相互作用した後のみ位相オン原子と相互作用する。 第1空洞の正確な閉じたダイナミクスを任意に長い相互作用時間に提供します。 本研究は, キャビティ場の定常状態とアンシラスの定常状態を決定する際に, 相同原子の特性的コヒーレンス相が果たす役割を強調する。 また、第2の空洞は、第1の空洞との情報交換を可能にする「使用」補助原子との相互作用により、非マルコフ的進化にどのように従うかを示す。 相オン原子のパラメータを調整することで、キャビティが到達した最終安定温度を決定することができる。 このようにして、空洞を加熱したり、冷やしたりすることができる。 これらの結果は, キャビティQEDシナリオにおける熱力学サイクルに対する各種アンシラの使用に関する有用な知見を提供する。

The search for strategies to harness the temperature of quantum systems is one of the main goals in quantum thermodynamics. Here we study the dynamics of a system made of a pair of quantum harmonic oscillators, represented by single-mode cavity fields, interacting with a thermally excited beam of phaseonium atoms, which act as ancillas. The two cavities are arranged in a cascade configuration, so that the second cavity interacts with phaseonium atoms only after their interaction with the first one. We provide exact closed dynamics of the first cavity for arbitrarily long interaction times. We highlight the role played by the characteristic coherence phase of phaseonium atoms in determining the steady states of the cavity fields as well as that of the ancillas. Also, we show how the second cavity follows a non-Markovian evolution due to interactions with the "used" ancillary atoms, that enables information exchange with the first cavity. Adjusting the parameters of the phaseonium atoms, we can determine the final stable temperature reached by the cavities. In this way, the cavities can be heated up as well as cooled down. These results provide useful insights towards the use of different types of ancillas for thermodynamic cycles in cavity QED scenarios.
翻訳日:2023-12-08 13:43:41 公開日:2023-12-07
# AVA:視覚知覚駆動意思決定による自律可視化エージェントを目指して

AVA: Towards Autonomous Visualization Agents through Visual Perception-Driven Decision-Making ( http://arxiv.org/abs/2312.04494v1 )

ライセンス: Link先を確認
Shusen Liu, Haichao Miao, Zhimin Li, Matthew Olson, Valerio Pascucci, Peer-Timo Bremer(参考訳) 近年のマルチモーダル基礎モデルの進歩により、以前はテキストのみの大規模言語モデル (LLM) が視覚入力に進化し、可視化における様々なアプリケーションに前例のない機会が開かれた。 本研究では,マルチモーダルLLMの視覚知覚能力を活用し,自然言語を用いてユーザ定義の可視化目標を解釈・達成できる自律可視化エージェント(AVA)を開発した。 本稿では,AVAの設計のための最初のフレームワークを提案し,提案パラダイムの汎用性を実証するためのいくつかの利用シナリオを提案する。 視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。 我々の予備調査と概念実証エージェントは、適切な可視化パラメータの選択が以前の視覚出力の解釈を必要とする場合、このアプローチが広く適用可能であることを示唆する。 AI研究、医用可視化、放射線学の専門家との非構造化インタビューからのフィードバックが取り入れられ、AVAの実用性と可能性を強調している。 我々の研究は、AVAが高度な可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであり、将来、専門家レベルの可視化エージェントを開発するための道を開くことを示唆している。

With recent advances in multi-modal foundation models, the previously text-only large language models (LLM) have evolved to incorporate visual input, opening up unprecedented opportunities for various applications in visualization. Our work explores the utilization of the visual perception ability of multi-modal LLMs to develop Autonomous Visualization Agents (AVAs) that can interpret and accomplish user-defined visualization objectives through natural language. We propose the first framework for the design of AVAs and present several usage scenarios intended to demonstrate the general applicability of the proposed paradigm. The addition of visual perception allows AVAs to act as the virtual visualization assistant for domain experts who may lack the knowledge or expertise in fine-tuning visualization outputs. Our preliminary exploration and proof-of-concept agents suggest that this approach can be widely applicable whenever the choices of appropriate visualization parameters require the interpretation of previous visual output. Feedback from unstructured interviews with experts in AI research, medical visualization, and radiology has been incorporated, highlighting the practicality and potential of AVAs. Our study indicates that AVAs represent a general paradigm for designing intelligent visualization systems that can achieve high-level visualization goals, which pave the way for developing expert-level visualization agents in the future.
翻訳日:2023-12-08 13:43:19 公開日:2023-12-07
# free3d: 3d表現のない一貫した新しいビュー合成

Free3D: Consistent Novel View Synthesis without 3D Representation ( http://arxiv.org/abs/2312.04551v1 )

ライセンス: Link先を確認
Chuanxia Zheng and Andrea Vedaldi(参考訳) 単一画像からNVS(Open-set novel view synthesis)を実現するためのシンプルなアプローチであるFree3Dを紹介する。 zero-1-to-3と同様に、一般化のためにトレーニング済みの2dイメージジェネレータから始め、nvsで微調整します。 最近の作業や並行作業と比較すると,3dネットワークの追加やメモリ消費といった明示的な3d表現を使わずに,大幅な改善が得られます。 我々は、新しいピクセル単位の光線コンディショニング正規化(rcn)層を通して、ターゲットカメラのポーズをより良くエンコードする。 後者は、各画素に特定の表示方向を指示することにより、基礎となる2D画像生成装置にポーズ情報を注入する。 また,軽量マルチビューアテンション層とマルチビューノイズ共有により,マルチビュー一貫性も向上した。 我々はobjaverseデータセットでfree3dをトレーニングし、ominiobject3dやgsoを含むいくつかの新しいデータセットの様々な新しいカテゴリに優れた一般化を示す。 我々のシンプルで効果的なアプローチが、確固たるベースラインとして機能し、NVSにおける将来の研究に役立つことを願っています。 プロジェクトページはhttps://chuanxiaz.com/free3d/。

We introduce Free3D, a simple approach designed for open-set novel view synthesis (NVS) from a single image. Similar to Zero-1-to-3, we start from a pre-trained 2D image generator for generalization, and fine-tune it for NVS. Compared to recent and concurrent works, we obtain significant improvements without resorting to an explicit 3D representation, which is slow and memory-consuming or training an additional 3D network. We do so by encoding better the target camera pose via a new per-pixel ray conditioning normalization (RCN) layer. The latter injects pose information in the underlying 2D image generator by telling each pixel its specific viewing direction. We also improve multi-view consistency via a light-weight multi-view attention layer and multi-view noise sharing. We train Free3D on the Objaverse dataset and demonstrate excellent generalization to various new categories in several new datasets, including OminiObject3D and GSO. We hope our simple and effective approach will serve as a solid baseline and help future research in NVS with more accuracy pose. The project page is available at https://chuanxiaz.com/free3d/.
翻訳日:2023-12-08 13:36:22 公開日:2023-12-07
# PlayFusion: 言語アノテーションによる拡散によるスキル獲得

PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play ( http://arxiv.org/abs/2312.04549v1 )

ライセンス: Link先を確認
Lili Chen, Shikhar Bahl, Deepak Pathak(参考訳) 構造化されていないデータから学ぶことは、言語とビジョンにおける生成的アプローチの主要なパラダイムとなっている。 このような非構造的かつ非ガイド的行動データは、一般にプレイ(play)として知られているが、ロボット工学では収集が容易であるが、本質的にはマルチモーダルでノイズがあり、最適ではない性質から学ぶことはより困難である。 本稿では,非構造化プレイデータから,後から言語でラベル付けされた目標指向スキルポリシーを学習する問題について検討する。 具体的には、拡散モデルの進歩を利用してマルチタスク拡散モデルを学び、プレイデータからロボットスキルを抽出する。 状態と行動の空間における条件付き denoising 拡散プロセスを用いることで、プレイデータの複雑さとマルチモーダリティを優雅に処理し、多様で興味深いロボットの動作を生成することができる。 拡散モデルをスキル学習に役立てるために,条件付き行動生成プロセスに離散的ボトルネックを導入することにより,ロボットエージェントがスキルの語彙を取得することを推奨する。 実験では,シミュレーションと実世界の両方において,様々な環境におけるアプローチの有効性を実証した。 結果の可視化とビデオ: https://play-fusion.github.io

Learning from unstructured and uncurated data has become the dominant paradigm for generative approaches in language and vision. Such unstructured and unguided behavior data, commonly known as play, is also easier to collect in robotics but much more difficult to learn from due to its inherently multimodal, noisy, and suboptimal nature. In this paper, we study this problem of learning goal-directed skill policies from unstructured play data which is labeled with language in hindsight. Specifically, we leverage advances in diffusion models to learn a multi-task diffusion model to extract robotic skills from play data. Using a conditional denoising diffusion process in the space of states and actions, we can gracefully handle the complexity and multimodality of play data and generate diverse and interesting robot behaviors. To make diffusion models more useful for skill learning, we encourage robotic agents to acquire a vocabulary of skills by introducing discrete bottlenecks into the conditional behavior generation process. In our experiments, we demonstrate the effectiveness of our approach across a wide variety of environments in both simulation and the real world. Results visualizations and videos at https://play-fusion.github.io
翻訳日:2023-12-08 13:36:00 公開日:2023-12-07
# multiview aerial visual recognition (mavrec): マルチビューは空中視覚を改善できるか?

Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve Aerial Visual Perception? ( http://arxiv.org/abs/2312.04548v1 )

ライセンス: Link先を確認
Aritra Dutta, Srijan Das, Jacob Nielsen, Rajatsubhra Chakraborty, Mubarak Shah(参考訳) UAVの商業的存在にもかかわらず、航空データ取得は依然として困難であり、既存のアジアと北米を中心とするオープンソースのUAVデータセットは小規模または低解像度であり、シーンのコンテキストの多様性が欠如している。 さらに、シーンの色含量、太陽-日射角、異なる地理の人口密度が、データの多様性に影響を及ぼす。 これらの2つの要因は、オープンワールドの基礎モデルを含む、主に地上視データに基づいて訓練されたディープニューラルネットワーク(DNN)モデルの、最適空中視覚知覚を相伴する。 空中検出の変革期への道を開くために、地上カメラとドローン搭載カメラの異なる視点から同期されたシーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を紹介する。 MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。 これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、すべてのモダリティとタスクにわたるドローンベースのデータセットの中で4番目に大きい。 我々はMAVRECの広範なベンチマークを通じて、対応する地理的位置からの地上画像による物体検出が、空中検出のための優れた事前訓練戦略であることを認識した。 この戦略に基づいて,MAVRECを,ラベル付き(地上・空中)およびラベルなし(空中のみ)の画像を利用したカリキュラムベースの半教師付き物体検出手法で評価し,空中検出の強化を図る。 私たちはMAVRECデータセットを公開しています。

Despite the commercial abundance of UAVs, aerial data acquisition remains challenging, and the existing Asia and North America-centric open-source UAV datasets are small-scale or low-resolution and lack diversity in scene contextuality. Additionally, the color content of the scenes, solar-zenith angle, and population density of different geographies influence the data diversity. These two factors conjointly render suboptimal aerial-visual perception of the deep neural network (DNN) models trained primarily on the ground-view data, including the open-world foundational models. To pave the way for a transformative era of aerial detection, we present Multiview Aerial Visual RECognition or MAVREC, a video dataset where we record synchronized scenes from different perspectives -- ground camera and drone-mounted camera. MAVREC consists of around 2.5 hours of industry-standard 2.7K resolution video sequences, more than 0.5 million frames, and 1.1 million annotated bounding boxes. This makes MAVREC the largest ground and aerial-view dataset, and the fourth largest among all drone-based datasets across all modalities and tasks. Through our extensive benchmarking on MAVREC, we recognize that augmenting object detectors with ground-view images from the corresponding geographical location is a superior pre-training strategy for aerial detection. Building on this strategy, we benchmark MAVREC with a curriculum-based semi-supervised object detection approach that leverages labeled (ground and aerial) and unlabeled (only aerial) images to enhance the aerial detection. We publicly release the MAVREC dataset: https://mavrec.github.io.
翻訳日:2023-12-08 13:35:42 公開日:2023-12-07
# digital life project: ソーシャル・インテリジェンスを用いた自律3dキャラクタ

Digital Life Project: Autonomous 3D Characters with Social Intelligence ( http://arxiv.org/abs/2312.04547v1 )

ライセンス: Link先を確認
Zhongang Cai, Jianping Jiang, Zhongfei Qing, Xinying Guo, Mingyuan Zhang, Zhengyu Lin, Haiyi Mei, Chen Wei, Ruisi Wang, Wanqi Yin, Xiangyu Fan, Han Du, Liang Pan, Peng Gao, Zhitao Yang, Yang Gao, Jiaqi Li, Tianxiang Ren, Yukun Wei, Xiaogang Wang, Chen Change Loy, Lei Yang, Ziwei Liu(参考訳) 本稿では,言語を普遍的な媒体として活用し,社会的相互作用に関わり,体の動きを表現し,デジタル環境における生活をシミュレートする,自律的な3Dキャラクタを構築するためのDigital Life Projectを提案する。 私たちのフレームワークは2つの主要コンポーネントで構成されています。 1)社会マインド:体系的な少数ショットの例で人格をモデル化し、心理学の原理に基づく省察過程を取り入れ、対話のトピックの開始による自律性を模倣する細心の注意深いデジタル脳。 2) MoMat-MoGen:文字のデジタルボディを制御するためのテキスト駆動モーション合成パラダイム。 モーションマッチングは、モーション品質を保証するための実証済みの業界技術であり、多様性のためのモーション生成の最先端の進歩と統合されている。 広範な実験により、各モジュールがそれぞれのドメインで最先端のパフォーマンスを達成できることが示されている。 バーチャルキャラクターは、社会心理学的な状態を進化させながら、対話を自律的に開始し、維持することができる。 同時に、これらのキャラクターは文脈的に関連する身体運動を行うことができる。 さらに、モーションキャプションモジュールにより、仮想キャラクタは人間のアクションを認識し、適切に応答することができる。 ホームページ: https://digital-life-project.com/

In this work, we present Digital Life Project, a framework utilizing language as the universal medium to build autonomous 3D characters, who are capable of engaging in social interactions and expressing with articulated body motions, thereby simulating life in a digital environment. Our framework comprises two primary components: 1) SocioMind: a meticulously crafted digital brain that models personalities with systematic few-shot exemplars, incorporates a reflection process based on psychology principles, and emulates autonomy by initiating dialogue topics; 2) MoMat-MoGen: a text-driven motion synthesis paradigm for controlling the character's digital body. It integrates motion matching, a proven industry technique to ensure motion quality, with cutting-edge advancements in motion generation for diversity. Extensive experiments demonstrate that each module achieves state-of-the-art performance in its respective domain. Collectively, they enable virtual characters to initiate and sustain dialogues autonomously, while evolving their socio-psychological states. Concurrently, these characters can perform contextually relevant bodily movements. Additionally, a motion captioning module further allows the virtual character to recognize and appropriately respond to human players' actions. Homepage: https://digital-life-project.com/
翻訳日:2023-12-08 13:35:11 公開日:2023-12-07
# 特徴シフト検出と補正のための逆学習

Adversarial Learning for Feature Shift Detection and Correction ( http://arxiv.org/abs/2312.04546v1 )

ライセンス: Link先を確認
Miriam Barrabes, Daniel Mas Montserrat, Margarita Geleta, Xavier Giro-i-Nieto, Alexander G. Ioannidis(参考訳) データシフトは多くの実世界のアプリケーションに存在する現象であり、シフトを検知しようとする複数の方法があるが、そのようなシフトから生じる特徴の局所化と修正のタスクは深く研究されていない。 センサーの一部が故障しているマルチセンサーデータや、バイオメディカル、ファイナンシャル、サーベイデータを含む表や構造化データ、欠陥のある標準化とデータ処理パイプラインが誤った特徴をもたらす可能性のあるデータなど、多くのデータセットで機能シフトが発生する可能性がある。 そこで本研究では,2つの分布を区別するために訓練された複数の識別器からの情報を用いて,破損した特徴の検出と修正を行い,データセット間の分布シフトを除去する。 ランダムフォレストや勾配ブースティングツリーなどの主観的教師付き分類器と単純な反復ヒューリスティックを組み合わせることで,特徴シフトの局所化と修正が可能となり,現在の統計的手法やニューラルネットワークに基づく手法を上回っている。 コードはhttps://github.com/AI-sandbox/DataFix.comで入手できる。

Data shift is a phenomenon present in many real-world applications, and while there are multiple methods attempting to detect shifts, the task of localizing and correcting the features originating such shifts has not been studied in depth. Feature shifts can occur in many datasets, including in multi-sensor data, where some sensors are malfunctioning, or in tabular and structured data, including biomedical, financial, and survey data, where faulty standardization and data processing pipelines can lead to erroneous features. In this work, we explore using the principles of adversarial learning, where the information from several discriminators trained to distinguish between two distributions is used to both detect the corrupted features and fix them in order to remove the distribution shift between datasets. We show that mainstream supervised classifiers, such as random forest or gradient boosting trees, combined with simple iterative heuristics, can localize and correct feature shifts, outperforming current statistical and neural network-based techniques. The code is available at https://github.com/AI-sandbox/DataFix.
翻訳日:2023-12-08 13:34:47 公開日:2023-12-07
# HyperDreamer: 単一画像からのハイパーリアリスティックな3Dコンテンツ生成と編集

HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a Single Image ( http://arxiv.org/abs/2312.04543v1 )

ライセンス: Link先を確認
Tong Wu, Zhibing Li, Shuai Yang, Pan Zhang, Xinggang Pan, Jiaqi Wang, Dahua Lin, Ziwei Liu(参考訳) 単一の画像から3Dコンテンツを作るのは、長く続くが非常に望ましい仕事だ。 最近の進歩は2次元拡散に先行し、合理的な結果をもたらす。 しかし、既存の手法は、ユーザが完全な3Dコンテンツを閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分ではない。 これらの課題に対処するために、いくつかの重要な設計と魅力的な特性を備えたHyperDreamerを紹介します。 1)視認性:高分解能テクスチャを用いた360度メッシュモデリングにより,全視点から視覚的に魅力的な3Dモデルを作成することができる。 2) レンダリング可能: 細粒度セマンティックセグメンテーションとデータ駆動前処理は, 素材の合理的なアルベド, 粗さ, 鏡面特性を学習するためのガイダンスとして組み込まれ, 任意の材料推定を意味的に認識できる。 3) 編集可能: 生成されたモデルや自身のデータに対して、ユーザは数クリックで任意の領域をインタラクティブに選択でき、テキストベースのガイダンスでテクスチャを効率的に編集できる。 高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を示す。 HyperDreamerは3Dコンテンツの作成と、さまざまな分野のアプリケーションを見つけることを約束しています。

3D content creation from a single image is a long-standing yet highly desirable task. Recent advances introduce 2D diffusion priors, yielding reasonable results. However, existing methods are not hyper-realistic enough for post-generation usage, as users cannot view, render and edit the resulting 3D content from a full range. To address these challenges, we introduce HyperDreamer with several key designs and appealing properties: 1) Viewable: 360 degree mesh modeling with high-resolution textures enables the creation of visually compelling 3D models from a full range of observation points. 2) Renderable: Fine-grained semantic segmentation and data-driven priors are incorporated as guidance to learn reasonable albedo, roughness, and specular properties of the materials, enabling semantic-aware arbitrary material estimation. 3) Editable: For a generated model or their own data, users can interactively select any region via a few clicks and efficiently edit the texture with text-based guidance. Extensive experiments demonstrate the effectiveness of HyperDreamer in modeling region-aware materials with high-resolution textures and enabling user-friendly editing. We believe that HyperDreamer holds promise for advancing 3D content creation and finding applications in various domains.
翻訳日:2023-12-08 13:34:27 公開日:2023-12-07
# Sim-to-Real Causal Transfer: Causally-Aware Interaction Representationへのメトリックラーニングアプローチ

Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations ( http://arxiv.org/abs/2312.04540v1 )

ライセンス: Link先を確認
Yuejiang Liu, Ahmad Rahimi, Po-Chien Luan, Frano Raji\v{c}, Alexandre Alahi(参考訳) 周辺エージェント間の空間的時間的相互作用のモデル化は、モーション予測や群集ナビゲーションといったマルチエージェント問題の中心にある。 顕著な進歩にもかかわらず、現代の表現がエージェント相互作用の背後にある因果関係をどの程度捉えることができるのかは、まだ不明である。 本研究では,計算形式論から実世界の実践まで,これらの表現の因果意識を深く見ていく。 まず,近年のcausal robustnessベンチマークで検討した非causal robustnessの概念に疑問を投げかけた。 近年の表現は非因果的エージェントの摂動に対して部分的に弾力性があるが、仲介者エージェントによる間接的因果効果のモデル化は依然として困難である。 この課題に対処するために,潜在表現を因果的アノテーションで規則化するメトリック学習手法を提案する。 我々の制御された実験は、このアプローチが因果認識の度合いを高めるだけでなく、分布外ロバスト性も強くなることを示している。 そこで本研究では,クロスドメインマルチタスク学習によるsim-to-realcausal transfer法を提案する。 歩行者データを用いた実験により,実世界の因果アノテーションがない場合でも,本手法は一般化を著しく促進できることが示された。 我々は,マルチエージェントインタラクションの因果認識表現への課題と潜在的な経路について,新たな視点を提供することを期待している。 私たちのコードはhttps://github.com/socialcausality.comで利用可能です。

Modeling spatial-temporal interactions among neighboring agents is at the heart of multi-agent problems such as motion forecasting and crowd navigation. Despite notable progress, it remains unclear to which extent modern representations can capture the causal relationships behind agent interactions. In this work, we take an in-depth look at the causal awareness of these representations, from computational formalism to real-world practice. First, we cast doubt on the notion of non-causal robustness studied in the recent CausalAgents benchmark. We show that recent representations are already partially resilient to perturbations of non-causal agents, and yet modeling indirect causal effects involving mediator agents remains challenging. To address this challenge, we introduce a metric learning approach that regularizes latent representations with causal annotations. Our controlled experiments show that this approach not only leads to higher degrees of causal awareness but also yields stronger out-of-distribution robustness. To further operationalize it in practice, we propose a sim-to-real causal transfer method via cross-domain multi-task learning. Experiments on pedestrian datasets show that our method can substantially boost generalization, even in the absence of real-world causal annotations. We hope our work provides a new perspective on the challenges and potential pathways towards causally-aware representations of multi-agent interactions. Our code is available at https://github.com/socialcausality.
翻訳日:2023-12-08 13:34:04 公開日:2023-12-07
# 自己誘導型オープンボカブラリーセマンティクスセグメンテーション

Self-Guided Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2312.04539v1 )

ライセンス: Link先を確認
Osman \"Ulger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald(参考訳) VLM(Vision-Language Models)は、オープン語彙セグメンテーションを含む、オープンな画像理解タスクのための有望なツールとして登場した。 しかし、VLMは画像テキストペアで訓練されており、ピクセルレベルの粒度を欠いているため、セグメント化への直接適用は簡単ではない。 最近の研究は、画像と提供されたテキストプロンプトが表現される共有画像テキスト空間を活用することで、このギャップを埋める進化を遂げている。 本稿では、VLMのさらなる機能に挑戦し、テキスト入力を必要とせずにオープン語彙セグメンテーションに取り組む。 そこで我々は,自己ガイド型セマンティックセマンティックセグメンテーション(Self-Seg)フレームワークを提案する。 Self-Segは、クラスタ化されたBLIP埋め込みから関連するクラス名を自動的に検出し、それらを正確なセマンティックセグメンテーションに使用することができる。 さらに,LLMに基づくオープン語彙評価器 (LOVE) を提案し,予測されたオープン語彙クラス名を効果的に評価する。 クラス名を指定せずにオープン語彙セグメンテーションを行うPascal VOC,ADE20K,CityScapesの最先端結果と,クラス名を付与する手法との競合性能について述べる。 すべてのコードとデータがリリースされる。

Vision-Language Models (VLMs) have emerged as promising tools for open-ended image understanding tasks, including open vocabulary segmentation. Yet, direct application of such VLMs to segmentation is non-trivial, since VLMs are trained with image-text pairs and naturally lack pixel-level granularity. Recent works have made advancements in bridging this gap, often by leveraging the shared image-text space in which the image and a provided text prompt are represented. In this paper, we challenge the capabilities of VLMs further and tackle open-vocabulary segmentation without the need for any textual input. To this end, we propose a novel Self-Guided Semantic Segmentation (Self-Seg) framework. Self-Seg is capable of automatically detecting relevant class names from clustered BLIP embeddings and using these for accurate semantic segmentation. In addition, we propose an LLM-based Open-Vocabulary Evaluator (LOVE) to effectively assess predicted open-vocabulary class names. We achieve state-of-the-art results on Pascal VOC, ADE20K and CityScapes for open-vocabulary segmentation without given class names, as well as competitive performance with methods where class names are given. All code and data will be released.
翻訳日:2023-12-08 13:33:38 公開日:2023-12-07
# Trajeglish: シナリオ駆動の言語を学ぶ

Trajeglish: Learning the Language of Driving Scenarios ( http://arxiv.org/abs/2312.04535v1 )

ライセンス: Link先を確認
Jonah Philion, Xue Bin Peng, Sanja Fidler(参考訳) 自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。 この機能を追求するために,車両,歩行者,自転車が運転シナリオでどのように相互作用するかをモデル化するために,離散シーケンスモデリングのツールを適用する。 単純なデータ駆動トークン化スキームを用いて、小さな語彙を用いて、軌道をセンチメートルレベルの解像度に識別する。 次に,GPT型エンコーダデコーダを用いて,エージェント間の時間内相互作用を考慮した動作トークンのマルチエージェントシーケンスをモデル化する。 私たちのモデルはwaymo sim agentベンチマークを上回り、リアリズムメタメトリックに沿って3.3%、インタラクションメトリックを9.9%上回っています。 モデリングの選択を完全な自律性と部分的な自律性の設定で改善し、モデルによって学習された表現が、nuSceneのパフォーマンス向上に迅速に適応できることを示します。 さらに,パラメータ数とデータセットサイズに関してモデルのスケーラビリティを評価し,モデルからの密度推定を用いて,トラフィックモデリングタスクにおけるコンテキスト長と時間ステップ間インタラクションの精度を定量化する。

A longstanding challenge for self-driving development is simulating dynamic driving scenarios seeded from recorded driving logs. In pursuit of this functionality, we apply tools from discrete sequence modeling to model how vehicles, pedestrians and cyclists interact in driving scenarios. Using a simple data-driven tokenization scheme, we discretize trajectories to centimeter-level resolution using a small vocabulary. We then model the multi-agent sequence of motion tokens with a GPT-like encoder-decoder that is autoregressive in time and takes into account intra-timestep interaction between agents. Scenarios sampled from our model exhibit state-of-the-art realism; our model tops the Waymo Sim Agents Benchmark, surpassing prior work along the realism meta metric by 3.3% and along the interaction metric by 9.9%. We ablate our modeling choices in full autonomy and partial autonomy settings, and show that the representations learned by our model can quickly be adapted to improve performance on nuScenes. We additionally evaluate the scalability of our model with respect to parameter count and dataset size, and use density estimates from our model to quantify the saliency of context length and intra-timestep interaction for the traffic modeling task.
翻訳日:2023-12-08 13:33:13 公開日:2023-12-07
# PICTURE:フォトリアリスティックなバーチャル・トライオン

PICTURE: PhotorealistIC virtual Try-on from UnconstRained dEsigns ( http://arxiv.org/abs/2312.04534v1 )

ライセンス: Link先を確認
Shuliang Ning, Duomin Wang, Yipeng Qin, Zirong Jin, Baoyuan Wang, Xiaoguang Han(参考訳) 本稿では,人体画像上でパーソナライズされた合成服の光リアルな合成を可能にするために,制約のないデザイン(ucVTON)タスクから新たな仮想試行を提案する。 特定の入力タイプによって制約される先行技術とは異なり、この方法はスタイル(テキストや画像)やテクスチャ(衣服、切り抜き部分、テクスチャパッチ)のフレキシブルな仕様を可能にする。 フルカラーイメージを条件として使用する場合の絡み合い問題に対処するため,スタイルとテクスチャを明確に区別する2段パイプラインを開発した。 第1段階では、入力に条件づけられた所望のスタイルを反映した人間のパースマップを生成する。 第2段階では,テクスチャ入力に基づいて解析マップ領域にテクスチャを合成する。 従来のファッション編集作業では達成されなかった複雑で非定常的なテクスチャを表現するために,まず階層的かつバランスの取れたCLIP特徴の抽出と,VTONにおける位置エンコーディングを提案する。 提案手法により優れた合成品質とパーソナライゼーションを実現する実験を行った。 スタイルとテクスチャの混合を柔軟にコントロールすることで、オンラインショッピングやファッションデザインのための新しいレベルのユーザー体験を仮想的に試すことができる。

In this paper, we propose a novel virtual try-on from unconstrained designs (ucVTON) task to enable photorealistic synthesis of personalized composite clothing on input human images. Unlike prior arts constrained by specific input types, our method allows flexible specification of style (text or image) and texture (full garment, cropped sections, or texture patches) conditions. To address the entanglement challenge when using full garment images as conditions, we develop a two-stage pipeline with explicit disentanglement of style and texture. In the first stage, we generate a human parsing map reflecting the desired style conditioned on the input. In the second stage, we composite textures onto the parsing map areas based on the texture input. To represent complex and non-stationary textures that have never been achieved in previous fashion editing works, we first propose extracting hierarchical and balanced CLIP features and applying position encoding in VTON. Experiments demonstrate superior synthesis quality and personalization enabled by our method. The flexible control over style and texture mixing brings virtual try-on to a new level of user experience for online shopping and fashion design.
翻訳日:2023-12-08 13:32:52 公開日:2023-12-07
# Dream2Real:視覚言語モデルによるゼロショット3Dオブジェクト再構成

Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models ( http://arxiv.org/abs/2312.04533v1 )

ライセンス: Link先を確認
Ivan Kapelyukh, Yifei Ren, Ignacio Alzugaray, Edward Johns(参考訳) 2dデータで訓練された視覚言語モデル(vlms)を3dオブジェクト再構成パイプラインに統合したロボットフレームワークdream2realを紹介する。 ロボットはシーンの3d表現を自律的に構築し、オブジェクトを仮想的に並べ替えることができ、その結果の配置のイメージがレンダリングされる。 これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。 これにより、サンプルアレンジのトレーニングデータセットを収集することなく、言語条件のアレンジメントをゼロショットで実行できる。 実世界のタスクの一連の結果は、このフレームワークが邪魔者に対して堅牢であり、言語によって制御可能であり、複雑なマルチオブジェクト関係を理解でき、テーブルトップと6-dofの再配置タスクの両方に容易に適用できることを示している。

We introduce Dream2Real, a robotics framework which integrates vision-language models (VLMs) trained on 2D data into a 3D object rearrangement pipeline. This is achieved by the robot autonomously constructing a 3D representation of the scene, where objects can be rearranged virtually and an image of the resulting arrangement rendered. These renders are evaluated by a VLM, so that the arrangement which best satisfies the user instruction is selected and recreated in the real world with pick-and-place. This enables language-conditioned rearrangement to be performed zero-shot, without needing to collect a training dataset of example arrangements. Results on a series of real-world tasks show that this framework is robust to distractors, controllable by language, capable of understanding complex multi-object relations, and readily applicable to both tabletop and 6-DoF rearrangement tasks.
翻訳日:2023-12-08 13:32:30 公開日:2023-12-07
# カメラの高さは変わらない:教師なし単眼スケール対応の道路深み推定

Camera Height Doesn't Change: Unsupervised Monocular Scale-Aware Road-Scene Depth Estimation ( http://arxiv.org/abs/2312.04530v1 )

ライセンス: Link先を確認
Genki Kinoshita and Ko Nishino(参考訳) 単眼深度推定器は補助センサーによる明示的なスケール監視を必要とするか、あるいはスケールの曖昧さに苦しむため、下流のアプリケーションではデプロイが困難になる。 スケールの可能な源は、シーンで見つかったオブジェクトのサイズであるが、不正確なローカライズによって悪用が困難になる。 本稿では,補助センサや監視を必要とせず,stablecamhと呼ばれる新しいスケールアウェア単眼深度推定法を提案する。 キーとなるアイデアは、シーン内のオブジェクトの高さに関する事前の知識を活用することであるが、高さの手がかりをロードビデオシーケンスのすべてのフレームに共通する単一の不変測度、すなわちカメラの高さに集約する。 カメラ高さ最適化として単眼深度推定を定式化することにより,堅牢かつ高精度なエンドツーエンドトレーニングを実現する。 StableCamHを実現するために,自動車の外観を直接寸法に変換する新しい学習ベースサイズを考案した。 KITTIとCityscapesの大規模な実験は、StableCamHの有効性、関連する方法と比較して最先端の精度、一般化可能性を示している。 stablecamhのトレーニングフレームワークは、任意の単眼深度推定に使用することができ、さらなる作業のための基本的なビルディングブロックになることを願っている。

Monocular depth estimators either require explicit scale supervision through auxiliary sensors or suffer from scale ambiguity, which renders them difficult to deploy in downstream applications. A possible source of scale is the sizes of objects found in the scene, but inaccurate localization makes them difficult to exploit. In this paper, we introduce a novel scale-aware monocular depth estimation method called StableCamH that does not require any auxiliary sensor or supervision. The key idea is to exploit prior knowledge of object heights in the scene but aggregate the height cues into a single invariant measure common to all frames in a road video sequence, namely the camera height. By formulating monocular depth estimation as camera height optimization, we achieve robust and accurate unsupervised end-to-end training. To realize StableCamH, we devise a novel learning-based size prior that can directly convert car appearance into its dimensions. Extensive experiments on KITTI and Cityscapes show the effectiveness of StableCamH, its state-of-the-art accuracy compared with related methods, and its generalizability. The training framework of StableCamH can be used for any monocular depth estimation method and will hopefully become a fundamental building block for further work.
翻訳日:2023-12-08 13:32:12 公開日:2023-12-07
# 拡散反射率マップ:単像確率的逆レンダリングによる照明と反射率

Diffusion Reflectance Map: Single-Image Stochastic Inverse Rendering of Illumination and Reflectance ( http://arxiv.org/abs/2312.04529v1 )

ライセンス: Link先を確認
Yuto Enyo and Ko Nishino(参考訳) 反射は、物体の外観における照明の周波数スペクトルを束縛する。 本稿では,1つの画像から物体の反射率と連動して照明の周波数スペクトルを回復する第1の確率的逆レンダリング法を提案する。 提案手法は,拡散反射率マップネットワーク (drmnet) と呼ばれる新しい拡散モデルを用いて,画像形成の反転を学習することにより,基礎幾何学に不変な外観表現である反射率マップにおいて,このブラインド逆問題を解くことを目的とする。 単一の入力画像から変換された観測反射率マップが与えられると、drmnetは、反射率を共同で推定しながら、完璧なミラー球に対応する反射率マップを生成する。 フォワード過程は、徐々に低周波反射率と加法的ガウス雑音で自然照明をフィルタリングするものとして理解することができる。 DRMNetは、このプロセスを2つのサブネットワーク、IllNetとRefNetで逆転させることを学んでいる。 ネットワークは広範な合成データセット上でトレーニングされ、確立されたデータセット上で最先端の精度を示す実画像への一般化が実証される。

Reflectance bounds the frequency spectrum of illumination in the object appearance. In this paper, we introduce the first stochastic inverse rendering method, which recovers the full frequency spectrum of an illumination jointly with the object reflectance from a single image. Our key idea is to solve this blind inverse problem in the reflectance map, an appearance representation invariant to the underlying geometry, by learning to reverse the image formation with a novel diffusion model which we refer to as the Diffusion Reflectance Map Network (DRMNet). Given an observed reflectance map converted and completed from the single input image, DRMNet generates a reflectance map corresponding to a perfect mirror sphere while jointly estimating the reflectance. The forward process can be understood as gradually filtering a natural illumination with lower and lower frequency reflectance and additive Gaussian noise. DRMNet learns to invert this process with two subnetworks, IllNet and RefNet, which work in concert towards this joint estimation. The network is trained on an extensive synthetic dataset and is demonstrated to generalize to real images, showing state-of-the-art accuracy on established datasets.
翻訳日:2023-12-08 13:31:50 公開日:2023-12-07
# ハイパーパラメータ最適化のための大規模言語モデルの利用

Using Large Language Models for Hyperparameter Optimization ( http://arxiv.org/abs/2312.04528v1 )

ライセンス: Link先を確認
Michael R. Zhang, Nishkrit Desai, Juhan Bae, Jonathan Lorraine, Jimmy Ba(参考訳) 本稿では,超パラメータ最適化(HPO)において,基礎的大言語モデル(LLM)を用いて意思決定を行う。 実験的な評価は、制約付き検索予算の設定において、LLMは標準ベンチマークにおけるランダム検索やベイズ最適化のような従来のHPO手法よりも、可逆的あるいは優れた性能を発揮することを示した。 さらに、llmが出力するハイパーパラメータとしてモデルを指定するコードを、既存のhpoアプローチの能力を超えて扱うことを提案します。 この結果から, LLMは従来の超パラメータ最適化の意思決定問題において, 効率向上のための有望なツールであることが示唆された。

This paper studies using foundational large language models (LLMs) to make decisions during hyperparameter optimization (HPO). Empirical evaluations demonstrate that in settings with constrained search budgets, LLMs can perform comparably or better than traditional HPO methods like random search and Bayesian optimization on standard benchmarks. Furthermore, we propose to treat the code specifying our model as a hyperparameter, which the LLM outputs, going beyond the capabilities of existing HPO approaches. Our findings suggest that LLMs are a promising tool for improving efficiency in the traditional decision-making problem of hyperparameter optimization.
翻訳日:2023-12-08 13:31:29 公開日:2023-12-07
# モデルトレーニングのための合成画像のスケーリング則...

Scaling Laws of Synthetic Images for Model Training ... for Now ( http://arxiv.org/abs/2312.04567v1 )

ライセンス: Link先を確認
Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian(参考訳) テキストから画像へのモデルの最近の重要な進歩は、合成画像を用いた視覚訓練システムの可能性を解き放ち、大規模なデータ収集の難しさを克服する可能性がある。 しかし、トレーニングセットにより多くの合成データが付加されるため、これらのモデルが大規模にどのように振る舞うかは明らかではない。 本稿では,テキスト・画像モデルの状態から生成した合成画像のスケーリング法を,ラベル管理付き画像分類器と言語指導付きCLIPを用いて,教師付きモデルのトレーニングのために検討する。 我々は,テキストプロンプト,分類子なし指導尺度,テキスト・ツー・イメージ・モデルの種類など,スケーリング行動に大きな影響を及ぼす要因を同定する。 これらの因子を調整した後、合成画像はCLIPトレーニングの実際の画像と似ているが、少し効果の低いスケーリング傾向を示すが、教師付き画像分類器のトレーニングではかなり性能が低い。 このアンダーパフォーマンスの主な原因は,画像分類器の訓練を著しく損なうような,特定の概念を生成するために市販のテキスト・ツー・イメージモデルが使えないことである。 また,(1)教師付き問題に対する実画像の供給が限られている場合(例:ImageNetで0.5万枚未満の画像),(2)評価データセットがトレーニングデータから大きく分岐する場合,(3)合成データが実画像と連動して使用される場合,などのシナリオにおいて,合成データのスケーリングが特に有効であることが示唆された。

Recent significant advances in text-to-image models unlock the possibility of training vision systems using synthetic images, potentially overcoming the difficulty of collecting curated data at scale. It is unclear, however, how these models behave at scale, as more synthetic data is added to the training set. In this paper we study the scaling laws of synthetic images generated by state of the art text-to-image models, for the training of supervised models: image classifiers with label supervision, and CLIP with language supervision. We identify several factors, including text prompts, classifier-free guidance scale, and types of text-to-image models, that significantly affect scaling behavior. After tuning these factors, we observe that synthetic images demonstrate a scaling trend similar to, but slightly less effective than, real images in CLIP training, while they significantly underperform in scaling when training supervised image classifiers. Our analysis indicates that the main reason for this underperformance is the inability of off-the-shelf text-to-image models to generate certain concepts, a limitation that significantly impairs the training of image classifiers. Our findings also suggest that scaling synthetic data can be particularly effective in scenarios such as: (1) when there is a limited supply of real images for a supervised problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the evaluation dataset diverges significantly from the training data, indicating the out-of-distribution scenario, or (3) when synthetic data is used in conjunction with real images, as demonstrated in the training of CLIP models.
翻訳日:2023-12-08 13:24:45 公開日:2023-12-07
# Gen2Det: 生成して検出する

Gen2Det: Generate to Detect ( http://arxiv.org/abs/2312.04566v1 )

ライセンス: Link先を確認
Saksham Suri, Fanyi Xiao, Animesh Sinha, Sean Chang Culatana, Raghuraman Krishnamoorthi, Chenchen Zhu, Abhinav Shrivastava(参考訳) 近年の拡散モデルでは, 合成画像の品質が向上し, 生成時の制御性も向上している。 我々は,最先端の接地画像生成手法を活用し,オブジェクト検出のための合成トレーニングデータを無償で作成するための,シンプルなモジュラーパイプラインであるgen2detを動機付け,提示する。 個々のオブジェクトインスタンスを生成する既存の作品とは異なり、前景を識別し、他の画像に貼り付ける必要がある。 合成データに加えて、gen2det氏は、画像レベルのフィルタリング、インスタンスレベルのフィルタリング、生成の不完全性を考慮したトレーニングレシピの改善など、生成されたデータを活用するための一連のテクニックも提案している。 Gen2Detを用いることで、さまざまな設定下でのオブジェクト検出およびセグメンテーションタスクの健全な改善と検出方法の非依存性を示す。 lvisのロングテール検出設定では、gen2detはレアカテゴリのパフォーマンスを大きなマージンで改善すると同時に、マスクr-cnnによるlvisの実データでのトレーニングだけで2.13ボックスapと1.84マスクapが改善されるなど、他のカテゴリのパフォーマンスを著しく改善している。 COCOの低データ設定では、Gen2DetはBoxとMask APの両方を2.27ポイントと1.85ポイント改善している。 最も一般的な検出設定では、Gen2Detは依然として堅牢なパフォーマンス向上を示しており、例えばCOCO上のBoxとMask APを0.45と0.32ポイント改善している。

Recently diffusion models have shown improvement in synthetic image quality as well as better control in generation. We motivate and present Gen2Det, a simple modular pipeline to create synthetic training data for object detection for free by leveraging state-of-the-art grounded image generation methods. Unlike existing works which generate individual object instances, require identifying foreground followed by pasting on other images, we simplify to directly generating scene-centric images. In addition to the synthetic data, Gen2Det also proposes a suite of techniques to best utilize the generated data, including image-level filtering, instance-level filtering, and better training recipe to account for imperfections in the generation. Using Gen2Det, we show healthy improvements on object detection and segmentation tasks under various settings and agnostic to detection methods. In the long-tailed detection setting on LVIS, Gen2Det improves the performance on rare categories by a large margin while also significantly improving the performance on other categories, e.g. we see an improvement of 2.13 Box AP and 1.84 Mask AP over just training on real data on LVIS with Mask R-CNN. In the low-data regime setting on COCO, Gen2Det consistently improves both Box and Mask AP by 2.27 and 1.85 points. In the most general detection setting, Gen2Det still demonstrates robust performance gains, e.g. it improves the Box and Mask AP on COCO by 0.45 and 0.32 points.
翻訳日:2023-12-08 13:24:14 公開日:2023-12-07
# murf:マルチベースライン放射フィールド

MuRF: Multi-Baseline Radiance Fields ( http://arxiv.org/abs/2312.04565v1 )

ライセンス: Link先を確認
Haofei Xu, Anpei Chen, Yuedong Chen, Christos Sakaridis, Yulun Zhang, Marc Pollefeys, Andreas Geiger, Fisher Yu(参考訳) マルチベースラインレーダランス場(MuRF)は,複数の異なるベースライン設定(小さなベースラインと大きなベースラインと異なる入力ビュー)の下でスパースビュー合成を解決するための一般的なフィードフォワードアプローチである。 対象の新規なビューを描画するために、3次元空間を対象のイメージ平面に平行な平面に識別し、それに応じて対象のビューフラストラムボリュームを構築する。 このようなターゲットボリューム表現は、ターゲットビューと空間的に一致し、高品質なレンダリングのために入力ビューから関連情報を効果的に集約する。 また、軸に整列した性質により、畳み込みネットワークによる後続の放射場回帰も促進する。 畳み込みネットワークによってモデル化された3次元コンテキストにより,従来よりもシャープなシーン構造を合成できる。 室内・屋外の複雑なシーン(RealEstate10K, LLFF)から, シンプルなオブジェクト(DTU)まで, さまざまなシナリオにおいて, 複数の異なるベースライン設定における最先端性能を実現する。 また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示すとともに、 MuRF の汎用性を示す。

We present Multi-Baseline Radiance Fields (MuRF), a general feed-forward approach to solving sparse view synthesis under multiple different baseline settings (small and large baselines, and different number of input views). To render a target novel view, we discretize the 3D space into planes parallel to the target image plane, and accordingly construct a target view frustum volume. Such a target volume representation is spatially aligned with the target view, which effectively aggregates relevant information from the input views for high-quality rendering. It also facilitates subsequent radiance field regression with a convolutional network thanks to its axis-aligned nature. The 3D context modeled by the convolutional network enables our method to synthesis sharper scene structures than prior works. Our MuRF achieves state-of-the-art performance across multiple different baseline settings and diverse scenarios ranging from simple objects (DTU) to complex indoor and outdoor scenes (RealEstate10K and LLFF). We also show promising zero-shot generalization abilities on the Mip-NeRF 360 dataset, demonstrating the general applicability of MuRF.
翻訳日:2023-12-08 13:23:47 公開日:2023-12-07
# EAGLES: 軽量エンコーディングによる効率的な3Dガウスの高速化

EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS ( http://arxiv.org/abs/2312.04564v1 )

ライセンス: Link先を確認
Sharath Girish, Kamal Gupta, Abhinav Shrivastava(参考訳) 近年,3次元ガウシアンスプラッティング(3D-GS)が新規シーン合成で人気を博している。 これは、Neural Radiance Fields(NeRF)に関連する、長いトレーニング時間と遅いレンダリング速度の課題に対処する。 3Dガウスの高速かつ微分可能なラスタ化により、3D-GSはリアルタイムレンダリングと高速トレーニングを実現する。 しかし、トレーニングとストレージの両方にかなりのメモリリソースを必要とするため、各シーンに何百万人ものガウシアンが必要なのだ。 ガウス点雲の高速かつより安定した最適化のために,量子化埋め込みを利用してメモリストレージの要求を大幅に削減する手法と,粗大な訓練戦略を提案する。 提案手法は,ガウスの少ないシーン表現と量子化表現を実現し,高速なトレーニング時間と高解像度シーンのリアルタイムレンダリングのためのレンダリング速度を実現する。 リコンストラクションの品質を維持しながら、メモリを1桁以上削減します。 10~20倍のメモリ消費とより高速なトレーニング/会議速度を維持しつつ、様々なデータセットやシーンにおける我々のアプローチの有効性を検証する。 プロジェクトページとコードはhttps:// efficientgaussian.github.ioで入手できる。

Recently, 3D Gaussian splatting (3D-GS) has gained popularity in novel-view scene synthesis. It addresses the challenges of lengthy training times and slow rendering speeds associated with Neural Radiance Fields (NeRFs). Through rapid, differentiable rasterization of 3D Gaussians, 3D-GS achieves real-time rendering and accelerated training. They, however, demand substantial memory resources for both training and storage, as they require millions of Gaussians in their point cloud representation for each scene. We present a technique utilizing quantized embeddings to significantly reduce memory storage requirements and a coarse-to-fine training strategy for a faster and more stable optimization of the Gaussian point clouds. Our approach results in scene representations with fewer Gaussians and quantized representations, leading to faster training times and rendering speeds for real-time rendering of high resolution scenes. We reduce memory by more than an order of magnitude all while maintaining the reconstruction quality. We validate the effectiveness of our approach on a variety of datasets and scenes preserving the visual quality while consuming 10-20x less memory and faster training/inference speed. Project page and code is available https://efficientgaussian.github.io
翻訳日:2023-12-08 13:23:24 公開日:2023-12-07
# 深部構造を運動から遠ざける視覚幾何学

Visual Geometry Grounded Deep Structure From Motion ( http://arxiv.org/abs/2312.04563v1 )

ライセンス: Link先を確認
Jianyuan Wang, Nikita Karaev, Christian Rupprecht, David Novotny(参考訳) structure-from-motion (sfm) はコンピュータビジョンコミュニティにおける長年の問題であり、無拘束の2d画像群からカメラポーズとシーンの3d構造を再構築することを目的としている。 古典的なフレームワークはこの問題を段階的に解決し、キーポイントを検出してマッチングし、画像を登録し、3Dポイントを三角測量し、バンドル調整を行う。 最近の研究は、ディープラーニングの力を利用して特定の要素(例えばキーポイントマッチング)を強化することに重点を置いているが、それでも元の非微分可能なパイプラインに基づいている。 代わりに、我々は新しいディープパイプラインVGGSfMを提案し、各コンポーネントは完全に微分可能であり、エンドツーエンドでトレーニングすることができる。 この目的のために、新しいメカニズムと単純化を導入します。 まず,近年の深度2次元点追跡技術を利用して,画素精度の高いトラックを抽出し,ペアマッチングのチェーン化の必要性を解消する。 さらに,カメラを段階的に登録する代わりに,画像と追跡機能に基づいて全カメラを同時に回収する。 最後に、カメラを最適化し、異なるバンドル調整層を介して3Dポイントを三角測量する。 co3d, imc phototourism, eth3dの3つの人気データセットで最先端のパフォーマンスを実現する。

Structure-from-motion (SfM) is a long-standing problem in the computer vision community, which aims to reconstruct the camera poses and 3D structure of a scene from a set of unconstrained 2D images. Classical frameworks solve this problem in an incremental manner by detecting and matching keypoints, registering images, triangulating 3D points, and conducting bundle adjustment. Recent research efforts have predominantly revolved around harnessing the power of deep learning techniques to enhance specific elements (e.g., keypoint matching), but are still based on the original, non-differentiable pipeline. Instead, we propose a new deep pipeline VGGSfM, where each component is fully differentiable and thus can be trained in an end-to-end manner. To this end, we introduce new mechanisms and simplifications. First, we build on recent advances in deep 2D point tracking to extract reliable pixel-accurate tracks, which eliminates the need for chaining pairwise matches. Furthermore, we recover all cameras simultaneously based on the image and track features instead of gradually registering cameras. Finally, we optimise the cameras and triangulate 3D points via a differentiable bundle adjustment layer. We attain state-of-the-art performance on three popular datasets, CO3D, IMC Phototourism, and ETH3D.
翻訳日:2023-12-08 13:23:05 公開日:2023-12-07
# ガラスの単語問題:超スロー緩和、ヒルベルト空間ジャミング、計算複雑性

Glassy word problems: ultraslow relaxation, Hilbert space jamming, and computational complexity ( http://arxiv.org/abs/2312.04562v1 )

ライセンス: Link先を確認
Shankar Balasubramanian, Sarang Gopalakrishnan, Alexey Khudorozhkov, Ethan Lake(参考訳) 本稿では,コンピュータサイエンスとグループ理論の「単語問題」に基づく局所的な力学モデルファミリを紹介し,緩和時間スケールに厳密な下界を配置する。 これらのモデルはランダム回路あるいは局所ハミルトン力学と見なすことができ、特別な場合として制約力学のよく知られた例を含む。 これらのモデルの構成空間は動的に非連結なセクターに分割され、初期状態が緩和するためには、それらが属するセクター内の他の状態の 'work out' が必要である。 この問題に高い時間的複雑性がある場合、緩和は遅くなる。 いくつかのケースでは、この問題は空間の複雑さも高い。 空間の複雑さがシステムサイズより大きい場合、非従来型のジャミング遷移が起こり、固定サイズのシステムはエルゴードではなく、自明な積状態において大きな場所の貯水池を付加することでエルゴードにすることができる。 これは、壊れやすいフラグメンテーションと呼ばれる新しいタイプのヒルベルト空間のフラグメンテーションに現れます。 緩やかな緩和とジャミングが保存密度の流体力学を強く修飾する明示的な例を示す。 ある例では、ウェーブベクター$q$の密度変調は、O(\exp(1/q))$のときまでほとんど緩和しないが、その時点で突然崩壊する。 結果の高次元への拡張についてもコメントします。

We introduce a family of local models of dynamics based on ``word problems'' from computer science and group theory, for which we can place rigorous lower bounds on relaxation timescales. These models can be regarded either as random circuit or local Hamiltonian dynamics, and include many familiar examples of constrained dynamics as special cases. The configuration space of these models splits into dynamically disconnected sectors, and for initial states to relax, they must ``work out'' the other states in the sector to which they belong. When this problem has a high time complexity, relaxation is slow. In some of the cases we study, this problem also has high space complexity. When the space complexity is larger than the system size, an unconventional type of jamming transition can occur, whereby a system of a fixed size is not ergodic, but can be made ergodic by appending a large reservoir of sites in a trivial product state. This manifests itself in a new type of Hilbert space fragmentation that we call fragile fragmentation. We present explicit examples where slow relaxation and jamming strongly modify the hydrodynamics of conserved densities. In one example, density modulations of wavevector $q$ exhibit almost no relaxation until times $O(\exp(1/q))$, at which point they abruptly collapse. We also comment on extensions of our results to higher dimensions.
翻訳日:2023-12-08 13:22:45 公開日:2023-12-07
# GenDeF:ビデオ生成のための生成変形場を学習する

GenDeF: Learning Generative Deformation Field for Video Generation ( http://arxiv.org/abs/2312.04561v1 )

ライセンス: Link先を確認
Wen Wang, Kecheng Zheng, Qiuyu Wang, Hao Chen, Zifan Shi, Ceyuan Yang, Yujun Shen, Chunhua Shen(参考訳) 我々は,映像生成の課題に迫る新たな視点を提供する。 フレーム列を直接合成するのではなく,1つの静的画像を生成変形場(GenDeF)でワープすることで映像をレンダリングする。 このようなパイプラインは3つの魅力的な利点を享受する。 まず,十分に訓練された画像生成装置を十分に再利用して静止画像(正準画像とも呼ばれる)を合成し,映像制作の難しさを軽減し,映像品質の向上を図る。 第2に,変形場を光流に容易に変換でき,運動モデリングに明示的な構造正規化を適用できるため,時間的に一貫した結果が得られる。 第3に、コンテンツと動画の絡み合いによって、ユーザーは対応する静的イメージをチューニングすることなく処理することで、合成されたビデオを処理でき、ビデオ編集、キーポイント追跡、ビデオセグメンテーションといった多くのアプリケーションを容易にする。 3つの一般的なビデオ生成ベンチマークの質的および定量的結果は、我々のGenDeF法の優位性を示している。

We offer a new perspective on approaching the task of video generation. Instead of directly synthesizing a sequence of frames, we propose to render a video by warping one static image with a generative deformation field (GenDeF). Such a pipeline enjoys three appealing advantages. First, we can sufficiently reuse a well-trained image generator to synthesize the static image (also called canonical image), alleviating the difficulty in producing a video and thereby resulting in better visual quality. Second, we can easily convert a deformation field to optical flows, making it possible to apply explicit structural regularizations for motion modeling, leading to temporally consistent results. Third, the disentanglement between content and motion allows users to process a synthesized video through processing its corresponding static image without any tuning, facilitating many applications like video editing, keypoint tracking, and video segmentation. Both qualitative and quantitative results on three common video generation benchmarks demonstrate the superiority of our GenDeF method.
翻訳日:2023-12-08 13:22:19 公開日:2023-12-07
# NeRFiller:3Dインペインティングによるシーンの編集

NeRFiller: Completing Scenes via Generative 3D Inpainting ( http://arxiv.org/abs/2312.04560v1 )

ライセンス: Link先を確認
Ethan Weber and Aleksander Ho{\l}y\'nski and Varun Jampani and Saurabh Saxena and Noah Snavely and Abhishek Kar and Angjoo Kanazawa(参考訳) 我々は,市販の2次元視覚生成モデルを用いて,3D画像の欠落部分を3Dインペインティングで補う手法であるNeRFillerを提案する。 キャプチャされた3Dシーンやオブジェクトの部分は、メッシュ再構築の失敗や観察の欠如(例えば、オブジェクトの底のような接触領域や、到達困難な領域)のために欠落することが多い。 2次元インパインティング拡散モデルを用いて,この難解な3次元インパインティング問題にアプローチする。 画像が2$\times$2のグリッドを形成すると、これらのモデルの驚くべき振る舞いを特定し、この動作を4つ以上の画像に一般化する方法を示します。 次に、これらの塗装された領域を単一の一貫した3dシーンに蒸留する反復的なフレームワークを示す。 関連作品とは対照的に、前景のオブジェクトを削除するのではなく、シーンの完了に焦点を合わせており、我々のアプローチでは、厳密な2Dオブジェクトマスクやテキストは必要としない。 我々は、NeRFillerが最も立体的に整合性のあるシーンを再現する、さまざまなシーンの設定に適合するベースラインに対して、我々のアプローチを比較した。 私たちのプロジェクトページはhttps://ethanweber.me/nerfillerにあります。

We propose NeRFiller, an approach that completes missing portions of a 3D capture via generative 3D inpainting using off-the-shelf 2D visual generative models. Often parts of a captured 3D scene or object are missing due to mesh reconstruction failures or a lack of observations (e.g., contact regions, such as the bottom of objects, or hard-to-reach areas). We approach this challenging 3D inpainting problem by leveraging a 2D inpainting diffusion model. We identify a surprising behavior of these models, where they generate more 3D consistent inpaints when images form a 2$\times$2 grid, and show how to generalize this behavior to more than four images. We then present an iterative framework to distill these inpainted regions into a single consistent 3D scene. In contrast to related works, we focus on completing scenes rather than deleting foreground objects, and our approach does not require tight 2D object masks or text. We compare our approach to relevant baselines adapted to our setting on a variety of scenes, where NeRFiller creates the most 3D consistent and plausible scene completions. Our project page is at https://ethanweber.me/nerfiller.
翻訳日:2023-12-08 13:22:01 公開日:2023-12-07
# PrimDiffusion:3Dヒューマンジェネレーションのためのボリュームプリミティブ拡散

PrimDiffusion: Volumetric Primitives Diffusion for 3D Human Generation ( http://arxiv.org/abs/2312.04559v1 )

ライセンス: Link先を確認
Zhaoxi Chen, Fangzhou Hong, Haiyi Mei, Guangcong Wang, Lei Yang, Ziwei Liu(参考訳) 人間の3次元生成のための最初の拡散に基づくフレームワークであるPrimDiffusionを紹介する。 3次元表現の計算コストと3次元人間の明瞭なトポロジーのために,3次元生成のための拡散モデルの開発は困難である。 これらの課題に取り組むために、私たちの重要な洞察は、放射能と運動的な情報を含む多数の小さなボリュームとして人体をモデル化するボリュームプリミティブのセットに直接、ノイズ拡散プロセスを運用することにあります。 このボリュームプリミティブ表現は、プリミティブベースのレンダリングの効率とボリュームプリミティブ表現のキャパシティをマージする。 私たちのprimiffusionフレームワークには3つの魅力があります。 1)拡散モデルのためのコンパクトで表現力豊かなパラメータ空間 2)人間の先入観を取り入れた柔軟な3D表現 3)デコーダフリーレンダリングによる効率的なノベルビューおよびノベルポス合成 大規模な実験により、PrimDiffusionは3D人間の世代で最先端の手法より優れていることが検証された。 特に、GANベースの手法と比較して、PrimDiffusionは高画質の3D人間のリアルタイムレンダリングを、512\times512$の解像度でサポートしています。 また,テクスチャ転送や3Dインパインティングなど,トレーニング不要な条件生成のためのフレームワークの柔軟性を示す。

We present PrimDiffusion, the first diffusion-based framework for 3D human generation. Devising diffusion models for 3D human generation is difficult due to the intensive computational cost of 3D representations and the articulated topology of 3D humans. To tackle these challenges, our key insight is operating the denoising diffusion process directly on a set of volumetric primitives, which models the human body as a number of small volumes with radiance and kinematic information. This volumetric primitives representation marries the capacity of volumetric representations with the efficiency of primitive-based rendering. Our PrimDiffusion framework has three appealing properties: 1) compact and expressive parameter space for the diffusion model, 2) flexible 3D representation that incorporates human prior, and 3) decoder-free rendering for efficient novel-view and novel-pose synthesis. Extensive experiments validate that PrimDiffusion outperforms state-of-the-art methods in 3D human generation. Notably, compared to GAN-based methods, our PrimDiffusion supports real-time rendering of high-quality 3D humans at a resolution of $512\times512$ once the denoising process is done. We also demonstrate the flexibility of our framework on training-free conditional generation such as texture transfer and 3D inpainting.
翻訳日:2023-12-08 13:21:27 公開日:2023-12-07
# MonoGaussian Avatar:単眼ガウス点に基づく頭部アバター

MonoGaussianAvatar: Monocular Gaussian Point-based Head Avatar ( http://arxiv.org/abs/2312.04558v1 )

ライセンス: Link先を確認
Yufan Chen, Lizhen Wang, Qijing Li, Hongjiang Xiao, Shengping Zhang, Hongxun Yao, Yebin Liu(参考訳) 光リアルな頭部アバターを単眼のポートレートビデオシーケンスから再現する能力は、仮想世界と現実世界のギャップを埋める上で重要なステップである。 頭部アバター技術における最近の進歩として、明示的な3d morphable mesh(3dmm)、点雲、神経暗黙的表現が研究に利用されている。 しかし、3dmmベースの手法は固定トポロジーによって制約されており、ポイントベースアプローチは大量のポイントが絡むためトレーニングの負担が重く、最後の手法は変形の柔軟性とレンダリング効率の制限に苦しめられている。 そこで本研究では,ガウス的変形場と3次元ガウス的点表現を結合した新しいアプローチとして,モノガウス的視点に基づく頭部アバター(monogaussianavatar,単眼的ガウス的視点に基づく頭部アバター)を提案する。 我々は,適応可能な形状を特徴とするガウス点を持つ頭部アバターを定義し,柔軟なトポロジーを実現する。 これらの点が目的のポーズや表現と一致してガウス変形場を有する動きを示し、効率的な変形を容易にする。 さらにガウス点の形状、大きさ、色、不透明度はガウススプラッティングと組み合わせて制御可能であり、効率的なトレーニングとレンダリングを可能にしている。 提案手法は従来手法よりも優れた性能を示し,最新の結果を得た。

The ability to animate photo-realistic head avatars reconstructed from monocular portrait video sequences represents a crucial step in bridging the gap between the virtual and real worlds. Recent advancements in head avatar techniques, including explicit 3D morphable meshes (3DMM), point clouds, and neural implicit representation have been exploited for this ongoing research. However, 3DMM-based methods are constrained by their fixed topologies, point-based approaches suffer from a heavy training burden due to the extensive quantity of points involved, and the last ones suffer from limitations in deformation flexibility and rendering efficiency. In response to these challenges, we propose MonoGaussianAvatar (Monocular Gaussian Point-based Head Avatar), a novel approach that harnesses 3D Gaussian point representation coupled with a Gaussian deformation field to learn explicit head avatars from monocular portrait videos. We define our head avatars with Gaussian points characterized by adaptable shapes, enabling flexible topology. These points exhibit movement with a Gaussian deformation field in alignment with the target pose and expression of a person, facilitating efficient deformation. Additionally, the Gaussian points have controllable shape, size, color, and opacity combined with Gaussian splatting, allowing for efficient training and rendering. Experiments demonstrate the superior performance of our method, which achieves state-of-the-art results among previous methods.
翻訳日:2023-12-08 13:21:10 公開日:2023-12-07
# GenTron:画像とビデオ生成のための拡散変換器を深く掘り下げる

GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation ( http://arxiv.org/abs/2312.04557v1 )

ライセンス: Link先を確認
Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua(参考訳) 本研究では,画像および映像生成のためのトランスベース拡散モデルについて検討する。 様々な分野におけるトランスフォーマーアーキテクチャの優位性は柔軟性とスケーラビリティにあるが、視覚生成領域は主にCNNベースのU-Netアーキテクチャ、特に拡散モデルを用いている。 このギャップに対処するために,トランスフォーマによる拡散を利用した生成モデルのファミリであるgentronを紹介する。 最初のステップは、ディフュージョン・トランスフォーマー(DiT)をクラスからテキスト・コンディショニングに適応させることでした。 そして、GenTronを約900万から3Bのパラメータに拡張し、視覚的品質の大幅な改善を観察します。 さらにgentronをテキストからビデオへの生成に拡張し,動画品質向上のための新しいモーションフリーガイダンスを組み込んだ。 SDXLに対する人間の評価では、GenTronは視覚的品質の51.1%の勝利率(19.8%の利得率)とテキストアライメントの42.3%の勝利率(42.9%の利得率)を達成している。 GenTronはT2I-CompBenchでも優れており、組成生成の強さを裏付けている。 われわれはこの研究が有意義な洞察を与え、将来の研究の貴重な参考となると信じている。

In this study, we explore Transformer-based diffusion models for image and video generation. Despite the dominance of Transformer architectures in various fields due to their flexibility and scalability, the visual generative domain primarily utilizes CNN-based U-Net architectures, particularly in diffusion-based models. We introduce GenTron, a family of Generative models employing Transformer-based diffusion, to address this gap. Our initial step was to adapt Diffusion Transformers (DiTs) from class to text conditioning, a process involving thorough empirical exploration of the conditioning mechanism. We then scale GenTron from approximately 900M to over 3B parameters, observing significant improvements in visual quality. Furthermore, we extend GenTron to text-to-video generation, incorporating novel motion-free guidance to enhance video quality. In human evaluations against SDXL, GenTron achieves a 51.1% win rate in visual quality (with a 19.8% draw rate), and a 42.3% win rate in text alignment (with a 42.9% draw rate). GenTron also excels in the T2I-CompBench, underscoring its strengths in compositional generation. We believe this work will provide meaningful insights and serve as a valuable reference for future research.
翻訳日:2023-12-08 13:20:42 公開日:2023-12-07
# 数学者のための大規模言語モデル

Large Language Models for Mathematicians ( http://arxiv.org/abs/2312.04556v1 )

ライセンス: Link先を確認
Simon Frieder, Julius Berner, Philipp Petersen, Thomas Lukasiewicz(参考訳) chatgptのような大規模言語モデル(llm)は、その汎用言語理解や、特に高品質なテキストやコンピュータコードを生成する能力に大きな関心を集めている。 多くの職業において、llmは仕事の質をスピードアップし改善できる貴重なツールです。 本稿では,プロの数学者をどの程度支援できるかについて論じる。 まず、全ての現代言語モデルで使用されるトランスフォーマーモデルの数学的記述を提供する。 最近の研究に基づいて、ベストプラクティスと潜在的な問題を概説し、言語モデルの数学的能力について報告する。 最後に、数学者の働き方を変えるためにLMMの可能性に光を当てた。

Large language models (LLMs) such as ChatGPT have received immense interest for their general-purpose language understanding and, in particular, their ability to generate high-quality text or computer code. For many professions, LLMs represent an invaluable tool that can speed up and improve the quality of work. In this note, we discuss to what extent they can aid professional mathematicians. We first provide a mathematical description of the transformer model used in all modern language models. Based on recent studies, we then outline best practices and potential issues and report on the mathematical abilities of language models. Finally, we shed light on the potential of LMMs to change how mathematicians work.
翻訳日:2023-12-08 13:20:17 公開日:2023-12-07
# 自己整合的説明による視覚接地の改善

Improved Visual Grounding through Self-Consistent Explanations ( http://arxiv.org/abs/2312.04554v1 )

ライセンス: Link先を確認
Ruozhen He, Paola Cascante-Bonilla, Ziyan Yang, Alexander C. Berg, Vicente Ordonez(参考訳) 画像とテキストをマッチングするように訓練された視覚言語モデルは、画像内の特定のオブジェクトの場所を指し示すために視覚的な説明方法と組み合わせることができる。 本研究は,これらのモデルのローカライゼーション("接地")能力が,自己整合的な視覚説明の微調整によってさらに向上することを示す。 本稿では,既存のテキスト画像データセットを大規模言語モデルを用いて補足する戦略と,自己一貫性を促進するパラフレーズのための視覚説明マップに関する弱い教師付き戦略であるselfeqを提案する。 具体的には、入力されたテキストのフレーズに対して、パラフレーズを生成し、そのフレーズとパラフレーズが画像の同じ領域にマップされるようにモデルを微調整する。 これはどちらも、モデルが扱える語彙を拡張し、勾配に基づく視覚的説明法(GradCAMなど)によって強調される物体の位置の質を向上させると仮定する。 本研究では, Flickr30k, ReferIt, RefCOCO+の性能を, 強力なベースライン法と先行研究により向上させることを示す。 特に、ボックスアノテーションを使用しない他の方法と比較して、Flickr30kでは84.07%(絶対改善4.69%)、ReferItでは67.40%(絶対改善7.68%)、RefCO+テストセットAとBでは75.10%、55.49%(絶対改善3.74%)となっている。

Vision-and-language models trained to match images with text can be combined with visual explanation methods to point to the locations of specific objects in an image. Our work shows that the localization --"grounding"-- abilities of these models can be further improved by finetuning for self-consistent visual explanations. We propose a strategy for augmenting existing text-image datasets with paraphrases using a large language model, and SelfEQ, a weakly-supervised strategy on visual explanation maps for paraphrases that encourages self-consistency. Specifically, for an input textual phrase, we attempt to generate a paraphrase and finetune the model so that the phrase and paraphrase map to the same region in the image. We posit that this both expands the vocabulary that the model is able to handle, and improves the quality of the object locations highlighted by gradient-based visual explanation methods (e.g. GradCAM). We demonstrate that SelfEQ improves performance on Flickr30k, ReferIt, and RefCOCO+ over a strong baseline method and several prior works. Particularly, comparing to other methods that do not use any type of box annotations, we obtain 84.07% on Flickr30k (an absolute improvement of 4.69%), 67.40% on ReferIt (an absolute improvement of 7.68%), and 75.10%, 55.49% on RefCOCO+ test sets A and B respectively (an absolute improvement of 3.74% on average).
翻訳日:2023-12-08 13:20:08 公開日:2023-12-07
# SPIDeRS:可視深度と反射センシングのための構造偏光

SPIDeRS: Structured Polarization for Invisible Depth and Reflectance Sensing ( http://arxiv.org/abs/2312.04553v1 )

ライセンス: Link先を確認
Tomoki Ichikawa, Shohei Nobuhara, Ko Nishino(参考訳) ステルスで形状と反射率を捉えられるか? このような能力は、視覚、xR、ロボティクス、HCIといった多くのアプリケーション領域で有用だろう。 偏光パターン(SPIDeRS)を用いた第1深度・反射率検出法である構造化偏光を導入する。 鍵となる考え方は、各画素における投射光の線形偏光(AoLP)の角度を変調することである。 偏光は目に見えず、深度だけでなく、直接表面の正常や反射までも取り戻すことができます。 液晶空間光変調器(SLM)と偏光カメラを用いたSPIDeRSを実装した。 我々は、偏光度オブジェクトの外観から投影された構造偏光パターンを頑健に抽出する新しい手法を導出する。 実世界のオブジェクトにSPIDeRSを適用し,SPIDeRSの有効性を評価する。 その結果, 種々の材料の物体形状を再現でき, 拡散反射や周囲光に頑健であることがわかった。 また, 回収した表面のノーマルと反射率を用いて, ライトアップを実演する。 我々はSPIDeRSが視覚センシングに新しい偏光の道を開くと考えている。

Can we capture shape and reflectance in stealth? Such capability would be valuable for many application domains in vision, xR, robotics, and HCI. We introduce Structured Polarization, the first depth and reflectance sensing method using patterns of polarized light (SPIDeRS). The key idea is to modulate the angle of linear polarization (AoLP) of projected light at each pixel. The use of polarization makes it invisible and lets us recover not only depth but also directly surface normals and even reflectance. We implement SPIDeRS with a liquid crystal spatial light modulator (SLM) and a polarimetric camera. We derive a novel method for robustly extracting the projected structured polarization pattern from the polarimetric object appearance. We evaluate the effectiveness of SPIDeRS by applying it to a number of real-world objects. The results show that our method successfully reconstructs object shapes of various materials and is robust to diffuse reflection and ambient light. We also demonstrate relighting using recovered surface normals and reflectance. We believe SPIDeRS opens a new avenue of polarization use in visual sensing.
翻訳日:2023-12-08 13:19:38 公開日:2023-12-07
# 図示命令の生成

Generating Illustrated Instructions ( http://arxiv.org/abs/2312.04552v1 )

ライセンス: Link先を確認
Sachit Menon, Ishan Misra, Rohit Girdhar(参考訳) ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。 我々は,この課題に特有のデシラタを同定し,その妥当性,一貫性,有効性を測定するために設計された,自動的および人為的評価指標を用いて定式化する。 大規模言語モデル(llms)のパワーと強力なテキストから画像への拡散モデルを組み合わせてstackeddiffusionと呼ばれる単純な手法を提案する。 その結果、ベースラインアプローチや最先端のマルチモーダルLCMよりも優れており、30%のケースでは、ユーザはそれを人為的な記事よりも好んでいる。 最も注目すべきは、ユーザの個々の状況に応じて、中間的なステップと画像で完備したパーソナライズされたインストラクションなど、web上の静的な記事が提供できる範囲を超えて、さまざまな新規でエキサイティングなアプリケーションを可能にすることだ。

We introduce the new task of generating Illustrated Instructions, i.e., visual instructions customized to a user's needs. We identify desiderata unique to this task, and formalize it through a suite of automatic and human evaluation metrics, designed to measure the validity, consistency, and efficacy of the generations. We combine the power of large language models (LLMs) together with strong text-to-image generation diffusion models to propose a simple approach called StackedDiffusion, which generates such illustrated instructions given text as input. The resulting model strongly outperforms baseline approaches and state-of-the-art multimodal LLMs; and in 30% of cases, users even prefer it to human-generated articles. Most notably, it enables various new and exciting applications far beyond what static articles on the web can provide, such as personalized instructions complete with intermediate steps and pictures in response to a user's individual situation.
翻訳日:2023-12-08 13:19:19 公開日:2023-12-07
# 局在電子照射による広帯域材料における量子エミッタ作製の比較研究

Comparative study of quantum emitter fabrication in wide bandgap materials using localized electron irradiation ( http://arxiv.org/abs/2312.02856v2 )

ライセンス: Link先を確認
Anand Kumar, Chanaprom Cholsuk, Mohammad N. Mishuk, Mouli Hazra, Clotilde Pillot, Tjorben Matthes, Tanveer A. Shaik, Asli Cakan, Volker Deckert, Sujin Suwanna, Tobias Vogl(参考訳) 量子光源は、様々な量子技術応用のための重要な基礎コンポーネントである。 量子テクノロジーの急速な発展により、量子エミッターをホストできる材料に対する需要が高まっている。 そのような物質の1つのプラットフォームは、六方晶窒化ホウ素(hBN)の蛍光欠陥であり、バンドギャップ内で深いサブレベルを誘導する。 この問題は、他の層状ワイドバンドギャップ (2D) 材料が同様の単一光子放出欠陥をもたらすかどうかである。 本稿では, 量子エミッタを担体として知られている, 剥離した多層ミカフレーク中の量子エミッタをhBNおよび他の広帯域3D結晶(炭化ケイ素, 窒化ガリウム)で作製し, 比較する。 我々は,標準走査型電子顕微鏡を用いた局所電子照射の一次製造技術を用いている。 実験を補完するために, 密度汎関数理論シミュレーションを用いて固有欠陥の原子構造と光物理特性の研究を行った。 我々の製造技術は高い収率と高い単一光子純度を持つhBN量子エミッタを生成することができるが、研究中の他の固体結晶のエミッタを作製することはできない。 これにより、電荷状態操作によってすでに存在する欠陥の活性化に依存する可能性があるエミッタ生成メカニズムの結論を導き出すことができる。 したがって、hBNエミッタの同定とその生成過程の重要なステップを提供する。

Quantum light sources are crucial foundational components for various quantum technology applications. With the rapid development of quantum technology, there has been a growing demand for materials that are capable of hosting quantum emitters. One such material platform are fluorescent defects in hexagonal boron nitride (hBN) inducing deep sub-levels within the band gap. The question arises if other layered wide bandgap (2D) materials offer similar single photon emitting defects. Here, we investigate and compare the fabrication of quantum emitters in exfoliated multi-layer mica flakes with hBN and other wide bandgap 3D crystals (silicon carbide and gallium nitride) which are known to host quantum emitters. We use our primary fabrication technique of localized electron irradiation using a standard scanning electron microscope. To complement our experimental work, we employ density functional theory simulations to study the atomic structures of intrinsic defects and their photophysical properties. While our fabrication technique can create hBN quantum emitters with a high yield and high single photon purity, it is unable to fabricate emitters in the other solid-state crystals under investigation. This allows us to draw conclusions on the emitter fabrication mechanism, which could be relying on the activation of already present defects by charge state manipulation. We therefore provide an important step toward the identification of hBN emitters and their formation process.
翻訳日:2023-12-08 11:34:35 公開日:2023-12-07
# 逆電界を持つ反強磁性ヘリックスにおけるスピン依存多重再帰局在:ホッピングダイメライゼーションフリーシナリオ

Spin-dependent multiple reentrant localization in an antiferromagnetic helix with transverse electric field: Hopping dimerization-free scenario ( http://arxiv.org/abs/2312.02778v2 )

ライセンス: Link先を確認
Sudin Ganguly, Kallol Mondal, and Santanu K. Maiti(参考訳) 最近の顕著な現象であるreentrant localization(rl)は、従来の研究で示されるように、スタッガード相関障害とホッピング二量化の相互作用と関連している。 このパラダイムとは対照的に,本研究では,ホッピング二量体化がRLの実現における重要な要因ではないことを示す。 反強磁性秩序を持つヘリカル磁気系を考えると、スピン依存のRLが複数のエネルギー領域で発見される。 この現象は熱力学的限界でも持続する。 aubry-andr\'{e}-harperモデルにおける相関障害は、ヘリカル系に横電場を適用し、伝統的な置換障害の使用を回避して導入される。 強固な結合の枠組みで記述された本研究は、電界、反強磁性秩序、幾何のヘリシティの重要な役割を強調する、rlに関する新しい展望を提供する。

Reentrant localization (RL), a recently prominent phenomenon, traditionally links to the interplay of staggered correlated disorder and hopping dimerization, as indicated by prior research. Contrary to this paradigm, our present study demonstrates that hopping dimerization is not a pivotal factor in realizing RL. Considering a helical magnetic system with antiferromagnetic ordering, we uncover spin-dependent RL at multiple energy regions, in the {\em absence} of hopping dimerization. This phenomenon persists even in the thermodynamic limit. The correlated disorder in the form of Aubry-Andr\'{e}-Harper model is introduced by applying a transverse electric field to the helical system, circumventing the use of traditional substitutional disorder. Described within a tight-binding framework, present work provides a novel outlook on RL, highlighting the crucial role of electric field, antiferromagnetic ordering, and the helicity of the geometry.
翻訳日:2023-12-08 11:34:14 公開日:2023-12-07
# マイクロキャビティ光子による励起子絡み込み

Entangling Excitons with Microcavity Photons ( http://arxiv.org/abs/2312.02453v2 )

ライセンス: Link先を確認
Xuan Zuo, Zhi-Yuan Fan, Hang Qian, Jie Li(参考訳) マイクロキャビティ光子で励起子を絡めるシステム理論を提供する。 これは、エキシトン-オプトメカニクスシステムを採用し、機械発振器と非線形分散相互作用を導入することで実現される。 弱結合系におけるエキシトンモードとキャビティモードと、強結合系における2つのエキシトン-ポラリトンモードが、それぞれオプトメカニカルストークスとアンチストークスサイドバンドに共振している場合、エキシトンとキャビティ光子間の絡み合い、または2つのエキシトン偏光子を分離できることを示す。 絡み合いは安定した状態にあり、室温で達成できる可能性がある。 どちらの場合も、真の三分儀の絡み合いが存在することが示されている。

We provide a systemic theory to entangle excitons with microcavity photons. This is realized by adopting an exciton-optomechanics system and introducing a nonlinear dispersive interaction with a mechanical oscillator. We show that when either the exciton and cavity modes in the weak-coupling regime, or the two exciton-polariton modes in the strong-coupling regime, are respectively resonant with the optomechanical Stokes and anti-Stokes sidebands, entanglement between excitons and cavity photons, or between two exciton polaritons, can be established. The entanglement is in the steady state and can potentially be achievable at room temperature. In both cases, genuine tripartite entanglement is shown to be present.
翻訳日:2023-12-08 11:33:52 公開日:2023-12-07
# SOLAによるオブジェクトの展開: 自動車用データセットのオブジェクトレベルのアノテーションフリーイメージ検索

Unveiling Objects with SOLA: An Annotation-Free Image Search on the Object Level for Automotive Data Sets ( http://arxiv.org/abs/2312.01860v2 )

ライセンス: Link先を確認
Philipp Rigoll, Jacob Langner, Eric Sax(参考訳) 巨大な画像データセットは、自動走行システムの認識の発展のための資金源である。 多様な状況に対処できる堅牢なニューラルネットワークのトレーニングには、多数の画像が必要である。 十分に大きなデータセットは、困難な状況やオブジェクトを含む。 結果の関数をテストするには、これらの状況やオブジェクトをデータセットから見つけ、抽出する必要がある。 大量のラベルのないデータを記録することは比較的容易であるが、要求の厳しい状況やオブジェクトを見つけることははるかに困難である。 しかし、知覚システムの開発では、長い時間を要するアノテーションを使わずに、困難なデータにアクセスすることが可能でなければならない。 したがって、開発者はデータセット内の特定の状況やオブジェクトを動的に検索できなければならない。 そこで我々は、画像内の特定の特性を持つ物体を探索する最先端のニューラルネットワークに基づく手法を設計した。 使いやすさのために、この検索のクエリは自然言語を使って記述される。 省時間化と性能向上を判定するため,本手法を自動車用データセットの質的,定量的に評価した。

Huge image data sets are the fundament for the development of the perception of automated driving systems. A large number of images is necessary to train robust neural networks that can cope with diverse situations. A sufficiently large data set contains challenging situations and objects. For testing the resulting functions, it is necessary that these situations and objects can be found and extracted from the data set. While it is relatively easy to record a large amount of unlabeled data, it is far more difficult to find demanding situations and objects. However, during the development of perception systems, it must be possible to access challenging data without having to perform lengthy and time-consuming annotations. A developer must therefore be able to search dynamically for specific situations and objects in a data set. Thus, we designed a method which is based on state-of-the-art neural networks to search for objects with certain properties within an image. For the ease of use, the query of this search is described using natural language. To determine the time savings and performance gains, we evaluated our method qualitatively and quantitatively on automotive data sets.
翻訳日:2023-12-08 11:32:49 公開日:2023-12-07
# VividTalk:3Dハイブリッドによるワンショット音声駆動型トーキングヘッド

VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior ( http://arxiv.org/abs/2312.01841v2 )

ライセンス: Link先を確認
Xusen Sun, Longhao Zhang, Hao Zhu, Peng Zhang, Bang Zhang, Xinya Ji, Kangneng Zhou, Daiheng Gao, Liefeng Bo, Xun Cao(参考訳) 近年,音声駆動型音声ヘッド生成が注目され,リップシンク,表情表現,自然な頭部ポーズ生成,高画質など多くの取り組みがなされている。 しかし、音声とモーションの1対1マッピングのため、これらの指標全てを導いたり結び付けたりしたモデルはまだない。 本稿では,高画質な音声ヘッドビデオ生成を支援する2段階の汎用フレームワークであるVividTalkを提案する。 特に第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。 表現運動では、ブレンド形状と頂点の両方を中間表現として、モデルの表現能力を最大化する。 自然な頭部運動には,二相訓練機構を備えた新しい学習可能な頭部ポーズコードブックが提案されている。 第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。 広範な実験により,提案するvividtalkは,リップシンクによる高画質な対話型ヘッドビデオを生成することができ,先行研究の客観的・主観的比較よりも優れていることが示された。

Audio-driven talking head generation has drawn much attention in recent years, and many efforts have been made in lip-sync, expressive facial expressions, natural head pose generation, and high video quality. However, no model has yet led or tied on all these metrics due to the one-to-many mapping between audio and motion. In this paper, we propose VividTalk, a two-stage generic framework that supports generating high-visual quality talking head videos with all the above properties. Specifically, in the first stage, we map the audio to mesh by learning two motions, including non-rigid expression motion and rigid head motion. For expression motion, both blendshape and vertex are adopted as the intermediate representation to maximize the representation ability of the model. For natural head motion, a novel learnable head pose codebook with a two-phase training mechanism is proposed. In the second stage, we proposed a dual branch motion-vae and a generator to transform the meshes into dense motion and synthesize high-quality video frame-by-frame. Extensive experiments show that the proposed VividTalk can generate high-visual quality talking head videos with lip-sync and realistic enhanced by a large margin, and outperforms previous state-of-the-art works in objective and subjective comparisons.
翻訳日:2023-12-08 11:32:33 公開日:2023-12-07
# 言語指導による任意の粒度でのユニバーサルセグメンテーション

Universal Segmentation at Arbitrary Granularity with Language Instruction ( http://arxiv.org/abs/2312.01623v3 )

ライセンス: Link先を確認
Yong Liu, Cairong Zhang, Yitong Wang, Jiahao Wang, Yujiu Yang, Yansong Tang(参考訳) 本稿では,任意の意味レベルの普遍的なセグメンテーションを実現することを目的とする。 近年の進歩にもかかわらず、専門的なセグメンテーションアプローチは特定のタスクやデータ分散に限られている。 新しいシナリオや設定に適応するための新しいモデルをトレーニングするには、計算コストと時間コストがかかるため、さまざまな粒度に対応する汎用的で普遍的なセグメンテーションモデルの需要が高まる。 異なるセグメンテーションタスクを統一したり、様々なシナリオに一般化するための試みもあるが、パラダイムや入力出力空間の定義の制限により、任意の粒度でコンテンツの正確な理解が困難になる。 この目的のために,言語指示の指導により任意の意味レベルでセグメンテーションを行うことのできるユニバーサルセグメンテーションモデルであるunilsegを提案する。 unilsegをトレーニングするために、タスク群を元の多様なディストリビューションから統一データフォーマットに再編成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクが出力される。 多数のラベルのないデータを利用する自動アノテーションエンジンと組み合わせることで、unilsegは様々なタスクや設定で優れたパフォーマンスを実現し、専門的なセグメンテーションモデルと統一されたセグメンテーションモデルの両方を上回っている。

This paper aims to achieve universal segmentation of arbitrary semantic level. Despite significant progress in recent years, specialist segmentation approaches are limited to specific tasks and data distribution. Retraining a new model for adaptation to new scenarios or settings takes expensive computation and time cost, which raises the demand for versatile and universal segmentation model that can cater to various granularity. Although some attempts have been made for unifying different segmentation tasks or generalization to various scenarios, limitations in the definition of paradigms and input-output spaces make it difficult for them to achieve accurate understanding of content at arbitrary granularity. To this end, we present UniLSeg, a universal segmentation model that can perform segmentation at any semantic level with the guidance of language instructions. For training UniLSeg, we reorganize a group of tasks from original diverse distributions into a unified data format, where images with texts describing segmentation targets as input and corresponding masks are output. Combined with a automatic annotation engine for utilizing numerous unlabeled data, UniLSeg achieves excellent performance on various tasks and settings, surpassing both specialist and unified segmentation models.
翻訳日:2023-12-08 11:32:11 公開日:2023-12-07
# 時間変化特徴設定のためのアクティブ特徴獲得手法の評価

Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings ( http://arxiv.org/abs/2312.01530v2 )

ライセンス: Link先を確認
Henrik von Kleist, Alireza Zamanian, Ilya Shpitser, Narges Ahmidi(参考訳) 機械学習の手法は、入力機能が無償で利用できると仮定することが多い。 しかし、機能の取得が高価または有害な分野である医療のような領域では、機能の取得コストと予測値とのバランスをとる必要がある。 取得する機能を決定するためにAIエージェントを訓練するタスクは、アクティブ機能取得(AFA)と呼ばれる。 AFAエージェントをデプロイすることで,買収戦略を効果的に変更し,流通シフトを引き起こす。 この分散シフトの下でAFAエージェントを安全にデプロイするために、アクティブな特徴取得性能評価(AFAPE)の問題を示す。 AFAPEについて検討する 一 買収が基礎となる特徴値に影響を及ぼさないという直接的効果(NDE)の仮定 二 振り返り特徴取得の決定は、観察された特徴に基づいてのみ行われるという、観測不能な確証(NUC)の仮定。 NUCの仮定ではオフライン強化学習を適用でき、NDEの仮定ではデータ手法が欠落している。 NUC と NDE が成り立つと、より弱い正の仮定を必要とする新しい半オフライン強化学習フレームワークが提案され、よりデータ効率のよい推定器が生成される。 直接法(DM)、逆確率重み付け(IPW)、二重強化学習(DRL)の3つの新しい推定手法を紹介する。

Machine learning methods often assume input features are available at no cost. However, in domains like healthcare, where acquiring features could be expensive or harmful, it is necessary to balance a feature's acquisition cost against its predictive value. The task of training an AI agent to decide which features to acquire is called active feature acquisition (AFA). By deploying an AFA agent, we effectively alter the acquisition strategy and trigger a distribution shift. To safely deploy AFA agents under this distribution shift, we present the problem of active feature acquisition performance evaluation (AFAPE). We examine AFAPE under i) a no direct effect (NDE) assumption, stating that acquisitions don't affect the underlying feature values; and ii) a no unobserved confounding (NUC) assumption, stating that retrospective feature acquisition decisions were only based on observed features. We show that one can apply offline reinforcement learning under the NUC assumption and missing data methods under the NDE assumption. When NUC and NDE hold, we propose a novel semi-offline reinforcement learning framework, which requires a weaker positivity assumption and yields more data-efficient estimators. We introduce three novel estimators: a direct method (DM), an inverse probability weighting (IPW), and a double reinforcement learning (DRL) estimator.
翻訳日:2023-12-08 11:31:32 公開日:2023-12-07
# demystifying digital twin buzzword : 新しい汎用評価モデル

Demystifying Digital Twin Buzzword: A Novel Generic Evaluation Model ( http://arxiv.org/abs/2311.12961v4 )

ライセンス: Link先を確認
Zhengyu Liu, Sina Namaki Araghi, Arkopaul Sarkar, Mohamed Hedi Karray(参考訳) デジタルツイン(DT)開発の人気が高まっているにもかかわらず、DTの重要な概念に対する共通理解と定義が欠如している。 将来の作業の障害になる前に、DTの共通理解を構築することで、このギャップに対処する必要があります。 この課題の観点から,本研究の目的は,さまざまなドメインから既存のDTを共通的に評価し,実践前にDT開発者やステークホルダの知識と理解を統合することである。 この目的を達成するため,系統的な文献レビューを行い,25の論文を分析し,既存のDTの特徴を特定し,議論した。 このレビューはdtの評価において不整合とケース固有の次元の選択を示している。 そこで本稿では,デジタルモデルの特徴に着目して,異なる領域にわたるディジタル双生児の成熟度を評価するための4次元評価フレームワークを提案する。 このモデルで特定された4つの次元は、能力、協調性、カバレッジ、ライフサイクルである。 さらに、各次元の重要性を異なるアプリケーション要求に適応させるために、重み機構がモデル内に実装されます。 いくつかのケーススタディは、提案されたモデルを一般、工業、科学のケースで検証するために考案された。

Despite the growing popularity of digital twin (DT) developments, there is a lack of common understanding and definition for important concepts of DT. It is needed to address this gap by building a shared understanding of DT before it becomes an obstacle for future work. With this challenge in view, the objective of our study is to assess the existing DT from various domains on a common basis and to unify the knowledge and understanding of DT developers and stakeholders before practice. To achieve this goal, we conducted a systematic literature review and analyzed 25 selected papers to identify and discuss the characteristics of existing DT's. The review shows an inconsistency and case-specific choices of dimensions in assessing DT. Therefore, this article proposes a four-dimensional evaluation framework to assess the maturity of digital twins across different domains, focusing on the characteristics of digital models. The four identified dimensions in this model are Capability, Cooperability, Coverage, and Lifecycle. Additionally, a weight mechanism is implemented inside the model to adapt the importance of each dimension for different application requirements. Several case studies are devised to validate the proposed model in general, industrial and scientific cases.
翻訳日:2023-12-08 11:31:10 公開日:2023-12-07
# 畳み込み層は離散シフトに同値であるが連続変換ではない

Convolutional layers are equivariant to discrete shifts but not continuous translations ( http://arxiv.org/abs/2206.04979v4 )

ライセンス: Link先を確認
Nick McGreivy, Ammar Hakim(参考訳) この短く簡単な注記の目的は、畳み込みニューラルネットワーク(cnns)に関する一般的な誤解を明らかにすることである。 CNNは、重み共有によるシフト同変である畳み込み層で構成されている。 しかし、畳み込み層は、境界効果が無視され、プールやサブサンプリングが欠如している場合でも、変換同変ではない。 これは、シフト同値が離散対称性であり、変換同値が連続対称性であるからである。 この事実は同変機械学習の研究者の間でよく知られているが、通常は非専門家の間で見過ごされている。 混乱を最小限に抑えるために、ピクセルの離散的なシフトを「シフト等分散」、連続的な変換を「変換等分散」と呼ぶことを提案している。

The purpose of this short and simple note is to clarify a common misconception about convolutional neural networks (CNNs). CNNs are made up of convolutional layers which are shift equivariant due to weight sharing. However, convolutional layers are not translation equivariant, even when boundary effects are ignored and when pooling and subsampling are absent. This is because shift equivariance is a discrete symmetry while translation equivariance is a continuous symmetry. This fact is well known among researchers in equivariant machine learning, but is usually overlooked among non-experts. To minimize confusion, we suggest using the term `shift equivariance' to refer to discrete shifts in pixels and `translation equivariance' to refer to continuous translations.
翻訳日:2023-12-08 11:30:53 公開日:2023-12-07
# promise: モデル駆動ステートフルプロンプトオーケストレーションのためのフレームワーク

PROMISE: A Framework for Model-Driven Stateful Prompt Orchestration ( http://arxiv.org/abs/2312.03699v2 )

ライセンス: Link先を確認
Wenyuan Wu, Jasmin Heierli, Max Meisterhans, Adrian Moser, Andri F\"arber, Mateusz Dolata, Elena Gavagnin, Alexandre de Spindler, and Gerhard Schwabe(参考訳) ますます強力な言語モデルの出現は、言語ベースの相互作用に対する期待を高めた。 しかし、これらのモデルを制御することは困難であり、アプリケーションの実現可能性と価値を調査できる必要性を強調している。 本稿では,情報システムとの複雑な言語によるインタラクションを開発するためのフレームワークであるPROMISEを提案する。 ステートマシンモデリングの概念を使用することで、階層的にネストされた状態と遷移にわたるモデル駆動の動的プロンプトオーケストレーションが可能になる。 これにより、言語モデルの動作制御が改善され、効果的で効率的な使用が可能になる。 本稿では、健康情報システムにおけるアプリケーションシナリオの文脈におけるPROMISEの利点を示し、複雑なインタラクションを扱う能力を示す。

The advent of increasingly powerful language models has raised expectations for language-based interactions. However, controlling these models is a challenge, emphasizing the need to be able to investigate the feasibility and value of their application. We present PROMISE, a framework that facilitates the development of complex language-based interactions with information systems. Its use of state machine modeling concepts enables model-driven, dynamic prompt orchestration across hierarchically nested states and transitions. This improves the control of the behavior of language models and thus enables their effective and efficient use. We show the benefits of PROMISE in the context of application scenarios within health information systems and demonstrate its ability to handle complex interactions.
翻訳日:2023-12-08 11:24:36 公開日:2023-12-07
# 照明・照明コンポジテーションにおける固有調和

Intrinsic Harmonization for Illumination-Aware Compositing ( http://arxiv.org/abs/2312.03698v2 )

ライセンス: Link先を確認
Chris Careaga, S. Mahdi H. Miangoleh, Ya\u{g}{\i}z Aksoy(参考訳) ネットワークベースのイメージ調和技術の大幅な進歩にもかかわらず、推論中に遭遇する典型的なトレーニングペアと現実世界の複合物との間にはドメイン格差が存在する。 既存の手法のほとんどは、分割された画像領域で作成されたグローバル編集をリバースするように訓練されており、合成画像に見られる前景と背景の照明の不一致を正確に捉えることができない。 本稿では,本質的画像領域で定式化された自己教師付き照明調和手法を提案する。 まず、中レベルの視覚表現から単純なグローバル照明モデルを推定し、前景領域の粗陰影を生成する。 ネットワークはこの推論シェーディングを洗練し、背景のシーンに合わせて調和した再シェーディングを生成する。 本研究では,前景と背景の色調に合わせるために,先行調和方式のアイデアを用いて,アルベド領域でパラメータ化画像編集を行う。 本手法の有効性を検証するために,実世界の複合材料に挑戦する結果を示し,実世界の調和手法と比較して達成された拡張現実感を客観的に測定するユーザスタディを行った。

Despite significant advancements in network-based image harmonization techniques, there still exists a domain disparity between typical training pairs and real-world composites encountered during inference. Most existing methods are trained to reverse global edits made on segmented image regions, which fail to accurately capture the lighting inconsistencies between the foreground and background found in composited images. In this work, we introduce a self-supervised illumination harmonization approach formulated in the intrinsic image domain. First, we estimate a simple global lighting model from mid-level vision representations to generate a rough shading for the foreground region. A network then refines this inferred shading to generate a harmonious re-shading that aligns with the background scene. In order to match the color appearance of the foreground and background, we utilize ideas from prior harmonization approaches to perform parameterized image edits in the albedo domain. To validate the effectiveness of our approach, we present results from challenging real-world composites and conduct a user study to objectively measure the enhanced realism achieved compared to state-of-the-art harmonization methods.
翻訳日:2023-12-08 11:24:26 公開日:2023-12-07
# MIRACLE:人間に触発された移動ロボットナビゲーションのための逆強化とカリキュラム学習モデル

MIRACLE: Inverse Reinforcement and Curriculum Learning Model for Human-inspired Mobile Robot Navigation ( http://arxiv.org/abs/2312.03651v2 )

ライセンス: Link先を確認
Nihal Gunukula, Kshitij Tiwari, Aniket Bera(参考訳) 緊急時、移動ロボットは人間のように移動し、最初の応答者と干渉することなく、潜在的な犠牲者を素早く見つけるために刺激を解釈しなければならない。 既存のソーシャルアウェアナビゲーションアルゴリズムは、計算と適応性の課題に直面している。 そこで本研究では,ゲーミフィケーション学習を用いて刺激駆動型ナビゲーションデータを集める逆強化学習モデルであるMIRACLEを提案する。 このデータは、逆最大エントロピー強化学習モデルのトレーニングに使用され、デモストラクタ能力への依存を減らす。 テストでは400サイズの環境で2.7717の損失が低く、人間のような反応の複製を示す。 現在のデータベースには包括的な刺激駆動データがなく、アプローチを必要としています。 そうすることで、ロボットは人間のような感覚で緊急事態をナビゲートし、救命能力を高めることができる。

In emergency scenarios, mobile robots must navigate like humans, interpreting stimuli to locate potential victims rapidly without interfering with first responders. Existing socially-aware navigation algorithms face computational and adaptability challenges. To overcome these, we propose a solution, MIRACLE -- an inverse reinforcement and curriculum learning model, that employs gamified learning to gather stimuli-driven human navigational data. This data is then used to train a Deep Inverse Maximum Entropy Reinforcement Learning model, reducing reliance on demonstrator abilities. Testing reveals a low loss of 2.7717 within a 400-sized environment, signifying human-like response replication. Current databases lack comprehensive stimuli-driven data, necessitating our approach. By doing so, we enable robots to navigate emergency situations with human-like perception, enhancing their life-saving capabilities.
翻訳日:2023-12-08 11:24:08 公開日:2023-12-07
# 静的特徴設定のためのアクティブ特徴獲得手法の評価

Evaluation of Active Feature Acquisition Methods for Static Feature Settings ( http://arxiv.org/abs/2312.03619v2 )

ライセンス: Link先を確認
Henrik von Kleist, Alireza Zamanian, Ilya Shpitser, Narges Ahmidi(参考訳) afa(active feature acquisition)エージェントは、機能獲得がコスト的あるいは有害なヘルスケアなどの領域で重要なエージェントであり、次の分類タスクで最適な機能セットを決定する。 afaエージェントのデプロイは不足分散のシフトをもたらすため、レトロスペクティブデータを使用してデプロイ時に期待されるパフォーマンスを評価することが不可欠である。 本稿では,時間依存型と推定される機能獲得性能評価(AFAPE)のための半オフライン強化学習(RL)フレームワークを提案する。 ここでは,特徴が時間不変である静的機能設定をカバーするために,afape問題を研究し,拡張することで,afaエージェントが獲得順序を決定する際の柔軟性を高める。 本稿では,新しい逆確率重み付け (IPW), 直接法 (DM), 二重強化学習 (DRL) 推定器を半オフラインRLフレームワーク内で導出し適応する。 これらの推定器は、レトロスペクティブデータセットの欠如がMAR( missing-at-random)パターンに従えば適用できる。 これらはまた、適切な既存の欠落データ技術と組み合わせて、欠落しない(mnar)パターンにも適用できる。 合成MARとMNARの欠如下での合成および実世界のデータ実験において,半オフラインRL推定器によって提供されるデータ効率の改善について述べる。

Active feature acquisition (AFA) agents, crucial in domains like healthcare where acquiring features is often costly or harmful, determine the optimal set of features for a subsequent classification task. As deploying an AFA agent introduces a shift in missingness distribution, it's vital to assess its expected performance at deployment using retrospective data. In a companion paper, we introduce a semi-offline reinforcement learning (RL) framework for active feature acquisition performance evaluation (AFAPE) where features are assumed to be time-dependent. Here, we study and extend the AFAPE problem to cover static feature settings, where features are time-invariant, and hence provide more flexibility to the AFA agents in deciding the order of the acquisitions. In this static feature setting, we derive and adapt new inverse probability weighting (IPW), direct method (DM), and double reinforcement learning (DRL) estimators within the semi-offline RL framework. These estimators can be applied when the missingness in the retrospective dataset follows a missing-at-random (MAR) pattern. They also can be applied to missing-not-at-random (MNAR) patterns in conjunction with appropriate existing missing data techniques. We illustrate the improved data efficiency offered by the semi-offline RL estimators in synthetic and real-world data experiments under synthetic MAR and MNAR missingness.
翻訳日:2023-12-08 11:23:53 公開日:2023-12-07
# タスクは価値ある1ワード:高画質のVersatile Image Inpaintingのためのタスクプロンプトによる学習

A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting ( http://arxiv.org/abs/2312.03594v2 )

ライセンス: Link先を確認
Junhao Zhuang, Yanhong Zeng, Wenran Liu, Chun Yuan, Kai Chen(参考訳) ユーザの指定した領域がユーザの意図に応じて妥当なコンテンツで満たされる、高品質な多彩なイメージインペインティングの実現には、大きな課題がある。 既存の手法では、適切なトレーニング戦略が必要となるため、コンテキスト認識画像の塗り込みとテキスト誘導オブジェクトの塗り込みを同時に扱うのが困難である。 この課題を克服するために、私たちはpowerpaintを紹介します。powerpaintは、両方のタスクに優れた、最初の高品質で多用途なインペインティングモデルです。 まず、学習可能なタスクプロンプトと調整された微調整戦略を導入し、モデルの焦点を異なる塗りつぶしターゲットに明示的に導く。 これによりPowerPaintは、さまざまなタスクプロンプトを利用することで、さまざまなインペイントタスクを達成できる。 第2に,PowerPaintにおけるタスクプロンプトの汎用性について,オブジェクト削除の負のプロンプトとしての有効性を示す。 さらに,プロンプト補間手法を活用し,形状誘導型オブジェクトのインパインティングを制御可能とした。 最後に,様々なインパインティングベンチマークでPowerPaintを広範囲に評価し,多彩な画像インパインティングの優れた性能を示す。 当社のプロジェクトページでは、コードとモデルを公開しています。

Achieving high-quality versatile image inpainting, where user-specified regions are filled with plausible content according to user intent, presents a significant challenge. Existing methods face difficulties in simultaneously addressing context-aware image inpainting and text-guided object inpainting due to the distinct optimal training strategies required. To overcome this challenge, we introduce PowerPaint, the first high-quality and versatile inpainting model that excels in both tasks. First, we introduce learnable task prompts along with tailored fine-tuning strategies to guide the model's focus on different inpainting targets explicitly. This enables PowerPaint to accomplish various inpainting tasks by utilizing different task prompts, resulting in state-of-the-art performance. Second, we demonstrate the versatility of the task prompt in PowerPaint by showcasing its effectiveness as a negative prompt for object removal. Additionally, we leverage prompt interpolation techniques to enable controllable shape-guided object inpainting. Finally, we extensively evaluate PowerPaint on various inpainting benchmarks to demonstrate its superior performance for versatile image inpainting. We release our codes and models on our project page: https://powerpaint.github.io/.
翻訳日:2023-12-08 11:23:33 公開日:2023-12-07
# Holmes: 異種NIC環境下でのクラスタ間の分散トレーニングを目指す

Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment ( http://arxiv.org/abs/2312.03549v2 )

ライセンス: Link先を確認
Fei Yang, Shuang Peng, Ning Sun, Fangyu Wang, Ke Tan, Fu Wu, Jiezhong Qiu, Aimin Pan(参考訳) GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。 しかし、これらのモデルのトレーニングにはかなりのコストがかかり、数ヶ月の連続運用には数万のgpuが必要となる。 通常、このトレーニングは、均一な高速リモートダイレクトメモリアクセス(RDMA)ネットワークインターフェースカード(NIC)を備えた専用GPUクラスタで実行される。 このような専用クラスタの獲得とメンテナンスは困難である。 現在のLLMトレーニングフレームワークであるMegatron-LMやMegatron-DeepSpeedは、主に同種クラスタ設定でのトレーニングの最適化に重点を置いている。 本稿では,不均一なNIC環境におけるデータとモデル並列化戦略を念頭に構築したLLMのトレーニングフレームワークであるHolmesを紹介する。 我々の主な技術的貢献は、LLMトレーニングにおける異なる計算タスクレットを、その接続NICの特性に基づいて特定のGPUデバイス群にインテリジェントに割り当てる新しいスケジューリング手法である。 さらに、パイプライン並列技術を利用した提案フレームワークでは、異なるクラスタ内のノード間の高速な相互接続のないシナリオにおいても、複数のGPUクラスタへのスケーラビリティを示す。 我々は異種NIC環境における様々なシナリオを含む包括的実験を行った。 ほとんどの場合、本フレームワークはRDMA対応ネットワーク(InfiniBandまたはRoCE)で達成可能な性能レベルに近い性能を達成し、純粋なイーサネット環境におけるトレーニング効率を大幅に上回る。 さらに,我々のフレームワークが,トレーニング効率の点で異種nic環境下で他の主流のllmフレームワークよりも優れており,それらをシームレスに統合できることを確認した。

Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated remarkable accuracy in a wide range of tasks. However, training these models can incur significant expenses, often requiring tens of thousands of GPUs for months of continuous operation. Typically, this training is carried out in specialized GPU clusters equipped with homogeneous high-speed Remote Direct Memory Access (RDMA) network interface cards (NICs). The acquisition and maintenance of such dedicated clusters is challenging. Current LLM training frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on optimizing training within homogeneous cluster settings. In this paper, we introduce Holmes, a training framework for LLMs that employs thoughtfully crafted data and model parallelism strategies over the heterogeneous NIC environment. Our primary technical contribution lies in a novel scheduling method that intelligently allocates distinct computational tasklets in LLM training to specific groups of GPU devices based on the characteristics of their connected NICs. Furthermore, our proposed framework, utilizing pipeline parallel techniques, demonstrates scalability to multiple GPU clusters, even in scenarios without high-speed interconnects between nodes in distinct clusters. We conducted comprehensive experiments that involved various scenarios in the heterogeneous NIC environment. In most cases, our framework achieves performance levels close to those achievable with homogeneous RDMA-capable networks (InfiniBand or RoCE), significantly exceeding training efficiency within the pure Ethernet environment. Additionally, we verified that our framework outperforms other mainstream LLM frameworks under heterogeneous NIC environment in terms of training efficiency and can be seamlessly integrated with them.
翻訳日:2023-12-08 11:23:10 公開日:2023-12-07
# ソボレフ・プルーニングに向けて

Towards Sobolev Pruning ( http://arxiv.org/abs/2312.03510v2 )

ライセンス: Link先を確認
Neil Kichler, Sher Afghan, Uwe Naumann(参考訳) 複雑な現象を記述するための確率モデルの利用の増加は、計算コストのごく一部で参照モデル特性をキャプチャするモデルを代理し、潜在的に高価なモンテカルロシミュレーションを先導する。 大きなニューラルネットワークを適合させ、それを小さくする主なアプローチは、一般的に欠点を無視している。 生成された代理モデルは、しばしば元のモデルに固有の感度や不確かさを捉えない。 特に、そのようなサロゲートの(高次の)誘導体情報は、大きく異なる可能性がある。 十分な量のネットワークがあると、このデリバティブ情報は一致するだろう。 しかし、刈り取られたモデルは、ほぼ間違いなくこの挙動を共有しないでしょう。 本稿では,学習および刈り取り過程を通じて感度情報を用いて代理モデルを見つけることを提案する。 本研究では, ニューラルネットワークを用いたサロゲートモデルにおいて, 初期感度情報を正確にモデル化するためのソボレフ訓練の最近の進歩と組み合わせて, 時間差分結合分析を用いて作業を行う。 ブラウン運動を伴う確率微分方程式を用いてモデル化した多次元バスケットオプションの価格設定例について実験的に検討した。 しかし,提案手法は定量的金融の領域に限らず,直感的な感性解釈のケーススタディとして選択された。 感度情報を考慮したさらなるサロゲートモデリング技術の構築の基盤となっている。

The increasing use of stochastic models for describing complex phenomena warrants surrogate models that capture the reference model characteristics at a fraction of the computational cost, foregoing potentially expensive Monte Carlo simulation. The predominant approach of fitting a large neural network and then pruning it to a reduced size has commonly neglected shortcomings. The produced surrogate models often will not capture the sensitivities and uncertainties inherent in the original model. In particular, (higher-order) derivative information of such surrogates could differ drastically. Given a large enough network, we expect this derivative information to match. However, the pruned model will almost certainly not share this behavior. In this paper, we propose to find surrogate models by using sensitivity information throughout the learning and pruning process. We build on work using Interval Adjoint Significance Analysis for pruning and combine it with the recent advancements in Sobolev Training to accurately model the original sensitivity information in the pruned neural network based surrogate model. We experimentally underpin the method on an example of pricing a multidimensional Basket option modelled through a stochastic differential equation with Brownian motion. The proposed method is, however, not limited to the domain of quantitative finance, which was chosen as a case study for intuitive interpretations of the sensitivities. It serves as a foundation for building further surrogate modelling techniques considering sensitivity information.
翻訳日:2023-12-08 11:22:47 公開日:2023-12-07
# HiFi4G:コンパクトガウススプレイティングによる高忠実なヒューマンパフォーマンスレンダリング

HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian Splatting ( http://arxiv.org/abs/2312.03461v2 )

ライセンス: Link先を確認
Yuheng Jiang, Zhehao Shen, Penghao Wang, Zhuo Su, Yu Hong, Yingliang Zhang, Jingyi Yu, Lan Xu(参考訳) 最近、フォトリアルな人間のモデリングとレンダリングが大幅に進歩しました。 しかし、現実的な人間のパフォーマンスを効率よくレンダリングし、それをラスタライズパイプラインに統合することは依然として難しい。 本稿では,高精細映像からの高忠実度人間パフォーマンスレンダリングのための,明示的でコンパクトなガウス的手法であるHiFi4Gを提案する。 我々の中核的な直感は、3次元ガウス表現と非剛性追跡とを結合し、コンパクトで圧縮に優しい表現を実現することである。 まず, 実効初期化のための粗変形グラフと, その後の制約を強制する細粒度ガウスグラフを備えた2重グラフ機構を提案する。 そして,適応型時空間正規化器を用いた4次元ガウス最適化手法を用いて,非剛性前処理とガウス更新を効果的にバランスさせる。 また,各種プラットフォームにおける没入型体験に対する残差補償付き圧縮手法を提案する。 圧縮速度は約25倍で、1フレームあたりのストレージは2mbに満たない。 大規模な実験では、最適化速度、レンダリング品質、ストレージオーバヘッドにおいて既存のアプローチを著しく上回り、我々のアプローチの有効性を実証している。

We have recently seen tremendous progress in photo-real human modeling and rendering. Yet, efficiently rendering realistic human performance and integrating it into the rasterization pipeline remains challenging. In this paper, we present HiFi4G, an explicit and compact Gaussian-based approach for high-fidelity human performance rendering from dense footage. Our core intuition is to marry the 3D Gaussian representation with non-rigid tracking, achieving a compact and compression-friendly representation. We first propose a dual-graph mechanism to obtain motion priors, with a coarse deformation graph for effective initialization and a fine-grained Gaussian graph to enforce subsequent constraints. Then, we utilize a 4D Gaussian optimization scheme with adaptive spatial-temporal regularizers to effectively balance the non-rigid prior and Gaussian updating. We also present a companion compression scheme with residual compensation for immersive experiences on various platforms. It achieves a substantial compression rate of approximately 25 times, with less than 2MB of storage per frame. Extensive experiments demonstrate the effectiveness of our approach, which significantly outperforms existing approaches in terms of optimization speed, rendering quality, and storage overhead.
翻訳日:2023-12-08 11:22:25 公開日:2023-12-07
# SVQ:時空間予測のためのスパースベクトル量子化

SVQ: Sparse Vector Quantization for Spatiotemporal Forecasting ( http://arxiv.org/abs/2312.03406v2 )

ライセンス: Link先を確認
Chao Chen, Tian Zhou, Yanjun Zhao, Hui Liu, Liang Sun, Rong Jin(参考訳) 天気予報や交通予報のような時空間予測タスクは、社会に大きな利益をもたらす。 これらのタスクは、コンピュータビジョンモデルを用いて画像予測問題として効果的にアプローチできる。 ベクトル量子化(vector quantization, vq)は、潜在空間を改善し、一般化と転送学習能力の向上につながる離散表現の一般的な方法である。 時空間予測にVQを使用する際の大きな課題の1つは、十分な詳細を維持することと、元のパターンからノイズを取り除くことで、より一般化する方法である。 この課題は、スパースベクトル量子化(略して {\bf SVQ})を開発し、スパース回帰を利用して2つの目的間のトレードオフを改善することで解決する。 この研究の主な革新は、2層MLPとランダムに固定または学習可能な行列によるスパース回帰を近似し、計算効率を劇的に改善することである。 気象予報,トラヒックフロー予報,ビデオ予報など多分野の多種多様なデータセットを対象として実験を行い,本手法がベースモデルの性能を一貫して向上させ,全ベンチマークで最新の結果が得られることを示す。

Spatiotemporal forecasting tasks, such as weather forecasting and traffic prediction, offer significant societal benefits. These tasks can be effectively approached as image forecasting problems using computer vision models. Vector quantization (VQ) is a well-known method for discrete representation that improves the latent space, leading to enhanced generalization and transfer learning capabilities. One of the main challenges in using VQ for spatiotemporal forecasting is how to balance between keeping enough details and removing noises from the original patterns for better generalization. We address this challenge by developing sparse vector quantization, or {\bf SVQ} for short, that leverages sparse regression to make better trade-off between the two objectives. The main innovation of this work is to approximate sparse regression by a two-layer MLP and a randomly fixed or learnable matrix, dramatically improving its computational efficiency. Through experiments conducted on diverse datasets in multiple fields including weather forecasting, traffic flow prediction, and video forecasting, we unequivocally demonstrate that our proposed method consistently enhances the performance of base models and achieves state-of-the-art results across all benchmarks.
翻訳日:2023-12-08 11:22:05 公開日:2023-12-07
# 対人ロバストネスのためのクラスインクリメンタルラーニング

Class Incremental Learning for Adversarial Robustness ( http://arxiv.org/abs/2312.03289v2 )

ライセンス: Link先を確認
Seungju Cho, Hongsin Lee, Changick Kim(参考訳) 敵の訓練は、モデルトレーニング中の敵の例を統合し、堅牢性を高める。 しかし、固定データセット設定でのアプリケーションは、データが漸進的に蓄積される実世界のダイナミクスとは異なる。 本研究では,逆ロバスト性とインクリメンタル学習を組み合わせた手法であるarcil(adversarially robust class incremental learning)について検討する。 逐次学習とナイーブな敵対的トレーニングを組み合わせると、ロバスト性が失われやすいことが観察される。 これは、敵の訓練の特徴である損失関数の平坦性が失われることによるものであることが判明した。 この問題に対処するため,本研究では,逆例と清浄例の出力差を生かした平坦性保存蒸留(fpd)損失を提案する。 さらに,ロジット調整蒸留(LAD)の損失も導入し,新しいタスクにうまく対応できるようにモデル知識を適応させる。 実験の結果,既存のインクリメンタルラーニング手法に逆学習を適用するアプローチよりも,本手法の方が優れていることが示された。 分割したCIFAR-10, CIFAR-100, Tiny ImageNetのベースラインよりも平均5.99\%p, 5.27\%p, 3.90\%pのAutoAttack精度を実現する。 コードは利用可能になります。

Adversarial training integrates adversarial examples during model training to enhance robustness. However, its application in fixed dataset settings differs from real-world dynamics, where data accumulates incrementally. In this study, we investigate Adversarially Robust Class Incremental Learning (ARCIL), a method that combines adversarial robustness with incremental learning. We observe that combining incremental learning with naive adversarial training easily leads to a loss of robustness. We discover that this is attributed to the disappearance of the flatness of the loss function, a characteristic of adversarial training. To address this issue, we propose the Flatness Preserving Distillation (FPD) loss that leverages the output difference between adversarial and clean examples. Additionally, we introduce the Logit Adjustment Distillation (LAD) loss, which adapts the model's knowledge to perform well on new tasks. Experimental results demonstrate the superiority of our method over approaches that apply adversarial training to existing incremental learning methods, which provides a strong baseline for incremental learning on adversarial robustness in the future. Our method achieves AutoAttack accuracy that is 5.99\%p, 5.27\%p, and 3.90\%p higher on average than the baseline on split CIFAR-10, CIFAR-100, and Tiny ImageNet, respectively. The code will be made available.
翻訳日:2023-12-08 11:21:12 公開日:2023-12-07
# 自動睡眠ステージングのためのドメイン不変表現学習と睡眠ダイナミクスモデリング

Domain Invariant Representation Learning and Sleep Dynamics Modeling for Automatic Sleep Staging ( http://arxiv.org/abs/2312.03196v2 )

ライセンス: Link先を確認
Seungyeon Lee, Thai-Hoang Pham, Zhao Cheng, Ping Zhang(参考訳) 睡眠ステージングは睡眠障害の診断と治療において重要な課題となっている。 大規模な公衆睡眠データベースの急速な増加と機械学習の進歩により、自動睡眠ステージングに向けた大きな進歩があった。 しかし、以前の研究では、被験者の生理的信号の不均一性、ラベルのない睡眠信号データから有意な情報を抽出できないことによる予測性能の向上、睡眠段階間の相関のモデル化の難しさ、予測の不確実性を定量化する効果的なメカニズムの欠如など、睡眠研究においていくつかの重要な問題に直面していた。 本研究では,ニューラルネットワークを用いた自動睡眠ステージングモデルDREAMを提案し,生理的信号とモデル睡眠ダイナミクスから領域一般化表現を学習する。 DREAMは、様々な被験者の睡眠信号セグメントから睡眠関連および被写体不変表現を学び、シーケンシャル信号セグメントと睡眠ステージ間の相互作用を捉えて睡眠ダイナミクスをモデル化する。 実験では、DREAMが3つのデータセット上で既存の睡眠ステージ法より優れていることを示した。 ケーススタディでは,テスト対象とトレーニング対象との違いがある場合,新しい被験者に対して優れた予測性能をもたらす一般化決定関数を学習できることが示されている。 ラベルなしデータの使用は、ラベルなしのEEGデータを活用する利点を示している。 さらに不確実性定量化は、ドリームが予測の不確実性を提供し、モデルを信頼性を持たせ、現実世界のアプリケーションで睡眠の専門家を助けることを証明している。

Sleep staging has become a critical task in diagnosing and treating sleep disorders to prevent sleep related diseases. With rapidly growing large scale public sleep databases and advances in machine learning, significant progress has been made toward automatic sleep staging. However, previous studies face some critical problems in sleep studies; the heterogeneity of subjects' physiological signals, the inability to extract meaningful information from unlabeled sleep signal data to improve predictive performances, the difficulty in modeling correlations between sleep stages, and the lack of an effective mechanism to quantify predictive uncertainty. In this study, we propose a neural network based automatic sleep staging model, named DREAM, to learn domain generalized representations from physiological signals and models sleep dynamics. DREAM learns sleep related and subject invariant representations from diverse subjects' sleep signal segments and models sleep dynamics by capturing interactions between sequential signal segments and between sleep stages. In the experiments, we demonstrate that DREAM outperforms the existing sleep staging methods on three datasets. The case study demonstrates that our model can learn the generalized decision function resulting in good prediction performances for the new subjects, especially in case there are differences between testing and training subjects. The usage of unlabeled data shows the benefit of leveraging unlabeled EEG data. Further, uncertainty quantification demonstrates that DREAM provides prediction uncertainty, making the model reliable and helping sleep experts in real world applications.
翻訳日:2023-12-08 11:20:27 公開日:2023-12-07
# 社会的選択理論を用いたエージェント評価

Evaluating Agents using Social Choice Theory ( http://arxiv.org/abs/2312.03121v2 )

ライセンス: Link先を確認
Marc Lanctot, Kate Larson, Yoram Bachrach, Luke Marris, Zun Li, Avishkar Bhoopchand, Thomas Anthony, Brian Tanner, Anna Koop(参考訳) 多くの一般的な評価問題は、投票理論のレンズを通して見ることができる。 各タスクは独立した投票者として解釈され、全体的な評価を得るためには順序付けやエージェントの対比較のみを必要とする。 アグリゲータを社会福祉機能と見なすことで、数世紀にわたる社会選択理論の研究を活用し、原理評価の枠組みを公理的基盤で導出することができる。 これらの評価は解釈可能で柔軟であるが、現在クロスタスク評価に直面している多くの問題を回避している。 我々は、強化学習、大規模言語モデル、人間を含む複数の設定にまたがって、この投票・評価(vase)フレームワークを適用する。 実際には、VasEは一般的な評価フレームワーク(EloとNash平均化)よりも堅牢であり、スコアだけでは明らかでない評価データの特性を発見し、複雑な7人プレイゲームにおいて、Eloよりも優れた結果を予測することができる。 評価に関連する重要な一貫性特性を満足し,計算効率(評価データの大きさのポリノミカル)を高く評価し,ゲーム理論のサイクルを同定する。

We argue that many general evaluation problems can be viewed through the lens of voting theory. Each task is interpreted as a separate voter, which requires only ordinal rankings or pairwise comparisons of agents to produce an overall evaluation. By viewing the aggregator as a social welfare function, we are able to leverage centuries of research in social choice theory to derive principled evaluation frameworks with axiomatic foundations. These evaluations are interpretable and flexible, while avoiding many of the problems currently facing cross-task evaluation. We apply this Voting-as-Evaluation (VasE) framework across multiple settings, including reinforcement learning, large language models, and humans. In practice, we observe that VasE can be more robust than popular evaluation frameworks (Elo and Nash averaging), discovers properties in the evaluation data not evident from scores alone, and can predict outcomes better than Elo in a complex seven-player game. We identify one particular approach, maximal lotteries, that satisfies important consistency properties relevant to evaluation, is computationally efficient (polynomial in the size of the evaluation data), and identifies game-theoretic cycles.
翻訳日:2023-12-08 11:19:57 公開日:2023-12-07
# 地平線から遠く離れた島

Islands Far Outside the Horizon ( http://arxiv.org/abs/2312.03078v2 )

ライセンス: Link先を確認
Raphael Bousso and Geoff Penington(参考訳) 半古典重力の絡み合った島にある情報は、遠方の放射から非摂動的に再構成することができ、実効場理論の過激な崩壊を意味する。 この現象は、地平線を張ったブラックホールの外側でよく起こる。 4次元シュワルツシルトブラックホールの大角運動量ホーキングモードに関連する島を計算した。 これらのモードは典型的にはブラックホールに逆戻りするが、相対論的弦やより抽象的には時間的な管定理を用いて構築された漸近境界作用素によって無限大に抽出することができる。 驚くべきことに、それらの島は地平線外から$\sqrt{\ell_p r_{\rm hor}}$のオーダーの距離を突き出すことができる。 これはプランクスケールの$\ell_p$よりもパラメトリックに大きく、超大質量ブラックホールのボーア半径に匹敵する。 したがって、原理的には、遠方の観測者はブラックホール情報パラドックスが相補性やファイアウォールによって解決されるかどうかを実験的に決定することができる。

Information located in an entanglement island in semiclassical gravity can be nonperturbatively reconstructed from distant radiation, implying a radical breakdown of effective field theory. We show that this occurs well outside of the black hole stretched horizon. We compute the island associated to large-angular momentum Hawking modes of a four-dimensional Schwarzschild black hole. These modes typically fall back into the black hole but can be extracted to infinity by relativistic strings or, more abstractly, by asymptotic boundary operators constructed using the timelike tube theorem. Remarkably, we find that their island can protrude a distance of order $\sqrt{\ell_p r_{\rm hor}}$ outside the horizon. This is parametrically larger than the Planck scale $\ell_p$ and is comparable to the Bohr radius for supermassive black holes. Therefore, in principle, a distant observer can determine experimentally whether the black hole information paradox is resolved by complementarity, or by a firewall.
翻訳日:2023-12-08 11:19:35 公開日:2023-12-07
# WhisBERT: 1億ワードのマルチモーダルテキストオーディオ言語モデリング

WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words ( http://arxiv.org/abs/2312.02931v2 )

ライセンス: Link先を確認
Lukas Wolf, Greta Tuckute, Klemen Kotar, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt(参考訳) 入力の複数のモダリティのトレーニングは、言語モデルの能力を高めることができる。 ここでは,このような訓練制度が,これらのシステムの品質と効率を向上できるかどうかを問う。 FLAVA(Singh et al., 2022)のテキストイメージアプローチに触発されたWhisbertを紹介する。 babylmのガイドライン(warstadt et al., 2023)に従って、私たちはウィスバートを、人々の発話データセット(galvez et al., 2021)のワードアライメントバージョンから、わずか1億語と対応する音声からなるデータセットに事前訓練します。 マルチモダリティの影響を評価するために,テキストのみと音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較する。 我々は、Whisbertがマルチモーダルマスクモデルでうまく機能し、ほとんどのベンチマークタスクにおいてBabylmベースラインを上回りながら、その複雑な目的を最適化し、テキストのみのWhisbertベースラインを上回ります。

Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA (Singh et al., 2022). In accordance with Babylm guidelines (Warstadt et al., 2023), we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset (Galvez et al., 2021). To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
翻訳日:2023-12-08 11:19:04 公開日:2023-12-07